Dockerのインストール
こちらを参照して下さい。Docker imageの作成
git clone https://github.com/vllm-project/vllm cd vllm docker build -f Dockerfile.openvino -t vllm-openvino-env .
サーバー側
Run
データの保存先「/home/hoge/data」は適宜変更して下さい。docker run -it --rm -v /home/hoge/data:/root/.cache/huggingface -p 8000:8000 vllm-openvino-env
vLLMの実行
vllm serve Qwen/Qwen2.5-7B-Instruct
クライアント側
Pythonスクリプト
from openai import OpenAI # Set OpenAI's API key and API base to use vLLM's API server. openai_api_key = "EMPTY" openai_api_base = "http://localhost:8000/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) stream = client.chat.completions.create( model="Qwen/Qwen2.5-7B-Instruct", messages=[ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "Tell me a joke."}, ], stream=True ) for chunk in stream: print(chunk.choices[0].delta.content or "", end="") print()
補足
Dockerを使わない方法はこちらを参照して下さい。touch-sp.hateblo.jp