https://touch-sp.hateblo.jp/entry/2025/02/08/115802

Dockerのインストール

こちらを参照して下さい。

Docker imageの作成

git clone https://github.com/vllm-project/vllm
cd vllm
docker build -f Dockerfile.openvino -t vllm-openvino-env .

サーバー側

Run

データの保存先「/home/hoge/data」は適宜変更して下さい。

docker run -it --rm -v /home/hoge/data:/root/.cache/huggingface -p 8000:8000 vllm-openvino-env

vLLMの実行

vllm serve Qwen/Qwen2.5-7B-Instruct

クライアント側

Pythonスクリプト

from openai import OpenAI
# Set OpenAI's API key and API base to use vLLM's API server.
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

stream = client.chat.completions.create(
    model="Qwen/Qwen2.5-7B-Instruct",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Tell me a joke."},
    ],
    stream=True
)

for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="")
print()

補足

Dockerを使わない方法はこちらを参照して下さい。
touch-sp.hateblo.jp