https://touch-sp.hatenablog.com/entry/2025/03/09/092016

画像では思考過程（Reasoning）が閉じられていますが中を見ることが可能です。

はじめに

話題のQwQ-32BをAutoAWQで量子化してChatUIから使いました。

使用したPC

プロセッサ	Intel(R) Core(TM) i7-14700K
実装 RAM	96.0 GB
GPU		RTX 4090 (VRAM 24GB)

方法

vLLM側の操作

WSL2を使っています。

量子化はv0.7.0環境を使いました。こちらを参照して下さい。

python run_awq.py -M Qwen/QwQ-32B

その後の実行ですが公式ページのこちらにはこのようにしろと書かれています。

vllm serve models/QwQ-32B-awq --enable-reasoning --reasoning-parser deepseek_r1

しかしこの方法ではChatUIで使った時に思考過程が表示されませんでした。

通常通りに実行するとうまくいきました。
ここでは量子化の時とは異なる、最新のvLLMを使っています。

vllm serve models/QwQ-32B-awq --max-model-len 4096

ChatUI側の操作

こちらを参照して下さい。

キモは「.evn.local」の記述です。
公式ページのこちらを参照しました。

MODELS=`[
  {
    "name": "models/QwQ-32B-awq",
    "id":  "models/QwQ-32B-awq",
    "preprompt": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step.",
    "description": "QwQ is the latest reasoning model released by the Qwen team, approaching the capabilities of R1 in benchmarks.",
    "reasoning": {
      "type": "tokens",
      "beginToken": "",
      "endToken": "</think>"
    },
    "parameters": {
      "max_new_tokens": 2048
    },
    "endpoints": [{
        "type": "openai",
        "baseURL": "http://localhost:8000/v1"
    }]
  }
]`

MONGODB_URL=mongodb://localhost:27017

ランキング参加中

プログラミング