
画像では思考過程(Reasoning)が閉じられていますが中を見ることが可能です。
はじめに
話題のQwQ-32BをAutoAWQで量子化してChatUIから使いました。使用したPC
プロセッサ Intel(R) Core(TM) i7-14700K 実装 RAM 96.0 GB GPU RTX 4090 (VRAM 24GB)
方法
vLLM側の操作
WSL2を使っています。量子化はv0.7.0環境を使いました。こちらを参照して下さい。python run_awq.py -M Qwen/QwQ-32B
その後の実行ですが公式ページのこちらにはこのようにしろと書かれています。
vllm serve models/QwQ-32B-awq --enable-reasoning --reasoning-parser deepseek_r1
しかしこの方法ではChatUIで使った時に思考過程が表示されませんでした。
通常通りに実行するとうまくいきました。
ここでは量子化の時とは異なる、最新のvLLMを使っています。
vllm serve models/QwQ-32B-awq --max-model-len 4096
ChatUI側の操作
こちらを参照して下さい。キモは「.evn.local」の記述です。
公式ページのこちらを参照しました。
MODELS=`[ { "name": "models/QwQ-32B-awq", "id": "models/QwQ-32B-awq", "preprompt": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step.", "description": "QwQ is the latest reasoning model released by the Qwen team, approaching the capabilities of R1 in benchmarks.", "reasoning": { "type": "tokens", "beginToken": "", "endToken": "</think>" }, "parameters": { "max_new_tokens": 2048 }, "endpoints": [{ "type": "openai", "baseURL": "http://localhost:8000/v1" }] } ]` MONGODB_URL=mongodb://localhost:27017