使用したモデル
「qwen2.5-bakeneko-32b-instruct-v2」はrinnaが公開している日本語言語モデルです。非常に良いとの情報を得たのでLM Studioで動かしてみました。今回使用したのはrinnaが公式に公開している「qwen2.5-bakeneko-32b-instruct-v2-q4_k.gguf」という4bitに量子化されたモデルです。DeepSeek R1 Distill Qwen2.5 Bakeneko 32B GGUF (rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf)
LM Studioから検索すれば簡単に見つかると思います。
使用したPC
ゲーミングPC 『GALLERIA(ガレリア) ZL7C-R38H』です。Windows 11 Home Core i7-12700H GeForce RTX 3080 Laptop VRAM 16GB RAM: 32GB
結果
今回はContext Length 8192とやや多めの数字で固定しています。変更したのはそれ以外にGPU Offloadの部分のみです。その他はデフォルトのままにしています。GPU Offload 40/64

3.52 tok/sec 1.40s to first token
GPU Offload 42/64

3.97 tok/sec 1.08s to first token
GPU Offload 44/64

4.48 tok/sec 1.14s to first token
GPU Offload 46/64

4.43 tok/sec 0.90s to first token
感想
頑張って4.4 tokens/sec程度です。使えないこともないですが実用的かというとやや疑問です。RTX 4090 (VRAM 24GB) で実行
VRAM 24GB搭載のRTX 4090で実行した時の結果を参考として載せておきます。
38.02 tok/sec 0.26s to first token