https://touch-sp.hatenablog.com/entry/2025/04/15/132535

使用したモデル

「qwen2.5-bakeneko-32b-instruct-v2」はrinnaが公開している日本語言語モデルです。

非常に良いとの情報を得たのでLM Studioで動かしてみました。

今回使用したのはrinnaが公式に公開している「qwen2.5-bakeneko-32b-instruct-v2-q4_k.gguf」という4bitに量子化されたモデルです。

DeepSeek R1 Distill Qwen2.5 Bakeneko 32B GGUF (rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf)

LM Studioから検索すれば簡単に見つかると思います。

使用したPC

ゲーミングPC　『GALLERIA（ガレリア） ZL7C-R38H』です。

Windows 11 Home
Core i7-12700H
GeForce RTX 3080 Laptop VRAM 16GB
RAM: 32GB

結果

今回はContext Length 8192とやや多めの数字で固定しています。

変更したのはそれ以外にGPU Offloadの部分のみです。その他はデフォルトのままにしています。

GPU Offload 40/64

3.52 tok/sec
1.40s to first token

GPU Offload 42/64

3.97 tok/sec
1.08s to first token

GPU Offload 44/64

4.48 tok/sec
1.14s to first token

GPU Offload 46/64

4.43 tok/sec
0.90s to first token

感想

頑張って4.4 tokens/sec程度です。

使えないこともないですが実用的かというとやや疑問です。

RTX 4090 (VRAM 24GB) で実行

VRAM 24GB搭載のRTX 4090で実行した時の結果を参考として載せておきます。

38.02 tok/sec
0.26s to first token

ランキング参加中

プログラミング