以下の内容はhttps://touch-sp.hatenablog.com/entry/2025/04/15/132535より取得しました。


LM Studio で qwen2.5-bakeneko-32b-instruct-v2 を試してみる。VRAM 16GBで実用的に使用できるのかどうか?

使用したモデル

「qwen2.5-bakeneko-32b-instruct-v2」はrinnaが公開している日本語言語モデルです。

非常に良いとの情報を得たのでLM Studioで動かしてみました。

今回使用したのはrinnaが公式に公開している「qwen2.5-bakeneko-32b-instruct-v2-q4_k.gguf」という4bitに量子化されたモデルです。

DeepSeek R1 Distill Qwen2.5 Bakeneko 32B GGUF (rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b-gguf)

LM Studioから検索すれば簡単に見つかると思います。

使用したPC

ゲーミングPC 『GALLERIA(ガレリア) ZL7C-R38H』です。

Windows 11 Home
Core i7-12700H
GeForce RTX 3080 Laptop VRAM 16GB
RAM: 32GB

結果

今回はContext Length 8192とやや多めの数字で固定しています。

変更したのはそれ以外にGPU Offloadの部分のみです。その他はデフォルトのままにしています。

GPU Offload 40/64


3.52 tok/sec
1.40s to first token

GPU Offload 42/64


3.97 tok/sec
1.08s to first token

GPU Offload 44/64


4.48 tok/sec
1.14s to first token

GPU Offload 46/64


4.43 tok/sec
0.90s to first token

感想

頑張って4.4 tokens/sec程度です。

使えないこともないですが実用的かというとやや疑問です。

RTX 4090 (VRAM 24GB) で実行

VRAM 24GB搭載のRTX 4090で実行した時の結果を参考として載せておきます。

38.02 tok/sec
0.26s to first token







以上の内容はhttps://touch-sp.hatenablog.com/entry/2025/04/15/132535より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14