以下の内容はhttps://nowokay.hatenablog.com/entry/2026/03/24/000408より取得しました。


Kimi-K2.5をおうちで動かして さくらのAI Engineと比べる。Roo Codeも問題ないけども…

さくらのAI EngineでKimi-K2.5を動かしたらとてもいい感じだったけどThinkingの挙動が使いづらいので、Mac Studio 512GBでUnslothさんのところのQ2_K_XLをLM Studioで動かして比べてみました。
Kimi-K2.5をさくらのAI Engineで試したら1Tパラメータの実力を感じた - きしだのHatena

APIでのThinkingを見てみる

APIがThinkingを分けてれるかどうかみてみます。
さくらさんのだと、本文としてThinkingが出て、途中に</think>が入ってます。

なのでRoo Codeがうまく動かなかったりしていました。

ところで80tok/sec出てますね。
日中はレスポンス返ってこなかったり15tok/secしか出てなかったりしました。みんな使い始めたのかな。

おうちのLM Studioで動かすとAPIでThinkingと本文が分離しています。

20tok/sec出てるじゃん!と思った人はぬか喜びです。確かに出力スピードはそこそこある。詳しくは次のRoo Codeで。

Roo Codeを動かす

ということで、さくらのAPIで動かなかったRoo Codeを動かしてみます。
動いた。

しかし、Roo Codeのシステムプロンプト10Kトークンを読み込む処理が遅く、動き始めるのに2分くらい待ちます。
M3 Mac Studioは、256GBで動かないけど512GBでは動くような巨大モデルを動かす場合にとにかくプロンプト読み込みが遅くて、実用的ではありません。
プロンプト読み込みはGPU性能が必要になる処理で、Apple Siliconの弱いところです。M5ではプロンプト読み込みのスピードが倍になったようなので改善してるはず。

40分くらい待ってTODO管理アプリができました。
特に問題なく追加削除変更できてます。

このくらいのサイズのモデルになると、Q2でも十分にコードが書けますね。

ちなみに、1リクエストに3分かかるとして、20日8時間ずっと動かすと3000リクエストくらいなので、さくらさん使ったほうがいいと思います。

改善検討中とのこと

さくらさんの方でも問題は認識していて、対応検討中のようです。

いろいろ動かしやすくなるので期待。

※ 追記 3/25 対応されたのでOpen WebUIやOpenCodeで問題がなくなりましたが、LangChain4JやRoo Codeでの対応はまだのようです。




以上の内容はhttps://nowokay.hatenablog.com/entry/2026/03/24/000408より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14