https://nowokay.hatenablog.com/entry/2026/03/24/000408

さくらのAI EngineでKimi-K2.5を動かしたらとてもいい感じだったけどThinkingの挙動が使いづらいので、Mac Studio 512GBでUnslothさんのところのQ2_K_XLをLM Studioで動かして比べてみました。
Kimi-K2.5をさくらのAI Engineで試したら1Tパラメータの実力を感じた - きしだのHatena

APIでのThinkingを見てみる

APIがThinkingを分けてれるかどうかみてみます。
さくらさんのだと、本文としてThinkingが出て、途中に</think>が入ってます。

なのでRoo Codeがうまく動かなかったりしていました。

ところで80tok/sec出てますね。
日中はレスポンス返ってこなかったり15tok/secしか出てなかったりしました。みんな使い始めたのかな。

おうちのLM Studioで動かすとAPIでThinkingと本文が分離しています。

20tok/sec出てるじゃん！と思った人はぬか喜びです。確かに出力スピードはそこそこある。詳しくは次のRoo Codeで。

Roo Codeを動かす

ということで、さくらのAPIで動かなかったRoo Codeを動かしてみます。
動いた。

しかし、Roo Codeのシステムプロンプト10Kトークンを読み込む処理が遅く、動き始めるのに2分くらい待ちます。
M3 Mac Studioは、256GBで動かないけど512GBでは動くような巨大モデルを動かす場合にとにかくプロンプト読み込みが遅くて、実用的ではありません。
プロンプト読み込みはGPU性能が必要になる処理で、Apple Siliconの弱いところです。M5ではプロンプト読み込みのスピードが倍になったようなので改善してるはず。

40分くらい待ってTODO管理アプリができました。
特に問題なく追加削除変更できてます。

このくらいのサイズのモデルになると、Q2でも十分にコードが書けますね。

ちなみに、1リクエストに3分かかるとして、20日8時間ずっと動かすと3000リクエストくらいなので、さくらさん使ったほうがいいと思います。

改善検討中とのこと

さくらさんの方でも問題は認識していて、対応検討中のようです。

ご意見ありがとうございます‼️
Thinkingの出力が本文と分離されていない点については認識しており、現在改善を検討しております。
いただいたユースケースも踏まえ、より使いやすい形になるよう対応を進めてまいります🙇‍♂️
— さくらのAI (@sakura_AI_pr) 2026年3月23日

いろいろ動かしやすくなるので期待。

※ 追記 3/25 対応されたのでOpen WebUIやOpenCodeで問題がなくなりましたが、LangChain4JやRoo Codeでの対応はまだのようです。

【🌸機能改善のお知らせ🌸】
皆様に「Kimi-K2.5」をお試しいただきありがとうございます！
多くのご要望をいただいていた <think> 出力を改善しました。
ぜひお試しください！
※Roo Codeとの相性問題は引き続き調査中です。
ご意見もお待ちしております！ https://t.co/AdzWWi6PYp
— さくらのAI (@sakura_AI_pr) 2026年3月25日