最近、卒業研究の論文で忙しかったのですが、ようやく峠をこえました🤗そんななかで「Graniteって最近どうなってるんだろう？」と思い立ち、公式サイトやHugging Faceのibm-graniteリポジトリを眺めてみました。LlamaやMistral、Qwenなど選択肢が増える中で、IBM Granite（以降Granite）はどこに向かっているのか…🤔正直なところ、AI関連の情報リリースのペースが速すぎて全体像を把握しきれていません🥲

そこで、今回はGraniteのこの半年間の動向をあらためて整理してみました。

2025年、Graniteは大きな転換点があったようです。Granite 3.2から始まり、3.3、そして10月のGranite 4.0へ。半年という短期間に、アーキテクチャの刷新、マルチモーダル対応、エッジ向け超軽量モデルと、リリースが続いています。

参考

www.ibm.com

huggingface.co

この半年のリリースタイムライン

まず、2025年後半から2026年初頭にかけての主要リリースを時系列で振り返ります。

時期	リリース	主な特徴
2025年4月	Granite 3.3	初の音声モデル（Speech 3.3 8B）、Fill-in-the-Middle対応
2025年8月	Granite Guardian 3.3	ハイブリッドThinkingモード、RAG向けハルシネーション検知強化
2025年10月	Granite 4.0	ハイブリッドMamba/Transformerアーキテクチャ採用
2025年10月	Granite 4.0 Nano	350M〜1Bクラスの超軽量モデル
2025年12月	watsonx.ai v2.3.0	2025年末時点で watsonx.ai などでも Granite 4.0 系や Docling 推論が利用可能になりつつある

単なるバージョンアップではなく、各リリースで明確な機能拡張の方向性があることです。3.2で推論能力、3.3でマルチモーダル（音声）、4.0でアーキテクチャ刷新と効率化。つまり、汎用的な巨大モデル競争ではなく、実用性と効率性を重視した開発路線を取っていたように見えます。

Granite 4.0の技術的革新：ハイブリッドアーキテクチャとは何か

Granite 4.0の技術的特徴は、Mamba-2状態空間モデル（SSM）とTransformerを組み合わせたハイブリッドアーキテクチャの採用です。

なぜTransformer単独ではダメなのか

従来のTransformerアーキテクチャには、長文処理時の課題があります。

TransformerのSelf-Attention機構は、入力トークン数Nに対してO(N²)の計算量を必要です。つまり、入力が2倍になると計算量は4倍となり、「長いコンテキストを扱うとメモリが爆発する」問題の原因となってしまいます。

加えて、推論時には過去のトークン情報を保持するKVキャッシュが必要で、これもコンテキスト長に比例して肥大化します。複数セッションを同時に処理する環境においては、このメモリ消費が深刻な問題になります。

Mamba-2が解決すること

Mamba-2（状態空間モデル）は、入力を固定サイズの「状態」に圧縮しながらシーケンシャルに処理します。計算量はO(N)の線形スケーリングで、コンテキストが長くなっても計算量が爆発しません。KVキャッシュも不要です。

ただし、Mamba単独では過去の特定トークンを正確に参照する能力（Recall）が低下するという課題がありました。例えるなら、長い契約書の中から特定の条項を一言一句正確に抽出する、といったタスクで精度が落ちてしまいます。

効率と精度を両立させるハイブリッド設計

この解決策として、Mamba層とTransformer層を9:1の比率で配置するハイブリッド構造を採用しました。

90%のMamba層　…　情報の圧縮と高速処理を担当。メモリ効率を確保
10%のTransformer層　…　高精度な参照が必要な部分を担当。特定箇所を正確に抽出する能力を維持

この設計を採用することにより、Granite 4.0はメモリ消費量を最大70%削減しながら、同等サイズの従来型モデルに匹敵する精度を実現しています。

指標	従来のTransformer	Granite 4.0（ハイブリッド）
計算量スケーリング	O(N²)	O(N)
KVキャッシュ	コンテキスト長に比例して増大	Mamba層では不要
メモリ消費（長文処理時）	急増	安定
参照精度	高い	Transformer層で維持

MoE（Mixture of Experts）との組み合わせ

Granite 4.0のTinyとSmallでは、ハイブリッドアーキテクチャに加えてMoE（Mixture of Experts） も採用されています。

モデル	総パラメータ	実働パラメータ
Granite 4.0 H-Tiny	7B	1B
Granite 4.0 H-Small	32B	9B

H-Smallは32Bの知識量を持ちながら、1トークン生成時には9B分の計算で済む。「知識量」と「推論速度」のトレードオフを緩和する設計です。

他のオープンモデルとの差別化

「Llama、Mistral、Qwenがある中で、なぜGraniteなのか」。この問いに答えられるよう、主要な差別化ポイントを整理してみます。

1. ライセンスの違い

モデル	ライセンス	商用利用	改変・再配布
Granite	Apache 2.0	完全に自由	完全に自由
Llama	Community License	条件付き（月間7億ユーザー制限等）	制限あり
Mistral（オープン版）	Apache 2.0	自由	自由
Qwen	モデルにより混在	要確認	要確認
DeepSeek-R1	MIT	自由	自由

LlamaのCommunity License Agreementは、一見オープンに見えて細かい制約があります。例えば、月間アクティブユーザーが7億人を超えるサービスでの利用にはMetaとの個別契約が必要。EU地域での利用制限もあります（マルチモーダルモデルのみ）。

社内でカスタマイズして複数プロジェクトに展開する、派生モデルを作って再配布する、といったケースでは、Apache 2.0の明快さが光るでしょう。

2. エンタープライズ向けガバナンス

ここがGraniteの最大の差別化ポイントです。（❓️は出典未確認）

項目	Granite	Llama	Mistral
ISO 42001認証	✅ 取得済（オープンLLM初）	❓️	❓️
IP補償（watsonx経由）	✅ あり	❓️	❓️
暗号署名	✅ 暗号署名付きで配布されている	❓️	❓️

ISO 42001はAI管理の国際規格で、オープンソースLLMでは世界初の取得。金融や医療など「ちゃんとしたモデルを使いたい」業界での採用ハードルが下がります。

IP補償は、watsonx経由で使う場合の安心材料。万が一、第三者IP請求に対する補償（条件付き）

3. アーキテクチャの先進性

2025年後半時点で、ハイブリッドMamba/Transformerを採用しているメジャーなオープンモデルとしてGranite 4.0が存在しています。

Llama、Mistral、QwenはいずれもTransformerベース。長文処理時のメモリ効率という観点では、Graniteにメリットがありそうです。

4. 専門モデルの充実度

汎用言語モデルだけでなく、特定用途に特化したモデル群が揃っている点も差別化要因です。

用途	Graniteモデル	ベンチマーク実績
安全性チェック	Granite Guardian 3.3	GuardBench TOP10中6枠独占
文書理解・OCR	Granite Vision 3.3	OCRBench 上位
音声認識	Granite Speech 3.3	Hugging Face ASRリーダーボード上位
時系列予測	Granite TTM	GIFT-Eval MASE指標上位（1-5Mパラメータ）
文書変換	Granite Docling	258Mでレイアウト保持変換

Granite Guardianは、AIの「嘘」を検知するためのモデル。回答が根拠に基づいているか、質問に対して的確かをチェックできる機能です。生成モデルと組み合わせて使うことで、業務で安心して使える品質を確保できます。

ベンチマーク比較：数字で見る実力

AIのベンチマークが、どこまで意味のあるものかわからないですが、念の為ネットの資料から比較してみます。

指示追従能力（IFEval）

モデル	パラメータ	スコア
Granite 4.0 Nano	1B	78.5
Qwen 3	1.7B	73.1
Gemma 3	1B	59.3

ツール呼び出し（Berkeley Function Calling Leaderboard v3）

AIエージェント開発で重要な「関数呼び出し」能力となります。

モデル	スコア
Granite 4.0 Nano	54.8
Gemma 3	16.3

安全性（GuardBench）

順位	モデル	スコア
1位	Granite Guardian 3.1 8B	86%
...	NVIDIA、Meta等のモデル	下位

Granite 4.0 H-Smallは、Stanford HELMなどの総合ベンチマークでLlama 3.x 70Bクラスに近い性能を示しています。

エッジAIの選択肢となるGranite 4.0 Nano

Granite 4.0 Nanoは、350Mと1Bという超軽量モデルです。

WebGPU対応　…　Chromeなどのブラウザ内でローカル動作
Ollama対応　…　ollama run granite4:1bで即起動
GGUF形式　…　CPUオンリー環境でも動作

「データをクラウドに送れない」「ネットワークが不安定」「リアルタイム応答が必要」といったエッジ環境での選択肢となりえるでしょう。

まとめ：Graniteを選ぶ理由

この半年のGraniteの進化を振り返ると、戦略は以下のように整理できるのではないでしょうか？

「最大・最強のモデル」ではなく、「企業が実際に使えるモデル」を作る。

アーキテクチャ革新　…　ハイブリッドMamba/Transformerで効率70%改善
オープン性　…　Apache 2.0で法的リスク軽減
ガバナンス　…　ISO 42001、IP補償、暗号署名で信頼性担保
実用性　…　専門モデルとGuardianによる安全性確保
エコシステム　…　watsonx、RHEL AIとの統合

コンプライアンス要件が厳しい業界、オンプレミス志向の組織、長文処理が多いユースケースでは、Graniteも有力な選択肢となりえそうです。

周りでGraniteを追っている人があまりいないのですが🥲今後も注目していきたいと思います。

本記事の情報は2026年1月時点のものです。最新情報はIBM Granite公式ページおよびHugging Face ibm-graniteをご確認ください。