最近、卒業研究の論文で忙しかったのですが、ようやく峠をこえました🤗そんななかで「Graniteって最近どうなってるんだろう?」と思い立ち、公式サイトやHugging Faceのibm-graniteリポジトリを眺めてみました。LlamaやMistral、Qwenなど選択肢が増える中で、IBM Granite(以降Granite)はどこに向かっているのか…🤔正直なところ、AI関連の情報リリースのペースが速すぎて全体像を把握しきれていません🥲
そこで、今回はGraniteのこの半年間の動向をあらためて整理してみました。
2025年、Graniteは大きな転換点があったようです。Granite 3.2から始まり、3.3、そして10月のGranite 4.0へ。半年という短期間に、アーキテクチャの刷新、マルチモーダル対応、エッジ向け超軽量モデルと、リリースが続いています。
参考
- この半年のリリースタイムライン
- Granite 4.0の技術的革新:ハイブリッドアーキテクチャとは何か
- 他のオープンモデルとの差別化
- ベンチマーク比較:数字で見る実力
- エッジAIの選択肢となるGranite 4.0 Nano
- まとめ:Graniteを選ぶ理由
この半年のリリースタイムライン
まず、2025年後半から2026年初頭にかけての主要リリースを時系列で振り返ります。
| 時期 | リリース | 主な特徴 |
|---|---|---|
| 2025年4月 | Granite 3.3 | 初の音声モデル(Speech 3.3 8B)、Fill-in-the-Middle対応 |
| 2025年8月 | Granite Guardian 3.3 | ハイブリッドThinkingモード、RAG向けハルシネーション検知強化 |
| 2025年10月 | Granite 4.0 | ハイブリッドMamba/Transformerアーキテクチャ採用 |
| 2025年10月 | Granite 4.0 Nano | 350M〜1Bクラスの超軽量モデル |
| 2025年12月 | watsonx.ai v2.3.0 | 2025年末時点で watsonx.ai などでも Granite 4.0 系や Docling 推論が利用可能になりつつある |
単なるバージョンアップではなく、各リリースで明確な機能拡張の方向性があることです。3.2で推論能力、3.3でマルチモーダル(音声)、4.0でアーキテクチャ刷新と効率化。つまり、汎用的な巨大モデル競争ではなく、実用性と効率性を重視した開発路線を取っていたように見えます。
Granite 4.0の技術的革新:ハイブリッドアーキテクチャとは何か
Granite 4.0の技術的特徴は、Mamba-2状態空間モデル(SSM)とTransformerを組み合わせたハイブリッドアーキテクチャの採用です。
なぜTransformer単独ではダメなのか
従来のTransformerアーキテクチャには、長文処理時の課題があります。
TransformerのSelf-Attention機構は、入力トークン数Nに対してO(N²)の計算量を必要です。つまり、入力が2倍になると計算量は4倍となり、「長いコンテキストを扱うとメモリが爆発する」問題の原因となってしまいます。
加えて、推論時には過去のトークン情報を保持するKVキャッシュが必要で、これもコンテキスト長に比例して肥大化します。複数セッションを同時に処理する環境においては、このメモリ消費が深刻な問題になります。
Mamba-2が解決すること
Mamba-2(状態空間モデル)は、入力を固定サイズの「状態」に圧縮しながらシーケンシャルに処理します。計算量はO(N)の線形スケーリングで、コンテキストが長くなっても計算量が爆発しません。KVキャッシュも不要です。
ただし、Mamba単独では過去の特定トークンを正確に参照する能力(Recall)が低下するという課題がありました。例えるなら、長い契約書の中から特定の条項を一言一句正確に抽出する、といったタスクで精度が落ちてしまいます。
効率と精度を両立させるハイブリッド設計
この解決策として、Mamba層とTransformer層を9:1の比率で配置するハイブリッド構造を採用しました。
- 90%のMamba層 … 情報の圧縮と高速処理を担当。メモリ効率を確保
- 10%のTransformer層 … 高精度な参照が必要な部分を担当。特定箇所を正確に抽出する能力を維持
この設計を採用することにより、Granite 4.0はメモリ消費量を最大70%削減しながら、同等サイズの従来型モデルに匹敵する精度を実現しています。
| 指標 | 従来のTransformer | Granite 4.0(ハイブリッド) |
|---|---|---|
| 計算量スケーリング | O(N²) | O(N) |
| KVキャッシュ | コンテキスト長に比例して増大 | Mamba層では不要 |
| メモリ消費(長文処理時) | 急増 | 安定 |
| 参照精度 | 高い | Transformer層で維持 |
MoE(Mixture of Experts)との組み合わせ
Granite 4.0のTinyとSmallでは、ハイブリッドアーキテクチャに加えてMoE(Mixture of Experts) も採用されています。
| モデル | 総パラメータ | 実働パラメータ |
|---|---|---|
| Granite 4.0 H-Tiny | 7B | 1B |
| Granite 4.0 H-Small | 32B | 9B |
H-Smallは32Bの知識量を持ちながら、1トークン生成時には9B分の計算で済む。「知識量」と「推論速度」のトレードオフを緩和する設計です。
他のオープンモデルとの差別化
「Llama、Mistral、Qwenがある中で、なぜGraniteなのか」。この問いに答えられるよう、主要な差別化ポイントを整理してみます。
1. ライセンスの違い
| モデル | ライセンス | 商用利用 | 改変・再配布 |
|---|---|---|---|
| Granite | Apache 2.0 | 完全に自由 | 完全に自由 |
| Llama | Community License | 条件付き(月間7億ユーザー制限等) | 制限あり |
| Mistral(オープン版) | Apache 2.0 | 自由 | 自由 |
| Qwen | モデルにより混在 | 要確認 | 要確認 |
| DeepSeek-R1 | MIT | 自由 | 自由 |
LlamaのCommunity License Agreementは、一見オープンに見えて細かい制約があります。例えば、月間アクティブユーザーが7億人を超えるサービスでの利用にはMetaとの個別契約が必要。EU地域での利用制限もあります(マルチモーダルモデルのみ)。
社内でカスタマイズして複数プロジェクトに展開する、派生モデルを作って再配布する、といったケースでは、Apache 2.0の明快さが光るでしょう。
2. エンタープライズ向けガバナンス
ここがGraniteの最大の差別化ポイントです。(❓️は出典未確認)
| 項目 | Granite | Llama | Mistral |
|---|---|---|---|
| ISO 42001認証 | ✅ 取得済(オープンLLM初) | ❓️ | ❓️ |
| IP補償(watsonx経由) | ✅ あり | ❓️ | ❓️ |
| 暗号署名 | ✅ 暗号署名付きで配布されている | ❓️ | ❓️ |
ISO 42001はAI管理の国際規格で、オープンソースLLMでは世界初の取得。金融や医療など「ちゃんとしたモデルを使いたい」業界での採用ハードルが下がります。
IP補償は、watsonx経由で使う場合の安心材料。万が一、第三者IP請求に対する補償(条件付き)
3. アーキテクチャの先進性
2025年後半時点で、ハイブリッドMamba/Transformerを採用しているメジャーなオープンモデルとしてGranite 4.0が存在しています。
Llama、Mistral、QwenはいずれもTransformerベース。長文処理時のメモリ効率という観点では、Graniteにメリットがありそうです。
4. 専門モデルの充実度
汎用言語モデルだけでなく、特定用途に特化したモデル群が揃っている点も差別化要因です。
| 用途 | Graniteモデル | ベンチマーク実績 |
|---|---|---|
| 安全性チェック | Granite Guardian 3.3 | GuardBench TOP10中6枠独占 |
| 文書理解・OCR | Granite Vision 3.3 | OCRBench 上位 |
| 音声認識 | Granite Speech 3.3 | Hugging Face ASRリーダーボード上位 |
| 時系列予測 | Granite TTM | GIFT-Eval MASE指標上位(1-5Mパラメータ) |
| 文書変換 | Granite Docling | 258Mでレイアウト保持変換 |
Granite Guardianは、AIの「嘘」を検知するためのモデル。回答が根拠に基づいているか、質問に対して的確かをチェックできる機能です。生成モデルと組み合わせて使うことで、業務で安心して使える品質を確保できます。
ベンチマーク比較:数字で見る実力
AIのベンチマークが、どこまで意味のあるものかわからないですが、念の為ネットの資料から比較してみます。
指示追従能力(IFEval)
| モデル | パラメータ | スコア |
|---|---|---|
| Granite 4.0 Nano | 1B | 78.5 |
| Qwen 3 | 1.7B | 73.1 |
| Gemma 3 | 1B | 59.3 |
ツール呼び出し(Berkeley Function Calling Leaderboard v3)
AIエージェント開発で重要な「関数呼び出し」能力となります。
| モデル | スコア |
|---|---|
| Granite 4.0 Nano | 54.8 |
| Gemma 3 | 16.3 |
安全性(GuardBench)
| 順位 | モデル | スコア |
|---|---|---|
| 1位 | Granite Guardian 3.1 8B | 86% |
| ... | NVIDIA、Meta等のモデル | 下位 |
Granite 4.0 H-Smallは、Stanford HELMなどの総合ベンチマークでLlama 3.x 70Bクラスに近い性能を示しています。
エッジAIの選択肢となるGranite 4.0 Nano
Granite 4.0 Nanoは、350Mと1Bという超軽量モデルです。
「データをクラウドに送れない」「ネットワークが不安定」「リアルタイム応答が必要」といったエッジ環境での選択肢となりえるでしょう。
まとめ:Graniteを選ぶ理由
この半年のGraniteの進化を振り返ると、戦略は以下のように整理できるのではないでしょうか?
「最大・最強のモデル」ではなく、「企業が実際に使えるモデル」を作る。
- アーキテクチャ革新 … ハイブリッドMamba/Transformerで効率70%改善
- オープン性 … Apache 2.0で法的リスク軽減
- ガバナンス … ISO 42001、IP補償、暗号署名で信頼性担保
- 実用性 … 専門モデルとGuardianによる安全性確保
- エコシステム … watsonx、RHEL AIとの統合
コンプライアンス要件が厳しい業界、オンプレミス志向の組織、長文処理が多いユースケースでは、Graniteも有力な選択肢となりえそうです。
周りでGraniteを追っている人があまりいないのですが🥲今後も注目していきたいと思います。
本記事の情報は2026年1月時点のものです。最新情報はIBM Granite公式ページおよびHugging Face ibm-graniteをご確認ください。