https://error-daizenn.hatenablog.com/entry/2025/12/30/111141

本記事が扱う事象は、xAIが2025年11月17日に「Grok 4.1」を公開し、提供範囲・導入手順・評価指標・安全設計をあわせて示した点です。公開文面では、日常利用での対話品質を重視した最適化、段階導入（サイレントロールアウト）の評価、外部リーダーボードでの位置づけ、モデルカード（Model Card）での安全評価が並行して提示されています。そこで本記事では、公開された事実を軸に、変更点の整理と論点の構造をまとめます。 (xAI)

提供範囲と利用形態が「全ユーザー前提」に移った点

Grok 4.1はgrok.com、𝕏（X）、iOS/Androidアプリで全ユーザー向けに提供され、Autoモードで順次有効化される構成です。 (xAI)

xAIの公開情報では、Grok 4.1はWeb（grok.com）に加えて𝕏（X）とモバイルアプリで利用でき、モデル選択（model picker）から明示的に「Grok 4.1」を選べるとされています。これは、単に新モデルを追加したというより、利用者側の操作導線まで含めて「既定の選択肢」に近づける設計です。そのため、利用者の側で設定を変更しないケースでも、新モデルの応答特性が利用体験に反映されます。

ただし、モデルカードではGrok 4.1に「Thinking」と「Non-Thinking」の2構成があると整理されています。言い換えると、同じ名称でも推論計算の使い方が異なる系統が併存し、用途・応答速度・根拠の出し方に条件差が生じる可能性があります。以上を踏まえると、提供面の変更は「配布先の拡大」だけではなく、構成差を前提にした運用へ移った点が実務上の確認点となります。

サイレントロールアウトと嗜好評価で示された導入プロセス

2025年11月1日から14日にかけて本番トラフィックで段階導入を行い、旧モデル比で64.78%の嗜好勝率が示されています。 (xAI)

公開文面では、事前の2週間を「Silent Rollout」とし、grok.com、𝕏（X）、モバイルアプリで順次対象を広げたと説明されています。そうすることによって、研究用ベンチマークだけでなく、実利用の文脈に近い比較（ブラインドのペア比較）で選好を測る設計になります。この結果、導入判断の根拠として「どちらが好まれたか」という形の指標が前面に出ています。

なお、こうした嗜好評価は「正誤が一意に定まらない品質」（言い回し、対話の一貫性、意図の読み取り）を扱いやすい一方で、何が理由で選ばれたかは別途分解が必要です。他方、配布期間・対象面・評価方法が同時に提示されているため、比較の前提条件は追いやすい構成です。要点を整理すると、導入は段階配布と同時に評価が走る設計であり、評価が導入の説明に組み込まれています。

区分	期間/対象	結果	補足
段階導入	2025/11/1–11/14、本番トラフィック	ブラインドのペア比較を継続	grok.com/𝕏/アプリ横断 (xAI)
嗜好勝率	旧モデルとの比較	64.78%	“preferred”の比率 (xAI)
提供開始	2025/11/17	全ユーザー提供	Autoモードで展開 (xAI)

ただし、嗜好勝率は「どの種類の問いで差が出たか」を自動的には示しません。そこで公開文面では、創作、対人対話、情報探索など複数カテゴリの例示が続き、評価結果の整里を補助しています（軽微な誤字）。次章では、そのうち外部リーダーボードとモード差に関する部分を整理します。

項目	公式表現	共有文例（コピペ可）	確認点
導入方式	silent rollout	「段階配布中にブラインド比較を実施」	対象範囲の偏り
選好指標	win rate	「旧モデル比で選好が上回る比率」	何が要因か分解が必要
配布面	grok.com/𝕏/アプリ	「提供面を横断して一貫展開」	体験差の発生条件

LMArena上位という位置づけと「Thinking/Non-Thinking」の意味

LMArenaのText ArenaでGrok 4.1 Thinkingが1483 Eloで1位、Non-Thinkingが1465 Eloで2位と説明されています。 (xAI)

公開文面は、外部のブラインド比較型リーダーボードとしてLMArena（Text Arena）を引き、Grok 4.1 Thinking（コード名：quasarflux）とNon-Thinking（コード名：tensor）の順位を明示しています。ここでのEloは、対戦形式の比較結果を累積して相対評価に落とし込む指標であり、単発の正答率とは異なる性質です。そのため、日常対話の好みや文体の制御といった「人間の選好」が順位に反映されやすい構造です。

一方で、同じGrok 4.1でもThinkingとNon-Thinkingを分けて提示している点は重要です。Non-Thinkingは思考トークンを使わず即時応答とされ、応答速度の優先度が高い利用形態を想定します。他方、Thinkingは推論を挟む設計であり、根拠の整合や複雑な条件整理に寄せた構成になりやすいと読めます。つまり、ランキング上の位置づけは「単一のモデルの強さ」ではなく、「モード設計を含む製品設計」の評価として読む必要があります。 (xAI)

事後学習の変更点は「報酬モデルの使い方」に集約される

大規模強化学習の基盤を使い、文体・人格・有用性・アラインメント（整合）を最適化したと説明されています。 (xAI)

公開文面では、Grok 4で用いた大規模強化学習インフラをGrok 4.1にも適用し、スタイル、人格、helpfulness（有用性）、alignment（整合）を最適化したとされています。ここでの論点は、正誤が機械的に検証できるタスクではなく、「非検証型の報酬信号」をどう評価し、どう反復したかです。そのため、フロンティア級のagentic reasoningモデルを報酬モデルとして使い、自律的に評価と反復を回す新手法に触れています。 (xAI)

ただし、報酬モデルを高度化すると、評価基準の設計が実質的に品質を左右します。言い換えると、モデルの学習結果は「何を良い応答と定義したか」によって方向づけられます。この点から、外部ベンチマークの順位や嗜好勝率は結果の一部であり、内部の評価設計とセットで理解する必要があります。

他方、製品側の狙いが「実世界での使いやすさ」と明示されているため、正答率の議論だけでは捉えにくい改善を前提にしています。以上を踏まえると、Grok 4.1の変更点はモデル規模の更新というより、事後学習の評価・最適化の運用設計を拡張した点に集約されます。

モデルカードが示す安全評価と「正確性」改善の論点

モデルカードでは、乱用可能性・懸念される傾向・デュアルユース（dual-use）能力の3カテゴリで安全評価を整理しています。

モデルカード（2025年11月17日付）では、Grok 4.1をGrok 4/3の更新として位置づけつつ、事前の安全テストをリスク管理枠組み（Risk Management Framework, RMF）に沿って実施したと説明しています。カテゴリは、乱用可能性（abuse potential）、懸念される行動傾向（concerning propensities）、デュアルユース能力（dual-use capabilities）で、評価手法と緩和策（mitigations）を並列に扱います。

具体例として、入力フィルタの導入や、化学・生物の制限領域に対するフィルタ評価、対話モードでの拒否（refusal）評価、プロンプトインジェクション（prompt injection）への頑健性、さらに虚偽（deception）や迎合（sycophancy）といった傾向評価が記載されています。また、多言語評価の設定誤りを過去カードで認識し、今回の結果は過去と直接比較できない旨も書かれており、評価の前提条件を明示する姿勢が見えます。

なお、公開文面側では情報探索における誤り（hallucinations）の低減を掲げ、検索ツールを使う高速系モデルの制約にも触れています。つまり、速度と正確性の両立は設計上の継続課題であり、評価・フィルタ・拒否方針をどこまで統合するかが判断材料として重要です。以上を踏まえると、Grok 4.1は「対話品質の最適化」と「安全評価の枠組み提示」を同時に進めた公開であり、成果指標と前提条件をセットで読む必要があります。 (xAI)