https://stockmark-tech.hatenablog.com/entry/2025/06/03/101007

ストックマークは、GENIACの第2期にて開発した、ハルシネーションを大幅抑止した1,000億パラメータのドキュメント読解基盤モデル「Stockmark-2-VL-100B」をHuggingFace Hubで公開します。本モデルはQwen2.5-VL-72Bの合成データを用いているので、Qwenライセンスの下で提供します。日本語ドキュメント読解性能においてGPT-4oよりも優れた総合性能を示すことがわかりました。このブログでは開発したStockmark-2-VL-100Bのモチベーション、アーキテクチャ、学習、性能評価を紹介します。

【基盤モデル公開先】

Stockmark-2-VL-100B：https://huggingface.co/stockmark/Stockmark-2-VL-100B-beta
Stockmark-2-100B-Instruct-beta：https://huggingface.co/stockmark/Stockmark-2-100B-Instruct-beta

開発の背景

2024年10月に国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）が実施する「ポスト５Ｇ情報通信システム基盤強化研究開発事業／ポスト５Ｇ情報通信システムの開発」に採択されました。これは、経済産業省の国内の生成AIの開発力強化を目的としたGENIACプロジェクトと連携して行われており、国内事業者に対して生成AIの開発に必要な計算資源の確保と利用料補助を行うものです。当社は2024年2月から開始されたGENIACの第１期のプロジェクトにも採択されており、今回の第２期のプロジェクトで２回目の採択になります。

今回の事業では「ハルシネーションを抑止したドキュメント読解基盤モデルの構築」のテーマで採択され、私たちが普段業務で扱うような複雑なドキュメントでも正確に理解できるマルチモーダルの基盤モデルを目指して開発を行なっています。事業としては大まかには、以下のように、二つのパートからなっています。

基盤となる日本語性能の高い1000億パラメータのLLMをフルスクラッチで開発する。
上で開発したLLMに対してマルチモーダル学習を行い、正確性の高いドキュメント読解のための基盤モデルを開発する。

前者の内容については前回のブログで紹介しました (https://stockmark-tech.hatenablog.com/entry/2025/03/06/114203)。今回のブログでは主に後者の内容を扱います。

モチベーション

日本のビジネスのワークフローでは、財務報告書などのPDFやプレゼン資料（PPT）、チャートなど、文字と画像が混在したドキュメントが日常的に扱われています。これらに埋め込まれた重要な情報は、モノモーダルな言語モデルやOCRだけでは抽出できません。そのため、視覚言語モデル（VLM：Vision Language Model）が不可欠です。VLMはピクセルとテキストを同時にモデリングすることで、図表の数値、凡例、視覚的に強調された要素などをエンドツーエンドで理解できます。視覚的根拠と言語的文脈を融合させることで、VLMは「この図表で四半期ごとの成長率が最も高い製品はどれですか？」のようなクロスモーダルな質問にも回答できます。

VLMのパラダイムを基盤に、今回の事業ではChain-of-Thought（CoT：思考過程の生成）メカニズムをさらに組み込みました。ビジネスユースケースでは、正確な回答だけでなく、OCRの読み取り結果、数値計算、論理的推論を含む検証可能な推論プロセスが求められます。思考ステップを明示的に生成することで、回答を特定の画像領域やテキスト上の証拠にひも付けることができます。これにより、ハルシネーションを抑止し解釈可能性を向上させ、信頼性が高く検証しやすいマルチモーダル基盤モデルをドキュメント読解に提供できます。

モデルアーキテクチャ

Stockmark-2-VL-100Bのアーキテクチャは、LLaVA-OneVision*1と同じフレームワークに従って構築されています。

LLM：LLMについては、アーキテクチャとデータに関する先行実験で、パラメータ数の少ないQwen2-7B-Instructを使用していました。本番学習では、Stockmark-2-100B-Instruct-betaを使用しました。
Vision encoder：公式のLLaVA-OneVisionで使用されているSigLIP (google/siglip-so400m-patch14-384)に対して、多言語性能に優れた最新のSigLIP2 (google/siglip2-so400m-patch14-384)をvision encoderとして採用しました。アブレーション実験では、SigLIP2を使用したモデルの方がSigLIPよりも優れた性能を発揮することがわかりました。
Projector：projectorの2層MLPについては初期値としてランダムな重みを用いていました。

モデルの学習

公式のLLaVA-OneVisionと同様に、Stockmark-2-VL-100Bの学習は3つのステージに分かれています。

ステージ 1 – アラインメント事前学習：初期段階では、projectorのみ重みを更新し、約100万組の「画像-テキスト」ペアを使用して、vision encoderの視覚的特徴を言語埋め込み空間にアラインメントします。これにより、LLMはvision encoderからの視覚的特徴を捉えられるようになります。この段階では、LLMとvision encoderの重みは更新されません。これにより、高速なイテレーションと安定な収束を実現しつつ、後続の複雑なタスクにおけるクロスモーダルアラインメントの基盤を確立します。
ステージ 1.5 – 混合キャプションの拡張：この中間段階では、projectorは学習可能なまま、LLMとvision encoderも学習の凍結が解除されます。数千万件の一般ドメインキャプションと画像-テキストインターリーブデータサンプルにより、視覚的カバレッジが拡大し、OCR関連の語彙が注入され、言語モデルに「見たものを説明する」ことを徐々に学習させます。この段階では、深い推論よりも、語彙の多様性とロバスト性に重点が置かれます。
ステージ 2 – 指示と推論のFine-tuning：最終ステージでは、projector、LLM、vision encoderがすべて凍結解除され、回答に明確なCoTが記載された数百万件の高品質なVisual Question Answering（VQA）および対話サンプルが入力されます。タスクの難易度を段階的に高めるカリキュラムにより、モデルは信頼性の高いの文書読解のための多段階推論を実行できるようになります。

学習データ

高品質の学習データセットを構築するため、以下の点に注力しました。

学習データの収集とアノテーション：商用利用が可能な公開の学習データセットを大量に収集しました。さらに、収集したビジネスドキュメントに、手作業で詳細なアノテーションを付け、それに基づいてキャプションデータセットとVQAデータセットを構築しました。
日本語データの合成：英語サンプルを直接機械翻訳すると、セマンティック情報と視覚情報の乖離が生じる可能性があります。この問題を解決するため、Qwen2.5-VL-72B-Instructを使用してすべての英語サンプルを再合成し、画像内の英語テキストが質問と回答のテキストと一致するようにしました。
図表データの合成：モデルの図表理解能力を向上させるため、Qwen2.5-72B-Instructを使用して大量の図表メタデータを合成し、さらに画像のレンダリングとVQAサンプルの合成に利用しました。
CoTデータの合成：モデルのCoT能力は、VQAの性能向上（特に複雑な質問に対応する場合）に不可欠です。公開されている日本語のVQAデータセットのほとんどは、短い回答のみを提供しています。このようなデータを使用してモデルを学習すると、推論能力が制限される可能性があります。この問題を解決するため、Qwen2.5-VLを使用して画像から日本語のCoTサンプルを再合成しました。
合成データのフィルタリング：LLM-as-a-judgeを用いたデータフィルタリングパイプラインを設計し、複数の評価基準（一貫性、ハルシネーションなど）に基づいてすべての合成データをフィルタリングし、高品質な学習データセットを得ました。
カリキュラム学習：モデル学習パイプラインは、以下の原則を含むカリキュラム学習に従います。
- 問題の難易度は、簡単なものから難しいものまであり、モデルは最初に簡単な問題を学習してから、徐々に複雑な推論問題に移行します。
- 一般ドメインデータの学習から始め、続いて図表データの学習に進みます。

評価データ

学習したモデルが、図表やテキストが混在するドキュメントを正確に理解できるかどうかを評価するため、スライド資料をベースとした評価データセット「BusinessSlideVQA」を作成しました。

このデータセットは、Web上で公開されているスライドに対し、VQAのアノテーションを以下の形式で付与したものです。

{
  "question_id": 0,
  "image type": "テキスト",
  "image": "000ef93d430a2cbf484fa1577419bd709609cb5bede5627365e2e107a079cdc3_page_003.png",
  "question": "令和6年度1月判断では、総括判断はどのようになっていますか。",
  "answer": "10地域で据え置きとなりました。"
}

この評価データを用いることで、モデルがテキスト情報に加えて、図や表、グラフなどを正確に読み取れているかを検証できます。

データセットは以下にて公開しています。

BusinessSlideVQA： https://github.com/stockmarkteam/business-slide-questions

モデルマージ

今回の事業の主な目標は、ドキュメント読解能力の高いVLMを学習させることですが、一般ドメインでも高い性能を発揮することを期待しています。これを実現するために、モデルマージを適用しました。ステージ 2の最終段階では、一般ドメインの学習データとドキュメント中心の学習データ（スライド、チャート、表など）を用いて、2つのモデルを別々に学習しました。これらの2つのモデルは、mergekit*2を使用して最終モデルにマージされました。実験結果から、マージされたモデルは、一般ドメインとドキュメント読解における2つのベースモデルの性能をバランスよく両立させつつ、一部のベンチマークでは2つのベースモデルよりも優れた性能を発揮することが示されました。

性能評価

評価結果

日本語ドキュメント読解と日本語一般ドメインVQAに対して、性能評価を行いました。今回の評価で比較対象としたモデルは、主に以下の日本の最新 VLM モデルです。

Heron-NVILA-Lite-15B: turing-motors/Heron-NVILA-Lite-15B
sarashina2-vision-14b: sbintuitions/sarashina2-vision-14b
llm-jp-3-vila-14b: llm-jp/llm-jp-3-vila-14b

さらに、ドキュメント読解性能の評価には、比較モデルとしてGPT-4o（gpt-4o-2024-11-20）も採用しました。

ドキュメント読解性能評価

以下の3つのベンチマークを使用して、ドキュメント読解性能を評価しました。

JDocQA*3：合計1,175問。Stockmark-2-VL-100Bをllm-jp-eval-mm*4で評価し、比較指標としてLLM-as-a-judgeスコアを採用しました（gpt-4o-2024-11-20を評価モデルとして使用）。Stockmark-2-VL-100B以外のモデルのスコアは、2025年5月15日時点のllm-jp-eval-mmリーダーボードから取得しました。
BusinessSlideVQA*5 ：独自に構築した、合計220問の複雑な日本語のビジネススライド画像を理解する能力を評価するためのベンチマークです。評価指標はJDocQAと同じで、llm-as-a-judge（gpt-4o-2024-11-20を評価モデルとして使用）による採点です。
JChartQA：独自に構築した、ChartQA-valから100問をランダムに抽出し、質問と画像の英語テキストを日本語に翻訳してベンチマークです。

性能比較結果は下記の表に示されています。Stockmark-2-VL-100Bは、すべての性能指標において他の国内VLMモデルを大幅に上回っています。さらに、Stockmark-2-VL-100BはBusinessSlideVQAとJChartQAにおいてGPT-4oよりも高いスコアを達成し、ドキュメント読解性能においてGPT-4oよりも優れた総合性能を示しています。

日本語一般ドメインVQA性能評価

日本語の一般ドメインVQAにおけるモデルの性能を評価するために、よく使用される以下の3 つのベンチマークを選択しました。

Heron-Bench*6
JA-VLM-Bench-In-the-Wild*7
JA-VG-VQA500*8

llm-jp-eval-mmを使用して3つのベンチマークを評価しました。すべての生成パラメータはデフォルト値に設定し、採点に使用した評価モデルはgpt-4o-2024-11-20でした。

Stockmark-2-VL-100Bは、Heron-BenchおよびJA-VG-VQA500で最高得点を獲得し、JA-VLM-Bench-In-the-Wildでも上位にランクインしました。これにより、Stockmark-2-VL-100Bは、現時点で日本語の一般ドメインVQAタスクにおいて高性能な国産モデルであることが示されました。

生成結果の例

(A sample from BusinessSlideVQA, URL: https://www.jil.go.jp/event/ro_forum/20231019/resume/06-casestudy3-matsumoto.pdf)

質問：日本語の支援が必要な児童生徒数が最も多いのはいつですか。

Stockmark-2-VL-100B回答： まず、画像内の表を分析します。表には「日本語指導が必要」という項目があり、各年度(H29からR4)の人数が記載されています。

H29: 2,080人
H30: 2,320人
R1: 2,705人
R2: 2,923人
R3: 3,110人
R4: 3,297人

これらの数字を比較すると、R4(令和4年)が最も高い値を示しています。したがって、日本語の支援が必要な児童生徒数が最も多いのはR4(令和4年)です。

最終的な答え:R4(令和4年)

(A sample from JChartQA, URL: https://huggingface.co/datasets/HuggingFaceM4/ChartQA)

質問：上位2つのバーと下位2つのバーを足した値は何ですか？

Stockmark-2-VL-100B回答： まず、グラフから上位2つのバーと下位2つのバーの値を確認します。上位2つのバーは:

New York, U.S. - 44
Tokyo, Japan - 40

これらの値を足すと、44 + 40 = 84となります。

次に、下位2つのバーは:

Delhi, India - 4
Mexico City, Mexico - 5

これらの値を足すと、4 + 5 = 9となります。

最後に、上位2つのバーと下位2つのバーの合計値を求めます。 84 + 9 = 93

したがって、上位2つのバーと下位2つのバーを足した値は93です。

(A sample from JDocQA, URL: https://www.chuo-u.ac.jp/access/kourakuen/)

質問：後楽園キャンパスに徒歩10分以内で行ける駅はどこですか。

Stockmark-2-VL-100B回答： 画像には、後楽園キャンパスへのアクセス情報が記載されています。具体的には、以下の駅からの徒歩時間についての情報があります:

東京メトロ丸ノ内線・南北線「後楽園駅」から徒歩約5分
都営三田線・大江戸線「春日駅」から徒歩約6分

これらの情報から、後楽園キャンパスに徒歩10分以内で行ける駅は、東京メトロ丸ノ内線・南北線「後楽園駅」と都営三田線・大江戸線「春日駅」であることがわかります。

したがって、後楽園キャンパスに徒歩10分以内で行ける駅は、東京メトロ丸ノ内線・南北線「後楽園駅」と都営三田線・大江戸線「春日駅」です。

(A sample from Heron-Bench, URL: https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench)

質問：映像の状況において、青信号になったら車を発進させてもよいでしょうか？

Stockmark-2-VL-100B回答： この画像では、道路工事が行われている様子が見受けられます。作業員が交通整理を行っており、赤い棒を使用して車両の進行を制御しています。また、道路には多数のコーンが設置されており、通行ルートが制限されていることがわかります。青信号であっても、作業員が指示するルートや指示に従う必要があります。作業員が許可を出すまで、車は発進してはなりません。これは、工事現場での安全確保と交通の円滑な流れを維持するためです。

したがって、青信号になったとしても、作業員の指示がない限り、車を発進させるべきではありません。

最終的な答え:いいえ、青信号になっても、作業員の指示がない限り車を発進させてはなりません。

(A sample from JA-VLM-Bench-In-the-Wild, URL: https://images.unsplash.com/photo-1589218481418-c6f2d612a014?q=80&w=870&auto=format&fit=crop&ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D)

質問：画像には何匹の猿がいますか？

Stockmark-2-VL-100B回答： 画像を詳細に観察すると、2匹の猿が確認できます。

1匹は石の壁の上に座っており、もう1匹はその前に座っています。両方とも猿の特徴的な姿勢や表情をしており、明確に区別することができます。

したがって、画像には2匹の猿がいます。

(A sample from JA-VG-VQA500, URL: https://huggingface.co/datasets/SakanaAI/JA-VG-VQA-500)

質問：画像に写っているお店のネオン管で画像に向かって一番左に表示されているものは何ですか？

Stockmark-2-VL-100B回答： 画像を詳細に分析すると、店舗の入口上部にネオン管が見えます。これらのネオン管は左から右へと並んでおり、それぞれ異なる文字を表示しています。左端のネオン管には「Pizza」という文字が表示されています。

この結論に至るまでの理由は以下の通りです:

ネオン管の配置:画像の左側から右側に向かって、ネオン管が並んでいます。
文字の確認:左端のネオン管には「Pizza」という文字が明確に見えます。
他の文字との比較:中央のネオン管には「Fish」、右端のネオン管には「Pasta」と表示されています。

したがって、画像に写っているお店のネオン管で画像に向かって一番左に表示されているものは「Pizza」です。

謝辞

本成果は、経済産業省とNEDOが実施する、国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC（Generative AI Accelerator Challenge）」の支援を受けて得られたものです。また、当社は産業技術総合研究所とLLMに関する共同研究をおこなっており、今回のプロジェクトの遂行にあたっても助言をいただきました。

（作成）陳実

*1:Li, B., Zhang, Y., Guo, D., Zhang, R., Li, F., Zhang, H., ... & Li, C. (2024). Llava-onevision: Easy visual task transfer. arXiv preprint arXiv:2408.03326. https://arxiv.org/abs/2408.03326

*2:Goddard, C., Siriwardhana, S., Ehghaghi, M., Meyers, L., Karpukhin, V., Benedict, B., ... & Solawetz, J. (2024, November). Arcee’s mergekit: A toolkit for merging large language models. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track (pp. 477-485). https://github.com/arcee-ai/mergekit

*3:Onami, E., Kurita, S., Miyanishi, T., & Watanabe, T. (2024). JDocQA: Japanese document question answering dataset for generative language models. arXiv preprint arXiv:2403.19454. https://github.com/mizuumi/JDocQA

*4:前田航希, 杉浦一瑳, 小田悠介, 栗田修平, & 岡崎直観. (2025, March). llm-jp-eval-mm: 日本語視覚言語モデルの自動評価基盤. In 言語処理学会第 31 回年次大会 (NLP2025) (pp. 1303-1308). https://github.com/llm-jp/llm-jp-eval-mm

*5:https://github.com/stockmarkteam/business-slide-questions

*6:turing-motors/Japanese-Heron-Bench

*7:SakanaAI/JA-VLM-Bench-In-the-Wild

*8:SakanaAI/JA-VG-VQA-500