はじめに

こんにちは、2月にSenior Research Engineerとしてキャディに入社した福原です。現在、キャディでリサーチ組織を本格的に立ち上げています。

「リサーチ組織」と言っても、単に研究を行なって論文を書くことだけが我々の目的ではありません。キャディが掲げる「モノづくり産業のポテンシャルを解放する」というミッションを実現するために、最先端の技術を研究し、それをプロダクトの価値として実データ上で検証するところまでやり切る — それがこの組織の存在意義です。

この記事では、キャディが取り組んできた、あるいはこれから挑もうとしている技術課題が、Computer Vision（CV）やAIの分野で盛んに議論されている難問といかに深く重なっているかを、最新の研究動向とともに紹介します。

結論を先に述べると、キャディのプロダクトが行なっている「製造業の図面・3DCAD・仕様書といったマルチモーダルなデータを正確に認識・関連付けを行い、横断的に検索・推論をして、ユーザーの意思決定に重要な示唆を出す」というプロセスに含まれる技術的な課題は、Computer VisionとAIの研究コミュニティが直面している重要な課題と強く一致しています。しかも製造業は、曖昧さや「それっぽい答え」が許されない精度と再現性が特に重要な世界です。トップ会議の最先端研究で取り組まれている課題を、現実の厳しい制約のもとで解く — それがCADDiのリサーチ組織が取り組んでいる課題です。

キャディのリサーチ組織が取り組む研究課題

ここでは、具体的な研究課題を1つずつ取り上げ、それぞれがCVやAIの研究コミュニティでどのように取り組まれているかを、最新の研究動向とともに紹介します。

お知らせ
本章は、CVやAIの分野を専門とされていない方にもその面白さを知っていただけるよう、あえて噛み砕いた表現で解説しています。専門知識をお持ちの方や、より技術的に正確な内容を知りたい方は、ぜひこちらの詳細版をご覧ください。

VLMの言語偏重：最先端モデルすら躓く空間・幾何推論の限界

現在のVision-Language Model（VLM）は、言語空間における情報処理に著しく偏っています。その結果、製造業で最も重要な「幾何」や「空間」の認識において、致命的な弱点を抱えています。

純粋な視覚能力を測る「BabyVision」ベンチマークの報告によれば、最も性能の良いとされるGemini 3 Proですらスコアは49.7%に留まり、人間の平均的な大人のスコア（94.1%）から大きく乖離し、「人間の3歳児のスキルとほぼ同等」という衝撃的な結果が示されています。また、背景ノイズを取り除いた空間推論問題「MathSpatial」でも、人間が95%超で解ける問題に対して多くのモデルが60%に届きません。

製造業のプロダクトにおいて、「この穴は図面のどの位置にあるか」「裏側にどんな形状が隠れているか」といった空間的・幾何的な対応関係を正確に認識できなければ、品質管理や設計支援は成立しません。実際に、建築図面を対象とした最新のベンチマーク「AECV-Bench」（2026年1月公開）でも、テキスト中心のQAは高精度な一方で、空間認識などを要するタスクでは0.40〜0.55%程度の精度に留まることが報告されています。

キャディでも以前のTech Blogで紹介した、製造業に関連したタスクに関する自社ベンチマークを用いた検証で、空間推論に関するタスクの性能の伸び悩みに直面しています。CVPR 2026で提案された、3D再構成タスクと空間推論を統合する「G2VLM」のようなアプローチが1つの希望ですが、実用レベルへの昇華はまさにこれからの課題です。

テクスチャなき純粋幾何：形状だけでなく意味を捉える3D認識

製造業で扱う3DCADモデルは、テクスチャ情報を持たない純粋な幾何形状の表現です。B-Rep、Mesh、Point Cloudといった形式で記述される3D形状を正確に認識することは、自然画像のようにテクスチャで補える情報が少ないため、2D画像認識などと比較すると依然として難しいタスクです。

現在、CADデータをLLMに入力するためにPythonコードやトークンに変換する手法（「BrepCoder」など）が登場し、幅広いタスクを処理できるようになりつつあります。しかし、この方法ではxyz座標を厳密に指定した推論や、特定の領域に関する高度な質疑応答は依然として困難です。

我々が解かなければならないのは、単なる形状の復元ではありません。「この穴はボルト用である」「この面は別の部品との嵌合面である」といった、形状の「意味（セマンティクス）」の理解です。

CVPR 2025のBest Paperに選出された「VGGT」を意味の同時推論にまで拡張させた「UNITE」（RGB画像から3D再構成とセマンティクスを同時に予測）や、NeRFの重みをLLMに直接入力して空間的な位置関係を把握するアプローチ（Amaduzzi et al., 2025）など、3D CVの最前線がまさにこの領域に挑んでいますが、製造業の複雑な3DCADデータでどこまで通用するかは、我々が実証していく領域です。

きれいなペアデータは存在しない：不完全なマルチモーダル空間のアラインメント

実際の製造現場では、きれいなペアデータが存在しないケースも少なくありません。 2Dの図面、3DのCADモデル、そしてテキストで書かれた仕様書や不具合報告書。これら表現形式すら異なるマルチモーダルなデータが、不完全な状態で散らばっています。

私たちが実データ上で実現しなければならないのは、「仕様書のテキスト記述から、CAD上の特定の面や公差の情報をリンクさせる」といったモダリティを跨いだ情報の紐付けや、「3DのMeshデータ、画像、テキストを同じ潜在空間に埋め込む」といった統一的な処理です。

こうした課題に対し、現在の研究コミュニティでは、完全なペアがないことを前提に統一埋め込みへ整合させる「CrossOver」や、点群・画像・テキストを統合してCADベンチマークで最高水準の性能を達成した「cadrille」などのアプローチが注目されています。しかし、これらを現場で機能させるには、製造業特有のドメイン知識をマルチモーダルなモデルにどう組み込むかという非自明な課題に取り組む必要があります。

それっぽい3Dはいらない：幾何制約とトポロジーを保証する製造可能な3D生成

設計フェーズのアシストにおいて3DCADモデルの生成には大きな需要があります。しかし、現状の生成モデルが陥りがちなのが「見た目はそれっぽいが、製造業の現場では役に立たないデータ」を出力してしまう問題です。

製造業における3Dデータは、以下の条件を満たさなければ価値がありません。

ウォータータイトであること（穴が空いていたり、現実にはあり得ない位相になっていないこと）
面同士の拘束条件が適切であること
後から人間がパラメトリックに微修正できること

ただの「それっぽい3D形状」ではなく「製造・編集が可能な3D形状」を生成する必要があります。この難題に対し、B-Repを距離関数として符号化し有効なトポロジーを保証する「BR-DF」や、VLMのガイドで複雑なCADプログラムを段階的に生成する「CADEvolve」といった最新研究が登場しています。「物理的に実現不可能で編集不可能な形状」からの脱却は、学術界と産業界が協力して解くべき重要なテーマです。

その他の研究開発課題

私たちが視野に入れている技術領域は、CVやNLPの枠に留まりません。認識したデータを基に、現場で価値のある意思決定を支援するため、中長期的には以下のような製造業特有の複雑なデータ構造や物理的制約に向き合う課題にも取り組んでいく計画です。

複雑に絡み合うグラフと因果関係：製造業のデータは、部品構成（BOM）、製造工程、サプライチェーンなど、本質的に巨大なグラフ構造を持っており、GNNを活用した情報処理が有効です。また、歩留まり改善や不良品の根本原因分析（RCA）においては、「単なる相関」ではなく厳密な「因果推論」が出来ると強力です。「CusGNN」のような汎用アーキテクチャや、因果ベイジアンネットワークとナレッジグラフの融合が、現場の泥臭いデータでどこまで機能するのか。ここもまだ開拓の余地だらけです。

重すぎる物理シミュレーションの高速化：製品設計に不可欠なCAE（構造・熱解析）やCFD（流体解析）といった物理シミュレーションは、計算コストが膨大です。これを代理モデルで数桁レベルで高速化する「Neural Operator」や、物理ソルバーを使わずに事前学習をする「GeoPT」などの技術は、設計プロセスを根本から覆すポテンシャルを持っています。

テナントを跨げない「機密データ」の壁：キャディは世界4カ国に拠点を持ちますが、顧客の設計図やサプライヤーの製造データは機密情報であり、一箇所の中央サーバーに集約してモデルを学習させることはできません。データをそれぞれの場所に留めたまま強力なグローバルモデルを学習させる「連合学習」の活用も、モデルの性能の向上のために見逃せない技術です。

アカデミアとの連携

冒頭で論文の執筆は手段であって目的では無いということを書きましたが、だからといってキャディのリサーチ活動を、社内に閉じたものにするつもりはありません。ワークショップの主催やチャレンジの開催を通じて、アカデミアの力を最大限に借りて課題の解決を進めて行きます。

Computer Visionの分野では、産業界とアカデミアがコンペやワークショップの開催などを通して実世界の重要な課題を提示し、コミュニティ全体でそれを解く文化が根付いています。CVPR 2025のPerception for Industrial Robotics Automation (PIRA) ワークショップではAlphabet・NVIDIA・Google・Metaなどの企業が中心となって$60,000規模のBin Pickingチャレンジを開催しました。CVPR 2026でもNVIDIAの研究者がオーガナイザーを務める4D Digital Twins (4DDT) ワークショップやMicrosoft Researchが長年主導してたComputer Vision in the Wildワークショップなど、企業が研究コミュニティをリードする事例も増えています。

これまで本記事で取り上げてきた課題に対しても、CVPR 2026では多くのワークショップやチャレンジが開催されます。空間知能に関しては3D-LLM/VLAやMultimodal Spatial Intelligence (MUSI)、前述のComputer Vision in the Wild内のSITE-Bench challengeが、マルチモーダル認識ではAny-to-Any Multimodal Learning (A2A-MML)やComputer Vision for the Built World (CV4AEC)が、3D生成ではGenerative 3D Reconstruction(GenRec3D)や3D Geometry Generation for Scientific Computing (3D4S)がそれぞれ開催予定であり、これらの課題がコミュニティ全体で取り組まれていることがわかります。

私自身もICCV 2025で基盤モデルを実産業に移転するために必要なデータ構築・ドメイン適応・評価設計を議論するFoundation Data for Industrial Tech Transfer (FOUND)ワークショップを主催しました。CVPR 2026においても複数のワークショップのオーガナイズを行なっており（VGIワークショップ、BigMACワークショップ）、キャディにおいてもコンペやワークショップの主催などを通じて、製造業AIという研究領域そのものの発展にも貢献していきたいと考えています。

まとめ

キャディは日本・米国・ベトナム・タイの4カ国に拠点を持ち、800人を超える規模まで成長してきました。キャディのAI組織はこちらのブログにも記載があるように紆余曲折を経てきましたが、再結集を果たした今、飛躍の時を迎えています。

ここまで述べてきたように、我々が扱う課題はComputer VisionとAIの最前線と深く交差しています。VLMの空間推論、正確な3D幾何形状の認識、不完全なマルチモーダルデータの統合、制約条件を考慮した3D生成 — いずれもトップ会議で活発に議論されながら、同時に製造業の現場で日々直面している課題です。そして我々には、最先端の研究成果をすぐに試せる実データとプロダクト、価値を届けるべきユーザーがいます。研究と価値検証の距離がこれほど近い環境は、なかなかありません。

ここに書いた課題のどれか1つでもピンときた方、キャディで一緒にモノづくり産業のポテンシャルを解放しましょう！

仲間を募集しています！

キャディ株式会社では、本記事で紹介した研究課題をはじめ、AI要素技術の研究開発に全力で取り組み、ミッション「モノづくり産業のポテンシャルを解放する」の実現を目指しています。この記事を読んで「自分ならこう解決する」「この技術、面白そう」と感じたリサーチャーやエンジニアの方、ぜひご応募お待ちしております！

詳細は以下の採用ページからご覧いただけます！ https://speakerdeck.com/caddi_eng/enziniaxiang-kehui-she-shao-jie-zi-liao https://recruit.caddi.tech/29d6e245ed2d80f5bc93ffaa8d144860

弊社主催のイベントも開催していますので、ご興味あればぜひご参加下さい！ https://connpass.com/event/385864/

キャディのリサーチ組織が取り組む研究課題（詳細版）

VLMの言語偏重

2023年のGPT-4Vの登場以降、視覚と言語を統合するVLM（Vision-Language Model）/ MLLM（Multimodal LLM）は急速な進化を遂げ、その性能は向上し続けています。例えば、大学レベルの多分野マルチモーダル理解を評価するMMMU-ProベンチマークではGemini 3 Deep Thinkが81.5%に達し、人間の専門家の上位スコア（85.4%）に迫っています。文書理解のDocVQAではQwen3-VL-32Bが96.9%と人間のスコア（94.36%）を超え、数学的な推論能力を評価するMathVistaでもOpenAI o1の時点で既に73.9%と人間の平均（60.3%）を大きく上回っています。

このような性能向上を受けて様々な産業でVLMやMLLMの社会実装が進んでいます。しかし、これらのVLM/MLLMの「賢さ」は言語空間における情報の処理に偏っており、空間や幾何に関するタスクでは最先端のモデルでも依然として低い性能にとどまっていることが明らかになっています。

BabyVisionは、言語知識に依存しない純粋な視覚能力を測るために全388問・22サブクラス・4カテゴリのベンチマークを構築しました。結果、最も性能の良いGemini 3 Proですら49.7%と、平均的な大人のスコア（94.1%）から大きく乖離しており、人間の3歳児のスキルとほぼ同等という結果が報告されています。また、MathSpatialは、背景やテクスチャなどによるノイズを取り除いた空間的な推論問題からなるベンチマークを作成し、人間が95%超で解ける問題に対して多くのMLLMが60%にも届かないことを示しました。他にも、Chen et al., 2025は、最先端のVLMであっても「under / behind」のような単純な二物体の空間関係ですら認識が難しいことが指摘されており、その原因がTransformerの注意機構の割り当ての問題にあることを示唆しています。

このように最先端のVLMであっても言語偏重によって幾何や空間に関する性能が限定的であることが報告されていますが、製造業においては幾何や空間的な認識はプロダクトの価値や性能に直結する中心的な能力です。部品の形状、寸法、公差、対応関係 — これらを正確に認識できなければ、VLMによる設計や品質管理の支援も成立しません。キャディでは以前のTech Blogで紹介したように、製造業に関連した様々なタスクを用いたベンチマークを作成し、VLMも含めて網羅的な評価をしていますが、やはりこの言語偏重が原因と思われる空間・幾何タスクの性能の伸び悩みに直面しています。2026年1月に公開された建築図面を対象としたAECV-Benchでも、OCRやテキスト中心のQAは高い精度を示す一方で、空間認識などを要するタスクでは0.40〜0.55%の程度の精度に留まると報告されており、製造業・建築業といった類似ドメインに共通する課題であることが伺えます。

このギャップを埋めるための研究も進んでいます。CVPR 2026に採択されたG2VLMは、VLMの空間知能の弱さの根本原因を「2D画像から3Dを再構成する幾何学習の欠如」と捉え、3D再構成タスクと空間推論を統合する「Geometry-grounded VLM」を提案しています。画像から幾何構造を明示的に学習させることで空間推論の精度を向上させるアプローチであり、我々が直面している課題に対する1つの解決の方向性を示しています。

正確な3D幾何形状の認識

この問題に対する現在の主流なアプローチの1つは、CADのデータをPythonコードやトークンに変換してからモデルに入力する方法です。BrepCoderは、3DCADのB-Rep表現（製造業で扱われる標準的な表現）とPythonコード表現（LLMが理解しやすい表現）を共通の空間に埋め込むエンコーダーを学習する手法を提案しました。これにより、標準的な表現であるB-Repのデータをエンコーダーを通すだけでLLMに渡すことが可能になり、形状の復元からCADに関する質疑応答まで、幅広いタスクを1つのモデルで統合的に処理することに成功しました。しかし、この方法ではxyz座標を使用したQAや領域を指定したQAは困難です。

製造業のタスクでは、3D形状の幾何を正確に認識するだけでなく、「この穴はボルト用」「この面は嵌合面」といった形状の意味（セマンティクス）も同時に理解することが求められます。3D Computer Visionの研究はまさにこの方向で進んでいます。UNITEはCVPR 2025のBest Paperに選出されたVGGTを拡張し、RGB画像のみから3D再構成とセマンティクスを統一モデルで同時に予測するアプローチを提案しており、形状と意味の同時認識という目標に直結する研究です。

3D形状に対する言語ベースのQAでは、NeRF（Neural Radiance Field）の重みを直接マルチモーダルLLMに入力するアプローチも注目されています。NeRFの重みは形状と外観を連続的に符号化しているため、点群への離散化では失われてしまう情報も保持したまま3D形状を扱えます。LLaNAがこのアプローチを切り拓き、後続のAmaduzzi et al., 2025の研究では、NeRFの重みから空間的に局所化されたトークン列を生成するメタエンコーダを導入することで、グローバルな単一トークンでは捉えられなかった部品間の位置関係や詳細な3D QAを実現しています。

ここで紹介した3D形状とセマンティクスの統合認識は、キャディにとって、図面やCADの幾何情報を正確に読み取り、類似部品の検索や加工方法の推定、見積り判断に繋げるために重要な要素技術です。

マルチモーダルなデータの処理

製造業で扱うデータは本質的にマルチモーダルです。図面（2D）、CAD（3D）、仕様書・不具合報告書・発注履歴（テキスト） — これらを横断的に統合して処理する必要があります。「3DCADから類似した図面を検索する」「図面から対応する3DCADを検索する」「仕様書の記述をCADの面・穴・公差とリンクする」といったモダリティを跨いだユースケースも頻出します。さらに、3D形状の表現1つをとってもMesh、Point Cloud、B-Repなど多様な表現形式を扱う必要があります。

このようなマルチモーダルなデータを統一的に扱うための研究（特に埋め込み空間に関する研究）も盛んに行われています。ULIP-2は3D点群・画像・言語の3つ組をトライモーダル事前学習で揃える枠組みを提案し、LLMによる言語記述の自動生成でデータのスケーリングを可能にしています。CrossOverは、RGB画像、点群、CADモデル、フロアプラン、テキストなどの複数モダリティを、完全なペアがないことを前提に統一埋め込みへ整合させています。全モダリティのデータが揃っていない状況でも動作する点は、応用する上で強力な特徴です。

3DCADの検索や再構成タスクに対してもマルチモーダルなアプローチが検討されています。cadrilleはPoint Cloud、画像、テキストの3つのモダリティを統一的に扱い、強化学習によるファインチューニングで10個のCADベンチマークにおいて最高水準の性能を達成しており、CADデータにおけるマルチモーダル統合の有効性を実証しています。GenCAD-3DはPoint Cloud、Meshなど異なる表現で表された3Dデータを対照学習で共通の空間に埋め込むことで、アラインメントのとれた強力な潜在空間の学習に成功し、検索と生成の両方で高い性能を達成しています。

3D生成

3DCADモデルの生成については、設計フェーズのアシストやモデル学習のための追加データ生成など製造業においても多くの需要があります。しかし、現状の生成モデルが出力する3D形状はウォータータイト（水密）になっていなかったり、面同士の拘束条件が適切に考慮されていなかったりします。結果として実際には実現不可能な形状が生成されたり、人間が微修正を加えることが困難だったりします。「見た目がそれっぽい3Dデータ」を作れるようになっても、製造業での応用上は形状の実現可能性や編集可能性が満たされていなければ価値が出ません。

MiCADangeloは3Dスキャンデータからパラメトリックで編集可能な3DCADモデルへの復元を、人間の設計プロセスに近い手順で行い、一部の制約の考慮が可能です。CADKnitterは複数部品の組み合わせを前提に、幾何制約とテキストによる条件付けを満たす「補完パーツ」の生成をするモデルを310k超のデータセットで学習しました。また、ウォータータイトな形状が生成されることを保証するために、BR-DFはB-RepをSDF/UDFの距離関数として符号化することで、確実に有効なトポロジーを持つB-Repへの変換を実現する表現を提案しました。直近ではCADEvolveがVLMガイドの進化的編集パイプラインで単純な形状から産業レベルの複雑なCADプログラムを段階的に生成する方法を提案し、Image2CADの複数ベンチマークで最高水準の性能を達成しています。

その他の研究開発課題

上記に加えて、キャディでは以下のような領域にも研究開発課題があります。

GNN/因果推論：製造業のデータは、部品構成・工程・サプライヤーなど、本質的にグラフとして扱うべき関係データが多くあり、GNNを活用する研究も盛んに行われています。例えば、CusGNNはCADアセンブリモデリング向けの推薦システムのためにデータ固有のGNNアーキテクチャを自動設計する枠組みを提案しています。品質管理や根本原因分析（RCA）には因果推論も重要な技術で、Schwarz et al., 2024は半導体LED製造の再加工判断に因果推論を適用し2〜3%の歩留まり改善が出来ることを実データで実証していたり、Wehner et al., 2024は因果ベイジアンネットワークとナレッジグラフを組み合わせることで製造ラインのRCAを自動化する手法を提案しています。

代理モデルによるシミュレーションの高速化：CAE（Computer Aided Engineering：構造・熱・振動などの数値シミュレーション）やCFD（Computational Fluid Dynamics：流体シミュレーション）は製造業における製品設計に不可欠ですが、その計算コストは非常に高く、代理モデルによる高速化には大きな需要があります。Neural Operatorはその先駆的な取り組みとして関数空間間の写像を学習し従来シミュレータに対して4〜5桁のスピードアップを達成しており、物理法則を損失関数に組み込むPIINも製造業への活用が進んでいます。また、直近ではGeoPTが、静的な3D幾何データに生成されたダイナミクスを付与する学習手法を提案し、物理ソルバーを一切使わない事前学習で必要なラベル付き物理データを20〜60%削減しつつ、自動車空力から衝突解析まで産業スケールの複数ベンチマークで一貫した改善を報告しています。

連合学習：キャディは世界4カ国に拠点を持ちますが、国やテナントを跨いでデータやモデルをそのまま共有はできません。連合学習の技術を用いることで、データをそれぞれの場所に留めたまま強力なモデルを学習できます。Islam et al., 2023によって連合学習の製造業への応用に関するサーベイでは予知保全・品質管理・生産最適化など5つの領域で特に連合学習が有望であることが報告されています。