こんにちは、キャディで機械学習エンジニアをしている由川です。東京の大手町に最近オープンしたサウナ施設に行き、すごい洒落てんな〜と思いつつ十分にリラックスもできました。休息も大切です。

さて本題に戻ると、私は以下を目的としてLLM*1に関する評価ベンチマークづくりに取り組んでいます。

製造業の課題を解決するためにはどのようなLLMを選べばよいか判断しやすくする
キャディが持つ製造業の様々なデータ（図面画像、3Dモデル、仕様書など）に対してFine-tuningなどの手段を適用することで、製造業に関する様々な課題を解ける汎用的なLLMを開発する

以前、取り組みの全体像を製造業特化LLMを開発するための評価ベンチマークにて紹介しました。本記事では、空間把握と呼んでいるベンチマークタスクを通して取り組みの具体例をお伝えしたいと思います。

ドメイン特化LLMを評価するベンチマークを作ろうと考えている方の参考になれば幸いです。

空間把握とは

空間把握とは以下の表にあるタスクのことです。

熟練した設計者や技術者のように、製造業について十分に理解している人間が図面を理解するプロセスの一つとして定義しています。このプロセスをLLMでも実現できるか評価することを意識してタスク設計を行っています。

タスクに関する詳細に興味があれば、製造業特化LLMを開発するための評価ベンチマーク#ベンチマークタスクの定義を参照いただければ思います。

人間が図面を理解するプロセス	プロセスの概要	LLMが解くタスクの例
空間把握	図面の中に書かれている立体がどのような形か把握する例：「この図面に書かれているのはL字型の板金」	2D図面から3DCADへの形状復元

以降、LLMが解くタスクである2D図面から3DCADへの形状復元について、LLMを用いた具体的な形状復元方法と、その評価方法を紹介します。

2D図面から3DCADへの形状復元

タスクの全体像は以下の画像のとおりです。

以下を意図してこのタスクを設定しました。

LLMには、図面とCADという製造業で取り扱うデータに対する空間把握能力があるかどうか明らかにしたい
お客様への価値提供につながるユースケースの創出ができるか明らかにしたい

このタスクでは、LLMを使ってどのように2D図面から3次元点群を作るかが重要です。

まずはすぐに思い浮かんだ、2D図面からxyz座標（≒3次元点群）で構成される点をLLMに直接出力させることを検討しました。しかし、LLMのトークン数の上限により、十分な数の点を生成できませんでした。点の数が少ない（≒点の密度が低い）と3DCADから作った正解点群との誤差が必要以上に大きくなり適切な評価ができないため、この方針を断念することにしました。

私は今回の取り組みまで、3Dデータを扱った経験がありませんでした。当然、LLMを使って3Dデータを生成する方法も全く知らなかったため、論文調査を通して世の中ではどのようにやっているのか調べることにしました。

調査した結果、メッシュ*2に必要な頂点と面をLLMで生成し、頂点と面からメッシュを生成するというアプローチ*3があるとわかりました。これを参考に以下画像のロジックを適用しました。その結果、正解点群と適切に比較・評価できるだけの、十分な数の点を生成できるようになりました。

2D図面からLLMにより点群を生成する方法

余談：LLM（厳密にはVLM）は、物体の空間的な位置関係（前後、上下左右など）を把握するのが苦手という報告*4があります。 3DCADへの形状復元には空間把握能力が不可欠ですが、現時点ではLLMにはハードルの高いタスクだと言えます。そこで、空間把握能力を補い3DCADを生成する例として、以下のようなアプローチが提案されています。

LLMによる中間生成物を経由して3DCADを生成。
- 上記のように頂点と辺からメッシュを作る方法や、CadQueryという3DCADを作るためのPythonライブラリのコードから作る方法*5があります。
  - なお、CadQueryから3DCADを作る方法は不採用にしました。
  - 理由：本来の目的であるLLMの空間把握能力の評価ができなくなってしまうと考えたからです。この方法では、LLMが立体を正しく理解できているかではなく、CadQuery特有のコードをどれだけ知っているかという、ライブラリの知識を評価することになってしまいます。
3DCAD生成APIを外部ツールとして呼び出せるAIエージェントを構築する*6。

評価方法・評価指標

LLMに空間把握能力があるかどうか知るためには、適切な評価方法と評価指標が必要です。ここでは、2D図面から3DCADへの形状復元において、どのような評価方法と評価指標を適用しているか紹介します。

評価方法

以下の通り評価を行っています。位置合わせはICP（Iterative Closest Point）という点群の位置合わせで代表的な方法や、正解点群と予測点群で原点の位置を揃えるといった方法を組み合わせています。

2D図面から3DCADへの形状復元：評価方法

予測点群に対して正解点群と位置を合わせる理由は、後述する評価指標を形状の違いのみに起因する値とするためです。位置を合わせずに評価すると、正解点群との形状の違いによる誤差と位置が違うことによる誤差の区別できなくなってしまいます。

評価指標

以下表に書いた指標を採用しています。これらの指標は形状復元に関する論文で採用されることがあります。

評価指標	概要	メリット	デメリット
Wasserstein距離	・正解点群(CADから作った点群)と予測点群(LLMが作った点群)との距離・値が小さいほど復元精度が高い	・(F-scoreと比較すると)しきい値に依存せずに形状の違いを把握できる	0〜1の範囲で表現できないため、距離の大小がどんな意味を持つのかわかりにくい
F-score	以下のPrecisionとRecallの調和平均。値が大きいほど復元精度が高い・Precision：正解点群と距離 $d$ 以内にある予測点群の数 / 予測点群の数・Recall：正解点群と距離 $d$ 以内にある予測点群の数 / 正解点群の数	・しきい値 $d$ 以内の点だけ正解と評価するので、指定した許容誤差で復元したいといった活用ができる・0〜1の間で表現できるので、指標の良し悪しがわかりやすい	しきい値 $d$ を決めるのが難しい

形状復元のタスクでは、Chamfer距離という指標が用いられることも多いですが、不採用としています。理由は、Chamfer距離では正解点と予測点群の距離の平均をもとに計算しているため、点の分布のばらつきが大きい場合に距離が必要以上に大きくなるためです。そのため、Chamfer距離と比べて分布のばらつきを吸収できる*7 Wasserstein距離を採用しています。

まとめ

本記事では、空間把握というタスクを例に製造業特化LLMの開発に向けたベンチマーク作成のプロセスを紹介しました。

社内で広く使われるベンチマークを目的として、論文や画像処理タスクなどにより確立された標準的な手法を用いてLLMの能力を評価しています。

空間把握という取り組みを通して、思ったよりも形状復元ができるLLMもあれば、全く復元できないLLMもあるという事実を、評価指標という定量的な結果とLLMが作った点群と3DCADから作った点群を見比べるという定性的な結果で実感することができました。

製造業のLLMベンチマーク作りでは、3DCADや図面画像といった希少性、ドメイン性の高いデータを取り扱います。このようなデータに対して、どのような評価データや評価方法を採用すればよいか絶対の正解はありません。その中で迷いながら、何を評価する/しないのか決める難しさはあります。しかし、希少性とドメイン性の高いデータに対するLLMの進化と限界を知ることができるので、とても面白い取り組みだと思っています。

最後に

ご紹介した取り組みに限らず、我々が機械学習やLLMを使って解決したい製造業の課題は本当にたくさんあります。キャディは人が増えてきているからやり尽くしているんじゃないの？と言われることがあり、入社前は自分もそう思っていました。しかし、入社してみると、やりたいと思っているけどできていないことはたくさんあると実感しました。

本記事をきっかけにキャディとはそもそも何に取り組んでいる会社なのか、機械学習やLLMを使って何を実現したいのか、などご興味あればぜひお気軽にご連絡ください。

speakerdeck.com

recruit.caddi.tech

open.talentio.com

*1:文章だけでなく画像も入力しているので、マルチモーダルLLM（MLLM）やVLM（Vision-Language Model）と表記するのが正しいですが、本記事ではわかりやすさを優先してLLMと表記します。

*2:3Dモデルを三角形や四角形の集まりで表現したもの。OBJやSTLというファイルフォーマットで表現することが一般的。

*3:Wang, Zhengyi, et al. "Llama-mesh: Unifying 3d mesh generation with language models." arXiv preprint arXiv:2411.09595 (2024).

*4:Chen, Shiqi, et al. "Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas." Proceedings of the 42nd International Conference on Machine Learning, PMLR 267:9910-9932, 2025.

*5:Rukhovich, Danila, et al. "Cad-recode: Reverse engineering cad code from point clouds." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2025.

*6:Mallis, Dimitrios, et al. "CAD-assistant: tool-augmented vllms as generic cad task solvers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2025.

*7:Nguyen, Trung, et al. "Point-set distances for learning representations of 3d point clouds." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.