こんにちは、Data&Analysis部の安本です。最近私用のPCをミニPCに乗り換えました。省スペースは正義。

さて、私の所属するAI for ApplicationチームではLLMによる図面読解を用いたプロダクト開発に取り組んでいます。その中で専門領域における評価の曖昧性という最近よく聞く課題に直面しました。この記事では、その課題と改善方法として「資格取得」という古典的だが非効率そうであまり選ばないhowがどう効いたかをご紹介します。この記事が専門領域の評価に苦しむ方の参考になれば嬉しいです。

なおこの記事で取った方法は開発者自身の知識を変えるものなので、新しい評価方法を期待する方にはnot for meと感じるかと思いますのでご承知おきください。

課題：AI出力の評価プロセスの曖昧性

まず背景として「図面読解」というタスクについてご説明します。図面とは、製品を作るための情報を絵と文字で描いた「製作指示書」です。図面読解は読んで字の如く、図面を読み解くタスクです。

このタスクの面白い点は、読み手によって受け取る情報が異なることです。図面にはあえて全ての製作方法を文章で書き込まず、絵と断片的な情報のみが記載されています。これは、設計・製作に関わるあらゆる立場の人が、自分が必要な情報を一目で確認できるようにするためです。

実際に、下図のような図面を読む際の例を考えてみましょう。

図面から必要な情報を読み取っていくのですが、その情報が読み手の視点によって以下のように異なります。

製作者の視点：穴のサイズや公差、板厚を読み取り、自社の加工プロセスを検討します。その上で、何を材料とし、どのような手順で加工するかという「工程」を組み立てます。
品質管理者の視点：それぞれの指示内容を、自社の機材でどのように評価・検品するかという「検査手法」を考えます。

このように、図面読解とは「図面内の断片的な情報を漏れなく集めて行間を埋め、読み手にとって必要なコンテキストを形成すること」だと言えます。

また、実際の図面は非常に複雑です。大量のラベル情報が網の目のようにつながる「グラフ構造」を持っており、たった一つの情報を見落とすだけで結果が全く異なってしまいます。この極めてシビアな精度が求められる点も、図面読解タスクの大きな特徴です。

LLMを使った図面読解検証も人の目と同様のプロセスでアプローチしています。すなわち、図面から指示に関連する要素を取り出し（画像認識）、その断片的な情報の行間を埋めて理解し（コンテキスト形成・推論）、指示に応じた回答を返す（出力生成）というプロセスです。

ここで評価が問題になります。最終回答の良し悪しは顧客からFBを得たり社内の専門人材に頼ることで得られますが、エンジニアリングとして何が律速になっていてどう改善するか決めるには、開発者が各プロセスの出力を読み解かないとできません。つまり開発者が図面を読めないとプロンプトの評価もできないのです。

足りない知識を調べつつ評価基準を作ったものの、エンドユーザーのユースケースに沿った体験をどれほど忠実に評価できているか自信を持ちづらいという課題に陥っていました。

対策：受動的なインプットから、能動的な構造化へ

対策としてまず試したのは、専門書をいくつか読むことです。これは解像度を上げる効果はありましたが、特に未知の情報では目が滑ってしまって「点」の情報しか得られず、自身の検証において体系的な評価・改善につながる効果はあまり感じられませんでした。

そこで資格の取得に取り組みました。数ある学習法の中で、あえて資格試験という形を取った理由は以下の2つです。

思考のトレーニングと構造化 書籍での学習は、不明な点があると読み飛ばしてしまいがちです。その点、問題演習は細部まで読み込まないと解けないため、知識を漏れなくインプットできます。また、過去問で反復演習を繰り返すことで、単なる暗記ではない「構造的な知識」として定着させることを狙いました。
強制力による高強度な学習 出願締切直前に申し込むことで、自分に「締め切り効果」という適度な負荷をかけました。これにより、短期間で集中してインプットに取り組むことができました。

受験したのは「機械設計技術者試験（3級）」で、設計者が何を考えて図面を書くのか、その背景知識を問う試験です。3級を選んだのは実務経験が不要だったからです。

この試験を通じて、図面の指示や書き方はもちろん、それを実現する加工方法や部品の役割（力の伝達計算など）を体系的に学べました。その結果、「製品」と「図面」、そして「生産方法」を一つの繋がりとして認識できるようになったのが大きな収穫です。また、私は化学系出身なのですが、試験範囲に専門分野が含まれていたため、全くのゼロからではなく、自分のバックグラウンドを活かしつつスムーズに学習を進めることができました。

成果：解像度の向上と属人性の改善

図面の見え方が変わった

対策を通じて最も変わったのは図面の見え方です。元々は画像としてみていたのですが、ソフトウェアでいうソースコードのような捉え方をするようになりました。例えば図面上の穴の見え方が以下のように変わりました。

これまで：穴という形状として見る
受験後：穴の形と寸法・位置関係・関連指示から「多分ボルトを通すための穴で、こういう風に加工してほしいんだろう」とその形状の目的と加工方法をイメージする

目的がわかるとそれを満たすための情報が芋づる式にわかります。例えばボルト用の穴ならそれほど厳しい公差はいらないはず、といった形で取捨選択ができます。実際の図面では様々なコンテキストが入り乱れているので、この取捨選択ができるようになり認知不可が格段に軽減しました。

また専門用語を理解できるようになったことも良かった点です。検索キーワードがシャープになり、求める情報を見つけやすくなりました。特にLLMに質問する際は専門用語を使うことでより質問に特化した答えを返してくれるようになりました。プロンプトの改善に関しては以下の記事でまとめてますのでよければご覧ください。

caddi.tech

評価プロセスの改善

その結果として狙い通り、評価プロセスが改善しました。

まず評価指標の設計が改善しました。ユーザー体験を想像できるようになったことで指標や分類の基準が明確になりました。

またプロンプトも改善しました。例えば下図の図面の中心の穴を軸をはめ込む穴としてLLMがうまく認識できていない場合、はめあい公差という特有の指示をまず探すように指示することで見落としが減るなど、内部のプロセスに踏み込んだ調整が可能になってきました。

さらに、評価データ作成を分担できるようになった点も嬉しい変化でした。自分が図面読解するためのノウハウをチームにインストールすることで、他の作業者との認識ズレが減ったため分担しやすくなり、チームとしてデータ作成を進めることができるようになりました。これまで細かな例外ケースをすり合わせながら進める必要があったところから考えると、属人性がかなり軽減したと感じています。

今後の挑戦

実はまだまだ道半ばです。一般知識に関してもまだまだ未知の領域も多いですし、業界別の知識など、これから深ぼるところがたくさんあります。

また、この図面読解タスクにおいてはコンテキストエンジニアリングが特に重要と考えています。

その理由の一つは、我々が扱うデータはそれぞれの顧客が独自で管理するクローズドなデータであることです。各社の独自のノウハウが盛り込まれていて、一般知識だけでは理解できないこともたくさん記載されています。したがって個社独自のコンテキストを元に図面記載を解釈する必要があります。

またこの記事で書いたことは単独の図面の読解ですが、実際の図面は様々なドキュメントや3Dデータなどのさまざまなファイルを介して、非常に複雑なコンテキストが形成されています。これらのファイル間のコンテキストもうまく扱う必要があります。

さらに、読み手のコンテキストも重要です。前述した通り、図面から読み取る情報は読み手によって異なります。LLMで図面読解をサポートするには、多様なユースケースに対して必要な情報を必要なだけ届ける工夫が必要です。

これらのコンテキストをうまく伝えることでLLMの図面読解性能が向上する傾向も見えてきています。さまざまな探求の余地がある面白い分野だと思っています。

最後に

もしあなたが今評価で行き詰まりを感じているなら、ドメイン知識を深ぼることで活路が見えるかもしれません。一次情報に触れて理解できるとやはり楽しいので、個人的には資格を取ってよかったと感じています。AIを使った新しい業務プロセスを顧客に使ってもらうためにも、これを機に顧客と同じ視点で議論できると良いなと思っています。

また、キャディでは上記のような課題に一緒に取り組んでいただける仲間を募集しています。

曖昧な評価指標に頼るPoCから脱却したい。
業界の深いコンテキストに飛び込み、顧客と一緒にAIで新しい常識を実装したい。

そんな思いを持つ方、ぜひ一度お話ししましょう。以下からご応募お待ちしています。

open.talentio.com