https://blog.fltech.dev/entry/2026/03/09/AAAI26-WS-AIAgentBenchmark-ja

こんにちは、富士通人工知能研究所の茂木・高橋・内田です。2026年1月20日から27日にシンガポールで開催された、AIに関する由緒ある国際学会”The 40th Annual AAAI Conference on Artificial Intelligence (AAAI-26)”において、富士通からは複数件の論文発表とワークショップ開催の形で参加しました。そこでAAAI-26に関する記事を連載形式でお届けします。

本記事では、私たちがワークショップを主催した様子を簡単にご紹介します。次回以降の連載では、下記の予定で論文発表の内容について解説します。

第一弾：AAAI-26に参加しました #1
- ワークショップ主催に関する報告（今回の記事）
第２弾：AAAI-26に参加しました #2
- 因果AI技術の論文発表に関する報告（3月12日予定）
第３弾：AAAI-26に参加しました #3
- AI推論技術の論文発表に関する報告（3月16日予定）

はじめに

私たちは、AI分野における最高峰の国際会議の一つであるAAAI-26の一環として、CMU・慶應義塾大・富士通の主催で、ワークショップ「W8: Agentic AI Benchmarks and Applications for Enterprise Tasks」を1月26日に開催しました。本記事では、このワークショップの開催報告として、事前の準備から当日の様子、そして今後の展望までを詳しくご紹介します。企業におけるAIの可能性を最大限に引き出す「Agentic AI」の動向と、その評価・応用に関する最新の議論を肌で感じた本ワークショップの熱気を、皆さまにもお届けできれば幸いです。

AAAI-26 Workshop (W8) 概要

ワークショップのテーマは、Agentic AIに関するベンチマークと評価、エンタープライズ向け応用、Human Agent Interaction、そしてエンタープライズ向けマルチモーダル推論についてです。オーガナイザーはCMUのGraham Neubig准教授、Yonatan Bisk助教、慶應義塾大の斎藤英雄教授、富士通の茂木が務めました。ワークショップの公式ページはこちらです。

sites.google.com

今回のワークショップでは、当該分野の議論活性化と、富士通の当該分野でのプレゼンス向上を主目的としました。テーマ選定においては、「Agentic AI」「Benchmark & Application」「Enterprise Task」という三つを満たす幅広い内容を受け入れました。当初は特定のテーマでの提案も検討されましたが、「ワークショップは本会議でカバーしきれないテーマをじっくり議論する機会」というスタンスを踏まえ、より広めに企業向けの多様なAgentic AIを中核としました。

ワークショップ開催における目標としては、オーガナイザー間で相談し、多くの参加者が集まり、活気ある会議になることを目標としました。論文採択のポリシー策定もオーガナイザーの重要な仕事の一つでした。採択基準として、ワークショップのテーマと合致していることと、最低限の論文のクオリティを担保していることを確認するようにしました。結果的に多くの論文投稿があり、その中で33件の論文を採択しました。

事前準備の舞台裏

ワークショップを成功させるためには、多くの綿密な事前準備が必要です。早期に運営メンバーを編成し、ワークショップの方向性を議論する中で、Steering CommitteeであるServiceNowのDr. Alexandre Drouinさんのコネクションを通じて多くの招待講演者を確保することができました。これは国内外の識者を巻き込む上で人的ネットワークがいかに重要であるかを改めて示すものでした。招待講演者としては、慶應大学、IBM、イリノイ大学、Amazonなど著名な研究機関や企業から７名の皆様が参加を表明していただきました。

論文募集と査読においては、短期間でありながら多くの高品質な論文が集まりました。投稿期間は10月1日～29日の約１か月間で、査読を経て採択通知が11月12日となり、この時期が事前準備の中で最も忙しい期間となりました。査読者は富士通、ServiceNow、GK software、その他企業や大学から計40名と多数を確保でき、論文一件あたり十分な数の査読者を割り当てることで、公平かつ質の高い査読が実施されました。査読者の募集においてもSteering Committeeメンバーの人的ネットワークが最大限生かされました。

並行してWebによるプロモーション活動も実施しました。CMUとの共同研究を紹介した記事の中で本ワークショップを宣伝しました。本記事は結果として過去に例のないPVが集まり、会議参加者の増加に大きく貢献しました。またCMUのNeubig先生のLinkedIn投稿を活用したアピールも功を奏し、ワークショップの認知度向上に繋がったと評価しています。

ワークショップの資料やコンテンツに関しては、会議参加者向け非同期Webプラットフォーム「Underline」を利用しました。また、現地運営計画として、当日の司会、Speaker紹介、タイムキーパー、質疑応答、ポスター設置など、細部にわたる役割分担とスケジュール調整を行いました。

ワークショップ当日の様子

開催場所は AAAI-26 のメインセッションと同じ Singapore EXPO です。EXPOの個別会議場の中で最多収容（120名）の会場を確保しました。会場外にはポスター会場も用意しました。

ワークショップは7つの招待講演と3つのポスターセッションで構成されました。特にポスターの設置作業は、発表者や聴講者とのリアルタイムなコミュニケーションが重要なため、人数をかけて対応しました。

招待講演のセッションでは、100名近い参加者が集まり、質疑応答も活発に行われました。富士通の小橋Senior Project Director、慶應義塾大学の杉浦先生、イリノイ大学のDaniel Kang先生、ServiceNowのAlexandreさん、慶應義塾大学の大澤先生、AmazonのAnanthさん、IBMのAsimさんといった著名な研究者の方々が登壇し、それぞれの専門分野における最新の研究成果や課題について発表されました。後ほど注目講演として３件紹介します。

ポスターセッションでは、採択された発表者が自らの研究成果を熱心に説明しました。招待講演の終了後、多くの参加者がポスター発表会場へと移動したため、急激な混雑が見られました。発表スペースがAAAI本会議と比較してやや狭かったことから、発表者同士の場所が重複するといった課題も散見されましたが、全体としては活発な議論が展開され、新たな知見の共有と交流が図られたことは間違いありません。総括となるConclusive Remarksはオーガナイザーでもある慶應義塾大の斎藤先生が担当され、ワークショップ全体についての総括を述べられました。

注目講演のご紹介

招待講演における注目講演を３件ご紹介します。

富士通の小橋 Senior Project Director からは、「AI Agent効果を最大限に引き出すためには、能力と信頼性の客観的な評価（ベンチマーク）が鍵である」という重要なメッセージが発信されました。小橋SPDは、富士通が提供する「FieldWorkArena」を紹介し、これは実社会での現場作業を再現するベンチマークであり、多様なAI Agentの評価を通じて企業でのAI活用を推進する取り組みであると説明しました。加えて、ナレッジグラフとFieldWorkArenaの連携技術も併せて紹介され、示唆に富む内容でした。さらに、富士通の他のベンチマークであるCAD Inspection Assistant（FRDC）、Fujitsu Hallucination Benchmark（FRDC/FRJ）、RAG Hard Benchmark（FRJ）も紹介されました。これらの技術の詳細はFujitsu TechBlogの別記事（Fujitsu Hallucination Benchmark, RAG Hard Benchmark）で紹介していますので、ご覧ください。これらの取り組みは、富士通のAI Agent研究への貢献を強くアピールするものでした。

drive.google.com

イリノイ大学のDaniel Kang先生からは、「AI エージェントのベンチマークは壊れている」という非常に刺激的なタイトルの発表がありました。Kang先生は、主な問題点として「タスクの妥当性（Task Validity）」の欠如を指摘しました。これは、何もせずとも正解を出すタスクが存在することや、エージェントがテスト自体を改ざんできる脆弱性（SWE-Lancer）があることを意味します。また、「結果の妥当性（Outcome Validity）」の欠如も問題視され、不正解なコードを正解と判定する事例や、判定基準が統一されていない（WebArena）といった事例が紹介されました。さらに、Text-to-SQLベンチマークの深掘り分析では、50%を超えるアノテーションエラーが確認され、これを修正するとリーダーボードのランキングが大きく変動するという驚くべき結果が示されました。Kang先生は、「タスクの妥当性」と「結果の妥当性」を体系的に評価する仕組み、そして評価用エージェントの用意やアノテーションエラーの自動検出・修正の仕組みの必要性を強く訴えました。

drive.google.com

ServiceNow ResearchのAlexandre Drouinさんからは、AI Agentの性能評価と安全性・セキュリティに関する課題について発表がありました。Drouinさんは、Webエージェント研究のためのエコシステム「BrowserGym」と、ServiceNowプラットフォーム上でのタスク解決のためのベンチマーク「WorkArena」を紹介しました。WorkArenaは、プランニングと問題解決、データ駆動型意思決定と推論、文脈推論、情報検索、長期的記憶など、多岐にわたるエンタープライズタスクを網羅していることを説明しました。また、AIの誤検知検出、プロンプトインジェクションからの防御、セキュリティの脅威に対するフレームワーク「DoomArena」など、AI Agentの安全性とセキュリティに関するServiceNowの取り組みが示され、実用化に向けた重要な視点を提供しました。

drive.google.com

現地運営で得られた示唆と苦労

運営面では、講演者のPC接続やポスター貼り換え作業など想定通り（？）のトラブルも発生しましたが、現地事務局のスタッフの協力もあり、何とか対処することができました。また、多くのポスター発表者を募ったことはワークショップを盛り上げるという作戦としては成功しましたが、結果的に複数回のポスター貼り換えが必要となり、その調整には苦労しました。登壇者に直接貼り換えを依頼することも必要となり、この経験からポスター貼り換えはランチ中に1回程度に集約した方が良いという教訓を得ました。

まとめと今後の展望

今回のワークショップは、WEBと人脈を最大限に活用した綿密な計画により、多くの参加者と活発な議論、そして大きな反響を得ることができました。これは、Agentic AI分野における議論の活性化に大きく貢献したと確信しています。開催後の反響としては、IEEE Spectrumの取材を受け、ワークショップの内容を特集記事として紹介してもらえました。また招待講演者でありフォロワー17000人以上のインフルエンサーでもあるIBMのAsimさんからは、LinkedIn投稿で「参加者のエンゲージメントが際立っており、ワークショップ全体を通して終日会場が満員で、継続的な議論と鋭い質問があった。これはテーマとプログラムの質の高さによるものだ」というコメントをいただけ、その投稿への反応が通常比約2倍の100件のレスポンスがあったことなど、外部からも高い評価をいただきました。これは我々運営側にとって大きな励みとなりました。

今後は、本ワークショップで得られた貴重なコネクションを活かし、さらなる共同研究やビジネスへの展開を積極的に進めていく方針です。Agentic AI分野は特に企業の研究者のニーズが非常に高く、次期ワークショップの開催も強く期待されています。富士通は、CMUや慶應義塾大といったパートナーと連携し、今後もこの分野の研究をリードし続け、社会課題の解決と新たな価値創造に貢献していきます。今回の成功を糧に、さらに魅力的なワークショップの実現を目指し、研究コミュニティへの貢献を続けてまいります。本ワークショップにご参加いただいた皆様、そしてご協力いただいた関係者の皆様に心より御礼申し上げます。