こんにちは。ウィーンから日本に帰ってきたら暑すぎて体が追い付かないSsk1029Takashiです。
今回は2025/7/27~8/1にウィーンで開催されているACL2025(The 63rd Annual Meeting of the Association for Computational Linguistics)に現地参加したので、その参加報告記事になります。
聴講参加でしたが、NLPの最先端を追えた素晴らしい機会でした。
(私は日程の都合で7/31までの参加でした。)
- ACLとは?
- 学会の様子
- 特に気になったセッション、論文
- Tutorial: Uncertainty Quantification for Large Language Models
- Pre$^3$: Enabling Deterministic Pushdown Automata for Faster Structured LLM Generation
- Optimization before Evaluation: Evaluation with Unoptimized Prompts Can be Misleading
- Hierarchical Document Refinement for Long-context Retrieval-augmented Generation
- まとめ
ACLとは?
正式名称はAnnual Meeting of the Association for Computational Linguisticsであり、自然言語処理を扱う国際学会のうち最も規模が大きく、レベルの高い学会の一つです。
2025.aclweb.org
NLPの中を幅広い領域を扱っており、近年はLLMの影響でさらに論文投稿数が増えている傾向にあります。
特に今年は総論文投稿数が8360本あり、昨年が5000本弱だったのに対して、かなり増加したとのことです。
NLP領域が特にLLMなどの影響で興味が集まっていることがわかります。
学会の様子
今回はウィーンのAustria Center Viennaという会場で開催されました。



この中でKeynoteや各セッション、ポスターセッションなどが実施されていました。



また、7/27にはWelcome Reception、7/29にはSocial Eventがあり、参加者同士で交流する機会も設けられていました。
特にSocial Eventではミュージシャンの演奏があるなど、盛り上がる会でした。

今年の傾向として個人的に感じたのは、LLMにより難しいタスクをやらせるためのベンチマークを作る論文が多いように感じました。
例えば、Planning能力を図るベンチマークや構造化データを理解する能力を図るベンチマークなど、ただの文章生成・RAGなどよりも一歩難しいタスクをやらせることを考えた論文が多かったように思えます。
そういう意味では、普段LLMを使う側のエンジニアの自分としてもとても面白く感じる論文が多かったです。
特に気になったセッション、論文
Tutorial: Uncertainty Quantification for Large Language Models
初日に実施されたチュートリアルの一つで、LLMの出力の不確実性を扱うセッションでした。
不確実性といっても、Tokenレベル・文章レベル・主張レベルどれを扱うかで手法や考え方が変わります。
Tokenレベルであれば、Probabilityを見るのも不確実性を確認する手法の一つです。
また、LLM内の情報を見て不確実性を確認する手法についても紹介がありました。
例えば、高いAttentionを得られている出力であればあるほど、確実性が高いといえるというのが一例として説明されていました。
LLMを使うシステムでは、とくに間違えたくない領域を回答するときに不確実性の可視化はよくテーマになるので面白いセッションでした。
Pre$^3$: Enabling Deterministic Pushdown Automata for Faster Structured LLM Generation
Outstanding Paperに選ばれていた論文の一つです。
LLMにJSONの決まった構造で出力させる機能はOpenAIなども提供していますが、その出力を高速化させるための手法を提案しています。
文法チェックの順序や無駄なトークンを発生させないためのアルゴリズムがよく考えられており、実装して、実際に出力するトークンを40%軽減したという結果も出ていました。
今後LLMが構造化データを扱う上で、出力データの構造化はより重大なテーマになっていくので、こういった高速化手法の重要性も増していきそうです。
Optimization before Evaluation: Evaluation with Unoptimized Prompts Can be Misleading
この論文の主張では、既存のベンチマークタスクではプロンプトは固定でモデルを切り替えて評価されるが、モデルごとにプロンプトを最適化しないと正しい能力を測れないのではないかという主張の論文です。
実際に論文を最適化する手法含めて提案されており、実際に固定のプロンプトを使った場合とは異なる結果になったそうです。
特に複雑なタスクや、構造データを扱うタスクで顕著に差分が出たとのこと。
言われてみればその通りなのですが、プロンプト最適化手法まで含めて実装し、結果として現れたのは面白いなと思いました。
Hierarchical Document Refinement for Long-context Retrieval-augmented Generation
この論文ではLong-Contextな文章から回答するときに、精度を保ちながら必要なトークン数を減らすための手法を提案しています。
コンテキストとして扱う文章をもとの構造を保ったまま階層化することで、必要な部分だけを参照できるようになり、精度を保ちながら使用するトークン数を1/10にできたという結果が報告されていました。
今は主要プロバイダのモデルも100万トークン規模のロングコンテキストに対応できるようになってきましたが、消費トークン数はどこでも課題になるので、実際に取り込めそうなアイデアに感じました。
まとめ
というわけでACL2025の参加報告記事になります。
特に応用を扱った論文やセッションに注目して回りましたが、LLMが当たり前になった今、実世界への適用の議論が加速してきているように感じます。
当社としても今回の結果を踏まえて、よりユーザーが使って感動するような価値をプロダクトに盛り込んでいきたいと思いました。
最後にウィーンの見どころもいくつか紹介して終わりにします。



刺激が多く素敵な1週間でした。それではまた。
Acroquest Technologyでは、キャリア採用を行っています。
- Azure OpenAI/Amazon Bedrock等を使った生成AIソリューションの開発
- ディープラーニング等を使った自然言語/画像/音声/動画解析の研究開発
- マイクロサービス、DevOps、最新のOSSやクラウドサービスを利用する開発プロジェクト
- 書籍・雑誌等の執筆や、社内外での技術の発信・共有によるエンジニアとしての成長
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。