記号知識蒸留に関する論文を Gemini Paper Summarizer で要約しました。

West, P., Bhagavatula, C., Hessel, J., Hwang, J., Jiang, L., Le Bras, R., … Choi, Y. (2022, July). Symbolic Knowledge Distillation: from General Language Models to Commonsense Models. In M. Carpuat, M.-C. de Marneffe, & I. V. Meza Ruiz (Eds.), Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 4602–4625).

【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。

目次

Abstract

概要

問題意識

手法

新規性

章構成

Abstract

1 Introduction

2 Overview and Key Findings

2.1 記号知識蒸留

2.2 主な発見

3 Machine-to-Corpus Verbalization

3.1 Data: ATOMIC

3.2 Event Generation

3.3 Inference Generation

3.4 Evaluating a Generated Commonsense Knowledge Graph

4 Making the Teacher More Critical

5 Corpus-to-Machine: Distillation

6 Related Work

7 Conclusions

Acknowledgments

Ethical Considerations

References

A Human Evaluation Details

B Using Alternate Models as Knowledge Sources

C Critic Model

D ATOMIC10x Generation Prompts

Abstract

常識モデルを訓練するための一般的な慣行は、人間からコーパスへ、そして機械へと移行するものだった。つまり、人間が常識モデルを訓練するために常識知識グラフを作成していた。本研究では、機械からコーパスへ、そして機械へと移行する別の方法を検討する。つまり、一般的な言語モデルがこれらの常識知識グラフを作成し、常識モデルを訓練する。

我々の研究は、新しいフレームワークであるSymbolic Knowledge Distillation（記号知識蒸留）につながった。知識蒸留（Hinton et al., 2015）における先行研究と同様に、我々のアプローチでは、より大きなモデルを使用して、より小さなモデルを教える。重要な違いは、結果として得られるニューラルモデルに加えて、知識を記号的に、つまりテキストとして蒸留することである。我々は、一般的な言語モデル教師の常識という1つの側面のみを蒸留し、生徒が常識モデルという異なるタイプのモデルになることを可能にする。全体として、注意深いプロンプトエンジニアリングと、別々に訓練された批評モデルにより、一般的な言語モデルであるGPT-3から高品質の因果的常識を選択的に蒸留できることを示す。

経験的な結果は、初めて、人間が作成した常識知識グラフが、量、質、多様性の3つの基準すべてにおいて、自動的に蒸留された我々の亜種によって凌駕されることを示している。さらに、教師モデルの常識能力を凌駕するニューラル常識モデルが、100分の1のサイズにもかかわらず得られる。これをATOMICリソースに適用し、新しい記号知識グラフと常識モデルを共有する予定である。

概要

本論文では、大規模言語モデルから常識知識を蒸留する新しいフレームワークであるSymbolic Knowledge Distillationを提案し、自動生成された常識知識グラフが、人間が作成したグラフを質・量・多様性において凌駕することを示す。

問題意識

本論文は、常識モデルを訓練するための一般的な手法が、人間による知識グラフの作成から、コーパスを経由して機械学習へと移行している現状に対し、機械が一般的な言語モデルを用いて常識知識グラフを作成し、それを用いて常識モデルを訓練するという、新たなアプローチを提案している。具体的には、大規模言語モデル（GPT-3）から常識知識を抽出し、それをテキスト形式の知識グラフとして表現し、さらにその知識グラフを用いてより小さな常識モデルを訓練する「Symbolic Knowledge Distillation」というフレームワークを提案し、その有効性を検証している。

手法

本論文は、大規模言語モデル（LLM）から常識知識を抽出するための新しいフレームワークである「Symbolic Knowledge Distillation（記号知識蒸留）」を提案している。この手法は、LLMを教師モデルとして、より小さく特化した常識モデルを訓練する知識蒸留の枠組みを拡張したものであり、以下の点で従来手法と異なる。

記号的な知識の蒸留: ニューラルモデルに加えて、生成されたテキスト形式の知識（記号知識グラフ）も蒸留する。これにより、知識の解釈や評価が可能になる。
選択的な知識の蒸留: 教師モデルの持つ知識の一部（常識）のみを蒸留する。これにより、教師モデルと異なるタイプのモデル（常識モデル）を訓練できる。
批評モデルの導入: 生成された知識の質を評価する批評モデルを導入することで、より高品質な知識を蒸留する。

具体的には、以下の3つのステップで構成される。

機械からコーパスへ (Machine-to-Corpus): GPT-3などのLLMを用いて、プロンプトエンジニアリングにより常識知識をテキスト形式で生成し、常識知識グラフを構築する。この段階では、生成された知識の質は保証されない。
批評モデルによる知識の改善: 人手でラベル付けされたデータを用いて訓練された批評モデルを用いて、生成された知識の質を評価し、低品質な知識をフィルタリングする。これにより、より高品質な知識グラフを生成する。
コーパスから機械へ (Corpus-to-Machine): 批評モデルによって改善された知識グラフを用いて、常識モデルを訓練する。

この手法により、人手で作成された常識知識グラフを凌駕する、大規模で高品質な常識知識グラフを自動的に生成することが可能になる。また、生成された知識グラフを用いて訓練された常識モデルは、教師モデルであるGPT-3よりも高い常識推論能力を示すことが示されている。

新規性

本論文では、大規模言語モデル（LLM）から常識知識を抽出する新しいフレームワーク「Symbolic Knowledge Distillation」を提案している。この手法は、従来の知識蒸留とは異なり、教師モデル（LLM）からテキスト形式で知識を抽出し、さらにその知識を評価する批評モデルを導入することで、より高品質な知識を獲得している点が新規である。また、この手法によって生成された知識グラフが、人間が作成した知識グラフを質、量、多様性の全てにおいて上回ることを示している。さらに、この知識グラフを用いて訓練された常識推論モデルが、教師モデルであるLLMの常識推論能力を凌駕することも示している。この結果は、LLMが常識知識のソースとなりうる可能性と、機械学習による知識グラフ構築において人間を凌駕する可能性を示唆している点で重要である。

章構成

Abstract
1 Introduction
2 Overview and Key Findings
- 2.1 Symbolic Knowledge Distillation
- 2.2 Key Findings
3 Machine-to-Corpus Verbalization
- 3.1 Data: ATOMIC
- 3.2 Event Generation
- 3.3 Inference Generation
- 3.4 Evaluating a Generated Commonsense Knowledge Graph
4 Making the Teacher More Critical
5 Corpus-to-Machine: Distillation
- 5.1 Evaluating a Symbolically Distilled Model
6 Related Work
7 Conclusions
Acknowledgments
Ethical Considerations
References
A Human Evaluation Details
B Using Alternate Models as Knowledge Sources
C Critic Model
D ATOMIC10x Generation Prompts

Abstract

本論文では、常識モデルの訓練における一般的な手法である、人間が常識知識グラフを作成し、それを用いてモデルを訓練するという流れに対し、代替案として、大規模言語モデルが常識知識グラフを作成し、それを用いて常識モデルを訓練するという流れを提案する。このアプローチは、知識蒸留の枠組みに基づき、大規模モデルの知識をテキスト形式で抽出し、それを基に小規模な常識モデルを訓練する。特に、GPT-3のような大規模言語モデルから、高品質な因果関係に関する常識知識を抽出するために、プロンプトエンジニアリングと、別途訓練された批評モデルを利用する。実験結果は、自動的に蒸留された知識グラフが、量、質、多様性の全てにおいて、人間が作成した常識知識グラフを凌駕することを示す。さらに、この知識グラフを用いて訓練された常識モデルは、教師モデルであるGPT-3の常識能力を、100分の1のサイズにも関わらず上回る。この手法をATOMICリソースに適用し、新しい知識グラフと常識モデルを公開する。

1 Introduction

既存の常識モデルの学習は、人間が常識知識グラフを作成し、それを用いてモデルを学習するという、人間からコーパス、そして機械へと進むプロセスであった。本研究では、機械からコーパス、そして機械へと進む代替的なアプローチを調査する。すなわち、汎用言語モデルが常識知識グラフを作成し、それを用いて常識モデルを学習する。

本研究では、新しいフレームワークである「記号知識蒸留」を提案する。これは、従来の知識蒸留と同様に、より大きなモデルを用いてより小さなモデルを教えるアプローチであるが、重要な違いとして、結果として得られるニューラルモデルに加えて、記号的に（テキストとして）知識を蒸留する。本研究では、汎用言語モデルの教師の常識という1つの側面のみを蒸留し、学生モデルが常識モデルという異なるタイプのモデルになることを可能にする。慎重なプロンプトエンジニアリングと、別途学習された批評モデルにより、汎用言語モデルであるGPT-3から高品質な因果的常識を選択的に蒸留できることを示す。

実証的な結果は、初めて、人間が作成した常識知識グラフが、量、質、多様性のすべての3つの基準において、自動的に蒸留されたバリアントによって凌駕されることを示している。さらに、100倍小さいにもかかわらず、教師モデルの常識能力を凌駕するニューラル常識モデルをもたらす。これをATOMICリソースに適用し、新しい記号知識グラフと常識モデルを共有する。

先行研究では、事前学習済み言語モデルは、リーダーボードで優れたパフォーマンスを示すにもかかわらず、常識知識の理解が限られていることが示唆されている。その結果、記号的な常識知識グラフと対応するニューラル表現が、過去のモデルを常識能力で補完してきた。これにより、対話型インターフェースを通じたインタラクティブ学習、ペルソナと感情を意識した会話モデル、比喩的な言語理解、物語作成、ファンタジーゲームなど、多様なダウンストリームアプリケーションが可能になった。

常識知識グラフの構築における一般的な慣習では、人間が可能な限り多くの知識を書き出すことが求められている。このパイプラインは、人間からコーパス、そして機械へと進み、常識モデルは人間が作成した知識グラフから学習される。しかし、高品質な人間が作成した知識は、拡張が難しく、カバレッジが制限されるため、機械からコーパス、そして機械へと進む代替的なアプローチが求められる。自動常識知識グラフに関する先行研究では、人間が作成したデータよりも著しく品質が低く、その結果、信頼性の低いニューラルモデルにつながっている。既存の研究では、機械が作成した知識グラフは、人間が作成したグラフよりも一貫してパフォーマンスが低いことが示されている。

本研究では、最先端のモデルと新しい手法を活用し、高品質な自動常識知識グラフに向けた新しい概念フレームワークである「記号知識蒸留」を提案する。自動知識グラフ構築に関する先行研究のほとんどは、生のテキストから知識を抽出する。対照的に、本研究のアプローチは、より大きな教師モデルがコンパクトな学生モデルに知識を転送する知識蒸留に動機づけられている。本研究の手法は、キーとなる点で先行研究の知識蒸留とは異なる。ニューラルモデルに加えて、記号知識グラフ（すなわち、生成されたテキスト）を蒸留し、教師モデルの選択的な側面のみを蒸留する。これにより、学生モデルが教師（汎用言語モデル）とは異なるタイプ（常識モデル）になることが可能になり、蒸留の範囲が拡大する。さらに、テキストとして蒸留された知識は人間が読めるという利点がある。

汎用言語モデルであるGPT-3は、それ自体が不完全な常識教師であり、蒸留された知識を評価する能力は、それを改善する上で有用である。経験的に、記号的な生成品質を判断するための別の批評モデルを学習することにより、より正確な教師を定義できることを示す。この批判的な教師からの知識は、人間が作成した知識を超えて、より高品質である。しかし、批評モデルを学習する前でさえ、学生モデルが知識源であるGPT-3の常識を凌駕するという予期せぬ発見があった。

記号知識蒸留を人間からコーパス、そして機械へと進むパラダイムに対してテストするために、人間が作成した常識知識グラフであるATOMIC20と比較する。本研究では、機械生成されたコーパスであるATOMIC10xが、本研究で焦点を当てる7つの常識推論タイプに関して、規模、精度、多様性において、人間が生成したコーパスを上回ることを発見した。結果として得られる常識モデルであるCOMETdistilは、人間が学習した同等のCOMET20を上回るだけでなく、より小さく、より効率的であり、教師であるGPT-3よりも高い精度で常識を生成する。

記号知識蒸留は、汎用言語モデルを常識知識源として、人間を常識知識の作成者ではなく、批評モデルを学習するための小規模な評価者として、新しい役割を提案する。本研究は、人間とLMが、常識知識グラフをキュレーションし、効率的で高性能な常識モデルを学習するための効果的な協力者になり得ることを実証する。

2 Overview and Key Findings

本研究では、記号知識蒸留という、機械がコーパスを生成し、そのコーパスから機械が学習するという方法論について述べる。まず、GPT-3からデコードすることにより機械からコーパスを生成し（§3）、次に、専門的な批評モデルを用いて知識を改善し（§4）、最後に、この知識を効率的な常識モデルに蒸留する（§5）。このプロセス全体を通して、自動的に生成された知識グラフATOMIC10xと常識モデルCOMETdistilを、人間が作成した知識源ATOMIC20とそれに対応するモデルCOMET20と比較評価する。

2.1 記号知識蒸留

提案手法は、知識蒸留（Hinton et al., 2015）と並行しており、大規模または複雑な教師分布 $P_t$ を、より小規模で単純な生徒分布 $P_s$ に圧縮する。知識蒸留の鍵は、 $P_t$ と $P_s$ の間のクロスエントロピーを最小化することである。

H(P_t, P_s) = - \sum_{y \in Y} P_t(y) \log P_s(y) \tag1

知識は、教師の予測に一致するように生徒を促すことによって生徒に転送される。Hinton et al. (2015)は、これを条件付き分類に適用する。

2.2 主な発見

記号知識蒸留を実際に応用した結果、有望かつ驚くべき発見が得られた。

言語モデルから記号的な知識を学習することは、知識蒸留への記号拡張として捉えられる。 §2.1では、常識学習を知識蒸留への記号拡張として記述し、GPT-3を知識源とする。このプロセスについては、§3, 4, 5で肯定的な結果とともに詳述する。
記号知識蒸留は、高品質な知識グラフを大規模に構築する。 本手法は、自然に機械生成の常識知識グラフを生成し、人間の作成したデータを凌駕する品質を達成できる（§4）。誤った生成知識をフィルタリングする効果的な批評モデルが鍵となる。
批評的な教師は、より高品質な生徒を生み出す。 §4では、教師をより批評的にすることで、転送される知識の規模は小さくなるものの、より高品質な知識が得られることを示す。これは、品質が重要であり、量ではないことを示している。
批評的な教師の有無にかかわらず、生徒は知識源を凌駕できる。 §5では、すべての生徒モデルが知識源であるGPT-3の品質を凌駕するという予想外の結果を示す。
機械は、自動知識グラフ構築において人間を凌駕できる。 §4と§5では、機械生成の知識と結果として得られる常識モデルが、人間の知識源を使用する同等のものを凌駕できることを示す。本研究の記号的な知識は、規模、品質、多様性において人間を凌駕する。その結果得られる常識モデルは、最も正確な常識知識グラフ補完を達成する。

3 Machine-to-Corpus Verbalization

本研究では、まず機械からコーパスへの変換、つまり、常識的な事実を生成し、常識知識グラフを構築する。このプロセスは、知識蒸留の目標を推定するためのサンプリングとして捉えられ、教師モデル（GPT-3）の生成から学習する生徒の常識モデルを構築する。

3.1 Data: ATOMIC

本研究では、ATOMICのif-thenリソースを用いて、記号知識蒸留を実証する。これは、イベント（例：XがYを攻撃する）と関係（例：HinderedBy）をリンクするイベント-関係-推論の形式に従う。目標は、イベントがどのように妨げられるかなど、結果の推論を生成することである。

3.2 Event Generation

イベントは、ATOMICにおける文脈に依存しない前提であり、様々なシナリオでPersonX（および時には2人目のPersonY）を含む。これらのイベントは、知識グラフのトリプルのヘッドを形成する。イベントは、テンプレートの要素を埋めることによって生成される。たとえば、「Xは善で悪を克服する」といった形式である。100個の高品質なイベントをATOMIC20コーパスからプロンプトとして使用し、ランダムに10個のシードイベントを各生成バッチにサンプリングし、ランダム化されたプロンプトを作成する。

3.3 Inference Generation

ATOMICの推論を生成するには、イベントと関係について推論する必要がある。各関係に対して、反復的な設計と著者による小規模な検証を行い、言語化テンプレートを設計する。例えば、xNeed関係をプロンプトする場合は、「このイベントが発生するために真実でなければならないことは何か？」という形式にする。各イベント/関係（165K×7）に対して、Curie GPT-3モデルを使用して10個の推論を生成する。重複や縮退した（例：3文字未満の）生成を削除すると、6.46MのATOMICスタイルのデータトリプルが得られる。これはATOMIC20のトリプル数よりも桁違いに多い。

3.4 Evaluating a Generated Commonsense Knowledge Graph

機械生成により、人間が作成した知識よりもはるかに低いコストで大規模なユニークな生成が可能になる。本研究では、GPT-3によって生成された例がどのようなもので、人間が生成した知識とどのように異なるかを詳細に分析する。

4 Making the Teacher More Critical

教師モデルをより批判的にするために、まず、GPT-3単独では完璧な常識教師ではないことを評価結果から示す。そこで、低品質な知識をフィルタリングするために、批判モデルを導入する。これは、少量の人間による評価データを用いて学習された分類器で、許容できない例を識別する。この批判モデルを緩い教師モデルと組み合わせることで、より批判的な教師モデルを生成する。実験の結果、このアプローチにより、人間が作成した知識グラフよりも高品質で、より大規模な知識グラフが作成されることが示された。さらに、この批判モデルは、論理的な誤りや不自然な言い回しを特定するのに役立つことが明らかになった。

5 Corpus-to-Machine: Distillation

記号知識蒸留の最終段階では、生成された自然言語知識グラフに基づいてコンパクトなモデルを学習する。ベースモデルとして、ATOMIC10x全体で学習されたGPT2-XLを使用し、これをCOMETdistilと呼ぶ。さらに、ATOMIC10xのクリティカルバージョンでモデルを学習し、91.5%の精度を達成したコーパスで学習したものをCOMETdistil+criticlow、96.4%の精度を達成したコーパスで学習したものをCOMETdistil+critichighと呼ぶ。モデルは1エポック学習させ、Huggingface Transformersライブラリを使用してデフォルトのパラメータを使用した。

評価は、過去の研究（Hwang et al., 2021; Bosselut et al., 2019; Sap et al., 2019）に従い、モデルの知識ベース補完能力、すなわちATOMIC20テストセットからのテストイベントに対する推論生成能力をテストした。セクション3.4に従い、1000個の入力（イベント＋関係）に対して人間による評価を実施し、結果を表6に示す。人間が生成したATOMIC20で学習したGPT2-XLベースのCOMET20モデル、およびセクション3と同じ生成方法を使用したGPT-3と比較した。事実上、学生モデルCOMETdistilを教師であるGPT-3と比較している。クリティカル教師（GPT-3＋批評家）は、入力ごとに推論を生成することを保証されていないため、比較対象から除外した。

知識蒸留では、学生モデルの性能が教師モデルよりも低下することが多い（Hinton et al., 2015; Kim and Rush, 2016）。驚くべきことに、ベース教師であるGPT-3とCOMETdistilの最もシンプルなバージョン（表6のCOMETdistilの最上段）を比較すると、学生モデルがGPT-3を上回っていることが示された。COMETdistilの優れた性能は、GPT-3の間違いが、GPT-2の言語化と学習によってフィルタリングされたこと、そしておそらくCOMETdistilが1つの常識ドメインに焦点を当てているのに対し、GPT-3はより一般的なドメインをカバーしていることに関連している可能性がある。この効果については、今後の研究でさらに検討する。

COMETdistilは人間の知識と比較してどうだろうか？批評家なしのCOMETdistilは、精度ではCOMET20にわずかに劣るが、批評家を使用するとこの関係は逆転する。テストした両方のカットオフで、COMETdistilはCOMET20を上回り、より多くのフィルタリングを行うとギャップが広がる。

オンデマンド推論が必要な場合、すなわち、特定の入力イベント/関係に対して高品質の単一推論が必要な場合、COMETdistilが利用可能な最良のモデルとなる。最も性能の高いバージョンは、COMET20を5ポイント、GPT-3を10ポイント以上上回る。クリティカル教師（GPT-3＋批評家）はより正確なコーパスを生成するが、入力に対してすべての推論をフィルタリングして、出力を生成しない可能性がある。

記号知識蒸留の成功は、ここでの常識関係で、人間による作成を上回る優れた性能を示す最初のステップである。このアプローチのどの側面もこれらの関係に特有のものではないが、物理的または時間的な常識のような、他の常識や知識の側面に対する生成の実現可能性をさらに検討する必要がある。

本論文では、記号知識蒸留という、機械生成による常識知識の獲得手法を提案している。この手法は、大規模言語モデルからコンパクトな常識モデルへと知識を転送するものであり、その過程で常識知識グラフとモデルを生成する。この手法で生成された記号知識グラフは、人間が作成したものよりも規模、多様性、品質において優れていると主張している。

関連研究として、以下のものが挙げられている。

常識知識グラフ（CKG）：ATOMIC、ConceptNetなど、人間が作成したものや、自動的に構築されたものがある。TransOMCSやCausalBankは、構文解析やパターンマッチングによって自動構築されたCKGの例である。
言語モデルからの知識抽出：既存のリソースで学習されたモデルを用いた知識グラフ補完や、事前学習済み言語モデルからの直接的な知識抽出が行われているが、本研究では、既存のリソースに依存せず、より高品質な知識を大規模に生成することを目指している。
知識蒸留：教師モデルから生徒モデルへ知識を転送する手法であり、本研究では、特定の情報（常識）を大規模言語モデルから蒸留する点がユニークである。
データ生成：手動でのデータセット作成はコストがかかるため、クラウドソーシングが一般的である。過去の自動データ生成は、構文解析やパターンマッチングなどの抽出アプローチが中心であり、本研究では、より高品質なデータを生成することを目指している。

7 Conclusions

本論文では、記号知識蒸留という、人間が作成した知識を必要とせず、機械生成を用いることで、常識を機械に学習させるための、機械からコーパス、そして機械へと至るパイプラインを導入した。知識は、大規模な汎用モデルからコンパクトな常識モデルへと、常識コーパスを介して転送され、常識知識グラフとモデルが生成される。得られた記号知識グラフは、人間が作成したものよりも規模、多様性、品質において優れている。記号知識蒸留は、常識研究において、人間が作成した知識に代わる手段を提供する。

Acknowledgments

本研究は、カナダ自然科学・工学研究評議会（NSERC）（助成金番号401233309）、NIWC Pacificを通じたDARPA MCSプログラム（N66001-19-2-4031）、およびアレン人工知能研究所の支援を受けた。

Ethical Considerations

本研究では、大規模言語モデルからの生成における倫理的な落とし穴の可能性について考察している。特に、GPT-3のような大規模テキストリソースで学習されたモデルは、有害、偏見、または攻撃的な側面を含む可能性がある。しかし、本研究では、生成される内容が、一般的な因果関係に焦点を当てたものであり、特定の状況における常識的な原因と結果を記述することに限定されているため、このリスクは大幅に軽減されると主張している。さらに、プロンプトを注意深く設定することで、生成される内容をこれらのトピックに絞り込むことができている。したがって、有害な生成物の可能性は非常に低い。実際、100個の生成例を人手で検査した結果、成人向けコンテンツを含むものが1つあった以外には、有害なものは見つからなかった。

また、大規模モデルとトレーニングセットによって、監視やフェイクニュースの生成など、自動化された抑圧や搾取が可能になる可能性についても懸念がある。しかし、本研究のデータとモデルの一般的な性質から、この懸念はここではあまり関係がないと主張している。本研究のデータには、これらの有害な領域に直接関連する情報は含まれていない。データは基本的な状況を理解するのに役立つかもしれないが、その単純さから、有害なモデルには有用ではない。

References

本論文で引用されている参考文献は以下の通りである。

Agrawal et al. (2018): 視覚質問応答における先入観の克服に関する研究。
Ammanabrolu et al. (2021a): 因果関係と常識的なプロット順序に基づいた自動ストーリーテリングに関する研究。
Ammanabrolu et al. (2021b): ファンタジー世界における目標駆動型エージェントの対話と行動に関する研究。
Anaby-Tavor et al. (2020): データ不足時のディープラーニングの活用に関する研究。
Arabshahi et al. (2021): ニューラル常識知識と記号論理規則を用いた対話型マルチホップ推論に関する研究。
Bender et al. (2021): 大規模言語モデルのリスクに関する研究。
Bhakthavatsalam et al. (2020): 一般的な記述文の知識ベースに関する研究。
Bollacker et al. (2008): 共同で作成されたグラフデータベースFreebaseに関する研究。
Bosselut et al. (2019): 常識知識グラフを自動構築するためのTransformerモデルCOMETに関する研究。
Bras et al. (2020): データセットバイアスの敵対的フィルタに関する研究。
Brown et al. (2020): 少数ショット学習が可能な言語モデルに関する研究。
Buck et al. (2014): Common Crawlからのn-gramカウントと言語モデルに関する研究。
Chakrabarty et al. (2020): 常識知識を用いた皮肉生成のための反転、検索、ランキング手法に関する研究。
Chakrabarty et al. (2021): 象徴性と識別的デコーディングを用いたメタファー生成に関する研究。
Davis and Marcus (2017): 因果生成モデルの限界に関する研究。
Davison et al. (2019): 事前学習モデルからの常識知識マイニングに関する研究。
Etzioni et al. (2011): オープン情報抽出の第2世代に関する研究。
Fleiss (1971): 複数評価者間の名義尺度一致度測定に関する研究。
Hessel and Lee (2020): マルチモーダルモデルがクロスモーダルな相互作用を学習しているかどうかの検証に関する研究。
Hinton (2002): コントラスト発散を最小化することによる専門家の積の学習に関する研究。
Hinton et al. (2015): ニューラルネットワークにおける知識蒸留に関する研究。
Holtzman et al. (2020): ニューラルテキスト生成におけるサンプリング戦略に関する研究。
Hwang et al. (2021): 記号的およびニューラル常識知識グラフに関する研究。
Kearns et al. (2020): 健康カウンセリング対話の収集のためのWizard-of-Ozインターフェースとペルソナベースの方法論に関する研究。
Kim and Rush (2016): 系列レベルの知識蒸留に関する研究。
Kingma and Ba (2015): 確率的最適化のためのAdam法に関する研究。
Landis and Koch (1977): カテゴリデータの観察者間一致度測定に関する研究。
Lehmann et al. (2015): Wikipediaから抽出された大規模な多言語知識ベースDBpediaに関する研究。
Lester et al. (2021): パラメータ効率の良いプロンプトチューニングにおけるスケールの力に関する研究。
Li et al. (2020): パターンマッチングによる因果関係抽出に関する研究。
Liu et al. (2019): 強力に最適化されたBERT事前学習手法ROBERTaに関する研究。
Merrill et al. (2021): 根拠のない形式から意味を獲得することの限界に関する研究。
Mitchell et al. (2015): 永続的な学習に関する研究。
Papanikolaou and Pierleoni (2020): GPT-2を用いたデータ拡張関係抽出に関する研究。
Petroni et al. (2019): 言語モデルを知識ベースとして利用する研究。
Radford et al. (2019): 教師なしマルチタスク学習言語モデルに関する研究。
Sanh et al. (2019): BERTの蒸留版であるDistilBERTに関する研究。
Sap et al. (2019): if-then推論のための機械常識のアトラスATOMICに関する研究。
Schwartz et al. (2017): 異なるライティングタスクが言語スタイルに与える影響に関する研究。
Speer et al. (2017): 一般知識のオープンな多言語グラフであるConceptNetに関する研究。
Talmor et al. (2021): AIの限界をゲーム化を通して明らかにするCommonsenseQA 2.0に関する研究。
Tsuchiya (2018): テキスト含意認識のための訓練データの隠れたバイアスによるパフォーマンスへの影響に関する研究。
Wang and Komatsuzaki (2021): 60億パラメータの自己回帰言語モデルGPT-J-6Bに関する研究。
Welleck et al. (2020): 非尤度学習を用いたニューラルテキスト生成に関する研究。
Williams et al. (2018): 推論による文理解のための広範囲なチャレンジコーパスに関する研究。
Wolf et al. (2019): 最新の自然言語処理のためのHugging FaceのTransformersライブラリに関する研究。
Xiong et al. (2020): 事前学習された百科事典：弱教師あり知識事前学習言語モデルに関する研究。
Yang et al. (2020): 常識推論のための生成データ拡張に関する研究。
Zhang et al. (2020a): 言語グラフから常識知識を得るTransOMCSに関する研究。
Zhang et al. (2020b): 大規模なイベント知識グラフであるASERに関する研究。
Zhou et al. (2020): 最小限の教師ありで時間的な常識獲得に関する研究。
Zhu et al. (2018): テキスト生成モデルの評価のための自己BLEUに関する研究。

これらの参考文献は、常識知識グラフの構築、言語モデルの活用、知識蒸留、データ生成、倫理的配慮など、本論文の研究に関連する様々なトピックをカバーしている。

A Human Evaluation Details

Amazon Mechanical Turkを用いて、図4,5のテンプレートに基づき人間による評価を実施した。ワーカーには、関係性を自然言語のテンプレートに置き換えたATOMIC形式のトリプルが提示される（例：HinderedByは「〜によって妨げられる可能性がある」となる）。各トリプルは3人のアノテーターによって評価され、受容度について「常に/しばしば」、「時々/ありそう」、「ありえない/決してない」、「無効」、「判断不能」の選択肢が与えられる。最初の2つは「受容」、次の2つは「拒否」、最後は「判断不能」とみなされる。受容率の報告や批評モデルの学習のため、「受容」と「非受容」のみを区別する。ワーカーには1タスクあたり0.17ドルが支払われ、1タスクあたり最大30秒かかるため、時給換算で20.4ドルとなる。ワーカーは、過去の知識ベーストリプル評価の高い精度を持つAmazon Mechanical Turkの資格に基づいて選ばれる。アノテーター数を除き、すべての評価で同じ設定に従う。この設定は、一貫性があり信頼性の高いアノテーションをもたらすことが示されており、3人のアノテーターで評価した場合、Fleissのkappa値（Fleiss, 1971）は40.8となる。

B Using Alternate Models as Knowledge Sources

本研究における記号知識蒸留の強力な性能から、別の知識源（すなわち、言語モデル）が同様の方法で恩恵を受けるかどうかという疑問が生じる。本節では、特に、結果として得られるコーパスの基礎知識を生成する「緩い教師」として、他の言語モデルの能力を測定する。

GPT-3（本研究で使用したモデル）以外に、2つの最新の大規模言語モデル、GPT-J (Wang and Komatsuzaki, 2021) とT5-11B (Lester et al., 2021) を言語モデリング用に微調整して調査対象に加えた。知識生成（言語化）においては、品質向上のための簡単な調整とともに§3と同じ手順に従う。ここでは、知識精度に対する批評家の影響を調査しているため、人間の作成した知識の自動フィルタリングの有用性を探るために、ATOMIC20も組み込んだ。

各知識源について、§3.4の人間評価設定に従い、品質アノテーションを収集する。これにより、2000個の例に対して、例あたり1つのアノテーションが得られる。これは、より多くの知識源を考慮するために、以前の批評家実験を小規模にしたものである（2000件のアノテーション対10000件）。各知識源について、トレーニング、開発、テストセット用に1400/300/300のサイズにランダムに分割する。§4に従って、各知識源の批評モデルをトレーニングする。

図3では、さまざまな閾値（コーパスのフィルタリング率）に対して、結果として得られる精度（「有効」な知識と判断されたコーパスの割合）をプロットし、表7では、さまざまなサイズでの数値を提示する。注目すべき点は、批評モデルがこれらの知識源のいずれの精度も約90%まで向上させることができる一方で、元のコーパスサイズの30%を保持できることである。これにより、元の生成された知識の大部分が破棄されるものの、よりコスト効率の高いモデルを大規模に使用して、ATOMIC10xのような強力な常識コーパスを生成できる可能性が高まる。GPT-JとT5-11Bは、GPT-3のような従量制のAPIを使用するのではなく、研究者がローカルで実行できる。したがって、このようなアクセス可能なモデルからより大量の知識を生成し、より大規模にフィルタリングすることで、より低コストで大規模かつ高品質なATOMIC10xのようなコーパスを生成できると予想される。

もう1つの興味深い点は、さまざまな知識源がどのように分岐するかである。批評フィルタリングがほとんどない場合（すなわち、コーパスサイズ=1.0）、さまざまな知識源の精度は大きく異なる。批評を適用する前に、知識源の品質が非常に重要となる。実際、精度は生成コストによって順序付けられる。人間のATOMIC20は最も高価でありながら最も精度が高く、次いで従量制のGPT-3（本研究で使用）であり、最後に2つの公開モデルとなる。もう1つの分岐点は、極端なフィルタリング（元のコーパスサイズの約20%）の場合である。GPT-3以外のすべての知識源は精度が約90%で頭打ちになるが、GPT-3は100%に向かって上昇する。実際、これは、高品質な自動知識源としての本研究におけるGPT-3の使用を支持するものである。

C Critic Model

本論文では、人間の受容可能性を判断するための二値分類器（批評家）を、RoBERTa-Largeを用いて学習させている。すべてのパラメータをファインチューニングし、[CLF]表現に2層のMLPを適用する。検証セットで、バッチサイズ128、ドロップアウト0.1、Adam学習率5e-6が効果的であることがわかった。検証性能が停滞した場合に早期打ち切りと学習率減衰を使用し、検証セットでのR@80%を最大化する。MNLIで事前学習されたRoBERTaが効果的であり、他のオプションよりも優れていることがわかった。また、人物指定「X」/「Y」にランダムにサンプリングされた名前を代入する。ベースラインとして、(Davison et al., 2019)に触発された教師なしフィルタリング指標を含める。この場合、GPT-3自体の負の対数尤度（NLL）とトークン平均NLLを使用する。

検証セットにおける最適なモデルの精度/再現率、ベースライン、および最適でないハイパーパラメータ構成をFigure 6に示す。モデルを固定したら、テストセットにも適用し（Figure 6）、ATOMIC10xエントリに一般化できることを確認した。全体として、学習済みの批評家モデルは、すべての精度と再現率のレベルで、高品質と低品質の教師生成を識別する上で、ベースラインよりも効果的である。この結果は、少量の人間による監督が、GPT-3の誤りを一貫して修正するのに役立つことを示唆している。

D ATOMIC10x Generation Prompts

セクション「D ATOMIC10x Generation Prompts」では、ATOMIC10xデータセットを生成するために使用されたプロンプトの例が示されている。これらのプロンプトは、イベントの生成、属性（xAttr）、効果（xEffect）、意図（xIntent）、必要条件（xNeed）、反応（xReact）、欲求（xWant）、および妨害要因（HinderedBy）といった、さまざまなタイプの推論を生成するために使用される。各プロンプトは、少数の例と、生成される推論のタイプを説明するテキストで構成されている。イベント生成の場合、プロンプトは100個の高品質な例からランダムにサンプリングされ、各バッチで順序もランダム化される。推論生成の場合、PersonXとPersonYに使用される自然な名前は、あらかじめ定義された名前のセットからランダムにサンプリングされる。