一冊の本からの機械翻訳に関する論文を Gemini Paper Summarizer で要約しました。

Tanzer, G., Suzgun, M., Visser, E., Jurafsky, D., & Melas-Kyriazi, L. (2023). A Benchmark for Learning to Translate a New Language from One Grammar Book.
GitHub - langsci/344: A grammar of Kalamang -- Eline Visser

Gemini 1.5 Pro の開発で使用されました。

次世代モデル、 Gemini 1.5 を発表

【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。

目次

Abstract

概要

問題意識

手法

新規性

章構成

1 INTRODUCTION

2 BACKGROUND: KALAMANG LANGUAGE

3 THE MTOB BENCHMARK

3.1 文法書

3.2 二言語単語リスト

3.3 並列カラマン語-英語コーパス

3.4 評価タスク

4 EXPERIMENTS

4.1 モデルのベースライン

4.1.1 実験設定：モデル

4.1.2 実験設定：コンテキスト

4.2 人間のベースライン

5 RESULTS

6 LIMITATIONS

7 RELATED WORK

7.1 大規模言語モデル

7.2 LLMベンチマーク

7.3 多言語性

7.4 歴史的に不利な立場にあるコミュニティのためのNLP

8 CONCLUSION

ACKNOWLEDGMENTS

REFERENCES

A GRAMMAR BOOK PREPROCESSING

B BASELINE MODELS

B.1 公開されている事前学習済みモデル

B.2 公開されているファインチューニング済みモデル

B.3 APIモデル

C PROMPTS

D EMBEDDING-BASED RETRIEVAL

E DATASET SPLITS FOR BASELINES

F QUANTITATIVE RESULTS

G QUALITATIVE RESULTS

Abstract

大規模言語モデル（LLM）は、インコンテキスト学習や軽量ファインチューニングによって、目覚ましい成果を上げることができる。これらのモデルが、本当に新しいタスクにどれだけ適応できるのか、また、インターネット規模のトレーニングセットでは見られないタスクをどのように見つけるのか、疑問に思うのは自然なことである。我々は、ウェブデータの不足によって明確に動機づけられ、ボトルネックとなっている分野、すなわち低リソース言語に目を向ける。本稿では、MTOB（Machine Translation from One Book）を紹介する。これは、英語とカラマン語（話者が200人未満で、ウェブ上には事実上存在しない言語）間の翻訳を学習するためのベンチマークであり、数百ページに及ぶフィールド言語学の参考資料を使用する。このタスクの枠組みは、モデルに、大規模なインドメインデータのマイニングされたコーパスではなく、単一の人間が読める文法解説書から言語を学習させるという点で斬新であり、L1習得よりもL2学習に近い。我々は、現在のLLMを用いたベースラインが有望ではあるものの、人間のパフォーマンスには及ばず、カラマン語から英語への翻訳で44.7 chrF、英語からカラマン語への翻訳で45.8 chrFを達成したことを示す。これに対し、同じ参考資料からカラマン語を学習した人間は、51.6 chrFと57.0 chrFを達成した。我々は、MTOBが、LLMの能力を新たな側面から測定するのに役立ち、それを解決するために開発された手法が、従来の機械翻訳とは質的に異なる種類のデータを活用することで、十分なサービスを受けられていないコミュニティの言語技術へのアクセスを拡大するのに役立つことを期待する。

概要

本論文では、ウェブデータが不足している低リソース言語の機械翻訳を、文法書のみを用いて学習するベンチマークMTOBを提案し、大規模言語モデルの性能を評価した結果、人間の翻訳には及ばないものの、文脈情報を活用することで性能が向上することを示した。

問題意識

本論文は、大規模言語モデル（LLM）が、インターネット規模の学習データセットでは見られない新しいタスクにどの程度適応できるのか、という問題を解決しようとしている。特に、ウェブデータが不足している低リソース言語を対象とし、その言語を学習する際のLLMの能力を評価するための新しいベンチマークを提案している。具体的には、カラマン語という話者が200人未満の言語を対象とし、その言語の文法書一冊のみを用いて、英語との翻訳タスクをLLMに課すことで、従来の機械翻訳とは異なるデータを用いた言語学習の可能性を探っている。

手法

本論文では、大規模言語モデル（LLM）が、ウェブデータが不足している低リソース言語の翻訳を学習するための新しいベンチマークであるMTOB（Machine Translation from One Book）を提案している。MTOBは、英語とカラマン語（話者が200人未満のインドネシアの言語）の翻訳を学習するタスクであり、学習データとして、フィールド言語学の参考資料である文法書、二言語単語リスト、および少量の並列テキストを使用する。このタスクは、モデルが大規模なデータセットではなく、人間が読める文法書から言語を学習するという点で、従来の機械翻訳タスクとは異なり、第二言語学習に近いアプローチを試みている。

新規性

本論文の新規性は、以下の3点に集約される。

現実世界の未見の領域への挑戦: 大規模言語モデル（LLM）の学習データには、一般的にウェブ上のデータが用いられるが、本研究では、ウェブ上にほぼ存在しないカラマン語という低リソース言語を対象としている。これにより、LLMが真に新しいタスクに適応できるか、あるいは既存の能力を引き出しているに過ぎないのかという問いに、より明確な答えを与えようとしている。
説明からの学習: 機械翻訳は通常、大量の並列データを用いて学習されるが、本研究では、言語学的な説明が記述された文法書を用いて言語を学習するという、第二言語学習に近いアプローチを採用している。これは、LLMが単なるデータパターンマッチングではなく、人間が理解可能な説明から言語を学習できるかという、新たな視点を提供している。
人間スケールでの評価: 低リソース言語の翻訳タスクでは、データが限られているため、タスクの実現可能性が不明確な場合が多い。本研究では、カラマン語の文法書を用いて実際に言語を学習した人間（著者自身）を評価することで、モデルの性能目標を具体的に設定し、データ量に制約がある状況下での機械翻訳の限界を明らかにしている。

これらの新規性により、本研究はLLMの能力を新たな側面から評価し、低リソース言語における言語技術の発展に貢献する可能性を示唆している。

章構成

1 INTRODUCTION
2 BACKGROUND: KALAMANG LANGUAGE
3 THE MTOB BENCHMARK
- 3.1 GRAMMAR BOOK
- 3.2 BILINGUAL WORD LIST
- 3.3 PARALLEL KALAMANG-ENGLISH CORPUS
- 3.4 EVALUATION TASKS
4 EXPERIMENTS
- 4.1 MODEL BASELINES
  - 4.1.1 EXPERIMENTAL SETUP: MODEL
  - 4.1.2 EXPERIMENTAL SETUP: CONTEXT
- 4.2 HUMAN BASELINE
5 RESULTS
6 LIMITATIONS
7 RELATED WORK
- 7.1 LARGE LANGUAGE MODELS
- 7.2 LLM BENCHMARKS
- 7.3 MULTILINGUALITY
- 7.4 NLP FOR HISTORICALLY DISADVANTAGED COMMUNITIES
8 CONCLUSION
ACKNOWLEDGMENTS
REFERENCES
A GRAMMAR BOOK PREPROCESSING
B BASELINE MODELS
- B.1 PUBLIC-WEIGHTS PRETRAINED MODELS
- B.2 PUBLIC-WEIGHTS FINETUNED MODELS
- B.3 API MODELS
C PROMPTS
D EMBEDDING-BASED RETRIEVAL
E DATASET SPLITS FOR BASELINES
F QUANTITATIVE RESULTS
G QUALITATIVE RESULTS

1 INTRODUCTION

大規模言語モデル（LLM）は、インコンテキスト学習や軽量なファインチューニングにより、目覚ましい適応能力を示す。しかし、これらのモデルが真に新しいタスクに適応できるのか、また、インターネット規模のトレーニングセットでは見られないタスクをどのように見つけるのかという疑問が生じる。本論文では、ウェブデータが不足している低リソース言語に着目し、英語とカラマン語（話者200人未満）間の翻訳を学習するためのベンチマークであるMTOB（Machine Translation from One Book）を導入する。このタスクは、大規模なデータセットではなく、文法説明が記述された単一の書籍から言語を学習することをモデルに要求する点で新規であり、L1（第一言語）の習得よりもL2（第二言語）の学習に近い。LLMを用いたベースラインは有望だが、人間のパフォーマンスには及ばず、カラマン語から英語への翻訳で44.7 chrF、英語からカラマン語への翻訳で45.8 chrFを達成した。これに対し、同じ資料でカラマン語を学習した人間は、それぞれ51.6 chrFと57.0 chrFを達成した。MTOBは、LLMの能力を新たな側面から測定し、その解決のために開発された手法が、従来の機械翻訳とは異なる種類のデータを活用することで、十分なサービスを受けられていないコミュニティへの言語技術のアクセスを拡大するのに役立つことを期待する。

2 BACKGROUND: KALAMANG LANGUAGE

カラマン語（ISO 639-3: kgv）は、インドネシアのパプアにあるボンベライ半島の西海岸沖のカラ諸島で、主に2つの村に住む200人未満の人々によって話されている絶滅危惧言語である。パプアは世界で最も言語的に多様な地域であり、ボンベライ半島だけでもオーストロネシア語族とパプア語族の両方に属する16の先住民言語が存在する。カラマン語は、より広範なトランスニューギニア語族に分類される可能性のある、大西ボンベライ語族の一員であるが、この語族の他のメンバーとは特に関係が深いわけではない。オーストロネシア語族とパプア語族の両方の言語に関連する地域的な特徴をいくつか持っているが、どちらの典型的な例でもない。マレー語の方言であるパプア・マレー語（pmy）がこの地域の共通語として機能し、異なる言語の話者間のコミュニケーションを促進している。

1980年以前にマスとアンタリサで生まれた人々のほとんどはカラマン語に堪能で、同僚との会話で定期的に使用していたが、その後10年間で急激に減少し、1990年以降に生まれた人はカラマン語の流暢な話者ではなくなった。カラマン語の話者を含む村の住民は全員、パプア・マレー語を話すことができ、カラマン語を話さない人がいるグループ環境では、パプア・マレー語が代わりに使用される。一部の住民は、インドネシア語や近隣の先住民言語にも堪能である。住民はカラマン語に対して中立的な態度をとっており、威信も不名誉も感じていない。子供たちがカラマン語を話さないことを残念に思っている人もいるが、それは子供たちが学ぶことができないからだと考えている。

カラマン語は、正式な書き言葉の伝統や行政的な使用がない、主に口頭言語である。しかし、促されると、識字能力のある話者は、カラマン語の音韻論に適したインドネシア語の正書法を使用して、カラマン語の単語やフレーズをわずかなバリエーションで書く。スマートフォンやインターネットへのアクセスがますます手頃な価格になっているため、ソーシャルメディアでのカラマン語の利用が最近増えているが、主にパプア・マレー語の中に短いフレーズを挟む、流暢でない話者に限られている。

カラマン語とその人々は、このセクションの情報源であるVisser（2022）まで詳細には研究されていなかった。カラマン語は、主語-目的語-動詞（SOV）の語順と、名詞-対格の一致を持ち、助詞と接辞を混合して使用するように分析された。カラマン語の文の例については、図4と5を参照のこと。

3 THE MTOB BENCHMARK

本論文では、MTOB（Machine Translation from One Book）という、英語とカラマン語間の翻訳を学習するためのベンチマークを提案する。カラマン語は、インドネシアのパプアにある小さな島で200人未満の人々によって話されている言語であり、ウェブ上にはほとんど存在しない。このベンチマークは、フィールド言語学の参考資料を用いて、モデルが単一の人間が読める文法書の解説から言語を学習するという点で、新しいタスクフレームワークを提供する。これは、大規模なドメイン内データから学習するのではなく、第二言語学習に近い。

MTOBデータセットは、Visser（2022）によるカラマン語の文書化に基づいている。これは、4年間にわたるマスでの11ヶ月のフィールドワークに基づいたもので、以下の3つのリソースで構成されている。

3.1 文法書

データセットの最も重要なリソースは、Visser（2022）の『カラマン語文法』という書籍である。この書籍は、カラマン語の音韻論、形態論、統語論について記述しており、1000以上の自然な例が用いられている。書籍は、LaTeX形式とプレーンテキスト形式で提供される。プレーンテキスト形式は、すべての英語言語モデルに適している。書籍の長さは、プレーンテキストで217,388トークン、LaTeX形式で518,884トークンである。

3.2 二言語単語リスト

翻訳タスクの2番目のリソースは、Visser（2022）がDictionariaを通じて公開した二言語単語リストである。このリストには、品詞タグと英語の説明とともに、合計2,531のカラマン語の単語が含まれている。

3.3 並列カラマン語-英語コーパス

データセットの最後の要素は、カラマン語と英語の文のペアの小さなコレクションである。単語リストと同様に、文のペアもDictionariaを通じて書籍とともに公開されている。

3.4 評価タスク

MTOBベンチマークタスクは、§3.3のテストセットで、カラマン語から英語（kgv→eng）および英語からカラマン語（eng→kgv）への文レベルの翻訳である。トレーニング資料への完全なアクセスが許可される。評価指標には、chrF（Popović, 2015）が用いられる。これは、シンプルで、類型的に多様な言語に適しているためである。

4 EXPERIMENTS

4.1 モデルのベースライン

4.1.1 実験設定：モデル

本稿では、12個の言語モデルを評価する。これらのモデルには、公開されている重みを持つ事前学習済みモデル（LLaMA-7B、LLaMA-13B、LLaMA-30B、Llama 2-7B、Llama 2-13B、Llama 2-70B）、文法書のテキストでファインチューニングした公開モデル（Llama 2-7B-ft、Llama 2-13B-ft）、およびAPIベースのモデル（gpt-3.5-turbo、text-davinci-003、gpt-4、Claude 2）が含まれる。

これらのモデルの中には、特にgpt-3.5-turbo、gpt-4、Claude 2のようにチャットボットとして提供されているものがあり、質問に答えなかったり、自動翻訳メトリクスを妨げるフレーバーテキスト（例：翻訳を紹介してから理由を述べる）で回答を始めたり終わらせたりする可能性がある。このフレーバーテキストを手動で削除し、成功するまで拒否されたクエリを修正する。

4.1.2 実験設定：コンテキスト

各モデルについて、入力文の前にプロンプトで提供される検索されたコンテキストの種類を変化させながら、いくつかの異なる実験設定で翻訳を実行する。コンテキストの種類は以下のとおり。

コンテキストなし（-）：モデルには、カラマン語が西パプアのカラ諸島で話されている言語であることだけを伝え、参照資料は提供しない。
単語リストコンテキスト（W）：入力文中の各単語について、最長共通部分文字列距離に基づいて、カラマン語-英語対訳テキストで最も近い kw 個の単語を検索する。
ペア文コンテキスト（S）：入力文中の各単語について、最長共通部分文字列距離に基づいて、その単語またはそれに近い単語を含む並行英語-カラマン語のトレーニングセットから文を検索する。
文法書コンテキスト（G）：文法書から入力文に類似したパッセージを検索する。文法書を512トークンのチャンクに分割し、コサイン類似度または最長共通部分文字列距離を使用して入力文に最も近いチャンクを検索する。また、文法書から手動でキュレーションしたサブセットを無条件にコンテキストウィンドウにダンプする。
これらの条件を組み合わせることも可能。

4.2 人間のベースライン

ベンチマークで人間がどの程度うまく機能するかを知ることは、ラベルノイズや不完全な自動メトリクスを考慮して、達成可能な具体的な目標を設定するために一般的に役立つ。MTOBの場合、人間のベースラインは特に重要である。なぜなら、タスクフレームワーク（フィールド言語学の参照資料から言語を学習する）は新規であり、ある程度しか可能でないと予想されるからである。幸い、このベンチマークは、事前知識のない事前学習済みモデルが人間が読める参照資料から学習する能力を測定するため、タスクフレームワークに人間を代入して、公平でデータにマッチした比較を得ることが可能である。

人間のベースラインは、文法書を読み、理解するのに時間がかかり、専門知識を必要とし、最良の結果を達成するための動機が必要となるため、著者の一人（言語学の経験があり、様々な言語を研究したことがある）のみが担当した。

人間のベースラインは、まず文法書を2回読み（1回目は細部まで、2回目は理解が難しい部分を把握）、その後翻訳タスクを開始した。他の著者が文のトレーニングセットを準備し、テストセットを2つに分割した（半分はkgv→eng翻訳、半分はeng→kgv翻訳）。著者は、数週間かけて少しずつ翻訳を行い、カラマン語の参照資料としてトレーニング資料を参照し、その他の参照資料としてインターネット全体を参照した。

5 RESULTS

本論文では、人間による翻訳を基準として、機械翻訳の性能を評価している。実験結果は、モデルの規模、学習データ量、コンテキスト（文脈）の与え方によって翻訳精度が大きく変動することを示している。

特に、以下の点が明らかになった。

モデルの規模: より大規模なモデル、例えばLLaMAやLlama 2のファミリーにおいて、モデルのサイズが大きいほど性能が向上する傾向が見られた。APIベースのモデルでも、一般的に性能が高いモデル（例：gpt-4）が、このタスクにおいても高い性能を示す。
コンテキスト: コンテキストを与えない場合、モデルは翻訳を全く行うことができず、入力文の長さや句読点などの表面的な特徴に頼った出力を生成する。コンテキストが与えられると、翻訳精度は向上する。特に、文ペア（S）が最も効果的であり、次いで単語リスト（W）、文法書からの抜粋（G）の順で効果がある。
コンテキストの組み合わせ: コンテキストを組み合わせることで、さらに性能が向上する傾向がある。ただし、文ペア（S）と単語リスト（W）の組み合わせと、文ペア（S）、単語リスト（W）、文法書からの抜粋（Gs）の組み合わせでは、明確な差が見られない。より良いモデルは、複数のコンテキストを組み合わせるのが得意である。
文法書: 文法書は、長いコンテキスト設定（GmやG¹）において特に効果を発揮する。Claude 2モデルは、これらの設定において、文法的に正しいカラマン語の出力を生成し始める。
ファインチューニング: 文法書テキストで直接モデルをファインチューニングすると、翻訳精度は低下する。これは、文法書が指示に従うプロンプト形式ではないためと考えられる。
人間による翻訳: 人間による翻訳は、機械翻訳を大きく上回る。人間による翻訳は、より正確で、文法的に正しく、自然な表現である。

最も高い性能を示したのは、Claude 2モデルであり、W + S + G¹の設定で、カラマン語から英語への翻訳で44.7 chrF、英語からカラマン語への翻訳で45.8 chrFを達成した。しかし、人間の翻訳者（それぞれ51.6 chrFと57.0 chrF）には及ばなかった。

6 LIMITATIONS

本稿で提案されたMTOB（Machine Translation from One Book）は、研究コミュニティにとって有用であることを期待するが、その有用性は手段的であるに留まる点に注意が必要である。MTOBで高いスコアを出すモデルが直ちに実用的なツールになるわけではなく、そのモデルを開発するために用いられる手法も、より広範な評価が行われるまでは一般的であると見なすべきではない。

まず、MTOBには、その構成の妥当性に関して、いくつかの制約がある。

テストドメイン: MTOBのテストセットは、学習データと同じ因果関係を持つデータセットから抽出されたものであり、独立にサンプリングされたものではないため、やや人工的である。
文レベルの枠組み: MTOBは文レベルの翻訳のみをテストしており、談話レベルの現象（トピック化や焦点など）を軽視している。
非ネイティブによる作成: カラマン語コミュニティのメンバーはVisser（2022）のデータ収集に協力したが、英語翻訳と言語分析は、非ネイティブの外部者である著者によって書かれた。
潜在的な汚染: MTOBのテストセットはウェブ上で公開されたデータから作成されているため、LLMの学習セットが汚染されている可能性がある。
言語の多様性: カラマン語は単一の言語であり、トークン化のような直交する問題の影響を最小限に抑えるために特別に選択された言語である。

次に、MTOBが解決しようとする具体的なタスクは、直ちに役立つものではない。

不明確なコミュニケーション障壁: カラマン語と英語の間、あるいはカラマン語とこの地域で共通の言語であるパプア・マレー語の間でさえ、翻訳は必ずしも最も社会的に役立つタスクではない。
不一致なモダリティ: テキストからテキストへの翻訳は、カラマン語のような主に口頭で話される言語には不十分である。
学習データの誤りの増幅: 小さなデータセットは、より良いキュレーションを可能にする一方で、個々の誤りの影響を増幅する。
不完全な解決策: 本を読むだけで言語を一般的に学習することは不可能である。
不均衡なアクセス: 先住民族のコミュニティは歴史的に不利な立場にあるため、新しい技術が以前は達成不可能だった技術へのアクセスを民主化しても、コミュニティ自体よりも、資源が豊富な団体に多くの利益をもたらす可能性がある。
コミュニティ言語を第二言語として: 一部のコミュニティにとって、LLMに自分たちの言語を第二言語として効果的に教えることは、文化的に不適切であったり、言語技術の目標と両立しない可能性がある。
言語の標準化: 少数の個人が、集団レベルのデータ収集ではなく内省によって言語技術を作成できる場合、これは言語の標準化を促し、言語の多様性を減少させる可能性がある。
コミュニティごとの取り組み: 新しい機械学習技術は、既存の状況だけで言語の危機を解決するものではない。言語技術は復興活動の推進力となる可能性があるが、各コミュニティは、言語の復興に投資しているかどうか、またどのように技術をサポートに使用するかを決定する必要がある。

7.1 大規模言語モデル

大規模言語モデル（LLM）は、訓練計算量とデータ量を増やすことで、文脈からの例示（in-context learning）、指示（instructions）、軽量なファインチューニング（lightweight finetuning）を通じて、複雑なタスクを実行できるようになった。これらの能力が真に一般的であるか、それともメタ学習された文脈内最適化アルゴリズムによるものかは議論があるが、いずれにせよ、インターネット規模の訓練データで多くの社会的・経済的に価値のあるタスクを自動化できる可能性がある。しかし、あまり知られていないタスクでは性能が低い。MTOBは、この緊張を探求することを目的としている。

7.2 LLMベンチマーク

従来のLLM適応ベンチマークは、流動性知能（fluid intelligence）を試すものが多かった。例えば、抽象化と推論の能力を測るARCや、ごくわずかな変更を加えた日常的なタスクを評価する研究がある。対照的に、MTOBは結晶性知能（crystallized intelligence）、つまり学習された知識の獲得を測るベンチマークと見なせる。MTOBは、抽象的な推論よりも、指示に従う能力を評価する。また、長い文脈でのLLM能力を評価するベンチマークはまだ少ない。MTOBは、文脈内の情報を蓄積して翻訳する必要があるため、より難しい。BabyLMは、人間が第一言語を習得するのと同様のデータ量で言語モデルを事前学習させるタスクだが、MTOBは、ウェブから除外された第二言語を、参照資料から学習させる点が異なる。

7.3 多言語性

従来、機械翻訳モデルは、大規模な教師あり並列データセットで訓練されていた。近年、自己教師あり学習や多言語転移学習が利用されるようになった。低リソース言語をサポートする現在の標準的なアプローチは、その言語のデータをできるだけ多く収集し、LLMの事前学習に含めることである。そして、FLORESやXTREME-UPのようなベンチマークで評価する。過去には、並列文の検索やバイリンガル単語リストの統合によるニューラル翻訳の研究もあったが、フィールド言語学の文法書を機械翻訳の指示として使う研究はなかった。MTOBは、NLPの実践者が手動で文法規則を体系化する代わりに、LLMがそれらを動的に解釈する、一種のルールベース機械翻訳と見なせる。

7.4 歴史的に不利な立場にあるコミュニティのためのNLP

多言語性は、抑圧の遺産と交差するときに敏感になる。NLPの実践者が、外国の価値観の中でデータを収集・展開するのではなく、コミュニティが個々のニーズを満たすソリューションを設計する参加型アプローチを支持する動きがある。MTOBのタスクフレームワークは、技術者が、コミュニティが望むのであれば、公開されているLLMやAPIサービスを使って適用できる一般的な手法を開発できるように、単一の新しい言語への事前学習済みLLMの適応に焦点を当てている。MTOBは、表面上「ゼロリソース」言語であっても、フィールドワークで十分に文書化されている可能性があるという認識に基づいている。既存の方法では、その文書を十分に活用できないという現状を反映している。MTOBは、コミュニティ主導のアプリケーション開発を促進することを目的としているが、このタスク（英語とカラマン語間のテキスト翻訳）が直接的に有用ではないこと、また、タスクフレームワークとデータセット（フィールド言語学の文書）が、一般的に使用可能なモデルに完全に到達するわけではないことを強調している。

8 CONCLUSION

本稿では、英語とカラマン語（話者が200人未満で、ウェブ上にほとんど存在しない言語）間の翻訳学習のためのベンチマークであるMTOBを導入した。MTOBは、文法参考資料（つまり、1冊の本）の数百ページを用いて、翻訳を学習する。LLMのベースラインは人間のパフォーマンスにはまだ及ばないものの、LLMの品質とコンテキストウィンドウサイズを大きくすることで翻訳品質が向上するという明確な傾向が実験で示された。今後の研究では、この傾向を加速させ、翻訳システムをより経済的にし、堅牢な異言語評価を行い、このタスクフレームワークにおける人間のパフォーマンスと社会的に有用なアプリケーションのギャップを埋めることができるだろう。LLMが真に一般的な能力に向かって進歩しているという決定的な証拠とみなせるかどうかは不明だが、LLMの事前学習に使用される個々のデータポイントには未実現の可能性があり、インコンテキスト学習がそれらを活用する有望な方法であることは明らかである。

ACKNOWLEDGMENTS

本論文の著者は、Visser (2022) への謝辞を繰り返し、『カラマン語文法』の作成を可能にしたデータ収集と注釈にご協力いただいたカラマン語コミュニティに感謝の意を表する。また、このデータの新たな使用を祝福してくれた Fajaria Yarkuran にも特に感謝する。最後に、本論文の草稿に対するフィードバックをいただいた Isaac Caswell に感謝する。

REFERENCES

本論文で引用されている参考文献は以下の通りである。

多言語機械翻訳:
- Aharoni et al. (2019): 大規模多言語ニューラル機械翻訳
- Bapna & Firat (2019): ニューラル機械翻訳のためのノンパラメトリック適応
- Bapna et al. (2022): 次の1000言語のための機械翻訳システムの構築
- Fernandes et al. (2023): 多言語ニューラル機械翻訳のスケーリング法則
- Firat et al. (2016): 共有注意メカニズムを用いた多方向多言語ニューラル機械翻訳
- Gu et al. (2018): 検索エンジンガイド付き非パラメトリックニューラル機械翻訳
- Jones et al. (2023): 大規模多言語機械翻訳のための語彙データ拡張
- NLLB Team (2022): 人間中心の機械翻訳のスケーリング
- Siddhant et al. (2020): 自己教師あり学習による多言語ニューラル機械翻訳のためのモノリンガルデータの活用
- Wang et al. (2022): 大規模多言語機械翻訳のための語彙データ拡張
大規模言語モデル (LLM):
- Anthropic (2023): 100kコンテキストウィンドウの導入
- Brown et al. (2020): 言語モデルは少数ショット学習者である
- Bubeck et al. (2023): 人工汎用知能の火花：GPT-4による初期実験
- Chowdhery et al. (2022): Pathways言語モデル：大規模言語モデルのスケーリング
- Chung et al. (2022): 指示に従うように微調整された言語モデルのスケーリング
- Dai et al. (2022): 言語モデルは隠れてメタオプティマイザーとして勾配降下を実行する
- Dettmers et al. (2023): QLoRA：量子化されたLLMの効率的な微調整
- Ganguli et al. (2022): 大規模言語モデルにおける予測可能性と驚き
- Hoffmann et al. (2022a): 計算に最適な大規模言語モデルのトレーニング
- Hoffmann et al. (2022b): 計算に最適な大規模言語モデルのトレーニング
- Hu et al. (2021): LoRA：大規模言語モデルの低ランク適応
- Kaplan et al. (2020): ニューラル言語モデルのスケーリング法則
- Lester et al. (2021): パラメーター効率的なプロンプトチューニングのためのスケールの力
- Lewkowycz et al. (2022): 言語モデルによる定量的推論問題の解決
- Li & Liang (2021): プレフィックスチューニング：継続的なプロンプトの最適化
- Lightman et al. (2023): ステップバイステップで検証しよう
- Liu et al. (2023): 長い文脈の中で失われた：言語モデルが長い文脈をどのように使用するか
- Ouyang et al. (2022): 人間のフィードバックによる指示に従うための言語モデルのトレーニング
- Raventós et al. (2023): 事前学習タスクの多様性と回帰のための非ベイズ内文脈学習の出現
- Sanh et al. (2022): マルチタスクプロンプトトレーニングはゼロショットタスクの一般化を可能にする
- Scao et al. (2022): 大規模言語モデルの倫理的・社会的リスクと機会
- Schaeffer et al. (2023): 大規模言語モデルの創発能力は幻影か？
- Touvron et al. (2023a): Llama：オープンで効率的な基盤言語モデル
- Touvron et al. (2023b): Llama 2：オープンな基盤モデルと微調整されたチャットモデル
- von Oswald et al. (2022): トランスフォーマーは勾配降下によって文脈内で学習する
- Wei et al. (2021): 指示チューニングによる少数ショット学習
- Wei et al. (2022a): 大規模言語モデルの創発能力
- Wei et al. (2022b): 連鎖思考プロンプトは大規模言語モデルで推論を引き出す
- Wu et al. (2023): 模倣ゲームを超えて：言語モデルの能力を定量化し、外挿する
LLMベンチマーク:
- Chollet (2019): 知能の尺度について
- Goyal et al. (2021): 低リソースおよび多言語機械翻訳のためのFLORES-101評価ベンチマーク
- Liu et al. (2023): 長文脈質問応答と検索におけるLLMの評価
- Warstadt et al. (2023): BabyLM：人間規模の言語学習の共有タスク
- Ruder et al. (2023): XTREME-UP：過小評価された言語のためのユーザー中心の希少データベンチマーク
- Suzgun et al. (2023): BIG-benchタスクへの挑戦と連鎖思考で解決できるか
多言語性:
- Bahdanau et al. (2016): ニューラル機械翻訳におけるアライメントと翻訳を同時に学習する
- Lample et al. (2018): モノリンガルコーパスのみを使用した教師なし機械翻訳
- Petrov et al. (2023): 言語モデルトークナイザーは言語間で不公平を生み出す
- Pratap et al. (2023): 音声技術を1000以上の言語にスケーリング
- Sutskever et al. (2014): ニューラルネットワークによるシーケンスからシーケンスへの学習
歴史的に不利な立場にあるコミュニティのためのNLP:
- AIATSIS (2023): 学際的な研究が画期的なワルピリ百科事典を生み出す
- Birhane (2020): アフリカのアルゴリズム植民地化
- Birhane et al. (2022): 人工知能における公平性とアクセス
- Bird (2020): スピーチと言語技術の脱植民地化
- Bird (2022): ローカル言語、サードスペース、およびその他のハイリソースシナリオ
- Joshi et al. (2020): NLPの世界における言語多様性と包摂性の現状と運命
- Mahelona et al. (2023): OpenAIのWhisperは植民地化におけるもう一つの事例研究
- Mager et al. (2023): 先住民言語の機械翻訳に関する倫理的考察：話者に声を届ける
- Raji et al. (2021): AIと全世界のベンチマーク
その他:
- Cao & Xiong (2018): ゲート付き翻訳メモリのニューラル機械翻訳へのエンコード
- Dziri et al. (2023): トランスフォーマーの構成可能性の限界
- Forkel et al. (2018): 比較言語学におけるデータ共有と再利用を促進する、クロスリンガルデータ形式
- Ghazvininejad et al. (2023): 機械翻訳のための大規模言語モデルの辞書ベースのフレーズレベルプロンプト
- Gu et al. (2018): 検索エンジンガイド付き非パラメトリックニューラル機械翻訳
- Kaplan et al. (2020): ニューラル言語モデルのスケーリング法則
- Nostalgebraist (2022): チンチラの野生の含意
- OpenAI (2023): GPT-4技術レポート
- Papailiopoulos (2023): ツイート
- Popović (2015): 自動MT評価のためのchrF：文字nグラムFスコア
- Toma (1977): 多言語機械翻訳システムとしてのSYSTRAN
- Vilar et al. (2023): 翻訳のためのプロンプト：戦略とパフォーマンスの評価
- Villalobos et al. (2022): データがなくなるのか？機械学習におけるデータセットのスケーリング限界の分析
- von Oswald et al. (2022): トランスフォーマーは勾配降下によって文脈内で学習する
- Wang et al. (2022): 大規模多言語機械翻訳のための語彙データ拡張
- Warstadt et al. (2023): BabyLMチャレンジ：開発的に妥当なコーパスでのサンプル効率の良い事前学習
- Wei et al. (2021): 指示チューニングによる少数ショット学習
- Wu et al. (2023): 模倣ゲームを超えて：言語モデルの能力を定量化し、外挿する
- Zhaofeng Wu et al. (2023): 推論または暗唱？反事実タスクを通じて言語モデルの能力と限界を探る
- Visser (2022): カラマン語文法
- Usher & Schapper (2022): 大西ボンベライ語族
- Xinyi Wang et al. (2022): 語彙ベースの適応を通じて、事前学習済みモデルを数千の言語に拡張する
- Alex Warstadt et al. (2023): BabyLMチャレンジ：開発的に妥当なコーパスでのサンプル効率の良い事前学習
- Jason Wei et al. (2022): 大規模言語モデルの創発能力
- Jason Wei et al. (2022): 連鎖思考プロンプトは大規模言語モデルで推論を引き出す
- Zhaofeng Wu et al. (2023): 推論または暗唱？反事実タスクを通じて言語モデルの能力と限界を探る
- Timothy Usher and Antoinette Schapper (2022): 大西ボンベライ語族
- David Vilar et al. (2023): 翻訳のためのプロンプト：戦略とパフォーマンスの評価
- Johannes von Oswald et al. (2022): トランスフォーマーは勾配降下によって文脈内で学習する
- Xinyi Wang et al. (2022): 語彙ベースの適応を通じて、事前学習済みモデルを数千の言語に拡張する
- Alex Warstadt et al. (2023): BabyLMチャレンジ：開発的に妥当なコーパスでのサンプル効率の良い事前学習
- Jason Wei et al. (2022): 大規模言語モデルの創発能力
- Jason Wei et al. (2022): 連鎖思考プロンプトは大規模言語モデルで推論を引き出す
- Zhaofeng Wu et al. (2023): 推論または暗唱？反事実タスクを通じて言語モデルの能力と限界を探る
- Timothy Usher and Antoinette Schapper (2022): 大西ボンベライ語族
- Pablo Villalobos et al. (2022): データがなくなるのか？機械学習におけるデータセットのスケーリング限界の分析
- Hugo Touvron et al. (2023): Llama 2：オープンな基盤モデルと微調整されたチャットモデル
- Rylan Schaeffer et al. (2023): 大規模言語モデルの創発能力は幻影か？
- Aditya Siddhant et al. (2020): 自己教師あり学習による多言語ニューラル機械翻訳のためのモノリンガルデータの活用
- Aarohi Srivastava et al. (2023): BIG-bench：大規模言語モデルのベンチマーク
- Teven Le Scao et al. (2022): Bloom：1760億パラメーターのオープンアクセス多言語言語モデル
- Mirac Suzgun et al. (2023): BIG-benchタスクへの挑戦と連鎖思考で解決できるか
- Ilya Sutskever et al. (2014): ニューラルネットワークによるシーケンスからシーケンスへの学習
- Peter Toma (1977): 多言語機械翻訳システムとしてのSYSTRAN
- Hugo Touvron et al. (2023): Llama：オープンで効率的な基盤言語モデル
- David Vilar et al. (2023): 翻訳のためのプロンプト：戦略とパフォーマンスの評価
- Pablo Villalobos et al. (2022): データがなくなるのか？機械学習におけるデータセットのスケーリング限界の分析
- Johannes von Oswald et al. (2022): トランスフォーマーは勾配降下によって文脈内で学習する
- Xinyi Wang et al. (2022): 語彙ベースの適応を通じて、事前学習済みモデルを数千の言語に拡張する
- Alex Warstadt et al. (2023): BabyLMチャレンジ：開発的に妥当なコーパスでのサンプル効率の良い事前学習
- Jason Wei et al. (2021): 指示チューニングによる少数ショット学習
- Jason Wei et al. (2022): 大規模言語モデルの創発能力
- Jason Wei et al. (2022): 連鎖思考プロンプトは大規模言語モデルで推論を引き出す
- Zhaofeng Wu et al. (2023): 推論または暗唱？反事実タスクを通じて言語モデルの能力と限界を探る
- Timothy Usher and Antoinette Schapper (2022): 大西ボンベライ語族

これらの参考文献は、機械翻訳、大規模言語モデル、多言語性、歴史的に不利な立場にあるコミュニティのためのNLPなど、幅広い分野の研究をカバーしている。

A GRAMMAR BOOK PREPROCESSING

文法書（Visser, 2022）を検索とファインチューニングのために前処理した。原文はLaTeX形式だが、トークン長を大幅に削減するためプレーンテキストに変換した。LaTeXテキストは518,884トークンだが、プレーンテキストはGPT（LLaMA）トークナイザーで217,388トークンである。具体的には、(1) latexpandで本全体を単一のLaTeXファイルに結合、(2) OpenDetexでLaTeXファイルをプレーンテキストに変換、(3) nlpretextでテキストをクリーニング、(4) 正規表現でURLを削除、(5) 手動でテキストを読み、残りの変換エラーを修正した。前処理された文法書のテキストは、コードとモデルとともに公開する。将来的には、モデルがより長いシーケンス長（500K+トークン）または長いマルチモーダル入力を処理できるようになったら、文法書のLaTeXソース全体またはレンダリングされたPDFを機械翻訳のコンテキストとして使用する実験を行うと良いだろう。

B BASELINE MODELS

本研究では、GPTスタイルの自己回帰型Transformerである12個の強力な言語モデルの性能を評価する。モデルはすべて温度0.05でサンプリングされ、これは貪欲法に近いが、わずかな確率的要素を持つ。

テストするモデルは、以下の3つのカテゴリーに分類される。

公開されている事前学習済みモデル
公開されているファインチューニング済みモデル
APIのみのモデル

B.1 公開されている事前学習済みモデル

LLaMA-7B/-13B/-30B: LLaMAモデルは、CommonCrawl、Wikipedia、ArXiv、GitHubなどの公開データセットから1〜1.4Tトークンで学習された一連の公開モデルである。
Llama 2-7B/-13B/-70B: Llama 2モデルは、より高品質だが非公開のデータで2Tトークンで学習されたLLaMAの後継モデルである。

これらのモデルのオリジナルバージョンではなく、公開されている指示ファインチューニング済みモデルを使用する。利用可能な公開されている指示ファインチューニング済みモデルの中から、Open LLM Leaderboardで当時最も高いスコアを獲得していたLlama 2-7B-Nous-Hermes、Llama 2-13B-Nous-Hermes、Llama 2-70B-Belugaを選択した。

B.2 公開されているファインチューニング済みモデル

Llama 2-7B-ft/-13B-ft: 2つの小型のLlama 2モデルを、『カラマン語文法』のテキストで直接ファインチューニングする。LoRA（低ランク適応）を使用し、バッチサイズ4、コンテキストウィンドウサイズ4096で、学習率0.0001で合計4エポックのファインチューニングを行う。リソースの制約上、ファインチューニングする最大モデルは13Bパラメータモデルである。

B.3 APIモデル

APIモデルを用いた実験の大部分は、2023年8月28日の週に実施した。拒否に対する修正実験は、2023年9月17日に実施した。この期間中にこれらのモデルのデフォルトバージョンに変更があったかどうかは不明である。

text-davinci-003/gpt-3.5-turbo/gpt-4: GPTシリーズのモデルは、OpenAIによってAPIとして提供されている。モデルのクローズドな性質のため、トレーニングデータやアーキテクチャについてはほとんど知られていない。text-davinci-003は指示ファインチューニング済みであり、gpt-3.5-turboとgpt-4はチャットファインチューニング済みである。
Claude 2: Anthropicによって提供されているClaudeモデルも、API経由でのみアクセス可能である。他のモデルがサポートする4096または8192トークンではなく、最大100Kトークンまでの非常に長いコンテキスト長をサポートしている点で、テストしたモデルの中でユニークである。

C PROMPTS

大規模言語モデルはプロンプトの構成に非常に敏感であるため、本稿ではプロンプトの構造を明確に示す。プロンプトはゼロショットであり、以下の形式に従う。

「カラマン語は西パプアのカラ島で話されている言語です。以下の文を英語からカラマン語に翻訳してください：{source} {以下に説明するコンテキスト} 翻訳を書いてください。英語：{source} カラマン語翻訳：」

英語からカラマン語への翻訳では「英語」と「カラマン語」を逆にする。

入力文は、検索されたコンテキストよりも前にプロンプトの先頭に提供される。これは、モデルがコンテキストを読む際に特定の入力に注意を向けられるようにするためである。

APIベースのモデルは、利用可能な情報がすべて揃っていないため翻訳できないと応答することがあるため、プロンプトを以下のように変更した。

「カラマン語は西パプアのカラ島で話されている言語です。以下の文を英語からカラマン語に翻訳してください：{source} {以下に説明するコンテキスト} 翻訳を書いてください。翻訳がわからない場合は、最善の推測をしてください。カラマン語を話せないとは言わないでください。翻訳が間違っていても構いませんので、翻訳を提供してください。英語：{source} カラマン語翻訳：」

この変更により、モデルが翻訳を拒否するほとんどのケースが解決された。

次に、プロンプト内の異なる種類のコンテキストの表現方法を説明する。

単語リストコンテキスト（W）の場合、入力文の各単語に対して、ソース文中の最も類似したkw=2つの単語を検索し、各検索された単語について以下のように記述する。

「翻訳を支援するために、カラマン語-英語の二言語辞書で「{入力単語}」に最も近いエントリの1つを次に示します。カラマン語：{カラマン語} 品詞：{pos} 英語翻訳：」

参照文コンテキスト（S）の場合、ソース文中の各入力単語に対して、最も重複するks=2つの文を検索し、各検索された文について以下のように記述する。

「翻訳を支援するために、翻訳されたカラマン語-英語の参照文リストで「{入力単語}」に似た単語を含む翻訳された文を次に示します。カラマン語の文：{カラマン語} 英語翻訳：」

文法書パッセージ（ $G^s$ ）の場合、以下のように記述する。

「翻訳を支援するために、カラマン語-英語の文法書から検索されたパッセージを次に示します。 {文法書テキスト}」

長文コンテキスト文法書（ $G^{m,l}$ ）の場合、以下のように記述する。

「翻訳を支援するために、カラマン語-英語の文法書の全文を次に示します。 {文法書テキスト - 50K/100Kトークン} これがカラマン語-英語の文法書の終わりです。」

D EMBEDDING-BASED RETRIEVAL

当初、最長共通部分列（LCS）と埋め込みベースの検索という2種類の検索を試した。埋め込みベースの検索では、事前学習済みの文変換モデル（all-mpnet-base-v2）を用いて埋め込みを計算した。この埋め込みモデルは英語テキストで学習されているため、比較のために最長共通部分列法も提供した。

文法書のパッセージでは、最長共通部分列距離に基づく検索が埋め込み空間での検索よりもわずかに優れた性能を示した。これは、文法書が主に英語で書かれているものの、多くのカラマン語テキストを含んでおり、このテキストが検索のためにパッセージを選択する際に不均衡に重要になるためと考えられる。埋め込みモデル（sentence-transformerライブラリのall-mpnet-base-v2）は英語テキストで学習されているため、カラマン語テキストはモデルにとって分布外となり、最適なパッセージの検索につながらない可能性がある。対照的に、最長共通部分列はカラマン語テキストの包含にかなり頑健であるはずである。

両方のタイプの検索は、与えられた文に存在する文法的な特徴を記述するパッセージを見つけるのが特に得意ではない。それらは類似したパッセージを見つけるように設計されているだけであるため、そうなることは予想される。

論文の本文に示されているすべての結果は、最長共通部分列に基づいている。

E DATASET SPLITS FOR BASELINES

モデルのベースラインを人手によるベースラインと比較可能にするため、パラレル文の訓練/テスト分割を、ベンチマーク全体で記述されているものとはわずかに異なる形で使用する。

根本的な問題は、モデルは各テストインスタンスに対して新たに実行できる一方、人間はテストインスタンスをまたいで知識を蓄積することである。人手によるベースラインを実行する人間は1人しかいないため、少なくとも各翻訳方向のテストセットは非重複である必要がある（もし、例えば、翻訳方向ごとに異なる人間を立ててこれを改善しようとすると、ある翻訳方向が難しいのか、それとも人間が熟練していないのかを区別するのが困難になる）。したがって、テストセット（100）をランダムに2つに分割する（50+50）。

次に、論文で使用する人手による例のプールを確保するため（汚染を防ぐためにテストセットからは除外する）、各翻訳方向の訓練セットから追加の50文を保留する（25+25）。

これは、人手によるベースラインが350文の訓練セットから取得され、それぞれ50文の2つのテストセットでスコアリングされ、追加のスコアなしの例（各方向で最大25文）を翻訳したことを意味する。

ただし、この設定では、人間はモデルのベースラインと比較して有利になる。なぜなら、人間はテストセットから追加の75のモノリンガルなカラマン語文と75のモノリンガルなドメイン内の英語文を見ることができるからである。これを補うために、各翻訳方向について、モデルは訓練セット全体と、もう一方の翻訳方向のテストセットから取得できる。つまり、訓練セットには450文がある（ただし、これらの文のうち50文は各翻訳方向で異なる）。これは明らかに完全に比較可能な結果ではないが、モデルを優遇する側に誤った。

今後は、従来の訓練（400）とテスト（100）分割を使用し、両方の翻訳方向で訓練文が同じになるようにし（これにより、両方の方向で単一のモデルを微調整できるようになる）、テストメトリクスがわずかに安定することを期待する。

F QUANTITATIVE RESULTS

表1と2は、両方向の翻訳におけるchrFスコアを示す。最上位のベースラインは、W+S+G¹設定のClaude 2であり、kgv→engで44.7 chrF、eng→kgvで45.8 chrFを達成し、人間のベースラインである51.6 chrFと57.0 chrFを下回る。

表3と4は、両方向の翻訳におけるBLEUスコアを示す。kgv→engの最上位ベースラインは、W+S+G¹設定のClaude 2で、16.3 BLEUを達成し、人間のベースラインである24.6 BLEUを下回る。eng→kgvの最上位ベースラインは、W+S+G設定のClaude 2で、6.9 BLEUを達成し、人間のベースラインである24.6 BLEUを下回る。kgv→engでは、BLEUスコアはchrFスコアと相関するが、スケールがわずかに異なる。実験条件が悪いとBLEUは0に崩れるが、chrFには変動が見られる。eng→kgvでは、BLEUはGmとG¹を含む条件でのClaude 2の質的に優れた結果を捉えられない。これは、モデルが単語レベルのn-gramマッチングを破るグロスレベルの形態素を出力するためである。両方向とも、文の多くが比較的短いため、BLEUは0に崩れる。

G QUALITATIVE RESULTS

セクション「G QUALITATIVE RESULTS」では、モデルによる翻訳の質を詳細に分析している。図6、7、8では、それぞれkgv→engとeng→kgvの翻訳例を、複数のモデルにおける最高スコア設定で示している。また、図9と10では、Claude 2の異なるコンテキスト取得方法における翻訳例を示している。これらの分析は、モデルが『カラマン語文法』（Visser, 2022）に記述されたカラマン語文法を忠実に実行しているかどうかを検証することを目的としている。ただし、著者らはカラマン語のネイティブスピーカーではなく、この本を基に学習したため、実際のカラマン語を完全に代表しているとは限らないことに注意が必要である。