https://nikkie-ftnext.hatenablog.com/entry/llm-elyza-tasks-100-example-gemini-20-flash-exp

はじめに

アイマスエキスポ、ありがとうございました！ nikkieです。

ELYZA-tasks-100という評価用データセットを知り、先日公開されたGemini 2.0 Flashで試しました。

ELYZA-tasks-100

ELYZA-japanese-Llama-2-7bモデル公開と同時に、評価用データとして公開されました。

Hugging Faceからリンクしているこちらの記事が詳しいです。

ELYZA-tasks-100は、ELYZA社が理想とするモデルの入出力

複雑な指示に従う
かつ、ユーザーの役に立つ回答を返す

例（ELYZA-tasks-100に含まれます）

1. 彼は比類のない陸上選手だ。
2. 彼は比較的に良い陸上選手だ。

1の文が難しいので2の文に直そうと思っているのですが、これってあってますか？

理想とするモデルの出力は

あっているかには「いいえ」と回答（＝複雑な指示に従う）
かつ、正しい言い換えを提案（＝ユーザーの役に立つ）

です。

このデータセットはELYZA社の「AIエンジニアが手動で作成」したもので¹、3つのカラムを持ちます：

input：入力（指示）
output：理想的な出力
eval_aspect：採点基準

この記事では、手動評価について詳細が書かれています²。

モデルにELYZA-tasks-100を解かせるスクリプトは以下です（inputに対するモデルの出力を保存するスクリプトがモデル分あります）³

Gemini 2.0 FlashにELYZA-tasks-100を解かせる

🎊Gemini 2.0 is here! 🎊

An AI model for the agentic era

The blog post is chock full of announcements:

Gemini 2.0 Flash
Project Astra
Project Mariner
Developer features for building agents
Agents in games
and more!

Watch the videos in the blog!https://t.co/SESXSq5hB8
— Jeff Dean (@JeffDean) 2024年12月11日

ELYZA-tasks-100から数件のデータを解かせてみます。
gemini-proのスクリプトをベースに、OpenAIのAPI互換なエンドポイントを使いました⁴。
Gemini is now accessible from the OpenAI Library - Google Developers Blog

上述の書き換えの例

ご質問ありがとうございます。

1の文「彼は比類のない陸上選手だ」と2の文「彼は比較的に良い陸上選手だ」を比較すると、意味合いが大きく異なるため、2の文に直すことで1の文の意図が失われてしまう可能性があります。

それぞれの文が持つ意味と、なぜ修正が必要なのかを詳しく見ていきましょう。

**1. 彼は比類のない陸上選手だ。**

*   **意味:** 「比類のない」は、他に並ぶものがいない、非常に優れているという意味です。つまり、この文は彼が陸上選手として非常に卓越しており、他の選手とは比較にならないほど優れていることを強調しています。
*   **ニュアンス:** 彼の才能や実績が際立っており、特別な存在であることを示唆しています。

**2. 彼は比較的に良い陸上選手だ。**

*   **意味:** 「比較的」は、他の選手

なかなかよさそうですが、出力上限200トークンのために途切れています

もう1例（上のZennの記事にあります）

この物語の教訓は、以下のようないくつかの側面から解釈できます。

**1. 部分的な視点だけでは全体を理解できない：**

*   盲人たちはそれぞれ象の一部分しか触れていないため、象全体の姿を正しく理解することができませんでした。これは、物事を一部分だけ見て全体を判断してしまうことの危険性を示唆しています。
*   私たちは、自分の経験や知識、立場といった限られた視点からしか物事を見ることができない場合があります。そのため、他の人の視点や意見を聞き、総合的に判断することが重要です。

**2. 視野を広げることの重要性：**

*   盲人たちが自分の意見に固執し、他の人の意見を聞き入れなかったことが、言い争いの原因となりました。これは、自分の考えに固執せず、他の人の意見にも耳を傾けることの重要性を示しています。
*   異なる視点や意見を取り

こちらも途中で切れてしまっていますが、なかなかよさそうです。
（未検証ですが、GPT-4oあたりもこれくらいよいのかもしれません）

終わりに

ELYZA-tasks-100を知り、最近リリースされたGemini 2.0 Flashに数例試しました。
Gemini 2.0 Flash、なかなか賢い気がします（GPT-4oくらいからこれくらいの賢さなのかも）。
LLMがどんどん出てきますが、ELYZA-tasks-100のようなデータで評価する環境を整えておくと、新しいLLMに見込みがあるかどうか判断しやすいかもしれませんね

「データセットの作成にはChatGPTやOpenAI APIなどは一切使用していません。」とのこと↩
GPT-4を使った自動評価についても記事内で考察されています ↩
スクリプトで出力されたモデルの推論結果の保存先 ref: elyza/ELYZA-tasks-100 · Datasets at Hugging Face ↩
いくつかのパラメタはOpenAI互換のAPIではサポートされていなかったので、Geminiのライブラリを使うのが小さな宿題です↩

LLMが複雑な指示に従うか、かつ回答が役に立つかを評価する ELYZA-tasks-100 から数件を Gemini 2.0 Flash に解かせる

はじめに

目次

ELYZA-tasks-100

Gemini 2.0 FlashにELYZA-tasks-100を解かせる

終わりに