以下の内容はhttps://kazuhira-r.hatenablog.com/entry/2025/01/25/021323より取得しました。

日本語テキスト埋め込みベンチマークJMTEB（Japanese Massive Text Embedding Benchmark）

LLM 雑記

これは、なにをしたくて書いたもの？

前に、テキスト埋め込みベンチマークであるMTEBについて調べたことがあります。

テキスト埋め込みのベンチマークMTEB（Massive Text Embedding Benchmark）って？ - CLOVER🍀

どうやらこのMTEBの日本語向けのものがあるようなので、メモしておきます。

追記）

埋め込みに限らずモデルを探す場合はこちら。

LLMを探す（日本語対応モデル含む） - CLOVER🍀

JMTEB（Japanese Massive Text Embedding Benchmark）

JMTEB（Japanese Massive Text Embedding Benchmark）は、日本語のテキスト埋め込みのベンチマークです。

sbintuitions/JMTEB · Datasets at Hugging Face

⽇本語埋め込みモデル評価ベンチマークの構築（改訂版）

⽇本語埋め込みモデル評価ベンチマークの構築

GitHub リポジトリーはこちら。

GitHub - sbintuitions/JMTEB: The evaluation scripts of JMTEB (Japanese Massive Text Embedding Benchmark)

JMTEBは6つのタスクと16のデータセットで構成されています。

Clustering（2）
- 類似したセマンティクス／トピックを持つテキストを同じクラスターに正しく分配する
Classification（4）
- テキストの密な表現のみを使用して、テキストのカテゴリーを予測する
STS（2）
- 2つの文章の意味的類似性を予測し、予測と注釈付き類似性の間の相関関係を計算する
PairClassification（1）
- 2つの文章が言い換えか、言い換えでないかを示すラベルを予測する
Retrieval（6）
- 埋め込み類似性の計算を通じて、コーパスからクエリーに最も関連性の高いドキュメントを探す
Reranking（1）
- 埋め込み類似性を計算することで、取得したドキュメントを再ランク付けする

（）の中はそのタスクのデータセット数です。

ベンチマークの結果は、leaderboardで確認できます。

https://github.com/sbintuitions/JMTEB/blob/main/leaderboard.md

せっかくなので、このベンチマークの存在は覚えておきましょう。

以上の内容はhttps://kazuhira-r.hatenablog.com/entry/2025/01/25/021323より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14