以下の内容はhttps://kazuhira-r.hatenablog.com/entry/2025/01/25/021323より取得しました。


日本語テキスト埋め込みベンチマークJMTEB(Japanese Massive Text Embedding Benchmark)

これは、なにをしたくて書いたもの?

前に、テキスト埋め込みベンチマークであるMTEBについて調べたことがあります。

テキスト埋め込みのベンチマークMTEB(Massive Text Embedding Benchmark)って? - CLOVER🍀

どうやらこのMTEBの日本語向けのものがあるようなので、メモしておきます。

追記)

埋め込みに限らずモデルを探す場合はこちら。

LLMを探す(日本語対応モデル含む) - CLOVER🍀

JMTEB(Japanese Massive Text Embedding Benchmark)

JMTEB(Japanese Massive Text Embedding Benchmark)は、日本語のテキスト埋め込みのベンチマークです。

sbintuitions/JMTEB · Datasets at Hugging Face

⽇本語埋め込みモデル評価ベンチマークの構築(改訂版)

⽇本語埋め込みモデル評価ベンチマークの構築

GitHubリポジトリーはこちら。

GitHub - sbintuitions/JMTEB: The evaluation scripts of JMTEB (Japanese Massive Text Embedding Benchmark)

JMTEBは6つのタスクと16のデータセットで構成されています。

  • Clustering(2)
    • 類似したセマンティクス/トピックを持つテキストを同じクラスターに正しく分配する
  • Classification(4)
    • テキストの密な表現のみを使用して、テキストのカテゴリーを予測する
  • STS(2)
    • 2つの文章の意味的類似性を予測し、予測と注釈付き類似性の間の相関関係を計算する
  • PairClassification(1)
    • 2つの文章が言い換えか、言い換えでないかを示すラベルを予測する
  • Retrieval(6)
    • 埋め込み類似性の計算を通じて、コーパスからクエリーに最も関連性の高いドキュメントを探す
  • Reranking(1)
    • 埋め込み類似性を計算することで、取得したドキュメントを再ランク付けする

()の中はそのタスクのデータセット数です。

ベンチマークの結果は、leaderboardで確認できます。

https://github.com/sbintuitions/JMTEB/blob/main/leaderboard.md

せっかくなので、このベンチマークの存在は覚えておきましょう。




以上の内容はhttps://kazuhira-r.hatenablog.com/entry/2025/01/25/021323より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14