これは、なにをしたくて書いたもの?
前に、テキスト埋め込みベンチマークであるMTEBについて調べたことがあります。
テキスト埋め込みのベンチマークMTEB(Massive Text Embedding Benchmark)って? - CLOVER🍀
どうやらこのMTEBの日本語向けのものがあるようなので、メモしておきます。
追記)
埋め込みに限らずモデルを探す場合はこちら。
JMTEB(Japanese Massive Text Embedding Benchmark)
JMTEB(Japanese Massive Text Embedding Benchmark)は、日本語のテキスト埋め込みのベンチマークです。
sbintuitions/JMTEB · Datasets at Hugging Face
JMTEBは6つのタスクと16のデータセットで構成されています。
- Clustering(2)
- 類似したセマンティクス/トピックを持つテキストを同じクラスターに正しく分配する
- Classification(4)
- テキストの密な表現のみを使用して、テキストのカテゴリーを予測する
- STS(2)
- 2つの文章の意味的類似性を予測し、予測と注釈付き類似性の間の相関関係を計算する
- PairClassification(1)
- 2つの文章が言い換えか、言い換えでないかを示すラベルを予測する
- Retrieval(6)
- 埋め込み類似性の計算を通じて、コーパスからクエリーに最も関連性の高いドキュメントを探す
- Reranking(1)
- 埋め込み類似性を計算することで、取得したドキュメントを再ランク付けする
()の中はそのタスクのデータセット数です。
ベンチマークの結果は、leaderboardで確認できます。
https://github.com/sbintuitions/JMTEB/blob/main/leaderboard.md
せっかくなので、このベンチマークの存在は覚えておきましょう。