A Day in the Life

OpenAIの新embeddings,text-embedding-3-smallをRAGタスクで評価する

先日、OpenAI から新しい embeddings モデルである、text-embedding-3-smallとtext-embedding-3-largeが公開された。text-embedding-3-smallは、古いembeddingsモデルのada-v2よりも価格は1/5に、かつ性能は向上しているとのこと。

OpenAIの記事によると、MTEBの評価は少々スコアが上がり、特筆すべきはMIRACLの方は大幅にスコアの向上が見られる。MIRACL(Multilingual Information Retrieval Across a Continuum of Languages)は名前の通り、多言語での情報検索タスクで、このスコアが大幅に上がったということは、日本語での情報検索タスクの精度向上にも期待が持てる。

Wikipedia Q&A の RAG タスクで評価

というわけで早速評価してみる。ベクトル検索のみで、AI王クイズ第一回コンペに臨む - Q&Aタスクでの複数の日本語embeddingsの評価と同じ方法で、約550万件のPassageからベクトル検索して回答が含まれるかを調べるタスク。いわゆるRAG検索で適切な回答を含む文章を発見できるか、を調べる。なお、text-embedding-3-smallの結果はOpenAI API を叩くときに512次元になるようなオプションを渡して次元削減された結果を使っているので、次元削減される前の1536次元のデータを使うと少々のスコアは向上すると思う。

そして結果は以下。

評価結果

text-embedding-3-smallの結果は低く、引き続き multilingual-e5 シリーズがQ&A的な情報検索タスクでは圧倒的に高い、という結果になった。ただ、OpenAI embeddings の強みはロングトークンがembeddings化できることにも思える(今回使ったpassageは日本語400文字以下)し、次元削減しなかったらもうちょっとスコアは上がっている気もする。

利用したデータやコード

おまけ・かかった費用

1,490,618,785 tokens で、30USDほど。これが以前なら5倍費用がかかったので試す気にならなかったのだけど、これぐらいならまぁ個人でも…、という費用感である。

記事の一覧 >

関連するかもエントリー

ベクトル検索のみで、AI王クイズ第一回コンペに臨む - Q&Aタスクでの複数の日本語embeddingsの評価
この記事は、Kaggle Advent Calendar 2023の21日の記事である。長いトークンを扱えるLLMの登場などの背景もあり、LLM出力の精度を上げる手法として Retrieval-Augmented Generation(RAG)の重要性の高まりを感じる。例えば K...
この記事は、Kaggle Advent Calendar 2023の21日の記事である。長いトークンを扱えるLLMの登場などの背景もあり、L...
RAG用途に使える、Wikipedia 日本語の embeddings とベクトル検索用の faiss index を作った
この記事は、情報検索・検索技術 Advent Calendar 2023の12月4日の記事である。昨今のLLMの台頭により、外部情報を In-Context Learning として利用しLLMの生成結果の性能を高めることが可能な RAG(Retrieval Augmented ...
この記事は、情報検索・検索技術 Advent Calendar 2023の12月4日の記事である。昨今のLLMの台頭により、外部情報を In...
日本語 RAG タスクで e5-large 並みの性能の ColBERT
先日公開された、ColBERT の日本語pretrainモデル、JaColBERTの性能が良いらしい。早速、普段評価に利用している、AIクイズ王のQ&A RAGタスクで評価してみた。評価https://docs.google.com/spreadsheets/d/1eSYzxzI...
先日公開された、ColBERT の日本語pretrainモデル、JaColBERTの性能が良いらしい。早速、普段評価に利用している、AIクイ...