RAG(検索拡張生成)の精度を決定づける「Embedding(埋め込み)モデル」。これまでは社内文書などの「テキスト」をベクトル化するのが主流でしたが、実際のビジネス現場には画像、図入りのPDF、動画、音声といったデータが溢れています。

「テキストで動画の該当シーンを検索したい」「画像とテキストを組み合わせて関連ドキュメントを探したい」――そんな高度なマルチモーダルRAGを構築しようとして、「モダリティ(データ形式)の壁」にぶつかった経験はないでしょうか?

今回は、その壁を破壊し、あらゆるデータを単一の空間にマッピングするGoogleの最新モデル「Gemini Embedding 2」(パブリックプレビュー版)をご紹介します。

従来のマルチモーダル検索が抱えていた「モダリティの壁」

これまで、画像や動画、音声をRAGの検索対象にするには、以下のような複雑なパイプラインを組む必要がありました。

  • 音声や動画から「文字起こし(Whisperなど)」を事前に行う
  • 画像から「代替テキスト(OCRやキャプション生成)」を生成する
  • テキスト用、画像用など、複数のEmbeddingモデルを別々に使い分け、後からベクトル空間のすり合わせ(アライメント)を行う

これでは前処理に膨大な手間と時間がかかる上、「言葉で表現しきれない視覚的なニュアンス」がテキスト化の段階で欠落してしまい、本来の「意味」ベースの検索精度が落ちてしまうのが開発者の大きな悩みでした。

Gemini Embedding 2の登場:すべてを「ひとつの空間」へ

この課題を根本から解決するのが「Gemini Embedding 2」です。

Gemini Embedding 2は、Google初の「ネイティブ・マルチモーダルEmbeddingモデル」です。テキスト、画像、動画、音声、そしてPDFドキュメントを、中間処理(文字起こしやOCR等)なしで直接読み込み、「単一の統合されたベクトル空間」へとマッピングします。

Gemini Embedding 2の3つの強力なメリット

1. ネイティブ処理によるパイプラインの劇的な簡略化 動画(最大120秒)や音声、PDF(最大6ページ)を直接APIに投げるだけでベクトル化が完了します。さらに「テキスト+画像」のような複数モダリティが混在した入力(インターリーブ入力)も1回のリクエストで処理できるため、RAGシステム側の実装が驚くほどシンプルになります。

2. MRL(マトリョーシカ表現学習)による柔軟な次元・コスト調整 デフォルトでは非常に表現力の高い「3,072次元」のベクトルを出力しますが、MRLという技術の採用により、情報量(精度)を極力保ったまま必要に応じて次元数を小さく出力(例:768次元など)することが可能です。これにより、ベクトルデータベースのストレージコストと検索速度のバランスを、プロジェクトの予算に合わせて自由に最適化できます。

3. 「タスク指示(Task Instructions)」による精度の底上げ task:code retrieval(コード検索)や task:search result(検索結果)といった「タスクの目的」をAPIのパラメータとして明示的に指定することで、その用途に最も適したベクトル表現にチューニングして出力してくれます。これにより、意図した通りの検索結果がさらに得やすくなりました。

想定されるユースケース

  • メディア検索RAG: ユーザーが入力した「テキスト(例:赤い車の事故シーン)」で、社内の「動画ライブラリ(動画ベクトル)」からピンポイントの該当シーンを即座に検索。
  • 複雑なマニュアルの解析: 図表やグラフが含まれたマニュアル(PDF)をそのままベクトル化し、視覚的な情報も含めて回答できる高度なカスタマーサポートボットを構築。
  • クロスモーダルな傾向分析: コールセンターの「音声データ」とサポートの「テキストログ」を同じベクトル空間でクラスタリングし、共通する顧客の感情や傾向を分析。