RAGの次元が変わる！テキストも画像も動画も丸ごとベクトル化する「Gemini Embedding 2」とは？

RAG（検索拡張生成）の精度を決定づける「Embedding（埋め込み）モデル」。これまでは社内文書などの「テキスト」をベクトル化するのが主流でしたが、実際のビジネス現場には画像、図入りのPDF、動画、音声といったデータが溢れています。

「テキストで動画の該当シーンを検索したい」「画像とテキストを組み合わせて関連ドキュメントを探したい」――そんな高度なマルチモーダルRAGを構築しようとして、「モダリティ（データ形式）の壁」にぶつかった経験はないでしょうか？

今回は、その壁を破壊し、あらゆるデータを単一の空間にマッピングするGoogleの最新モデル「Gemini Embedding 2」（パブリックプレビュー版）をご紹介します。

従来のマルチモーダル検索が抱えていた「モダリティの壁」

これまで、画像や動画、音声をRAGの検索対象にするには、以下のような複雑なパイプラインを組む必要がありました。

音声や動画から「文字起こし（Whisperなど）」を事前に行う
画像から「代替テキスト（OCRやキャプション生成）」を生成する
テキスト用、画像用など、複数のEmbeddingモデルを別々に使い分け、後からベクトル空間のすり合わせ（アライメント）を行う

これでは前処理に膨大な手間と時間がかかる上、「言葉で表現しきれない視覚的なニュアンス」がテキスト化の段階で欠落してしまい、本来の「意味」ベースの検索精度が落ちてしまうのが開発者の大きな悩みでした。

Gemini Embedding 2の登場：すべてを「ひとつの空間」へ

この課題を根本から解決するのが「Gemini Embedding 2」です。

Gemini Embedding 2は、Google初の「ネイティブ・マルチモーダルEmbeddingモデル」です。テキスト、画像、動画、音声、そしてPDFドキュメントを、中間処理（文字起こしやOCR等）なしで直接読み込み、「単一の統合されたベクトル空間」へとマッピングします。

Gemini Embedding 2の3つの強力なメリット

1. ネイティブ処理によるパイプラインの劇的な簡略化 動画（最大120秒）や音声、PDF（最大6ページ）を直接APIに投げるだけでベクトル化が完了します。さらに「テキスト＋画像」のような複数モダリティが混在した入力（インターリーブ入力）も1回のリクエストで処理できるため、RAGシステム側の実装が驚くほどシンプルになります。

2. MRL（マトリョーシカ表現学習）による柔軟な次元・コスト調整 デフォルトでは非常に表現力の高い「3,072次元」のベクトルを出力しますが、MRLという技術の採用により、情報量（精度）を極力保ったまま必要に応じて次元数を小さく出力（例：768次元など）することが可能です。これにより、ベクトルデータベースのストレージコストと検索速度のバランスを、プロジェクトの予算に合わせて自由に最適化できます。

3. 「タスク指示（Task Instructions）」による精度の底上げ task:code retrieval（コード検索）や task:search result（検索結果）といった「タスクの目的」をAPIのパラメータとして明示的に指定することで、その用途に最も適したベクトル表現にチューニングして出力してくれます。これにより、意図した通りの検索結果がさらに得やすくなりました。

想定されるユースケース

メディア検索RAG: ユーザーが入力した「テキスト（例：赤い車の事故シーン）」で、社内の「動画ライブラリ（動画ベクトル）」からピンポイントの該当シーンを即座に検索。
複雑なマニュアルの解析: 図表やグラフが含まれたマニュアル（PDF）をそのままベクトル化し、視覚的な情報も含めて回答できる高度なカスタマーサポートボットを構築。
クロスモーダルな傾向分析: コールセンターの「音声データ」とサポートの「テキストログ」を同じベクトル空間でクラスタリングし、共通する顧客の感情や傾向を分析。