Google 發布 Gemini Embedding 2 模型，支援多模態交錯輸入

近日，Google 正式推出 Gemini Embedding 2 模型，並開啟公開預覽；作為首款基於 Gemini 架構打造的原生多模態嵌入模型，可提供文字、圖像、視訊、音訊與文件的統一嵌入處理。

透過簡化複雜的跨媒體處理流程，該模型能顯著增強 RAG（檢索增強生成）與語意搜尋應用的處理能力。

在多模態處理上，Gemini Embedding 2 也提供具體的規格支援：

此外，也支援多模態交錯輸入（如圖文混合），進而精準捕捉不同媒體間的複雜關聯，完美貼合現實世界中複雜的資料場景。

並且採用俄羅斯套娃的表徵學習技術（Matryoshka Representation Learning, MRL）；其輸出維度可從預設的 3,072 維度進行動態縮放；Google 也推薦使用 3,072、1,536 或 768 維度，讓開發者能在保障處理品質的前提下，可依據儲存需求靈活調整。

而性能表現，Gemini Embedding 2 樹立了多模態嵌入的新標桿，尤其在語音處理方面；而文字、圖像、視訊等跨媒介檢索任務，也優於同類主流模型。

目前 Google 表示到，已有 Everlaw 與 Sparkonomy 等企業已作為早期合作夥伴，在法律檢索及創作者經濟等領域實現顯著的效率提升；並宣布即日起，開發者也可透過 Gemini API 與 Vertex AI 存取此模型。

Google 更同步提供式碼範例與互動式筆記，協助開發者快速建構新一代多模態 AI 應用。

消息來源 : 1 , 2