Gemini Embedding 2: 开创性多模态嵌入模型的发布

3月10日，谷歌宣布推出Gemini Embedding 2，这是首个原生多模态嵌入模型。它能够将文本、图像、视频、音频和文档映射到单一的嵌入空间中，实现不同媒介类型的跨媒体检索与分类。

该模型基于Gemini架构，在公开预览版中通过Gemini API及Vertex AI提供服务。相较于之前的纯文本基础模型，Gemini Embedding 2能够将多种模态的数据（包括文本、图像、视频、音频和文档）整合到一个统一的嵌入空间，并且涵盖超过100种语言的语义意图。

这种单一嵌入空间的设计简化了复杂的工作流，并增强了各种多模态下游任务的表现，比如检索增强生成（RAG）、语义搜索、情感分析和数据聚类。模型的核心理念是能够同时理解和处理多种信息输入，这意味着用户可以在一次请求中传递多个模态的数据（例如：图像+文本），从而更好地捕捉不同媒介之间的复杂关系。

此外，Gemini Embedding 2采用了名为Matryoshka Representation Learning (MRL)的技术，该技术通过动态调整维度实现信息的嵌套式表示。这使得开发者可以根据性能和存储成本的需求选择不同的输出维度：默认为3072维度，也可选1536或768维度以获取最高质量的结果。

为了直观展示模型的功能，谷歌提供了轻量级多模态语义搜索演示应用。此外，Gemini Embedding 2在技术上不仅超越了现有的单一模态嵌入模型，在文本、图像和视频任务中也表现出更强的语音处理能力，并在多项指标上领先于竞争对手。

借助这一创新技术，谷歌合作伙伴已经能够开发出高质量的多模态应用程序。Gemini Embedding 2的应用范围广泛，从检索增强生成到大规模数据管理以及经典搜索和分析任务中都能发挥重要作用。用户可以通过Gemini API或Vertex AI开始使用该模型，并通过互动式Gemini API和Vertex AI Colab笔记本进一步学习其用法。

目前，Gemini Embedding 2已经集成到了多个开发框架中，包括LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB以及向量搜索工具等。通过赋予我们周围各种数据以语义意义，Gemini Embedding 2为下一代高级AI体验奠定了必要的多模态基础。

更多关于谷歌最新动态，请关注我们的邮件通知。

🔗 来源：Gemini Embedding 2: Our first natively multimodal embedding model (AI 严选)

Gemini Embedding 2: 开创性多模态嵌入模型的发布

用户反馈

推荐意见

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)