跳转到帖子
在手机APP中查看

一个更好的浏览方法。了解更多

AIGC实战 - 只有干货的 AI 社区

主屏幕上的全屏APP,带有推送通知、徽章等。

在iOS和iPadOS上安装此APP
  1. 在Safari中轻敲分享图标
  2. 滚动菜单并轻敲添加到主屏幕
  3. 轻敲右上角的添加按钮。
在安卓上安装此APP
  1. 轻敲浏览器右上角的三个点菜单 (⋮) 。
  2. 轻敲添加到主屏幕安装APP
  3. 轻敲安装进行确认。

Gemini Embedding 2: 开创性多模态嵌入模型的发布

3月10日,谷歌宣布推出Gemini Embedding 2,这是首个原生多模态嵌入模型。它能够将文本、图像、视频、音频和文档映射到单一的嵌入空间中,实现不同媒介类型的跨媒体检索与分类。

该模型基于Gemini架构,在公开预览版中通过Gemini API及Vertex AI提供服务。相较于之前的纯文本基础模型,Gemini Embedding 2能够将多种模态的数据(包括文本、图像、视频、音频和文档)整合到一个统一的嵌入空间,并且涵盖超过100种语言的语义意图。

这种单一嵌入空间的设计简化了复杂的工作流,并增强了各种多模态下游任务的表现,比如检索增强生成(RAG)、语义搜索、情感分析和数据聚类。模型的核心理念是能够同时理解和处理多种信息输入,这意味着用户可以在一次请求中传递多个模态的数据(例如:图像+文本),从而更好地捕捉不同媒介之间的复杂关系。

此外,Gemini Embedding 2采用了名为Matryoshka Representation Learning (MRL)的技术,该技术通过动态调整维度实现信息的嵌套式表示。这使得开发者可以根据性能和存储成本的需求选择不同的输出维度:默认为3072维度,也可选1536或768维度以获取最高质量的结果。

为了直观展示模型的功能,谷歌提供了轻量级多模态语义搜索演示应用。此外,Gemini Embedding 2在技术上不仅超越了现有的单一模态嵌入模型,在文本、图像和视频任务中也表现出更强的语音处理能力,并在多项指标上领先于竞争对手。

借助这一创新技术,谷歌合作伙伴已经能够开发出高质量的多模态应用程序。Gemini Embedding 2的应用范围广泛,从检索增强生成到大规模数据管理以及经典搜索和分析任务中都能发挥重要作用。用户可以通过Gemini API或Vertex AI开始使用该模型,并通过互动式Gemini API和Vertex AI Colab笔记本进一步学习其用法。

目前,Gemini Embedding 2已经集成到了多个开发框架中,包括LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB以及向量搜索工具等。通过赋予我们周围各种数据以语义意义,Gemini Embedding 2为下一代高级AI体验奠定了必要的多模态基础。

更多关于谷歌最新动态,请关注我们的邮件通知。

用户反馈

推荐意见

暂无评论,快来抢沙发吧!

Background Picker
Customize Layout

我的帐户

导航

搜索

搜索

配置浏览器推送通知

Chrome (安卓)
  1. 轻敲地址栏旁的锁形图标。
  2. 轻敲权限 → 通知。
  3. 调整你的偏好。
Chrome (台式电脑)
  1. 点击地址栏中的挂锁图标。
  2. 选择网站设置。
  3. 找到通知选项,并调整你的偏好。