Google 发布 Gemini Embedding 2:首个原生多模态嵌入模型
Google 正式发布 Gemini Embedding 2,这是其首个原生多模态嵌入模型。该模型基于 Gemini 架构,首次将文本、图像、视频、音频和文档统一映射到一个共享嵌入空间,打破了传统模态壁垒,并简化了...

在人工智能领域,嵌入模型是连接原始数据与高级语义理解的关键桥梁。长期以来,处理不同模态的数据(如文本、图像、音频)通常需要依赖各自独立的嵌入模型,这不仅增加了系统复杂性,也阻碍了跨模态信息的深度融合与检索。近日,Google 正式发布了 Gemini Embedding 2,标志着其首个原生多模态嵌入模型的诞生。该模型基于 Gemini 架构构建,旨在解决上述挑战。
核心内容
Gemini Embedding 2 的核心突破在于首次将文本、图像、视频、音频和文档统一映射到一个共享的嵌入空间中,彻底打破了以往“文本嵌入独立、图像嵌入独立”的模态壁垒。这一设计为跨模态语义理解与检索提供了统一的基础。
在技术规格上,模型展现了强大的输入灵活性:
- 文本:最高支持 8192 tokens。
- 图像:单次最多可处理 6 张(PNG/JPEG 格式)。
- 视频:最长支持 120 秒(MP4/MOV 格式)。
- 音频:支持原生直接嵌入,无需预先转录为文本。
- 文档:最多可处理 6 页 PDF。
模型支持交错输入,允许同时传入多种模态的数据(例如“图像+文字描述”),使其能够捕捉跨媒体的复杂语义关联。在输出方面,模型采用了 Matryoshka Representation Learning 技术,默认输出 3072 维向量,并可动态缩减至 1536、768 等维度,开发者可以根据精度与存储成本进行灵活权衡。
性能方面,Gemini Embedding 2 在文本、图像、视频任务上达到了新的 SOTA 水准,并新增强劲的语音理解能力,覆盖超过 100 种语言。它不仅性能优于传统的单模态嵌入模型,更重要的是显著简化了下游应用管道。从 RAG、语义搜索,到情感分析、数据聚类,开发者均可通过一次 API 调用完成跨模态检索,无需进行多模型拼装或中间格式转换。
为方便开发者集成,该模型已与 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 等主流框架和向量数据库实现集成。
价值与影响
Gemini Embedding 2 的发布,为需要处理多模态数据的应用场景带来了实质性的效率提升和功能增强。其统一嵌入空间的设计,使得跨模态的语义对齐和检索变得前所未有的直接。从已披露的合作伙伴案例中,可以窥见其实际价值:
在法律科技领域,Everlaw 利用该模型在数百万诉讼记录中显著提升了图像和视频搜索的精确率与召回率,为律师提供了全新的跨媒体证据发现能力。在创作者经济领域,Sparkonomy 将文本与图像/视频对的语义相似度从 0.4 提升至 0.8,同时延迟降低了高达 70%,有力支撑了其“Creator Genome”引擎实现更精准的品牌匹配。在个人健康应用领域,Mindlid 通过融合对话记忆、音频和视觉嵌入,将 top-1 召回率提升了 20%,并且得益于其极高的 API 兼容性,迁移过程几乎无需修改代码。
总体而言,Gemini Embedding 2 通过原生多模态支持和简化的 API 设计,降低了开发者构建复杂跨模态 AI 应用的门槛,有望推动 RAG、内容发现、智能分析等多个方向的技术演进与产品创新。


