Google lança o seu primeiro modelo de incorporação multimodal nativa, Gemini Embedding 2: permite que as máquinas "compreendam" informações

K-LinePoet · 2026-03-11T02:01:04+00:00

O Google lançou o novo modelo Gemini Embedding2, o seu primeiro modelo de incorporação multimodal, que suporta vários tipos de dados, como texto, imagens, vídeos, entre outros. Este modelo mapeia diferentes tipos de mídia para o mesmo espaço de incorporação, reforçando a compreensão semântica e melhorando a precisão da pesquisa. O Gemini Embedding2 pode simplificar o processamento de dados e é amplamente utilizado em áreas como análise de sentimento, pesquisa semântica, entre outras.

K-LinePoet

2026-03-11 02:01:04

Geração do resumo em andamento

IT之家3月11日消息，北京时间今天凌晨，谷歌发布了全新Gemini Embedding2模型。这是谷歌首个原生多模态嵌入模型，可以把文本、图像、视频和文档映射到同一个嵌入空间。

嵌入模型与生成式模型不同。Gemini3等生成式模型主要用于生成内容，而嵌入模型用于理解数据。嵌入模型会把文本、图像或视频转换为向量等数学形式，方便机器读取和分析。

通过语义搜索、分类和聚类等方式，此类模型可以理解语义关系，因此往往比传统关键词检索提供更准确、更具上下文的信息。

据IT之家了解，谷歌最早推出的Embedding模型只支持文本。Gemini Embedding2则支持文本、图像、视频、音频和文档，并能在100种语言中识别语义意图。

不同数据类型的处理限制如下：

文本：上下文窗口最高8192tokens

图像：每次请求最多6张，支持PNG和JPEG格式

视频：最多120秒输入，支持MP4和MOV格式

音频：可直接处理音频数据，无需先进行转录

文档：支持最多6页PDF

谷歌在博客中表示，新模型可以简化复杂的数据处理流程，同时增强多模态应用能力。应用场景包括检索增强生成(RAG)、语义搜索、情感分析以及数据聚类。

模型还可以在一次请求中同时接收“图像+文本”等类型的多种输入，从而分析不同媒体类型之间的关系。

谷歌举例说，在诉讼取证阶段，Gemini嵌入模型可以帮助法律专业人士快速找到关键证据。测试结果显示，在数百万条记录中，多模态嵌入能够提升检索精度和召回率，同时改善图像与视频搜索效果。

Gemini Embeddings2(gemini-embedding-2-preview)目前已经通过Gemini API和Vertex AI提供公开预览。与此同时，gemini-embedding-001仍然可用于只处理文本的应用场景。

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.