谷歌发布全新大模型Gemini 2.0

行业动态
2024年12月13日
0
编辑

最近，谷歌发布了新一代人工智能大模型——Gemini 2.0。该模型是其目前最强大的人工智能模型，“专为智能体时代设计”，不仅性能卓越，还在多模态输入输出方面取得了重大进展。

Gemini 2.0

Gemini 2.0的核心特点在于其强大的多模态能力，它支持原生图像和多语言音频输出，以及原生工具使用。这意味着，该模型能够理解和处理包括文本、图像、视频和音频在内的多种输入类型，并提供相应的输出结果。此外，Gemini 2.0还集成了谷歌搜索、代码执行以及第三方用户定义函数等强大工具，进一步扩展了其应用范围。

此外，Gemini 2.0还内置了代码、游戏、浏览器等不同类型AI Agent，全面朝着智能体自动化方向发力。

Gemini 2.0的特色之处：

1、性能方面得到了显著强化

Gemini 2.0在保持低延迟的同时，推理效率比Gemini 1.5 Pro快两倍，并在代码、数学、图片、语义理解等多项关键基准测试中超越了1.5 Pro，能够更快地响应用户请求提供流畅的交互体验，无论是在实时对话还是在处理复杂任务时都能表现出色。

2、长上下文理解方面也有了实质性增强

Gemini 2.0能够处理更多的数据，并保持上下文的连贯性，从而更好地理解长篇文章、对话历史或复杂的任务指令。

3、支持原生图像生成和音频输出

Gemini 2.0可以根据用户的需求生成与文本相关的图像，或者将文本转换为自然流畅的语音。

同时它还能够直接调用谷歌搜索、代码执行工具以及第三方用户定义函数，可以实时获取最新的信息，并执行复杂的计算任务。

除了超强的多模态功能，Gemini 2.0另一个亮点就是AI Agent。

Project Astra：可以使用Gemini 2.0的多模态功能实现更强的自动化操作，可以集成谷歌搜索、Lens和Maps等工具，使其在日常生活中成为更实用的AI助手。

Project Mariner：能够理解和推理浏览器屏幕上的信息，包括像素、文本、代码、图像和表单等元素。

Jules：可以直接集成到GitHub工作流程中，帮助开发者处理问题、制定计划并执行任务。

此外，谷歌还基于Gemini 2.0开发了一款用于游戏导航的AI Agent，而游戏依靠大量复杂的元素也是测试智能体最佳环境之一。这个AI Agent可以根据屏幕上的动作进行推理，并实时提供下一步操作的建议。

现阶段谷歌已经开放了API，用户可以在Google AI Studio和Vertex AI开发平台中使用预览版的Gemini 2.0。

OpenAI宣布ChatGPT全面接入苹果全家桶

2024-12-12 10:27:48

微软发布最新生成式AI模型Phi-4

2024-12-16 10:17:57

相关推荐

TOP1

野草云美国VPS适合外贸站和AI工具吗
12小时前
TOP2

免备案香港服务器选莱卡云CN2 GIA合适吗
14小时前
TOP3

UCloud静态住宅IP云主机怎么选
14小时前
DeepSeek开源了DSpark推理加速框架 V4正式版即将上线
15小时前
恒创科技美国云服务器适合外贸独立站吗
2026年6月29日
阿里云和腾讯云轻量应用服务器怎么选
2026年6月29日