最近,谷歌发布了新一代人工智能大模型——Gemini 2.0。该模型是其目前最强大的人工智能模型,“专为智能体时代设计”,不仅性能卓越,还在多模态输入输出方面取得了重大进展。
Gemini 2.0的核心特点在于其强大的多模态能力,它支持原生图像和多语言音频输出,以及原生工具使用。这意味着,该模型能够理解和处理包括文本、图像、视频和音频在内的多种输入类型,并提供相应的输出结果。此外,Gemini 2.0还集成了谷歌搜索、代码执行以及第三方用户定义函数等强大工具,进一步扩展了其应用范围。
此外,Gemini 2.0还内置了代码、游戏、浏览器等不同类型AI Agent,全面朝着智能体自动化方向发力。
Gemini 2.0的特色之处:
1、性能方面得到了显著强化
Gemini 2.0在保持低延迟的同时,推理效率比Gemini 1.5 Pro快两倍,并在代码、数学、图片、语义理解等多项关键基准测试中超越了1.5 Pro,能够更快地响应用户请求提供流畅的交互体验,无论是在实时对话还是在处理复杂任务时都能表现出色。
2、长上下文理解方面也有了实质性增强
Gemini 2.0能够处理更多的数据,并保持上下文的连贯性,从而更好地理解长篇文章、对话历史或复杂的任务指令。
3、支持原生图像生成和音频输出
Gemini 2.0可以根据用户的需求生成与文本相关的图像,或者将文本转换为自然流畅的语音。
同时它还能够直接调用谷歌搜索、代码执行工具以及第三方用户定义函数,可以实时获取最新的信息,并执行复杂的计算任务。
除了超强的多模态功能,Gemini 2.0另一个亮点就是AI Agent。
Project Astra:可以使用Gemini 2.0的多模态功能实现更强的自动化操作,可以集成谷歌搜索、Lens和Maps等工具,使其在日常生活中成为更实用的AI助手。
Project Mariner:能够理解和推理浏览器屏幕上的信息,包括像素、文本、代码、图像和表单等元素。
Jules:可以直接集成到GitHub工作流程中,帮助开发者处理问题、制定计划并执行任务。
此外,谷歌还基于Gemini 2.0开发了一款用于游戏导航的AI Agent,而游戏依靠大量复杂的元素也是测试智能体最佳环境之一。这个AI Agent可以根据屏幕上的动作进行推理,并实时提供下一步操作的建议。
现阶段谷歌已经开放了API,用户可以在Google AI Studio和Vertex AI开发平台中使用预览版的Gemini 2.0。