谷歌发布全新MoE模型Gemini 1.5 Pro

行业动态
2024年4月10日
0
编辑

谷歌于4月10日正式在官网上发布了全新的MoE模型Gemini 1.5 Pro，可在180多个国家/地区使用。

Gemini 1.5 Pro最高支持100万tokens的上下文！100万tokens的上下文意味着Gemini 1.5 Pro可以一次处理1个小时视频、11个小时音频、3万行代码或者70万单词！

除了能生成创意文本、代码之外，Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示，理解、总结上传的视频、音频内容进行深度总结。此外，谷歌还对Gemini API进行了性能优化，包括系统指令、JSON模式以及函数调用优化，可显著提升模型的稳定性和输出能力。

目前，可以在Google AI Studio开发平台中免费试用Gemini 1.5 Pro，支持中文进行提示。

视频理解展示：

1、登录https://aistudio.google.com/app/prompts/new_chat然后选择模型Gemini 1.5 Pro，以及上方的Video功能。

Gemini 1.5 Pro

2、点击Video后，选择Upload上传视频。

Gemini 1.5 Pro

3、使用内置视频示例，然后向其提问：“介绍一下这部影片讲述了哪些内容。”

Gemini 1.5 Pro

5、Gemini 1.5 Pro正在解析，等待即可。

结果如下：

6、继续发问，“你能用这个视频写一段600字的影评吗？”随后，Gemini 1.5 Pro便生成了影评。

Gemini 1.5 Pro

Gemini 1.5 Pro生成的影评的文章架构、叙述方法以及词汇的准确度虽然无法比拟顶级影评人的作品，但整体上还是非常不错的。用户可以一次性上传多个视频一起解读，视频媒体行业的朋友可以节省很多时间。

音频理解展示：

1、登录https://aistudio.google.com/app/prompts/new_chat然后选择模型Gemini 1.5 Pro，以及上方的Audio功能。

2、点击Audio后，选择Upload上传音频。

Gemini 1.5 Pro

3、上传MP3格式文件。

Gemini 1.5 Pro

4、提问，“总结一下这个音频的内容。”

Gemini 1.5 Pro

结果如下：

Gemini 1.5 Pro

Gemini 1.5 Pro

Gemini 1.5 Pro将整个可成的结构、故事内容和学习目标全部都解读了出来。

为了帮助开发人员更好地控制Gemini模型，谷歌对API进行了三个优化。

1、系统指令

目前可以在Google AI Studio和Gemini API中使用系统指令功能，可指导模型的响应输出。能让用户根据其特定需求和用例控制模型的行为。在设置系统指令时，用户需要为模型提供额外的上下文来了解任务、提供自定义程度更高的响应，并在用户与模型的整个互动过程中遵循特定准则。而开发者通过系统指令能定义角色、格式、目标和规则，以引导模型在特定用例中的各种行为。

2、JSON模式

现在Gemini API提供了一个配置参数，用于请求JSON格式的响应。可以帮助开发者从文本或图像中提取结构化数据。

3、函数调用优化

开发者可以使用自定义函数并将其提供给AI模型，但模型不会直接调用这些函数，而是生成指定函数名称和建议的参数的结构化数据输出。该输出支持调用外部API，然后生成的API输出可以重新合并到模型中，从而帮助开发者实现更全面的查询响应。

ChatGPT：部分用户可使用DALL·E 3编辑图片

2024-4-3 9:40:55

昆仑万维宣布天工大模型3.0正式上线

2024-4-17 14:24:06

相关推荐

TOP1

1Panel在线安装教程
15小时前
TOP2

腾讯云服务器+宝塔面板搭建JumpServer开源堡垒机教程
23小时前
TOP3

一文带你了解AIO、GEO、SEO
2025年7月9日
华为云Flexus云服务器安装并运行Next Terminal教程
2025年7月8日
超好用的日志收集工具LogDNA
2025年7月7日
腾讯云服务器安装堡塔云WAF教程
2025年7月1日