谷歌发布全新MoE模型Gemini 1.5 Pro

谷歌于4月10日正式在官网上发布了全新的MoE模型Gemini 1.5 Pro,可在180多个国家/地区使用。

Gemini 1.5 Pro最高支持100万tokens的上下文!100万tokens的上下文意味着Gemini 1.5 Pro可以一次处理1个小时视频、11个小时音频、3万行代码或者70万单词!

除了能生成创意文本、代码之外,Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示,理解、总结上传的视频、音频内容进行深度总结。此外,谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,可显著提升模型的稳定性和输出能力。

目前,可以在Google AI Studio开发平台中免费试用Gemini 1.5 Pro,支持中文进行提示。

视频理解展示:

1、登录https://aistudio.google.com/app/prompts/new_chat然后选择模型Gemini 1.5 Pro,以及上方的Video功能。

Gemini 1.5 Pro

2、点击Video后,选择Upload上传视频。

Gemini 1.5 Pro

3、使用内置视频示例,然后向其提问:“介绍一下这部影片讲述了哪些内容。”

Gemini 1.5 Pro

5、Gemini 1.5 Pro正在解析,等待即可。

结果如下:

6、继续发问,“你能用这个视频写一段600字的影评吗?”随后,Gemini 1.5 Pro便生成了影评。

Gemini 1.5 Pro

 

Gemini 1.5 Pro生成的影评的文章架构、叙述方法以及词汇的准确度虽然无法比拟顶级影评人的作品,但整体上还是非常不错的。用户可以一次性上传多个视频一起解读,视频媒体行业的朋友可以节省很多时间。

音频理解展示:

1、登录https://aistudio.google.com/app/prompts/new_chat然后选择模型Gemini 1.5 Pro,以及上方的Audio功能。

2、点击Audio后,选择Upload上传音频。

Gemini 1.5 Pro

3、上传MP3格式文件。

Gemini 1.5 Pro

4、提问,“总结一下这个音频的内容。”

Gemini 1.5 Pro

结果如下:

Gemini 1.5 Pro

Gemini 1.5 Pro

Gemini 1.5 Pro将整个可成的结构、故事内容和学习目标全部都解读了出来。

为了帮助开发人员更好地控制Gemini模型,谷歌对API进行了三个优化。

1、系统指令

目前可以在Google AI Studio和Gemini API中使用系统指令功能,可指导模型的响应输出。能让用户根据其特定需求和用例控制模型的行为。在设置系统指令时,用户需要为模型提供额外的上下文来了解任务、提供自定义程度更高的响应,并在用户与模型的整个互动过程中遵循特定准则。而开发者通过系统指令能定义角色、格式、目标和规则,以引导模型在特定用例中的各种行为。

2、JSON模式

现在Gemini API提供了一个配置参数,用于请求JSON格式的响应。可以帮助开发者从文本或图像中提取结构化数据。

3、函数调用优化

开发者可以使用自定义函数并将其提供给AI模型,但模型不会直接调用这些函数,而是生成指定函数名称和建议的参数的结构化数据输出。该输出支持调用外部API,然后生成的API输出可以重新合并到模型中,从而帮助开发者实现更全面的查询响应。

行业动态

ChatGPT:部分用户可使用DALL·E 3编辑图片

2024-4-3 9:40:55

行业动态

昆仑万维宣布天工大模型3.0正式上线

2024-4-17 14:24:06

相关推荐