最近,谷歌推出了Gemini 1.5 Pro (Gemini – Google DeepMind),这是一款功能强大的AI工具,具备了先进的音频理解能力、几乎无限的文件处理能力,以及扩展到100万的上下文窗口。
这次更新中值得注意的是,Gemini 1.5 Pro新增了原生音频理解功能和一个新的文件API,极大地简化了文件管理。此外,更新还引入了系统指令和JSON模式,允许用户对模型输出进行更精确的控制,并推出了一种新的文本嵌入模型,其性能优于现有模型。
Gemini 1.5 Pro现在支持音频和视频输入,使得它可以应用于例如将讲座录音转换成带答案的测验(如下面的示例所示)。
只需上传一段讲座录音,比如Jeff Dean的超过117,000个令牌的讲座,Gemini 1.5 Pro就可以将其转换成一份带答案的测验。
此次更新还满足了开发者的顶级请求,包括用于指导模型响应的系统指令、用于结构化数据提取的JSON模式,以及用于提高输出可靠性的增强功能调用模式。
开发者现在可以访问新的文本嵌入模型,即text-embedding-004,该模型在MTEB基准测试中的表现超过了可比模型,提供了更强的检索性能。这些增强功能是谷歌持续努力的一部分,旨在使Google AI Studio和Gemini API成为使用Gemini构建应用的最佳工具。谷歌鼓励开发者访问Google AI Studio,探索Gemini API Cookbook,并在Discord上加入社区讨论。