谷歌全新发布：Gemini 1.5 Pro，AI领域的一次跨界革新

最近，谷歌推出了Gemini 1.5 Pro (Gemini – Google DeepMind)，这是一款功能强大的AI工具，具备了先进的音频理解能力、几乎无限的文件处理能力，以及扩展到100万的上下文窗口。

这次更新中值得注意的是，Gemini 1.5 Pro新增了原生音频理解功能和一个新的文件API，极大地简化了文件管理。此外，更新还引入了系统指令和JSON模式，允许用户对模型输出进行更精确的控制，并推出了一种新的文本嵌入模型，其性能优于现有模型。

Gemini 1.5 Pro现在支持音频和视频输入，使得它可以应用于例如将讲座录音转换成带答案的测验（如下面的示例所示）。

只需上传一段讲座录音，比如Jeff Dean的超过117,000个令牌的讲座，Gemini 1.5 Pro就可以将其转换成一份带答案的测验。

此次更新还满足了开发者的顶级请求，包括用于指导模型响应的系统指令、用于结构化数据提取的JSON模式，以及用于提高输出可靠性的增强功能调用模式。

开发者现在可以访问新的文本嵌入模型，即text-embedding-004，该模型在MTEB基准测试中的表现超过了可比模型，提供了更强的检索性能。这些增强功能是谷歌持续努力的一部分，旨在使Google AI Studio和Gemini API成为使用Gemini构建应用的最佳工具。谷歌鼓励开发者访问Google AI Studio，探索Gemini API Cookbook，并在Discord上加入社区讨论。

Subscribe 订阅