Gemini产品管理总监Tulsee Doshi于2025年4月17日宣布,Gemini团队正式推出Gemini 2.5 Flash的预览版,并已通过Gemini API,在Google AI Studio和Vertex AI平台上线。这一版本是在广受欢迎的2.0 Flash基础上进行的重大升级,不仅大幅提升了推理能力,还继续保持高速响应和低成本的优势。值得一提的是,Gemini 2.5 Flash是首个真正意义上的“混合推理模型”,为开发者提供了“思考功能”的开关,并允许设定“思考预算”,以便在质量、成本和延迟之间取得最佳平衡。即便关闭思考功能,该模型仍可维持2.0 Flash的高速表现,同时在整体性能上有所提升。

Gemini 2.5系列属于“思考模型”,具备在生成回应前进行内在推理的能力。模型可以在输出结果前,先进行一段“思考”流程,以更深入理解用户的提示、拆解复杂任务并规划回答策略。对于那些需要多步推理的复杂任务(如解答数学题、分析研究性问题),这种预处理过程能显著提升回答的准确性和全面性。数据显示,Gemini 2.5 Flash在LMArena中的复杂提示(Hard Prompts)表现仅次于2.5 Pro,表现非常出色。

在成本与性能对比上,2.5 Flash以远低于其他主流模型的体量和价格,达到了相似甚至更优的表现,被定位为目前最具性价比的思考模型。其卓越的成本-性能比,使其成为Google在质量与成本的帕累托前沿中的又一重要产品。
为了满足不同使用场景下对质量、成本与响应速度的权衡,Gemini团队在2.5 Flash中引入了“思考预算”设置,允许开发者精细控制模型在思考阶段最多可生成的token数量。预算值越高,模型可进行更深入的推理,从而进一步提升回答质量。但需要指出的是,该预算只是上限设定,模型会依据任务复杂度自动决定实际的思考token数量,避免无谓消耗。

从实验数据来看,随着思考预算的提升,模型的推理质量也随之提高。2.5 Flash在训练过程中已具备“自主判断所需思考时间”的能力,因此能根据提示自动调整推理深度。
若开发者希望在尽可能降低成本和延迟的同时,仍享有较2.0 Flash更优的性能表现,只需将思考预算设置为0即可。此外,开发者可通过API参数或在Google AI Studio、Vertex AI中的滑动条进行预算设置,范围从0至24576 token不等。
在默认模式下,模型对不同类型的任务会自动决定思考的深浅。举例来说:
低推理需求的提示包括:
- “Thank you”用西班牙语怎么说?
- 加拿大有多少个省?
中等推理需求的提示包括:
- 两个骰子掷出后,点数加总为7的概率是多少?
- 一名用户工作时间为周一至周五每天9点到18点,想在工作日打5小时篮球,已知其健身房开放时间为周一三五9点至15点,周二和周六14点至20点,如何制定合理安排?
高推理需求的提示包括:
- 一根长度为3米、截面为矩形(宽0.1米,高0.2米)、材质为钢(E=200 GPa)的悬臂梁,受全长均布载荷5 kN/m和自由端点载荷10 kN作用,求其最大弯曲应力。
- 编写一个函数
evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]
来计算电子表格中各单元格的值。要求处理单元格间依赖、运算符优先级,检测循环并抛出错误,禁止使用eval,仅可使用内置库。
Gemini 2.5 Flash现已通过Gemini API在Google AI Studio与Vertex AI开放预览,同时在Gemini应用中设有专属下拉菜单供用户选择。开发者可尝试调整“thinking_budget”参数,探索如何通过可控推理来解决更复杂的问题。
例如,使用以下代码即可快速体验Gemini 2.5 Flash的推理能力:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
更多API文档与推理指南可在官方开发者文档中查阅,或通过Gemini Cookbook中的代码示例入门。Gemini团队还将持续优化2.5 Flash版本,并计划在后续正式上线以支持全面的生产环境使用。