Google的Gemini 1.5 Pro发布已有一段时间,支持多达100万个token。最近,这家位于山景城的科技巨头在2024年Google I/O大会上宣布,开发者很快就能尝试一个2M token版本。
那么,Gemini 1.5 Pro的实际表现如何?通常,基准测试数据是一个好的起点,尽管它不一定能完全描绘出全貌。事实证明,无论是Gemini 1.5 Pro,还是其“高级版”在某些类别中都与OpenAI最新的GPT-4o不相上下。

表现对比
正如上图所示,根据LMSYS Org的整体排行榜对比,Gemini-1.5-Pro-API-0514和Gemini-Advanced-0514在Arena Elo系统测量下接近GPT-4o。这两个模型在中文领域也极受欢迎,且在“难题”类别中表现突出。
Arena Elo系统通过让用户匿名投票选择哪个模型在随机对决中表现更好,来衡量大型语言模型(LLM)的技能,并像国际象棋的Elo系统一样更新其评级。这个非营利性AI组织专注于对比模型的表现。
Gemini 1.5 Flash现已在Google AI Studio和Vertex AI上可供试用。对于一个小型轻量级模型,它的表现确实与微软Phi-3系列最新成员Phi-3-vision和Phi Silica相媲美。
与OpenAI的比较
OpenAI不久前推出了新的GPT-4o模型和ChatGPT桌面应用,预期非常高。最新的模型使AI聊天机器人在与用户对话时听起来极具人性化。
总的来说,Google的Gemini 1.5 Pro在多个方面表现出色,尤其是在某些特定类别中能与OpenAI的最新模型一较高下。这使得它在AI技术竞赛中占据了一席之地,并展示了其强大的竞争力和创新能力。