OpenAI声称其未发布的推理模型在享有盛誉的国际数学奥林匹克竞赛(IMO)中获得金牌,引发了激烈的争议,在全球数学竞赛界掀起一场风波。
正值多数高中生享受假期之际,全球最优秀的数学学子齐聚IMO这一被视为世界上最具权威的数学竞赛。与此同时,人工智能实验室也派出自家大型语言模型(LLM)参与角逐。据研究人员Alexander Wei在社交平台X上透露,OpenAI的一款尚未发布的模型表现出色,得分足以斩获一枚金牌。
据介绍,该模型在六道试题中解对了五题,获得了42分中的35分,达到了金牌标准。Wei指出,每道题的评分均由三位曾获IMO奖牌的前选手独立完成,最终评分在三人一致达成共识后敲定。这些题目涵盖代数与初等微积分,要求参赛者具备高度的创造性思维。因此,AI模型能够推理出复杂、冗长的数学证明,被视为一项令人惊艳的技术成就。
然而,OpenAI公布这一结果的时机却引发了争议。据称,IMO方面曾要求与其有正式合作的AI实验室,在比赛结果揭晓后等待一周再发布公告,以免抢去学生参赛者的风头。这一说法来自AI治理与安全研究所(AI Governance and Safety Institute)负责人Mikhail Samin,他在X平台发文指出,OpenAI并未与IMO就成绩验证进行官方合作,而是与个别数学家合作、独立验证模型得分,因此不受此类协议约束。Mashable已就此联系Samin,寻求进一步评论。
不过,有关人士传出,这一举动令IMO组织方感到不悦,甚至有人形容OpenAI的行为“无礼”且“不合时宜”。相关传闻还包括Samin发布的一张截图,其中有人名为Joseph Myers、据称是两届IMO金牌得主,对此表达不满。Mashable已联系Myers,但对方尚未公开确认截图内容的真实性。
对此,OpenAI研究人员Noam Brown回应称,该团队是在IMO闭幕式结束后才公布结果,以此尊重一位IMO组织者提出的请求。Brown还指出,OpenAI并未与IMO建立任何联系,也没有参与任何有关发布时间的协定。
与此同时,谷歌DeepMind方面则被曝已与IMO正式合作,并于当天下午宣布,旗下“升级版Gemini模型Deep Think”在IMO中正式达成金牌标准。根据官方声明,该模型“由IMO协调员按照与学生相同的评分标准进行正式评审和认证”。这一声明的措辞与发布时间,引发外界对其背后意图的种种猜测。
虽然不少人热衷于追剧《真实主妇》,但在精英数学竞赛这一圈层中,遵守比赛礼仪和时间安排的细节,才是真正让圈内人士津津乐道的“高端戏剧”。