OpenAI正式推出了全新的o1-preview系列,专注于解决复杂问题,并于9月12日开始提供。新模型在科学、编程和数学领域表现出色,能够应对比以往更难的任务。 这一系列的AI模型经过特别训练,在回答问题前会花更多时间进行思考。它们可以像人类一样,推理复杂任务并解决难题。这次的发布仅是预览版,未来会不断推出更新和改进。同时,正在开发中的下一个版本也在进行评估。 这些模型的工作原理类似于人类解决问题的思维方式,通过训练,它们学会优化思考过程,尝试不同的策略,并能认识到自己的错误。在测试中,下一版本的模型在物理、化学和生物等高难度基准任务中的表现类似于博士生。在国际数学奥林匹克(IMO)的模拟考试中,GPT-4o仅解决了13%的问题,而这个新模型的得分达到了83%。在编程能力的评估中,新模型在Codeforces竞赛中达到了89%的水平。详细信息可在技术研究报告中查看。 虽然这个早期模型暂时没有像ChatGPT一样的功能,比如浏览网页或上传文件和图片,但在复杂推理任务方面,这无疑是AI能力的一次重大飞跃。因此,OpenAI将这一系列重新命名为o1,并将计数器重置为1。 在安全方面,OpenAI采用了新的安全训练方法,利用这些模型的推理能力,使其更加遵守安全和对齐准则。通过推理安全规则,它们能够更有效地应用这些规定。在一个严苛的绕过安全测试中,GPT-4o的得分仅为22(满分100),而o1-preview模型的得分达到了84。详细信息可在系统卡片和研究报告中阅读。 为匹配新模型的能力,OpenAI加强了安全工作,包括与联邦政府的合作,采用了最佳的红队测试和董事会级别的审查流程。此外,OpenAI还与美国和英国的AI安全研究所签订了正式协议,并为这些机构提供了研究版模型的早期访问权限,以便为未来模型的研究、评估和测试建立流程。 这些新模型的推理能力对于解决科学、编程、数学等领域的复杂问题尤为有用。例如,o1可以帮助医疗研究人员注释细胞测序数据,帮助物理学家生成量子光学所需的复杂数学公式,并为各领域的开发者构建和执行多步骤工作流程。
DeepSeek-V2.5 最好的开源LLM?
在AI时代,组织如何准备迎接技术变革? 中国量化对冲基金“飞高资本管理”旗下的AI分支DeepSeek,正式推出了最新版本的模型——DeepSeek-V2.5。这是一个在前代模型基础上进行增强的版本,整合了DeepSeek-V2-0628和DeepSeek-Coder-V2-0724的功能。 2024年9月6日发布的这个新模型,集成了通用语言处理和编码功能,成为一个功能强大的工具。据第三方研究人员测试和观察,DeepSeek-V2.5目前被认为是开源领域中最先进的大语言模型(LLM)之一。它现已在Hugging Face平台上开放,用户可以通过网页或API无缝访问。 这一版本的发布正值另一场争议中,HyperWrite公司创始人兼CEO马特·舒默于9月5日宣称其模型Reflection 70B是“全球最强的开源AI模型”,这一内部基准测试结果却遭到了独立研究者和更广泛AI社区的质疑,目前尚未有研究者能够重现这些数据。 功能和性能大幅提升 DeepSeek-V2.5针对写作、指令执行和高级编码等任务进行了优化,特别注重与人类偏好的对齐。通过一系列的改进,模型在几乎所有基准测试中均表现优异。 尤其值得一提的是,DeepSeek-V2.5引入了函数调用功能,使其能够更高效地与外部工具进行交互,扩展了模型在实时天气报告、翻译服务和编写算法代码等领域的应用。 CNRS的AI/ML/数据工程师Maziyar Panahi在社交平台X上称赞该模型是“全球最佳的开源LLM”,并表示对此前模型并未引起更多关注感到意外,认为其性能突破性极高。 DeepSeek的巅峰之作 据《金融时报》报道,DeepSeek的母公司飞高资本是拥有超过10,000台[Nvidia] A100处理器的六家中国公司之一,而这些计算资源正被充分用于推动开源AI研究的进步。 DeepSeek-V2.5在自然语言处理(NLP)和编程任务上表现出色,内部测试和外部评估显示,模型在以下关键指标中名列前茅: 在语言对齐方面,DeepSeek-V2.5在中国的内部评估中,表现优于GPT-4o mini和ChatGPT-4o-latest。 AI观察员Shin Megami Boson也表示,他在一项模仿研究生级别的Google-Proof Q&A基准测试中,DeepSeek-V2.5超越了Meta的Llama 3-70B Instruct和Llama 3.1-405B Instruct,但略逊于OpenAI的GPT-4o mini、Claude 3.5 Sonnet和OpenAI的GPT-4o。 广泛的应用与商业前景 DeepSeek-AI已在Hugging Face上以MIT许可证的变体开源了DeepSeek-V2.5,开发者和组织可以自由使用这一模型,甚至在商业环境中使用,但需遵守某些限制。许可证允许全球范围内的非独占、免版税的版权和专利权使用,包括分发、复制和再授权的权利,但禁止军事用途、生成虚假信息以及利用模型对特定群体的漏洞。 这一举措表明了DeepSeek-AI致力于将先进的AI能力民主化。企业可以将该模型应用于自动化客户支持、内容生成、软件开发和数据分析等各种任务。 为了在本地运行DeepSeek-V2.5,用户需要拥有BF16格式设置和80GB的GPU(8块GPU才能完全发挥模型的性能)。该模型在大规模推理和小批量本地部署方面都进行了高度优化。 DeepSeek-V2.5的架构创新之一是多头潜在注意力(MLA),它通过减少KV缓存来显著提高推理速度,同时保持模型的性能不受影响。这种压缩技术不仅提高了计算资源的利用率,也使模型在资源消耗上更为经济。 DeepSeek-V2.5树立了开源大语言模型的新标准,结合尖端技术创新和实际应用场景,成为企业和开发者的理想选择。
Mistral AI发布了Pixtral 12B
法国人工智能初创公司Mistral AI近日发布了Pixtral 12B,这是一款能够处理图像和文本的先进模型。随着该模型的推出,Mistral AI正式加入了日益增长的多模态AI系统行列,其他知名的多模态AI系统还包括Anthropic的Claude、OpenAI的GPT-4o和谷歌的Gemini。 顾名思义,Pixtral 12B拥有120亿个参数,并配备了一个4亿参数的视觉适配器,使其不仅能处理文本输入,还能够“读取”图像。这个新模型是在Mistral之前推出的仅能处理文本的Nemo 12B模型基础上进行升级的。新功能允许用户通过URL或base64编码上传图像,其中后者将图像转换为类似JSON文件的字符串,AI模型能够解码这些字符串并将其还原为图像。Pixtral 12B可以处理多种任务,如为图片生成标题、统计图片中的物体数量,以及回答有关图像内容的常见问题。 Apache 2.0许可下发布 Mistral的开发者关系负责人Sophia Yang透露,该模型将很快在Le Chat和Le Platforme上线,这意味着任何拥有用户账号的人都可以免费试用该聊天机器人或API功能。Mistral AI已经在GitHub和Hugging Face上发布了Pixtral 12B的代码和参数,鼓励开发者下载、优化并进一步训练该模型。 Pixtral 12B模型大小为24 GB,开源且在宽松的Apache 2.0许可下免费提供。这与Mistral其他一些模型,如Mistral 7B、Mixtral 8x22B、Mistral Nemo和Mistral Embed,所使用的许可一致。而该公司推出的其他模型如Mistral Large则受到研究许可或非生产许可的限制,禁止商业用途,仅限于科研。 对训练数据来源的担忧 大语言模型(LLM),尤其是多模态模型,通常从互联网或社交媒体获取训练数据,其中很多信息涉及版权问题。有些内容是未经上传者许可的情况下被用于训练AI模型的。Mistral AI的美国竞争对手OpenAI曾广泛利用Reddit等论坛训练自己的模型,起初并未支付任何费用,之后才与这些平台达成协议。此举一度引发用户的抵制,但最终并未产生实质影响。 一年内估值近60亿欧元 法国初创公司Mistral AI在最近的融资轮中达成了目标,筹集了6亿欧元。公司目前的估值接近60亿欧元——对于一家成立仅一年的公司来说,这无疑是一个惊人的数字。 根据《金融时报》的报道,最新融资中包含了4.68亿欧元的股权融资和1.32亿欧元的债务融资,使该公司的总估值达到5.8亿欧元。
SpaceX首次商业太空行走
周二凌晨,SpaceX的猎鹰9号火箭成功发射,搭载着将尝试首次商业太空行走的团队,并将在50年来飞往最远的太空高度。此次名为“Polaris Dawn”的任务于美国东部时间早晨5:23从NASA肯尼迪航天中心发射,原定时间因恶劣天气多次推迟。任务的第一天接近尾声时,SpaceX的“龙”飞船将达到1,400公里(870英里)的轨道高度,这是自1972年阿波罗17号登月任务以来,人类飞行的最高点,也是国际空间站轨道高度的三倍。 四名船员将穿越高能量的范艾伦辐射带,这里辐射水平远高于较低轨道。在这一阶段,他们将进行研究,深入了解辐射对人体的影响。任务指挥官贾里德·艾萨克曼(Jared Isaacman)上个月在新闻发布会上表示:“我们能从这个环境中学到很多关于人类健康的科学知识。如果我们未来能够抵达火星,还希望能健康地回来与大家分享经验,因此在这个环境中获得一些辐射暴露非常值得。” 此次任务的船员包括艾萨克曼,他是Shift4 Payments的创始人;任务飞行员斯科特·波蒂特(Scott “Kidd” Poteet),一位退役的美国空军中校;以及两名SpaceX员工——任务专家萨拉·吉利斯(Sarah Gillis),她是一名工程师兼宇航员培训师,和任务专家安娜·梅农(Anna Menon),她是SpaceX的医疗主管,同时还负责公司飞行任务的控制。 任务第三天,船员将把“龙”飞船的高度降至约700公里(435英里),他们将在此尝试非政府宇航员进行的首次太空行走。四人将穿上由SpaceX设计的舱外活动服,打开飞船舱门,虽然只有艾萨克曼和吉利斯会走出飞船,进行大约15到20分钟的太空行走。两人将通过系在飞船上的安全绳保持与飞船的连接,并通过船体上的手柄固定自己,避免漂浮在太空中。 此次任务的太空服设计具有重要意义,因为SpaceX的长期目标是建立火星人类殖民地,未来成百上千的人可能会穿着类似的太空服。此外,任务还将测试龙飞船与SpaceX星链(Starlink)卫星之间的通信技术,这将为飞船内提供Wi-Fi,为未来前往月球或火星的任务打下可靠的通信基础。 这次任务是艾萨克曼“Polaris计划”的三项任务中的第一项,第三次任务计划成为SpaceX星舰的首次载人发射。艾萨克曼在三年前曾参与Inspiration4私人太空任务,也是由SpaceX执行的。此次发射后,艾萨克曼向SpaceX表示感谢:“没有你们14,000名员工的努力,我们不可能踏上这段旅程。” 在为期五天的太空任务结束后,船员将返回地球,并在佛罗里达州附近海域溅落。
谷歌在推翻欧盟反垄断罚款的最后努力中失败
谷歌在推翻欧盟反垄断罚款的最后努力中失败,周二欧盟最高法院裁决其败诉。这一案件不仅带来了巨额罚款,还开启了对大型科技公司日益严厉的监管时代。 欧盟最高法院驳回了谷歌针对欧盟委员会罚款的上诉。委员会是由27个成员国组成的欧盟的最高反垄断执行机构,因谷歌的比价购物服务违反了反垄断规定,对其处以24亿欧元(约合27亿美元)的罚款。 同样在周二,苹果也在一场税务案件中败诉。法院裁决苹果必须向爱尔兰偿还130亿欧元(约合143.4亿美元)的补缴税款。这一判决针对的是全球企业获得非法国家补助的案件。欧盟法院的两项裁决标志着这些案件终于尘埃落定,而这些案件的历史可以追溯到十多年前。 这两起判决被视为欧盟竞争事务专员玛格丽特·维斯塔格的重大胜利。她在过去十年中领导欧盟的竞争监管工作,预计下个月将卸任。 专家指出,这些裁决展示了近年来反垄断监管机构的决心日益增强。法律专家亚历克斯·哈夫纳表示,苹果案件的结果表明,欧盟当局及法院已准备好对大型科技公司采取强硬措施。另一位律师事务所的合伙人加雷斯·米尔斯认为,谷歌案的裁决反映了全球范围内的反垄断监管机构对科技巨头行为的信心与日俱增。 谷歌的比价购物服务罚款是欧盟对该公司三项重磅反垄断处罚之一。谷歌表示对裁决感到失望,并称其已根据欧盟委员会的决定进行了整改。尽管如此,谷歌仍在上诉其他两起罚款案,涉及2018年安卓操作系统的41.25亿欧元罚款和2019年AdSense广告平台的14.9亿欧元罚款。 尽管这两家公司面临巨额罚单,但对它们的财务影响微乎其微。谷歌母公司Alphabet和苹果的市值合计达4.73万亿欧元,而合计154亿欧元的罚款仅占其市值的0.3%。 这些案件预示着全球范围内监管机构对科技行业加强打击的趋势。欧盟已经推出了《数字市场法》,该法律旨在阻止科技巨头垄断在线市场。Vestager表示,这些案件表明,即便是最强大的科技公司也无法凌驾于法律之上。
草莓两周落地?
有报道称,关于OpenAI的神秘项目“Strawberry”(据说是一款能够提供更精准、多步骤、基于推理的复杂问题解答的AI模型),越来越多的猜测表明它可能在今年秋季发布。而来自OpenAI内部的爆料则透露,Strawberry可能会在两周内上线。 🔑 关键信息: 与ChatGPT不同,Strawberry回答问题需要10到20秒的时间,因为它采用的是更为严谨的思考方式,这使得它在数学、编程以及提供详细策略等主观任务上表现出色。内部消息还指出,Strawberry将以纯文本模式推出(无法处理图像),并且将直接整合进ChatGPT平台,用户可以在界面中单独选择这个模型。 尽管该模型能够记住过去的对话并提供高度个性化的回应,爆料人也表示其响应速度相较输出质量并不完全成正比,依然存在一些不一致的情况。 🤔 为什么值得关注:有传言称,如果用户支付更多费用,响应速度可能会更快。此外,付费用户或将率先体验到Strawberry,而这款模型的发布预计将填补ChatGPT 5正式上线前的空白。
AI安全中心(CAIS)FiveThirtyNine的AI系统,据说在预测能力上超越了人类专家
AI安全中心(CAIS)最近开发了一款名为FiveThirtyNine的AI系统,据说在预测能力上超越了人类专家,甚至比多个专家团队的预测更为精准。研究表明,它在预测方面的表现已经超过了多个顶尖的预测群体。 这款AI基于GPT-4o架构,用户可以输入查询,如“特朗普会赢得2024年总统大选吗?”或者“中国会在2030年前入侵台湾吗?”,然后AI会给出相应的概率预测。开发者通过网络爬虫和复杂的提示设计,让AI对找到的资源进行分析,并评估“是”或“否”的可能性。 在一项评估中,FiveThirtyNine与Metaculus预测平台的用户群进行了对比测试,AI仅能使用与人类预测者相同的公开信息。测试结果显示,在177个事件的数据集上,Metaculus预测群体的准确率为87.0%,而FiveThirtyNine的准确率达到了87.7% ± 1.4。这让AI安全中心的负责人Dan Hendrycks表示,AI很快将自动化大部分预测市场的运作。 FiveThirtyNine展示了广泛的潜在应用,包括为决策者提供支持、改善信息环境、或用于风险评估等领域。尽管如此,系统仍存在一些不足之处,例如它并未针对某些具体应用进行优化,也无法在面对无效查询时拒绝做出预测。此外,由于模型依赖于训练时获取的信息,如果某个事件没有被报道,AI将无法做出预测。 虽然在短期和实时事件的预测上表现一般,但开发者对这类AI在未来的应用前景依然抱有很高的期待。 试试? https://forecast.safe.ai/
Agent Q: 实现自主网页代理的提升
近年来,大型语言模型(LLMs)的能力在自然语言处理和理解领域取得了显著进展,达到了多个里程碑。然而,尽管这些模型表现优异,它们在交互式环境中,尤其是在需要多步推理的任务(如网页导航)中仍面临重大挑战。现有的训练方法依赖于静态语言数据集,无法有效应对动态的真实世界互动任务。 于是,Agent Q应运而生。Agent Q代表了自主代理领域的一个重大突破,结合了搜索、自我批判和强化学习,创造出能够进行规划和自我修复的先进网页自主代理。我们突破性的研究方法通过引入一种全新的学习和推理框架,成功解决了以往LLM训练技术的局限性,特别是在自主网页导航任务中。 当前方法的局限性 当前的训练方法(如基于专家演示的监督微调)在处理多步任务时表现欠佳,尤其在复杂决策和适应性学习方面表现不佳。这些方法由于错误的不断累积以及探索数据的局限性,通常会产生次优策略,尤其是在需要灵活应对的动态环境中。 Agent Q的创新研究 Agent Q的创新之处在于将引导的蒙特卡洛树搜索(MCTS)与AI自我批判和迭代微调相结合,利用强化学习与人类反馈(RLFH)方法,例如直接偏好优化(DPO)算法。此方法允许LLM代理通过成功和失败的经验轨迹学习,提高其在多步推理任务中的泛化能力。 Agent Q的关键组成部分: 实际验证 在Open Table上的真实预订实验中,MultiOn的Agent Q使得LLaMa-3模型的零样本表现从18.6%的成功率提升至81.7%,经过一天的自主数据收集后提升了340%。在线搜索后,成功率进一步提高至95.4%。这些结果突显了该方法在提高自主网页代理效率和改进能力方面的卓越表现。 结论 MultiOn的Agent Q为自主网页代理设立了新的里程碑,通过结合先进的搜索技术、AI自我批判和强化学习,克服了当前技术的限制,代表了自主代理能力的重大飞跃。随着我们继续改进这些方法并解决相关挑战,距离全面发布这一产品的日子越来越近。智能自主网页代理的未来充满了希望。 这项突破性的研究将在今年晚些时候向MultiOn的开发者和消费者用户开放。 https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities
Mistral.rs开源大语言模型(LLM)推理平台兼容OpenAI API,通过HTTP服务器和Python绑定
在大语言模型(LLM)的实际应用中,推理速度缓慢是一个重要的瓶颈,严重限制了其广泛部署。尽管LLM功能强大,但它们需要大量的计算资源来生成输出,导致延迟,不仅影响用户体验,还增加了运营成本,尤其是在需要实时反应的场景中。这些问题随着模型规模和复杂性的增加变得愈发明显,因此,如何提高推理速度、优化模型效率成为了当务之急。 目前提高LLM推理速度的方法主要包括硬件加速、模型优化和量化技术,这些方法的核心目标是减少模型推理时的计算负担。然而,每种方法都涉及一定的权衡。例如,量化可以减少模型的尺寸和推理时间,但同时也可能导致模型预测准确度的下降。同样,硬件加速(如使用GPU或专用芯片)可以显著提高性能,但要求使用昂贵的硬件,这对普通用户的可及性有限。 针对这些限制,Mistral.rs提供了一种快速、灵活且易于使用的LLM推理平台(https://github.com/EricLBuehler/mistral.rs)。与现有解决方案不同,Mistral.rs支持多种设备,且结合了先进的量化技术,在推理速度与准确性之间找到了有效平衡。平台通过简化的API和全面的模型支持,降低了部署的复杂性,使得更广泛的用户群体可以使用该技术满足各种实际应用需求。 Mistral.rs采用了一系列关键技术和优化手段来提升性能。平台核心依赖量化技术,如GGML和GPTQ,这些技术能够将模型压缩为更小、更高效的形式,同时保持相对高的准确性。这种压缩显著降低了内存占用,并加速了推理过程,尤其适用于计算资源有限的设备。此外,Mistral.rs支持多种硬件平台,包括Apple Silicon、CPU和GPU,并使用诸如Metal和CUDA等优化库来充分发挥硬件的性能潜力。 平台还引入了诸如连续批处理(Continuous Batching)等功能,能够高效地同时处理多个请求。PagedAttention则通过优化内存使用,提升了推理过程中对大模型和大数据集的处理能力,减少了内存不足(OOM)错误的发生。 Mistral.rs在多种硬件配置上的性能表现也证明了其卓越的效率。例如,在A10 GPU上运行Mistral-7b模型时,配合4_K_M量化方案可实现每秒86个token的生成速度,显著超过了传统推理方法的速度。平台的灵活性体现在它能够支持从高端GPU到低功耗设备(如树莓派)等各种硬件。 总而言之,Mistral.rs通过提供一个高效、灵活的LLM推理平台,成功解决了推理速度慢的问题,并在速度、准确性和易用性之间达到了良好的平衡。其对多种设备的支持以及先进的优化技术,使其成为开发者在实际应用中部署LLM的宝贵工具,特别是在对性能和效率有着严格要求的场景中。
iPhone 16 发布 “从零开始为人工智能设计”的iPhone
苹果公司周一正式发布了iPhone 16,试图通过全新的生成式人工智能功能为其旗舰产品注入新活力,吸引用户更换旧设备。首席执行官蒂姆·库克表示,这是首款“从零开始为人工智能设计”的iPhone,拥有突破性的功能。发布会在库比蒂诺的苹果园区Steve Jobs剧院举行,吸引了大量观众。 iPhone 16将于9月20日上市,预购将从本周五开始。这次发布的重点是苹果公司在人工智能领域的拓展,以及通过iOS 18系统中的AI功能,挽回逐渐下滑的iPhone销售。不过,分析师们普遍认为此次发布会缺乏重大惊喜,苹果股价当天也基本持平。 华尔街分析师预计,得益于“Apple Intelligence”新功能,iPhone销售明年将有所提升。这些功能包括更强大的Siri语音助手、照片编辑、写作辅助,以及通过与OpenAI的合作,免费使用ChatGPT。发布会还透露了这些功能的上线时间,预计将在iPhone 16发售后几周内陆续推出。 苹果宣布,其部分“Apple Intelligence”功能将于下个月在美国上线,英国、澳大利亚、加拿大等地区将在12月获得本地化英语版本,中文、日语、法语和西班牙语将在明年推出。这些功能包括升级版的Siri、写作辅助以及邮件和通知摘要。这些代表了苹果希望通过AI变革消费设备的第一波应用,且将同样适用于iPad和MacBook。 预计到今年年底,iPhone用户将能通过设备访问OpenAI的ChatGPT,这比最早的一批生产力提升应用的推出稍晚些。苹果与微软支持的OpenAI的合作关系也引发了关注,预计未来苹果和Nvidia可能会直接投资OpenAI,将其估值推高至超过1000亿美元。 PP Foresight的Paolo Pescatore指出,“AI领域的军备竞赛已经打响”,他认为这与此前的像素大战类似,如今则是各大公司争夺最强AI平台。谷歌、微软和Meta等公司都在进行巨额投资,但投资回报率仍不明朗。 iPhone 16将推出四款型号:Pro、Pro Max、Plus和标准版。Pro和Pro Max屏幕更大,摄像头更先进。标准版起售价为799美元,Pro版为999美元,而Pro Max则高达1199美元。 iPhone 16搭载全新A18芯片,能够支持本地运行AI模型,提升设备性能。《金融时报》早前报道,这款芯片基于Arm下一代V9架构设计,性能提升显著。苹果芯片工程副总裁Sribalan Santhanam表示,A18芯片让苹果“领先两代”,性能比iPhone 15处理器快30%,甚至可媲美高端桌面电脑。 增强版A18芯片将用于iPhone 16的Pro型号,被称为“史上最快的智能手机处理器”。 苹果还宣布Apple Watch Series 10也将在9月20日发售。该系列拥有更大的显示屏、更薄的设计、更快的充电速度,以及全新的S10芯片,支持机器学习,并配备了睡眠呼吸暂停检测功能,正在等待美国食品药品监督管理局的批准,售价从399美元起。 此外,最新的AirPods Pro 2耳机将新增助听器功能,具备“临床级”听力测试和听力保护功能,也在等待FDA的批准。 CCS Insight的Leo Gebbie指出,iPhone 16系列对苹果至关重要,尤其是在消费者对新款智能手机需求放缓的背景下。他认为,“Apple Intelligence将在未来十年成为iPhone的核心”。 尽管发布会后Piper Sandler分析师Matt Farrell对苹果股票维持中立评级,他认为此次活动“基本如预期”。而IDC的Nabila Popal则表示,“尽管短期内影响不明显,但Apple Intelligence最终会彻底改变智能手机用户体验,就像第一代iPhone那样”。