微软正式在AI开源平台Hugging Face发布了其最新语言模型Phi-4 (https://huggingface.co/microsoft/phi-4),采用宽松的MIT许可证。这一举措使开发者、研究人员和企业能够广泛使用该模型,标志着在推动AI创新普及方面迈出了重要一步。 从Azure走向开放平台Phi-4最初于2024年12月亮相,尽管体型小巧,其尖端功能引发了广泛关注。然而,最初的访问权限仅限于微软的Azure AI Foundry开发平台,这一限制让AI社区感到遗憾,许多人急于试用该模型。 微软AI首席研究工程师Shital Shah在社交媒体X上回应了这一需求:“我们对Phi-4发布后的反响感到震惊。不少用户呼吁开放权重,有些人甚至在Hugging Face上传了盗版Phi-4权重。现在无需再等待,我们今天正式在Hugging Face发布Phi-4!” 官方发布的模型为开发者提供了合法渠道,取代了非授权版本,满足了广大用户探索Phi-4潜力的需求。 Phi-4为何重要Phi-4不仅是微软AI产品中的一员,更代表了AI高效性与可及性的革新。在当前以GPT-4等庞大模型主导讨论的时代,Phi-4以“紧凑体型+强大性能”带来了全新选择。 Phi-4的关键优势包括: 创新训练技术Phi-4的训练方法结合了合成数据集与精选真实数据,不仅提升了模型的有效性,还解决了数据可用性问题。这种方法为未来模型开发提供了新思路,在扩展性与精准性之间取得了平衡。 开放的未来Phi-4通过MIT许可证的发布,不仅仅是技术的开放,更是AI开发和共享方式的转变。这种宽松的许可条款允许开发者自由使用、修改和分发模型,大大促进了创新。 这一举措反映了AI领域更广泛的趋势:推动强大模型的普及,使中小型组织和独立开发者也能从高端技术中受益,而不再是科技巨头或资金雄厚研究机构的专属资源。 随着AI在各行业的采用愈加深入,对高效、灵活且成本适中的模型需求也持续增长。Phi-4凭借低成本、高性能的优势,有望在医疗等行业催生新一轮增长,这些领域亟需简化且精准的计算工具以带来深远影响。 与此同时,Phi-4证明了小型AI模型在实际应用中的潜力。它展示了在降低资源消耗的同时,依然可以实现卓越的性能,开启了AI朝环保方向发展的新篇章。 Phi-4的推出表明,AI领域不再仅仅由资源密集型巨头模型主导,小型高效模型正在推动更具多样性、包容性和创新性的生态系统发展。
Virgo:增强慢思考推理能力的多模态大语言模型
人工智能研究正稳步迈向创建能够进行复杂推理的系统,多模态大语言模型(MLLMs)成为这一进程中的重要突破。MLLMs能够同时处理文本和视觉数据,在解决复杂问题(如数学题目或图表推理)方面展现出独特优势。这些模型通过弥合多种模态之间的差距,拓宽了AI的应用领域,为教育、科学和数据分析等领域带来了全新可能性。 然而,开发这些系统的主要挑战在于如何实现文本和视觉推理的无缝整合。传统的大语言模型通常擅长处理文本或图像,但在需要结合两者进行推理时往往表现不佳。这种局限性使得它们在多模态任务中的表现受到阻碍,尤其是在需要长期、深度思考(常称为“慢思考”)的场景中。解决这一问题是推动MLLMs向实用化迈进的重要一步。 目前,提升MLLM推理能力的策略主要集中在两个方向:一是利用结构化搜索方法(如蒙特卡洛树搜索),通过奖励模型引导优化推理路径;二是为LLMs提供长形式推理指令(通常以“思维链”形式呈现)进行训练。然而,这些方法大多专注于文本任务,对于多模态场景的探索相对有限。虽然一些商用系统(如OpenAI的o1模型)表现出潜力,但其专有性限制了相关研究的开放性,公共领域的探索因此出现了空白。 对此,中国人民大学、百川智能和北京智源人工智能研究院的研究人员联合推出了Virgo模型,这一模型专注于提升多模态背景下的慢思考推理能力。Virgo通过微调Qwen2-VL-72B-Instruct模型开发而成,采用了一种简单却创新的方式,即利用文本型长思考数据进行训练。这种方法将推理能力从文本领域迁移到多模态领域,成为Virgo区别于其他模型的重要特点。 突破性的训练方法Virgo的开发过程中,研究团队精心构建了包含5000条长思考指令的数据集,涵盖数学、科学和编程领域。这些指令按照结构化的推理过程和最终解决方案进行格式化,以确保训练过程的清晰性和可复制性。研究人员在微调过程中,专注于LLM和跨模态连接器的参数优化,而未对视觉编码器进行调整,从而保留了模型原有的视觉处理能力,同时增强其推理表现。此外,他们还尝试了自蒸馏技术,让经过微调的模型生成视觉型长思考数据,进一步提升Virgo在多模态推理任务中的表现。 卓越的性能表现Virgo在四个高难度基准测试中进行了评估,包括MathVerse、MathVision、OlympiadBench和MMMU。这些测试包含数千道多模态问题,用以验证模型在文本和视觉输入上的推理能力。结果显示,Virgo表现卓越,不仅超越了许多先进模型,还与一些商用系统相媲美。例如,在MathVision基准测试中,Virgo取得了38.8%的准确率,领先于大多数现有解决方案;在挑战性极高的OlympiadBench测试中,其表现较基础模型提升了12.4%。此外,研究还发现,相较于直接使用多模态训练数据,文本型长思考数据在推理能力的提取上表现更佳,这进一步证明了文本训练对多模态系统的潜在价值。 研究团队对Virgo的表现进行了难度分级分析,发现模型在需要深度推理的高难度任务中表现出持续改进,而在简单任务(如MMMU基准测试)中的提升相对有限。这一发现强调了为特定复杂任务量身定制推理系统的重要性。同时,研究结果还揭示,文本推理数据往往优于视觉推理指令,表明文本训练能够有效地将推理能力迁移到多模态领域。 推动AI多模态研究的未来Virgo的成功展现了一种高效、实用的提升MLLM能力的方法,不仅填补了多模态推理领域的空白,还为未来研究提供了新的方向。通过利用长思考文本数据,研究人员为开发更高级的推理模型提供了可扩展的解决方案。随着进一步的优化和探索,这种方法有望推动多模态AI研究取得更大突破,为AI技术的实际应用开辟全新路径。
英伟达推出售价3000美元的个人AI超级计算机Digits—— 这台桌面级设备能运行高达2000亿参数的AI模型
想要拥有自己的AI超级计算机?英伟达正在为你实现这一梦想。 在CES 2025展会上,英伟达宣布将于5月推出一款名为“Project Digits”的个人AI超级计算机。这款设备的核心是最新的GB10 Grace Blackwell超级芯片,其性能足以支持复杂的AI模型运算,同时体积小巧,仅需普通插座供电。要知道,以前这种性能的计算机需要更大的设备和更多的能耗。这台桌面级“迷你超算”能支持高达2000亿参数的AI模型,起售价仅为3000美元,外观上酷似一台Mac Mini。 英伟达CEO黄仁勋表示:“AI将普及到每个行业、每款应用中。有了Project Digits,Grace Blackwell超级芯片可以触达数百万开发者。这让每位数据科学家、AI研究员和学生都能在自己的桌面上操作一台AI超级计算机,从而在AI时代中发光发热。” 强大配置让AI开发更自由每台Digits系统标配128GB统一内存(普通高端笔记本可能只有16GB或32GB),以及最高4TB NVMe存储空间。对于需求更高的用户,两台Digits系统可以联机使用,支持高达4050亿参数的模型运算(Meta最新的Llama 3.1模型参数就是4050亿)。 GB10芯片能提供高达1 petaflop的AI性能(每秒进行一千万亿次AI计算),支持FP4精度,兼具速度和效率。此外,这款设备还搭载英伟达最新一代CUDA核心、第五代Tensor Cores,并通过NVLink-C2C连接至包含20个高效Arm架构核心的Grace CPU。GB10芯片的开发还与联发科合作,进一步优化了其功耗表现和性能。 Digits系统运行基于Linux的英伟达DGX OS,并支持主流开发框架,包括PyTorch、Python和Jupyter notebooks。开发者可通过英伟达的NeMo框架对模型进行微调,或者利用RAPIDS库加速数据科学工作流程。更方便的是,用户不仅能在本地开发和测试AI模型,还能将这些模型无缝部署到云服务或数据中心中,保持Grace Blackwell架构和英伟达AI企业级软件平台的一致性。 面向开发者的全新AI工具Digits用户还可享用英伟达的AI软件库,包括开发套件、编排工具和预训练模型,这些资源均可通过Nvidia NGC目录获取。对于开发者来说,这是一场技术盛宴。 值得一提的是,这并非英伟达首次推出此类便捷型设备。去年12月,英伟达就发布了一款售价249美元的Jetson Orin Nano Super,主要面向初创企业和AI爱好者,支持高达80亿参数的模型。Digits的推出显然是更高阶的进化版本,为专业开发者和学生提供了不可多得的机会。 对于想要在AI领域大展拳脚的人来说,Digits不仅是工具,更是一个走向未来的起点。
OpenAI的ChatGPT Pro订阅计划:用户“用太狠”,公司反而亏钱?
OpenAI首席执行官Sam Altman最近透露,公司每月200美元的ChatGPT Pro订阅计划,竟然在财务上陷入了亏损,因为用户的使用频率远超预期。 Altman在X(前Twitter)上发帖表示,“这个定价是自己亲自拍板的,本以为能赚点钱。” ChatGPT Pro于去年底上线,提供升级版的o1“推理”AI模型、o1 Pro模式,以及解除对Sora视频生成工具等多个OpenAI工具的使用限制。然而,200美元一个月、全年高达2400美元的订阅费用,在一开始并没有获得市场的普遍认可。尤其是o1 Pro模式的具体价值,对许多用户来说仍显得模糊不清。 不过,从Altman的发言来看,那些愿意掏腰包的用户显然没有浪费这一机会,充分榨干了订阅的每一分价值——甚至让OpenAI有些吃不消。 定价:科学?还是拍脑袋? 这并不是OpenAI第一次在定价上显得有些“随意”。在接受彭博社采访时,Altman坦言,早期ChatGPT的高级订阅计划并未进行严谨的定价研究。“当时我们测试了两个价格:20美元和42美元。用户觉得42美元有点过分,但20美元可以接受。于是我们就定了20美元。” 显然,这并不是基于详细的市场调查或顾问分析的决定,而更像是一次直觉判断。 OpenAI:融资数十亿,却依然不赚钱 尽管自成立以来已累计融资约200亿美元,OpenAI至今仍未实现盈利。据报道,公司2023年的预期亏损高达50亿美元,而营收仅为37亿美元。 高额开支主要来自人力成本、办公场地租赁以及极其昂贵的AI训练基础设施。据估算,仅ChatGPT一项服务,每天的运营成本就高达70万美元。 增资与涨价:OpenAI的“自救”之路 为了应对资金压力,OpenAI正在寻求进行企业重组,以吸引新的投资者。Altman也暗示,公司可能会调整订阅计划的价格,甚至探索基于使用量的收费模式。 尽管目前面临财务挑战,OpenAI的营收预期依然充满乐观——2024年营收目标高达116亿美元,到2029年,这一数字更是被乐观地设定为1000亿美元,与目前全球消费品巨头雀巢的年销售额持平。 未来:订阅涨价还是另辟蹊径? 面对持续飙升的成本压力和对盈利的迫切需求,OpenAI未来很可能对Pro订阅计划进行价格调整,甚至重新审视其整体商业模式。不过,如何在维持用户满意度的同时实现盈利,依然是Altman和OpenAI团队需要攻克的难题。
DeepMind的Gemma Scope:揭开AI神秘运作机制的“显微镜”
人工智能在药物研发、机器人技术等领域取得了突破性进展,也彻底改变了人类与机器、互联网的互动方式。然而,AI为何如此高效、其内部运作逻辑究竟如何,这些问题至今依然像一团迷雾。这种不确定性带来了潜在风险,尤其是在医疗等高度敏感的领域,如果AI系统存在未被发现的缺陷,后果可能不堪设想。 为了解决这一问题,Google DeepMind 的机制可解释性(Mechanistic Interpretability,简称“Mech Interp”)研究团队推出了Gemma Scope,一个旨在揭示AI内部运作机制的工具,帮助研究人员更好地理解AI模型如何做出决策,从而更有效地控制其输出。 1. 什么是机制可解释性? 机制可解释性是一门旨在揭开神经网络黑箱的新兴研究领域。 机制可解释性的目标是逆向工程这些“凌乱的线条”,弄清楚AI模型在完成特定任务时使用了什么算法和逻辑。 DeepMind的Neel Nanda表示:“我们希望能够像‘读懂AI大脑’一样,了解模型在执行任务时的真实思维路径。” 2. Gemma Scope:AI模型的显微镜 在Gemma模型上,DeepMind使用了名为**稀疏自编码器(Sparse Autoencoder)**的工具,来放大和分析AI模型各层的内部特征。 互动性开放:Gemma和自编码器都是开源的,任何研究人员都可以使用这些工具进行深入探索。这大大降低了进入AI可解释性研究的门槛。 有趣发现:在实验中,研究人员发现了一个名为**“尴尬(Cringe)”**的特征,该特征在批评性文本或尴尬场景描述中尤为活跃。 3. 实际应用:从理解到控制 机制可解释性不仅帮助我们理解AI模型如何运作,还能帮助我们修正错误和减少偏见。 安全防护:当前,AI模型通常依赖系统级提示来避免回答敏感或危险问题(如如何制造炸弹)。然而,这些防护措施很容易被“越狱”绕过。 4. 未来挑战与希望 尽管机制可解释性为理解和控制AI带来了全新希望,但目前仍面临一些关键挑战: 然而,随着Gemma Scope等工具的开放和推广,越来越多的研究人员将参与到这一领域,推动AI模型变得更加透明和可控。 Neel Nanda总结道:“机制可解释性也许不是唯一的答案,但它代表了一条可能通向AI安全性和可控性的路径。” 5. 未来AI:从黑箱到透明大脑 AI技术的未来不仅仅在于更强大的模型、更复杂的任务执行,还在于让AI更加透明可控。 从Gemma Scope到Neuronpedia平台,这些工具正帮助我们一点一点地揭开AI运作的神秘面纱。只有真正理解AI的思维模式,才能确保它们在敏感领域中安全可靠地运行。 透明化AI,才是通向安全AI的唯一路径。
CES 2025年度AI科技亮点:五大创新产品引领未来生活
今年的CES 2025毫无悬念地再次被AI技术霸屏。从家居智能到健康监测,再到穿戴设备,每款产品都试图用AI重新定义用户的生活方式。以下是最受关注的五大AI产品,它们要么已经准备好改变我们的日常生活,要么展现出未来无限的可能性。 1. Roborock Saros Z70:长了“机械手臂”的扫地机器人 Roborock Saros Z70凭借创新的机械臂技术,成为本届CES上的焦点。 Saros Z70不仅是一台扫地机器人,更像是一个智能助手,将家务事做到极致。 2. Natura Humana HumanPods:全天候AI伴侣耳塞 Natura Humana HumanPods将耳塞变成了一个全天候AI伴侣,让用户随时与AI进行自然互动。 即使在嘈杂的展厅环境下,AI助手也能流畅响应,展现出出色的语音识别能力。目前尚未正式上市,但官网已开放候补名单。 3. Google TV × Gemini:AI彻底改变智能电视体验 Google将其Gemini AI与Google TV深度整合,带来了前所未有的互动体验。 这次的AI整合不仅提升了搜索的准确性,更让Google TV成为名副其实的智能娱乐中心。 4. Halliday AI智能眼镜:隐形显示,轻若无物 Halliday智能眼镜凭借其独特的隐形显示技术,在一众智能眼镜中脱颖而出。 这种“隐形显示”技术不仅仅是一项炫酷的功能,更预示着未来信息交互的新形态。 5. Omnia智能魔镜:AI驱动的健康监测中心 Withings Omnia智能魔镜将日常镜子升级为健康数据中枢,为用户提供360度健康监测。 虽然目前仍处于概念阶段,但Omnia魔镜展示了AI+健康的巨大潜力。 未来已来:AI科技,触手可及 从Roborock Saros Z70的智能机械臂,到Natura Humana HumanPods的全天候AI陪伴,再到Omnia魔镜的健康管家,这些CES 2025的明星产品展示了AI如何渗透到生活的方方面面。 每一款产品都在努力回答一个问题:如何让技术真正服务于人类生活? 未来已经到来,科技的每一次突破,都将改变我们与世界互动的方式。
NVIDIA在CES 2025上的三大亮点:AI芯片、机器人与自动驾驶、全新游戏显卡
在2025年CES(国际消费电子展)上,NVIDIA CEO黄仁勋带来了激动人心的主题演讲,揭示了公司在AI、机器人、自动驾驶以及游戏硬件方面的最新进展。以下是本次演讲的三大核心亮点: 1. 全新AI芯片GB10:桌面级AI超级计算机 NVIDIA发布了一款新型AI超级芯片GB10。与去年发布的旗舰GB200不同,GB10采用了更小巧的设计,将一颗Blackwell GPU与一颗Grace CPU相结合,形成了更紧凑但功能强大的AI芯片。 2. 机器人与自动驾驶:虚拟世界的真实训练场 NVIDIA展示了其全新的Cosmos平台,该平台旨在帮助企业通过虚拟环境开发机器人和自动驾驶技术。 黄仁勋大胆预测:“自动驾驶将成为首个万亿美元级的机器人产业。” 3. 新一代RTX 50系列显卡:游戏性能再次飞跃 NVIDIA没有忘记其在游戏领域的根基,发布了全新的GeForce RTX 50系列显卡。 未来愿景:AI与现实世界深度融合 NVIDIA在CES 2025上的演讲不仅展示了前沿技术,更为AI与现实世界的深度融合绘制了清晰的蓝图。无论是AI桌面计算机、机器人虚拟训练平台,还是更强大的游戏显卡,NVIDIA都在用实际行动加速推动科技的未来。 正如黄仁勋所说:“AI革命的每一步,都值得我们全力以赴。”
Sam Altman发布博客,回顾OpenAI九年历程,直言目标已瞄准ASI超级人工智能
近日,OpenAI的掌门人Sam Altman发布了一篇深度反思博客,回顾了OpenAI九年多的发展历程,并分享了他对未来人工智能的愿景。他透露,OpenAI已经掌握了构建通用人工智能(AGI)的方法,接下来的目标是更高层次的人工超级智能(ASI)。 从ChatGPT的爆火到AGI的明确路径 距离ChatGPT上线只有短短两年时间,但AI技术的发展已经迈入了全新的复杂推理阶段。Altman表示,OpenAI成立之初,只有少数人相信AGI是可能的,更少有人相信这家公司能够成功。然而,ChatGPT的爆炸性增长让AI产业迈入了一个全新的时代。 2022年11月30日,ChatGPT正式推出,迅速成为全球关注的焦点。Altman回忆道,当初只是一款“与GPT-3.5聊天”的小工具,没想到却成为AI革命的关键节点。 在过去两年里,OpenAI的用户从每周1亿增长到了3亿,影响力已经渗透到各行各业。这不仅仅是一款产品的成功,更是AI技术开始大规模实际应用的重要标志。 混乱与成长:领导力的考验 Altman也回顾了2023年那场“震惊全球”的OpenAI管理风波。他在一次视频通话中被董事会突然解雇,随后事件在全球引发轩然大波。但最终,风波平息,Altman重新回到领导岗位。这段经历让他更加意识到治理结构和团队信任的重要性。 他坦言,治理失误是所有相关方的共同责任,但这次风波也促成了更强大的公司治理体系。他感谢所有在危机时刻伸出援手的人,特别提到投资人Ron Conway和Airbnb联合创始人Brian Chesky,称他们的支持是OpenAI能够挺过难关的关键。 从AGI到ASI:未来愿景 Altman明确表示,OpenAI已经有信心在未来几年实现AGI。而他们的终极目标是ASI——一种超越人类智能的人工超级智能。他认为,ASI将彻底改变科学发现的速度,推动全球创新,带来前所未有的繁荣与富足。 虽然这一愿景听起来像科幻小说,但Altman坚信,未来几年,越来越多的人会看到OpenAI正在努力实现的目标。他强调,面对ASI带来的巨大潜力,OpenAI绝不能是一家“普通公司”,而需要以更高的责任感来引导技术发展,确保其造福全人类。 持续演变,稳步前行 Altman总结道,OpenAI的愿景不会改变,但战术会持续演变。公司从最初的研究机构,逐渐发展成一家产品驱动的企业,这一路走来充满了挑战和惊喜。 在他看来,逐步、安全地将AI技术引入现实世界,让社会有时间适应、反馈,并不断改进技术,是确保AI安全性和可控性的最佳途径。 Altman的这篇反思,不仅是对OpenAI九年历程的总结,更是对AI未来的一次大胆展望。他相信,在通往ASI的道路上,OpenAI将继续发挥引领者的角色,将科技的潜力最大程度地转化为全球的福祉。
NVIDIA完成对Run:ai的收购,并宣布开源其GPU云编排软件
全球AI芯片巨头NVIDIA正式完成了对以色列软件公司Run:ai的收购。虽然具体收购金额未公开,但在今年4月首次宣布这一消息时,有报道称该交易价值约7亿美元。Run:ai在其官方网站上确认了这一消息,同时表示NVIDIA计划将其软件开源,以推动更广泛的AI生态发展。 开源背后的深意 尽管双方未明确解释为何选择开源,但原因似乎显而易见:反垄断审查。作为全球最大的AI芯片制造商,NVIDIA的市值已飙升至3.56万亿美元,成为全球市值最高的公司。这种规模不仅让NVIDIA在资本市场上风光无限,也使得它在进行企业收购时更容易引起反垄断监管机构的关注。 回顾微软以687亿美元收购动视暴雪的案例,为了满足监管机构的要求,微软承诺未来十年将《使命召唤》系列游戏授权给其他平台。这次,NVIDIA似乎也采取了类似策略:开源Run:ai软件,降低监管阻力。 NVIDIA的一位发言人简短地表示: “我们很高兴欢迎Run:ai团队加入NVIDIA。” Run:ai为何值得NVIDIA如此青睐? 自2018年成立以来,Run:ai一直致力于GPU资源的高效编排与调度,帮助企业更高效地利用GPU云资源,优化AI模型训练和推理的成本与效率。其软件可以远程调度和管理NVIDIA GPU资源,提供灵活、高效的AI基础设施解决方案。 Run:ai的联合创始人Omri Geller和Ronen Dar表示,开源软件将使其覆盖范围超越NVIDIA硬件,惠及整个AI生态系统: “虽然Run:ai目前仅支持NVIDIA GPU,但开源后,该软件将能够扩展到整个AI生态系统。” 两位创始人强调,Run:ai将继续帮助客户最大限度地提高GPU系统的灵活性、效率和利用率,无论是在本地部署、云端,还是在与主要云服务提供商联合开发的NVIDIA DGX Cloud平台上。 他们还补充道: “作为NVIDIA的一部分,我们将继续秉持开放平台的理念,赋能AI团队自由选择最适合其需求的工具、平台和框架,进一步强化与生态系统的合作伙伴关系。” Run:ai的技术愿景:AI基础设施的高效引擎 Run:ai自成立之初的目标便是推动AI革命,帮助企业充分挖掘其AI基础设施的潜力。该公司通过创新的技术架构和市场战略,已经帮助许多企业实现了AI基础设施的高效运作。 两位创始人感慨道: “我们与NVIDIA的合作将加速AI和加速计算的普及,我们相信这只是一个开始。” GPU作为AI计算的核心引擎,将在未来继续引领全球科技创新。 从幕后走向开源:NVIDIA的新战略 NVIDIA早已不仅仅是一家图形芯片公司,而是AI计算生态系统的核心驱动力。 投资者眼中的Run:ai:早期的远见与坚持 Run:ai的早期投资者TLV Partners的管理合伙人Rona Segev回忆道: “2018年的AI市场与今天截然不同。当时,OpenAI仍是一家研究机构,NVIDIA的市值仅约1000亿美元。” Omri和Ronen当时提出的愿景是:AI将无处不在,每家公司都将依赖AI,但GPU资源的利用率和高昂成本是阻碍这一愿景实现的最大瓶颈。他们提出了一个构想: Rona Segev坦言,当时这一切都只是理论,Run:ai甚至还未成立。但Omri和Ronen的独特魅力与远见打动了投资人,最终赢得了他们的支持。 展望未来:AI生态的更广阔蓝图 NVIDIA与Run:ai的结合,不仅是一次技术上的互补,更是对未来AI计算生态的战略布局。 Run:ai的加入,将助力NVIDIA在AI基础设施编排和云端GPU资源管理领域占据绝对领先地位。 未来,GPU与AI基础设施将持续推动全球技术创新,NVIDIA与Run:ai将携手在这一征程上迈向新的高峰。
2024年LLM年度回顾:AI的疯狂进化与新挑战
2024年,大型语言模型(LLM)的发展再次迎来了突破性的一年。从技术飞跃到价格崩盘,再到复杂的道德与环境问题,这一年的AI进展充满了惊喜和争议。以下是对2024年LLM领域的重要发现、关键趋势和转折点的全面回顾。 1. GPT-4的神话被打破 2023年底,GPT-4依然是AI领域不可逾越的高峰。然而,2024年,这座高峰已被多方攻克。截至今年底,有18家机构成功训练出性能超越GPT-4的模型,总计超过70个。 谷歌Gemini 1.5 Pro成为首批突破GPT-4的模型之一,拥有令人震撼的200万token上下文窗口,甚至支持视频输入,进一步拓展了LLM的应用场景。而Anthropic的Claude 3系列也表现优异,特别是Claude 3.5 Sonnet,成为不少开发者的日常首选。 今天,如果打开Chatbot Arena排行榜,GPT-4的原始版本(GPT-4-0314)已跌至70名开外,而超过它的模型名单中,包括谷歌、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、Amazon、DeepSeek、Mistral等众多科技巨头。 2. GPT-4级别的模型,现在可以在笔记本上运行 2023年的一台64GB M2 MacBook Pro,如今已经可以运行多个GPT-4级别的开源模型。 即使是移动设备,也可以运行令人印象深刻的小型LLM。例如,Llama 3.2 3B可以在iPhone上使用,虽然仅有2GB大小,但依然能够生成有趣的内容。 这些进展背后,是AI模型在训练和推理效率方面的巨大优化。 3. LLM价格崩盘:高效与竞争的双重驱动 过去一年,LLM的价格呈现了断崖式下跌: 这种降价不仅是竞争加剧的结果,更归功于模型推理效率的提升。 一个有趣的例子:处理个人68,000张照片并生成描述,使用Gemini 1.5 Flash仅需**$1.68**! 4. 多模态:图像普及,音频和视频初露锋芒 2024年,多模态LLM已经成为行业标准。几乎所有主要供应商都发布了图像、音频甚至视频支持的模型: 这些功能不仅扩展了LLM的应用场景,也为实时交互提供了更多可能。 5. 语音与实时摄像:科幻走进现实 2024年,AI不仅能听懂用户的语音,还能实时处理来自摄像头的视频流。 AI不仅能“听”,还能“看”,并以实时、多模态的方式与用户互动,将过去的科幻场景变成现实。 6. 提示驱动的应用程序生成,已成“商品化” 利用LLM进行一次性提示生成完整应用程序的能力,已经在2024年成为一项“标配”功能: 这种新型交互方式不仅让开发变得更加高效,也极大降低了技术门槛。 7. 免费使用顶级模型的时代结束了 2024年中期,用户可以免费使用Claude 3.5 Sonnet和GPT-4o。但这种“平权时代”很快结束了。 8. “AI代理”依然是个未解的迷局 尽管“AI代理”在2024年依然是热门话题,但这一概念仍未有统一定义或实际落地的杀手级应用。 “AI代理”可能需要**AGI(通用人工智能)**的真正实现,才能成为日常实用工具。 9. 自动化评估(Evals)至关重要 2024年,LLM的测试和评估框架变得前所未有的重要。 10….