谷歌DeepMind的首席执行官Demis Hassabis预计,未来的AI系统不仅能够回答问题,还能独立进行规划和行动。 在接受彭博社采访时,Hassabis表示他的公司正在研发类似“智能代理”的系统,有望在一到两年内投入使用。他说:“我对这些大型通用模型的下一个阶段感到非常兴奋。也许今年或明年,我们将看到更多智能代理般的行为。” 他补充道,这些系统不仅可以回答问题,还能够在现实世界中进行规划和行动。Hassabis认为,设定并实现目标的能力将使这些系统成为更有用的日常工具。 DeepMind在强化学习方面有丰富的经验,曾用在其著名的围棋程序AlphaGo中。他表示:“我们正努力研发,其他公司也在努力。我们将过去在游戏中积累的智能代理系统经验,与现代的大型多模态模型结合起来。” 在2023年6月推出Gemini语言模型之前,Hassabis曾暗示《连线》杂志,强化学习技术或将赋予Gemini特殊的功能。通过借鉴AlphaGo的强化学习和树搜索等技术,未来的Gemini将具有更强的解决问题和规划能力。 他的言论表明,DeepMind正逐步开发更加自主的AI系统。如果成功研发出能够在现实世界中自主解决复杂任务的智能代理,其影响将十分深远。从智能个人助手、自动化机器人到科学与研究中的自学习系统,应用前景广泛。 除了Gemini,DeepMind还在研究RT模型,该模型利用大型AI模型处理图像和语言,使机器人在现实世界中更加灵活。DeepMind将语言模型与代理技术结合的方式类似于OpenAI和Anthropic。OpenAI最近也重新涉足机器人领域,将其视觉语言模型与Figure的机器人相结合。 面对AI模型的巨大能源需求,Hassabis认为投入AI的资源最终将对人类有所回报。“我认为我们在生成式AI模型上的投入将最终为药物开发等领域带来极大益处,远远超过其成本。”他相信在能源和气候等领域,AI也能发挥潜力,例如通过更高效的电网、新材料和技术。它可以极具生产力与效益,最终为可持续发展做出贡献。
Author: aitrendtrackers@rengongzhineng.io
埃隆·马斯克的Neuralink脑机接口项目遭遇了挫折,可能是因为设计问题
埃隆·马斯克的初创公司Neuralink在首位参与者、29岁的四肢瘫痪患者诺兰·阿巴夫(Noland Arbaugh)接受大脑植入装置后,经历了一个棘手的问题。 1月28日的手术后,马斯克迅速在X(前身是推特)上宣布阿巴夫“恢复良好”,且“初步结果显示神经元尖峰检测很有希望”。然而,几周后,Neuralink在周三表示,设备开始出现故障。 由马斯克联合创办的Neuralink致力于开发脑机接口,将大脑与外部设备直接连接。它的技术通过读取大脑的运动信号,使瘫痪者仅凭意念就能操控光标或用键盘打字。 不过,Neuralink独特的设计似乎成了设备出现机械问题的原因。公司的植入装置由一个硬币大小的外壳组成,位于头骨中,内含电池、处理芯片和其他电子元件。连接在这个外壳上的64根比人类头发还细的“线”,每根包含16个电极。这些线会延伸到大脑组织中,从神经元群中收集信号。然而,据Neuralink所述,一些线未能保持稳定。 “在手术后的几周内,一些线从大脑中缩回,导致有效电极数量减少。”Neuralink在博客中指出。这使得数据传输速率下降,速率越高,光标的控制效果就越好。 Neuralink没有说明有多少线已脱出,也没有解释为何或如何脱出。但由于大脑在头骨中会自然移动,可能是这种移动导致部分线脱落。 Neuralink与马斯克强调其装置相比更传统的Utah阵列具有优势。后者自上世纪80年代末就用于脑机接口研究。它是一个刚性方块,有96个尖刺,每个尖刺顶端带有电极,用于记录信号。然而,它需要电缆连接外部设备,并非无线。 相较而言,Neuralink的装置是无线的,拥有1024个电极。如果全部保持完好,能从大脑中收集更多数据。 Synchron的技术总监瑞基·班纳吉(Riki Banerjee)表示:“Neuralink设计了一种非常新颖的神经接口。他们还在学习,这是过程的一部分。” 其他公司也从现有设备中汲取灵感,例如Synchron与Paradromics。Paradromics的设计基于Utah阵列,但进行了关键改进:它也是无线的,拥有421个电极位于细线末端。Synchron的装置则类似心脏支架,以中空网状管插入颈静脉,再与皮层接触。 尽管遇到挫折,Neuralink仍于3月20日直播演示了阿巴夫通过意念下棋。他还通过植入装置玩了马里奥赛车。阿巴夫在视频中激动地表示:“这简直太酷了。” Neuralink表示通过调整算法提高信号灵敏度,改进光标移动,弥补了电极的损失。 尽管如此,开发脑机接口的道路注定充满挑战。Neuralink的设备设计独特,在商业化进程中势必会遇到更多坎坷。
AlphaFold 3 可以预测所有生命分子的结构和相互作用
在每个植物、动物和人类细胞内部,都有数十亿个分子机器。它们由蛋白质、DNA 等分子构成,但没有任何单一成分是独立运作的。只有了解这些分子如何在数百万种组合中相互作用,才能真正理解生命的运作过程。 近期发布在《Nature》杂志上的一篇论文中,我们介绍了 AlphaFold 3,这是一种革命性的模型,能够以前所未有的精确度预测所有生命分子的结构和相互作用。在预测蛋白质与其他分子类型的相互作用时,与现有预测方法相比,我们至少提高了 50% 的准确度,而在一些关键的交互类型上,预测准确性翻了一倍。 我们希望 AlphaFold 3 能够帮助我们更深入地了解生物世界并推动药物发现。科学家可以通过我们新推出的 AlphaFold 服务器免费使用其大部分功能,这是一个易于使用的研究工具。为了进一步开发 AlphaFold 3 在药物设计方面的潜力,Isomorphic Labs 正与制药公司合作,将其应用于现实世界的药物设计挑战,最终为患者开发出改变生命的新疗法。 我们新的模型基于 2020 年取得蛋白质结构预测突破的 AlphaFold 2。目前,全球数百万研究人员已利用 AlphaFold 2 在疟疾疫苗、癌症治疗和酶设计等领域取得了新发现。AlphaFold 已被引用超过 2 万次,其科学影响力也通过多项奖项得到了认可,最近还获得了生命科学突破奖。AlphaFold 3 进一步拓展了预测范围,不再局限于蛋白质,而是包含广泛的生物分子类型。这样的进步可能会带来更多科学变革,例如开发可再生材料、更具抗逆性的作物,以及加速药物设计和基因组学研究。 AlphaFold 3 如何揭示生命分子结构 通过一组输入的分子列表,AlphaFold 3 可以生成这些分子的三维结构,展示它们如何组合在一起。它可以对大型生物分子(如蛋白质、DNA 和 RNA)以及被称为配体的小型分子进行建模,配体包含许多药物常用的分子。此外,AlphaFold 3 还能够模拟这些分子的化学修饰,它们调控细胞的健康功能,一旦被扰乱就可能导致疾病。 AlphaFold 3 的强大能力来源于其下一代架构和涵盖所有生命分子的训练。模型的核心是改进版的 Evoformer 模块——这是 AlphaFold 2 能取得非凡成就的深度学习架构。在处理输入数据后,AlphaFold 3 使用扩散网络来组装预测结构,类似于 AI 图像生成器中的扩散过程。该过程从原子云开始,经过多步收敛到最终的、最准确的分子结构。 AlphaFold 3…
微软和领英发布了有关工作中 AI 现状的《2024 年工作趋势指数》报告。
微软与领英于周三发布了《2024 年工作趋势指数》报告,标题为“AI 工作已到来,现在迎接真正的挑战。”这份联合报告基于对 31 个国家的 31,000 人的调查、领英的劳动力和招聘趋势、微软 365 的生产力数据,以及对财富 500 强客户的研究,详细展示了 AI 在过去一年里如何影响全球工作、领导力和招聘方式。微软还宣布了 Microsoft 365 Copilot 的新功能,而领英也为 Premium 用户提供了超过 50 门免费的 AI 学习课程,旨在帮助各级专业人士提升他们的 AI 技能。 2024 年,AI 将真正影响工作: AI 提升标准并打破职业瓶颈: AI 重度用户的崛起: 领英首席执行官 Ryan Roslansky 表示:“AI 正在重新定义工作,显然我们需要新的行动计划。构建灵活性而非稳定性,并在内部投资技能建设的领导者,将为组织带来竞争优势,打造更高效、积极和公平的团队。” 有关更多信息,可以访问微软官方博客、《2024 年工作趋势指数》报告,以及领英首席经济学家 Karin Kimbrough 的进一步见解。 https://www.microsoft.com/en-us/worklab/work-trend-index/ai-at-work-is-here-now-comes-the-hard-part
苹果在最新的 iPad 中推出了“极其强大的 AI 芯片”
苹果公司推出了配备“M4”芯片的新款 iPad,标志着这家硅谷巨头愈加专注于人工智能服务。最新的 iPad Pro 设备于周二发布,距离 10 月推出搭载 M3 芯片的 Mac 设备仅数月之遥。 为了满足 AI 开发者对计算能力的旺盛需求,苹果、英伟达等大型科技公司正加快研发强大的处理器,旨在处理海量数据。在过去的几个月中,微软、亚马逊和谷歌都推出了面向 AI 的新处理器,凸显了芯片设计对全球顶级科技公司的重要性。 苹果平台架构副总裁 Tim Millet 在周二的发布会上赞扬了 M4 芯片的中央处理器、图形处理器和专用 AI 功能(称为“神经引擎”)的结合,相较于之前的芯片取得了重大进步。他表示,这些组件使 M4 成为“AI 领域极其强大的芯片”。 随着 iPhone 销量下滑,投资者敦促苹果推出新的 AI 功能,与微软支持的 OpenAI 和谷歌竞争。自 OpenAI 18 个月前推出革命性 ChatGPT 聊天机器人以来,新 AI 应用程序的激增引发了一场争夺强大处理器的竞赛,以构建所谓的大型语言模型——即能够生成类似人类文本和图像的 AI 系统。 苹果自 2010 年起就为 iPhone 设计基于 Arm 的处理器,并在 2020 年推出了首款用于 Mac 计算机的 M1…
RAFT:引领 Llama 在 RAG 中发展
引言 经过广泛训练的预训练模型(如 Meta Llama 2)可以对各种问题生成有用的回答。然而,许多应用场景要求模型针对特定领域进行专业化,并在生成回答时利用领域特定的信息。 目前有两种方法可以实现: 1. 领域特定的监督微调(DSF): 在一组代表领域知识的文档上对现有基础模型进行训练。 2. 检索增强生成(RAG): 将这些文档存储在向量数据库中,在查询时检索与问题语义相似的文档,并将其内容作为 LLM 生成回答的上下文。 本文将探讨这两种方法的局限性,并介绍加州大学伯克利分校的研究人员 Tianjun Zhang 和 Shishir G. Patil 提出的一种更优方法。他们提出的 RAFT 方法(Retrieval Augmented Fine Tuning,检索增强微调)在论文中详细阐述,展示了如何使用 Meta Llama 2 和 Azure AI Studio 上的 MaaS 进行研究和实施。 伯克利团队还发表了一篇博客文章,详细解释了前述方法的优缺点,以及 RAFT 方法如何实现更高效的结果。其 RAFT 实现已在 GitHub 仓库公开。 了解 RAFT 方法 在传统 RAG 中,当模型接到查询时,它会从索引中检索可能包含答案的文档,并使用这些文档的内容作为生成回答的上下文。 在微调的情况下,模型回答问题类似于学生在闭卷考试中作答;而 RAG 则类似于学生参加开卷考试,有完整的教科书可供查阅。开卷考试比闭卷考试更容易,因此 RAG…
微软 AI 研究团队推出 SIGMA:一个开源研究平台,旨在推动混合现实与人工智能交叉领域的研究与创新
生成式 AI、超大型语言模型、视觉模型和多模态模型的突破,为开放领域知识、推理和生成能力奠定了基础,能够支持开放式任务辅助场景。这不仅包括生成相关指令和内容,还为构建能与人类在现实世界中合作的 AI 系统提供了起点。这类应用包括混合现实任务助手、交互机器人、智能制造工厂、自动驾驶车辆等。 为了与人类无缝合作,AI 系统必须能够在多模态流中持续感知和推理其周围环境。这一要求不仅限于目标检测和追踪。为了实现有效的团队合作,所有参与者都必须了解物体的潜在功能、它们之间的关系、空间限制,以及这些因素随时间的变化。 这些系统不仅需要对物理世界进行推理,还需要理解人类行为。推理中应包括对实时协作行为的认知状态和社会规范的判断,并且还需涵盖对身体姿势、声音和动作的低级判断。 借助混合现实和 AI 技术(如大型语言和视觉模型)的组合,微软研究院推出了 SIGMA。这款互动程序可使用 HoloLens 2 指导用户完成流程任务。任务可以由大型语言模型(如 GPT-4)或任务库中手动定义的阶段动态生成。当用户在互动过程中提出开放式问题时,SIGMA 可以利用其强大的语言模型提供答案。此外,SIGMA 可以利用 Detic 和 SEEM 等视觉模型,在用户视野中定位并突出显示与任务相关的物体。 SIGMA 选择了几种设计方式来实现其研究目标。一个例子是客户端-服务器架构。HoloLens 2 设备运行轻量级客户端应用程序,将多个多模态数据流传输到更强大的桌面服务器。这些数据流包括 RGB(红、绿、蓝)、深度、音频、头部、手部和视线追踪信息。桌面服务器将数据和指令传送给客户端应用程序,以便在设备上显示内容,并执行应用程序的基本功能。通过这种设计,研究人员能够超越头戴设备当前的计算限制,并为将该程序扩展到其他混合现实设备打开了可能性。 SIGMA 的基础是名为 Platform for Situated Intelligence(psi)的开源架构,该架构支持多模态综合性 AI 系统的开发和研究。psi 框架提供高性能流媒体和日志基础设施,并允许快速原型制作。数据重放基础设施使数据驱动的应用级开发和调试成为可能。Platform for Situated Intelligence Studio 提供了丰富的可视化、调试、优化和维护支持。 虽然 SIGMA 目前的功能还不够完善,但它为未来混合现实与人工智能融合的研究奠定了基础。许多研究主题,特别是感知,可以使用收集的数据集进行探索,这些问题包括计算机视觉和语音识别。 SIGMA 是微软对该领域持续投入的一个例子,也是该公司探索新型人工智能和混合现实技术的代表。Dynamics 365 Guides 是微软为一线员工提供的另一款企业级混合现实解决方案。客户可以在 Copilot in Dynamics 365 Guides 中使用私有预览功能,获得逐步操作指导和工作流程相关信息。AI…
Quora 首席执行官亚当·德安杰洛 (Adam D’Angelo) 谈论了 AI、聊天机器人平台 Poe,以及 OpenAI 为什么不是竞争对手
去年 11 月,亚当·德安杰洛 (Adam D’Angelo) 置身于科技行业最具争议事件的中心。OpenAI,这家估值 800 亿美元、引领 AI 潮流的初创公司,在董事会突然罢免其首席执行官 Sam Altman 后,仅在几天后又重新任命他。德安杰洛在罢免 Altman 的董事会中任职,并且在重新任命他的过程中依然保留了自己的席位。在后续的重组中,原始董事会成员多数离开,他成为唯一留下的成员。 这段时间对 OpenAI 来说显然充满动荡,对德安杰洛来说更是如此,因为此事发生的同时,他的公司 Quora 正在积极进军 AI 领域。 由德安杰洛共同创立并担任首席执行官的 Quora 是一家众包问答网站,在筹集到 7500 万美元(PitchBook 估值 4.25 亿美元)资金的同时,正在构建自己的 AI 平台。2023 年 2 月,该公司推出了 Poe(开放探索平台的缩写),它允许用户向各种聊天机器人提问并交流,让开发者构建自己的机器人,并提供类似 OpenAI GPT 商店的机器人货币化计划和市场。 Quora 的核心问答服务也面临着一些重要问题。谷歌和必应等现有搜索引擎开始使用 AI 提供更流畅的搜索结果和答案,再加上 ChatGPT 和 Perplexity 等工具广泛普及,Quora 能做些什么来确保自己仍然是人们寻找答案的顶尖网站之一?更重要的是,是否还有人真正想要或需要众包问答服务? 对于德安杰洛来说,这些问题与他对 AI 的追求密切相关,他将 AI 视为一种重要工具,能够利用互联网的集体知识。多年来,德安杰洛一直在努力发掘互联网知识储备。他在高中时结识了马克·扎克伯格 (Mark Zuckerberg),并在…
Stack Overflow 与 OpenAI 携手合作,共同增强全球最受欢迎的大型语言模型
Stack Overflow 与 OpenAI 今天宣布了一个全新的 API 合作伙伴关系,将全球领先的技术内容知识平台与最受欢迎的 AI 开发大型语言模型(LLM)相结合,为开发人员提供更强大的支持。 通过这次合作,OpenAI 用户和客户将能够通过 OverflowAPI 获取经过验证的技术数据,以快速解决问题,使技术人员能够专注于优先任务。OpenAI 也将直接在 ChatGPT 中提供 Stack Overflow 上经过验证的技术知识,为用户提供可信、准确且技术性很强的知识和代码。这些信息得益于过去 15 年间在 Stack Overflow 平台上贡献内容的数百万开发者的支持。合作的具体内容包括: OpenAI 首席运营官 Brad Lightcap 表示:“尽可能多地从不同语言、文化、学科和行业中学习,确保我们的模型能够为每个人服务。开发者社区对我们双方都尤为重要。与 Stack Overflow 的深度合作将有助于我们增强双方平台的用户和开发者体验。” Stack Overflow 首席执行官 Prashanth Chandrasekar 补充道:“Stack Overflow 拥有超过 5900 万个问题和答案,是全球最大的开发者社区。通过这次与 OpenAI 的行业领先合作伙伴关系,我们力图重新定义开发者体验,通过社区的力量、顶级数据和 AI 体验来促进效率和协作。我们的 OverflowAPI 和致力于推进负责任 AI 时代的工作目标,是利用经过验证、可信和准确的数据来设立新标准,作为构建技术解决方案的基础。” Stack Overflow 与 OpenAI 之间的首批新集成和功能将于…
微软正在自主构建一个名为 MAI-1 的大型语言模型(不依赖 OpenAI)
据《The Information》报道,微软正致力于打造一个新的大规模 AI 语言模型,名为 MAI-1,有望与谷歌、Anthropic 和 OpenAI 等公司的最先进模型一较高下。这是微软自投资 OpenAI 10 亿美元获取其 AI 模型使用权以来首次自主开发如此规模的 AI 模型。OpenAI 的 GPT-4 不仅为 ChatGPT 提供动力,还驱动了微软的 Copilot 功能。 DeepMind 联合创始人 Mustafa Suleyman 将领导微软的新消费者 AI 部门。 该项目由前 Google AI 高层、曾担任 AI 创企 Inflection 首席执行官的 Mustafa Suleyman 负责。微软于 3 月以 6.5 亿美元的价格收购了该初创公司的大部分员工和知识产权。虽然 MAI-1 或许借鉴了 Inflection 团队带来的技术,但据两位了解项目的微软员工表示,MAI-1 是全新的大型语言模型(LLM)。 拥有大约 5000 亿参数的 MAI-1,将比微软以往的开源模型(如上个月报道的 Phi-3)规模更大,因而需要更多计算能力和训练数据。据报道,MAI-1 与传闻中拥有超过…