全球AI语音技术公司 Deepgram 正式发布 Nova-3 Medical,一款专为医疗行业打造的 AI语音转文字(STT)模型,旨在优化临床转录,助力英国 NHS公立医疗系统及私立医疗机构 提高文档记录的精准度与效率。 精准识别医学术语,避免“AI幻觉” 随着 电子病历(EHR)、远程医疗和数字健康平台 的普及,医疗行业对高精度AI转录工具的需求日益增长。然而,传统STT模型常因 医学术语复杂、环境音干扰 而出现误识别甚至“AI幻觉”(hallucinations),影响患者安全。 Deepgram的 Nova-3 Medical 针对这些挑战进行了专门优化:✅ 精准识别医学术语:深度学习 + 医疗专属语料训练,精准捕捉 专业术语、缩写及行业术语,即使医生远离录音设备仍能保证转录质量。✅ 自定义关键词:支持 100个关键术语 的“关键词提示”(Keyterm Prompting),适配不同医学专科需求。✅ 无缝集成:可直接对接 EHR系统,确保患者数据准确归档,提高医生工作效率。 企业级安全与合规,适配医疗数据保护需求 Nova-3 Medical支持 本地部署(on-premises) 和 虚拟私有云(VPC) 配置,符合 HIPAA医疗隐私保护法规 和 英国数据保护法,保障医疗机构的数据安全和合规需求。 OneReach.ai管理合伙人 Kevin Fredrick 评价道:“企业级语音AI的难度远超娱乐级应用,而Deepgram的Nova-3系列在准确度、延迟、效率及扩展性方面处于行业领先水平。” 行业领先的转录准确率与速度 Deepgram的基准测试数据显示,Nova-3 Medical的转录精度远超竞品:🔹 词错误率(WER):3.45%,比第二名竞品减少 63.6% 误差,减少医生后期校对负担。🔹 关键术语错误率(KER):6.79%,比第二名竞品减少 40.35% 误差,确保药品名称、疾病等关键医学术语精准无误。 此外,Nova-3 Medical 转录速度快5-40倍,可满足 远程医疗和数字健康平台…
微软发布Dragon Copilot,打造医疗行业首款AI语音助手
微软今日正式推出 Dragon Copilot——全球首个专为医疗行业打造的 统一语音AI助手。这一创新技术结合了 Dragon Medical One(DMO) 的语音识别能力、DAX Copilot 的智能聆听功能,以及 生成式AI 和 医疗级安全保障,旨在帮助临床医生减少行政工作,提高效率,改善患者体验,并带来可观的财务影响。 AI助力医疗行业,缓解医生“文书疲劳” 医疗行业长期以来饱受繁琐文书工作困扰,医生的职业倦怠感虽从2023年的 53%下降至2024年的48%,但随着人口老龄化的加剧和医疗人才短缺的加剧,行业仍然面临巨大挑战。微软希望通过Dragon Copilot,让AI承担更多行政负担,让医生有更多时间专注于患者护理。 “我们始终相信,AI可以解放医生,让他们不再被繁重的文书工作拖累,而是能够真正回归到治病救人的核心任务。”微软健康与生命科学解决方案副总裁 Joe Petro 说道,“Dragon Copilot的推出,标志着全球首个统一语音AI体验的诞生。” Dragon Copilot如何改变医疗行业? 这款AI助手集成了DMO的语音转录和DAX的智能聆听,并融合生成式AI技术,能够帮助医生更高效地完成医疗记录、查询医学信息、自动化任务等功能。核心能力包括: ✅ 文档自动化:支持多语言语音记录、自动任务处理、自然语言转录、语音备忘录、格式化文本、模板化AI输入等。 ✅ 智能信息检索:内嵌AI助手,可直接查询权威医学信息,帮助医生快速获取所需资料。 ✅ 任务自动化:可自动生成病历摘要、临床证据整理、转诊信件、就诊后报告等,提高医疗流程效率。 目前,Dragon Copilot已经在600多家医疗机构试运行,医生平均每次问诊可节省5分钟,70%受访医生表示职业倦怠感降低,62%表示更愿意留在现有医疗机构,93%患者反馈就诊体验更佳。 即将登陆全球,开启医疗AI新时代 Dragon Copilot将于 2025年5月 在 美国和加拿大 正式上市,随后将在 英国、德国、法国、荷兰 推广。微软还计划进一步拓展至全球更多市场,并携手 电子病历(EHR)供应商、独立软件开发商、系统集成商 共同优化医疗AI生态。 AI赋能医疗,安全合规是关键 Dragon Copilot采用 微软云(Microsoft Cloud for Healthcare) 架构,符合医疗行业的数据安全与隐私要求,并严格遵循 透明性、公平性、可靠性和隐私保护 的负责任AI原则。微软表示,将持续优化AI在医疗行业的应用,确保技术创新带来积极影响。 AI+医疗,是未来趋势还是当前现实?…
远古RNA引导系统:基因编辑疗法的新希望?
麻省理工学院(MIT)麦戈文脑研究所和布罗德研究所的科学家们近日发现了一种全新的RNA引导系统——TIGR(Tandem Interspaced Guide RNA)系统,或将彻底改变基因编辑领域。相比当前流行的CRISPR技术,TIGR系统更小巧、更灵活,并且能够精准地修改人类细胞中的DNA。这一突破性的研究成果已于2月27日发表在《Science》期刊上。 新型RNA引导工具,比CRISPR更高效? TIGR系统的工作方式与CRISPR类似,依赖RNA引导蛋白精准定位DNA,但它有几个关键优势: 研究负责人、MIT神经科学教授**张锋(Feng Zhang)**表示:“这是一个非常多功能的RNA引导系统,它具有丰富的功能模块,并且比现有的CRISPR系统更紧凑。我们希望利用它开发更灵活的基因编辑工具。” 探索自然界的无限可能 张锋团队长期致力于发现新的生物学机制,并将其转化为基因编辑技术。这次,他们通过大规模生物数据库搜索,利用AI筛选出数百万种可能的蛋白结构,并最终锁定了TIGR-Tas系统。 TIGR-Tas蛋白最早发现于感染细菌的病毒中,它们依靠RNA引导蛋白找到特定的DNA片段,有些还能直接切割DNA,而另一些则能招募其他蛋白来执行不同的任务。研究团队实验发现,部分Tas蛋白已经可以在人体细胞中精准编辑DNA,展现出惊人的应用潜力。 基因编辑新纪元? CRISPR技术近年来已广泛应用于医学、农业和生物工程领域,但其体积较大、依赖PAM序列、可能存在脱靶效应等问题限制了它的进一步发展。而TIGR系统的出现,可能会成为下一代基因编辑工具的基石。 目前,张锋团队正在深入研究TIGR系统的天然功能,同时优化Tas蛋白的分子结构,以提高编辑效率。他们还发现TIGR系统可能与人类细胞中的某些RNA处理蛋白存在关联,未来可能揭示更深层的生物学机制。 随着这一发现的推进,TIGR系统或许将为精准基因编辑、遗传疾病治疗以及合成生物学带来革命性的变化。这一切,才刚刚开始。
苹果的AI困境:能否绝地反击?
曾经引领科技潮流的苹果,如今却在人工智能(AI)赛道上陷入被动。曾几何时,这家iPhone和Mac的制造商凭借“预测未来”战略,在多个领域击败竞争对手。然而,在AI这场堪称互联网诞生以来最大的科技革命中,苹果的表现却让人大跌眼镜。 从Siri领跑到AI掉队 苹果早在2011年就推出了Siri,理论上应该在AI助手领域占据优势。然而,多年过去,Siri不仅未能成为行业标杆,反而被亚马逊和谷歌甩在身后。尤其是最近亚马逊发布的Alexa+,更是彻底暴露了苹果在AI上的短板。 去年6月,苹果发布了新版Siri,并展示了一系列AI功能,包括基于个人数据的智能问答、屏幕内容分析以及更精准的App控制。从演示视频来看,这套系统似乎相当智能。然而,现实远比宣传复杂得多——当时的苹果AI团队甚至连一个可用的原型机都没有,现在依然在为能否按计划在5月推出而苦战。 苹果AI:鸡肋还是革新? 去年10月,苹果开始陆续推出“Apple Intelligence”AI功能,包括写作工具、语音信箱转录、生成式Emoji(Genmoji)以及图片编辑工具Image Playground。然而,这些功能大多只是“锦上添花”,缺乏真正的颠覆性创新。有些甚至可以用“鸡肋”来形容。 更尴尬的是,苹果试图借助OpenAI的ChatGPT来弥补自身AI技术的不足,然而整合方式并不理想。相比之下,谷歌的Gemini和微软的Copilot早已大步向前,亚马逊的Alexa+更是直接将AI助手提升到了“拟人化”水平。 在这种情况下,苹果AI不仅难以吸引消费者升级设备,甚至连内部数据都显示实际使用率极低。尽管苹果向华尔街表示,在提供AI功能的地区iPhone销量更好,但真实情况显然没有宣传得那么乐观。 Siri的救赎,还是更大的坑? 苹果能否在AI领域翻盘?答案或许取决于新版Siri的表现。苹果计划在5月推出iOS 18版Siri,并在2026年的iOS 19中彻底重构Siri架构,使其更加流畅和智能。然而,内部消息透露,由于底层系统问题尚未解决,真正具备ChatGPT级别对话能力的Siri可能要到2027年的iOS 20才能实现——这意味着苹果在AI竞赛中可能会落后整整五年。 考虑到AI行业目前的爆炸式发展速度,五年时间足够OpenAI、谷歌和微软把技术带到全新的高度。届时,苹果是否还有翻身的机会? 苹果的突围之路 有分析认为,苹果的AI困境不仅仅是技术问题,还涉及管理层决策和资源分配问题。例如,竞争对手已经将AI芯片供应链掌握在手,而苹果却在“被动补课”。苹果虽然正在加紧自研AI服务器和芯片,但业界普遍认为进度远远落后于预期。 另外,苹果的AI团队也在遭遇人才流失问题,竞争对手不断挖角,导致项目推进困难。尽管苹果最近调整了管理层,派出软件开发主管Kim Vorrath接管AI团队,但根本性的变革恐怕还需要更激进的策略。 苹果还能靠生态系统翻盘吗? 尽管AI技术落后,苹果仍然手握一个强大的优势——庞大的硬件和软件生态系统。与亚马逊和微软不同,苹果的AI有机会深度整合iPhone、iPad、Mac和其他设备,创造更流畅的用户体验。然而,如果AI能力无法跟上,苹果生态的“护城河”是否依然坚不可摧? AI已经被认为是继互联网和智能手机之后的第三次科技革命。苹果如果不能快速迎头赶上,可能会在这场变革中失去领先地位。时间已经不多,库克和他的团队必须尽快找到破局之道,否则,苹果或将迎来真正的“至暗时刻”。
GPT-4.5正式上线!Pro用户可立即体验,API开发者同步预览
OpenAI发布GPT-4.5,这是一次全新的算力突破,带来了更强的情感理解、创造力以及多步推理与任务自动化能力。 🔥 GPT-4.5主要亮点 ✅ 更强的能力:在代码编写、写作、学习、沟通和创意生成等任务中表现更优。✅ 更聪明的AI助手:增强了情感理解、复杂任务执行、多步骤编程和自动化规划能力。✅ 支持图片输入:可在API中处理视觉任务(但ChatGPT暂不支持)。✅ 更高算力需求:计算消耗比GPT-4o更大,OpenAI仍在评估是否长期开放API。 🆕 ChatGPT Pro用户如何使用GPT-4.5? 📌 立即可用:ChatGPT Pro用户现在可以在网页、移动端和桌面端选择GPT-4.5。📌 逐步开放:下周将向Plus和Team用户开放,再下一周扩展至企业版(Enterprise)和教育版(Edu)。 🚫 当前不支持:语音模式(Voice Mode)、视频处理、屏幕共享等多模态功能。 👨💻 API开发者如何使用GPT-4.5? ✅ 适用于所有付费开发者,可在Chat Completions API、Assistants API、Batch API中调用。✅ 支持:函数调用、结构化输出、流式响应(Streaming)、系统消息(System Messages)。✅ 视觉能力:支持图片输入,可用于计算机视觉任务。 📌 特别适合:💡 内容创作:写作、学习、头脑风暴、沟通辅导等任务。🖥️ 代码开发:支持多步推理、自动化工作流和复杂任务执行。 💰 注意:GPT-4.5比GPT-4o计算成本更高,OpenAI正在评估长期提供API的可行性。如果它对你的应用至关重要,欢迎提交反馈,影响OpenAI的决策。 🔮 AI的下一步? 每一次计算能力的突破,都会带来全新的可能性。GPT-4.5不仅是一个更强大的AI助手,也代表了无监督学习的前沿进展。OpenAI期待开发者和用户探索它的独特潜力,挖掘新的应用场景。 📢 Pro用户现在就能体验,开发者也可在API中预览!你会用GPT-4.5做什么? 🚀
微软官宣!Skype将在2025年5月5日正式退役,全面押注Teams
23年传奇落幕,Skype正式告别历史舞台! 微软宣布,这款曾经引领互联网通话革命的应用将于2025年5月5日正式关闭,用户还有10周时间决定如何处理账户数据。未来,微软将全面转向Teams,为企业和个人用户提供统一的通信平台。 🔚 Skype的终章:从巅峰300M用户到被Teams取代 Skype的消亡早有预兆。自2016年微软推出Teams后,Skype的地位便日渐式微。虽然在疫情期间,Skype曾迎来短暂增长,但相比WhatsApp 20亿+用户的庞大规模,Skype的3600万日活用户实在相形见绌。 微软在2021年宣布Windows 11预装Teams,Skype边缘化;2024年底,Skype已停止新充值和购买号码,当时便有不少人猜测它的命运。如今,随着微软推出全新Teams 2.0,Skype正式走向终点。 🔄 迁移到Teams,还是导出数据? 在5月5日前,Skype用户有两种选择: 微软承诺:2025年底前,Skype数据仍可访问,之后将彻底删除。 📞 但Teams Free没了Skype的核心功能:电话拨打 对于依赖Skype拨打电话的老用户,这次迁移可能是个坏消息。Teams Free版不支持PSTN电话服务,意味着用户无法像Skype一样直接拨打手机或座机。 微软在2024年12月已停止Skype话费充值,并将在2025年4月3日关闭订阅续费。不过,微软会在Teams和Skype网页版保留Skype拨号键盘,让已有余额的用户继续使用,直到余额耗尽。 🚀 微软为何选择All in Teams? 微软的最终目标是整合消费级和企业级通信。Skype曾是一个从个人用户扩展到企业的产品,而Teams则是从企业市场下沉到个人用户。如今,Teams的月活跃用户已达3.2亿,微软认为是时候让Teams完全接管Skype的功能。 但问题是,“Teams”这个名字听起来更像工作软件,而非日常社交工具。用户真的会愿意用Teams和朋友视频聊天吗?微软认为这不是问题,毕竟Word、Excel、PowerPoint早已跨越办公和个人生活,Teams也能做到这一点。 📉 Skype的倒下,是科技变迁的必然 从2003年诞生,到2005年被eBay收购,2011年被微软以85亿美元收购,Skype曾是全球互联网通话的代名词。但移动互联网的崛起,WhatsApp、Zoom、FaceTime等产品的冲击,让Skype逐渐失去了竞争力。 曾经的王者落幕,新的时代已然开启。5月5日后,Skype将正式告别历史,而微软的未来,将属于Teams。
Meta要硬刚ChatGPT!独立版Meta AI即将上线,还要推出付费订阅?
Meta正在加速AI大战步伐!据知情人士透露,Meta计划在第二季度推出独立版Meta AI应用,正式加入Facebook、Instagram和WhatsApp的“Meta家族”,与OpenAI的ChatGPT、谷歌的Gemini展开正面对决。 📌 Meta AI独立App来了! 自2023年9月Meta AI聊天助手上线以来,这款生成式AI已被深度集成到Facebook、Instagram、WhatsApp和Messenger中。今年4月,Meta甚至直接用它取代了这些应用的搜索功能,意图让全球用户习惯在社交平台内直接使用AI助手。 但相比ChatGPT等AI工具,Meta AI一直缺乏独立应用,用户粘性也较低。据数据公司Business of Apps分析,Meta AI独立网站每月访问量不足1000万次,远远落后于ChatGPT、Gemini等竞争对手。 为了改变这一局面,Meta CEO马克·扎克伯格(Mark Zuckerberg)决心打造一款独立的Meta AI App,让用户能更直接、更个性化地体验AI助手的功能。 扎克伯格在1月份的财报电话会议上表示:“2025年,Meta AI将成为全球首个触达10亿人的AI助手。” 现在来看,这款独立App无疑是迈向这一目标的关键一步。 💰 付费订阅也要来了? 除了独立App,Meta还计划推出Meta AI的付费订阅服务,类似OpenAI的ChatGPT Plus,每月收费解锁更强大的AI能力。 Meta首席财务官Susan Li此前暗示,公司未来将通过**“个性化推荐”+“高级AI订阅”来实现Meta AI的商业化。目前,Meta仍未公布定价策略,但可以预见,Meta AI未来可能会有基础免费版+高级付费版**的组合。 🆚 AI大战:Meta vs. OpenAI vs. Google vs. xAI Meta AI的独立化,与最近Google和马斯克xAI的AI应用布局不谋而合: Meta要想超越ChatGPT、夺取AI助手市场的主导权,不仅要在用户体验上做文章,还需要在技术上迎头赶上OpenAI的GPT-4.5、GPT-5等强力对手。 🔥 扎克伯格:这是场硬仗,所有人准备加班! 知情人士透露,扎克伯格对Meta AI的竞争力非常焦虑,内部已对AI团队施加**“7天工作制”**的高压,以加速产品迭代。他在1月的内部邮件中写道: “2025年将是激烈的一年,我们正在打造全球最重要的技术——AI、智能眼镜、社交媒体的未来。我们需要最优秀的人才,全力以赴。” 🚀 2025,AI大战全面升级! 独立版Meta AI的推出,意味着这场AI助手大战正进入白热化阶段。面对ChatGPT的领先地位,Meta能否凭借自己的**社交生态+硬件设备(如Ray-Ban智能眼镜)**撬动市场?让我们拭目以待!
Aria Gen 2来了!AI感知、机器人、可穿戴计算的新突破
自2020年推出以来,Project Aria 一直是全球研究人员探索机器感知与人工智能前沿的关键平台。而今天,Meta正式发布Aria Gen 2智能眼镜,这款新一代研究设备将在机器感知、上下文AI、机器人学等领域开启全新可能。 Aria Gen 2:更智能的AI研究工具 相比第一代产品,Aria Gen 2带来了多个行业领先的创新,让研究人员能够更深入地探索AI如何从人类视角理解世界。 🔍 主要升级亮点: 这不仅是一款智能眼镜,更是Meta在可穿戴计算和AI感知技术上的又一次突破。Reality Labs Research与FAIR AI实验室将利用它推进AI研究,同时,Project Aria也将为学术界和商业实验室提供这项前沿技术。 🚀 赋能AI研究与机器人学 过去四年,Project Aria已经促成了多项关键研究成果,包括Ego-Exo4D数据集,这套由第一代Aria眼镜采集的数据集已成为计算机视觉与机器人领域的基础工具。 📌 研究应用实例: 📅 设备即将开放申请,敬请期待! Meta将在未来几个月公布设备供应计划,对Aria Gen 2感兴趣的研究人员可以注册获取更新。 Aria Gen 2不仅是一款智能设备,更是迈向下一代计算平台的重要一步。期待全球研究人员解锁更多创新应用,让AI更懂世界!https://docs.google.com/forms/d/e/1FAIpQLSfukXP5q6dclAAA3php-OCO1TcwFc5Opegrvw23wHwEbOFJbA/viewform
英伟达的AI狂潮让戴尔赚翻了,但代价不小
当戴尔(Dell Technologies Inc.)与埃隆·马斯克的xAI公司敲定价值50亿美元的服务器供应协议时,这无疑是这家40年历史的科技巨头的重大胜利。然而,这个“大单”背后的利润空间却相当有限——据知情人士透露,该交易的毛利率仅为个位数百分比。 这并非戴尔一家的困境,而是整个美国服务器行业在AI时代的缩影。英伟达(Nvidia Corp.)的技术让戴尔、惠普企业(HPE)和超微(Super Micro)迎来了销售爆发,但与此同时,这些公司却在利润率和客户掌控力上节节败退。 英伟达:服务器厂商的幕后操盘手 如今的AI服务器市场,真正掌握主导权的并不是戴尔或HPE,而是英伟达。作为AI计算的核心芯片供应商,英伟达不仅制定规则,还在不断蚕食服务器制造商的利润空间。 最典型的例子就是戴尔的这笔xAI交易——不仅服务器本身的利润率低,甚至连原本属于戴尔的网络设备业务也被英伟达抢走了。知情人士透露,这次交易中的网络组件将由英伟达提供,而不是戴尔自家的产品。 更让服务器厂商头疼的是,英伟达正在从“芯片供应商”向“全方位AI基础设施供应商”转型,推出了自家的AI服务器和配套产品,这无疑进一步挤压了戴尔和HPE等传统服务器厂商的生存空间。 戴尔、HPE只能当“搬运工”? 英伟达的强势,让服务器制造商在芯片分配上毫无话语权。“Nvidia掌握着服务器厂商能拿到多少货的生杀大权。”分析师Simon Leopold表示。由于AI芯片供应紧张,戴尔和HPE无法自主决定采购量,必须依赖英伟达的分配。 传统上,服务器厂商通常扮演的是客户和芯片厂商之间的桥梁角色——他们帮企业客户挑选芯片、定制服务器方案,并搭配存储、网络等高利润产品。然而,现在客户往往直接找英伟达谈方案,戴尔、HPE只能‘照单生产’,难以通过额外设备和服务提升利润。 比如,马斯克的xAI在采购服务器时,首先和英伟达敲定使用哪款GPU、采购多少数量,之后才由戴尔来组装服务器。这种模式削弱了服务器厂商的议价能力,也让他们难以向客户推销自己的附加产品。 戴尔、HPE和超微拒绝对上述情况置评。但戴尔曾表示,虽然AI服务器的利润率较低,但这些大订单仍能为公司带来稳定的营收,并为后续销售其他设备和服务创造机会。 英伟达与戴尔:亦敌亦友的微妙关系 尽管英伟达在服务器市场日益强势,但它仍然需要像戴尔这样的合作伙伴来推进AI计算的普及。两家公司在AI服务器领域的合作甚至有了自己的品牌——“Dell AI Factory”。去年,英伟达邀请了大量戴尔销售团队前往加州总部培训,以获得AI顾问认证。 不过,英伟达的一些举措也让合作伙伴不满。在AI浪潮初期,戴尔甚至不得不销售英伟达自家的AI服务器,因为当时戴尔还没有推出自己的产品。直到去年,戴尔才削减了对英伟达服务器的销售激励政策,以推广自己的AI服务器产品。 英伟达的快速产品迭代也让服务器厂商苦不堪言。据业内人士透露,英伟达会频繁修改产品规范,导致戴尔、HPE等厂商不得不不断调整产品方案,甚至经常出现产品还未上市,英伟达就推出新一代芯片的情况,使得他们始终落后于英伟达自己的产品节奏。 AI服务器市场还能有变数吗? 戴尔、HPE等服务器厂商如果想要在AI市场扳回一城,可能只有两个机会: 不过,即便是企业市场,英伟达也没有打算放手。就在本周,英伟达宣布与思科(Cisco)深化合作,将思科的网络设备直接整合到英伟达的AI服务器中,进一步简化企业客户部署AI的流程。这无疑让戴尔和HPE的处境更加艰难。 戴尔首席运营官Jeff Clarke在财报会议上表示:“现在AI在企业市场的部署才刚刚起步,我对我们的机会充满信心。”但从目前的市场格局来看,戴尔和HPE的机会窗口或许并不会太大。 总结一下:AI服务器的蛋糕确实越来越大,但戴尔和HPE只能分到“最瘦的那一块”。真正掌握主动权的,还是英伟达。
强化学习让Spot机器狗奔跑速度飙升!
还记得波士顿动力(Boston Dynamics)的那只四足机器人Spot吗?它最近在机器人界又火了一把!一年多前,该公司发布了一个研究版的Spot,开放了底层API,让开发者可以直接控制Spot的关节。而最近,机器人与人工智能研究所(RAI Institute)利用强化学习(Reinforcement Learning,RL)技术,让Spot的奔跑速度提升了三倍之多!如果去年在ICRA@40会议上听过Marc Raibert的演讲,那就知道这绝不是传言,而是现实。 Spot狂奔,每秒5.2米! 在一段新发布的视频中,Spot以每秒5.2米(约时速11.6英里)的速度狂奔。而它的出厂最高速度只有1.6米每秒!看到这个小黄狗跑得这么快,确实有点奇怪,毕竟它的奔跑方式和真正的狗完全不同。RAI研究员Farbod Farshidian表示:“Spot的步态并不符合生物学规律,但它本来也不是生物。”由于机器人的驱动系统与肌肉不同,其运动方式自然也不一样。 经过强化学习训练,Spot采用了一种类似小跑的步态,并增加了“腾空阶段”(四脚同时悬空),让它真正进入了“奔跑”模式。这个腾空动作其实是强化学习“发现”的,并不是工程师们直接编程给它的,而是AI在试图寻找最快移动方式时,自然演化出来的。 强化学习PK传统模型预测控制 那么,为什么波士顿动力的官方控制器做不到这一点呢?原来,官方控制器使用的是“模型预测控制”(MPC),即基于对机器人物理特性的数学建模,实时优化执行任务。虽然这种方式稳定可靠,但由于模型总会有一定误差,因此机器人无法真正突破性能极限。 强化学习的不同之处在于,它不依赖实时计算,而是在模拟环境中进行大量训练,找到最优策略后,再应用到真实机器人上。例如,在训练Spot的高速奔跑时,研究人员可以在模拟环境里同时训练几十甚至上百只Spot,让它们尝试各种可能的奔跑方式,并最终找到最佳策略。 限制Spot速度的不是马达,而是电池! 令人意想不到的是,Spot的速度瓶颈并不在于马达性能,而是电池供电能力!研究人员原本以为Spot会受到驱动系统的扭矩和速度限制,但实验结果显示,真正的障碍竟然是电池无法提供足够的能量。 Farbodian解释说:“如果我们换上更强的电池,Spot还能跑得更快!”而他们目前唯一的限制是无法直接获取Spot电池的电压数据,否则还可以在仿真训练中进一步优化能耗管理。 但强化学习的意义远不止于提升速度,它还可以优化Spot的能耗,延长电池寿命,甚至让它在办公室或家居环境中更安静地移动。 跳跃自行车:RL新神器登场! 除了Spot,RAI研究所还开发了一款全新的机器人平台——超机动载具(Ultra Mobility Vehicle,UMV),这是一辆会跳跃的自行车! 这辆“智能单车”没有陀螺仪等稳定装置,仅靠轮胎的前后移动和方向调整来保持平衡。它的“秘密武器”是顶部的配重块,通过高速上下移动来调整重心。通过强化学习,UMV不仅能在复杂地形上保持稳定,还能完成“飞跃”障碍物的炫酷操作,比如跳上比自己还高的桌子。 UMV的另一大亮点是,它竟然能倒着骑!这在传统控制方法下几乎是不可能实现的,尤其是在崎岖不平的地形上。RAI研究所的Marco Hutter表示:“强化学习的真正魅力在于,它能发现传统控制方法难以实现的全新运动方式。” 目前,RAI团队正在努力让UMV在真实户外环境中实现更高级的“自行车跑酷”操作,预计很快就能发布更多演示视频。 强化学习,让机器人能力无限突破! RAI研究所最近还宣布与波士顿动力合作,共同推动人形机器人的强化学习研究。相比四足机器人,人形机器人有更多自由度和更复杂的运动模式,因此传统的MPC控制器已经很难驾驭。而强化学习的泛化能力,使其成为未来人形机器人控制的关键技术。 RAI的研究目标不仅仅是让某种特定机器人变强,而是建立一整套适用于所有机器人平台的通用强化学习工具。从四足机器人到两轮自行车,再到未来的无人驾驶汽车和人形机器人,强化学习正逐步解锁机器人硬件的潜在能力,让它们真正突破极限。 未来,或许不仅是Spot会跑得更快,跳跃自行车能玩花式跑酷,人形机器人也能像科幻电影里的角色那样灵活自如——而这一切,都离不开强化学习的加持!