想象一下,一个AI系统不仅能精准操控软件界面,还能指导机器人抓取物体,执行复杂的现实任务。这种场景曾经只存在于科幻小说里,而如今,微软研究团队带来了Magma——一款跨越数字与物理环境的多模态AI基础模型,让这个愿景距离现实更近了一步。 Magma的核心能力:让AI真正“动起来” Magma采用**基础模型(Foundation Model)**架构,预训练于海量多样化数据,使其在不同任务和环境下具备更强的泛化能力。它不仅能解析视觉和文本信息,还能基于这些信息生成可执行的操作建议,无论是点击软件按钮,还是操控机器人抓取工具。 与以往的任务专用AI不同,Magma具备更广泛的适应能力。例如,它可以帮助智能家居机器人学习整理从未见过的物品,也能指导虚拟助手生成详细的UI导航指引。相比单一任务AI,Magma的泛化能力大幅提升,能够跨越不同领域执行任务,真正成为通用型AI助手。 如何训练AI跨越数字与现实世界?SoM & ToM方法 微软研究团队在训练Magma时,提出了两大创新策略——Set-of-Mark (SoM) 和 Trace-of-Mark (ToM),帮助AI更精准地理解任务要点,并掌握动态交互能力。 ✅ Set-of-Mark (SoM):关键元素标注SoM是一种高层次提示方法,通过标注任务中至关重要的对象或界面元素,帮助AI聚焦关键信息。例如,在网页导航任务中,SoM会标记所有可点击的按钮,而在物理任务中,则会标记需要移动的物体(如桌上的盘子、杯子等)。 ✅ Trace-of-Mark (ToM):动态任务轨迹相比SoM的静态标注,ToM进一步增强了AI的时间维度理解,通过轨迹追踪对象的运动情况。例如,在机器人抓取任务中,ToM可以描绘机械臂如何调整位置、放置物体的动态过程,让Magma更精准地执行动作。 表现如何?Magma挑战各大SOTA模型 在多项任务测试中,Magma展现了惊人的泛化能力和任务适应性:📌 零样本(Zero-shot)智能评估——无需额外微调,Magma就能在多个领域执行完整任务,在机器人操控和UI导航等任务上击败众多专门模型。 📌 少样本(Few-shot)微调——在机器人(Widow-X)和交互式UI任务(Mind2Web)上,Magma在所有测试任务中成功率远超现有模型,证明了SoM和ToM技术的关键作用。 📌 跨环境迁移能力——即便没有特定任务的数据,Magma依然可以媲美甚至超越最先进的多模态AI,如Video-Llama2和ShareGPT4Video。 Magma:AI智能体的未来基石 Magma不仅是一个单一的模型,而是微软AI智能体(Agentic AI)的核心拼图之一。它可以与微软的AutoGen开源库结合,打造具备自主计划和执行能力的AI助手。未来,Magma还将结合**强化学习、测试时搜索(Test-time Search)**等技术,进一步增强推理和探索能力。 目前,Magma已在Azure AI Foundry Labs和HuggingFace上开源,并采用MIT许可,开发者可自由下载并进行探索。微软研究团队邀请所有AI开发者测试和改进这款划时代的多模态AI模型,共同推动AI智能体迈向更高层次的自主智能!
AI概览升级,AI模式全新登场!
AI模式让搜索变得更加轻松,它将Gemini 2.0的强大能力与Google顶级信息系统结合在一起。据悉,这项技术的搜索结果不仅具有示范性,还涉及一些前瞻性功能。 内容探索一直是Google的重要方向,而AI模式正是为了让用户更便捷地获取信息,并快速采取行动。借助这一模型的深度信息检索能力,用户可以更精准地表达需求,无论是细微的差别还是具体的限制条件,都能找到最合适的网页内容,并且支持多种格式呈现。 实验室测试阶段在内部测试和部分受信用户的试用反馈中,AI模式表现出了极高的实用性,尤其是在响应速度、信息质量和内容更新方面广受好评。现在,这项技术正在扩大测试范围,进入Labs的限量试用阶段,用户需要主动申请加入。这种实验性策略旨在通过最热衷尝试新技术的用户反馈,快速优化产品。 AI模式的核心依托Google现有的质量和排名系统,同时采用新的推理方法来提升信息的准确性。理论上,AI模式会尽可能多地提供AI生成的回答,但如果系统对信息的质量和价值没有足够信心,就会改为展示普通的网页搜索结果。毕竟,任何处于早期阶段的AI技术都无法做到完美,例如,虽然Google的目标是让AI搜索结果尽量客观地反映网络上的信息,但某些回答可能会无意间带有倾向性或形成某种个性化表达。 在下一阶段的测试中,Google计划解决这些挑战,并根据用户反馈快速调整用户体验。团队正在开发新的功能,比如增加更多图片和视频内容、更丰富的格式呈现、改进访问网页内容的方式等。 从今天起,Google One AI Premium订阅用户将率先获得试用邀请,官方期待收到更多用户的反馈,更多更新也即将到来!
Deepgram推出Nova-3 Medical,AI语音转录助力医疗行业
全球AI语音技术公司 Deepgram 正式发布 Nova-3 Medical,一款专为医疗行业打造的 AI语音转文字(STT)模型,旨在优化临床转录,助力英国 NHS公立医疗系统及私立医疗机构 提高文档记录的精准度与效率。 精准识别医学术语,避免“AI幻觉” 随着 电子病历(EHR)、远程医疗和数字健康平台 的普及,医疗行业对高精度AI转录工具的需求日益增长。然而,传统STT模型常因 医学术语复杂、环境音干扰 而出现误识别甚至“AI幻觉”(hallucinations),影响患者安全。 Deepgram的 Nova-3 Medical 针对这些挑战进行了专门优化:✅ 精准识别医学术语:深度学习 + 医疗专属语料训练,精准捕捉 专业术语、缩写及行业术语,即使医生远离录音设备仍能保证转录质量。✅ 自定义关键词:支持 100个关键术语 的“关键词提示”(Keyterm Prompting),适配不同医学专科需求。✅ 无缝集成:可直接对接 EHR系统,确保患者数据准确归档,提高医生工作效率。 企业级安全与合规,适配医疗数据保护需求 Nova-3 Medical支持 本地部署(on-premises) 和 虚拟私有云(VPC) 配置,符合 HIPAA医疗隐私保护法规 和 英国数据保护法,保障医疗机构的数据安全和合规需求。 OneReach.ai管理合伙人 Kevin Fredrick 评价道:“企业级语音AI的难度远超娱乐级应用,而Deepgram的Nova-3系列在准确度、延迟、效率及扩展性方面处于行业领先水平。” 行业领先的转录准确率与速度 Deepgram的基准测试数据显示,Nova-3 Medical的转录精度远超竞品:🔹 词错误率(WER):3.45%,比第二名竞品减少 63.6% 误差,减少医生后期校对负担。🔹 关键术语错误率(KER):6.79%,比第二名竞品减少 40.35% 误差,确保药品名称、疾病等关键医学术语精准无误。 此外,Nova-3 Medical 转录速度快5-40倍,可满足 远程医疗和数字健康平台…
微软发布Dragon Copilot,打造医疗行业首款AI语音助手
微软今日正式推出 Dragon Copilot——全球首个专为医疗行业打造的 统一语音AI助手。这一创新技术结合了 Dragon Medical One(DMO) 的语音识别能力、DAX Copilot 的智能聆听功能,以及 生成式AI 和 医疗级安全保障,旨在帮助临床医生减少行政工作,提高效率,改善患者体验,并带来可观的财务影响。 AI助力医疗行业,缓解医生“文书疲劳” 医疗行业长期以来饱受繁琐文书工作困扰,医生的职业倦怠感虽从2023年的 53%下降至2024年的48%,但随着人口老龄化的加剧和医疗人才短缺的加剧,行业仍然面临巨大挑战。微软希望通过Dragon Copilot,让AI承担更多行政负担,让医生有更多时间专注于患者护理。 “我们始终相信,AI可以解放医生,让他们不再被繁重的文书工作拖累,而是能够真正回归到治病救人的核心任务。”微软健康与生命科学解决方案副总裁 Joe Petro 说道,“Dragon Copilot的推出,标志着全球首个统一语音AI体验的诞生。” Dragon Copilot如何改变医疗行业? 这款AI助手集成了DMO的语音转录和DAX的智能聆听,并融合生成式AI技术,能够帮助医生更高效地完成医疗记录、查询医学信息、自动化任务等功能。核心能力包括: ✅ 文档自动化:支持多语言语音记录、自动任务处理、自然语言转录、语音备忘录、格式化文本、模板化AI输入等。 ✅ 智能信息检索:内嵌AI助手,可直接查询权威医学信息,帮助医生快速获取所需资料。 ✅ 任务自动化:可自动生成病历摘要、临床证据整理、转诊信件、就诊后报告等,提高医疗流程效率。 目前,Dragon Copilot已经在600多家医疗机构试运行,医生平均每次问诊可节省5分钟,70%受访医生表示职业倦怠感降低,62%表示更愿意留在现有医疗机构,93%患者反馈就诊体验更佳。 即将登陆全球,开启医疗AI新时代 Dragon Copilot将于 2025年5月 在 美国和加拿大 正式上市,随后将在 英国、德国、法国、荷兰 推广。微软还计划进一步拓展至全球更多市场,并携手 电子病历(EHR)供应商、独立软件开发商、系统集成商 共同优化医疗AI生态。 AI赋能医疗,安全合规是关键 Dragon Copilot采用 微软云(Microsoft Cloud for Healthcare) 架构,符合医疗行业的数据安全与隐私要求,并严格遵循 透明性、公平性、可靠性和隐私保护 的负责任AI原则。微软表示,将持续优化AI在医疗行业的应用,确保技术创新带来积极影响。 AI+医疗,是未来趋势还是当前现实?…
远古RNA引导系统:基因编辑疗法的新希望?
麻省理工学院(MIT)麦戈文脑研究所和布罗德研究所的科学家们近日发现了一种全新的RNA引导系统——TIGR(Tandem Interspaced Guide RNA)系统,或将彻底改变基因编辑领域。相比当前流行的CRISPR技术,TIGR系统更小巧、更灵活,并且能够精准地修改人类细胞中的DNA。这一突破性的研究成果已于2月27日发表在《Science》期刊上。 新型RNA引导工具,比CRISPR更高效? TIGR系统的工作方式与CRISPR类似,依赖RNA引导蛋白精准定位DNA,但它有几个关键优势: 研究负责人、MIT神经科学教授**张锋(Feng Zhang)**表示:“这是一个非常多功能的RNA引导系统,它具有丰富的功能模块,并且比现有的CRISPR系统更紧凑。我们希望利用它开发更灵活的基因编辑工具。” 探索自然界的无限可能 张锋团队长期致力于发现新的生物学机制,并将其转化为基因编辑技术。这次,他们通过大规模生物数据库搜索,利用AI筛选出数百万种可能的蛋白结构,并最终锁定了TIGR-Tas系统。 TIGR-Tas蛋白最早发现于感染细菌的病毒中,它们依靠RNA引导蛋白找到特定的DNA片段,有些还能直接切割DNA,而另一些则能招募其他蛋白来执行不同的任务。研究团队实验发现,部分Tas蛋白已经可以在人体细胞中精准编辑DNA,展现出惊人的应用潜力。 基因编辑新纪元? CRISPR技术近年来已广泛应用于医学、农业和生物工程领域,但其体积较大、依赖PAM序列、可能存在脱靶效应等问题限制了它的进一步发展。而TIGR系统的出现,可能会成为下一代基因编辑工具的基石。 目前,张锋团队正在深入研究TIGR系统的天然功能,同时优化Tas蛋白的分子结构,以提高编辑效率。他们还发现TIGR系统可能与人类细胞中的某些RNA处理蛋白存在关联,未来可能揭示更深层的生物学机制。 随着这一发现的推进,TIGR系统或许将为精准基因编辑、遗传疾病治疗以及合成生物学带来革命性的变化。这一切,才刚刚开始。
苹果的AI困境:能否绝地反击?
曾经引领科技潮流的苹果,如今却在人工智能(AI)赛道上陷入被动。曾几何时,这家iPhone和Mac的制造商凭借“预测未来”战略,在多个领域击败竞争对手。然而,在AI这场堪称互联网诞生以来最大的科技革命中,苹果的表现却让人大跌眼镜。 从Siri领跑到AI掉队 苹果早在2011年就推出了Siri,理论上应该在AI助手领域占据优势。然而,多年过去,Siri不仅未能成为行业标杆,反而被亚马逊和谷歌甩在身后。尤其是最近亚马逊发布的Alexa+,更是彻底暴露了苹果在AI上的短板。 去年6月,苹果发布了新版Siri,并展示了一系列AI功能,包括基于个人数据的智能问答、屏幕内容分析以及更精准的App控制。从演示视频来看,这套系统似乎相当智能。然而,现实远比宣传复杂得多——当时的苹果AI团队甚至连一个可用的原型机都没有,现在依然在为能否按计划在5月推出而苦战。 苹果AI:鸡肋还是革新? 去年10月,苹果开始陆续推出“Apple Intelligence”AI功能,包括写作工具、语音信箱转录、生成式Emoji(Genmoji)以及图片编辑工具Image Playground。然而,这些功能大多只是“锦上添花”,缺乏真正的颠覆性创新。有些甚至可以用“鸡肋”来形容。 更尴尬的是,苹果试图借助OpenAI的ChatGPT来弥补自身AI技术的不足,然而整合方式并不理想。相比之下,谷歌的Gemini和微软的Copilot早已大步向前,亚马逊的Alexa+更是直接将AI助手提升到了“拟人化”水平。 在这种情况下,苹果AI不仅难以吸引消费者升级设备,甚至连内部数据都显示实际使用率极低。尽管苹果向华尔街表示,在提供AI功能的地区iPhone销量更好,但真实情况显然没有宣传得那么乐观。 Siri的救赎,还是更大的坑? 苹果能否在AI领域翻盘?答案或许取决于新版Siri的表现。苹果计划在5月推出iOS 18版Siri,并在2026年的iOS 19中彻底重构Siri架构,使其更加流畅和智能。然而,内部消息透露,由于底层系统问题尚未解决,真正具备ChatGPT级别对话能力的Siri可能要到2027年的iOS 20才能实现——这意味着苹果在AI竞赛中可能会落后整整五年。 考虑到AI行业目前的爆炸式发展速度,五年时间足够OpenAI、谷歌和微软把技术带到全新的高度。届时,苹果是否还有翻身的机会? 苹果的突围之路 有分析认为,苹果的AI困境不仅仅是技术问题,还涉及管理层决策和资源分配问题。例如,竞争对手已经将AI芯片供应链掌握在手,而苹果却在“被动补课”。苹果虽然正在加紧自研AI服务器和芯片,但业界普遍认为进度远远落后于预期。 另外,苹果的AI团队也在遭遇人才流失问题,竞争对手不断挖角,导致项目推进困难。尽管苹果最近调整了管理层,派出软件开发主管Kim Vorrath接管AI团队,但根本性的变革恐怕还需要更激进的策略。 苹果还能靠生态系统翻盘吗? 尽管AI技术落后,苹果仍然手握一个强大的优势——庞大的硬件和软件生态系统。与亚马逊和微软不同,苹果的AI有机会深度整合iPhone、iPad、Mac和其他设备,创造更流畅的用户体验。然而,如果AI能力无法跟上,苹果生态的“护城河”是否依然坚不可摧? AI已经被认为是继互联网和智能手机之后的第三次科技革命。苹果如果不能快速迎头赶上,可能会在这场变革中失去领先地位。时间已经不多,库克和他的团队必须尽快找到破局之道,否则,苹果或将迎来真正的“至暗时刻”。
GPT-4.5正式上线!Pro用户可立即体验,API开发者同步预览
OpenAI发布GPT-4.5,这是一次全新的算力突破,带来了更强的情感理解、创造力以及多步推理与任务自动化能力。 🔥 GPT-4.5主要亮点 ✅ 更强的能力:在代码编写、写作、学习、沟通和创意生成等任务中表现更优。✅ 更聪明的AI助手:增强了情感理解、复杂任务执行、多步骤编程和自动化规划能力。✅ 支持图片输入:可在API中处理视觉任务(但ChatGPT暂不支持)。✅ 更高算力需求:计算消耗比GPT-4o更大,OpenAI仍在评估是否长期开放API。 🆕 ChatGPT Pro用户如何使用GPT-4.5? 📌 立即可用:ChatGPT Pro用户现在可以在网页、移动端和桌面端选择GPT-4.5。📌 逐步开放:下周将向Plus和Team用户开放,再下一周扩展至企业版(Enterprise)和教育版(Edu)。 🚫 当前不支持:语音模式(Voice Mode)、视频处理、屏幕共享等多模态功能。 👨💻 API开发者如何使用GPT-4.5? ✅ 适用于所有付费开发者,可在Chat Completions API、Assistants API、Batch API中调用。✅ 支持:函数调用、结构化输出、流式响应(Streaming)、系统消息(System Messages)。✅ 视觉能力:支持图片输入,可用于计算机视觉任务。 📌 特别适合:💡 内容创作:写作、学习、头脑风暴、沟通辅导等任务。🖥️ 代码开发:支持多步推理、自动化工作流和复杂任务执行。 💰 注意:GPT-4.5比GPT-4o计算成本更高,OpenAI正在评估长期提供API的可行性。如果它对你的应用至关重要,欢迎提交反馈,影响OpenAI的决策。 🔮 AI的下一步? 每一次计算能力的突破,都会带来全新的可能性。GPT-4.5不仅是一个更强大的AI助手,也代表了无监督学习的前沿进展。OpenAI期待开发者和用户探索它的独特潜力,挖掘新的应用场景。 📢 Pro用户现在就能体验,开发者也可在API中预览!你会用GPT-4.5做什么? 🚀
微软官宣!Skype将在2025年5月5日正式退役,全面押注Teams
23年传奇落幕,Skype正式告别历史舞台! 微软宣布,这款曾经引领互联网通话革命的应用将于2025年5月5日正式关闭,用户还有10周时间决定如何处理账户数据。未来,微软将全面转向Teams,为企业和个人用户提供统一的通信平台。 🔚 Skype的终章:从巅峰300M用户到被Teams取代 Skype的消亡早有预兆。自2016年微软推出Teams后,Skype的地位便日渐式微。虽然在疫情期间,Skype曾迎来短暂增长,但相比WhatsApp 20亿+用户的庞大规模,Skype的3600万日活用户实在相形见绌。 微软在2021年宣布Windows 11预装Teams,Skype边缘化;2024年底,Skype已停止新充值和购买号码,当时便有不少人猜测它的命运。如今,随着微软推出全新Teams 2.0,Skype正式走向终点。 🔄 迁移到Teams,还是导出数据? 在5月5日前,Skype用户有两种选择: 微软承诺:2025年底前,Skype数据仍可访问,之后将彻底删除。 📞 但Teams Free没了Skype的核心功能:电话拨打 对于依赖Skype拨打电话的老用户,这次迁移可能是个坏消息。Teams Free版不支持PSTN电话服务,意味着用户无法像Skype一样直接拨打手机或座机。 微软在2024年12月已停止Skype话费充值,并将在2025年4月3日关闭订阅续费。不过,微软会在Teams和Skype网页版保留Skype拨号键盘,让已有余额的用户继续使用,直到余额耗尽。 🚀 微软为何选择All in Teams? 微软的最终目标是整合消费级和企业级通信。Skype曾是一个从个人用户扩展到企业的产品,而Teams则是从企业市场下沉到个人用户。如今,Teams的月活跃用户已达3.2亿,微软认为是时候让Teams完全接管Skype的功能。 但问题是,“Teams”这个名字听起来更像工作软件,而非日常社交工具。用户真的会愿意用Teams和朋友视频聊天吗?微软认为这不是问题,毕竟Word、Excel、PowerPoint早已跨越办公和个人生活,Teams也能做到这一点。 📉 Skype的倒下,是科技变迁的必然 从2003年诞生,到2005年被eBay收购,2011年被微软以85亿美元收购,Skype曾是全球互联网通话的代名词。但移动互联网的崛起,WhatsApp、Zoom、FaceTime等产品的冲击,让Skype逐渐失去了竞争力。 曾经的王者落幕,新的时代已然开启。5月5日后,Skype将正式告别历史,而微软的未来,将属于Teams。
Meta要硬刚ChatGPT!独立版Meta AI即将上线,还要推出付费订阅?
Meta正在加速AI大战步伐!据知情人士透露,Meta计划在第二季度推出独立版Meta AI应用,正式加入Facebook、Instagram和WhatsApp的“Meta家族”,与OpenAI的ChatGPT、谷歌的Gemini展开正面对决。 📌 Meta AI独立App来了! 自2023年9月Meta AI聊天助手上线以来,这款生成式AI已被深度集成到Facebook、Instagram、WhatsApp和Messenger中。今年4月,Meta甚至直接用它取代了这些应用的搜索功能,意图让全球用户习惯在社交平台内直接使用AI助手。 但相比ChatGPT等AI工具,Meta AI一直缺乏独立应用,用户粘性也较低。据数据公司Business of Apps分析,Meta AI独立网站每月访问量不足1000万次,远远落后于ChatGPT、Gemini等竞争对手。 为了改变这一局面,Meta CEO马克·扎克伯格(Mark Zuckerberg)决心打造一款独立的Meta AI App,让用户能更直接、更个性化地体验AI助手的功能。 扎克伯格在1月份的财报电话会议上表示:“2025年,Meta AI将成为全球首个触达10亿人的AI助手。” 现在来看,这款独立App无疑是迈向这一目标的关键一步。 💰 付费订阅也要来了? 除了独立App,Meta还计划推出Meta AI的付费订阅服务,类似OpenAI的ChatGPT Plus,每月收费解锁更强大的AI能力。 Meta首席财务官Susan Li此前暗示,公司未来将通过**“个性化推荐”+“高级AI订阅”来实现Meta AI的商业化。目前,Meta仍未公布定价策略,但可以预见,Meta AI未来可能会有基础免费版+高级付费版**的组合。 🆚 AI大战:Meta vs. OpenAI vs. Google vs. xAI Meta AI的独立化,与最近Google和马斯克xAI的AI应用布局不谋而合: Meta要想超越ChatGPT、夺取AI助手市场的主导权,不仅要在用户体验上做文章,还需要在技术上迎头赶上OpenAI的GPT-4.5、GPT-5等强力对手。 🔥 扎克伯格:这是场硬仗,所有人准备加班! 知情人士透露,扎克伯格对Meta AI的竞争力非常焦虑,内部已对AI团队施加**“7天工作制”**的高压,以加速产品迭代。他在1月的内部邮件中写道: “2025年将是激烈的一年,我们正在打造全球最重要的技术——AI、智能眼镜、社交媒体的未来。我们需要最优秀的人才,全力以赴。” 🚀 2025,AI大战全面升级! 独立版Meta AI的推出,意味着这场AI助手大战正进入白热化阶段。面对ChatGPT的领先地位,Meta能否凭借自己的**社交生态+硬件设备(如Ray-Ban智能眼镜)**撬动市场?让我们拭目以待!
Aria Gen 2来了!AI感知、机器人、可穿戴计算的新突破
自2020年推出以来,Project Aria 一直是全球研究人员探索机器感知与人工智能前沿的关键平台。而今天,Meta正式发布Aria Gen 2智能眼镜,这款新一代研究设备将在机器感知、上下文AI、机器人学等领域开启全新可能。 Aria Gen 2:更智能的AI研究工具 相比第一代产品,Aria Gen 2带来了多个行业领先的创新,让研究人员能够更深入地探索AI如何从人类视角理解世界。 🔍 主要升级亮点: 这不仅是一款智能眼镜,更是Meta在可穿戴计算和AI感知技术上的又一次突破。Reality Labs Research与FAIR AI实验室将利用它推进AI研究,同时,Project Aria也将为学术界和商业实验室提供这项前沿技术。 🚀 赋能AI研究与机器人学 过去四年,Project Aria已经促成了多项关键研究成果,包括Ego-Exo4D数据集,这套由第一代Aria眼镜采集的数据集已成为计算机视觉与机器人领域的基础工具。 📌 研究应用实例: 📅 设备即将开放申请,敬请期待! Meta将在未来几个月公布设备供应计划,对Aria Gen 2感兴趣的研究人员可以注册获取更新。 Aria Gen 2不仅是一款智能设备,更是迈向下一代计算平台的重要一步。期待全球研究人员解锁更多创新应用,让AI更懂世界!https://docs.google.com/forms/d/e/1FAIpQLSfukXP5q6dclAAA3php-OCO1TcwFc5Opegrvw23wHwEbOFJbA/viewform