英国药品与健康产品管理局(MHRA)近日宣布,五项医疗科技成功入选其“AI安全锁”计划(AI Airlock)。这一项目旨在优化人工智能医疗设备的监管流程,加速其在英国国家医疗服务体系(NHS)中的安全引入,从而惠及有需要的患者。 什么是“AI安全锁”? 根据MHRA的定义,“AI安全锁”是一种“沙盒”环境,类似于实验性框架,帮助制造商确定如何收集真实世界的证据以支持设备的监管审批。与传统医疗设备不同,AI模型具备持续学习和进化的能力,这使得安全性和有效性的证据建立更加复杂。“AI安全锁”通过虚拟环境提供监管支持,既让开发者了解实际挑战,也为NHS在更广范围内采用创新AI技术铺平道路。 创新医疗科技登场 此次入选的技术涵盖癌症、慢性呼吸系统疾病及放射学诊断领域。它们有望提升医疗的精准度与效率,为诊断工具和患者护理带来革命性变化。以下是五项入选技术的亮点: 突破性的AI监管探索 MHRA医疗技术监管改革负责人Laura Squire表示:“新型AI医疗设备能提升医疗决策精准度、节省时间并提高效率,从而改善患者和NHS的整体结果。但我们需要确保这些设备在整个生命周期内的安全性和性能稳定。” 政府官员也对这一计划给予高度评价。卫生部国务部长Karin Smyth指出,该项目是政府10年健康计划的一部分,将NHS从传统模式向数字化转型推进了一大步。科学部长Lord Vallance也称此项目为“良好监管推动新兴科技发展”的典范。 展望未来 MHRA计划在2025年发布首批试点成果,这些数据将影响未来的医疗设备监管政策,为开发AI技术的制造商提供更清晰的路径。这一系列努力不仅提高了透明度,还助力英国成为全球医疗技术创新的中心。 正如Lord Darzi健康和护理审查中提到的,NHS正面临“关键状态”,AI技术可能是其实现可持续发展的关键路径之一。而“AI安全锁”正是向AI医疗革命迈出的重要一步。 尽管此次入选并不等于监管批准,但这些技术已在应对医疗挑战方面展现出巨大潜力。在监管框架的严格审视下,这些解决方案或将在未来数年内证明其价值,为NHS带来前所未有的变革。
DeepMind,推出了Genie 2
DeepMind,谷歌旗下的AI研究机构,最近推出了一款名为 Genie 2 的模型,这款工具可以生成“无限”种类的可玩3D世界。https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/ Genie 2 是 DeepMind 在今年早些时候发布的 Genie 模型的升级版。它能够根据单张图像和文本描述(例如“一个可爱的类人机器人在森林中”),实时生成互动场景。类似于 Fei-Fei Li 所属公司 World Labs 和以色列初创企业 Decart 开发的模型,Genie 2 专注于创造独特的虚拟空间。 DeepMind 声称,Genie 2 可以生成“极其丰富多样”的3D世界,用户可以通过鼠标或键盘在这些世界中进行跳跃、游泳等互动操作。该模型经过视频训练,具备模拟物体交互、动画、光影、物理效果、反射以及“NPC”行为的能力。 AAA级游戏画质的秘密?Genie 2 的许多模拟效果堪比 AAA 游戏。这或许与其训练数据中包含了流行游戏的试玩视频有关。然而,出于竞争或其他原因,DeepMind 并未透露具体的数据来源细节。毕竟,数据采集方法可能涉及知识产权问题。有观点质疑,作为 Google 的子公司,DeepMind 是否利用 YouTube 的使用条款,未经授权地将平台上的视频用作训练数据?这些问题或许最终需要法院来裁定。 “瞬间记忆”的技术突破Genie 2 可生成各种视角(如第一人称、等距视图)的连续世界,时间最长约1分钟,大多数场景持续10到20秒。与其他类似模型相比,Genie 2 的优势在于能够记住屏幕外的场景,并在需要时准确重现。例如,模型可以区分键盘按键的作用,“知道方向键应该移动机器人,而不是树木或云朵。” 许多世界模型(例如 Decart 的 Minecraft 模拟器 Oasis)常出现低分辨率、布局记忆混乱等问题。而 Genie 2 在模拟一致性和细节上表现更加出色,这让其更适合作为研究和创意工具,而非真正的游戏开发工具。 AI创造新边界,开发者态度复杂DeepMind 将 Genie 2 定位为一种研究和原型工具,可用于快速生成交互式环境或测试…
Amazon Nova
亚马逊推出全新顶尖基础模型Amazon Nova,以行业领先的性能为客户提供前沿智能解决方案。 从自主研发的Inferentia和Trainium芯片,到Amazon Bedrock上的一流基础模型,再到像Rufus和Alexa这样的AI驱动体验,亚马逊致力于通过生成式AI(Gen AI)技术为消费者、商家、广告商和企业带来切实价值,简化生活中的每一步。 Amazon Nova:AI发展的新里程碑 作为亚马逊AI旅程的下一步,Amazon Nova代表了新一代的基础模型(FMs)。这套模型不仅能够处理文本,还支持图片和视频输入,用户可借助其强大的生成式AI应用理解视频、图表和文档,甚至生成多媒体内容。 亚马逊人工通用智能高级副总裁Rohit Prasad表示:“Amazon Nova旨在帮助内部和外部开发者应对构建应用的挑战,为用户提供高效的智能内容生成,同时在延迟、成本效益、定制化、信息溯源以及多步骤任务处理能力上取得显著进展。” Amazon Nova 模型家族 Amazon Nova在Amazon Bedrock中提供以下几款核心模型: 提升客户体验 Amazon Nova 模型覆盖 200 种语言,支持文本、图片、视频等多种形式的输入,专为与客户现有系统无缝对接设计。Amazon Nova Micro、Lite 和 Pro在Amazon Bedrock中比同类最优模型便宜75%以上,同时响应速度最快。 通过 Amazon Bedrock 的单一 API,客户可以轻松测试和评估Amazon Nova模型,选择最适合的应用模型。这些模型还支持个性化微调,客户可使用自己标注的数据(文本、图像或视频),让模型学习最相关的信息,并通过Amazon Bedrock训练出专属的定制化模型。 此外,模型支持知识蒸馏,可将强大“教师模型”的特定知识传递给更小型、更高效的模型。这种方法让模型运行速度更快、成本更低,同时保持高准确性。 Nova模型与Amazon Bedrock知识库集成,优化了检索增强生成(RAG)功能,确保模型回答准确且基于客户专属数据。 创意内容生成与智能广告 Amazon Nova Canvas 和 Reel 模型为创意内容生成开辟了新天地。例如,Amazon Nova Reel能够将单张图片转化为动态视频广告,帮助广告商提升内容质量。亚马逊广告数据显示,使用这些工具的品牌能够平均增加5倍的产品广告,且每个产品的图像广告数量翻倍。 一个虚构的“意大利面之城”广告案例中,使用Amazon Nova Reel生成的视频展示了由意大利面和香料构建的奇幻城市街景,为品牌提供了生动且创新的宣传方式。 更强的视频理解与描述能力 Amazon Nova Pro…
“AI教母”李飞飞的新突破:从单张图片生成互动3D世界
李飞飞领导的AI初创公司World Labs近日发布了首个项目的“早期预览版”。这套AI系统依托空间智能技术,能够从单张图片生成一个完全可交互的3D“视频游戏式”世界。更令人惊喜的是,用户无需下载额外软件,只需通过网页浏览器即可体验。 在项目演示中,World Labs以爱德华·霍普的名画《夜游者》(Nighthawks)为例,将这幅静态作品转化为一个可以自由探索的3D世界。用户不仅可以移动视角和缩放细节,还能在虚拟场景中自由漫步。这一技术的独特之处在于生成的场景具有高度的一致性和互动性,无论用户从哪个角度观察,场景始终遵循物理规则,视觉效果真实自然。 此外,这套系统还支持实时修改功能。用户能够直接调整场景中的光影效果,添加动态动画,甚至使用景深等电影级特效。这种灵活的编辑能力将为游戏开发者和影视制作人带来无限的创作可能。 虽然目前系统仍处于早期阶段,存在用户活动范围有限、渲染细节不够完美等小问题,但World Labs计划于2025年正式发布这项技术,主要面向游戏和影视行业。通过这项创新,原本需要耗费多年时间和高昂预算才能完成的互动式虚拟世界,将在短时间内轻松实现,为中小型创意团队提供了更多机会。这一突破标志着沉浸式创作新时代的到来。
AWS re:Invent主题演讲亮点:Amazon Q AI、Bedrock升级与更智能的云服务
2023年,Selipsky的主题演讲几乎完全围绕人工智能展开。AWS CEO最重要的宣布之一是推出了名为Amazon Q的新AI技术。这款AI并不是OpenAI的Q*,也和《星际迷航》中那个多维存在Q无关,更不是QAnon。这是一个专为AWS云服务设计的生成式AI工具,能够在开发、分析和运营中实现自动化。 Amazon Bedrock服务再升级 在演讲中,Selipsky还介绍了多项现已全面开放的Amazon Bedrock生成式AI服务新功能。这些功能包括可定制化模型、新的检索增强生成(RAG)功能以及持续预训练功能。这些改进让企业能够更好地根据自己的需求和数据优化生成式AI模型。 为了确保AI的使用安全,AWS还推出了Bedrock Guardrails,客户可以通过设置规则避免模型触及某些敏感话题或生成不当回应。 Selipsky表示:“通过Bedrock,客户可以完成如预订旅行、处理保险理赔、部署软件等复杂任务。为了支持这些功能,我们早前推出的Bedrock智能代理今天已全面开放。” Amazon Q:企业AI助手的全新定义 Amazon Q的推出预示着AWS正在全力进军企业AI助手领域。与微软的Copilot以及谷歌的Duet AI类似,Amazon Q被深度整合到AWS的多个云服务中,包括Amazon CodeWhisper和Amazon Connect。 Selipsky透露,Q不仅是开发者的得力助手,还能通过与应用和业务工具的整合为客户服务中心等领域带来显著提升。 AWS与Nvidia联手,又推自家芯片 演讲中,Nvidia CEO黄仁勋登台,与Selipsky一起介绍两家公司在AI领域的合作。不久后,Selipsky宣布AWS推出竞争性AI训练芯片Tranium 3,展示了AWS对AI硬件和基础设施的强大支持能力。 他说:“无论是构建自己的模型,还是直接使用服务,AWS始终为客户提供最先进的芯片、虚拟化技术以及工具,帮助他们完成构建。” AI服务未来展望 AWS通过Amazon Q和Amazon Bedrock等服务,正在覆盖人工智能生命周期的每个环节。从基础设施到模型训练,再到具体应用,Selipsky强调,AWS正以一种不同的方式重新定义生成式AI的使用方式,让企业更轻松地从中获益。 这场演讲不仅展示了AWS的技术进步,也预示着AI技术在云计算领域将迎来更广泛的应用。
英特尔CEO退休
英特尔近日宣布,CEO帕特·基尔辛格(Pat Gelsinger)已于12月1日正式退休,同时也从公司董事会辞职。公司高管大卫·津斯纳(David Zinsner)和米歇尔·约翰斯顿·霍尔索斯(Michelle Johnston Holthaus)被任命为临时联席CEO。津斯纳目前担任英特尔首席财务官,而霍尔索斯是英特尔客户端计算事业部的总经理。 值得注意的是,霍尔索斯还被任命为全新设立的“英特尔产品”部门的CEO,负责从消费者市场到数据中心、AI、网络及边缘业务的广泛运营。与此同时,董事会独立主席弗兰克·耶里(Frank Yeary)将在过渡期担任临时执行主席。英特尔表示,其芯片设计和制造部门——英特尔代工服务(Intel Foundry)的领导层将保持不变,公司董事会也已成立一个专门委员会,寻找基尔辛格的永久接任者。 基尔辛格在声明中感慨道:“能够领导英特尔是我一生的荣幸,这里的同事是业内最优秀和最聪明的一群人。虽然今天有些伤感,但英特尔始终是我职业生涯的重要部分。过去的一年充满挑战,但我们做出了一些艰难却必要的决定,为适应当前的市场动态打下基础。对能与英特尔大家庭的全球同仁共事,我心怀感激。” 不过,据彭博社报道,基尔辛格的离职并非完全自愿,公司董事会给了他退休或被解雇的选择。 基尔辛格18岁便加入英特尔,成为了公司历史上最年轻的副总裁。他在职业生涯中主导了诸多关键技术开发,包括第四代80486处理器、Wi-Fi、USB,以及英特尔Core和Xeon芯片产品线。在2009年离开英特尔之前,他还曾担任英特尔首席技术官。 他于2021年回归英特尔,接任CEO一职,并推出了一项雄心勃勃的五年计划,试图通过在美国及海外建设大型芯片制造工厂来与台积电和三星等巨头竞争。然而,这段任期却充满波折,他的一些决策引发了争议。 例如,基尔辛格公开提及台海局势敏感问题,这使得英特尔与台积电的合作关系受损,错失重要折扣。此外,他对英特尔AI芯片(如Gaudi)的前景过于乐观,但未能有效挑战Nvidia等行业领先者。他推动的代工业务转型也遭遇了技术障碍。 市场表现同样不尽如人意。英特尔2023年的收入下滑至540亿美元,比基尔辛格接任时减少了三分之一。公司采取了削减分红、裁员1.5万人、推迟多个芯片工厂建设等措施,试图削减成本。但当年10月,公司报告了创纪录的166亿美元季度亏损,全年预计亏损达到36.8亿美元,这是英特尔自1986年以来的首次年度净亏损。 尽管如此,英特尔董事会对新管理层表示信心。临时执行主席耶里在新闻稿中表示:“在大卫和米歇尔的领导下,公司将继续加速推进关键优先事项:简化和优化产品组合,提升制造和代工能力,并优化运营成本结构。” 消息公布后,英特尔股价小幅上涨约2.66%。然而,这家半导体巨头的未来仍面临诸多挑战,能否重塑辉煌仍有待观察。
阿里巴巴正式发布了全新大型语言模型Marco-o1
阿里巴巴正式发布了全新大型语言模型Marco-o1 (https://huggingface.co/AIDC-AI/Marco-o1),旨在应对传统和开放性问题解决任务。这款由MarcoPolo团队研发的模型,标志着AI在复杂推理挑战上的又一次飞跃,特别是在数学、物理、编程等领域,以及标准不明确的情况下表现尤为突出。 Marco-o1在OpenAI o1模型推理技术的基础上,引入了多项先进技术,包括链式思维(CoT)微调、蒙特卡洛树搜索(MCTS)和创新的反思机制。这些技术的结合大幅提升了模型在多个领域的推理和解决问题能力。 数据训练与模型表现 开发团队采用多数据集精细微调策略,包括经过筛选的Open-O1 CoT数据集、合成的Marco-o1 CoT数据集,以及定制的Marco Instruction数据集。训练语料总计超过6万条高质量样本。 在测试中,Marco-o1在多语言应用中展现了惊人的表现。例如,在英文MGSM数据集上的准确率提升了6.17%,中文对应数据集的表现也提高了5.60%。在翻译任务中,尤其是在处理俚语表达和文化细节时,表现尤为卓越。 创新特色:多层次推理与自我反思 Marco-o1的一大创新在于将不同层次的操作粒度引入到MCTS框架中。这种方法允许模型以不同的细节层次进行推理探索,从宏观步骤到32或64个词汇粒度的“微步”,均能灵活适应。同时,反思机制的加入使得模型能够自我评估并调整推理路径,在复杂问题解决上显著提高了准确率。 实验表明,所有整合MCTS的版本都优于基础的Marco-o1-CoT模型。研究团队还在不同的操作粒度上发现了有趣的规律,但也指出,目前的最优策略仍需进一步研究以及更精确的奖励模型支持。 持续优化与未来计划 尽管Marco-o1表现抢眼,开发团队坦言目前的模型距离真正“完善”的o1仍有距离。此次发布被定位为“持续改进中的阶段性成果”,而非最终成品。 未来,阿里巴巴计划引入奖励模型,包括结果奖励建模(ORM)和过程奖励建模(PRM),以进一步强化模型决策能力。同时,团队也在探索强化学习技术,以进一步优化问题解决能力。 公开资源与社区支持 为了支持研究社区,Marco-o1模型及其相关数据集已通过阿里巴巴的GitHub库对外开放,提供了详细的文档和实现指南。发布内容包括安装教程以及通过FastAPI实现的直接调用与部署示例脚本。 随着技术的不断进步,Marco-o1无疑为人工智能的推理和问题解决能力树立了新的标杆,也为研究和应用领域带来了更多可能性。
Elon Musk 第四次将矛头指向OpenAI
埃隆·马斯克再次将矛头指向OpenAI,这已经是他第四次试图用法律手段扳倒这家科技巨头了。 这次,马斯克要求法院阻止OpenAI从非营利机构转变为营利性企业——这是OpenAI为了安抚投资者在9月宣布的一项举措。据马斯克的起诉书,这种转型涉嫌违反反垄断法。 诉讼声称,OpenAI不仅侵犯了马斯克“对这个慈善组织的基础性贡献”,还通过与微软的“独家合作”来争夺市场主导地位,同时“错误地获取了合作关系中的敏感商业信息”。 文件中还指出,OpenAI的首席执行官萨姆·阿尔特曼通过与Stripe、Reddit和Helion Energy等公司签订合同进行“肆无忌惮的自我交易”,而这些公司都与阿尔特曼存在投资利益相关。 此外,马斯克还指控OpenAI阻止投资者为其他人工智能公司(尤其是他的初创公司xAI)提供资金。他特别提到,有“至少一位重要投资者”曾参与xAI的融资轮,但在与OpenAI确认合作后,拒绝继续为xAI投资。 面对这场诉讼,OpenAI的回应堪称火药味十足:“这是埃隆第四次提出的无稽之谈,依然是在重复毫无根据的指控,完全没有任何实质意义。”
亚马逊自研大语言模型 Olympus 即将亮相,或将在 LLM 竞赛中掀起新波澜
就在去年此时,有消息称亚马逊正在研发其首款旗舰大语言模型(LLM),代号为 Olympus。而如今,这款备受期待的产品即将迎来正式发布。据悉,亚马逊将在下周的 AWS 年度大会 re:Invent 上首次展示 Olympus。 不止文本与图像:Olympus 的独特能力 内部人士透露,Olympus 将具备与 Google、OpenAI 和微软等现有 LLM 相媲美的多模态功能,能够处理和理解文本与图像。然而,它的亮点在于对视频和图像的精准搜索能力。通过简单的文本指令,Olympus 据称可以在视频或图像中找到特定的视觉片段。 举个例子,在观看篮球比赛时,用户只需输入“找到制胜一球”,Olympus 就能定位并提取出获胜关键时刻的镜头。这种能力不仅增强了用户与内容的互动方式,还为多模态 AI 的应用场景开辟了更多可能性。 迈入 LLM 赛道,减少对第三方依赖 Olympus 的发布标志着亚马逊正式加入 LLM 竞赛,同时也将大幅减少其对第三方 LLM 的依赖。目前,亚马逊对 Anthropic 投资了 80 亿美元,而 Olympus 的推出或许是对其生态战略的一次重大补充。 从文本到图像,再到视频理解,亚马逊的 Olympus 很可能成为 LLM 领域的新一匹黑马。更多详情,敬请期待 re:Invent 上的正式揭幕!
Nvidia 发布 Fugatto 模型
生成音频的瑞士军刀诞生!一款能用文本控制声音输出的AI来了 一支生成式AI研究团队打造了一款“音频瑞士军刀”,让用户仅凭文字描述就能掌控声音输出。 不同于只会作曲或变声的AI模型,这款新工具堪称音频领域的“全能选手”。 这款产品被命名为 Fugatto(全称为 Foundational Generative Audio Transformer Opus 1),能够通过文本提示或音频文件生成、转换任何形式的音乐、声音和人声。例如,它能根据文字提示生成音乐片段,从现有歌曲中删除或添加乐器,改变声音的口音或情感,甚至创造出从未听过的全新声音! “这个工具简直是黑科技” 获得多白金销量的制作人兼词曲作者 Ido Zmishlany 表示:“声音是我的灵感来源,它驱动我创作音乐。现在,在录音棚中实时生成全新声音的能力简直让人兴奋。” 音频领域的一次革命 Fugatto 背后的团队希望让 AI 模型像人类一样“理解和生成声音”。据 NVIDIA 的音频应用研究经理兼 Fugatto 项目负责人 Rafael Valle 透露,这款模型支持多种音频生成与转换任务,是首个展现“涌现能力”的基础生成式 AI 模型。它能结合多种自由形式的指令,完成高度复杂的任务。 Valle 进一步解释:“Fugatto 是我们迈向音频合成和转换未来的重要一步,最终目标是实现无监督的多任务学习。” 用途广泛:从音乐创作到游戏开发 Fugatto 的潜力无处不在: 创意无限:从“喵喵的萨克斯”到“吠叫的喇叭” Fugatto 还能生成闻所未闻的声音,例如让喇叭学狗叫或萨克斯风模仿猫叫。无论用户如何描述,这款模型都能把创意变为现实。 此外,只需少量歌唱数据,Fugatto 甚至可以生成高质量的歌声。其结合多种指令的能力也令人惊艳,例如用文本指令生成“带法国口音、略带悲伤的语音”。 艺术家般的控制力 用户还能通过 Fugatto 的独特功能对声音进行精细调整。例如,它能生成雷雨从远到近的渐变效果,再慢慢演变为鸟鸣的黎明场景。 技术内幕:模型如何诞生? Fugatto 的训练基于 NVIDIA 的 DGX 系统,采用 2.5 亿参数规模。团队来自全球多个国家,通过多文化、多语言的合作大幅提升了模型的表现力。 在一年的研发中,团队设计了一套全新的数据生成和指令策略,不仅拓展了模型的能力,还让它能在没有额外数据的情况下完成新任务。…