英特尔、微软、高通和AMD这些科技巨头在过去几个月一直在大力推动“AI PC”的概念,随着我们迈向Windows中更多AI驱动的功能,这一创新概念越来越受到关注。尽管我们还在等待微软就其在Windows中AI的宏伟计划分享更多细节,英特尔已经开始分享微软对OEM制造商构建AI PC的要求——其中一个主要要求是AI PC必须拥有微软的Copilot钥匙。 微软希望其OEM合作伙伴为其AI PC理念提供硬件和软件的结合。这包括一套配备神经处理单元(NPU)、最新CPU和GPU,并能接入Copilot的系统。它还需要拥有微软今年早些时候宣布的新Copilot钥匙。 这项要求意味着,像华硕的新ROG Zephyrus这样的笔记本电脑,虽然已经搭载了英特尔的新Core Ultra芯片并且出货,但因为它们没有Copilot钥匙,在微软的严格要求下并不算是AI PC。不过,在英特尔看来,它们仍然是AI PC。 英特尔的PC生态系统负责人Todd Lewellen在与The Verge的媒体说明会上解释说:“我们的共同定义,英特尔和微软,我们在Core Ultra、Copilot和Copilot钥匙上达成了一致。从英特尔的角度来看,我们的AI PC配备了Core Ultra,它还集成了NPU,因为它解锁了AI领域全新的能力和功能。我们与微软有很好的一致性,但可能会有一些系统没有物理键,但它确实集成了我们的NPU。” 我相信英特尔和微软都希望OEMs将简单地遵循微软的要求并随时间增加Copilot钥匙,可能华硕的机器只是在微软准备好其新要求之前就已经出货了。今年早些时候,在CES上,戴尔在其键盘上贴上了Copilot的贴纸,这暗示微软的Copilot钥匙可能是其CES计划的后期加入。 目前尚不清楚OEMs遵循微软自己的AI PC定义将获得什么回报。我已经联系微软就其要求发表评论,但公司目前还没有讨论其AI PC计划。微软确实在本月早些时候将AI PC品牌用在了其最新的Surface Pro 10和Surface Laptop 6商业设备上,但笔记本电脑是否会有贴纸或OEMs是否会有额外的营销预算尚不清楚。 除了AI PC要求外,英特尔还在扩大其去年10月启动的AI PC加速计划。该计划旨在吸引软件开发人员对其应用程序加入AI驱动的功能感兴趣,现在正在扩展至通过AI PC开发者计划触及更多小型开发者。 英特尔将全年举办活动,提供实操时间帮助开发者习惯使用AI模型和工具,还有一个本质上是装载了预安装软件、驱动和开发工具的ASUS NUC Pro 14的AI PC硬件开发套件。 希望这种对开发者的关注能转化为更多利用这种新NPU硬件的应用程序。目前,能够利用NPU的应用并不多,微软Windows中的Windows Studio Effects用于视频通话时模糊背景和保持眼神接触是NPU内目前的主要用途。 英特尔还以这个AI PC加速计划为目标,试图让硬件供应商优化并启用其硬件以支持英特尔的AI PC。这本质上是英特尔为了在这些AI PC推出时尽可能多地让软件和硬件开发者站在其一边优化应用程序和硬件而进行的竞赛。今年的竞争对手是高通,后者即将推出一系列Snapdragon X Elite笔记本电脑,这可能会为Windows on Arm带来重大的性能飞跃。 谷歌甚至在本周发布了针对Windows on Arm优化的Chrome浏览器版本,这是一个重大的转变,将大大改善在高通驱动的Windows笔记本电脑上使用Chrome的用户体验。微软也传闻将其消费者版本的Surface Pro 10和Surface Laptop 6完全转向Arm。微软将在5月20日举行一个AI和Surface活动,届时CEO Satya Nadella将概述公司对AI硬件和软件的愿景。
苹果全球开发者大会(WWDC 2024)锁定了6月10日
今年的苹果全球开发者大会(WWDC)即将拉开帷幕,从6月10日开始一直持续到6月14日。每次这样的盛会,苹果都会聚焦于即将在秋季推出的软件更新,并且宣布一些新硬件产品。但今年,围绕苹果在生成式人工智能领域的策略,似乎笼罩着一层神秘的面纱。 据传,苹果每天投入数百万美元用于训练自己的AI模型,并且还在秘密与新闻媒体洽谈内容合作,以供训练之用。然而,最近的报道却揭示了苹果可能会与谷歌、OpenAI、Anthropic(或在中国与百度)达成合作,以提供基于云的AI功能,同时严格限制其自身生成功能仅在设备上运行。根据最近的一份彭博社报告,苹果甚至可能向所有AI开发者敞开生态系统的大门,允许他们在苹果设备中进行深度整合。 当然,苹果多年来一直在谈论设备上的机器学习,但现在生成式AI如此受到重视,苹果似乎也准备在这个领域大放异彩了。(请看M3 MacBook Air,也就是“世界上最佳的消费级AI笔记本电脑”。) 除了AI,我们还可以期待iOS、iPadOS、macOS、watchOS以及苹果其他操作系统的一系列功能更新。一些传闻中的更新包括在iPhone上自由放置应用图标的能力、“自由形态”中的“场景”功能,以及新的辅助功能快捷方式。甚至可能有两款新的AirPods型号——继第二代AirPods之后的入门级新品以及代替中端AirPods 3的降噪版——以及配备USB-C的更新版AirPods Max耳机(但可能没有其他太多新功能)。 去年的大事件自然是期待已久的Vision Pro头戴设备的发布。但苹果还宣布了一些其他事情,比如重视小工具的WatchOS重设计、iOS 17的待机模式、macOS的桌面小工具,以及再次向游戏行业发出的邀请。 2023年的WWDC还见证了苹果终于完成了对Apple硅芯片的过渡,当时他们展示了配备M2 Ultra芯片的更新版Mac Pro(该芯片后来也用在了新的Mac Studio中)。MacBook Air也获得了一些关注,因为推出了15英寸的新款型号。
Google AI 肺癌筛查的计算机辅助诊断
全球各地,肺癌的阴影无声无息地笼罩着无数家庭,2020年就有高达180万的生命在这场战斗中倒下。这场战斗中,早发现、早治疗是赢得胜利的关键。现代科技的利器——计算机断层扫描(简称CT)以其细致入微的三维肺部图像,为这场战斗带来了一线生机,特别是在那些高风险的人群中,通过提前发现癌症迹象,已证实至少能降低20%的死亡率。在美帝,年年扫描,视乎地域和个案,有的地方可能会建议扫得更勤或更松。 说到扩大肺癌筛查的推荐范围,美国预防服务工作组近来可是大手笔,一举增加了约80%的覆盖面,这意味着更多的女性和来自种族及少数民族的群体将有机会接受筛查。然而,万事开头难,假阳性的问题就像是无处不在的炸弹,一不小心就会引发患者的恐慌,导致不必要的医疗程序,不仅给患者带来身心的双重打击,还会增加医疗系统的经济负担。再加上,要在庞大的人群中进行筛查,还得看医疗基础设施和放射科医生是否能应对得来。 好在,谷歌大脑早有准备,他们用机器学习(ML)的神奇力量,研发出了肺癌检测的模型,能够自动标记出可能患有癌症的区域,这技术水平可不输给专家。不过,技术再高端,要是用不好,那也只能是纸上谈兵。因此,他们又进一步探索,如何将这些发现有效地传达给放射科医生,确保这些高科技成果能够落地生根。 辅助肺癌筛查系统输出的示例。放射科医师评估的结果在CT体积图像的可疑病变位置上可视化。CT图像顶部显示了总体的可疑程度。圆圈突出显示了可疑的病变,而方形则展示了同一病变从不同视角(称为矢状视图)的呈现: 他们不仅在《辅助AI在肺癌筛查中的应用:美国和日本的回顾性跨国研究》一文中深入探讨了这一主题,还设计了一个以用户为中心的界面,让放射科医师能够更好地利用这些模型进行肺癌筛查。这个系统不仅能够识别出肺部CT图像中的可疑区域,还能根据风险等级进行分类,极大地提升了放射科医生的工作效率。 为了让这套系统更加接地气,谷歌还将其部署在了Google Cloud上,利用Google Kubernetes Engine技术,确保了系统的高效运行和易于扩展。通过这种方式,医院和诊所能够直接连接到储存图像的服务器,无缝对接现有的医疗图像存储和传输系统。 最后,通过与放射科医生的紧密合作,进行了一系列的读者研究,结果令人振奋——使用了AI辅助系统的放射科医生,在识别无需进一步追踪的肺部图像方面的准确率有了显著提升,这不仅能减少患者的不必要焦虑,还能有效减轻医疗系统的负担,让肺癌筛查项目更加可持续发展。 在基于美国和日本的读者研究中,随着机器学习模型的辅助,读者的特异性提高了。特异性值是根据读者对可采取行动的发现(发现了可疑情况)与无可采取行动的发现的评分,与个体的真实癌症结果相比较而得出的。在模型的辅助下,读者标记需要后续访问的非癌症个体数量减少了。对于癌症阳性个体的敏感性保持不变: 现在,谷歌正与DeepHealth和Apollo Radiology International等行业领导者合作,探索如何将这一系统集成到未来的产品中,他们还计划开源用于读者研究的代码,以促进医学成像研究领域的AI应用研究,希望能够为抗击肺癌的长期战役贡献一份力量。
好莱坞新风潮:OpenAI携手Sora AI视频生成工具探索电影制作新境界
OpenAI正在积极与好莱坞的影视制作公司和高管们接洽,探索其新一代AI视频生成工具Sora的潜在应用场景。 Sora虽然尚未公开发布,但已因其能够根据文本描述创造出长达一分钟的逼真视频片段而受到关注,生成这样的视频可能需要一个小时的时间。OpenAI最近在好莱坞举行了介绍会,向行业领袖展示了Sora的能力。 随着媒体公司开始认真考虑AI训练对版权材料的影响,OpenAI的这一举动也引发了人们的关注。据报道,OpenAI与CNN、福克斯公司等媒体机构就许可协议进行了讨论。 在文本到视频AI领域,该公司面临着竞争。谷歌和Meta等公司已经展示了类似的研究项目。此外,像Runway AI这样的初创公司的文本到视频工具已在前期制作流程中获得了专业采用。OpenAI的首席技术官表示,Sora距离公开发布“可能还有几个月的时间”。 此前,微软宣布Sora将被整合到Copilot中。这一消息是在一位用户在推特上询问Sora是否会加入到Copilot后,由Parakhin回应的,“最终会的,但这需要时间。” 尽管Sora仍在开发中,且定价细节尚未公布,但其对好莱坞的全面影响仍有待观察。然而,AI驱动的短视频逼真生成技术,对电影制作行业来说无疑是一个重大的发展。
AI界风云变幻:Stability AI创始人Emad Mostaque突然辞职,引发行业内深思
上周,AI界的热门公司之一Stability AI发布声明,创始人兼首席执行官Emad Mostaque宣布从公司高层职位和董事会辞职,这使得该公司成为本周第二个经历重大变动的热门AI初创公司。 Stability AI曾获得Lightspeed Venture Partners和Coatue Management等投资者的支持,目前还未找到Mostaque的永久性替代者。不过,公司已经任命首席运营官Shan Shan Wong和首席技术官Christian Laforte作为临时联合CEO。 在最近几个季度,Stability AI失去了超过半打的关键人才。Mostaque表示,他辞职是为了追求去中心化的AI。在X平台上的一系列帖子中,他提出,要打败“中心化AI”,不能再用更多的“中心化AI”。他指的是像OpenAI和Anthropic这样的顶尖AI初创公司的所有权结构。 Mostaque还强调,他决定辞职是出于个人决定,因为他持有最多的控股份额。他补充说:“随着AI变得越来越重要,我们应该拥有更加透明和分散的治理。这是一个棘手的问题,但我认为我们可以解决…AI权力的集中对我们所有人都不好。我决定辞职,以在Stability及其他地方解决这个问题。” Mostaque的离开发生在Stability AI正处于挣扎之中,据彭博社报道,截至2023年10月,该初创公司的月支出估计为800万美元,且未能成功以40亿美元的估值筹集新资金。 大约一年前,Mostaque似乎并未将收入增长作为优先事项。去年在X平台上的一个帖子中,他对生成式AI公司“奇怪的收入焦点”表示好笑,尽管“这项技术有用,但距离成熟还远,因为几乎每天都有新的突破”。他举了MagicLeap等例子,这些公司在产生收入前已经花费了数十亿美元。 他还说:“在适当的生成式AI研发上的回报比我们所见过的几乎任何东西都更加明确和快速。比如,它将创造比自动驾驶汽车更多的经济价值,后者的总投资已达1000亿美元,但尚未见到收益。” 他上个月在Reddit上的评论提供了一个焦点转移的视角。“我们今年的表现很好,已经超出了预测。我们的目标是今年实现现金流正向,我认为我们可能会更早达到。”他写道。 “市场巨大,边缘和所有受监管行业都将需要开放模型。这就是为什么我们是少数公开数据、代码、训练运行细节等的公司之一。定制模型、咨询等都是巨大的市场,随着我们在未来一年或左右时间内进入企业采用阶段,这些都是非常合理的商业模型,去年只是在测试。” 对于AI行业来说,Stability AI的公告标志着一个非凡的一周。在周一,Inflection AI宣布,该公司的两位联合创始人以及几名其他员工已加入Microsoft,后者领导了该初创公司最近一轮的融资。
Google ScreenAI代表了一款先进的视觉语言模型,专为用户界面(UI)和视觉情境下的语言理解而设计
屏幕用户界面(UI)和信息图表,例如图表、图解和表格,在人类沟通和人机交互中发挥着重要作用,因为它们促进了丰富和互动的用户体验。用户界面和信息图表共享类似的设计原则和视觉语言(例如,图标和布局),这提供了建立单一模型的机会,该模型能够理解、推理并与这些界面交互。然而,由于它们的复杂性和多样的呈现格式,信息图表和用户界面呈现了一个独特的建模挑战。 为了应对这一挑战,研究者们介绍了“ScreenAI:一个用于用户界面和信息图表理解的视觉-语言模型”。ScreenAI在PaLI架构的基础上进行了改进,采用了pix2struct中引入的灵活打补丁策略。研究者们在包括一项新颖的屏幕注释任务在内的独特数据集和任务组合上训练了ScreenAI,该任务要求模型识别屏幕上的用户界面元素信息(即,类型、位置和描述)。这些文本注释为大型语言模型(LLMs)提供了屏幕描述,使它们能够自动生成问答(QA)、用户界面导航和摘要训练数据集。仅在5亿参数的情况下,ScreenAI就在基于用户界面和信息图表的任务(WebSRC和MoTIF)上达到了最先进的结果,并且在与相似大小的模型相比,在Chart QA、DocVQA和InfographicVQA上表现最佳。研究者们还发布了三个新的数据集:Screen Annotation,用于评估模型的布局理解能力,以及ScreenQA Short和Complex ScreenQA,用于更全面地评估其问答能力。 ScreenAI的架构基于PaLI,包含一个多模态编码器块和一个自回归解码器。PaLI编码器使用视觉变换器(ViT)创建图像嵌入,并且多模态编码器将图像和文本嵌入的连接作为输入。这种灵活的架构使ScreenAI能够解决可以重新构想为文本加图像到文本问题的视觉任务。 在PaLI架构之上,研究者们采用了pix2struct中引入的灵活打补丁策略。不使用固定的网格模式,而是选择网格尺寸以保留输入图像的原生宽高比。这使ScreenAI能够很好地适应各种宽高比的图像。 ScreenAI模型在两个阶段进行训练:预训练阶段和微调阶段。首先,自监督学习被应用于自动生成数据标签,然后使用这些标签来训练视觉变换器和语言模型。在微调阶段,视觉变换器被冻结,大多数使用的数据是由人类评估员手动标记的。 为了为ScreenAI创建一个预训练数据集,研究者们首先编译了来自各种设备(包括桌面、移动和平板电脑)的大量屏幕截图。这是通过使用公开可访问的网页和遵循用于移动应用的RICO数据集的程序化探索方法来实现的。然后他们应用一个基于DETR模型的布局注释器,它能识别和标记广泛的用户界面元素(例如图像、图示、按钮、文本)及其空间关系。图示进一步使用一个能够区分77种不同图标类型的图标分类器进行分析。这种详细的分类对于解释通过图标传达的细微信息至关重要。对于未被分类器覆盖的图标,以及信息图表和图像,研究者们使用PaLI图像标题生成模型来生成描述性标题,提供上下文信息。他们还应用光学字符识别(OCR)引擎来提取和注释屏幕上的文本内容。研究者们将OCR文本与前述注释结合起来,创建了每个屏幕的详细描述。 通过使用PaLM 2增强预训练数据的多样性,研究者们在两步过程中生成输入-输出对。首先,使用上述技术生成屏幕注释,然后他们围绕这个架构为大型语言模型创建一个提示,以生成合成数据。这个过程需要提示工程和迭代细化来找到有效的提示。研究者们通过人类验证对生成数据的质量进行评估,以达到一个质量阈值。 ScreenAI在两个阶段进行训练:预训练和微调。预训练数据标签是通过自监督学习获得的,而微调数据标签来自人类评估员。 研究者们使用公开的问答、摘要和导航数据集对ScreenAI进行微调,并使用与用户界面相关的多种任务。对于问答,他们使用多模态和文档理解领域中建立良好的基准,如ChartQA、DocVQA、多页DocVQA、InfographicVQA、OCR VQA、Web SRC和ScreenQA。对于导航,使用的数据集包括Referring Expressions、MoTIF、Mug和Android in the Wild。最后,他们使用Screen2Words进行屏幕摘要,使用Widget Captioning描述特定用户界面元素。除了微调数据集,研究者们还使用三个新的基准测试来评估微调后的ScreenAI模型: – Screen Annotation:用于评估模型的布局注释和空间理解能力。– ScreenQA Short:ScreenQA的一个变体,其真实答案已缩短,仅包含与其他问答任务更一致的相关信息。– Complex ScreenQA:与ScreenQA Short相辅相成,包含更难的问题(计数、算术、比较和无法回答的问题),并包含具有各种宽高比的屏幕。 微调后的ScreenAI模型在各种基于用户界面和信息图表的任务(WebSRC和MoTIF)上达到了最先进的结果,并且与相似大小的模型相比,在Chart QA、DocVQA和InfographicVQA上表现最佳。ScreenAI在Screen2Words和OCR-VQA上也表现出竞争力。此外,研究者们还报告了在新引入的基准数据集上的结果,作为进一步研究的基线。 研究者们介绍了ScreenAI模型以及一个统一的表示,使他们能够开发利用所有这些领域数据的自监督学习任务。他们还展示了使用大型语言模型进行数据生成的影响,并探讨了通过修改训练混合来提高模型在特定方面的表现。他们将所有这些技术应用于构建多任务训练模型,与公开基准上的最先进方法相比,这些模型表现出竞争力。然而,研究者们也 注意到,尽管他们的方法与公开基准上的最先进方法相比显示出竞争力,但与大型模型相比仍有差距。他们强调,需要进一步的研究来弥合这一差距,并探索新的策略和技术以提升模型性能。 研究者们的工作不仅展示了ScreenAI模型在用户界面和信息图表理解方面的潜力,而且还为未来的研究提供了一个坚实的基础。通过发布新的数据集和展示通过大型语言模型生成数据的能力,他们为解决复杂的人机交互问题开辟了新途径。 此外,ScreenAI模型的开发揭示了跨领域融合的重要性,即将计算机视觉、自然语言处理和人机交互的最新进展结合起来,以解决长期存在的挑战。这种跨学科的方法不仅促进了技术进步,也为研究社区提供了丰富的资源,包括数据集、模型架构和训练策略,这些都是推动未来创新的关键因素。 总之,ScreenAI项目标志着在理解和互动与日益复杂的数字界面方面的重要一步。随着技术的不断进步,期待未来的研究能够继续探索这一领域的潜力,解锁更多的应用场景,从而更好地服务于人类与机器的交互。
谷歌DeepMind的新AI小助手,正在帮助顶尖足球教练变得更加出色哦!
足球队总是在寻找超越对手的方法。无论是研究球员受伤的可能性,还是对手的战术——顶级俱乐部都会翻阅成堆的数据,以确保自己赢得胜利的最佳机会。他们可能会想要将谷歌DeepMind开发的一款新AI助手纳入他们的武器库。这款名为TacticAI的系统,能够提出比职业俱乐部教练创建的战术更加出色的足球定位球战术建议。这个系统通过分析由世界上最大的足球俱乐部之一,利物浦FC的球员执行的7176次角球来工作。 角球是在球经过守方球员后越过球门线时,授予进攻方的。在足球这种流畅且不可预测的运动中,角球——就像任意球和点球一样——是比赛中球队可以尝试预先计划好的戏码的罕见时刻.TacticAI使用预测和生成型AI模型,将每个角球场景——比如接球者成功进球,或是对方防守者截球并将球返回给自己队伍——转化为图表,将每个球员的数据转化为图表上的一个节点,然后模拟每个节点之间的互动。该项工作今天在《自然通讯》上发表。使用这些数据,该模型提供关于在角球期间如何定位球员的建议,例如,给他们最佳射门机会,或者上场的最佳球员组合。它还可以尝试预测角球的结果,包括是否会射门,或哪位球员最有可能首先触球。 AI助手的主要好处是减少了教练的工作量,Ematiq体育数据公司的分析师Ondřej Hubáček说,他专门从事预测模型,并没有参与该项目。“一个AI系统可以快速地通过数据并指出一个团队正在犯的错误——我认为这是你可以从AI助手中获得的附加值,”他说。 为了评估TacticAI的建议,谷歌DeepMind将它们呈现给五位足球专家:三名数据科学家,一名视频分析师,和一名教练助理,他们都在利物浦FC工作。这些专家不仅很难区分TacticAI的建议和真实比赛场景,而且他们90%的时间都更喜欢系统的战略而不是现有的战术。 这些发现表明,TacticAI的战略对于现实比赛中的人类教练来说可能是有用的,谷歌DeepMind的首席研究科学家Petar Veličković说,他参与了该项目。“顶级俱乐部总是在寻找优势,我认为我们的结果表明,这样的技术很可能会成为现代足球的一部分,”他说。TacticAI的预测能力不仅限于角球——同样的方法也可以轻松应用于其他定位球,比赛中的一般播放,甚至是其他运动,比如美式足球、曲棍球或篮球,Veličković说。“只要有一项团队运动,你认为在其中模拟球员之间的关系将是有用的,而且你有数据来源,它就适用,”他说。
神奇科技突破:瘫痪男子通过Neuralink脑植入物重新掌控数字世界!
Neuralink刚刚向世界展示了首位接受该公司大脑植入物的人类受试者,他是一位29岁的男子,因为一次潜水事故,从肩部以下瘫痪已经八年了。 在社交媒体平台X上的一次简短直播中,这位男子自我介绍为诺兰·阿尔堡,他说通过Neuralink设备,他能够在线下棋和玩《文明》系列游戏。“如果你们能看到屏幕上的光标在移动,那全是我的功劳,”他在直播中移动一个数字棋子时说。“挺酷的,对吧?” Neuralink,这个2016年由亿万富翁埃隆·马斯克共同创立的公司,正在开发一种被称为大脑-计算机接口的系统,该系统能从大脑信号中解码出移动的意图。公司最初的目标是让瘫痪的人仅凭借思考就能控制光标或键盘。 在直播中,阿尔堡描述了他如何学会使用大脑-计算机接口。“我会尝试移动,比如,我的右手,左右,前后,然后我觉得让光标移动就变得直观了,”他说。虽然直播中的细节相对较少,但一个Neuralink工程师在视频中说,更多信息将在未来几天内发布。 阿尔堡还说,他觉得能成为Neuralink研究的一部分很幸运:“我甚至无法描述能做到这一点有多酷。” 该公司去年获得了美国食品和药物管理局的批准,可以开始初步的人体试验,并在秋季开始招募瘫痪的参与者来测试这个设备。 到目前为止,Neuralink关于该研究进展的细节透露不多。马斯克在1月份的一篇X帖子中宣布,第一位人类受试者已经接受了Neuralink的植入,并且“恢复得很好”。2月份他说,该受试者已经恢复,并且能够仅凭思考控制电脑鼠标。 马斯克在2月19日关于受试者状况的X上的Spaces音频对话中说:“进展是好的,患者似乎已经完全恢复,我们没有意识到任何不良效应。”他还补充说,“患者能够仅凭思考就在屏幕上移动鼠标。” Neuralink的设备是使用该公司开发的手术机器人植入大脑的,在放置后从外观上是不可见的。该公司设计了软件,分析大脑信号并将其转换为输出命令,以控制外部设备。 一些神经科学家和伦理学家批评Neuralink之前对试验的不透明。公众对Neuralink的研究所知甚少,来源于社交媒体帖子和公司去年发布的一份简短手册。 Neuralink没有透露将在研究中招募多少受试者,试验地点,或将评估哪些结果。公司也没有在ClinicalTrials.gov上注册,这是一个包含人类受试者医学研究信息的政府仓库。该公司还因为研究中所用动物的涉嫌处理方式而面临争议。WIRED去年的一项调查详细描述了一些猴子因为公司的大脑植入测试而死亡。 阿尔堡似乎解决了围绕设备的安全担忧。“我觉得,像,没什么好怕的,”他说。“手术超级简单。我字面上是在出院后一天就被释放了。”他说手术后他没有认知障碍。 几家其他公司也在争相将大脑-计算机接口商业化。一个竞争对手,Synchron,正在开发一种类似支架的设备,它被插入颈静脉并推上去,以便它靠在大脑上。这家位于纽约的公司在2019年植入了其第一位受试者,并且自那以后已经表明该设备是安全的,并且已经使瘫痪的人能够浏览网页并进行在线购物和银行业务。FDA还没有批准任何BCI;它们都还是实验性的。 阿尔堡承认他在使用该设备时遇到了一些问题。“我不希望人们认为这是旅程的终点。还有很多工作要做,”他说。“但它已经改变了我的生活。”
劲爆Twitter 帖子:微软CEO放炮了:“就算OpenAI明天消失了,我们也有备无患。”
马斯克在X上对帖子进行了回应,帖子中提到了微软CEO萨蒂亚·纳德拉在11月份短暂撤换萨姆·奥特曼期间,对董事会成员所做的一番霸气声明。 这句引人注目的话,摘自马斯克与奥特曼关于这家AI公司盈利性质的诉讼案的第9页。马斯克在2015年帮助创建了这家公司。
Meta 推出SceneScript,一种全新的3D场景重建方式
在今天的科技领域,元实验室研究团队宣布了一个名为“场景脚本”的创新方法,旨在重塑环境布局和表示物理空间的布局。这种方法通过模拟训练,利用了仅供学术使用的Aria Synthetic Environments数据集。想象一下,如果有一副既时尚又轻便的眼镜,能够结合上下文化的人工智能和显示屏,为你实时提供信息并在你日常生活中主动提供帮助,那将会是怎样的体验?为了实现这样一副增强现实(AR)眼镜,系统必须能够理解你的物理环境布局和世界的3D形状。这种理解能让AR眼镜根据你的个人情境定制内容,如将数字叠加物无缝融合进你的物理空间,或者在你探索陌生地点时提供逐步导航帮助。 然而,构建这些3D场景表示是一项复杂的任务。现有的混合现实头盔,如Meta Quest 3,是基于来自摄像头或3D传感器的原始视觉数据来创建物理空间的虚拟表示。这些原始数据被转换成描述环境独特特征的一系列形状,如墙壁、天花板和门。通常,这些系统依靠预定义的规则将原始数据转换成形状。然而,这种启发式方法经常会导致错误,特别是在具有独特或不规则几何形状的空间中。 元实验室研究团队今天介绍的场景脚本,采用了一种全新的生成场景布局和表示场景的方法。与其使用硬编码规则将原始视觉数据近似转换成房间的建筑元素,场景脚本则是训练直接推断出房间的几何形状。这导致了一种紧凑的物理场景表示形式,不仅减少了内存需求,还能产生类似于可伸缩矢量图形的清晰几何形状,并且重要的是,这种表示形式易于理解和编辑。 场景脚本是如何训练的?大型语言模型(LLMs),如Llama,使用一种称为下一令牌预测的技术,模型根据之前的单词预测句子中的下一个单词。例如,如果你输入“这只猫坐在……”模型可能会预测下一个单词是“垫子”或“地板”。场景脚本利用了LLMs所使用的同一概念。然而,它不是预测一般的语言令牌,而是预测下一个建筑令牌,如“墙”或“门”。 通过提供大量的训练数据,场景脚本模型学习如何将视觉数据编码成场景的基本表示,然后解码成描述房间布局的语言。这使得场景脚本能够从视觉数据中解读和重构复杂环境,并创建有效描述其分析场景结构的文本描述。 培训场景脚本所面临的独特挑战在于,尽管LLMs依赖于从网络上公开可用的文本来源获取的大量训练数据,但对于训练端到端模型所需的物理空间的规模,尚不存在此类信息库。因此,元实验室研究团队不得不寻找另一种解决方案。他们创建了一个名为Aria Synthetic Environments的室内环境合成数据集,该数据集包含100,000个完全独特的室内环境,每个环境都使用场景脚本语言描述,并配有模拟的场景漫游视频。 这种方法使得场景脚本模型可以完全在模拟条件下,保护隐私的情况下进行训练。然后,可以使用来自项目Aria眼镜的实际世界视频来验证模型的泛化能力。 去年,他们将Aria Synthetic Environments数据集提供给学术研究人员,希望这将有助于加速这一令人兴奋的研究领域内的公共研究。