首个自回归的多模态模型,能够理解和生成图像、文本、音频和动作。为了统一不同的模态,将输入和输出——图像、文本、音频、动作、方框等,标记化到一个共享的语义空间中,然后使用单一的编码器-解码器变换模型来处理它们。由于训练如此多样化的模态极其困难,提出了各种架构改进以稳定模型。从零开始训练的模型,在一个大型多模态预训练语料库上进行训练,该语料库来源于多种渠道,使用多模态去噪目标混合。为了学习广泛的技能,比如遵循多模态指令,构建并微调了一个由120个现有数据集组成的集合,其中包括提示和增强。通过单一的统一模型,统一输入输出 2 在 GRIT 基准测试中实现了最先进的性能,并在包括图像生成与理解、文本理解、视频和音频理解以及机器人操控等30多个基准测试中取得了强有力的成绩。 它基于区区70亿参数构建,并经过大量多模态数据的精心训练(包括10亿图像-文本配对、1万亿文本标记,以及大量的视频、图像和3D内容)。在超过35个不同的基准测试中表现出色,统一输入输出 2 不仅仅是人工智能领域的一步,而是一大跃进,展示了多模态训练在理解和生成复杂、跨媒介内容方面的巨大潜力。 所有模型发布给研究社区。 详细的区看看: https://unified-io-2.allenai.org/ 和 https://github.com/allenai/unified-io-2
AI技术已经发现了一种新材料,可以在电池制造中减少对锂的需求
通过人工智能(AI)和超级计算的协同作用,科学家们发现了一种新物质,这种物质有望在电池中减少锂的使用。 这项发现由微软和太平洋西北国家实验室(PNNL)共同完成,后者是美国能源部的一部分。科学家表示,这种材料有潜力将锂的使用量减少高达70%。 自从这种新材料被发现以来,它已被用来为一个灯泡供电。 微软的研究人员利用AI和超级计算机,从3200万种潜在的无机材料中筛选出18种有前途的候选物质,这一过程不到一周就完成了 —— 使用传统实验室研究方法可能需要20多年。 从构想到开发出工作原型电池的过程不到九个月。 这两个机构通过使用先进的AI和高性能计算实现了这一目标,后者结合了大量计算机来解决复杂的科学和数学任务。 微软执行副总裁 Jason Zander 告诉BBC,该科技巨头的使命之一是“将接下来的25年压缩成250年的科学发现”。 “我们认为这样的技术将帮助我们实现这一目标。我认为这是未来进行这类科学研究的方式,”他说。 锂的问题 锂常被称为“白金”,因其市场价值和银白色。它是电动汽车(EVs)到智能手机等一切设备中可充电电池(锂离子电池)的关键组成部分。 随着对该金属的需求激增,以及对电动汽车的需求上升,根据国际能源署的说法,世界可能在2025年就面临材料短缺。 美国能源部预计,到2030年,锂离子电池的需求量将增加十倍,因此制造商正在不断建设电池厂以跟上需求。 锂矿开采可能引起争议,因为它可能需要数年时间才能发展,对环境产生重大影响。提取这种金属需要大量的水和能源,这个过程可能在景观中留下巨大的疤痕,并产生有毒废物。 伦敦帝国理工学院化学系的电池研究团队负责人 Nuria Tapia-Ruiz 博士表示,任何含有较少锂并具有良好储能能力的材料都是锂离子电池行业的“圣杯”。 “AI和超级计算将成为电池研究人员在未来几年的关键工具,以帮助预测新的高性能材料,”她说。 但斯特拉斯克莱德大学化学工程学讲师 Edward Brightman 博士表示,这项技术需要“小心对待”。 “它可能会提出似是而非的结果,或者看起来很好的结果,然后被证明要么是已知的材料,要么是无法在实验室合成的材料,”他说。 这种AI衍生的材料,目前仅被称为N2116,是一种固态电解质,科学家已经将其从原材料测试到工作原型。 由于固态电池比传统的液体或凝胶状锂更安全,它有潜力成为一种可持续的能源储存解决方案。 在不久的将来,充电更快的固态锂电池承诺将具有更高的能量密度,并具有数千次的充电周期。 这种AI有何不同? 这项技术的工作方式是使用微软创建的一种新型AI,该AI经过分子数据训练,可以实际上解析化学。 “这种AI都是基于科学材料、数据库和属性,”Zander解释说。 “这些数据非常可靠,可用于科学发现。” 在软件缩减了18个候选者之后,PNNL的电池专家们接着审查了这些候选物质,并挑选了最终在实验室中工作的物质。 PNNL的 Karl Mueller 说,微软的AI洞察指引他们“比正常工作条件下更快地进入潜在的有益领域”。 “修改、测试并调整这种新材料的化学成分,并迅速评估其作为工作电池的技术可行性,展示了先进AI加速创新周期的潜力,”他说。
AI 魔镜,魔镜,告诉我,谁是世界上最美的人?
加拿大公司NuraLogix在2024年CES展会上展示了一款通过面部诊断疾病的新设备 —— “魔镜” Anura MagicMirror。《Rambler》引用CNET的报道这一消息。 这款设备是一面带有21.5英寸屏幕的台式镜子,配备了摄像头和其他传感器。它通过扫描人的面部来分析皮肤下血管中的血液流动。这是通过专利的透皮光学成像技术实现的。 机器学习算法根据获得的数据分析超过100种健康参数。 Anura MagicMirror能够提供关于血压、体质指数、心率变异性、脉搏率、呼吸率和面部皮肤年龄的信息。该设备还能提供糖尿病、心脏病、中风、高血压、脂肪肝等疾病的风险评估。Anura MagicMirror还提供心理健康风险评估,例如检测焦虑和抑郁的迹象。 扫描一张脸只需30秒,用户随后就可以收到潜在病理的信息。 该设备的发布日期和成本尚未公布。Anura MagicMirror很可能会被用于医院候诊室和养老院。
Nvidia 推出了一款新型芯片,专为在家中运行人工智能而设计。看来,Intel 和 AMD 这样的竞争对手也开始紧随其后了
去年 Nvidia 成为人工智能热潮的中心,原因是其昂贵的服务器图形处理器(例如 H100)对于训练和部署像OpenAI的ChatGPT这样的生成型AI至关重要。现在,Nvidia 正在发挥其在消费者GPU领域的优势,推广所谓的“本地”AI,这种AI可以在家庭或办公室的个人电脑或笔记本上运行。 Nvidia 在周一宣布了三款新的显卡 — RTX 4060 Super、RTX 4070 Ti Super 和 RTX 4080 Super,价格在599至999美元之间。这些显卡具有额外的“张量核心”,专为运行生成型AI应用程序设计。Nvidia 还将为Acer、Dell和Lenovo等公司的笔记本电脑提供显卡。 Nvidia 企业级GPU的需求激增,每个价格高达数万美元,通常以八个GPU一起工作的系统形式出现,这导致Nvidia整体销售额激增,市值超过1万亿美元。 对于个人电脑的GPU长期以来一直是Nvidia的主要产品,主要用于运行视频游戏,但公司表示,今年的显卡在运行AI模型时不需要将信息发送回云端,这方面已经有所改进。 公司表示,新的消费级图形芯片主要用于游戏,但仍然可以快速处理AI应用。例如,Nvidia 表示,RTX 4080 Super生成AI视频的速度比上一代型号快150%。公司最近宣布的其他软件改进将使大型语言模型处理的速度提高五倍。 Nvidia 的产品管理高级总监 Justin Walker 在新闻发布会上告诉记者:“随着1亿RTX GPU的出货,它们为强大的PC提供了大量安装基础,用于AI应用。” Nvidia 预计,在未来一年中将出现新的AI应用,以利用增加的计算能力。预计微软将在今年晚些时候发布新版本的Windows操作系统 — Windows 12,该系统将进一步利用AI芯片。 Walker表示,新芯片可用于在Adobe Photoshop的Firefly生成器上生成图像,或在视频通话中去除背景。Nvidia 也在创建工具,允许游戏开发者将生成型AI集成到他们的游戏中,例如,生成非玩家角色的对话。 在Edge与Server方面,Nvidia 本周的芯片公告显示,尽管它一直是与大型服务器GPU最相关的公司,但它也将与Intel、AMD和高通在本地AI领域竞争。这三家公司都已经宣布了将为所谓的“AI PC”提供动力的新芯片,这些芯片专门用于机器学习。 随着科技行业正在探索部署生成型AI的最佳方式,这成为Nvidia的举措的背景,这种AI需要大量的计算能力,并且在云服务上运行成本非常高。 微软和Nvidia的竞争对手正在推广的一种技术解决方案是所谓的“AI PC”或有时称为“边缘计算”。这种方式不是通过互联网使用强大的超级计算机,而是设备内部拥有更强大的AI芯片,它们可以运行所谓的大型语言模型或图像生成器,尽管会有一些权衡和缺陷。 Nvidia 提出的应用程序可以使用云模型来处理复杂问题,同时使用本地 AI模型来执行需要快速完成的任务。 Nvidia 的 Walker 说:“云中的Nvidia GPU可以运行非常大的大型语言模型,并使用所有那些处理能力来支持非常大的AI模型,同时,您PC中的RTX张量核心将运行更具延迟敏感性的AI应用。” 公司表示,新的显卡将符合出口管制规定,可以运送到中国,为无法获得Nvidia最强大的服务器GPU的中国研究人员和公司提供了一种选择。
“Tab” 的新型可穿戴人工智能项链
最新热点来了,快来围观!Avi Schiffmann 推出了一款名为 “Tab” 的新型可穿戴人工智能项链,号称想成为你的私人AI小伙伴。Tab 这个声控项链会倾听你的对话,并对你的生活和人际关系提供洞察。最近,它刚刚募集到190万美元的资金,听起来是不是超酷的样子? 所以这是个什么鬼东西呢? Tab 就像一个永远在线的AI朋友,通过不断的倾听来了解用户的生活,取代了传统的生活指导和心理治疗。 那它到底是怎么工作的呢? Tab 就像一个挂在脖子上的侦探,记录你聊天的声音。它使用像ChatGPT这样的AI技术来记录这些对话,并追踪有关你的细节。Tab的目标是学习你的生活背景,并在你不提出具体问题的情况下,提供个性化的洞察。 与Humane的Ai别针和Rabbit的R1不同,Avi的Tab采取了不同的方式。它并不是与手机竞争,而是让AI变得更贴近你:成为你的伴侣、你的助手和你的向导。 Schiffmann认为,Tab通过始终在那里的方式,可以比常规应用程序建立更深的联系。他设想它会演变成一种虚拟的治疗师、教练或是你信赖的人。为了平衡隐私和收集有用数据,Tab只记录声音,不录像。 如果Tab运作良好,它可能会开启一种新的、环境感知型的辅助AI方式。与其需要向聊天机器人提问,Tab旨在更自然地理解你的生活模式和需求。这不仅引发了有关持续监控的有趣问题,还可能带来自我改善和情感支持等潜在优势。 虽然还很新,但Tab代表了一种将AI视为增强生活的伙伴而非仅仅是工具的愿景。它的影响涵盖了心理健康、生产力和人际关系等多个领域。Tab的推出将是被动、亲密AI在人们日常生活中的一个重要测试案例。
CES 2024:LG专注于新产品的人工智能变革
LG是2024年CES上最早展示其产品的公司之一。从一个范式转变开始,它重申了去年从一家消费电子公司转变为专注于智能生活解决方案的公司这一变化。 不同的AI 展示的第一个细节是LG对我们所处的人工智能历史节点的认识。对于公司而言,他们寻求的是AI能够创造出切实的好处。为此,他们正在重新定义AI为“亲情智能”,并将这一变化应用于改善消费者体验。 全屏 去中心化的智能家居 LG首次应用这一变化的地方之一是在家庭中。该公司通过其LG ThinQ产品线展示了视角的转变,其中AI实现了对最终用户的服务和产品的优化。从购买过程开始,用户通过AI生成购买和使用建议,作为LG ThinQ Up 2.0的一部分。 全屏 LG的变化也在于用户数据的安全性,这就是为什么该公司的智能产品将需要一个新的Smart Home Hub,这是一种带有AI的设备,所有智能设备都连接到这里,它们使用的数据始终保存在家中,防止数据泄露。 智能家居AI代理 LG还展示了一个小型机器人,它将在家中陪伴我们。它能够识别命令并向家中的用户提供信息和提醒。如有必要,它甚至可以发出紧急电话,并能够了解家中的不同情况。 全屏 电视和webOS 在电视方面,LG首先展示了其Alpha 11处理器,其性能是过去的4倍,公司将继续为其设备带来更多功能。同时,该公司庆祝了webOS的十周年,这是其电视的操作系统,通过它,公司设备能够展示网络内容。在此之后,LG承诺从今年开始,所有设备将有5年的webOS更新,以及Chromecast的到来。 然而,真正的惊喜是LG Signature OLED T,这是一款无线4K OLED电视,它力求成为我们家庭空间的设计对象,这归功于其可以变成透明的屏幕。 全屏 软件定义车辆 最后,LG展示了其对汽车行业的愿景,该愿景旨在将驾驶体验转变为带轮子的生活空间。这也基于识别用户的AI,使驾驶体验更加舒适和辅助。从在汽车中使用Netflix和YouTube进行视频流媒体到为孩子们在车后部玩视频游戏等。
AI的Killer App还缺席
想想看,ChatGPT差点没能成为现实,这真是有些奇怪。在2022年11月推出前,OpenAI的联合创始人兼首席科学家伊利亚·苏茨凯弗对其准确性并不感冒。公司内部的其他人担心,这并不算是什么大的进步。从本质上看,ChatGPT更像是一次混搭而非革命。它的驱动核心是GPT-3.5,这是OpenAI几个月前开发的一款大型语言模型。但这个聊天机器人加入了几个吸引人的调整——特别是更加对话化、更加贴切的回应——这一切汇集成了一个容易上手的包装。“它既能干又方便,”苏茨凯弗说,“这是AI进步首次对AI领域之外的人可见。” ChatGPT引发的热潮尚未结束。“AI是唯一的玩家,”苏茨凯弗说,“它是科技界的最大事物,而科技是经济中最大的事物。我认为,AI的潜力还会持续给我们带来惊喜。” 但现在我们已经见识了AI的能力,也许当务之急是弄清楚它到底是用来干什么的。OpenAI在没有明确的使用目的的情况下构建了这项技术。当他们发布ChatGPT时,研究人员似乎在说:这里有一个东西,想怎么用就怎么用。从那以后,大家都在努力弄清楚这意味着什么。 “我发现ChatGPT很有用,”苏茨凯弗说。“我经常用它来做各种随机的事情。”他说他用它来查找某些词汇,或者帮助自己表达得更清楚。有时他用它来查事实(尽管它不总是准确的)。OpenAI的其他人用它来规划假期(“世界上最佳的三个潜水点是哪些?”)或编程提示,或IT支持。 有用,但并非改变游戏规则的。上述大多数例子都可以用现有工具,比如搜索来完成。与此同时,据说谷歌内部的员工对公司自己的聊天机器人Bard(现在由谷歌的GPT-4竞争对手Gemini提供支持,上个月发布)的实用性表示怀疑。“我仍在思考的最大挑战是:LLM(大型语言模型)到底真正有用在哪里,就实用性而言?”谷歌Bard的用户体验主管凯西·珀尔在8月份Discord上写道,据彭博社报道。“比如真正做出改变。待定!” 没有杀手级应用,那种“哇”效应就会逐渐消退。红杉资本的统计数据显示,尽管AI应用如ChatGPT、Character.ai和Lensa(后者让用户创造风格化的(且性别歧视的)自画像)拥有病毒式的推出,但它们流失用户的速度比YouTube、Instagram和TikTok等现有流行服务要快。 “消费科技的规律仍然适用,”贝纳奇说。“会有很多实验,很多东西在几个月的炒作之后就会沉寂。” 当然,互联网的早期也充满了失败的尝试。在它改变世界之前,点 com 泡沫以崩溃告终。总有可能,今天的生成型AI会逐渐消失,被接下来的大事件所取代。 无论发生什么,现在AI已经完全进入主流,小众问题已经成为每个人的问题。正如舍弗所说:“我们将被迫以前所未有的方式解决这些问题。”
微软任命迪·坦普尔顿为OpenAI董事会观察员
微软公司高管迪·坦普尔顿近日加入了OpenAI董事会,成为非投票观察员。据知情人士透露,这是在短暂罢免该初创公司首席执行官后,董事会进行的一系列重大调整的一部分。 根据她的LinkedIn资料,坦普尔顿在微软工作超过25年,目前是公司技术与研究合作及运营的副总裁。据这位不愿透露姓名的知情人士称,她已开始参加董事会会议。OpenAI和微软均拒绝对此置评。就在OpenAI董事会在11月撤换首席执行官萨姆·奥特曼后几天,这家初创公司同意让他重新上任,并更换除一名以外的所有董事,同时给予微软——它的最大投资者——一个非投票观察员席位。OpenAI目前的董事包括Salesforce前联合首席执行官布雷特·泰勒,前美国财政部长拉里·萨默斯,以及上一届董事会成员、问答网站Quora首席执行官亚当·丹吉洛。 奥特曼此前表示,新董事会将“很快”被选出。他未具体说明最终将有多少人加入该团队,但表示人数将“大幅增加”。OpenAI因最初董事会中没有女性成员而受到一些批评。 根据她的LinkedIn资料,坦普尔顿于1998年加入微软,是该公司新西兰办公室的首位女性技术员工。在她目前的职位上,她向微软首席技术官汇报工作,并领导一个团队管理公司的一些技术合作伙伴,包括与OpenAI的合作。 此前有报道称,坦普尔顿是董事会角色的候选人之一。 微软已承诺在OpenAI投资约130亿美元,并将其产品整合到核心业务中,迅速成为大型科技公司中的AI领导者。但微软和其他投资者一样,对OpenAI董事会决定撤换奥特曼感到措手不及。 11月底,奥特曼重返职位后,微软总裁布拉德·史密斯告诉记者,OpenAI公司治理的变化“让我们更有信心”。但微软在董事会上担任观察员角色,也可能增加对其与这家初创公司紧密关系的审查。美国和英国监管机构正在审查微软与OpenAI的合作关系,以及这是否可能违反反垄断法。
Meta的Fairy:快速并行化指令引导的视频到视频合成
Fairy是一种简约而健壮的图像编辑扩散模型的改进版本,专为视频编辑应用进行了增强。我们的方法核心在于锚点式跨帧注意力机制,这是一种隐式地在帧之间传播扩散特征的机制,确保了卓越的时间连贯性和高保真合成。Fairy不仅解决了之前模型的局限性,如内存和处理速度,还通过一种独特的数据增强策略改善了时间一致性。这种策略使模型在源图像和目标图像中都对仿射变换保持等变性。Fairy的效率惊人,能在短短14秒内生成120帧512×384视频(30 FPS下的4秒时长),比之前的作品至少快了44倍。一项涉及1000个生成样本的全面用户研究证实,我们的方法提供了优越的质量,明显胜过现有的方法。 来这里看详细内容 https://fairy-video2video.github.io/
Frontier超级计算机达成新高峰:利用AMD技术实现1万亿参数的大型语言模型运行
“前沿”超级计算机,目前计算能力的霸主,在人工智能领域取得了显著成就。这个庞然大物位于田纳西州橡树岭国家实验室内,由能源部监管,它成功运行了一个1万亿参数的大型语言模型(LLM),与先进的AI模型如ChatGPT-4不相上下。 AMD技术助力”前沿”超级计算机“前沿”的非凡成就证明了其强大的尖端技术。这台超级计算机是一台Exascale(百亿亿次)机器,由AMD技术驱动,包括第三代EPYC “Trento” CPU和Instinct MI250X AI GPU加速器。它拥有惊人的8,699,904核心,性能达到1.194 Exaflop/s。 “前沿”超级计算机的架构优势这台超级计算机在Top500.org榜单上的杰出地位得益于其先进的HPE Cray EX架构和Slingshot-11互联。”前沿”不仅在原始计算能力上出类拔萃,也是效率和技术创新的典范。 1万亿参数LLM运行成功的背后近期在训练LLM方面的突破归功于对超参数调整和训练过程的优化。”前沿”团队测试了多种模型,参数规模分别为220亿、1750亿和现在的1万亿,显示了他们努力的深度。这个记录是使用3000个较老型号的Instinct MI250X AI GPU加速器设定的。然而,”前沿”总共包含了37000个这样的加速器,预示着未来更多开创性成就的可能。