好消息,潮人们!微软正准备给它们的Surface系列带来全新的人工智能(AI)特性。据Windows Central报道,未透露姓名的消息源透露,即将上市的Surface Pro 10和Surface Laptop 6将搭载下一代神经处理单元(NPU),并提供基于Intel和Arm的选项。 根据Windows Central的报道,微软的Arm-based设备将由高通的新Snapdragon X芯片提供动力。这些电脑,代号为CADMUS,据说是为了运行微软在未来Windows版本中打包的AI功能而设计的。它们还将带来与苹果硅片相媲美的性能、电池寿命和安全性能提升。 而Intel版本的设备,据说将配备该公司最新的14代芯片。 Surface Pro 10据说将配备更亮的显示屏,支持HDR,并具有防眩光涂层,分辨率可选为2160 x 1440或2880 x 1920。它可能还会有圆润的边角,就像Microsoft Surface Laptop Studio系列一样,并支持一种新型Type Cover,上面有一个打开Windows Copilot的按钮。 至于Surface Laptop 6,Windows Central报道称,较小的型号将配备略大的13.8英寸显示屏(从Surface Laptop 5的13.5英寸升级而来),而15英寸型号保持不变。像Surface Pro 10一样,该设备也将配备圆润的显示屏和更薄的边框。它还可能拥有许多新端口,包括两个USB-C、一个USB-A和一个Surface Connect充电端口。该设备还传闻将配备有触感反馈的触控板和一个专用于Windows Copilot的键盘按钮。 微软预计将在明年某个时候发布Surface Pro 10和Surface Laptop 6。但Windows Central报道说,更显著的Surface Pro设计变化可能会在2025年到来,届时还将有新款的Surface Laptop Studio推出。
太空中的人形机器人:探索新疆界
NASA的人形机器人Valkyrie,身高6英尺2英寸(188厘米),体重300磅(136公斤),是一个令人印象深刻的形象。这个以北欧神话中的女性形象命名的机器人,正在德克萨斯州休斯顿的约翰逊太空中心进行测试。NASA表示,Valkyrie旨在能够在“退化或受损的人类工程环境”中操作,比如遭受自然灾害的地区。 但像Valkyrie这样的机器人也有朝一日在太空中运作的潜力。人形机器人通常具有躯干、头部、两条手臂和两条腿,看起来像人类。工程师们相信,有了合适的软件,人形机器人最终将能够类似于人类地功能,并使用相同的工具和设备。 NASA灵巧机器人团队领导Shaun Azimi表示,太空中的人形机器人可能会处理像清洁太阳能板或检查宇宙飞船外部故障设备等危险任务,从而让宇航员可以优先考虑探索和发现。 Azimi说:“我们并不是想要取代人类船员,我们真正想做的是将那些枯燥、肮脏和危险的工作从他们的肩膀上卸下来,让他们专注于那些更高级别的活动。” NASA正在与诸如德州奥斯汀的Apptronik这样的机器人公司合作,了解为地面目的而开发的人形机器人如何能够造福于未来的太空人形机器人。 Apptronik正在开发Apollo,这是一个人形机器人,其地球上的任务将包括在仓库和制造工厂中移动包裹、堆叠托盘和执行其他供应链导向的任务。该公司计划在2025年初开始向公司提供这些人形机器人。 Apptronik首席技术官Nick Paine表示,Apollo在耐力方面相较于人类同行具有明显的优势。Paine说:“我们的目标是让这个系统每天在线22小时。这有一个可更换的电池,所以你可以工作四小时,更换电池,然后在非常短的时间内继续工作。” Apptronik首席执行官Jeff Cardenas表示,随着新软件和发展提高Apollo的能力,其潜力无限。“我们的方法是从仓库和制造车间开始,但然后可以进入零售……到递送,更多地进入我们所说的非结构化空间。”Cardenas说。 Azimi认为,在未来的岁月中,这些“非结构化空间”可能包括太空。“像Apollo这样的机器人是以模块化为设计理念,以适应多种应用场景。”Azimi说。“这就是NASA真正试图获取的洞察力——看看关键的差距在哪里,我们将来需要在哪些方面进行投资,以将一个地面系统带入太空环境,并获得在太空操作的认证。”
微软的 Copilot 已经如同 ChatGPT 一样,成为了安卓平台上的一款应用程序
微软近期悄悄推出了专为安卓系统设计的 Copilot 应用。这款新应用已在谷歌商店上架,让用户能够直接使用微软强大的 AI 助手 Copilot,而无需借助 Bing 移动应用。据 Neowin 报道,Copilot 安卓版已经上线近一周,但 iOS 版本目前尚未推出。 微软在安卓上的 Copilot 应用与 ChatGPT 非常相似,提供聊天机器人功能、DALL-E 3 图片生成,以及草拟电子邮件和文档的能力。更重要的是,它还免费提供了 OpenAI 最新的 GPT-4 模型,这是使用 ChatGPT 所需付费的功能。 安卓上的 Copilot 界面由 Microsoft 提供。Copilot 应用的推出是在微软将 Bing Chat 更名为 Copilot 一个多月后进行的。微软最初是在今年早些时候通过其必应搜索引擎发起了对 AI 的大力推广,将类似于 ChatGPT 的界面整合到搜索结果中。虽然该功能仍然可用,但微软已经放弃了 Bing Chat 的品牌,让 Copilot 成为了更独立的体验,并且在其专属域名 copilot.microsoft.com 上也有所体现,这与 ChatGPT 类似。 对于 Copilot 来说,推出移动应用似乎是扩展其独立体验的下一个合乎逻辑的步骤,尤其是在 Bing Chat…
游戏NPC智能化:生成式AI如何改变虚拟世界
人工智能在游戏行业的快速发展,不仅会重塑人类的游戏体验,也将彻底改变游戏中的非玩家角色(Non-Player Character, NPC)。作为游戏世界的常见角色,NPC至今主要还是依赖有限的脚本而运作——想想你进入商店时店主的反应。但这一切即将被人工智能改写。 微软Xbox游戏机最近与Inworld人工智能公司的合作就是一个典型的例子。通过这一合作,他们期望NPC能够“突破预设的角色局限,适应玩家的行为,从互动中学习,为游戏世界贡献活力”。人工智能赋能的NPC不仅是技术上的飞跃,更代表着玩家互动模式的转变。 这对游戏公司和开发者而言也是一个巨大的商机。从有限的脚本对话转变为动态的、由玩家驱动的叙事,必将大幅提高游戏的沉浸感,增加可玩性,延长用户粘性,带来更高收入。 作为芯片和游戏产业的成功案例,Nvidia公司的高管们也清楚地意识到,人工智能对游戏的重塑才刚刚开始。开发者们都对人工智能如何影响游戏开发过程充满兴趣。赋能NPC就是一个关键的测试案例。 我们预计人工智能将首先在游戏制作中产生重大影响。在其他专业任务中,诸如使用PowerPoint软件创建演示文稿和起草演讲稿之类的工作,人工智能已经能在几分钟内完成几天的工作量。早期的故事板设计和NPC对话创作等就是人工智能的得意之处,这将释放开发者的时间,让他们更专注于游戏中沉浸感和创造性的部分。 近期研究显示,人工智能已经能承担游戏内容的预制作和规划等任务,未来它在角色、对话和环境开发中的角色将更大。业内高管预计,5至10年内人工智能将承担超过一半的游戏开发工作,这可能不会降低制作成本,但会使游戏交付速度更快,质量更高。 最终,泛用人工智能的普及应该允许游戏开发过程包含普通玩家的内容创作。这意味着更多游戏将提供所谓的“创造模式”,允许用户生成更多内容,也就是“玩家驱动叙事”。 人工智能不会在短期内解决人才短缺的问题,但它可以让开发者有更多时间进行创造性的工作,并学习如何最好地使用这项新技术。正如微软Copilot人工智能助手研究所显示,72%的人工智能用户表示它可以提高他们的生产力。 总体而言,尽管目前游戏行业中人工智能的应用还比较初级,但我们预计在未来几年中,围绕泛用人工智能的学习将持续推进。我相信,为适应人工智能的优势和劣势,我们需要全新的游戏设计。
苹果公司最新力作——「Ferret」机器学习模型,开源界的新星登场
试试这里 https://github.com/apple/ml-ferret 苹果公司与康奈尔大学的研究人员在10月悄然推出了一个开源的多模态大型语言模型(LLM),名为「Ferret」。这个研究项目在GitHub上的发布最初并未引起太多关注,没有任何宣传或庆祝活动。10月30日,Ferret的代码连同Ferret-Bench一起发布,而其检查点版本则在12月14日推出。 起初,Ferret的发布并未引起太多关注,但据VentureBeat报道,到了周六,情况发生了变化。一家专注于医疗AI的非营利组织的运营者Bart De Witte在X上发帖,称这个被“错过”的发布是“苹果对有影响力的AI研究的承诺的证明”。 Ferret以非商业许可证的形式开源,因此目前无法商业化。然而,将来它可能以某种形式被应用于苹果的产品或服务中。 苹果AI/ML研究科学家Zhe Gan在10月的一条推文中解释了Ferret的用途,称其为一个可以在图像中“任何地方、任何粒度上指代和定位任何事物”的系统。它还可以使用图像中任何形状的区域来实现这一功能。 简单来说,这个模型可以检查在图像上绘制的区域,确定其中对用户查询有用的元素,识别它,并在检测到的元素周围绘制边界框。然后,它可以将识别出的元素作为查询的一部分,以典型的方式做出响应。 例如,如果在图像中突出显示一个动物并询问LLM这是什么动物,它可以确定动物的种类,并且用户指的是从一群动物中区分出的个体动物。然后,它可以利用图像中检测到的其他项目的上下文提供进一步的响应。 这一发布对研究人员来说很重要,因为它表明苹果希望在其AI工作方面更加开放,而不是像以往那样保密。 苹果还面临着基础设施问题,尽管它正在努力增加拥有的AI服务器数量,但目前可能还没有足够的规模来与ChatGPT等对抗。尽管苹果可以与其他公司合作来扩大其能力,但它采取的另一种方式是发布一个开源模型。 Github发布中的一个有趣元素是,Reddit的r/Apple注意到Ferret是“在8个具有80GB内存的A100 GPU上训练的”。考虑到苹果与Nvidia GPU支持的历史,这被视为对GPU制造商的罕见承认。
谷歌DeepMind使用了一个大型语言模型,成功破解了一个未解的数学难题
这里是我尝试用中文重写该文章的主要内容: 谷歌DeepMind使用了一个大规模语言模型来破解一个著名的纯数学未解难题。Nature杂志今天发表的一篇论文中,研究人员称,这是第一次使用大规模语言模型发现一个长期科学难题的解决方案,产生了可验证和有价值的新信息,这些信息以前不存在。DeepMind研究副总裁Pushmeet Kohli说:”它不在训练数据中,它甚至是未知的。” 大规模语言模型以捏造事实而闻名,而不是提供新事实。谷歌DeepMind的新工具FunSearch可能改变这种情况。它表明,如果以正确的方式引导它们,并丢弃其产出的大部分内容,它们确实能进行发现。 FunSearch继续了DeepMind使用AI在基础数学和计算机科学领域进行的一系列发现。首先AlphaTensor找到了一种加速许多不同类型代码的核心计算的方法,打破了50年的记录。然后,AlphaDev找到了使每天使用数万亿次的关键算法运行更快的方法。 然而,这些工具没有使用大规模语言模型。 基于DeepMind的游戏AI AlphaZero构建,这两个工具通过将数学问题视为围棋或国际象棋难题来解决它们。问题是它们局限于自己的领域,DeepMind研究员Bernardino Romera-Paredes说:”AlphaTensor在矩阵乘法方面表现极佳,但基本上完成不了其他任务。” FunSearch采用了不同的方法。它结合了一个名为Codey的大型语言模型,这是谷歌PaLM 2的调整版本,用于计算机代码,以及其他系统来拒绝不正确或无意义的答案并再次提供良好答案。 DeepMind研究员Alhussein Fawzi说:”老实说,我们有一些假设,但我们不确定为什么它有效。在项目开始时,我们不知道这是否会奏效。” 研究人员首先用Python这种流行的编程语言概述了他们想要解决的问题。 但是他们省略了程序中将指定如何解决问题的代码行。这就是FunSearch的用武之地。它让Codey填补空白,实际上是建议代码来解决问题。 然后第二个算法检查和评分Codey的建议。最佳建议保存在Codey中,即使它们还不正确,Codey也会再次尝试完成程序。Kohli说:”许多内容毫无意义,一些内容有意义,还有一些真正鼓舞人心。你要拿这些真正鼓舞人心的答案,说‘好的,把这些再重复一遍’。” 经过几百万次建议和整个过程的几十次重复(用了几天时间),FunSearch能够想出解决盖集问题的代码,这涉及找到某种集合的最大大小。想象在毛毡纸上绘制点。盖集问题就像试图弄清楚在三个点不形成一条直线的情况下,你可以放下多少个点。 这非常简陋,但很重要。数学家甚至不确定如何解决这个问题,更不用说解决方案是什么了。 (它也与AlphaTensor找到加速方法的矩阵乘法计算有关。)UCLA的Terence Tao获得了数学顶级奖项,包括Fields Medal(数学界的诺贝尔奖)。他在2007年的一篇博文中称盖集问题为”也许是我最喜欢的开放问题”。 Tao对FunSearch能做什么很感兴趣。他说:”这是一个有前途的范式。这是利用大语言模型的力量的有趣的方法。” 与AlphaTensor相比,FunSearch的一个关键优势是,它理论上可以用于寻找各种问题的解决方案。 这是因为它生成代码,生成解决方案的配方,而不是解决方案本身。 不同的代码将解决不同的问题。 Fawzi说,与奇怪的数学解决方案相比,配方往往更清晰易懂。 为了测试其通用性,研究人员使用FunSearch解决另一个硬数学问题:装箱问题,其中试图将项目尽可能少地装入箱子。这对计算机科学中的一系列应用非常重要,从数据中心管理到电子商务。 FunSearch提出的解决方案比人类设计的解决方案更快。 Tao说,数学家“仍在努力弄清楚如何将大型语言模型以利用它们的力量而又能减轻它们的缺点的方式融入我们的研究工作流程。这无疑表明了一种可能的前进道路。”
大脑晶体管来袭!仿人智能,我们的科技未来
受人脑的启发,研究人员开发了一种新的突触晶体管,具有更高级别的思维能力。 这种器件由西北大学、波士顿学院和马萨诸塞理工学院(MIT)的研究人员设计,它可以同时处理和存储信息,就像人脑一样。在新的实验中,研究人员证明了晶体管可以超越简单的机器学习任务来分类数据,并且有执行联想学习的能力。 尽管以前的研究利用类似的策略开发了类似大脑的计算设备,但那些晶体管无法在低温环境之外工作。相比之下,这种新器件在室温下稳定。它也以快速的速度运行,消耗非常少的能量,并在断电后保留存储的信息,这使它非常适合实际应用。 该研究发表在Nature杂志上。 转推此语: 我们必须重新思考计算硬件,特别是用于AI和机器学习任务。” Mark Hersam “大脑与数字计算机有着根本不同的架构,”这项研究的共同领导者西北大学的Mark C. Hersam说。“在数字计算机中,数据在微处理器和存储器之间来回移动,这会消耗大量能量并在尝试同时执行多个任务时产生瓶颈。另一方面,在大脑中,存储和信息处理是共存的,完全集成,从而达到数量级更高的能量效率。我们的突触晶体管类似地实现了并发的存储和信息处理功能,以更忠实地模拟大脑。” 在过去的几十年里,电子学领域的范式一直是利用晶体管构建一切,并使用相同的硅体系结构。您不能否认这一策略的成功,但它以高功耗为代价,特别是在当前大数据时代,数字计算有可能压垮电网的情况下。我们必须重新思考计算硬件,特别是针对AI和机器学习任务。” 为了重新思考这种范式,Hersam及其团队探索了摩尔纹理物理学的最新进展。 当两种材料堆叠在一起时,会出现新属性,这些属性不会在单层中存在。 当这些层扭曲形成摩尔纹理时,会出现前所未有的电子特性可调性。 对于这种新器件,研究人员结合了两种不同类型的原子薄材料:双层石墨烯和六角氮化硼。 当堆叠并有意扭曲时,这些材料形成了一个摩尔纹理。 通过相对于另一层旋转一层,研究人员可以在每个石墨烯层中实现不同的电子特性,即使它们仅由原子尺度的尺寸分隔。 通过正确的选择扭曲量,研究人员利用摩尔纹理物理实现了室温下的神经形态功能。 “随着扭曲作为一个新的设计参数,排列组合的数量是巨大的。” Hersam说。 “石墨烯和六角氮化硼在结构上非常相似,但差异足够大,从而产生异常强烈的摩尔纹理效应。” 为了测试晶体管,Hersam及其团队训练它识别相似但不完全相同的模式。 就在本月早些时候,Hersam推出了一种新的纳米电子器件,能够以节能方式分析和分类数据,但他的新突触晶体管将机器学习和AI推向了新的高度。 “如果AI意在模拟人类思维,最基本的任务之一就是分类数据,这仅仅是对其进行分类。” Hersam说。 “我们的目标是朝着更高级的思维推进AI技术。 现实世界的条件通常比当前的AI算法可以处理的更加复杂,所以我们在更复杂的条件下测试我们的新器件,以验证其高级功能。” 首先,研究人员向该器件显示一个模式:000(三个零)。 然后,他们要求AI识别类似的模式,例如111或101。 “如果我们训练它检测000,然后给它111和101,它知道111比101更类似于000。” Hersam解释道。 “000和111不完全相同,但都是三位数字连在一起。 识别这种相似性是一种更高级别的认知形式,称为联想学习。” 在实验中,新的突触晶体管成功识别了相似的模式,显示出其联想记忆。 即使研究人员抛出曲球——如给出不完整的模式——它仍然成功地证明了联想学习。 “当前的AI很容易混淆,在某些上下文中可能会导致重大问题。” Hersam说。 “想象一下,如果您使用的是自动驾驶汽车,天气条件恶化了。 该车辆可能无法像人类驾驶员那样正确解释更复杂的传感器数据。 但即使我们给晶体管提供的输入不完美,它也能识别出正确的响应。”
2024 十大AI预测
VideoPoet: Google的一种用于零样本视频生成的大型语言模型
介绍VideoPoet:一种能够从多种条件信号合成高质量视频及匹配音频的语言模型 今天,让我们一起来探索一下这个超酷的AI新宠——VideoPoet吧!它是一款能够从各种各样的条件信号中合成高质量视频和匹配音频的语言模型。简单来说,就像你给它一个想法,它就能给你变出一段视频来。 VideoPoet采用了仅解码器的变换器架构,这意味着它可以处理包括图片、视频、文本和音频在内的多模态输入。想一想,这就像是给它一个图像、一段文字或者一段音频,它就能根据这些信息来生成视频。 它的训练流程遵循大型语言模型(LLM)的常规,分为预训练和任务特定适应两个阶段。在预训练阶段,VideoPoet在自回归变换器框架内融合了多种多模态生成目标。这个预训练的LLM可以作为基础,适应各种视频生成任务。 更令人兴奋的是,我们还提供了实证结果,证明了这个模型在零样本视频生成方面的领先地位。特别值得一提的是,VideoPoet能够生成高保真度的动作。这意味着它不仅可以生成看起来真实的视频,而且动作还特别流畅自然。 好奇的话,不妨来看看我们的项目页面:(http://sites.research.google/videopoet/)。这里有更多关于VideoPoet的炫酷信息哦!想象一下,你只需要给它一些简单的指令,比如一段描述或一张图片,它就能为你创造出一个全新的视频世界。这对于喜欢探索新技术、喜欢创造新内容的年轻一代来说,绝对是个超级有趣的玩意儿!
比尔·盖茨盛赞AI的’革命性’及其对世界的潜在影响”
话题转向了科技界的重量级人物——比尔·盖茨。最近,这位微软联合创始人在他的博客上发表了一篇六页的文章,详细阐述了他对人工智能未来在医疗、教育和劳动力方面影响的预测。 盖茨预测,人工智能的发展即将“大幅加速”创新流程。 他在博客中写道:“创新是我们生活在过去一个世纪里得以大幅改善的原因。从电力和汽车到医药和飞机,创新让世界变得更好。” 盖茨认为,像美国这样的高收入国家距离大规模采用AI的时间大约只有18到24个月。尽管他预计非洲国家普及这项技术会有所延迟,但他预期在大约三年内看到类似程度的采用。 以下是盖茨认为AI将如何塑造不远的未来。 工作中的AI 盖茨在他的博客文章中表示,2023年是他第一次在工作中或出于“严肃原因”使用AI。 与往年相比,如今我们对AI能够独立完成哪些工作以及“在哪些工作中扮演副驾驶角色”有了更好的认识。 许多今年进行的研究试图确定哪些技能和领域将受到先进AI的最大影响。 已有证据表明,将技术作为工作中的副驾驶可以帮助员工取得进步。一些公司开发了内部AI工具来提升员工的能力,而其他公司则鼓励员工使用公开可用的技术。 在博客文章中,盖茨承认他尚未完全弄清楚如何在工作场所最好地利用AI。 他写道:“如果你还没弄清楚如何最好地利用AI,那你并不孤单。”他补充说,在工作中改变旧习惯很难。 医疗保健中的AI 盖茨还列举了全球科学家试图用AI回答的几个医学问题。 他说,这些工作雄心勃勃,处于早期发展阶段。盖茨认为,其中大部分成果不会在明年出现,有些可能根本不会离开实验室。他说,这些工作为“本十年晚些时候的巨大技术热潮”奠定了基础。 盖茨提到的一些项目正在尝试使用AI对抗抗生素耐药性,治疗高危妊娠,以及帮助人们评估自己的HIV风险。 盖茨的非营利组织——比尔及梅琳达·盖茨基金会,由他与前妻共同运营,已向全球的医学研究捐赠了数十亿美元。该基金会的工作特别专注于研究、开发和向世界上最贫穷的国家提供疫苗。 教育中的AI 盖茨此前预测,在未来五到十年内,AI可能通过提供针对学生学习风格定制的内容,从而改变教育。 他建议,AI可以通过了解激励学生的因素以及导致他们对科目失去兴趣的原因,来吸引学生。虽然他表示教师可能不会变得多余,但他们可能需要适应新技术。 在他最近的帖子中,盖茨称今天正在试点的AI教育工具“令人惊叹”。他描述了像Khanmigo和MATHia这样的工具非常了不起,并预测它们在未来几年会有所改进。 盖茨表示,他对将技术本地化到世界各地的学生非常兴奋,指出已经设计了一些具有特定文化背景的AI导师。