aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

OpenAI预计明年将推出“代理”系统

Posted on October 5, 2024October 5, 2024 by aitrendtrackers@rengongzhineng.io

OpenAI预计明年将推出“代理”系统，这是一种无需人类干预、能自主完成各种任务的独立AI模型，未来或将集成到ChatGPT中。在旧金山举行的首届OpenAI开发者日活动上，CEO山姆·阿尔特曼（Sam Altman）表示，“2025年代理系统将投入使用”，并展示了一款早期的代理能力样例：一个语音助手独立拨打电话并订购草莓。这表明AI技术正在向自主决策和行动迈进。 OpenAI解释称，人工智能通用技术（AGI）的发展分为五个阶段。目前我们处于第二阶段，AI可以在做出反应前推理。而代理系统标志着第三阶段的开始，意味着AI不仅能推理，还能独立执行任务。阿尔特曼曾提到，OpenAI的o1系列模型具备推动“代理”系统发展的能力，预计首批模型将很快问世。不过，确保这些模型与人类价值观保持一致并避免“失控”行为是主要的挑战，也是可能导致延迟的原因。代理系统的目的构建实用且功能强大的代理系统是所有AI实验室的共同目标。比如，代理系统不仅可以写书，还能自动完成自我出版的流程，包括注册亚马逊账户并在Kindle Direct上发布书籍。阿尔特曼预计，未来人们将向代理提出原本需要一个月才能完成的任务，而代理可以在一小时内搞定。他还提到，随着技术进步，代理将成为实现AGI的重要一步，因为AGI需要能够自主执行必要任务以实现其目标。 OpenAI计划通过不断迭代AI模型，实现这一目标。阿尔特曼指出，o1系列模型将使代理系统成为现实，并且“当人们开始使用代理时，将会是一个重大事件。”他补充说：“人们将要求代理完成需要一个月才能做完的事情，而代理只需一个小时。” 代理系统的挑战：对齐与安全实现AI代理最关键的难题是对齐问题，也就是确保代理的行为符合人类的价值观和利益。每次发布新模型时，OpenAI都会进行严格的安全测试，确保模型在符合安全标准的前提下才能发布。这一过程曾导致模型发布的延迟，并需要为模型设置“防护栏”以阻止某些潜在的有害行为。一个明显的例子是GPT-4o模型，尽管具备生成图像、音乐和模仿声音的能力，但这些功能被“防护栏”限制，用户无法直接使用。然而，偶尔防护栏也会失效，表明模型实际上是能够实现这些功能的。代理系统的防护栏问题尤为重要，因为代理可能获得银行账户的访问权限、在线执行任务，甚至雇佣他人在Fiverr平台上代为完成任务。在开发者日的演示中，一个语音机器人模拟助手与卖家通话，订购了400颗巧克力草莓，提供了特定地址，并声明用现金支付。尽管机器人宣称自己是AI助手，但从对话中很难分辨它的AI身份。 OpenAI首席产品官凯文·威尔（Kevin Weil）对《金融时报》表示，“我们希望让人们能够像与他人互动一样与AI互动。”他补充道，明年代理系统将进入主流市场，推动这一目标的实现。威尔还指出，代理系统的一个防护措施是强制要求代理系统始终表明其AI身份。然而，如果你见过GPT-4o生成的完美矢量图形或听过Advanced Voice的拟声表演，你就会知道这些限制有时并不完善。代理系统的未来展望对于代理系统的到来，许多人充满期待。开发人员认为，代理将帮助加快开发流程，特别是在自动化测试等枯燥环节。此外，代理还能帮助人们处理大量未读邮件，正如一位开发者所言，“如果为了清空收件箱而不得不面对天网（Skynet）的崛起，那就让终结者来吧。”

Microsoft AI部门的CEO额备忘录

Posted on October 5, 2024October 5, 2024 by aitrendtrackers@rengongzhineng.io

微软今天正式推出了重新设计的Copilot，目标是成为用户的AI助手或伴侣。为了庆祝这一发布，微软新任AI部门CEO穆斯塔法·苏莱曼撰写了一篇超过700字的备忘录，描述了他所认为的AI技术“范式转变”，即AI模型将能够理解人类所见和所闻的能力。苏莱曼今年早些时候加入微软，成为其新成立的AI部门的CEO，此前微软从Inflection AI挖来了多名重要员工。今年6月，苏莱曼因公开宣称“任何发布在网络上的内容都是免费的，可以被AI模型复制、重建和再创造”而引发争议。如今，他乐观地认为，在微软的领导下，AI将开创一个“更平静、更加有用和支持性的技术时代”，这是以前从未见过的。苏莱曼在备忘录中表示：“一些人担心AI会削弱我们作为人类的独特性，但我的毕生工作就是确保AI能做到完全相反的事情。” 微软的全新Copilot体验看起来与Inflection AI的Pi产品十分相似，显然苏莱曼正推动微软走向更加个性化的AI方向。“在微软AI，我们正在为每个人打造一个AI伴侣，”苏莱曼在备忘录中写道，“Copilot会始终站在你这边，支持你，确保与你的利益高度一致。” 微软今天还推出了全新的Copilot视觉和语音功能，使得AI助手更加个性化，同时更新的设计也更注重提供实用信息。“随着时间的推移，Copilot会根据你的行为习惯逐渐适应，并发展出围绕你的偏好和需求的功能，”苏莱曼说，“我们并不是在创造一个静态工具，而是建立一种动态、不断发展的互动方式。” 苏莱曼的完整备忘录如下：我们正在经历一场技术范式的转变。短短几年内，我们的计算机已经学会了理解我们的语言，看见我们所见，听见我们所闻。但技术本身没有意义，重要的是它给人们带来的感受，以及对社会的影响。它改变了生活、打开了大门、拓展了思维、缓解了压力。它或许是历史上最伟大的人类福祉的放大器之一，也是为数不多能为数十亿人带来实际和持久好处的方式之一。然而，技术必须始终服务于人类：它是一种工具，是加深我们共同纽带和理解的路径，是激发我们的创造力和想象力的力量。在AI领域，我们经常会迷失在技术细节中。我们谈论参数、计算能力、训练过程、数据中心和最新技术。在探索新领域时，专注于细节是很自然且不可避免的，因为细节确实重要。但我认为，在深耕技术的同时，我们不应忘记，不仅是我们在构建什么，更重要的是我们为什么要构建它。在微软AI，我们正在为每个人创造一个AI伴侣。我坚信，我们可以创造一个更加平静、有帮助和支持性的技术时代，这是以前从未见过的。优秀的技术体验应该关注用户的感受，而不是技术细节。它应着眼于你所经历的，而非我们所构建的。 Copilot会始终站在你这一边，支持你，并与你的利益保持高度一致。它会理解你的生活背景，同时保护你的隐私、数据和安全，记住在任何情况下最有用的细节。它将为你提供一个知识的宇宙，简化和梳理每天的大量信息，并在你需要时提供支持和鼓励。随着时间的推移，Copilot会适应你的习惯，并发展出围绕你的偏好和需求的功能。我们并非在创造一个静态的工具，而是建立一种动态、不断发展的互动关系。它会始终支持你，帮助你在日常生活中以最理想的状态展现自己，成为促进人类联系和成就的新方式。在获得你的许可后，Copilot最终将能够代表你采取行动，简化生活中的复杂问题，让你有更多时间专注于对你重要的事情。它将在许多重要时刻为你提供支持。无论是陪伴你去医生那里记录信息并在适当时候跟进，还是为孩子的生日派对做准备，甚至在你面临艰难的生活决策时提供帮助，Copilot都会陪在你身边。一些人担心AI会削弱我们作为人类的独特性。而我毕生的工作就是确保它恰恰相反。我们选择创造什么，这是我们必须共同完成的任务。我们的职责是确保它始终能够丰富人们的生活，并加强我们与他人的联系，同时支持我们独特而复杂的人性。这是一场全新的技术变革，不仅仅是“解决问题”，而是支持、教育和帮助你。从这个角度来看，Copilot与过去的互联网和移动技术浪潮截然不同。这是一场从根本上改变我们所有人可能性的开始。随着我们对Copilot的最新更新，你们现在看到的只是我们在这条路上的第一步。耐心和谨慎是我们部署每个阶段的核心基础。我的承诺是，在每一个阶段都对用户负责，与用户合作并倾听用户的意见。对用户和社会的尊重与深切关怀是我们一切工作的核心。它优先于一切。这是我们共同承诺的旅程，我对能与你们一起踏上这段旅程感到无比激动。穆斯塔法·苏莱曼

两名大学生利用Meta的智能眼镜展示了一项令人震惊的技术，能够实时“人肉”他人的身份信息

Posted on October 4, 2024October 4, 2024 by aitrendtrackers@rengongzhineng.io

两位哈佛学生展示了一款让人不寒而栗的智能眼镜技术演示，展示了如何利用人脸识别技术即刻获取他人身份、电话号码和住址等敏感信息。令人担忧的是，这项演示所用的都是现成的技术，比如Ray-Ban Meta智能眼镜和公共数据库。其中一位学生AnhPhu Nguyen在网上发布了一段视频，展示了这项被称为“I-XRAY”的技术如何运作。该技术通过Meta智能眼镜的实时视频直播功能，将视频传输到Instagram，然后计算机程序监控视频并使用AI识别人脸。这些面部照片随后被输入公共数据库，进而找到姓名、住址、电话号码，甚至亲属关系。最终，信息会通过手机应用传回。在演示中，Nguyen和Caine Ardayfio（该项目的另一位学生）通过眼镜识别了多位同学的身份、住址以及亲属信息。更令人不安的是，他们还在公共交通工具上与陌生人交谈，假装认识他们，实际是通过技术获取的个人信息。这项技术的背后依赖于像PimEyes这样的面部搜索引擎，《纽约时报》曾形容PimEyes为“精确到令人惊讶”的工具，任何人都能使用它。这让人联想到Clearview AI，后者曾帮助执法机构通过面部识别追踪目标。Nguyen和Ardayfio的演示则是首次将这种技术与消费者产品相结合，让这款隐蔽且易于获取的设备变得更加危险。两位学生表示，他们开发这项技术的初衷不是为了滥用，因此不会公开发布。他们的目标是引发公众对现有技术的警觉，表明这并非遥远的反乌托邦未来，而是现实中已经可以做到的事。通过大语言模型（LLMs），I-XRAY能够自动将姓名与照片关联起来，从庞大的数据源中提取信息。智能眼镜的隐私问题由来已久，谷歌眼镜因公众担忧隐私被侵犯而遭遇了失败。尽管现在人们因智能手机、博主和TikTok等普及，已习惯了随时随地被录像，但现代智能眼镜因为外形更为低调，隐私威胁也随之增加。Ray-Ban Meta智能眼镜看起来与普通的Ray-Bans几乎无异，这虽然有助于智能眼镜的普及，但也让人更难察觉到正在被拍摄。虽然眼镜配有隐私灯，录像时会自动亮起，但在明亮的户外环境下，这个灯往往难以被察觉，特别是在拥挤的公共场所。 Meta在隐私政策中呼吁用户尊重他人的隐私，并在录像、直播或拍照时通过手势或语音控制提示他人。然而，现实情况是，不少用户可能不会遵循这些规范。这次演示敲响了智能眼镜滥用的警钟，但也有一些措施可以保护个人隐私。Nguyen和Ardayfio提供了一些面部搜索和人物搜索数据库的退出方法。然而，完全删除你的网络信息几乎不可能，最多只能降低你的信息的可获得性。

埃隆·马斯克在OpenAI旧总部举办的这场AI派对

Posted on October 4, 2024October 4, 2024 by aitrendtrackers@rengongzhineng.io

这场招募活动表面上看像是旧金山科技初创公司的常规招聘会，现场有免费食物、饮料，甚至还有通过实时编写代码生成的音乐。但现场的安保却显得格外严密：金属探测器、身份检查、保安遍布全场。这是埃隆·马斯克在OpenAI的旧总部举办的一场xAI招聘会。值得注意的是，OpenAI正巧在同一天的另一边举行了年度开发者大会。活动在晚上8:30进入高潮，马斯克在一群保镖的护送下站上桌子，向在场的工程师们发表演讲，讲述了他创建xAI的初衷。他说xAI的目标是“创建尽可能友善的数字超级智能”，并号召在场的人加入xAI，共同开发这项技术及其应用。马斯克还预测未来五年内，OpenAI、Anthropic、谷歌和xAI将主导人工智能领域。他还强调了xAI的速度，比较其成长过程就像SR-71“黑鸟”战机一样迅猛。活动的核心目的显然是为xAI的API寻找工程师。当晚活动结束后，马斯克被火速带离现场，而参与者则带着披萨走入夜幕。就在这个过程中，AI领域的竞争更加激烈，xAI迅速崛起，马斯克也正在调动一切资源，争取在这一赛道上赢得主导地位。 xAI的诞生与快速扩展 xAI在2023年3月启动，最初团队汇集了来自马斯克其他公司的成员，如特斯拉和SpaceX，还包括他17岁的儿子和表亲。xAI的使命非常明确：在短短三个月内开发出足以竞争的语言模型。为了追求速度，xAI依赖外部技术，比如微软的Bing搜索和Meta的Llama模型。截至2023年底，xAI已经发布了多款模型，虽然这些产品的背后依赖其他公司的技术，但马斯克的目标是尽快推出自家的生成器和更多功能。目前，xAI正在开发语音和搜索功能，未来用户不仅能通过Grok聊天机器人进行对话，还能获取新闻摘要和热门话题的总结。激烈的AI人才争夺战在AI领域，马斯克面临着激烈的人才竞争。尽管资金对他来说不是问题，但如何吸引顶尖人才是他目前的挑战。xAI的快速节奏和冒险精神吸引了一部分工程师，他们更愿意在小团队中推进项目，而不是在大公司里经历漫长的研发周期。对于马斯克而言，打造xAI不仅是为了赚钱，更是为了击败他曾经的合作伙伴——OpenAI。通过这次招聘活动，他向硅谷的工程师们展现了自己的愿景：一个由他掌控并与世界共享的AGI（通用人工智能）。而在这场竞争中，速度和创新将是xAI取胜的关键。

在1万块H100 GPU上训练模型涉及到复杂的硬件架构和并行化策略

Posted on October 4, 2024October 4, 2024 by aitrendtrackers@rengongzhineng.io

在使用1万块H100显卡时，目标是尽可能将网络规模和批处理大小最大化。为此，涉及多个并行化策略：通过不断优化并行化，确保所有GPU的高效利用，最大化计算资源。 Checkpointing与计算/记忆权衡为了执行反向传播，需要在前向计算时保存一些中间变量（如save_for_backward）。但当网络足够大时，可以选择释放这些变量，腾出内存以容纳更大的批处理量，并在需要时重新计算。类似于FSDP的技巧，可以将权重分片保存在不同GPU上，节省内存，等需要计算时再从其他GPU获取这些权重。 GPU间的快速通信在多个GPU之间传输数据时，尽量让通信与计算并行进行。例如，当第N层完成反向传播时，第N-1层的反向传播仍在计算中，这时可以让第N层的GPU们进行梯度的all-reduce操作，从而减少等待时间。网络拓扑结构的发现与利用在大规模同步SGD训练中，必须快速传输大量的梯度和优化器状态。这通常涉及多个网络节点，并需要考虑复杂的网络拓扑结构。通过树状的all-reduce算法，可以将通信复杂度降低至log(n)，同时尽量减少光纤连接节点间的通信延迟。 NCCL库可以智能发现网络拓扑并优化通信操作，比如all-reduce或scatter/gather。同时，网络设备（如交换机和NIC）的路由算法也需要优化，以实现负载均衡。此外，交换机的HBM内存在处理大规模通信时也非常关键，因为数据包排队时需要足够的缓存空间。故障恢复在拥有1万块GPU的环境中，硬件和软件故障几乎是常态。GPU、NIC、网络线缆等可能随时出问题。有些故障可以快速检测到，而有些只能通过延迟判断，比如NCCL的all-reduce操作卡住了。另外，大规模训练时偶尔会出现内存位翻转导致的数据损坏，进而引发损失爆炸。这种现象在小规模训练中也有，但非常罕见，难以预先通过软件检测。虽然部分硬件具备内置校验功能，但像H100这样的GPU还没有这一特性。为应对这些故障，建议频繁保存模型状态，并快速从故障中恢复。通常，模型状态会首先保存到CPU内存，然后再异步保存到磁盘或远程存储中。模型状态保存时可以分片处理，不需要每个GPU保存所有权重，而是保存一部分，其他部分可以从其他GPU的检查点中恢复。这样即使某个节点发生故障，恢复时间也会大大缩短。

OpenAI在周四推出了一种与ChatGPT互动的新方式——一种名为“Canvas”的界面

Posted on October 4, 2024October 4, 2024 by aitrendtrackers@rengongzhineng.io

OpenAI在周四推出了一种与ChatGPT互动的新方式——一种名为“Canvas”的界面。这款新产品在常规聊天窗口旁边打开一个独立窗口，为写作和编程项目提供工作空间。用户可以直接在Canvas中生成文本或代码，然后高亮显示部分内容，进行模型编辑。Canvas从周四开始向ChatGPT Plus和Teams用户推出测试版，下周将向企业和教育用户开放。现在，多个AI厂商都在围绕可编辑工作空间进行布局，将其作为使用生成式AI的实际工具。ChatGPT的新界面提供的功能与Anthropic在今年6月推出的Artifacts，以及备受欢迎的编程助手Cursor类似。OpenAI加快了与竞争对手的步伐，不仅匹配现有功能，还计划推出全新的能力，以吸引更多付费用户。目前，AI聊天机器人还无法通过单个指令完成大型项目，但它们通常可以提供不错的起点。类似Canvas这样的可编辑工作空间，允许用户修正AI生成内容中的错误，而无需完全重新生成整段代码或文字。 ChatGPT的新可编辑项目窗口让用户能够更自然地与模型协作。OpenAI产品经理Daniel Levine在与TechCrunch的演示中表示，这种方式让人们更直观地使用ChatGPT。在演示中，Levine需要从ChatGPT的模型选择器中选择“GPT-4 with canvas”，但OpenAI表示，当ChatGPT检测到用户正在处理长文本或复杂的编程任务时，Canvas窗口会自动弹出。用户还可以通过输入“use canvas”来直接打开该项目窗口。 Levine展示了ChatGPT如何通过这些新功能帮助撰写电子邮件。用户可以先让ChatGPT生成一封电子邮件，邮件会在Canvas窗口中弹出。然后，用户可以通过滑动按钮调整文本的长短，或者高亮显示某些句子，要求ChatGPT做出修改，比如“让它听起来更友好”或加入表情符号。用户还可以要求ChatGPT将整个邮件翻译成其他语言。对于编程项目，Canvas提供了稍微不同的功能。Levine通过指令让ChatGPT生成了一个Python API服务器，生成的代码在Canvas窗口中显示。通过按下“添加注释”按钮，ChatGPT会为代码添加行内文档解释其功能。用户还可以高亮代码的某一部分，让ChatGPT解释其含义或解答相关问题。此外，ChatGPT还推出了“代码审查”按钮，能为用户生成或自写的代码提出修改建议，用户可以选择批准、手动编辑或拒绝。如果用户批准，ChatGPT会尝试自行修复代码中的错误。一旦Canvas功能脱离测试版，OpenAI计划将其开放给免费用户。

OpenAI在最新的融资轮中成功筹集了66亿美元的资金

Posted on October 3, 2024October 3, 2024 by aitrendtrackers@rengongzhineng.io

过去几周以来的传闻终于尘埃落定，OpenAI在最新的融资轮中成功筹集了66亿美元的资金，使公司估值达到1570亿美元（比之前预期的多出70亿美元）。这次融资不仅使OpenAI估值约为其年收入的40倍，还打破了创投历史的纪录，超越了早前Elon Musk的xAI公司，其今年筹集了60亿美元，但估值仅为240亿美元。 🔑 重点内容：正如外界所料，投资方包括NVIDIA、软银和微软，但主导这轮融资的是Thrive Capital。Thrive Capital获得了一个特别的交易条款，允许其在2025年以同样的估值再追加10亿美元投资，前提是OpenAI达到预期的收入目标。这笔资金将帮助OpenAI成为通用人工智能（AGI）领域的领军者，并扩大计算能力。据预测，OpenAI的项目到2029年可能会创造1000亿美元的收入，相当于目前雀巢的年收入。不过，如果OpenAI在未来两年内未能兑现其转为盈利性企业的承诺（并为CEO Sam Altman分配股权），以及取消投资者回报的上限，投资者有权收回资金。 🤔 为什么值得关注：转型为盈利性公司并取消目前投资回报率上限（现固定为原投资金额的100倍），将使OpenAI在融资方面更加自由。这可能让公司有机会进行更多长期且资本密集型的项目，例如打造自家AI芯片和数据中心，减少对NVIDIA的依赖。同时，通过签署授权协议，OpenAI可以避免法律诉讼风险并获取竞争优势。然而，OpenAI在公司内部还有许多问题需要解决，尤其是如今13位创始成员中仅剩3人还在职，员工对公司发展方向的满意度似乎并不高。

全球首家3D打印酒店

Posted on October 2, 2024October 2, 2024 by aitrendtrackers@rengongzhineng.io

今年早些时候正式公布后，领先的3D打印建筑公司Icon目前正忙于在德州沙漠中建设其雄心勃勃的El Cosmico露营酒店项目。该项目号称是全球首家3D打印酒店，包含露营区、度假屋和共享设施，还将出售一些由知名建筑师设计的永久住宅。该项目是Icon与知名建筑公司Bjarke Ingels Group（BIG）合作打造的，El Cosmico是对现有的El Cosmico露营酒店的大幅扩展和重新构想，位于马尔法郊外，项目面积超过60英亩（24.3公顷）。酒店将包括引人注目的弧形和穹顶式度假住宅，其设计灵感来自周围的自然景观，还将设有帐篷区、中央游泳池和公共设施。此外，BIG还设计了一些永久住宅，最多包含四间卧室，拥有广阔的景观视野，这些住宅的售价高达229万美元起。此外，还将为当地社区提供一些经济适用的3D打印住房，其中部分是通过Icon举办的全球设计竞赛选出的。 Icon的3D打印机正在构建El Cosmico的基础结构，之后将由人工施工队完成细节部分。Icon的打印技术也曾用于Wolf Ranch和Wimberly Springs项目，采用其自主研发的Vulcan 3D打印系统。该系统通过人类操作员监督，使用一种类似水泥的专有混合材料Lavacrete，通过喷嘴一层层堆叠构建住宅的基础结构。在打印过程结束后，人工团队将负责安装屋顶、电线、窗户等其他必要设施。 BIG负责人Bjarke Ingels解释道：“我们为新El Cosmico设计的是一次过去与未来的对话。通过挑战Icon 3D打印技术的几何边界，我们设想出流畅、曲线型的建筑结构，这些结构仿佛从空旷的沙漠中自然升起。我们使用当地的沙土和色彩作为打印媒介，圆形建筑仿佛从脚下的土地中生长出来。我们很荣幸能够与El Cosmico的创始人Liz Lambert一起，重新定义沙漠奢华，将其提炼为最纯粹的形式：原始、真实，并与周围环境和谐共生。” 整个El Cosmico扩建项目预计将在2026年完工。

NVLM-D-72B：视觉与文本任务中的全能高手

Posted on October 2, 2024October 2, 2024 by aitrendtrackers@rengongzhineng.io

Nvidia 最近发布了一款强大的开源人工智能模型，挑战了 OpenAI 和谷歌等行业巨头的专有系统。全新推出的 NVLM 1.0 系列大型多模态语言模型，以 NVLM-D-72B 为首，拥有 720 亿参数，展现了卓越的视觉和语言任务处理能力，同时也增强了纯文本任务的表现。https://huggingface.co/nvidia/NVLM-D-72B 研究人员在论文中提到：“我们推出的 NVLM 1.0 系列，作为多模态前沿语言模型，达到了视觉语言任务的最新成果，媲美主流的专有模型（如 GPT-4o）和开放模型。”Nvidia 通过公开模型权重并承诺发布训练代码，打破了将先进 AI 系统封闭的行业惯例。这一举动为研究人员和开发者提供了前所未有的尖端技术访问权限。在多项视觉与语言任务的基准测试中，NVLM-D 模型与 GPT-4、Claude 3.5 和 Llama 3-V 等 AI 巨头展开了激烈竞争，展现出其出色的性能。NVLM-D-72B 在处理复杂视觉和文本输入时表现出极强的适应性。研究人员展示了模型如何解读表情包、分析图片，并逐步解决数学问题的能力。特别值得注意的是，NVLM-D-72B 在多模态训练后，纯文本任务的表现不降反升，关键文本基准测试的准确率平均提高了 4.3 个百分点。研究人员强调：“我们的 NVLM-D-1.0-72B 在文本专用的数学和编程测试中，表现显著优于其文本基座。” AI 社群对 Nvidia 的开源举措反应热烈。一位 AI 研究员在社交媒体上表示：“哇！Nvidia 发布了一个 72B 参数的模型，它在数学和编程测试中几乎能与 Llama 3.1 的 405B 模型媲美，还具备视觉能力？”Nvidia 开放如此强大的模型，可能会加速整个 AI 领域的研究与开发，帮助中小型组织和独立研究人员更大程度地推动 AI 进步…

微软推出了全新的 Copilot 体验

Posted on October 2, 2024October 2, 2024 by aitrendtrackers@rengongzhineng.io

在纽约举行的活动上，微软推出了全新的 Copilot 体验，采用卡片式界面，适用于移动端、网页和 Windows 平台。此次更新的亮点包括Copilot Vision，该功能能够视觉化解释用户环境，还有Copilot Voice，提供四种不同的语音选项进行互动。发现卡片（Discover Cards）会为用户提供个性化的内容推荐，而Copilot Daily 则通过与主流新闻机构合作，提供每日新闻和天气播报，并支持语音朗读。 Copilot 的一大突破是在 Microsoft Edge 中的集成，用户可以无需泄露个人数据的情况下总结网页内容并进行文本翻译。同时，Copilot Labs 推出了实验性功能，包括深入思考（Think Deeper），利用全新的 OpenAI 语言模型 o1，将在多平台上提供。微软还在创意工具上带来了大幅改进，例如 Paint 和 Photos 应用都将加入生成式填充和生成式擦除功能，用户可以精确添加或移除对象，类似于 Adobe Photoshop 的功能。Photos 应用还会推出超分辨率功能，可在设备上将图像的分辨率提升至原始分辨率的八倍。通过这次全面升级，微软的 Copilot 和 Windows 生态系统更加灵活、以用户为中心，旨在成为真正的 AI 伴侣。为纪念这一里程碑，AI 领域的 CEO 穆斯塔法·苏莱曼（Mustafa Suleyman）撰写了一篇备忘录，探讨他所谓的“技术范式转变”，即 AI 模型将更深入地理解人类的视觉和听觉体验。

Subscribe 订阅