aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

微软新鲜出炉的总结2023年的《未来工作报告》

Posted on January 29, 2024January 29, 2024 by aitrendtrackers@rengongzhineng.io

微软最新发布了他们的年度《未来工作报告》，这次的焦点不再是远程工作，而是人工智能。没错，你没听错，就是AI！这份报告基于2023年的多项研究统计数据，还有过去几年的理论研究支持。我为你整理了一份“忙碌人士指南”，让你快速了解重点。 – 聊天机器人GPT让知识型工作者的工作效率提高37%，质量提高40%，但准确度下降了大约20%。解决这个问题的简单用户体验方案是可行的。 – 微软Copilot 365的企业用户调查显示： – 73%的用户认为Copilot让他们工作更快 – 85%的用户说它能帮助他们更快地完成初稿 – 72%的用户同意它减少了在重复或乏味任务上的心理负担 – 早期研究发现，新手或技能较低的工作者最受益于大型语言模型（LLMs）。技能较低的工作者表现提升了43%，而技能较高的提升了约17%。 – 需要与“挑战者”搭配使用，即基于LLM的工具，它们可以挑战假设、鼓励评估并提供反驳意见。 – 人工智能可以帮助将简单命令分解为微时刻和微任务，提高整体质量和效率。 – 分析和整合由AI生成的信息可能比搜索和创造信息更为重要。与内容制作不直接相关的技能（如领导力、社交互动、信任问题或情感意识）可能更有价值。 – 提问很难，但人们正在变得擅长它。精调/使用LLMs来生成提示也在变得更容易。提示模板对终端用户有帮助。 – 高亮显示错误/不确定性百分比可以帮助平衡对LLMs的依赖。提示可以通过共审工具来补充，以检查LLM的输出。 – 生成性AI需要自我意识和良好的信心校准。同时，它也可以帮助达到这一点。 – 创造性活动是一个过程，LLMs可以在不同部分提供帮助。69%的Bing聊天对话是面向专业任务的领域。 – 基于LLM的搜索中，复杂的部分比例更大（其中36%是复杂的），而传统搜索中复杂的比例较低（13%是复杂的）。 – 在一项对69名学生的研究中，使用Codex提高了他们学习Python的表现，但对他们的手动代码修改能力没有影响。 – LLMs可以快速分析来自人类的数据并生成合成数据。这将改变社会科学研究的方式。 – 在会议中使用LLMs可以解决不同的问题，如平等参与（即时反馈）和更好的互动（回顾性反馈）。） – AI可以帮助分配管理责任，让高管们更专注于团队愿景。 – 现代办公室的知识存在于聊天中，而不是文档里，但在员工聊天记录上应用AI比较棘手。（ – 大约80%的美国劳动力可能至少有10%的工作任务受到GPTs的影响。大约19%的工作者可能有50%的任务受影响。 – “创新与自动化”通常是一个比“替代与增强”更好的框架。增强可能仍意味着工作岗位的丧失。重要的是尝试跟踪人类劳动力是否以及如何以创新的新方式被使用。 – 不应该问“AI将如何影响工作？”，而应该问“我们希望AI如何影响工作？” 英文全文下载： https://www.microsoft.com/en-us/research/uploads/prod/2023/12/NFWReport2023_v4.pdf?utm_source=bensbites&utm_medium=newsletter&utm_campaign=daily-digest-are-siri-chatgpt-friends-now

LangGraph：一个基于LangChain构建的AI库，用于创建具有状态、多参与者的应用程序

Posted on January 28, 2024January 28, 2024 by aitrendtrackers@rengongzhineng.io

需要构建一种系统，能够响应用户输入、记住过去的互动，并基于这些历史记录做出决策。这种需求对于创建更像智能代理的应用程序至关重要，它们能够维持对话、记住过去的上下文，并做出明智的决策。目前，一些解决方案解决了这个问题的部分方面。有些框架允许创建带有语言模型的应用程序，但它们无法有效地支持持续的、有状态的互动。这些解决方案通常专注于处理单一输入和生成单一输出，而没有内置的方式来记住过去的互动或上下文。这种限制使得创建需要记住之前对话或行动的更复杂、互动性更强的应用程序变得困难。解决这个问题的方案是LangGraph库，它旨在使用语言模型构建有状态、多参与者的应用程序，并建立在LangChain之上。LangGraph库允许创建可以维持多步对话的应用程序，记住过去的互动，并使用这些信息来指导未来的回应。它对于创建类似代理的行为特别有用，应用程序可以持续与用户互动，询问并记住之前的问题和答案，以提供更相关、更明智的回应。这个库的一个关键特性是它能够处理循环，这对于维持持续对话至关重要。与其他仅限于单向数据流的框架不同，这个库支持循环数据流，使应用程序能够记住并基于过去的互动进行构建。这一能力对于创建更复杂、更响应灵敏的应用程序至关重要。这个库通过其灵活的架构、易用性以及与现有工具和框架的集成能力，展示了其功能。它简化了开发过程，使开发者能够专注于创建更复杂、更互动的应用程序，而不必担心维持状态和上下文的底层机制。总之，LangGraph代表了使用语言模型开发互动应用程序的一个重要步骤，为开发者打造更复杂、更智能、更响应灵敏的应用程序提供了新的机会。它能够处理循环数据流并与现有工具集成的能力，使其成为这一领域任何开发者工具箱中的宝贵补充。详细去访问： https://github.com/langchain-ai/langgraph

“Morpheus-1”的全新人工智能模型声称能引发清醒梦境

Posted on January 26, 2024January 26, 2024 by aitrendtrackers@rengongzhineng.io

近年来，人工智能已经渗透到我们科技生活的方方面面，从聊天机器人到猫门 — 但现在，有一家公司希望人工智能能走进你的梦境。神经科技初创公司“Prophetic”开发了一款名为“Morpheus-1”的新型人工智能模型，它声称能帮助人们进入清醒梦状态，并稳定这种梦境。清醒梦是一种梦境状态，梦者意识到自己在做梦，并且常常能对梦中的角色、叙事和环境有所控制。这是克里斯托弗·诺兰2010年令人困惑的现代经典电影《盗梦空间》的主要情节设备。Prophetic表示，这个模型以当前的大脑状态作为提示，并生成可以发送到大脑的超声波全息图，以启动清醒梦状态并保持其稳定。 Morpheus-1，以希腊梦神之名命名，是一款在8个GPU上训练了两天的AI模型，使用的是与支持ChatGPT和MidJourney的同一底层变换器技术。不同于大型语言模型或图像生成器，Morpheus-1以大脑活动作为提示，生成可以与该大脑状态相互作用的形状声波作为输出。这种新的大脑刺激方法将与Prophetic即将在春季发布的一款名为“The Halo”的新头带产品绑定。The Halo会发送声波，或者说超声波全息图，进入大脑，与当前的大脑状态相连接，从而使心灵进入清醒状态。据Prophetic称：“清醒梦是一种梦者意识到自己正在睡觉的梦。”它们有效地让你控制那个梦，公司称它们是“意识的粒子加速器”，让人们获得自我意识。在我看来，这就像是一个状态，你可以成为主角，决定去哪里，将你的心灵变成最好、最真实的开放世界游戏。已经有无数研究探讨了清醒梦的现象，以及诱发它的方法。一组研究者发现，你可以让人们在清醒梦中蹲下，增加心率，就像真的在做运动一样 — 尽管他们没有移动。它也被证明是一种治疗噩梦和噩梦障碍的方法，因为你可以在清醒的噩梦中改变对某些事物的反应，变得更有力量。它还被建议用作治疗临床抑郁症或创伤后应激障碍（PTSD）的技术。然而，如果过于频繁使用，它也可能导致睡眠不安。而进入清醒梦状态的最佳技巧之一也威胁着获得良好夜间睡眠，因为它涉及在睡眠四小时后醒来，集中精神，然后再次入睡。 Prophetic声称，他们的技术不仅会诱导清醒梦状态，保持它更长时间的活跃和稳定，而且还提供了一种更安全的进入该状态的方式。 “Morpheus-1是我们使命的一大飞跃，让我们更接近于超声波诱导意识体验的需求，并永远改变世界，”公司在X上写道。这将通过一种非侵入性的可穿戴技术实现。具体来说，是一种发送超声波信号进入大脑的头带。The Halo使用了“神经刺激系统，复制了自然清醒梦的典型神经激活模式。” 我不会在测试者名单上。虽然我发现人工智能很有趣，但我并不认为它足够有趣，可以信任它来处理我的大脑状态或梦境。但这一概念的底层是非常有趣的，如果它确实像开发者所暗示的那样工作——可能会在我们看待自己的方式上带来重大突破。

今日AI大热潮，明日智能风向标

Posted on January 25, 2024January 25, 2024 by aitrendtrackers@rengongzhineng.io

自从ChatGPT问世的419天以来，无数的AI初创公司获得了资金支持。我们也见证了连续419天的AI网红们，对每一个AI突破都大肆宣传。但我们离梦想中的AI未来还有多远？AI的普及和应用又进行到哪一步了？于是，我调查了23位最懂AI的朋友，询问他们对当今AI的看法。他们都很厉害，比我聪明多了。其中一些是创业者，一些在顶尖公司工作，还有一些是投资者。非常感谢他们的帮助，使这一切成为可能。以下是我从调查中得到的主要观点和一些视觉化结果。主要观点一切才刚刚开始 ChatGPT仍然是最常用的应用程序。（40%的受访者提到它是他们最常使用的应用）。AI可能将经历5到10年的应用周期。在每个应用领域或模式（文本、音频、图像、视频等）中，目前还只有1-2个主导者。我们作为工程师，仍然只是为自己的使用案例构建AI（几乎30%的受访者使用AI进行编码）。对于非技术人员的使用案例，我们甚至还没有摘取低挂的果实。信号不足，噪音太多尽管有这么多人在推特上发声，但真正新颖的AI演示和原创思想仍然不足。人们不知道可能的事情，甚至不知道该构建什么。即使在Twitter上，也没有足够一致的创业者或创始人可以密切关注。（>50%的受访者没有提到谁在AI领域做得最有趣）。这是你开始构建和撰写新想法的信号 🙂 人们对多模态应用感到兴奋去年，初创公司和DIY者的大部分关注点都在大型语言模型和基础设施上。随着图像、视频和音频模型变得更加易于获得，我们可以预测明年会有更多的多模态应用出现。（22.7%的受访者表示他们最期待2024年的多模态应用案例）。总的来说，对AI的乐观情绪持续增长。我从2022年7月开始构建AI应用。那时候，感觉有很多东西可以探索。今天，这种感觉似乎变得更加强烈。调查结果你的工作是什么？你经常使用哪些AI产品或应用程序？你使用AI产品或应用程序做什么？最近你看到的最酷的演示是什么？你知道的最酷的AI公司是哪家？你希望有人构建哪些现在不存在的AI公司、基础设施或产品？你使用哪个基础设施提供商来托管或管理你的AI模型？你最喜欢的大型语言模型/文本模型或提供商是哪

谷歌宣布了一系列全新的、由人工智能驱动的教育功能

Posted on January 25, 2024January 25, 2024 by aitrendtrackers@rengongzhineng.io

谷歌在英国的Bett教育科技活动中宣布了一系列新功能，这些功能涵盖了课堂管理、无障碍访问以及一些利用人工智能创建问题和教案的特色功能。 AI驱动的特色功能谷歌已经允许教师在YouTube视频中添加问题作为课堂作业的一部分。该公司表示，不久的将来，AI将帮助提供不同时间戳的问题建议。该公司首次在2023年6月宣布了这一功能。然而，当时教师需要申请才能获得此功能。公司还补充说，使用AI创建答案和一般提示的“练习集”功能现在已经支持超过50种语言。此外，教育工作者可以将谷歌表单转换为练习集。此外，谷歌还推出了一个新的“资源”标签，以管理练习集和视频中提出的互动问题。此外，该公司提到，其为谷歌工作区提供的生成式AI工具“Duet AI”可以协助教师制定教学计划。课堂管理谷歌表示，今年晚些时候，教师将能够在课堂中形成不同的小组，并为不同小组分配不同的作业。此外，他们还可以使用幻灯片中的“演讲者聚焦”功能，结合幻灯片套件创建带有叙述的课程。现在，教育工作者还可以通过谷歌工作区中提供的电子签名功能轻松收集批准或合同的签名。该公司还在更新课堂分析，以便教育工作者可以查看作业完成情况和成绩趋势等统计数据。无障碍功能谷歌正在增加一项功能，以便ChromeOS上的屏幕阅读器可以从PDF中获取文本。此外，使用Chrome浏览器的用户可以突出显示并大声朗读文本。该公司还在谷歌Meet中增加了一些功能，如30种语言的封闭字幕和固定多个主持人的能力。 Chromebook 该公司表示，它正在Bett展示15款新的Chromebook，这些Chromebook将于今年推出。此外，谷歌即将更新Chromebook，以便学生可以直接从主屏幕上查看即将到来的作业。

Google LUMIERE 一种用于生成逼真视频的时空扩散模型

Posted on January 24, 2024January 24, 2024 by aitrendtrackers@rengongzhineng.io

哇塞，最新研发出来的”LUMIERE”可不得了，它是一个文字转视频的扩散模型，专门用来合成展现逼真、多样且连贯动作的视频。你们知道在视频合成领域，这简直是个大挑战！不同于那些老派的视频模型，它们总是先合成一些关键帧，再通过时间超分辨率处理，这样全局时间一致性可就难以实现了。”LUMIERE”可不走寻常路，采用了一种空间-时间U型网络架构，一次性生成整个视频的时间长度，整个过程只需模型单次处理。这意味着啥？就是它能够同时进行空间和（更重要的是）时间的上下采样，还整合了一个预先训练好的文字到图像的扩散模型。这样一来，”LUMIERE”学习如何直接生成全帧率、低分辨率的视频，并且在多个空间-时间尺度上处理视频。而且，它还展示了顶尖的文字到视频生成效果，轻松地支持各种内容创作任务和视频编辑应用，包括图像到视频、视频修补和风格化生成。总之，”LUMIERE”简直是视频合成界的黑科技，让视频创作变得像玩儿一样，简直不要太酷！来看看 https://lumiere-video.github.io/

微软成立了一个新的人工智能团队，专注于小型模型开发

Posted on January 24, 2024January 24, 2024 by aitrendtrackers@rengongzhineng.io

微软在人工智能领域的最新动向是小型模型。他们新成立的GenAI团队将专注于开发更小、更高效的AI模型。在世界经济论坛（WEF）上，微软的CEO萨蒂亚·纳德拉（Satya Nadella）提到小型模型的工作是为了“控制我们自己的命运”。微软正在专注于小型语言模型（SLM），目的是降低成本和计算能力需求微软一直在AI领域大举投资，特别是他们对OpenAI的重金投入。但我们都知道，GPT-4太耗电了。因此，微软现在创建了这个新团队，以让AI更经济实惠。他们从研究团队中挑选了顶尖的AI大脑加入GenAI团队开发这些SLM，包括领先研究员塞巴斯蒂安·布贝克（Sébastien Bubeck）。 GenAI团队与微软的图灵团队不同，图灵团队专注于开发更大的模型。GenAI由公司副总裁米沙·比连科（Misha Bilenko）领导，向首席技术官凯文·斯科特（Kevin Scott）汇报。这些SLM很有意思，因为经过一些优化和缩小应用范围后，它们可以在更少的计算资源下完成大型模型的许多功能。微软的Phi模型是他们尝试SLM的成果，已经受到了许多公司和调优黑客的关注。Phi系列模型已经被高盛（Goldman Sachs）测试。太棒了，因为我完全支持让AI变得更容易获取、运行成本更低，这对我们所有人都有好处。

谷歌邮箱即将推出“助我撰写”人工智能语音功能

Posted on January 23, 2024January 23, 2024 by aitrendtrackers@rengongzhineng.io

谷歌邮箱近日宣布将支持语音激活提示功能（尚未正式发布），允许用户在应用程序中进行语音交流。现在，用户可以借助生成型人工智能技术，只需说出“帮我写……”就可以代替手动输入相同的句子。目前这一功能还处于测试阶段（仅在Gmail移动应用上可用），并提供了“用语音草拟邮件”的选项，允许用户录制语音提示，随后系统会将其转换成草稿邮件，用户可以进一步编辑。这一最新开发是谷歌持续推进其工具堆栈中加入更多人工智能功能的一部分，该公司已经推出了包括‘Google Duet AI’（一款AI写作助手）和‘Circle to Search’（在新Pixel手机和S24系列上可用）在内的多项AI驱动功能。

今年即将推出的所有显卡，让我们来一探究竟吧

Posted on January 23, 2024January 23, 2024 by aitrendtrackers@rengongzhineng.io

去年，Nvidia和AMD都带来了很多炫酷的显卡新品，包括目前市面上一些最强的GPU。我们看到了一些成功的案例，但也有一些可以说是彻底的失败。那么，2024年我们又能期待些什么呢？内容概览：虽然目前只有少数几款GPU得到了确认，但很可能在今年年底之前，我们将看到更多型号的发布。让我们看看Nvidia、AMD和Intel在2024年可能会带来什么。 Nvidia RTX 40 SuperNvidia的RTX 40系列更新已经不是秘密很多个月了，但Nvidia直到今年1月的CES 2024才正式揭晓。其中一款GPU已经上市了，而且表现相当出色。我说的是RTX 4070 Super。定价600美元的RTX 4070 Super并没有真正取代它的前辈。这两款显卡将继续生产，但实际上，RTX 4070 Super很容易成为这个价位的新选择。作为中端卡，这款GPU以比一些更高端型号更合理的价格点解锁了1440p甚至4K游戏的访问。与基础型号相比，它提供了实质性的改进，而且由于RTX 4070已经是Nvidia这一代中最具性价比的卡，以相同的价格获得更高的性能无疑是非常划算的。然而，RTX 4070 Super只是个开始。Nvidia还将在几天后，即1月24日推出RTX 4070 Ti Super，紧接着是1月31日的RTX 4080 Super。我们还需要亲自测试这些GPU才能知道它们的确切性能，但它们的规格加上它们的价格标签告诉我们一个相当有趣的故事。RTX 4070 Ti Super可能不完全是我们已经知道的RTX 4080，但它是下一个最好的东西。相比之下，它在内存大小和CUDA核心数量上都有显著提升，是对现有RTX 4070 Ti的重大升级。它将取代该型号，这意味着RTX 4070 Ti将逐渐被淘汰。最后是RTX 4080 Super。与其前身相比，它几乎没有升级——最多，只会快大约2%到5%。但Nvidia仍然让我感到震惊，因为它没有提高价格，实际上将这款GPU降价到1000美元。可以说，这是2022年首次发布时该版本原本应该得到的价格标签。我甚至会更低，但嘿，这是Nvidia——它并不以仁慈的定价策略而闻名。这就是Nvidia目前的情况，但据传它可能正在准备在2024年底发布下一代GPU。首先，让我们看看AMD有什么存货。 AMD RX 7600 XTAMD在CES 2024上宣布了RX 7600 XT。AMD在CES 2024的主题演讲中对显卡的关注不多，公司这次几乎完全专注于处理器和AI。然而，它确实宣布了我们一直在等待的一款显卡：RX 7600 XT。它不是RTX 40 Super卡的对手，但就今年的发布而言，它处于自己的联盟。这是一款预算GPU，售价330美元，旨在与RTX 4060竞争，并且性能优于RX 7600。唯一的问题是，目前还不清楚这款GPU到底会变得多么出色。 AMD对RX 7600 XT的处理方式有点奇怪，尽管我们之前在Nvidia的RTX 4060…

ASPIRE：用于大型语言模型的精准预测选择神器

Posted on January 23, 2024January 23, 2024 by aitrendtrackers@rengongzhineng.io

在这个人工智能迅猛发展的时代，大型语言模型（LLMs）彻底改变了我们与机器的互动方式，将自然语言理解和生成推向了前所未有的高度。然而，要让这些模型涉足高风险的决策领域，还有一段不小的距离，主要原因在于模型预测的固有不确定性。传统的LLMs递归生成回答，但它们缺乏内在机制来对这些回答进行置信度评分。虽然可以通过累加序列中各个令牌的概率来推导出置信度，但传统方法在可靠区分正确与错误答案上通常不尽人意。但如果LLMs能评估自己的置信度，并只在确信的情况下进行预测呢？选择性预测正是为此而生，它使LLMs能够输出答案及其正确概率的选择性评分。通过选择性预测，我们可以更好地理解LLMs在各种应用中的可靠性。之前的研究，如语义不确定性和自我评估，已尝试在LLMs中实现选择性预测。一种典型的方法是使用启发式提示，如“提出的答案是真是假？”来触发LLMs的自我评估。然而，这种方法在复杂的问答（QA）任务上可能效果不佳。以OPT-2.7B模型为例，在TriviaQA数据集的一个问题上给出了错误答案：“哪种维生素有助于调节血液凝固？”，答案是“维生素C”。如果没有选择性预测，LLMs可能输出错误答案，就像这个例子中，可能会导致用户摄取错误的维生素。有了选择性预测，LLMs将输出答案及其选择性评分。如果评分低（0.1），LLMs会进一步输出“我不知道！”来提醒用户不要信任该答案，或使用其他来源进行验证。在《EMNLP 2023会议发现》中提出的“通过自我评估的适应性改进LLMs中的选择性预测”一文中，我们介绍了ASPIRE——一种精心设计的新框架，旨在提升LLMs的选择性预测能力。ASPIRE通过参数高效的微调，训练LLMs在QA任务中评估其生成答案的正确性，并使LLMs能够输出答案及其置信度评分。我们的实验结果表明，ASPIRE在多种QA数据集上的表现显著优于现有的选择性预测方法，例如CoQA基准测试。 ASPIRE框架的机制想象一下，如果教会大型语言模型（LLMs）不仅能回答问题，还能评估这些答案——就像学生在教科书后面核对答案一样。这就是ASPIRE的精髓，它包括三个阶段：（1）特定任务的调整，（2）答案采样，（3）自我评估学习。特定任务的调整：ASPIRE执行特定任务的调整，训练可适应参数（θp），同时冻结LLM。给定一个针对生成性任务的训练数据集，它对预训练的LLM进行微调，以提高其预测性能。为此，可能会采用参数效率高的调整技术（例如，软提示调整和LoRA）来适应任务，因为这些技术在少量目标任务数据下仍能获得强大的泛化能力。具体来说，LLM参数（θ）被冻结，添加可适应参数（θp）进行微调。只更新θp以最小化标准LLM训练损失（例如，交叉熵）。这样的微调可以改善选择性预测性能，因为它不仅提高了预测准确性，还增强了正确输出序列的可能性。答案采样：在特定任务调整之后，ASPIRE使用学习到的θp的LLM为每个训练问题生成不同的答案，并创建自我评估学习的数据集。我们的目标是生成具有高可能性的输出序列。我们使用束搜索（beam search）作为解码算法来生成高可能性的输出序列，并使用Rouge-L度量来确定生成的输出序列是否正确。自我评估学习：在为每个查询采样高可能性输出后，ASPIRE添加可适应参数（θs），并仅微调θs来学习自我评估。由于输出序列的生成仅依赖于θ和θp，冻结θ和学习到的θp可以避免在学习自我评估时改变LLM的预测行为。我们优化θs，使得适应后的LLM可以自行区分正确和错误的答案。 ASPIRE框架的三个阶段。在提出的框架中，θp和θs可以使用任何参数高效的调整方法进行训练。在这项工作中，我们使用软提示调整，这是一种简单但有效的机制，通过学习“软提示”来使冻结的语言模型更有效地执行特定的下游任务，而不是传统的离散文本提示。这种方法的驱动力在于，如果我们能够开发出有效激发自我评估的提示，那么通过软提示调整结合针对性训练目标，应该有可能发现这些提示。通过软提示调整实现ASPIRE框架。我们首先使用第一个软提示生成问题的答案，然后用第二个软提示计算学习到的自我评估分数。训练θp和θs后，我们通过束搜索解码获得查询的预测。然后我们定义一个选择分数，结合生成答案的可能性和学习到的自我评估分数（即预测对于查询的正确可能性），来进行选择性预测。结果为了展示ASPIRE的有效性，我们在三个问答数据集——CoQA、TriviaQA和SQuAD——上使用各种开放预训练的变换器（OPT）模型对其进行评估。通过软提示调整训练θp后，我们观察到LLMs准确性的显著提高。例如，使用ASPIRE适应的OPT-2.7B模型在CoQA和SQuAD数据集上的性能超过了更大的预训练OPT-30B模型。这些结果表明，通过适当的调整，小型LLMs可能具有在某些场景中匹敌甚至超越大型模型准确性的能力。在计算固定模型预测的选择分数时，ASPIRE在所有数据集上的AUROC分数（随机选择的正确输出序列比随机选择的错误输出序列具有更高选择分数的概率）均高于基线方法。例如，在CoQA基准测试中，ASPIRE将AUROC从51.3%提高到80.3%，与基线相比有显著提升。在TriviaQA数据集评估中出现了一个有趣的模式。虽然预训练的OPT-30B模型展示了更高的基线准确性，但当应用传统的自我评估方法——自我评估和P(True)——时，其选择性预测性能并没有显著提高。相比之下，经ASPIRE增强的较小的OPT-2.7B模型在这方面表现更佳。这一差异强调了一个重要的见解：使用传统自我评估技术的大型LLMs在选择性预测方面可能不如经ASPIRE增强的小型模型有效。我们对ASPIRE的实验之旅突显了LLMs领域的一个重要转变：语言模型的容量并不是其性能的全部。相反，通过战略性调整，模型的有效性可以大幅提升，甚至在小型模型中也能实现更精确、更有信心的预测。因此，ASPIRE作为一个证明，展示了LLMs能够审慎地确定自身的确定性，并在选择性预测任务中果断地超越大型对手的潜力。结论总而言之，ASPIRE不仅仅是另一个框架；它是一个未来的愿景，即LLMs可以成为决策中值得信赖的伙伴。通过提高选择性预测性能，我们正在更接近于实现AI在关键应用中的全部潜力。我们的研究打开了新的大门，我们邀请社区在此基础上继续建设。我们很高兴看到ASPIRE将如何激发下一代LLMs及其它更多。想了解更多我们的发现，请阅读我们的论文，并加入我们这个令人激动的旅程，共同创造一个更可靠、自我意识更强的AI。

Subscribe 订阅