微软在人工智能领域的最新动向是小型模型。他们新成立的GenAI团队将专注于开发更小、更高效的AI模型。在世界经济论坛(WEF)上,微软的CEO萨蒂亚·纳德拉(Satya Nadella)提到小型模型的工作是为了“控制我们自己的命运”。微软正在专注于小型语言模型(SLM),目的是降低成本和计算能力需求微软一直在AI领域大举投资,特别是他们对OpenAI的重金投入。但我们都知道,GPT-4太耗电了。因此,微软现在创建了这个新团队,以让AI更经济实惠。他们从研究团队中挑选了顶尖的AI大脑加入GenAI团队开发这些SLM,包括领先研究员塞巴斯蒂安·布贝克(Sébastien Bubeck)。 GenAI团队与微软的图灵团队不同,图灵团队专注于开发更大的模型。GenAI由公司副总裁米沙·比连科(Misha Bilenko)领导,向首席技术官凯文·斯科特(Kevin Scott)汇报。这些SLM很有意思,因为经过一些优化和缩小应用范围后,它们可以在更少的计算资源下完成大型模型的许多功能。微软的Phi模型是他们尝试SLM的成果,已经受到了许多公司和调优黑客的关注。Phi系列模型已经被高盛(Goldman Sachs)测试。太棒了,因为我完全支持让AI变得更容易获取、运行成本更低,这对我们所有人都有好处。
谷歌邮箱即将推出“助我撰写”人工智能语音功能
谷歌邮箱近日宣布将支持语音激活提示功能(尚未正式发布),允许用户在应用程序中进行语音交流。现在,用户可以借助生成型人工智能技术,只需说出“帮我写……”就可以代替手动输入相同的句子。 目前这一功能还处于测试阶段(仅在Gmail移动应用上可用),并提供了“用语音草拟邮件”的选项,允许用户录制语音提示,随后系统会将其转换成草稿邮件,用户可以进一步编辑。 这一最新开发是谷歌持续推进其工具堆栈中加入更多人工智能功能的一部分,该公司已经推出了包括‘Google Duet AI’(一款AI写作助手)和‘Circle to Search’(在新Pixel手机和S24系列上可用)在内的多项AI驱动功能。
今年即将推出的所有显卡,让我们来一探究竟吧
去年,Nvidia和AMD都带来了很多炫酷的显卡新品,包括目前市面上一些最强的GPU。我们看到了一些成功的案例,但也有一些可以说是彻底的失败。那么,2024年我们又能期待些什么呢? 内容概览: 虽然目前只有少数几款GPU得到了确认,但很可能在今年年底之前,我们将看到更多型号的发布。让我们看看Nvidia、AMD和Intel在2024年可能会带来什么。 Nvidia RTX 40 SuperNvidia的RTX 40系列更新已经不是秘密很多个月了,但Nvidia直到今年1月的CES 2024才正式揭晓。其中一款GPU已经上市了,而且表现相当出色。我说的是RTX 4070 Super。定价600美元的RTX 4070 Super并没有真正取代它的前辈。这两款显卡将继续生产,但实际上,RTX 4070 Super很容易成为这个价位的新选择。作为中端卡,这款GPU以比一些更高端型号更合理的价格点解锁了1440p甚至4K游戏的访问。与基础型号相比,它提供了实质性的改进,而且由于RTX 4070已经是Nvidia这一代中最具性价比的卡,以相同的价格获得更高的性能无疑是非常划算的。 然而,RTX 4070 Super只是个开始。Nvidia还将在几天后,即1月24日推出RTX 4070 Ti Super,紧接着是1月31日的RTX 4080 Super。我们还需要亲自测试这些GPU才能知道它们的确切性能,但它们的规格加上它们的价格标签告诉我们一个相当有趣的故事。RTX 4070 Ti Super可能不完全是我们已经知道的RTX 4080,但它是下一个最好的东西。相比之下,它在内存大小和CUDA核心数量上都有显著提升,是对现有RTX 4070 Ti的重大升级。它将取代该型号,这意味着RTX 4070 Ti将逐渐被淘汰。 最后是RTX 4080 Super。与其前身相比,它几乎没有升级——最多,只会快大约2%到5%。但Nvidia仍然让我感到震惊,因为它没有提高价格,实际上将这款GPU降价到1000美元。可以说,这是2022年首次发布时该版本原本应该得到的价格标签。我甚至会更低,但 嘿,这是Nvidia——它并不以仁慈的定价策略而闻名。 这就是Nvidia目前的情况,但据传它可能正在准备在2024年底发布下一代GPU。首先,让我们看看AMD有什么存货。 AMD RX 7600 XTAMD在CES 2024上宣布了RX 7600 XT。AMD在CES 2024的主题演讲中对显卡的关注不多,公司这次几乎完全专注于处理器和AI。然而,它确实宣布了我们一直在等待的一款显卡:RX 7600 XT。它不是RTX 40 Super卡的对手,但就今年的发布而言,它处于自己的联盟。这是一款预算GPU,售价330美元,旨在与RTX 4060竞争,并且性能优于RX 7600。唯一的问题是,目前还不清楚这款GPU到底会变得多么出色。 AMD对RX 7600 XT的处理方式有点奇怪,尽管我们之前在Nvidia的RTX 4060…
ASPIRE:用于大型语言模型的精准预测选择神器
在这个人工智能迅猛发展的时代,大型语言模型(LLMs)彻底改变了我们与机器的互动方式,将自然语言理解和生成推向了前所未有的高度。然而,要让这些模型涉足高风险的决策领域,还有一段不小的距离,主要原因在于模型预测的固有不确定性。传统的LLMs递归生成回答,但它们缺乏内在机制来对这些回答进行置信度评分。虽然可以通过累加序列中各个令牌的概率来推导出置信度,但传统方法在可靠区分正确与错误答案上通常不尽人意。但如果LLMs能评估自己的置信度,并只在确信的情况下进行预测呢? 选择性预测正是为此而生,它使LLMs能够输出答案及其正确概率的选择性评分。通过选择性预测,我们可以更好地理解LLMs在各种应用中的可靠性。之前的研究,如语义不确定性和自我评估,已尝试在LLMs中实现选择性预测。一种典型的方法是使用启发式提示,如“提出的答案是真是假?”来触发LLMs的自我评估。然而,这种方法在复杂的问答(QA)任务上可能效果不佳。 以OPT-2.7B模型为例,在TriviaQA数据集的一个问题上给出了错误答案:“哪种维生素有助于调节血液凝固?”,答案是“维生素C”。如果没有选择性预测,LLMs可能输出错误答案,就像这个例子中,可能会导致用户摄取错误的维生素。有了选择性预测,LLMs将输出答案及其选择性评分。如果评分低(0.1),LLMs会进一步输出“我不知道!”来提醒用户不要信任该答案,或使用其他来源进行验证。 在《EMNLP 2023会议发现》中提出的“通过自我评估的适应性改进LLMs中的选择性预测”一文中,我们介绍了ASPIRE——一种精心设计的新框架,旨在提升LLMs的选择性预测能力。ASPIRE通过参数高效的微调,训练LLMs在QA任务中评估其生成答案的正确性,并使LLMs能够输出答案及其置信度评分。我们的实验结果表明,ASPIRE在多种QA数据集上的表现显著优于现有的选择性预测方法,例如CoQA基准测试。 ASPIRE框架的机制 想象一下,如果教会大型语言模型(LLMs)不仅能回答问题,还能评估这些答案——就像学生在教科书后面核对答案一样。这就是ASPIRE的精髓,它包括三个阶段:(1)特定任务的调整,(2)答案采样,(3)自我评估学习。 特定任务的调整:ASPIRE执行特定任务的调整,训练可适应参数(θp),同时冻结LLM。给定一个针对生成性任务的训练数据集,它对预训练的LLM进行微调,以提高其预测性能。为此,可能会采用参数效率高的调整技术(例如,软提示调整和LoRA)来适应任务,因为这些技术在少量目标任务数据下仍能获得强大的泛化能力。具体来说,LLM参数(θ)被冻结,添加可适应参数(θp)进行微调。只更新θp以最小化标准LLM训练损失(例如,交叉熵)。这样的微调可以改善选择性预测性能,因为它不仅提高了预测准确性,还增强了正确输出序列的可能性。 答案采样:在特定任务调整之后,ASPIRE使用学习到的θp的LLM为每个训练问题生成不同的答案,并创建自我评估学习的数据集。我们的目标是生成具有高可能性的输出序列。我们使用束搜索(beam search)作为解码算法来生成高可能性的输出序列,并使用Rouge-L度量来确定生成的输出序列是否正确。 自我评估学习:在为每个查询采样高可能性输出后,ASPIRE添加可适应参数(θs),并仅微调θs来学习自我评估。由于输出序列的生成仅依赖于θ和θp,冻结θ和学习到的θp可以避免在学习自我评估时改变LLM的预测行为。我们优化θs,使得适应后的LLM可以自行区分正确和错误的答案。 ASPIRE框架的三个阶段。 在提出的框架中,θp和θs可以使用任何参数高效的调整方法进行训练。在这项工作中,我们使用软提示调整,这是一种简单但有效的机制,通过学习“软提示”来使冻结的语言模型更有效地执行特定的下游任务,而不是传统的离散文本提示。这种方法的驱动力在于,如果我们能够开发出有效激发自我评估的提示,那么通过软提示调整结合针对性训练目标,应该有可能发现这些提示。 通过软提示调整实现ASPIRE框架。我们首先使用第一个软提示生成问题的答案,然后用第二个软提示计算学习到的自我评估分数。 训练θp和θs后,我们通过束搜索解码获得查询的预测。然后我们定义一个选择分数,结合生成答案的可能性和学习到的自我评估分数(即预测对于查询的正确可能性),来进行选择性预测。 结果 为了展示ASPIRE的有效性,我们在三个问答数据集——CoQA、TriviaQA和SQuAD——上使用各种开放预训练的变换器(OPT)模型对其进行评估。通过软提示调整训练θp后,我们观察到LLMs准确性的显著提高。例如,使用ASPIRE适应的OPT-2.7B模型在CoQA和SQuAD数据集上的性能超过了更大的预训练OPT-30B模型。这些结果表明,通过适当的调整,小型LLMs可能具有在某些场景中匹敌甚至超越大型模型准确性的能力。 在计算固定模型预测的选择分数时,ASPIRE在所有数据集上的AUROC分数(随机选择的正确输出序列比随机选择的错误输出序列具有更高选择分数的概率)均高于基线方法。例如,在CoQA基准测试中,ASPIRE将AUROC从51.3%提高到80.3%,与基线相比有显著提升。 在TriviaQA数据集评估中出现了一个有趣的模式。虽然预训练的OPT-30B模型展示了更高的基线准确性,但当应用传统的自我评估方法——自我评估和P(True)——时,其选择性预测性能并没有显著提高。相比之下,经ASPIRE增强的较小的OPT-2.7B模型在这方面表现更佳。这一差异强调了一个重要的见解:使用传统自我评估技术的大型LLMs在选择性预测方面可能不如经ASPIRE增强的小型模型有效。 我们对ASPIRE的实验之旅突显了LLMs领域的一个重要转变:语言模型的容量并不是其性能的全部。相反,通过战略性调整,模型的有效性可以大幅提升,甚至在小型模型中也能实现更精确、更有信心的预测。因此,ASPIRE作为一个证明,展示了LLMs能够审慎地确定自身的确定性,并在选择性预测任务中果断地超越大型对手的潜力。 结论 总而言之,ASPIRE不仅仅是另一个框架;它是一个未来的愿景,即LLMs可以成为决策中值得信赖的伙伴。通过提高选择性预测性能,我们正在更接近于实现AI在关键应用中的全部潜力。 我们的研究打开了新的大门,我们邀请社区在此基础上继续建设。我们很高兴看到ASPIRE将如何激发下一代LLMs及其它更多。想了解更多我们的发现,请阅读我们的论文,并加入我们这个令人激动的旅程,共同创造一个更可靠、自我意识更强的AI。
AI大概不会很快抢走你的饭碗哦!
你们知道吗?在寻找不怕被机器人小哥哥小姐姐抢饭碗的工作上,咱们还是有很多选择的!最新研究小道消息来啦——来自MIT的大佬们和MIT-IBM沃森AI实验室的大神们联手告诉我们,即使是那些理论上能被AI完成的活儿,把人类小哥哥小姐姐换成机器人,在银子上可不划算呢。 来,咱们聊聊金钱与机器的这场较量。这项研究可是盯上了那些能被视觉识别AI处理的工作,比如说咱们的面包师傅在那儿检查面包的质量。为啥AI现在还没来接替这些工作呢?原因很简单,跟你去年夏天没能去看泰勒的演唱会一个道理:成本太高啦!研究发现: 1. 因为技术的高额起始费用,让AI来干活比直接给人工钱还要贵。2. 在所有靠眼力吃饭的工作里,只有23%的薪水是用在那些财务上划算的自动化任务上。 虽然这或许不完全适用于像ChatGPT这样的文字快手,但这个分析绝对能给那些经常被自动化的可怕统计数据吓得魂飞魄散的小伙伴们一些安慰。比如,国际货币基金组织最近估计,全世界差不多40%的工作都有可能至少被部分自动化。 但如果AI变得更实惠、更易于被 小公司使用,那么局面可能会有所改变,MIT的研究达人们发出了警告哦。- SK
给你婚戒?不,我要三星的智能戒指
智能手表长期以来在可穿戴设备界独领风骚。虽然智能戒指一直徘徊在边缘,但就在本周早些时候,三星在其Unpacked活动结束时预告了Galaxy Ring的问世。对我来说,这似乎表明三星渴望颠覆现有的可穿戴设备市场格局。 尽管三星只是展示了一个闪闪发光的戒指和带内一些明显的传感器的炫酷视频,而且在现场只透露了很少的细节,但这可能听起来有些夸张。然而,三星发言人Amber Reaver在一封电子邮件中告诉我,这款戒指旨在“通过简化的日常健康管理方式,赋予更多人力量”。其中一部分是通过较长时间内提供持续准确的跟踪数据——因此采用了更小的形态因子。Reaver还指出,这款戒指将配备“领先的传感器技术”,并且舒适到足以24/7佩戴。在Unpacked活动上,一些人还看到了一个原型机,分析师Avi Greengart指出,它轻便、提供三种表面处理,尺寸最大可达13号,预计今年晚些时候上市。 这听起来非常像Oura Ring —— Oura也知道这一点。Galaxy Ring宣布后不久,Oura首席执行官Tom Hale向The Verge发出了这样一份未经请求的声明: 随着定期发布的新功能,Oura在智能戒指硬件和软件方面拥有最强大的知识产权组合,拥有100项已授权专利、270项待审专利申请和130多项注册商标。新玩家进入这个领域是对这一类别的认可,并激励我们更高目标,服务于我们的会员和社区。 Hale说得对。竞争是一种认可形式——而Oura很快就得与众多新玩家竞争。上周在CES上,我认为2024年将是智能戒指的一年,因为我在展会上看到的智能戒指比以往任何时候都多。然而,很容易忽视一大群小公司对潮流的追随。但像三星这样的科技巨头也认为这种形态因子有潜力,则是另一回事。 如果你仔细想想,这很容易理解。智能戒指更为低调,更适合于睡眠跟踪,比智能手表好得多。(三星在过去两年也一直在加强其睡眠跟踪功能。)你手指的下侧也是跟踪血氧和心率的更准确位置。随着智能手表越来越受欢迎,我听到很多读者渴望拥有更简单的跟踪器,而不是充当他们手机的延伸。考虑到苹果在智能手表市场的垄断地位,对于三星来说,试图在只有一个主要但仍相对小众的玩家的新形态因子中占据一席之地是明智之举。因为细节不多,很难说三星如何将Galaxy Ring纳入其更大的可穿戴产品组合中。不过,我可以看到它成为Galaxy Watch的一个配件。例如,Amazfit Helio是一款智能戒指,既可以作为独立跟踪器使用,也可以与现有智能手表配对。这个说法是,当你准备睡觉时,你可以把智能手表放到充电器上,不用担心错过睡眠跟踪。这对三星来说也是一个自然的选择,特别是因为它可以轻松创建一个折扣的可穿戴设备捆绑包。(当谷歌在Pixel手机中加入Pixel Watch时,这种方法已经足够有效了。) 这也是Oura将更难竞争的一个领域。虽然Oura Ring可以与其他智能手表配合使用,但你需要像Apple Health或Google Health这样的第三方应用来将每个设备的数据汇总在一起。这意味着你的手机上会有多个应用程序。你可能不喜欢被锁定在一个生态系统中,但拥有Galaxy手机、Galaxy Watch和Galaxy Ring的便利性是可以通过Samsung Health应用查看所有内容。 如果三星成功,你可以打赌其他主要公司也会跟进。如果是这样的话,我们对智能戒指的看法最终可能会从独立设备转变为其他设备的更多配件。我们将不得不看看一切如何发展,直到Galaxy Ring今年晚些时候上市。但我个人很高兴看到这个已经停滞太久的领域有了一些动静。
OpenAI的CEO萨姆·奥特曼正忙着为一系列人工智能芯片工厂筹资
OpenAI的大佬萨姆·奥特曼正在与全球投资者谈判,计划筹集超过80亿美元,建立一个全球性的芯片制造网络,以解决人工智能芯片生产的供需问题。 由于生产能力不足,芯片制造公司无法满足市场需求。幸运的是,奥特曼的计划可能有助于平衡供需关系,让人工智能项目能够持续快速发展。 听起来,萨姆·奥特曼可是在策划一场“芯片革命”呢!他们这波操作仿佛时尚圈的“重磅发布”,不仅吸引了无数目光,而且可能会彻底改变我们对AI的期待和使用。这就像是看到了一个全新的“科技秀场”,让人期待不已!
这款应用声称能够利用人工智能翻译宝宝的哭声哦
一家新公司声称,它们的手机应用可以“翻译”宝宝的哭声,并告诉你宝宝是饿了、不舒服、累了还是需要换尿布。在2024年拉斯维加斯消费电子展(CES)上,Cappella公司展示了它们的技术,声称使用人工智能和机器学习来解读婴儿的需求。 据Cappella公司介绍,它们的技术准确率大约为95%,而一般人尝试猜测宝宝需求的准确率大约只有30%。当然,这个数字也要打个问号,毕竟谁了解宝宝还是你自己最清楚。如果你觉得应用的判断不正确,可以在Cappella应用中点击“我不同意”按钮。 这款应用的费用为每月10美元,Cappella还在努力研究温度——也就是宝宝因为太热或太冷而哭闹的另一个数据点。另一款声称可以翻译宝宝哭声的产品Qbear+,去年在CES上展出,并且赢得了创新奖。这里的重大区别在于,你不需要购买新设备:你可以在自己的手机上使用Cappella应用。你还可以将Cappella用作更通用的育儿应用,它可以追踪睡眠、喂养和换尿布的情况。它还在研究使用人工智能安抚宝宝。 Cappella网站上写道:“我们的突破性人工智能驱动的婴儿哭声翻译器,能准确理解宝宝的需求,并使用人工智能生成的声音安抚您的小宝贝,无需您时刻关注。” Cappella已经在苹果应用商店上架,你也可以在谷歌Play商店加入安卓应用的等待名单。 https://apps.apple.com/us/app/cappella/id6461013190
2024科技行业裁员风波总结!
2024年,科技行业裁员潮依旧汹涌不息。 据【https://layoffs.fyi/】数据显示,全球共有7785名员工在58家科技公司中失业。包括谷歌(Google)、亚马逊(Amazon)和Unity等科技巨头在内,都开始了大规模的裁员行动。为什么?主要是为了削减成本、提高效率,以及适应不确定的劳动市场。尽管美国失业率保持在3.7%的历史低点,但近几个月的就业增长却显示出放缓迹象。过去三个月新增的工作岗位数量都低于2023年的月平均水平! 这里有一份令人难过的名单:– 我们刚进入2024年的第二周,谷歌就裁减了数千个职位。1月11日星期四,谷歌(GOOG)(GOOGL)正式确认在其语音助手、硬件和工程团队中进行大规模裁员。此外,1月17日谷歌又宣布在广告团队裁掉数百名员工,并从YouTube部门裁掉了100名员工。公司将这些裁员归因于与全球角色裁减同步的组织变革,这与其当前的产品优先级相符。– 亚马逊(AMZN)计划在其媒体部门进行裁员,包括Prime Video和MGM Studios。亚马逊的子公司Twitch据报道将裁掉500名员工,占其劳动力的35%,因为它在应对成本上升和社区反弹方面遇到困难,继2023年的裁员后又一次。此外,Audible的员工也被宣布裁减5%。与其技术对手Alphabet类似,亚马逊在前一年也执行了多次裁员。– 自谷歌于2021年以21亿美元收购Fitbit后,Fitbit的联合创始人James Park和Eric Friedman据报道即将离职,原因是与苹果(AAPL)手表的激烈竞争。– Treasure Financial在12月确认裁员,影响了14名员工,占公司人员的60%至70%。– Duolingo承认用AI替换了其10%的合同工作人员。– Rent the Runway计划在重组中裁减约10%的企业职位。他们的运营总监和总裁即将辞职。– Unity在2023年进行了三轮裁员后,将减少其约25%的劳动力!– Pitch裁掉了其三分之二的员工,因为这家德国初创公司在CEO Christian Reber卸任后改变了方向。– BenchSci,一家AI和生物医学初创公司,据报道在1月8日裁掉了其17%的劳动力,原因是经济变动。– Flexe在1月8日裁减了38%的员工,继2023年9月的裁员后又一次。– 核反应堆公司NuScale宣布减少28%的员工。– 汽车供应链公司Trigo将裁掉其15%的劳动力。– 曾值20亿美元的设计合作初创公司InVision将在2024年底关闭。:(– VideoAmp在与尼尔森(Nielsen)就媒体测量问题以及首席执行官Ross McCray离职的斗争中,将裁掉近20%的员 工。– Orca Security计划裁掉大约15%的员工,尽管有计划重新安置一些受影响的员工。– 以“住你想住”的口号为标志的Frontdesk讽刺地停止了一切前进的步伐,并在1月2日裁掉了其整个200人的劳动力。它会关闭吗?– 施乐(Xerox,XRX)在今年第一季度宣布将裁减其15%的员工,作为全面重组计划的一部分。此举旨在增强和稳定核心打印业务,通过新的全球业务服务组织提高生产力,并将数字服务和IT服务能力引向更有利可图的市场。这次重组是在施乐第三季度销售额同比下降6%之后进行的。– 除了美国的科技巨头外,印度电子商务公司Flipkart也裁掉了1100名员工。 更多裁员?Meta的首席执行官将2023年命名为“效率之年”,这是在大流行后大型科技公司大量裁员的背景下。以下是自COVID-19以来最大规模裁员的列表(来源:https://layoffs.fyi/) 自COVID-19以来最大规模的前10次裁员。来源:https://layoffs.fyi/正如你所看到的,血腥大屠杀还没有结束。在2024年1月17日向员工发送的一份内部备忘录中,Alphabet首席执行官Sundar Pichai通知谷歌的员工要预期更多的裁员,尽管规模不及2023年,也不会影响每个团队。高利率被列为裁员的主要因素之一,讽刺的是,大流行期间前所未有的招聘也是原因之一。 不仅仅是科技行业进行了裁员。花旗集团(Citigroup)在2024年1月12日宣布,在未来两年内将裁掉20000名员工,原因是2023年第四季度亏损18亿美元。嗯,一个季度亏损18亿美元确实很痛,痛到流血,这次是2万名员工。 2022年至2024年间的科技裁员(来源:https://layoffs.fyi/)但对于大多数科技公司来说,重组并非由亏损驱动。谷歌和亚马逊的股价现在接近历史最高点。核心原因是为了效率、敏捷性和更清晰的重点进行重组。 我们正处于AI技术的拐点。科技公司正在进行重大重组,以适应并加速发展。 在某种意义上,是AI在夺走你的工作,只是不完全像我们最初担心的那样。
谷歌AI的临床沟通能力超越人类医生——并且提供了更准确的诊断
一项训练有素的人工智能(AI)系统进行医疗访谈的表现,与人类医生对话和根据病人的医疗历史列出可能的诊断方面,相匹配甚至超越了人类医生的表现。 这个基于谷歌开发的大型语言模型(LLM)的聊天机器人,在诊断呼吸系统和心血管疾病等条件方面,比获得认证的初级保健医生更准确。与人类医生相比,它在医疗访谈中获取了相似量的信息,并在同理心方面得分更高。 “我们是否已准备好迎接ChatGPT治疗师?” 谷歌健康部门的临床研究科学家、该研究共同作者Alan Karthikesalingam表示:“据我们所知,这是第一次设计一个对话AI系统,为诊断对话和获取临床病史进行了最佳化设计。”该研究于1月11日发表在arXiv预印本存储库上,尚未经过同行评审。 这个名为Articulate Medical Intelligence Explorer(AMIE)的聊天机器人仍然纯粹是实验性的。它还没有在真正有健康问题的人身上进行测试——只在接受训练以模拟医疗条件的演员身上进行了测试。Karthikesalingam说:“我们希望结果被谨慎且谦卑地解释。” 尽管这个聊天机器人还远未用于临床护理,作者们认为,它最终可能在民主化医疗保健中发挥作用。这个工具可能是有帮助的,但它不应该取代与医生的互动,哈佛医学院的内科医生Adam Rodman说。“医学不仅仅是收集信息——它还包括人际关系。” 学习微妙的任务 很少有努力利用LLMs进行医学研究,探索这些系统是否可以模仿医生获取病人病史并使用它来进行诊断的能力。Rodman说:“这是培养医生最重要和最难的技能之一。” 开发者面临的一个挑战是缺乏可用作训练数据的真实世界医疗对话,谷歌健康部门的AI研究科学家、研究共同作者Vivek Natarajan说。为了应对这一挑战,研究人员设计了一种让聊天机器人自己进行“对话”的方法。 研究人员进行了一轮基础LLM的微调,使用了现有的真实世界数据集,如电子健康记录和转录的医疗对话。为了进一步训练模型,研究人员引导LLM扮演特定条件的患者和旨在了解患者病史并制定潜在诊断的富有同理心的临床医生的角色。 团队还要求模型扮演另一个角色:评估医生与接受治疗的人的互动并提供改进互动的反馈的评论家。这种 批评用于进一步训练LLM并生成改进的对话。 为了测试系统,研究人员招募了20名接受过训练以模仿病人的人,并让他们进行在线文字咨询——既与AMIE进行交流,也与20名获得认证的临床医生进行交流。他们不知道自己是在与人类还是机器人聊天。 这些演员模拟了149种临床场景,然后被要求评估他们的体验。一组专家也评估了AMIE和医生的表现。 AMIE在测试中表现出色 AI系统在考虑的所有六个医学专业中达到或超越了医生的诊断准确性。在26个对话质量标准中,机器人在24个方面表现优于医生,包括礼貌、解释病情和治疗、表现得诚实以及表达关心和承诺。 Karthikesalingam说:“这绝不意味着语言模型在获取临床病史方面比医生做得更好。”他指出,研究中的初级保健医生可能不习惯通过文字聊天与病人互动,这可能影响了他们的表现。 相比之下,LLM有能够快速构建长篇且结构完美的答案的不公平优势,Karthikesalingam说,这使得它能够始终保持考虑周到而不感到疲倦。 急需:无偏见的聊天机器人 他说,研究的重要下一步是进行更详细的研究,评估潜在的偏见,并确保系统在不同人群中公平。谷歌团队也开始研究用真实的医疗问题测试系统的伦理要求。 新加坡国立大学医学院的临床AI科学家Daniel Ting同意,探索系统偏见至关重要,以确保算法不会对训练数据集中代表性不足的种族群体造成歧视。 Ting说,聊天机器人用户的隐私也是一个重要方面。他说:“对于目前很多这样的商业大型语言模型平台,我们仍然不确定数据存储在哪里以及如何被分析。”