X(原推特)现在利用 Elon Musk 的 AI 聊天机器人 Grok 为其 Explore 部分的个性化热门故事提供摘要功能。根据 X 工程团队周五发布的公告和截图,X 的高级订阅用户将能够查看 Explore 中 For You 页面每个热门故事的相关帖子摘要。 For You 页面展示用户网络中的热门新闻和故事,并提供其他推荐内容。它是 X 用户想快速了解平台上讨论内容的首选,无需长时间滚动时间线。 举个例子,TechCrunch 的读者在 For You 页面可能会看到有关苹果即将举行的 iPad 活动、微软的安全改革以及 AI 工程师倦怠的故事。当你点击查看各个故事的相关帖子时,页面顶部会出现一个由 Grok 提供的故事摘要,概述该主题。 例如,在有关 AI 倦怠的故事中,Grok 摘要开篇指出:“AI 工程师正面临倦怠和仓促发布的情况,因为科技行业的竞争加剧导致公司优先考虑投资者满意度,而不是解决实际问题。” 在简单提及 AI “内卷”的问题后,故事总结指出“批评者认为,在追求 AI 投资时,适当的保障措施和创新不应成为事后的考虑。” 搞笑的是,摘要下方会显示一条信息:“Grok 可能会出错,请核实其输出。” 这种趋势总结的想法并不新鲜,但使用 AI 聊天机器人来处理摘要则是新的。此前,Twitter 于 2020 年开始为其趋势增加标题和描述,但未借助 AI 机器人,而是由 Twitter…
Author: aitrendtrackers@rengongzhineng.io
开源模型 Prometheus 2 能够评估其他语言模型,其效果几乎与 GPT-4 相当
Prometheus 2 是一款开源的语言模型,经过优化能够评估其他语言模型的表现,逐渐与 GPT-4 等商业模型相媲美。 这种评估方式为研究人员和开发者提供了客观的测量标准,并能够针对模型的优缺点提供详细反馈,以实现精准改进,进而不断提升语言模型的质量与可靠性。 目前,像 GPT-4 这样的专有模型通常被用于评估,但因其封闭性、不易控制和价格高昂,使许多人望而却步。韩国 KAIST AI 的金承元团队打造了 Prometheus 2,旨在为大家提供透明、独立、详细的语言模型评估工具。 Prometheus 2 模仿人类和 GPT-4 等模型,掌握了两种常用的评估方法:直接评估(使用评分量表打分)和成对比较(判断两个回答中哪个更优)。 定制评估标准,灵活应用 Prometheus 2 支持根据用户定义的标准进行评估,不局限于“有用性”“无害性”等通用指标,使其可以满足特定应用的优化需求。举例来说,在医疗咨询聊天机器人领域,它可以被用于考量“可信度”“共情力”和“专业准确度”等标准,从而开发出适合不同应用场景的高质量语言模型。 新数据集与混合权重 为了训练 Prometheus 2,研究团队创建了一个名为 “Preference Collection” 的全新成对比较数据集,涵盖超过 1000 种不同的评估标准。最佳效果来自于两个独立模型的联合训练:直接评分模型基于 Feedback Collection 数据集,成对比较模型则基于 Preference Collection 数据集。通过将这两个模型的权重合并,达到了最佳评估效果。 在包含四个直接评分数据集和四个成对比较数据集的测试中,Prometheus 2 在所有可用的评估模型中,显示出与人类判断和商业语言模型最为一致的结果。 虽然在许多测试中落后于 GPT-4 和 Claude 3 Opus,但 Prometheus 2 成功缩小了与这些商业模型之间的差距。 公平与透明的评估工具 Prometheus 2 的代码与数据都已开放至 GitHub…
Amazon Bedrock的进化:更多选择与新特性,助力生成式AI应用更快落地
亚马逊Bedrock自一年多前首次亮相以来,为开发生成式人工智能(AI)应用提供了一种全新的方式。它拥有最全面的第一方和第三方基础模型(FMs)以及便捷的功能,是构建和扩展安全生成式AI应用的最快捷方式。如今,成千上万的客户正在使用Amazon Bedrock构建和扩展令人印象深刻的应用,快速、安全、便捷地推进他们的AI战略。我们通过为Amazon Bedrock添加更多模型选择和新特性,进一步支持他们的努力,使客户更容易找到合适的模型、定制符合特定用例的模型,并确保生成式AI应用的安全和扩展性。 各个行业的客户正实现显著进展,从金融到旅游与酒店、医疗保健到消费技术领域,客户们都在积极利用生成式AI应用改善客户体验并提高运营效率。例如,纽约证券交易所(NYSE)利用Amazon Bedrock的基础模型和AI技术来处理成千上万页的法规文档,为用户提供易于理解的答案。 全球航空公司联合航空(United Airlines)利用Bedrock现代化其乘客服务系统,将传统预订代码翻译成简单明了的英语,以便代理商能够快速高效地提供客户支持。全球信息与分析服务提供商LexisNexis Legal & Professional开发了一款基于Lexis+ AI的个性化法律生成式AI助手。LexisNexis的客户能够比竞争产品更快地获得可靠的结果,每周可节省最多五个小时的法律研究和总结时间。在线帮助台软件HappyFox选择Amazon Bedrock的安全性和性能,将其客户支持解决方案中的AI自动票务系统效率提升40%,客服代理的生产力提高30%。 在亚马逊内部,我们也在利用生成式AI不断创新,为客户提供更具沉浸感的体验。上周,亚马逊音乐推出了Maestro,一款由Amazon Bedrock驱动的AI播放列表生成器,为亚马逊音乐订阅用户提供更轻松有趣的方式通过提示词创建播放列表。Maestro目前在美国的少量用户中进行测试。 我们专注于客户构建生产就绪型、企业级生成式AI应用所需的关键领域。在模型选择、生成式AI应用构建工具以及隐私和安全性等方面,我们推出了一系列新功能: 此次发布的更多模型选择和特性将帮助客户更快、更轻松地构建和扩展生成式AI应用。亚马逊Bedrock的早期使用者已经在不同领域取得了重要进展,推动生产力提升、开创各个领域的创新并带来更优质的客户体验。我非常期待看到客户如何利用这些新功能继续创新。正如我导师Werner Vogels常说的那样:“现在,去构建吧!”
IBM收购HashiCorp:开源工具的未来与“好软件的坟墓”
听到IBM收购HashiCorp的消息后,感觉就像进入了IBM那片“好软件的坟墓”一样。刚听到谣言时,就开始担心自己最喜欢的基础设施即代码(IaC)工具的未来。显而易见,HashiCorp一直在苦苦挣扎,2023年亏损达2.74亿美元。这无疑导致他们在2023年8月选择了备受争议的BSL许可证,并由此引发了社区分支OpenTofu的诞生。HashiCorp并非孤例,Redis也采用了类似策略,最终导致Valkey分支的出现,而Elasticsearch也经历了许可证变更的风波。 开源货币化的挑战 这些公司在如何有效货币化其开源工具方面面临困难,这揭示了一个神话:免费软件并不存在。虽然有不少软件可供免费使用,并且在宽松的许可证下可以修改代码,但开发者编写代码需要付出时间,而时间通常需要报酬。 开源项目通常依赖于大型科技公司提供的工程师或资金支持,例如Linux基金会的成员公司,或谷歌仍是Kubernetes项目的最大贡献者。谷歌可以做到这一点,因为它经营依赖该技术的服务并通过Google Kubernetes Engine获利。 HashiCorp的困境与IBM的收购问题 HashiCorp长期以来无法有效货币化其免费工具,使得很多用户对Terraform Cloud产品的付费意愿不高,即使它具有一些优势。 IBM收购HashiCorp带来了几大问题。首先是利益冲突。IBM有自己的云业务,虽然市场份额仅为1.8%。他们为何要继续开发有利于竞争对手的工具?其次,IBM收购史上充满失败案例,例如收购Redhat后改变了CentOS的政策,直接摧毁了这款曾经流行的发行版的市场份额。过去还有Lotus Software等例子,这使对IBM管理HashiCorp缺乏信心。 未来该何去何从? 面对类似VMware价格上涨后的状况,眼下来到了一个十字路口。要么继续坚持使用Terraform,在IBM尝试新的货币化策略时继续观望;要么寻找替代的IaC工具。替代方案中,OpenTofu无疑是一个短期“补救”措施。Pulumi是另一种选择,但对其可持续的商业模式表示担忧。Crossplane则以Kubernetes为中心,采用与Terraform类似的“供应商驱动”方法,CNCF的支持为其提供了一定保障,但主要由Upbound贡献的开发力量同样让人心存疑虑。 另一种选择是“走本地化路线”,采用AWS、Azure或Google Cloud各自的IaC工具。最大的问题在于碎片化,Terraform的吸引力在于其统一的配置语言,以及供应商适配的API抽象。 看法 “开放的Terraform”应由能够从中获益的各方支持开发。OpenTofu已经得到了Gruntwork等公司的支持,希望未来更多大型云提供商也能加入,他们是实际从Terraform中获益最多的群体。许多云提供商已经深度参与开发Terraform的供应商接口,扩展至工具本身并非难事。但他们是否会走这一步仍是未知之数,收购消息刚传出,我们只能拭目以待。
沃伦·巴菲特表示,人工智能诈骗将成为下一个“大型增长产业”
沃伦·巴菲特对人工智能的潜力保持谨慎态度,还没有跟风加入这股潮流。他在伯克希尔哈撒韦公司年度股东大会上警告该技术的潜在危害。 巴菲特提到:“如果你考虑到诈骗的潜力……如果我对投资诈骗感兴趣,那么这将成为有史以来增长最快的行业,而这在某种程度上是由AI推动的。”他担心这种技术可以生成逼真且具有误导性的内容,诱导人们向不法分子汇款。 骗子们已经在使用AI的声音克隆和深度伪造技术,篡改视频和图像,冒充受害者的家人和朋友,骗取金钱和个人信息。 “显然,AI也有积极的一面,但……作为一个完全不了解它的人,我认为它具有巨大的潜力,无论是利还是弊——只是我无法预见事情如何发展。”巴菲特补充道。 5月3日,巴菲特现身于内布拉斯加州奥马哈的伯克希尔哈撒韦年度股东大会现场。 过去一年里,华尔街一直热议AI,因为投资者认为它能为未来带来更高的利润。在这波热潮中,Nvidia和Meta的股价自2022年底以来,分别上涨了507%和275%。 然而,巴菲特坦言他对AI并不熟悉,并将其潜力与20世纪的原子弹相提并论。“我对AI一无所知。这并不意味着我否认它的存在或重要性。”他以谨慎的语调说道,“当我们开发核武器时,我们已经让精灵从瓶子里跑出来了,而这个精灵最近在做一些可怕的事情。它的力量吓坏了我。” “我不知道有什么办法能让这个精灵重新回到瓶子里,而AI在某种程度上与之相似。它已经部分从瓶子里出来了,具有极大的重要性,总有人会去推动它……它是否会改变未来社会,我们迟早会知道的。”
谷歌与DeepMind携手开创医疗AI新篇章:Med-Gemini模型的前沿探索
在最近的一次突破中,谷歌与DeepMind共同发布了一篇关于他们最新的人工智能工具的开放获取论文,这些工具专门为医疗领域设计。谷歌的研究团队大胆推出了名为Med-Gemini的模型,这还只是个试验品呢,却已经在14个流行的行业基准测试中打破了常规,实力不容小觑。 别看其他大型语言模型在面对不确定的临床推理时显得力不从心,Med-Gemini却能提供更准确、可靠且细腻的结果。比如,在MedQA这个广受欢迎的基准测试中,它的准确率高达91.1%,简直让其他竞争对手,包括GPT-4都自愧不如。 这个模型系列不仅在医疗文本总结和编写转诊信方面超越了人类,就连临床医生也评价Med-Gemini-M 1.0的回答有一半是不输专家的水平。最引人注目的是,Med-Gemini在处理电子健康记录中的复杂查询任务上有着出色的表现,能够长距离处理大文本并整合搜索功能,有效减轻医护人员的认知负担,提升他们处理海量病人数据时的效率。 例如,在一次实际应用中,有患者上传了一张皮肤病变的照片询问诊断,Med-Gemini不仅向患者提出了一系列问题,还给出了可能的诊断结果和治疗方案。当一名皮肤科医生审查了这一互动后,对Med-Gemini给出的诊断和治疗建议大加赞赏,尤其是对于稀有疾病如结节性瘙痒症的精准诊断和全面的治疗方案表示印象深刻。 尽管如此,谷歌坦承,他们的模型在真正投入医疗领域使用前还需要更多的微调和专业化改进。同时,谷歌也在积极探索如何在模型开发过程中整合负责任的AI原则,确保未来的AI在公平、隐私、平等、透明度和责任感等方面都能达到标准。这场智能革命,才刚刚开始!
ChatGPT遇上了CRISPR
想象一下,修改你的基因就像更新手机操作系统一样简单。多亏了CRISPR技术的创新,这个未来正敲响我们的门。 本周,Profluent公司和斯坦福大学的研究人员宣布了基因编辑技术的重大突破。借助先进的人工智能,他们设计了一套新的CRISPR模型(最强大的基因编辑工具),有望彻底改变精准医疗。 向传统方法说再见吧。传统上,研究人员需要在自然界中——热泉、人类肠道微生物群,你能想到的任何地方——寻找可能产生新CRISPR系统的生物。这种方法虽然是基础,但速度慢且资源消耗大。 现在,生成性AI模型正在引领CRISPR研究。 AI的加入标志着一个关键性的转变: 经过大量蛋白质和基因组序列训练的AI模型,现在已经精通于解码遗传模式。 利用这些数据,AI正在生成新的CRISPR设计,这些设计的表现超过了传统工具,确保了更精确的编辑,并显著降低了意外效果的风险。 最引人注目的明星产品是OpenCRISPR-1。OpenCRISPR是一种采用AI设计的尖端基因编辑酶。它的特别之处在哪里?它可以高效地编辑基因,且比传统工具出错率更低。更棒的是,OpenCRISPR-1是开源的,这意味着个人、学术实验室和公司都可以免费试验这项技术。
佐治亚理工学院与Meta合作创建了一个庞大的开源数据集,以推动碳捕获领域的人工智能解决方案
为了避免灾难性的气候影响,必须解决过度的碳排放问题。目前,仅仅减少排放已经不足以应对挑战。直接空气捕获技术(Direct Air Capture, DAC),这一技术能从周围空气中直接提取二氧化碳,显示出解决这一问题的巨大潜力。 但这项技术面临一个重大挑战。对于直接空气捕获技术来说,每种环境和地点都需要特定的设计。例如,德克萨斯州的直接空气捕获配置必然与冰岛的不同。这些系统必须根据每个地点的湿度、温度和气流的具体参数进行设计。 现在,佐治亚理工学院和Meta合作,创建了一个庞大的数据库,可能使设计和实施直接空气捕获技术变得更加容易和快速。这个开源数据库使团队能够训练一个比现有化学模拟快数个数量级的AI模型。该项目名为OpenDAC,可能会加速地球迫切需要的气候解决方案。 该团队的研究发表在《美国化学会中央科学杂志》上。 “对于直接空气捕获,有许多关于如何最好地利用特定环境的气流和温度变化的想法,”化学与生物分子工程学院(ChBE)副教授、论文的主要作者安德鲁·J·梅德福德说。“但一个主要问题是找到一种材料,在每种环境的特定条件下都能有效捕获碳。” 他们的想法是“创建一个数据库和一套工具,帮助广大工程师找到合适的材料,”梅德福德说。“我们希望利用计算机从不知道从哪里开始到提供一份可靠的材料列表,让他们合成并尝试。” 该数据库包含8400种不同材料的反应数据,几乎使用了4000万个量子力学计算,团队认为这是同类数据中最大、最稳健的数据集。 构建合作关系(和数据库) Meta的基础AI研究(FAIR)团队的研究人员一直在寻找利用他们的机器学习能力解决气候变化问题的方法。他们认为直接空气捕获是一项有前景的技术,并需要找到一位在材料化学方面具有碳捕获专长的合作伙伴。他们直接找到了佐治亚理工学院。 ChBE教授、Oak Ridge国家实验室转型脱碳倡议的负责人大卫·肖尔是金属有机框架(MOFs)领域的世界顶尖专家之一。MOFs因其笼状结构和已证实的吸引并捕捉二氧化碳的能力,被认为是直接空气捕获的有前途材料。肖尔将专门应用机器学习模型于原子和量子力学模拟的梅德福德博士引入项目。 肖尔、梅德福德及其学生提供了数据库的所有输入。因为数据库预测MOF的相互作用和这些互动的能量输出,所需的信息相当多。他们需要知道几乎所有已知MOF的结构——包括MOF本身的结构和MOF与二氧化碳及水分子相互作用的结构。“要预测一种材料可能的作用,你需要知道每一个原子的位置和它的化学元素是什么,”梅德福德说。 下载: https://github.com/Open-Catalyst-Project/ocp/
一款名为“gpt2-chatbot”的神秘AI模型突然出现在LMSYS聊天机器人竞技场上
最近,社交媒体上开始流传有关一款名为“gpt2-chatbot”的神秘聊天机器人的消息,该机器人出现在LMSYS聊天机器人竞技场。一些人猜测,这可能是OpenAI即将推出的GPT-4.5或GPT-5大型语言模型(LLM)的秘密测试版本。目前的付费版ChatGPT由GPT-4 Turbo提供支持。 这款新模型目前只能通过聊天机器人竞技场网站以限制方式使用。在网站的“并排”竞技模式中,用户可以有意选择这个模型,gpt2-chatbot的查询限制为每天八次,这极大地限制了人们对其进行详细测试的能力。 到目前为止,gpt2-chatbot已经在网上引发了许多传言,包括它可能是GPT-4.5或甚至GPT-5的秘密测试版本的发布,或者可能是使用新技术训练的2019年的GPT-2的新版本。我们联系了OpenAI寻求评论,但在截稿时间前没有收到回复。周一晚上,OpenAI的CEO Sam Altman似乎暗示了什么,他在推特上写道:“我确实对gpt2情有独钟。” 最初的报道首次出现在4chan上,随后传播到X等社交媒体平台,随之而来的是炒作。AI开发者Pietro Schirano在X上写道:“它不仅显示出令人难以置信的推理能力,而且在回答那些著名的棘手AI问题时,语气回答更令人印象深刻。”不久,Reddit上就出现了帖子,声称新模型的能力超过了竞技场上的所有其他LLM。 对于这些传言感到好奇,我们决定亲自尝试这款新模型,但结果并不令人印象深刻。当询问关于“Benj Edwards”的问题时,与GPT-4 Turbo的输出相比,该模型显示出一些错误和一些语言上的尴尬。请求五个原创的爸爸笑话也未能达到预期。此外,gpt2-chatbot并未明确通过我们的“洋红色”测试(“如果没有洋红镇,这种颜色会被称为‘洋红色’吗?”)。 因此,无论它是什么,它可能不是GPT-5。我们已经看到其他人在进一步测试后得出相同的结论,他们说这款新的神秘聊天机器人似乎并没有代表超越GPT-4的重大能力飞跃。“Gpt2-chatbot很好,真的很好,”HyperWrite的CEO Matt Shumer在X上写道。“但如果这是gpt-4.5,我会感到失望。” 不过,OpenAI的痕迹似乎遍布这款新机器人。“我认为这很可能是OpenAI的一次秘密预览,”AI研究员Simon Willison告诉Ars Technica。但是“gpt2”究竟是什么,他也不知道。在审视在线猜测后,似乎除了其创造者之外,没有人确切知道这个模型是什么。 Willison发现了该AI模型的系统提示,该提示声称它基于GPT-4并由OpenAI制作。但正如Willison在推特上指出的那样,这并不能保证出处,因为“系统提示的目的是影响模型以特定方式行为,而 不是提供关于其自身的真实信息。”
最新研发的 OpenVoice V2 声音克隆模型
最近,MIT CSAIL、MyShell.ai 和清华大学的研究人员联合开发了一款名为 OpenVoice V2 的划时代文字转语音模型,这款工具可以跨语言进行声音克隆。想象一下,你只需一小段音频样本,这款工具就能模仿出说话人的声音,而且无需对该说话人进行额外训练。它不仅支持英语、西班牙语、法语、中文、日语和韩语,还能在不依赖参考说话者风格的情况下,精细控制声音的各种风格,包括情感和口音。 传统的自回归模型虽然在复制音色方面效果显著,但计算成本高,处理速度慢,而非自回归方法如 YourTTS 和 Voicebox 虽然推理速度更快,但在风格控制方面表现不佳。此外,跨语言的声音克隆还需要庞大的数据集,这限制了新语言的加入。封闭源代码的项目也阻碍了领域内的合作进展。 OpenVoice V2 通过将音色克隆与风格和语言控制分离,实现了操作的简化。该模型包括一个基础的说话者文字转语音模型和一个音色转换器。通过这种结构,OpenVoice V2 不仅在实现跨语言克隆的同时维持了计算效率,还能实时进行声音合成。 总的来说,OpenVoice V2 在提高音频质量、支持多种语言的同时,还免费向商业用户开放了 V1 和 V2 的使用权。通过这些创新,OpenVoice V2 不仅在音色克隆上取得了突破,还在风格控制和跨语言克隆方面设立了新的标杆。 去试试:https://huggingface.co/myshell-ai/OpenVoiceV2