在最近的一次突破中,谷歌与DeepMind共同发布了一篇关于他们最新的人工智能工具的开放获取论文,这些工具专门为医疗领域设计。谷歌的研究团队大胆推出了名为Med-Gemini的模型,这还只是个试验品呢,却已经在14个流行的行业基准测试中打破了常规,实力不容小觑。 别看其他大型语言模型在面对不确定的临床推理时显得力不从心,Med-Gemini却能提供更准确、可靠且细腻的结果。比如,在MedQA这个广受欢迎的基准测试中,它的准确率高达91.1%,简直让其他竞争对手,包括GPT-4都自愧不如。 这个模型系列不仅在医疗文本总结和编写转诊信方面超越了人类,就连临床医生也评价Med-Gemini-M 1.0的回答有一半是不输专家的水平。最引人注目的是,Med-Gemini在处理电子健康记录中的复杂查询任务上有着出色的表现,能够长距离处理大文本并整合搜索功能,有效减轻医护人员的认知负担,提升他们处理海量病人数据时的效率。 例如,在一次实际应用中,有患者上传了一张皮肤病变的照片询问诊断,Med-Gemini不仅向患者提出了一系列问题,还给出了可能的诊断结果和治疗方案。当一名皮肤科医生审查了这一互动后,对Med-Gemini给出的诊断和治疗建议大加赞赏,尤其是对于稀有疾病如结节性瘙痒症的精准诊断和全面的治疗方案表示印象深刻。 尽管如此,谷歌坦承,他们的模型在真正投入医疗领域使用前还需要更多的微调和专业化改进。同时,谷歌也在积极探索如何在模型开发过程中整合负责任的AI原则,确保未来的AI在公平、隐私、平等、透明度和责任感等方面都能达到标准。这场智能革命,才刚刚开始!
Author: aitrendtrackers@rengongzhineng.io
ChatGPT遇上了CRISPR
想象一下,修改你的基因就像更新手机操作系统一样简单。多亏了CRISPR技术的创新,这个未来正敲响我们的门。 本周,Profluent公司和斯坦福大学的研究人员宣布了基因编辑技术的重大突破。借助先进的人工智能,他们设计了一套新的CRISPR模型(最强大的基因编辑工具),有望彻底改变精准医疗。 向传统方法说再见吧。传统上,研究人员需要在自然界中——热泉、人类肠道微生物群,你能想到的任何地方——寻找可能产生新CRISPR系统的生物。这种方法虽然是基础,但速度慢且资源消耗大。 现在,生成性AI模型正在引领CRISPR研究。 AI的加入标志着一个关键性的转变: 经过大量蛋白质和基因组序列训练的AI模型,现在已经精通于解码遗传模式。 利用这些数据,AI正在生成新的CRISPR设计,这些设计的表现超过了传统工具,确保了更精确的编辑,并显著降低了意外效果的风险。 最引人注目的明星产品是OpenCRISPR-1。OpenCRISPR是一种采用AI设计的尖端基因编辑酶。它的特别之处在哪里?它可以高效地编辑基因,且比传统工具出错率更低。更棒的是,OpenCRISPR-1是开源的,这意味着个人、学术实验室和公司都可以免费试验这项技术。
佐治亚理工学院与Meta合作创建了一个庞大的开源数据集,以推动碳捕获领域的人工智能解决方案
为了避免灾难性的气候影响,必须解决过度的碳排放问题。目前,仅仅减少排放已经不足以应对挑战。直接空气捕获技术(Direct Air Capture, DAC),这一技术能从周围空气中直接提取二氧化碳,显示出解决这一问题的巨大潜力。 但这项技术面临一个重大挑战。对于直接空气捕获技术来说,每种环境和地点都需要特定的设计。例如,德克萨斯州的直接空气捕获配置必然与冰岛的不同。这些系统必须根据每个地点的湿度、温度和气流的具体参数进行设计。 现在,佐治亚理工学院和Meta合作,创建了一个庞大的数据库,可能使设计和实施直接空气捕获技术变得更加容易和快速。这个开源数据库使团队能够训练一个比现有化学模拟快数个数量级的AI模型。该项目名为OpenDAC,可能会加速地球迫切需要的气候解决方案。 该团队的研究发表在《美国化学会中央科学杂志》上。 “对于直接空气捕获,有许多关于如何最好地利用特定环境的气流和温度变化的想法,”化学与生物分子工程学院(ChBE)副教授、论文的主要作者安德鲁·J·梅德福德说。“但一个主要问题是找到一种材料,在每种环境的特定条件下都能有效捕获碳。” 他们的想法是“创建一个数据库和一套工具,帮助广大工程师找到合适的材料,”梅德福德说。“我们希望利用计算机从不知道从哪里开始到提供一份可靠的材料列表,让他们合成并尝试。” 该数据库包含8400种不同材料的反应数据,几乎使用了4000万个量子力学计算,团队认为这是同类数据中最大、最稳健的数据集。 构建合作关系(和数据库) Meta的基础AI研究(FAIR)团队的研究人员一直在寻找利用他们的机器学习能力解决气候变化问题的方法。他们认为直接空气捕获是一项有前景的技术,并需要找到一位在材料化学方面具有碳捕获专长的合作伙伴。他们直接找到了佐治亚理工学院。 ChBE教授、Oak Ridge国家实验室转型脱碳倡议的负责人大卫·肖尔是金属有机框架(MOFs)领域的世界顶尖专家之一。MOFs因其笼状结构和已证实的吸引并捕捉二氧化碳的能力,被认为是直接空气捕获的有前途材料。肖尔将专门应用机器学习模型于原子和量子力学模拟的梅德福德博士引入项目。 肖尔、梅德福德及其学生提供了数据库的所有输入。因为数据库预测MOF的相互作用和这些互动的能量输出,所需的信息相当多。他们需要知道几乎所有已知MOF的结构——包括MOF本身的结构和MOF与二氧化碳及水分子相互作用的结构。“要预测一种材料可能的作用,你需要知道每一个原子的位置和它的化学元素是什么,”梅德福德说。 下载: https://github.com/Open-Catalyst-Project/ocp/
一款名为“gpt2-chatbot”的神秘AI模型突然出现在LMSYS聊天机器人竞技场上
最近,社交媒体上开始流传有关一款名为“gpt2-chatbot”的神秘聊天机器人的消息,该机器人出现在LMSYS聊天机器人竞技场。一些人猜测,这可能是OpenAI即将推出的GPT-4.5或GPT-5大型语言模型(LLM)的秘密测试版本。目前的付费版ChatGPT由GPT-4 Turbo提供支持。 这款新模型目前只能通过聊天机器人竞技场网站以限制方式使用。在网站的“并排”竞技模式中,用户可以有意选择这个模型,gpt2-chatbot的查询限制为每天八次,这极大地限制了人们对其进行详细测试的能力。 到目前为止,gpt2-chatbot已经在网上引发了许多传言,包括它可能是GPT-4.5或甚至GPT-5的秘密测试版本的发布,或者可能是使用新技术训练的2019年的GPT-2的新版本。我们联系了OpenAI寻求评论,但在截稿时间前没有收到回复。周一晚上,OpenAI的CEO Sam Altman似乎暗示了什么,他在推特上写道:“我确实对gpt2情有独钟。” 最初的报道首次出现在4chan上,随后传播到X等社交媒体平台,随之而来的是炒作。AI开发者Pietro Schirano在X上写道:“它不仅显示出令人难以置信的推理能力,而且在回答那些著名的棘手AI问题时,语气回答更令人印象深刻。”不久,Reddit上就出现了帖子,声称新模型的能力超过了竞技场上的所有其他LLM。 对于这些传言感到好奇,我们决定亲自尝试这款新模型,但结果并不令人印象深刻。当询问关于“Benj Edwards”的问题时,与GPT-4 Turbo的输出相比,该模型显示出一些错误和一些语言上的尴尬。请求五个原创的爸爸笑话也未能达到预期。此外,gpt2-chatbot并未明确通过我们的“洋红色”测试(“如果没有洋红镇,这种颜色会被称为‘洋红色’吗?”)。 因此,无论它是什么,它可能不是GPT-5。我们已经看到其他人在进一步测试后得出相同的结论,他们说这款新的神秘聊天机器人似乎并没有代表超越GPT-4的重大能力飞跃。“Gpt2-chatbot很好,真的很好,”HyperWrite的CEO Matt Shumer在X上写道。“但如果这是gpt-4.5,我会感到失望。” 不过,OpenAI的痕迹似乎遍布这款新机器人。“我认为这很可能是OpenAI的一次秘密预览,”AI研究员Simon Willison告诉Ars Technica。但是“gpt2”究竟是什么,他也不知道。在审视在线猜测后,似乎除了其创造者之外,没有人确切知道这个模型是什么。 Willison发现了该AI模型的系统提示,该提示声称它基于GPT-4并由OpenAI制作。但正如Willison在推特上指出的那样,这并不能保证出处,因为“系统提示的目的是影响模型以特定方式行为,而 不是提供关于其自身的真实信息。”
最新研发的 OpenVoice V2 声音克隆模型
最近,MIT CSAIL、MyShell.ai 和清华大学的研究人员联合开发了一款名为 OpenVoice V2 的划时代文字转语音模型,这款工具可以跨语言进行声音克隆。想象一下,你只需一小段音频样本,这款工具就能模仿出说话人的声音,而且无需对该说话人进行额外训练。它不仅支持英语、西班牙语、法语、中文、日语和韩语,还能在不依赖参考说话者风格的情况下,精细控制声音的各种风格,包括情感和口音。 传统的自回归模型虽然在复制音色方面效果显著,但计算成本高,处理速度慢,而非自回归方法如 YourTTS 和 Voicebox 虽然推理速度更快,但在风格控制方面表现不佳。此外,跨语言的声音克隆还需要庞大的数据集,这限制了新语言的加入。封闭源代码的项目也阻碍了领域内的合作进展。 OpenVoice V2 通过将音色克隆与风格和语言控制分离,实现了操作的简化。该模型包括一个基础的说话者文字转语音模型和一个音色转换器。通过这种结构,OpenVoice V2 不仅在实现跨语言克隆的同时维持了计算效率,还能实时进行声音合成。 总的来说,OpenVoice V2 在提高音频质量、支持多种语言的同时,还免费向商业用户开放了 V1 和 V2 的使用权。通过这些创新,OpenVoice V2 不仅在音色克隆上取得了突破,还在风格控制和跨语言克隆方面设立了新的标杆。 去试试:https://huggingface.co/myshell-ai/OpenVoiceV2
微软近日宣布一项重磅政策:禁止美国警察部门通过其企业级人工智能工具进行面部识别
微软最近在其 Azure OpenAI 服务的使用条款中加入了新的措辞,明确禁止美国警察部门通过这一服务使用生成性人工智能进行面部识别。这项政策变动引发了广泛关注,人们对于技术与隐私的边界再次展开了讨论。 在这项服务的条款更新中,微软不仅限制了在美国境内警方使用面部识别技术,还特别提到了全球的执法机构,明确禁止在移动摄像头上使用实时面部识别技术,比如执法人员的随身摄像头和车载摄像头,尤其是在复杂多变的户外环境中尝试识别个人。 此外,这次更新还对可能会影响民权的技术应用提出了警告,尤其是在种族偏见的问题上。批评者指出,即便是最先进的生成性人工智能模型,也存在制造虚假信息(俗称“臆想”)的风险,而且如果训练数据本身存在偏见,那么由此生成的结果可能会加剧种族歧视,这对于颜色人种来说尤其不利,因为他们被警察拦截的几率远高于白人。 尽管微软的新政策在美国实施了完全禁令,但对于国际警察的限制并不是绝对的。条款中留有余地,允许在控制环境中使用固定摄像头进行面部识别,比如办公室内部,这表明微软在面对不断扩展的人工智能应用时,仍在谨慎探索技术的边界。 微软与 OpenAI 的合作关系也在不断深化。据报道,OpenAI 正在与五角大楼合作,开发包括网络安全在内的多项技术。此外,微软还提议使用 OpenAI 的图像生成工具 DALL-E 来帮助美国国防部开发执行军事操作的软件。 总之,微软这一政策的更新反映了科技企业在权衡技术创新与社会责任之间的复杂抉择。随着人工智能技术的不断进步和应用范围的扩大,如何在增强执法效率与保护个人隐私之间找到平衡点,无疑是未来科技发展的一大挑战。
微软宣布将与Sanctuary AI合作,携手打造通用型人形机器人
微软最近宣布与Sanctuary AI合作开发通用型人形机器人。Sanctuary AI以其人形机器人“凤凰”而闻名。这次合作将聚焦于研发大型行为模型(LBM),这种模型类似于大型语言模型(LLM),但它们帮助机器人从现实世界环境和经验中学习,而不是仅从计算机模拟中学习。 在这一合作中,Sanctuary AI将贡献其深厚的机器人开发技术专长和经验——包括其开发的“机器人大脑”Carbon(由LBM驱动)——而微软则将通过其Azure云资源为AI工作负载(包括培训、网络和存储)提供动力。 微软研究院副总裁兼总经理阿什利·洛伦斯表示:“通过我们的合作,Sanctuary AI将能够使用微软Azure的基础设施和服务,探索可在多种用例和行业中提供帮助的通用机器人的未来。” 关于Sanctuary AI:Sanctuary AI致力于创建世界上第一台具有类人智能的通用机器人。去年,该公司首次在商业环境中试用其通用人形机器人,将其凤凰机器人部署在加拿大最大的零售商之一,执行前台、物流和仓库任务。迄今为止,凤凰已在15个不同行业完成了400多个客户定义的任务,包括汽车、制造和物流行业。 最近,Sanctuary AI还与Magna建立了试点合作关系,将其最新版本的凤凰机器人引入汽车工厂。 微软为何要与Sanctuary AI合作:微软在今年2月领投了其竞争对手FigureAI的6.75亿美元B轮融资,显然对AI特别是机器人技术的开发充满承诺。微软创始人比尔·盖茨本人今年早些时候也谈到了他对人形机器人的兴趣,尽管他没有提到Sanctuary AI,但提到了其竞争对手Agility和Apptronik。 洛伦斯补充道:“我们很高兴能与Sanctuary AI合作,加速AI模型创新和具体AI研究,在推理、计划和人机合作等领域取得进展。”
微软的CTO曾向CEO发出警告对谷歌在人工智能领域的进步感到“非常、非常担忧”
微软与OpenAI的多年多亿美金合作,很可能源于害怕谷歌在人工智能竞赛中独占鳌头,这是从一封电子邮件中透露出来的。 这封在周二公开的电子邮件,是美国司法部针对谷歌的反垄断案件的一部分,内容大部分被审查,但从中可以看出,微软的首席技术官凯文·斯科特对比起搜索引擎巨头谷歌,对公司的人工智能能力感到忧心忡忡。 2019年,斯科特在给微软首席执行官萨提亚·纳德拉和联合创始人比尔·盖茨的邮件中写道:“当我深入了解谷歌和我们在模型训练方面的所有能力差距时,我变得非常非常担忧。”他表示,最初对OpenAI、DeepMind(2014年被谷歌收购)以及谷歌大脑等公司扩展其人工智能雄心的努力持“高度轻视”态度,但在发现微软“不能轻易复制”这些公司正在构建的自然语言处理(NLP)模型后,“开始认真对待”。 斯科特提到,尽管他们有模型的模板,但“因为我们的基础设施不够好,我们花了大约6个月的时间才训练出模型”。在微软弄清楚如何训练该模型的同时,已经提前六个月拥有BERT的谷歌,“用了一年的时间来弄明白如何投入生产,并且转向更大规模、更有趣的模型”,他写道。 斯科特还提到,谷歌Gmail应用中的自动补全功能“变得让人害怕地好”,这得益于类似BERT的模型,这些模型正提升谷歌的竞争力。 虽然微软有“非常聪明”的员工专注于其不同团队的机器学习,但“这些更大团队中的核心深度学习团队非常小”,在扩大规模到谷歌的水平之前,还有很长的路要走,斯科特在主题为“对OpenAI的思考”的邮件中写道。“我们在机器学习规模方面落后于竞争对手好几年。” 纳德拉回复了这封邮件,并抄送给微软首席财务官艾米·胡德,写道:“这是一封非常好的邮件,解释了为什么我希望我们这么做……也说明了我们将如何确保我们的基础设施团队执行。” 2019年7月,微软对OpenAI进行了首次投资,金额为10亿美元,支持该公司构建人工通用智能(AGI)的努力。通过这一合作,OpenAI表示微软将成为其独家云提供商,并且双方将共同开发Microsoft Azure的AI超级计算能力。 目前,微软、谷歌和OpenAI尚未立即回应置评请求。
全球范围内,Google开始运用人工智能(AI)来进行可靠的洪水预测
在危机时刻,人们常常依赖谷歌搜索来获取准确而有用的信息,以保护自己和家人。洪水是自然灾害中最常见的类型,全球近15亿人,即大约世界人口的19%,直接面临重大洪水事件的风险。此外,洪水还对经济造成巨大损失,全球每年的经济损失约为500亿美元。 在大部分历史时期,由于问题的复杂性、资源和数据的缺乏,规模化的准确洪水预测是不可能的。考虑到世界上只有少部分河流安装了流量计,这为发展中国家以及服务不足和弱势社区的人们增加了安全障碍。 在今天发表的一篇《自然》杂志的论文中,研究者们分享了人工智能如何帮助扩大洪水预测的规模,并为受气候变化影响最严重的地区提供帮助。研究发现,人工智能帮助他们提供了更准确的河流洪水信息,最长可预测到7天后。这使他们能够在80个国家的460万人口区域内提供洪水预测。在可能的情况下,他们还通过谷歌搜索、谷歌地图以及安卓系统通知提供预测信息。 论文在研究博客中有更详细的描述——展示了谷歌研究所开发的基于AI的全球水文技术,如何相对于当前最先进的技术显著提高洪水预测的准确性。这一点甚至对于那些可靠的洪水相关数据稀缺的国家也是有效的,使得在全球范围内扩展洪水预测成为可能。早期警报系统可以显著地帮助减少人员伤亡,而且更长的预警时间对社区非常有帮助。通过这些技术,他们平均将目前可用的全球即时预报的可靠性从零延长到五天,并且能够使用基于AI的预测技术在非洲和亚洲的部分地区改善预测,使其达到目前在欧洲可用的水平。 如今,这些信息可以被个人、社区、政府和援助组织用来采取预防措施,帮助保护弱势群体。达到这一成就并不容易,尤其是在数据稀缺和洪水影响特别大的地区。今天,随着最新论文的发布,研究团队回顾了他们使用人工智能准确预测河流洪水的旅程中的一些关键时刻: 他们的第一个试点项目在印度进行,从中学到了宝贵的一课。研究工作始于印度比哈尔邦帕特纳地区的初步试点。比哈尔邦是印度洪水灾害最严重的州之一,大量人口生活在反复发生的严重洪水威胁之下。通过与当地政府官员合作并使用当地的实时数据,他们在2018年将洪水预测整合进了谷歌公共警报中。 从历史事件、河流水 位读数到特定区域的地形和海拔等多种因素被输入预测模型。接着,他们在每个位置生成地图,并运行了高达数十万次的模拟,以创建河流洪水预测模型。 这种方法旨在为特定地点建立高度准确的模型,同时他们的目标是解决全球规模的问题。他们的假设是,机器学习可以帮助解决全球范围内扩大洪水预测的挑战。 随后,他们开始与研究和科学社区合作,旨在将最佳的基于水文物理的洪水模拟与他们的人工智能方法相结合。基于他们的研究和长短期记忆网络(LSTMs)在提供准确洪水预测方面的有望发展,他们开始构想一个全球性的端到端洪水预测平台,即使在缺乏洪水测量设施的世界地区也能提供可信赖和可靠的信息。 随着时间的推移,洪水预测得到了进一步扩展,但仍受限于本地数据的可用性。继印度初试成功后,他们逐步扩展了在该国和孟加拉的预测覆盖范围,覆盖了3.6亿人口。当时,他们能提供最多48小时的预测,这得益于他们预测技术的重大进步。但在每种情况下,他们的模型都依赖于本地流量数据的可用性,这使得将预测扩展到其他国家变得困难。 转向全球基于AI的洪水预测模型并扩展到超过80个国家意识到依赖本地数据的洪水预测存在的障碍以及人工智能研究的进步,他们的团队转向了一个雄心勃勃的全球模型。这需要使用全球数据来源来训练他们的模型,并使用LSTM网络,目标是预测即使在不提供本地流量测量的地区也能发生的洪水。 2022年,他们启动了Flood Hub平台,该平台在20个国家——包括15个非洲国家——提供预测,这些地区之前由于缺乏全球数据而严重限制了预测的进行。 一年后,即2023年,他们在非洲、亚太地区、欧洲以及南美和中美洲新增了60个国家的位置,覆盖了全球约4.6亿人口。如今,这些预测在Flood Hub上实时免费提供给许多发展中国家的弱势社区。多亏了他们全球基于AI模型的进步,现在非洲的洪水预测接近欧洲的水平。
沃尔玛新推出的店内人工智能正在向员工提供如何在为时过晚之前销售产品的建议
沃尔玛最近宣布,为了解决食品和零售行业的浪费问题,他们决定利用人工智能来大展拳脚。这个大盒子零售巨头正在推出一种店内人工智能工具,可以帮助员工处理从香蕉成熟度到季节性时尚打折的一切事务。 这项由沃尔玛内部开发的人工智能技术,可以让员工扫描像香蕉这样的生鲜产品,通过生成性AI,数字仪表盘会提供处理建议,省去了人工决策的麻烦。Swati Kirti,沃尔玛国际科技数据科学高级主管表示,这种AI工具可以帮助员工进行数据驱动的主动决策,从而减少店内的浪费。 AI可能会建议员工调整价格,或者根据政策将产品退还给供应商,或者建议捐赠作为最佳处理结果。 不仅仅是食品,这种扫描器还可以用于季节性商品,如服装。Kirti指出,服装对季节变化非常敏感,迅速做出决策以减少浪费是非常重要的。 这个项目将很快在加拿大试点,希望不久后能扩展到其他国家。美国每年大约有6000万吨食品被丢弃,约占国家食品供应的40%,而且食品浪费是美国垃圾填埋场中占比最大的单一项目,约占市政固体废物的22%。沃尔玛的目标是到2025年在美国、加拿大和墨西哥消除运营浪费,这三个国家产生了其全球运营浪费的94%。 美国居民每年还丢弃约1130万吨的服装废物。Sravana Karnati,沃尔玛国际技术全球技术高级副总裁兼首席技术官表示,使用像我们的AI驱动的废物管理系统这样的工具有助于减少我们的环境足迹,减少社会资源的使用,同时帮助降低我们自己的运营成本。 此外,沃尔玛还实施了“回收”计划,允许顾客打包他们不再需要的旧衣物并寄送给沃尔玛。沃尔玛的慈善分支机构沃尔玛基金会还与Goodwill合作,回收无法销售的纺织品。 沃尔玛并不是唯一使用AI来解决店内浪费问题的公司,许多初创公司也在开发工具来解决这一日益增长的问题。例如,Winnow通过监控垃圾桶中的浪费帮助餐馆、酒店和零售连锁店优化他们的消费和采购;Shelf Engine则监控易腐食品的SKU(标准化产品代码),从而更容易追踪这些物品在变质之前的状态,并帮助避免热门商品缺货。