生成式AI是人工智能中的一个重要领域,专注于开发能够生成类似人类文本并解决复杂推理任务的系统。这些模型在自然语言处理等多个应用中至关重要,其主要功能是预测文本序列中的后续单词,生成连贯的文本,甚至解决逻辑和数学问题。然而,尽管这些模型在许多方面表现出色,但在准确性和可靠性上仍存在挑战,尤其是在推理任务中,一个小错误就可能导致整个解决方案的失效。 生成式AI模型的一个显著问题是,它们常常会生成看似自信但实际上错误的输出。这一挑战在对精确性要求极高的领域(如教育、金融和医疗)中尤为关键。模型无法始终生成正确答案,这削弱了它们在高风险应用中的潜力。因此,提升这些AI系统的准确性和可靠性成为研究人员的首要任务,以增强AI生成解决方案的可信度。 为了解决这些问题,目前的方法包括使用判别式奖励模型(RMs),这些模型通过评分来判断潜在答案的正确性。然而,这些方法并未充分利用大型语言模型(LLMs)的生成能力。另一种常见方法是LLM-as-a-Judge,它利用预训练语言模型来评估解决方案的正确性。虽然这种方法发挥了LLM的生成能力,但在需要细致判断的推理任务中,往往不如专门的验证器。 谷歌DeepMind、多伦多大学、MILA和加州大学洛杉矶分校的研究人员引入了一种名为生成式奖励建模(GenRM)的新方法。该方法通过将验证过程重新定义为一个下一词预测任务,充分利用了LLMs的核心能力。与传统的判别式RMs不同,GenRM将LLMs的文本生成优势融入验证过程中,使模型能够同时生成和评估潜在解决方案。这种方法还支持Chain-of-Thought(CoT)推理,模型在得出最终结论前生成中间推理步骤,从而不仅评估了解决方案的正确性,还通过更详细和结构化的评估提升了整体推理过程。 GenRM方法采用了一个统一的训练方法,结合了解决方案生成和验证的过程。通过下一词预测训练模型来预测解决方案的正确性,这种技术利用了LLMs固有的生成能力。在实际操作中,模型会生成中间推理步骤(CoT推理),这些步骤随后用于验证最终的解决方案。这一过程与现有的AI训练技术无缝集成,允许同时改进生成和验证能力。此外,GenRM模型还受益于推理时的额外计算,如通过多数投票聚合多个推理路径,以得出最准确的解决方案。 特别是在与CoT推理结合时,GenRM模型的表现显著超越了传统的验证方法。在一系列严格测试中,包括与小学数学和算法问题解决相关的任务,GenRM模型在准确性上显示出了显著提升。研究人员报告称,与判别式RMs和LLM-as-a-Judge方法相比,正确解决问题的比例增加了16%到64%。例如,在验证Gemini 1.0 Pro模型的输出时,GenRM方法将问题解决成功率从73%提升到92.8%。这一显著的性能提升表明,该模型能够减轻标准验证器在复杂推理场景中经常忽略的错误。此外,研究人员观察到,随着数据集规模和模型容量的增加,GenRM模型能够有效扩展,进一步增强其在各种推理任务中的适用性。 总之,谷歌DeepMind研究人员引入的GenRM方法标志着生成式AI领域在解决推理任务相关验证挑战方面的重大进展。GenRM模型通过将解决方案生成和验证统一为单一过程,提供了更可靠和准确的复杂问题解决方案。这种方法不仅提高了AI生成解决方案的准确性,还增强了整体推理过程,使其成为未来多领域AI应用中的重要工具。随着生成式AI的不断发展,GenRM方法为进一步的研究和发展奠定了坚实的基础,尤其是在精确性和可靠性至关重要的领域。
推动主权AI:NVIDIA助力全球AI基础设施本地化发展
为了确保AI系统能够反映本地的价值观和法规,越来越多的国家开始制定主权AI战略,利用自己的基础设施、数据和专业知识开发AI技术。为支持这一趋势,NVIDIA推出了四款全新的NVIDIA NIM微服务。 这些微服务旨在简化生成式AI应用程序的创建和部署,支持区域定制的社区模型。通过增强对本地语言和文化细微差别的理解,它们承诺为用户提供更深度的参与体验,生成更准确和相关的响应。 这一举措正值亚太地区生成式AI软件市场预计将迎来爆炸式增长之际。据ABI Research预测,该地区的收入将从今年的50亿美元激增至2030年的480亿美元。 NVIDIA的新产品包括两个区域语言模型:Llama-3-Swallow-70B(基于日本数据训练)和Llama-3-Taiwan-70B(优化用于普通话)。这些模型旨在更好地理解本地法律、法规和文化复杂性。 此外,NVIDIA还推出了RakutenAI 7B模型系列,以支持日本语言市场。这些模型基于Mistral-7B,结合了英语和日语数据进行训练,并以两种不同的NIM微服务形式提供,分别用于聊天和指令功能。值得注意的是,Rakuten的模型在2024年1月至3月期间的LM评估基准测试中,在所有开放的日本大型语言模型中取得了最高平均分。 在区域语言上训练大型语言模型(LLMs)对于提高输出效果至关重要。通过准确反映文化和语言的细微差别,这些模型能够实现更精确和更具层次感的沟通。与Llama 3等基础模型相比,这些区域变体在理解日语和普通话、处理区域法律任务、回答问题以及翻译和总结文本方面表现更优。 全球推动主权AI基础设施的浪潮已在新加坡、阿联酋、韩国、瑞典、法国、意大利和印度等国家中得到充分体现,显著投资正不断涌入这一领域。 东京工业大学全球科学信息与计算中心的教授Rio Yokota表示:“LLMs不仅仅是提供普遍利益的机械工具,它们更像是与人类文化和创造力互动的智力工具。这种影响是双向的,模型不仅受到我们训练数据的影响,我们的文化和生成的数据也会被LLMs影响。因此,开发符合我们文化规范的主权AI模型至关重要。NVIDIA NIM微服务中提供的Llama-3-Swallow模型将使开发人员能够轻松地访问并在各行业的日本应用中部署该模型。” NVIDIA的NIM微服务使企业、政府机构和大学能够在本地环境中托管本土LLMs。开发人员可以借此创建高级的智能助理、聊天机器人和AI助手。这些微服务在NVIDIA AI Enterprise平台上提供,并使用开源的NVIDIA TensorRT-LLM库进行推理优化,承诺提升性能和加快部署速度。 Llama 3 70B微服务(即新推出的Llama-3-Swallow-70B和Llama-3-Taiwan-70B的基础模型)展示了显著的性能提升,吞吐量高达5倍,转化为降低的运营成本和通过减少延迟提升的用户体验。
AI聆听健康:Google如何通过声音信号预测疾病早期症状
Google的AI部门正在探索一种名为“生物声学”的新领域,这个领域结合了生物学和声音,帮助研究人员了解病原体如何影响人体发出的声音。据报道,人的声音中蕴含着关于健康状况的重要信息。 根据彭博社的报道,这家搜索引擎巨头开发了一种利用声音信号来“预测疾病早期症状”的AI模型。在那些难以获得优质医疗服务的地区,这项技术可以作为替代方案,用户只需使用智能手机的麦克风即可进行健康检测。 Google的这款基于生物声学的AI模型名为HeAR(Health Acoustic Representations)。HeAR模型训练了3亿个2秒长的音频样本,包括咳嗽、鼻塞、打喷嚏和呼吸模式。这些音频剪辑来自YouTube等平台的非版权、公开可用内容。例如,其中一个样本是记录赞比亚一家医院患者声音的视频,病人在那里接受肺结核筛查。HeAR模型已经通过1亿个咳嗽声样本进行了训练,以帮助检测肺结核。 据彭博社报道,生物声学能够提供“几乎难以察觉的线索”,揭示出细微的疾病迹象,这些迹象可以帮助医务人员诊断患者。此外,AI模型还能检测患者咳嗽模式的微小差异,从而发现疾病是否有好转或恶化的早期迹象。 Google正在与印度的AI医疗初创公司Salcit Technologies合作。Salcit拥有一款名为Swaasa的AI模型(在梵语中意为“呼吸”),该公司正利用Swaasa来提高HeAR在肺结核和肺部健康筛查方面的准确性。 Swaasa提供了一款移动应用程序,用户可以提交10秒钟的咳嗽样本。根据Salcit的联合创始人Manmohan Jain的说法,该应用程序能够以94%的准确率判断一个人是否患有疾病。 这种基于声音的测试费用为2.40美元,比在印度诊所进行的约35美元的肺活量测定测试便宜得多。 然而,HeAR也面临一些挑战。例如,Google和Salcit仍在努力解决用户提交的音频样本背景噪音过大的问题。 尽管Google的生物声学AI模型距离“市场就绪”还有一段距离,但不得不承认,将AI与声音结合应用于医疗领域的概念无疑是创新且充满前景的。
当敏捷开发遇上AI
多年来,敏捷软件开发一直被视为一种高效的方式来交付业务所需的软件。这种实践在许多组织中已经运作了二十多年,并且也是Scrum、DevOps等协作实践的基础。然而,敏捷方法在人工智能(AI)设计和实施中的效果可能并不理想。 根据全球政策智库兰德公司(RAND Corporation)最近的一份报告,敏捷开发可能成为AI项目成功的障碍。这项研究基于对65位拥有至少五年AI和机器学习模型开发经验的数据科学家和工程师的采访,最初是为美国国防部进行的,并于2024年4月完成。报告的共同作者,兰德公司的高级技术政策分析师James Ryseff指出,AI项目常常陷入困境,甚至无法启动。 有趣的是,许多AI专家认为正式的敏捷软件开发实践会阻碍AI项目的成功。研究发现,受访者中有不少人认为,敏捷开发过程中一些严格的解释并不适用于AI项目。尽管敏捷软件运动的初衷并不是要发展出僵化的流程,但许多组织却要求其工程团队普遍遵循相同的敏捷流程。结果,某些工作任务要么在下一次冲刺中重新开启,要么被缩减得极其小而变得毫无意义,难以适应一到两周的冲刺周期。尤其是AI项目需要一个不确定时间的数据探索和实验阶段,这与敏捷开发的节奏并不匹配。 兰德的研究还提出了其他可能限制AI项目成功的因素。尽管IT项目的失败已被广泛记录,但AI项目的失败具有不同的特征,如昂贵的劳动力和资本需求、高算法复杂性等,使其不同于传统的信息系统。此外,AI项目的高知名度可能增加利益相关者想要了解项目风险驱动因素的愿望。 研究团队指出,AI项目失败的主要原因包括:行业利益相关者对AI要解决的问题理解不清或沟通不畅;组织缺乏训练有效AI模型所需的数据;过度关注最新技术而忽视了解决实际问题;基础设施不足以管理数据和部署AI模型;以及技术应用于AI难以解决的复杂问题。AI并不是万能的,有些困难的问题,即使是最先进的AI模型也无法自动解决。 尽管正式的敏捷实践可能过于繁琐,但IT和数据专业人员仍需要与业务用户保持开放的沟通。受访者建议,技术团队应经常与业务合作伙伴沟通项目的状态,而不是盲目采用现有的软件工程流程。开放的沟通不仅有助于建立信任,还能增加项目成功的可能性。 兰德团队还建议选择“持久性问题”,并在启动AI项目之前,准备好至少一年时间来解决特定问题。如果一个AI项目不值得这种长期承诺,那么可能根本不值得开始。此外,虽然专注于业务问题而非技术解决方案至关重要,但组织也必须在支持AI工作的基础设施上进行投资。
亚马逊求助Claude:借助Anthropic的AI重塑Alexa
亚马逊计划在10月推出全新升级版Alexa,以迎接美国假日购物季的到来。据知情人士透露,此次新版本的Alexa将主要由Anthropic公司开发的Claude人工智能模型驱动,而不是使用亚马逊自家的AI技术。 根据之前的报道,亚马逊计划对这款名为“Remarkable”的新版本Alexa收取每月5到10美元的费用,因为它将使用强大的生成式AI来回答复杂问题,而经典版的语音助手则仍将免费提供。不过,早期使用自家软件的Alexa版本在回应用户指令时表现不佳,有时需要六到七秒才能回应。因此,亚马逊选择了表现更优的Claude模型来提升用户体验。 亚马逊发言人在回应采访时表示,公司使用多种技术来支持Alexa,包括自家开发的模型以及合作伙伴的技术,如Anthropic的Claude。虽然亚马逊通常更倾向于使用自家开发的技术,以确保对用户体验和数据的完全控制,但这次与Anthropic的合作显示出其在AI领域追赶竞争对手的决心。 新款Alexa计划在10月正式推出,预计将在9月的亚马逊年度设备和服务发布会上进行预览。这也是新任设备主管Panos Panay的首次重大公开亮相。虽然亚马逊尚未公布具体的发布会日期,但业内普遍期待此次发布会能够展示更强大的AI功能,包括支持更复杂的对话、个性化推荐以及更智能的家居自动化功能。 然而,亚马逊的内部团队对消费者是否愿意为目前免费的服务支付每年60至120美元的费用持怀疑态度,特别是在许多用户已经为Prime会员支付了每年139美元的情况下。尽管如此,亚马逊仍然希望通过这次升级,使Alexa不仅能更好地服务于用户的日常需求,还能成为智能家居的核心枢纽,从而推动销售增长并在激烈的AI竞赛中占据一席之地。
极客时间:打造一个通过AutoGen多代理群聊实现的互动职业教练
过去几周,已经在使用AutoGen进行实验,以了解其功能和潜在应用。本周末,将带领大家一起创建一个基于AutoGen框架的互动职业教练。目标是构建一个能够与用户进行有意义对话的聊天机器人,通过多个专门化代理的协作来提供职业建议。系统的设计重点在于,一个代理与用户直接互动,而其他代理在幕后协作生成信息丰富的回复。 这种方法能够模拟多学科职业教练的体验,使对话更加丰富和动态。通过利用每个代理的特长,确保用户获得全面且可操作的建议。 开始吧… 步骤1:设置开发环境首先,需要设置一个Python环境以运行代码。按照以下步骤操作: 步骤2:定义代理为每个代理创建单独的Python文件。以下是PassionAgent的一个示例: 以此方式为ObstacleAgent、BalanceAgent和ValuesAgent分别创建文件。 步骤3:配置群聊接下来,在group_chat.py文件中设置GroupChat和GroupChatManager,让这些代理能够协作: 步骤4:实现UserProxyAgent创建user_proxy_agent.py文件,定义UserProxyAgent,这个代理将直接与用户互动: 步骤5:编写主要对话逻辑最后,创建main.py文件,管理用户与代理之间的互动: 步骤6:运行聊天机器人运行main.py文件以启动聊天机器人: 一些有趣的问题 未来改进方向 为了进一步提升聊天机器人的质量,可以考虑实现检索增强生成(RAG),将检索方法与生成模型相结合,从知识库中提取相关信息,提升回复的准确性和上下文相关性。例如,RAG在生成上下文相关的回复时特别有用,可以从知识库中提取最新的行业趋势或特定领域的建议。另一种方法是对模型进行专门数据集的微调,使其在职业教练相关领域生成更有针对性和深度的建议,尤其是在领导力、职业转型或工作与生活平衡等方面。此外,加入上下文记忆功能,可以使聊天机器人记住过去互动中的关键信息,从而在未来对话中提供更个性化和上下文相关的建议。这些改进将显著提升机器人提供有价值、一致且以用户为中心的建议的能力。 结论 通过这个设置,可以模拟一个简短的职业教练互动,利用多个代理提供个性化建议。然而,如前所述,仍然有许多未知问题需要解决和改进的空间。这可能还需要1-2周或更长时间的实验,但过程既具有挑战性,又非常有趣。 享受编程的乐趣吧!
自2023年以来增长10倍,Llama已成为AI创新的引擎先锋
关键要点: Llama模型至今下载量接近3.5亿次(相比去年同期增长超过10倍),仅上个月就有超过2000万次下载,使Llama成为领先的开源模型系列。从2024年5月到7月Llama 3.1发布期间,Llama的代币使用量在我们主要的云服务提供商伙伴中增长了两倍以上。2024年1月至7月间,Llama的月度使用量(以代币量计算)在一些最大的云服务提供商中增长了10倍。距离我们发布Llama 3.1仅一个多月的时间,这个版本扩展了上下文长度至128K,增加了对八种语言的支持,并推出了首个前沿级开源AI模型Llama 3.1 405B。正如我们在Llama 3和Llama 2发布时所做的那样,今天我们分享一下Llama模型在各领域的采用和发展趋势。 Llama的成功归功于开源的力量。通过开放Llama模型的使用,我们见证了一个充满活力和多样性的AI生态系统的诞生,开发者们比以往拥有更多选择和能力。创新已广泛而迅速地展开,从初创公司打破边界,到各类企业使用Llama构建本地或通过云服务提供商部署的AI应用。行业正在利用Llama进行构建和创新,我们对未来充满期待。 随着Llama 3.1的发布,Mark Zuckerberg也分享了一封关于开源AI益处的公开信,进一步巩固了我们的愿景和对开源方法的承诺。开源是我们公司的DNA,Llama既体现了我们的承诺,也强化了我们以负责任的方式分享工作的决心。开源促进了更具竞争力的生态系统,这不仅对消费者有利,对公司(包括Meta)有利,也最终对世界有利。 自18个月前我们首次发布以来,Llama已经从一个单一的最先进基础模型演变为开发者的强大系统。通过Llama 3.1,我们现在为开发者提供了一个完整的参考系统,使他们更容易创建自己的定制代理,并引入了一套新的安全工具,以帮助负责任地构建AI应用。 领先的开源模型 Llama生态系统正在快速增长。截至目前,Llama模型在Hugging Face上的下载量已接近3.5亿次,相比去年同期增长了超过10倍。仅上个月,Llama模型在Hugging Face上的下载量就超过了2000万次。而这只是Llama成功故事的一部分,这些模型也在我们行业伙伴的服务中被下载使用。 除了Amazon Web Services(AWS)和微软Azure,我们还与Databricks、戴尔、Google Cloud、Groq、NVIDIA、IBM watsonx、Scale AI、Snowflake等公司合作,以帮助开发者充分利用我们的模型。从2024年5月到7月Llama 3.1发布期间,主要云服务提供商的代币使用量增长了两倍以上。 Llama的月度使用量在2024年1月至7月间,在一些最大的云服务提供商中增长了10倍。在8月份,Llama 3.1在其中一家主要云服务提供商上的最大用户数来自405B变体,这表明我们最大的基础模型正在获得越来越多的应用。 通过Llama 3.1,我们将Llama早期访问计划中的合作伙伴数量增加了5倍,并将继续满足来自合作伙伴的激增需求。我们听到了一些公司希望成为未来LEAP和Llama集成伙伴,包括Wipro、Cerebras和Lambda。 AWS的AI和数据副总裁Swami Sivasubramanian表示:“客户希望能够在云端访问最新的最先进模型,这就是为什么我们是第一个提供Llama 2作为托管API的公司,并继续与Meta密切合作,发布新模型。我们很高兴看到Llama 3.1在Amazon SageMaker和Amazon Bedrock上的客户反响,期待看到客户如何利用这个模型来解决他们最复杂的用例。” Databricks的CEO兼联合创始人Ali Ghodsi表示:“自发布以来,已有数千名Databricks客户采用了Llama 3.1,使其成为我们采用速度最快、销量最好的开源模型。这一代的Llama模型最终在质量上弥合了开源软件与商业模型之间的差距。Llama 3.1是客户希望构建高质量AI应用的突破,同时保持对其基础LLM的完全控制、可定制性和可移植性。” Groq的创始人兼CEO Jonathan Ross表示:“开源胜利了。Meta正在构建一个开放生态系统的基础,足以与顶级封闭模型竞争,而我们在Groq则直接将这些模型交到开发者手中——这是Groq自成立以来的核心价值观。迄今为止,Groq已为超过40万名开发者提供了每日50亿个免费的代币,使用的是Llama模型套件和我们的LPU推理。这是一个非常令人兴奋的时刻,我们很自豪能够成为这一势头的一部分。我们无法为Llama快速增加容量。如果我们将部署容量扩大10倍,36小时内就会被消耗一空。” NVIDIA的创始人兼CEO Jensen Huang表示:“Llama对推动最先进AI的发展产生了深远的影响。大门已经向所有企业和行业敞开,允许他们使用NVIDIA AI Foundry构建和部署定制的Llama超模,这是支持Llama 3.1模型在训练、优化和推理方面最广泛的工具。令人难以置信的是,过去一个月的采用速度如此之快。” 比起有多少人使用Llama,更令人鼓舞的是谁在使用Llama以及他们如何使用Llama。 我们在开发者社区中看到Llama的偏好正在增加,并且有强烈迹象表明这种增长将持续。据独立AI基准测试网站Artificial Analysis的调查显示,Llama是第二大最受关注的模型,也是开源领域的行业领导者。 在Hugging Face上有超过60,000个派生模型,说明开发者们正积极地为自己的用例微调Llama。AT&T、DoorDash、高盛、Niantic、野村证券、Shopify、Spotify和Zoom等大企业只是其中的一部分成功案例,而Infosys和毕马威也正在内部使用Llama。 Llama案例研究概览 埃森哲(Accenture)使用Llama…
谷歌发布三款全新实验性Gemini模型
谷歌刚刚宣布推出三款全新的实验性AI模型,展示了其在人工智能领域的持续创新,同时也凸显了AI技术进步的快速步伐。 此次发布的核心产品之一是Gemini 1.5 Flash 8B,这款小型但强大的模型专为处理各种多模态任务而设计。作为一个拥有80亿参数的模型,Gemini 1.5 Flash 8B在AI效率方面取得了显著成就,证明了小型模型在性能方面的强大潜力。 Flash 8B变体尤其引人注目,它能够高效处理大规模任务和长文本的总结能力。这一特点使其成为需要快速处理大量数据或理解并整合长篇文档信息的应用程序的理想选择。 增强版Gemini 1.5 Pro:突破性能极限 在其前代产品成功的基础上,更新后的Gemini 1.5 Pro模型是一款性能卓越的版本,在处理复杂的提示和编码任务方面表现尤为突出。 据谷歌介绍,Gemini 1.5 Pro的进步并非只是小幅改进。新版本在各个方面都超越了其前身,标志着AI能力的显著提升。对于从事复杂AI应用开发的开发者和企业而言,这一进步尤其重要,因为这些应用需要更为细致的语言理解和生成能力。 改进版Gemini 1.5 Flash:速度与效率的提升 新发布的三款模型中,更新后的Gemini 1.5 Flash模型也备受关注。尽管公告中对其改进的具体细节较少,但谷歌表示,该模型在多项内部基准测试中表现出了显著的性能提升。 对Flash模型的改进突显了AI应用中速度与效率的重要性。随着企业和开发者寻求大规模实施AI解决方案,能够快速产生结果且不牺牲质量的模型变得越来越有价值。 这三款模型各具特色,代表了谷歌推动AI技术发展的多面策略。通过提供多种选择,谷歌旨在满足AI市场的多样化需求,同时不断扩展语言处理的可能性。 对开发者和AI应用的影响 谷歌已通过Google AI Studio和Gemini API提供这些实验性模型。Gemini 1.5 Flash 8B模型可免费使用,名称为“gemini-1.5-flash-8b-exp-0827”。更新版的Gemini 1.5 Pro和Flash版本分别以“gemini-1.5-pro-exp-0827”和“gemini-1.5-flash-exp-0827”提供。 这些模型为开发者开辟了新的可能性,适用于: 谷歌发布这些实验性模型的主要目的是: 公司计划利用这些实验发布的洞察力来完善模型,以便未来更广泛地应用。 谷歌的AI战略日益明朗 谷歌的战略越来越清晰,专注于开发既具高容量又更高效、特定任务导向的模型。这种方法旨在满足从资源密集型任务到需要快速、轻量处理的各种AI应用需求。 这些实验性模型的发布,紧随之前的版本,显示出谷歌在AI领域快速开发周期的承诺。这种敏捷的方法允许快速整合改进,并根据用户反馈进行调整。 通过不断更新和扩展其AI模型,谷歌保持了其在AI领域的重要地位。这一策略直接与其他开发大型语言模型和AI工具的主要科技公司形成竞争。 这些发布也强调了现实世界测试在AI开发中的重要性。通过向开发者提供实验性模型,谷歌加速了反馈循环和AI技术的实际应用。 总结 谷歌发布的三款实验性AI模型——Gemini 1.5 Flash 8B、增强版Gemini 1.5 Pro和改进版Gemini 1.5 Flash——标志着语言处理技术的重大进展。这些模型在性能和效率之间取得了平衡,适用于从大规模数据处理到复杂编码任务的各种AI应用。通过让开发者接触这些工具并优先考虑现实世界的反馈,谷歌不仅巩固了其在竞争激烈的AI领域中的地位,还加速了AI能力的进化。
AI安全立法:加州新法案的争议与未来影响
一项备受争议的法案旨在强制执行大型人工智能(AI)模型的安全标准,这项法案已在加州州议会获得通过,以45票赞成、11票反对的结果通过了加州众议院。早在5月,加州参议院以32票对1票的结果通过了该法案(SB-1047)。现在,这项法案只需在参议院进行最后一次程序性投票,然后就会递交给加州州长加文·纽森(Gavin Newsom)审批。 正如之前详细探讨过的那样,SB-1047法案要求AI模型的创建者在模型出现“对公共安全和安保构成新威胁”时,尤其是在“缺乏人类监督、干预或管理”的情况下,必须实施一种可以“关闭”该模型的“杀手开关”。一些人批评该法案,认为它过分关注于未来可能发生的AI风险,而忽略了当下AI应用中诸如深度伪造(deep fakes)或虚假信息传播等现实危害。 在周三宣布立法通过时,该法案的发起人、州参议员斯科特·维纳(Scott Weiner)引用了AI行业知名人士的支持,如Geoffrey Hinton和Yoshua Bengio(这两位去年也签署了一份声明,警告快速发展的AI技术可能带来的“灭绝风险”)。 Bengio在《财富》杂志近期发表的一篇社论中表示,这项法案“为前沿AI模型的有效监管划定了最低限度的要求”,并且它只针对训练成本超过1亿美元的大型模型,因此不会影响小型初创公司。 Bengio写道:“我们不能让公司自我评估并仅仅给出听起来好听的保证。我们在其他技术领域如制药、航空航天和食品安全上不允许这样做。为什么AI应该被区别对待?” 然而,斯坦福大学计算机科学教授、AI专家李飞飞(Fei-Fei Li)在本月早些时候的另一篇《财富》社论中表示,这项“出于良好意图”的立法将对加州乃至全国产生“重大意外后果”。 李飞飞认为,法案对任何修改后模型的原始开发者施加的责任将“迫使开发者退缩并采取防御性措施”,这将限制AI权重和模型的开源共享,并对学术研究产生重大影响。 纽森将作何决定? 周三,加州的一群商业领袖向纽森发出公开信,敦促他否决这项“根本有缺陷”的法案,认为该法案“错误地将监管重点放在模型开发上,而非其滥用”。这些商业领袖表示,该法案将“引入繁重的合规成本”,并通过监管模糊性“抑制投资和创新”。 如果参议院如预期般确认众议院的版本,纽森将有时间直到9月30日决定是否签署该法案成为法律。如果他否决,立法机构可以通过每个议院三分之二的投票推翻(鉴于该法案获得的压倒性支持,这种可能性较大)。 在今年5月的加州大学伯克利分校研讨会上,纽森表示,他担心“如果我们过度监管,过度放纵,追逐一个闪亮的目标,我们可能会将自己置于危险境地”。 但与此同时,纽森也提到,他从AI行业领袖那里听到了相反的担忧。“当你看到这项技术的发明者,这些教父教母们在说‘帮帮我们,你们需要监管我们’时,这就形成了一种截然不同的氛围,”他在研讨会上说道。“当他们急于教育人们,基本上在说‘我们真的不知道自己做了什么,但你们必须对此采取行动’时,这就成了一个有趣的局面。”
生物制药中的AI困境:创新突破还是过度炒作?
最近,两篇关于人工智能/机器学习(AI/ML)在生物学领域影响的文章引发了广泛讨论。第一篇由Andrew Dunn撰写,标题为“现实检查:AI在Leash Bio的结合预测竞赛中表现令人失望:‘没人表现得很好’”,直指Leash的最近比赛结果,并总结称“这对这个热门的AI生物领域来说是一个清醒的现实检查。” 第二篇文章标题更简洁明了,是Ron Boger和Dennis Gong撰写的“反科技生物学”,其中指出“生物学并不是一个适合系统化的领域。” 那么,到底是哪种情况?生物机器学习(BioML)真的因为没有在Kaggle竞赛中表现出色的公开模型而未能达到预期?还是因为生物学和药物发现的复杂性、数据获取的难度,使得这些普遍的功能近似器难以产生实际影响? 深入研究Leash Bio的比赛结果可以发现,1950支参赛队伍中并未包括任何AI领域的重量级选手,特别是那些专注于小分子研究的计算密集型生物技术公司。Leash的Quigley还公开邀请那些自认为在这项任务上占有优势的团队前来展示他们的解决方案,体现出一种谦逊的态度。然而,这种比赛更多是反映了“你甚至都没理解问题的本质”,而零次绑定物生成或许可以更准确地归类为命中发现,这是药物发现最初期(也可能是最商品化)的阶段之一。 公共和内部的注意力往往聚集在那些容易理解且有吸引力的问题上。零次绑定设计很容易向了解基本药物作用机制的人解释和推销。这似乎是个难题,如果通过机器学习“解决”了它,那就成了这些技术“增值”的无可辩驳的证据。 然而,真正的药物猎人们则会迅速指出,即使解决了零次绑定设计,他们也不会在意,因为这并不是瓶颈。理解这一点后,才能提出更好、更细致的问题,但这需要大量努力去了解你所面对的竞争,不仅仅是在Kaggle竞赛中与其他机器学习方法竞争。 在光谱的另一端,“反科技生物学”论点认为,尽管技术的进步和内部数据壁垒的网络效应可以串联成一个持续生产药物的平台,现实却粉碎了这一理论。生物学并非一个适合系统化的领域。 因此,机器学习和计算在药物发现中的真正影响究竟在哪里?与其设计一个我们认为人们会感兴趣的问题,或者放弃所有希望,不如尝试使现有的、已被验证的药物发现过程更便宜、更快、更成功。要做到这一点,需要解决哪些具体问题? 一个有前景的方向是任务特定的决策。事实证明,在生物技术领域做决策确实非常困难。决策者们必须不断做出高风险的决策,这些决策可能导致数百万甚至数十亿的资金和资源被分配到某一方向上。科学家们每天都在做出从小到大的决定,最终引导出特定分子的诞生。许多决定在药物发现的早期就可能注定其失败,比如适应症、靶点和模式的优先级排序。项目在如此多的关键决策点上可能失败,以至于任何药物的成功都堪称奇迹。数据永远不够,信息永远不足,但你仍然不得不继续做出决定。 或许当前机器学习系统最重要的贡献在于自动化低级和中级决策。因为当5个以上高技能、高学历的科学家聚在一起时,他们会在讨论的前5分钟内榨干数据中的洞察力,而接下来的50分钟则在反复讨论。这种在不确定性下做决策的挑战性令人不安,大家更喜欢讨论未知和可能出错的地方。但当大量讨论发生时,却没有实际决策被做出或更新,这就是数据已经被最大限度利用的强烈信号。 为此,机器学习在药物发现中日益重要的角色是生成更多数据,并更好地将这些数据综合到决策中。例如,高通量筛选中的命中优先级排序、快速少次蛋白设计、生物制品的命中扩展和命中成熟、有效的化学逆合成路径预测、自动化管理模式生物的机器人,以及mRNA序列设计。这些ML辅助的任务大多集中在机械化流程中——这些重要但较低级的任务,尽管执行到位并不足以保证药物发现的成功,但确是必不可少的。 今天的机器学习模型似乎更适合在任务如命中发现和某些方面的先导优化中提供帮助,而不是在项目优先级排序等复杂的重大决策上发挥作用。如果你知道去哪里看,这些机器学习系统的好处已经显现。 可解释的、模型驱动的决策允许我们通过在构建机器学习系统时进行深思熟虑的过程,然后在实际操作中很少再考虑它们,从而实现许多事情的可重复性。当这些系统正常工作且你知道原因时,它会释放出更多的精力去处理边缘案例和新的奇异问题,使得药物发现既有影响力又充满乐趣。 要实现模型驱动的决策,需要以数据为中心,具备工程文化来构建(或重建)组织。对科技生物学的幻灭来自于一种错误的期望,即只要建立一个以数据为中心、工程为先的组织,药物就会随之而来。但这种因果关系是错误的。那些知道如何制造药物的组织早已存在,它们建立在数百年的科学知识和几十年在生物学、生物化学和生物物理学方面的经验之上。作为计算科学家和工程师,我们的任务是重新构想这个过程,解决低层次问题,使高层次问题成为新的低层次问题,并使之前难以解决的问题变得可以解决。 总结来说,当前的机器学习在生物学和药物发现中,尽管面临挑战,但正在某些特定领域展现出其价值。通过聚焦于实际问题并改进已有流程,而非追求过度简化或完全否定的极端论调,我们才能真正推动这一领域的发展。