扎克伯格:人工智能开放源代码有助于全球繁荣与安全 Meta首席执行官马克·扎克伯格在一封公开信中表示,重要的是技术不能被少数几家巨头公司(包括他自己的公司)所控制。 长期以来,技术专家们一直在争论公司是应该对其计算机代码保密,还是与全球的软件开发人员共享。这个关于封闭与开放源代码的争论因人工智能的快速发展和对其迅速成为国家安全问题的担忧而变得更加激烈。 在周二的一封公开信中,扎克伯格重申了公司采取的被一些人认为是冒险的立场:开放源代码的人工智能开发将允许技术人员学习强大AI模型的创建方法,并利用这些知识来构建自己的AI程序。 扎克伯格认为,指望少数几家公司能保守其AI技术的秘密是不现实的,尤其是硅谷多年来一直是中国等国家间谍活动的目标。 “我认为政府会得出结论,支持开放源代码符合他们的利益,因为这将使世界更加繁荣和安全,”他在信中表示,并补充说,限制AI研究的分享只会抑制美国的创新。 Meta还发布了最新、最强大的AI算法LLaMA,并为其AI助手Meta AI增加了包括印地语、法语和西班牙语在内的七种新语言支持。 在拜登政府权衡监管AI的应对措施之际,扎克伯格再次呼吁拥抱开放源代码技术。去年,拜登总统发布了一项全面的行政命令,呼吁在AI技术周围建立更多的安全保障措施,包括应对AI驱动的聊天机器人和视频程序传播虚假信息的方法。 四月份,商务部就如何应对人工智能的一系列草案征求反馈意见。 OpenAI、微软和谷歌等公司认为,AI可能是危险的,并且发展如此迅速,应由最了解它的技术人员紧密控制。批评者还表示,在美国开发的AI软件可能会被中国等国家利用,以与美国竞争或潜在地对美国造成伤害。 扎克伯格和一些小型初创公司如Hugging Face的高管们则认为,参与开发的人越多,就越容易发现问题。 “开放源代码将确保世界上更多的人可以获得AI的好处和机会,权力不会集中在少数几家公司手中,技术可以更均匀和安全地在整个社会中部署,”扎克伯格说。 扎克伯格承认,他的动机不仅仅是出于利他主义。使用Meta服务的技术人员越多,其产品在行业内的标准化程度就越高。而且,扎克伯格不希望通过其他公司的产品——主要是苹果和谷歌——来接触客户,这是他多年来一直被迫做的事情。 “我们必须确保始终能够获得最好的技术,而不是被锁定在竞争对手的封闭生态系统中,在那里他们可以限制我们开发的内容,”他在信中补充道。
Author: aitrendtrackers@rengongzhineng.io
山姆·阿尔特曼openResearch试验:探索AI基本收入的未来可能性
近几年,向低收入美国人直接发放现金的想法迅速流行起来,美国35个州内已经有超过150个地方试点正在测试这种“基本收入”的理念。其中最大的试点项目并非来自某个城市或县,而是由OpenAI首席执行官兼创始人山姆·阿尔特曼支持的OpenResearch项目发起。 经过三年时间,在伊利诺伊州和德克萨斯州每月向受益者发放1000美元后,该组织发布了三篇研究论文。与之前的许多研究一样,OpenResearch发现受益者主要用于满足基本需求和帮助他人,且并未退出劳动力市场,虽然工作时间略有减少。但研究者最大的发现是现金提供了灵活性。 研究者指出,现金可以用于满足受益者的具体需求,响应不断变化的需求,并创造更多自主选择的可能性。研究者避免对结果进行泛化,指出结果取决于受益者的初始收入、家庭结构和优先事项。 “现金是灵活的,”OpenResearch的研究总监伊丽莎白·罗德斯表示。“如果目标是让所有人都达到一个结果,现金可能不是精确的工具,但它能为所有人带来某些或许多不同的结果。” 阿尔特曼在2016年宣布为该项目提供资金,当时OpenAI刚刚起步,他还在运营初创孵化器Y Combinator。他当时写道,对基本收入的理念“很感兴趣”,但“关于其如何运作的数据相当少”。阿尔特曼聘请罗德斯领导基本收入项目,通过非营利组织YC Research,在2016年至2018年在奥克兰进行了试点。2019年,项目更名为OpenResearch,并在更大范围内招募更多参与者,阿尔特曼继续担任主要支持者。 阿尔特曼与埃隆·马斯克、杰克·多尔西和马克·贝尼奥夫等科技领导者一样,提倡无附加条件的现金支付,作为应对技术自动化导致职业消失的潜在解毒剂。2016年,阿尔特曼写道,“我相当有信心,在未来某个时候,随着技术继续消除传统工作并创造大量新财富,我们将在全国范围内看到某种版本的这种模式。” 推动这种模式的不仅是科技领导者。2020年疫情导致了一波地方基本收入试点,旨在将现金作为经济和种族正义的工具,测试其增强社会安全网的潜力。最近,一些州通过法律阻止这些计划,德州总检察长提起的诉讼导致休斯顿地区的一个项目暂停。批评者担心受益者会拿钱退出劳动市场,或将钱用于不良嗜好。 OpenResearch的试点于2020年开始,1000名来自伊利诺伊州和德克萨斯州农村、郊区和城市地区的低收入参与者每月收到1000美元。另有2000人每月收到50美元作为对照组。所有受益者的收入都在联邦贫困线300%或以下,平均家庭收入不到29000美元。 研究者的首批结果基于三年的付款:他们发现参与者用这笔钱购买食品、支付租金和交通费用,而不是用于不良嗜好;与此同时,他们减少了服用未经处方的止痛药和过量饮酒。 虽然现金无法解决根本的健康问题或逆转多年缺乏医疗服务的局面,罗德斯说,参与者也能更多地投入到医疗保健中,更有可能去看牙医,并且比对照组多出26%的医院就诊次数。 随着时间推移,研究者发现参与者变得更有未来规划:更善于制定预算和积攒储蓄,更有可能计划继续接受高等教育并有商业想法。 “是否能在这段时间内实现所有这些目标是另一个问题,”罗德斯承认。与对照组相比,受教育水平的显著提高或实际创办企业的几率并没有显著增加。 但其中一些流动性的梦想确实成为了现实。受益者搬家的几率比对照组高出四个百分点。罗德斯说,有些人为了更好的学区搬家,而有些人则停止了寄宿在朋友家,找到了自己的住所。 关于现金是否改变了受益者与劳动力市场的关系,研究者表示,结果再次表明,这取决于具体情况。总体而言,两个组别在研究期结束时都稍微多工作了一些,部分原因是支付开始时正值新冠疫情肆虐,结束时经济开始复苏。这并不意味着所有人都工作相同的时间:平均来说,每月获得1000美元全额支付的人比每月获得50美元的人每周少工作一个多小时。尤其是单亲家长,工作时间略有减少,这使得他们能选择更灵活的工作,并花更多时间陪伴孩子。 “一位参与者的儿子在研究的第一年被诊断出患有自闭症,传统教育方式对他很不适应,”管理该非营利组织研究与洞察的卡丽娜·多森说。“她能够辞去工作,在家教导她的儿子。” 收入最低的受益者与收入较高的受益者使用现金的方式不同。他们在经济上对家人和朋友的支持支出增加最多,相比对照组更有可能支付自己的住房费用,而不是寄宿在朋友家或依赖他人支付房租。 罗德斯说,人们常问她现金“是否有效”。 “这个问题就像在问食物是否有效一样。当然,现金是有效的,”她说。“但这不是我们需要问的关键问题。关键问题是:什么时候和在哪里有效?还有什么能最好地支持人们?” OpenResearch拒绝评论阿尔特曼是否会继续资助更多关于基本收入的研究。该组织正在积极寻求未来研究的额外资金。 “贝丝和OpenResearch团队进行了关键研究,揭示了有关普遍基本收入问题的答案,”阿尔特曼在一份声明中写道。“过去几年的工作非常出色!” 除了阿尔特曼,罗德斯表示,该研究还得到了其他个人的资助,以及来自国立卫生研究院、国家科学基金会和斯宾塞基金会的资助。 “我们真的相信这种研究模式,”罗德斯说。
Meta发布了迄今为止最大最强的开源AI模型
今年四月,Meta 曾透露正在研发 AI 领域的一个创新:一个性能媲美 OpenAI 等公司顶尖私有模型的开源模型。 今天,这个模型终于问世了。Meta 发布了 Llama 3.1,这是有史以来最大的开源 AI 模型 ( 下载:https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f)。公司声称,其性能在多个基准测试中超越了 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet。Llama 3.1 还将 Meta 的 AI 助手扩展到更多国家和语言,并增加了一个可以基于个人相貌生成图像的功能。Meta CEO 马克·扎克伯格预测,到今年年底,Meta AI 将成为最广泛使用的助手,超越 ChatGPT。 Llama 3.1 比几个月前发布的较小版本复杂得多。最大的版本有 4050 亿个参数,训练过程使用了超过 16000 台昂贵的 Nvidia H100 GPU。尽管 Meta 没有公开 Llama 3.1 的开发成本,但根据这些 Nvidia 芯片的价格,可以推测成本高达数亿美元。 那么,考虑到高昂的成本,Meta 为什么继续以只需公司拥有数亿用户批准的许可证免费发布 Llama 呢?在 Meta…
Elon Musk 埃隆·马斯克的xAI在孟菲斯启动全球最强大的超级计算机集群
埃隆·马斯克的人工智能初创公司xAI在田纳西州孟菲斯启动了超级计算机集群,该集群由10万块Nvidia H100 GPU组成。特斯拉CEO埃隆·马斯克在社交媒体平台X上确认了这一里程碑。 xAI这个周末非常忙碌,宣布在X平台上大规模招聘。马斯克周一早上强调了这些努力,并表示xAI希望增强其人才优势。有趣的是,马斯克还鼓励对AI感兴趣的人申请特斯拉和X的职位。 马斯克随后提到,xAI、X和Nvidia团队的合作使得孟菲斯超级计算机集群在当地时间凌晨4:20开始训练。据马斯克所说,这个超级计算机集群拥有10万块Nvidia H100 GPU,使其成为目前市场上最强大的AI训练集群。 “xAI团队、X团队、Nvidia团队和支持公司的出色工作使孟菲斯超级计算集群在当地时间凌晨4:20开始训练。拥有10万块液冷H100的单一RDMA架构,这是全球最强大的AI训练集群!到今年12月,按照每一个指标,这将是世界上最强大的AI训练优势,”马斯克在X上写道。 xAI的超级计算机集群预计将用于训练公司的大型语言模型Grok,目前Grok作为X Premium用户的一个功能推出。本月早些时候,马斯克在X上的一篇帖子中提到,xAI的Grok 3将使用10万块H100 GPU进行训练,“这应该会非常特别。” 今年六月初来自孟菲斯的报告显示,xAI将会在占地785,000平方英尺的前Electrolux孟菲斯工厂建立一个非正式称为“计算工厂”的超级计算机集群。大孟菲斯商会在一份新闻稿中表示,xAI的超级计算机项目代表了孟菲斯历史上新进入市场公司最大的资本投资。 xAI的投资是相当可观的。据Benzinga报告,每块Nvidia H100 GPU的估价在3万到4万美元之间。考虑到xAI使用了10万块Nvidia H100,埃隆·马斯克的AI初创公司似乎为该项目花费了约30亿到40亿美元。
人工智能历史:从梦想到现实的变革之路
今天的故事围绕人工智能的转型展开。它涉及发明家、科学家、企业家和大型科技公司之间的竞赛,目的是第一个实现人工通用智能(AGI)。他们不仅在金钱上下注,还在押注我们工作的转型和现有社会结构的范式转变。这种令人兴奋又不安的未来掌握在一小群人手中。可以提到OpenAI的CEO Sam Altman,他的一些事件曾导致整个行业停滞不前。 在一次信任危机后,诞生了现在所知的Anthropic。同样,最近的一次事件几乎导致OpenAI彻底崩溃。 另一位关键人物是Elon Musk,他在与Google创始人Larry Page分道扬镳后,推动了OpenAI的创建。 还可以提到Mark Zuckerberg、Satya Nadella或Sundar Pichai。不要忘记Peter Thiel(PayPal创始人)在2012年启动了AI人才竞赛。 这些塑造我们生活未来的人,他们的愿景在一段时间内一致,最终却导致了不信任和竞争。 AI的起源 在20世纪50年代,研究人员开始探索“教”机器回答人类问题的可能性。他们确定了这项技术发展的一个关键里程碑,称之为人工通用智能(AGI)。AGI将是在机器能够执行等同于人类大脑的任务时实现,例如学习说话、思考、在各种领域获取知识和做出自主决策。 由于其发展缺乏重大进展,这一想法停滞了几十年。然而,随着两位英国科学家Demis Hassabis和Mustafa Suleyman的到来,这种情况发生了变化。他们相信2010年是实现AGI计划的合适时机,考虑了计算处理和互联网的进步,这使得大量数字知识可供智能模型使用。 在此期间,他们遇到了Eliezer Yudkowsky,他是AI可以解决人类最大问题(如癌症和贫困)的早期倡导者之一。Yudkowsky成功地建立了一个理论家、学者和投资者社区,专注于AGI。Peter Thiel也在其中。Hassabis、Suleyman、Yudkowsky和Thiel建立了一个围绕创造能够改变现代世界的技术的关系。这导致了2010年DeepMind的成立,这是现代AI的开端。Hassabis和Suleyman的策略是教机器打败人类在视频游戏中的表现。 有人可能会说,IBM早在1997年通过Deep Blue击败Garry Kasparov的方式在这一领域走在前面。然而,由于开发成本高昂,IBM只将这项技术作为营销策略,而没有完全探索其可能性。 在Peter Thiel的资助和推荐下,Hassabis被邀请到SpaceX总部与Elon Musk会面。会后,Musk决定投资DeepMind。 随后,Hassabis和Suleyman说服Larry Page加入他们的项目,使DeepMind获得了Thiel、Musk和Page的重大投资和盟友。这一发展引起了硅谷其他科技巨头如微软、百度和Meta的兴趣。这个问题出现了:在哪里找到具备完全理解AI潜力的专业人才? AI领域的人才 在多伦多,Geoffrey Hinton和两名研究生,包括Ilya Sutskever,发表了一篇题为“悄然改变机器视觉的革命性技术”的研究论文。他们开发了一个能够精确识别图像内容的神经网络。这一突破主要归功于来自NVIDIA的1200万美元的初始投资,当时NVIDIA主要专注于销售电子游戏显卡。 认识到其项目和团队的潜力,Hinton寻求更多资金支持以确保其持续进展。谷歌认识到了这一潜力,决定将他们整合到其先进的模型研究中心。 随着这一发展,Hassabis和Suleyman意识到他们在留住DeepMind人才方面面临的挑战。他们如何与大型科技公司竞争?理解这一点,他们决定出售DeepMind,条件是技术不用于军事目的,所有活动由独立委员会监督。谷歌再次领先,收购了这家开创性的AI公司。这次收购,加上已经在现代AI领域取得重大进展的研究团队的加入,表明谷歌在垄断顶尖人才。除了DeepMind,谷歌还有另一个专注于AI的部门Google Brain。 OpenAI的起源 现代AI的关键人物之一是Sam Altman。早在2015年,他是Y Combinator的CEO。他与Elon Musk联系,并很快在推进AI的目标上找到了共同点。他们知道,要建立具有他们想要的影响力的技术,他们需要其他研究人员的加入,这确实做到了。他们还得到了Musk的前合作伙伴,如Peter Thiel和LinkedIn创始人Reid Hoffman的支持。 除了他们的主要目标,这个新团队还希望对抗谷歌在AI领域日益增长的垄断。2015年12月15日,他们公开宣布成立OpenAI。Musk最初投资了4000万美元以启动项目。OpenAI被设立为非营利组织,致力于将所有资源用于研究和技术,以实现AGI。他们将其模型作为开源发布,以便其他人可以免费使用其全部潜力。(未能坚持这一开源承诺,后来导致Musk离开了OpenAI项目。) 值得一提的是,Musk是OpenAI的主要推动力,并且在说服Ilya Sutskever离开谷歌并加入他们团队方面发挥了关键作用。 重大隐藏变化 这是2016年。当年没有任何重大的AI产品发布,但AI逐渐吸引了世界的兴趣。不过,矛盾的是,同年发表了一篇影响深远的AI研究论文——“Attention Is All You Need”。这可能是过去50年中最重要的AI发现。如果没有这项研究,我们今天可能不会谈论ChatGPT、Gemini、Claude等。如果再深入思考一下,我们所知道的NVIDIA及其当前的繁荣也将是不可想象的。 这就是它的重要性。 该论文引入了transformer的概念,这是一种教授机器的新方法。这种语言模型机制允许它们更快地翻译文本等。transformer的基本思想是将文本转换为称为tokens的数字组件。 这种变化成倍地提高了传统模型的学习能力,同时需要高计算处理能力。这自然限制了各种公司的访问。这时,NVIDIA开始获得其今天所持有的相关性。…
开源AI项目你可能会用到
使用人工智能可以是福也可以是祸。选择在商业或个人生活中使用人工智能的具体方面非常重要。大多数情况下,如果对所做的项目有所了解,使用人工智能可以让事情变得更简单。例如,无监督的人工智能无法写出高质量的博客文章,但如果有人撰写,通常可以辨别出文章偏离轨道的地方。同样,如果是网页设计师,可以看出人工智能设计是否有误以及哪里出现问题。寻找下一个工具时,务必要记住这一点。 以下是一些值得关注的人工智能项目。特别提到的是,Mermaid是一个开源项目,它与JavaScript结合得很好,并能与ChatGPT集成。 PhidataPhidata是一个用于构建具有增强功能的AI助手框架,超越了标准的大型语言模型(LLM)。其主要特点如下: Gemini UI to CodeGemini UI to Code是一个AI驱动的工具,使用谷歌的Gemini AI模型将UI设计转换为代码。其主要功能如下: DosuDosu是一个AI助手,旨在帮助开发人员和开源维护者更高效地管理软件项目。其主要特点如下: Julius AIJulius AI是一个AI驱动的数据分析和可视化工具,旨在让复杂的数据分析变得对所有技能水平的用户都可访问。其主要功能如下: Mermaid.jsMermaid.js是一个开源的JavaScript图表和图表工具,允许用户使用类似Markdown的文本定义创建图表。它可以与ChatGPT集成,使得用户能够直接在对话中生成和可视化复杂图表。 ChatLLMChatLLM是由Abacus AI开发的AI助手平台,提供多个尖端的大型语言模型(LLM)的访问。其主要特点如下: Qwen-AgentQwen-Agent是由阿里云开发的用于构建高级AI应用程序的开源框架,主要使用Qwen系列模型。其主要特点如下: 希望这些链接能帮助大家更好地了解并使用这些工具。
大型语言模型与数据隐私:GDPR面临的执行挑战
数字时代的数据隐私挑战:大型语言模型与GDPR的冲突 在数字时代,数据隐私是首要关注的问题,像《通用数据保护条例》(GDPR)这样的法规旨在保护个人数据。然而,大型语言模型(LLM)的出现,如GPT-4、BERT及其同类产品,对GDPR的执行提出了重大挑战。这些通过预测下一个词来生成文本的模型,其训练依赖于大量数据,这在根本上使得法规执行变得复杂。以下是为什么在LLM上执行GDPR几乎不可能的原因。 LLM的本质与数据存储 要理解执行困境,首先需要掌握LLM的工作原理。与传统数据库中结构化存储数据不同,LLM的运作方式截然不同。LLM通过大规模数据集训练,调整数百万甚至数十亿的参数(权重和偏差)。这些参数捕捉了数据中的复杂模式和知识,但并不以可检索的形式存储数据。 当LLM生成文本时,它并不是访问存储的短语或句子数据库,而是使用已学得的参数来预测序列中最有可能的下一个词。这一过程类似于人类基于语言模式生成文本,而不是从记忆中精确地回忆短语。 被遗忘权 GDPR的一项核心权利是“被遗忘权”,允许个人请求删除其个人数据。在传统的数据存储系统中,这意味着定位并删除特定的数据条目。然而,对于LLM来说,识别和移除嵌入在模型参数中的特定个人数据几乎是不可能的。数据不是明确存储的,而是以无法单独访问或更改的方式分散在无数参数中。 数据擦除与模型再训练 即便理论上可以识别LLM中的特定数据点,擦除它们也是一个巨大的挑战。从LLM中删除数据需要重新训练模型,这是一个昂贵且耗时的过程。要从头开始重新训练模型以排除某些数据,需要与最初相同的广泛资源,包括计算能力和时间,使其变得不切实际。 匿名化与数据最小化 GDPR还强调数据匿名化和最小化。虽然LLM可以在匿名数据上训练,但确保完全匿名化是困难的。匿名数据有时在与其他数据结合时仍可能透露个人信息,导致潜在的重新识别。此外,LLM需要大量数据才能有效运行,这与数据最小化的原则相冲突。 透明度与可解释性不足 GDPR的另一个要求是能够解释如何使用个人数据以及如何做出决策。然而,LLM通常被称为“黑箱”,因为其决策过程不透明。理解模型为什么生成特定文本涉及解读众多参数之间的复杂互动,这超出了当前技术能力。这种缺乏可解释性阻碍了对GDPR透明度要求的遵守。 前进的方向:监管与技术的适应 鉴于这些挑战,在LLM上执行GDPR需要监管和技术的双重适应。监管机构需要制定考虑到LLM独特性质的指南,可能需要重点关注AI的伦理使用和在模型训练与部署期间实施强有力的数据保护措施。 在技术方面,模型可解释性和控制方面的进步可以帮助实现合规。使LLM更透明的技术以及追踪模型内部数据来源的方法是正在研究的领域。此外,差分隐私确保添加或删除单个数据点不会显著影响模型输出,这可能是使LLM实践与GDPR原则对齐的一步。 在LLM领域执行GDPR因这些模型的基本运作方式而复杂重重。数据在数百万参数中的扩散、数据擦除的不可行性以及缺乏透明度,都使得严格遵守GDPR几乎不可能。随着LLM的不断发展并越来越多地集成到各种应用中,技术人员与监管机构之间的合作将至关重要,以制定既保护用户数据又能应对这些强大模型所带来的独特挑战的框架。
AI领域新星:Apple推出小模型家族
AI领域新星:Apple推出小模型家族 https://huggingface.co/apple/DCLM-7B 随着全球对全新GPT-4o-mini的赞誉不断,Apple也加入了小模型的研发热潮。就在几小时前,Apple的研究团队作为DataComp语言模型项目的一部分,在Hugging Face平台上发布了一组开源的DCLM模型。 DCLM模型的亮点 这次发布的核心包括两个主要模型:一个拥有70亿参数,另一个拥有14亿参数。这两个模型在基准测试中的表现都相当不错,尤其是70亿参数的那个——它不仅超越了Mistral-7B,还接近其他领先的开源模型,如Llama 3和Gemma。 Apple ML团队的Vaishaal Shankar将这些模型称为“表现最好的开源模型”。值得注意的是,这个项目是真正的开源,不仅发布了模型权重,还包括训练代码和预训练数据集。 Apple DCLM模型的背景 DataComp项目由Apple、华盛顿大学、特拉维夫大学和丰田研究所的多学科研究团队领导。该项目的目标是设计高质量的数据集,用于训练AI模型,特别是在多模态领域。通过使用标准化框架——包括固定的模型架构、训练代码、超参数和评估方法,团队进行不同的实验,以找出最佳的数据筛选策略,从而训练出高性能的模型。 研究团队发现,基于模型的过滤方法,即使用机器学习模型自动从大数据集中筛选高质量数据,是组建高质量训练集的关键。为了展示这一筛选技术的有效性,研究团队使用筛选后的数据集DCLM-Baseline,从头开始训练了新的DCLM解码器,仅英文语言模型,分别具有70亿和14亿参数。 DCLM-7B模型的性能 70亿参数的模型使用基于OpenLM框架的预训练方案,训练了2.5万亿个标记,具有2K上下文窗口,在MMLU测试中取得了63.7%的5-shot准确率。与之前的开源数据语言模型MAP-Neo相比,该模型在基准测试上提高了6.6个百分点,同时训练计算量减少了40%。 更重要的是,该模型的MMLU性能接近市场上领先的开源模型(开放权重但封闭数据),如Mistral-7B-v0.3(62.7%)、Llama3 8B(66.2%)、Google的Gemma(64.3%)和微软的Phi-3(69.9%)。 当研究人员将上下文长度扩展到8K并在同一数据集上额外进行1000亿次训练时,该模型在Core和Extended基准测试(包括HellaSwag和ARC-E等任务的平均成绩)中的表现进一步提升,但MMLU结果保持不变。 研究人员在DataComp-LM论文中指出:“我们的结果强调了数据集设计对训练语言模型的重要性,并为进一步的数据筛选研究提供了起点。” 小型但强大的模型 与DCLM-7B类似,较小的14亿参数模型(与丰田研究所联合训练,使用了2.6万亿个标记)在MMLU、Core和Extended测试中也有出色表现。在5-shot MMLU测试中,它得分为41.9%,明显高于同类其他模型,如Hugging Face最近发布的SmolLM(1.7B版本得分39.97%)、Qwen-1.5B(37.87%)和Phi-1.5B(35.90%)。 目前,较大的模型在Apple的Sample Code License下发布,而较小的模型则在Apache 2.0下发布,允许商业使用、分发和修改。此外,还有一个70亿参数模型的指令调优版本在HF库中可用。 需要注意的是,这只是早期研究,突出了数据筛选的有效性。这些模型并非用于Apple设备,可能会显示出来自测试训练数据的某些偏见或产生有害响应。
AI加速代码迁移
生成式AI驱动的工作流程使Google能够更快地迁移代码并更有效地维护代码库 过去几十年,源代码库的规模呈指数级增长。Google的monorepo(单一代码库)就是一个包含数十亿行代码的大型代码数据集的例子。为了适应新的语言版本、框架更新、API和数据类型的变化,对整个庞大代码库进行代码变更(称为“迁移”)的工作极其具有挑战性。 多年来,Google一直使用特殊的基础设施进行大规模的代码迁移。该基础设施利用静态分析和工具如Kythe和Code Search来发现需要更改的位置及其依赖关系,然后使用ClangMR等工具进行更改。 这种方法在结构统一、边缘情况有限的代码变更中效果良好。然而,当迁移具有复杂结构的代码时,例如更改接口及其在多个组件中的使用或更新其测试时,静态分析和简单的迁移脚本会遇到限制。 Google内部介绍了一种新工具,结合了多项AI驱动的任务,帮助Google开发人员进行大规模代码迁移。其目标是辅助工程师,让他们专注于迁移中的复杂方面,而不会将他们从过程中隔离开来。案例研究表明,这种方法可以成功生成迁移所需的大部分新代码,并显著减少人工工作量。 代码迁移工作流程为了代码迁移,Google构建了一个新的、互补的工具包,以解决标准工具难以处理的变更,并且利用机器学习(ML)模型的能力适应周围代码。 Google将迁移过程概念上分为三个阶段: 为了生成和验证代码更改,Google利用了经过内部代码和数据微调的Gemini模型版本。 每次迁移需要以下输入: 用户提供的位置通过结合现有静态工具和人工输入收集。迁移工具包会自动扩展这组文件,包括测试文件、接口文件和其他依赖项。这一步尚未由AI驱动,而是使用符号交叉引用信息。 在许多情况下,用户提供的迁移文件集并不完美。因为过滤输入列表可能非常繁琐,通常会有一些文件已经部分或完全迁移。因此,为了避免重复更改或在编辑生成期间混淆模型,提供少量示例并要求模型预测文件是否需要迁移。 编辑生成和验证步骤是自动系统最有利的地方。模型根据DIDACT方法论训练,使用Google monorepo和相关数据。在推理时,在预期需要更改的每一行标注自然语言指令和模型的一般指令。在每次模型查询中,输入上下文可以包含一个或多个相关文件。 模型预测文件之间的差异(diffs)并更改相关部分,以确保最终代码正确。 这种能力对于加快迁移速度至关重要,因为生成的更改可能与最初请求的位置不一致,但它们会解决意图问题。这减少了手动查找所有需要更改行的需求,相比纯粹基于抽象语法树修改的确定性更改生成是一个巨大的进步。 例如,提示模型仅更新需要更改类型的类的构造函数。在预测的统一diff中,模型还正确修复了类中的私有字段和用法。 不同的提示组合会根据输入上下文产生不同的结果。在某些情况下,提供过多预期更改的位置会导致性能下降,而仅在文件中指定一个位置并提示模型全局应用更改效果更好。 在对数十甚至数百个文件应用更改时,Google实施了一种机制,生成针对每个文件组并行尝试的提示组合。这类似于pass@k策略,在这种情况下,Google不是修改推理温度,而是修改提示策略。 Google自动验证生成的更改。验证是可配置的,通常取决于迁移。最常见的两种验证是编译更改的文件和运行它们的单元测试。每个失败的验证步骤可以选择运行ML驱动的“修复”。模型也已针对大量失败的构建和测试数据以及相应修复的diffs进行了训练。对于遇到的每个构建/测试失败,Google会提示模型更改文件、构建/测试错误,并请求修复。通过这种方法,观察到模型在大量情况下能够修复代码。 由于为每个文件组生成多个更改,Google根据验证对其进行评分,最后决定将哪个更改集传播回最终更改列表(类似于Git中的拉取请求)。 案例研究:将整数从32位迁移到64位随着Google代码库及其产品的发展,过去(有时超过十年前)做出的假设不再成立。例如,Google Ads有数十种用于用户、商家、广告活动等的唯一“ID”类型,这些ID最初定义为32位整数。但由于当前ID数量的增长,预计它们会比预期更早溢出32位容量。 这一认识导致了一项重大工作,即将这些ID迁移到64位整数。该项目困难重重: 为了加快工作进度,Google使用了AI迁移工具,并制定了以下工作流程: 在这项工作流中,发现着陆的变更列表(CLs)中80%的代码修改由AI创作,其余由人类创作。工程师报告称,迁移总时间减少了约50%。沟通开销显著减少,因为单个工程师即可生成所有必要的更改。工程师仍需要花时间分析需要更改的文件并进行审查。发现,在Java文件中,模型预测文件需要编辑的准确率为91%。 该工具包已用于创建数百个变更列表,涉及此次及其他迁移。平均而言,成功在monorepo中着陆的AI生成字符更改超过75%。 未来方向下一步是处理影响多个组件交换数据或需要系统架构更改的更复杂迁移。Google已经在迁移需要非平凡重构的弃用类型以及从旧测试框架迁移中取得了成功。 Google正在研究如何在开发过程的其他部分应用AI,特别是帮助定位更改和更好地过滤不必要的更改。另一个有趣的领域是改进IDE中的迁移用户体验,使变更操作员能够更自由地混合和匹配现有工具。 总的来说,Google看到这项工作的广泛潜在应用,可能超越严格的代码迁移空间,并可能应用于错误修正和大规模的常规代码维护。
极客时间:在AutoGen Builder中创建具有定制技能的代理
尝试使用Autogen Builder中的本地LLM/SLM后,下一步是探索如何在AutoGen Builder中创建自定义技能并将其分配给代理。选择了一个从给定URL获取HTML页面的技能。以下是具体步骤: 第一步:设置环境 请访问“https://medium.com/the-constellar-digital-technology-blog/geek-out-time-creating-a-local-ai-agent-on-my-mac-using-autogen-builder-with-the-local-llm-08862e908443”来了解如何运行Autogen Builder。 第二步:创建新技能 在AutoGen Builder提供的代码编辑器或输入字段中,粘贴以下Python代码: 点击“保存”按钮保存新技能。 第三步:配置系统消息 系统消息为代理提供如何处理任务的指示。以下是包含内容的示例: 指示: 创建或编辑代理: 进入AutoGen Builder中创建或编辑代理的部分。 在“模型”下,使用GPT,需要前往OpenAI网站生成API密钥并输入。(https://help.openai.com/en/articles/4936850-where-do-i-find-my-openai-api-key) 最终,将创建的自定义技能链接到代理。 系统消息: 将上述“系统消息”粘贴到代理配置的“系统消息”字段中。 保存配置: 保存带有新系统消息的代理配置。 第四步:创建测试工作流 将“GetHtmlPage”代理添加到工作流中作为“接收者”。 第五步:测试代理 结论 按照这些步骤,成功创建了一个在AutoGen Builder中从URL获取HTML内容的自定义代理。该指南提供了从设置环境到测试代理的完整过程。如果遇到任何问题或需要进一步帮助,请随时联系。尝试一些复杂的自定义技能与群聊会很有趣,敬请期待。 玩得开心!