近年来,AI图像生成行业发展迅猛。 当OpenAI(就是开发ChatGPT的公司)在2021年推出DALL-E图像生成模型时,引起了极大关注,因为将文本转为图像在当时还没有听说过。然而,随着OpenAI不断推出更新的模型,全球逐渐意识到,这项技术将对多个行业产生颠覆性影响。 亿美元级的AI图像生成市场 根据研究数据,2023年全球AI图像生成市场收入达到了3.496亿美元,预计到2030年将飙升至10.81亿美元。 很多公司已经开始使用这些图像生成器,尤其在广告创作上,这大大节省了成本。你可能已经看过可口可乐的热门广告,或者注意到那些利用AI技术进行品牌代言的虚拟网红。应用场景多到数不清。 甚至电商巨头亚马逊也已经在广告中使用AI生成的逼真模型了。 例如,亚马逊印度的应用程序中,广告使用的就是AI生成的图片。亚马逊印度已经开始用AI图像进行广告展示。 在这个前景广阔的AI图像生成市场上,活跃着很多公司,例如Midjourney、Adobe、OpenAI、Stability AI、Google、微软、Leonardo AI、Runway AI等,名单还远不止于此。 截至2024年7月,市场领先的AI生成模型包括Midjourney V6.1、OpenAI的DALL-E 3以及Stability AI的Stable Diffusion(开源)。但2024年8月1日,一家名为Black Forest Labs的初创公司发布了FLUX.1,令行业内的一些专家感到震惊,也让许多顶尖的AI图像生成公司感到压力。 新晋强者——FLUX.1 https://flux-ai.io/ FLUX.1系列模型定义了一个新的标准,提供了更高的细节表现、对文本提示的更好遵从、多样化风格以及更复杂的场景构建。 FLUX.1的背后团队正是最初开发Stable Diffusion技术以及潜在扩散算法的原班人马。这家公司位于德国,已经筹集到了3100万美元的种子资金。 FLUX.1包含三种模型: FLUX.1 Pro 这是旗舰模型,以其卓越的文本提示响应能力、视觉质量、图像精细度以及输出多样性而著称。该模型主要通过API提供,适合商业应用,非常适合专业需求。 FLUX.1 Dev 这是FLUX.1 Pro的精简版,专为非商业用途设计。它保留了与FLUX.1 Pro类似的质量和提示响应能力,同时比同类标准模型更高效。该模型是开源的,用户可以自由使用它进行个人和研究目的,而不受商业限制。 FLUX.1 Schnell 这是FLUX系列中速度最快的模型,专为本地开发和个人使用优化。它在Apache 2.0许可下开放,适合想要快速原型设计或个人项目的用户,优先考虑速度和效率。 如何访问FLUX.1模型 最简单的方式是通过Hugging Face平台访问,该平台是一个专注于自然语言处理(NLP)和机器学习的AI社区。用户可以在Hugging Face上找到FLUX.1 Dev和FLUX.1 Schnell的空间,并根据需要输入提示生成图像。 不过,Hugging Face的使用频率有限制,这意味着在高峰期可能需要较长的等待时间。为了解决这个问题,Black Forest Labs还与多个合作伙伴(如fal.ai、replicate和Freepik等)合作,用户可以选择免费的或付费的计划。 在Freepik平台,FLUX.1的各个模型被称为不同的模式:FLUX.1 Schnell为Flux Fast模式,FLUX.1 Dev为Flux模式,FLUX.1 Pro则是Flux Realism模式。 FLUX.1生成的图片展示 FLUX.1生成的图像可以说是令人惊叹,它们的质量已经让很多用户大为赞叹。这种开源工具的一个重要优势是,用户可以根据需要自定义并添加新功能。 以下是几个例子,展示了FLUX.1模型生成的高质量图像:…
Author: aitrendtrackers@rengongzhineng.io
OpenAI计划取消其非营利组织对公司的控制权,并首次为首席执行官萨姆·阿尔特曼分配股权
据知情人士透露,ChatGPT的开发者OpenAI正计划重组其核心业务,转型为一个营利性的公益公司,不再由其非营利董事会控制。这一举措旨在使公司更具吸引力,吸引更多投资者。据路透社报道,OpenAI的非营利组织将继续存在,并持有新营利公司的一小部分股权。此外,新的治理结构可能会影响公司如何应对AI风险。 消息还指出,OpenAI的首席执行官萨姆·阿尔特曼将首次获得该营利性公司的股份,而重组后的公司估值可能高达1500亿美元,并且有意取消投资者收益上限。由于这些信息涉及私密内容,消息来源选择匿名。 OpenAI的一位发言人表示,公司仍专注于开发对所有人有益的人工智能,并正与董事会合作,确保实现这一目标。非营利组织仍然是公司使命的核心,并将继续存在。该公司拟议的结构调整方案,背后涉及重大治理变革。目前,律师和股东仍在协商具体方案,重组完成的时间尚不确定。 此外,OpenAI近期还经历了一系列高层变动。公司长期首席技术官米拉·穆拉蒂在周三突然宣布离职,OpenAI的总裁格雷格·布洛克曼也处于休假状态。 OpenAI成立于2015年,最初是一个非营利性AI研究组织,2019年增加了一个营利性的子公司OpenAI LP,以获得微软等公司的资金支持。自2022年推出生成式AI应用ChatGPT以来,OpenAI迅速走红,吸引了超过2亿每周活跃用户,全球掀起了AI投资热潮。OpenAI的估值也从2021年的140亿美元飙升至当前讨论中的1500亿美元,吸引了Thrive Capital和苹果等投资者的关注。 OpenAI的独特结构使其非营利组织控制营利性子公司,旨在确保其使命——创造安全且广泛有益的AGI(通用人工智能)。然而,去年11月,一场引发广泛关注的董事会危机中,非营利董事会曾一度解雇阿尔特曼,随后在员工和投资者的强烈支持下,他在五天后被复职。如今,OpenAI的董事会已被更多科技高管刷新,由前Salesforce联合CEO布雷特·泰勒担任主席。 非营利控制权的移除将让OpenAI更像一个典型的初创公司,这一变化受到投资者的普遍欢迎,但也引发了AI安全社区的担忧。今年早些时候,OpenAI解散了专门研究AI长期风险的”超对齐”团队,令外界质疑其是否仍具备足够的治理机制来实现对AGI的责任承担。 目前还不清楚阿尔特曼将获得多少股权。尽管阿尔特曼此前已通过其他初创投资成为亿万富翁,但他曾公开表示,自己之所以不持有公司股权,是因为董事会需要没有公司利益相关的成员。他也曾表示,自己已经不缺钱,做这一切是出于对工作的热爱。 新的公司架构将类似于OpenAI的主要竞争对手Anthropic和埃隆·马斯克的xAI,这两家公司也都注册为公益公司,既追求利润,又强调社会责任和可持续发展。
Meta发布了新版本的开源AI模型Llama 3.2
Meta在2024年Connect大会上发布了新版本的开源AI模型Llama 3.2,这些小型和中型模型能够在边缘设备和移动设备上运行工作负载。Llama 3.2支持多语言文本生成和视觉应用,如图像识别。这是Meta首次推出的开源多模态模型,能够实现需要视觉理解的多种应用。 相比7月发布的Llama 3.1(拥有4050亿参数,是史上最大开源AI模型),Llama 3.2的模型尺寸更小,参数范围从1亿到90亿,适合那些计算资源有限的研究人员。小型模型(1B和3B)专注于文本输入,可以在Qualcomm和MediaTek的硬件上运行,并且经过优化能在Arm架构处理器上本地运行。这种本地处理不仅速度快,而且更安全,因为数据无需上传至云端。 中型模型(11B和90B)则支持多模态输入,能够处理文本和图像,例如用来理解图表和财务报表中的销售数据。 在性能上,Llama 3.2表现优于OpenAI和Anthropic的领先模型。3B版本在任务跟随和内容总结上超越了谷歌Gemma 2 2.6B和微软Phi 3.5-mini,而90B版本在多个基准测试中击败了Claude 3-Haiku和GPT-4o-mini。 为确保安全,Meta在Llama 3.2中引入了新“守护”功能(Llama Guard),增加了图像理解的防护措施,并为小型模型优化了Llama Guard,使其更小巧但仍具备基本功能。 Llama 3.2模型现已在llama.com和Hugging Face上开放下载,用户也可通过谷歌云、AWS、Nvidia、微软Azure等云合作伙伴访问这些模型。Together AI还提供了免费访问Llama 3.2视觉模型(11B)的机会,加速开源AI的应用。 https://huggingface.co/meta-llama
Meta宣布为Ray-Ban Meta智能眼镜增加全新AI功能
Meta宣布为Ray-Ban Meta智能眼镜增加全新AI功能,让用户体验更加智能和便捷。现在,眼镜不仅可以记住你停车的位置,还可以实时翻译语言、识别周围的事物,并提供更多实用的功能。通过与Spotify、Amazon Music以及新加入的Audible和iHeart的合作,用户可以轻松通过语音命令播放音乐或有声读物,让娱乐体验更加丰富。 AI功能的提升使用户无需重复唤醒“Hey Meta”就能连续提问。同时,Meta AI现在支持语音录制和发送WhatsApp或Messenger消息,解放双手,方便随时随地与他人沟通。此外,用户可以请求AI提供实时视频帮助,比如在探索新城市时,AI可提供景点解说或推荐路线,甚至在超市购物时,帮助用户做出食材搭配的决策。 未来,眼镜还将具备实时翻译功能,用户与讲西班牙语、法语或意大利语的人交流时,眼镜会自动将对话内容翻译成英文并通过开放式耳机播放。这项功能不仅方便旅行,还能拉近人与人之间的距离。 在合作方面,Meta与Be My Eyes应用合作,为视障者提供帮助。通过眼镜的视频通话功能,志愿者可以看到用户的视角,协助他们完成日常任务,比如调整温控器或整理邮件。 最后,Meta推出限量版透明镜框和新型变色镜片,进一步展现创新科技与设计美学的结合。这些升级让Ray-Ban Meta眼镜变得更智能、更有趣,同时也更具时尚感。
Meta发布了全新Meta Quest 3S头显
在Connect大会上,Meta发布了全新Meta Quest 3S头显,这款设备与Meta Quest 3具备相同的混合现实功能和强劲性能,但价格更亲民,仅售299.99美元。Quest 3S是为那些初次接触混合现实或希望从Quest或Quest 2升级的用户量身打造的最佳选择。 与Meta Quest 3一样,Quest 3S支持全彩透视功能,用户可以在虚拟与现实世界之间自由切换。这款设备不仅能让用户在大屏幕上观看电影、进行健身训练、享受多任务处理功能,还能畅玩各种游戏,性价比极高。Meta Quest 3S的推出标志着Meta Quest 3系列的进一步扩展。 在2024年,Meta对Quest生态系统进行了多项改进,包括重新构建了Meta Horizon OS,增强了空间音效,提升了透视功能的对比度和色彩表现。此外,Quest 3S还具备旅行模式,甚至可以在旅途中使用。未来Meta还计划支持更多场景,如火车旅行模式、躺下使用头显、升级Meta AI以及唤醒功能“Hey Meta”。 Quest 3S支持数千款应用程序和游戏,未来还将推出如《蝙蝠侠:阿卡姆之影》等Quest 3和3S独占游戏。Meta也宣布将512GB版本的Meta Quest 3价格从649.99美元降至499.99美元,四倍的存储空间、4K+无限显示和超广视角,使其仍然是技术发烧友和游戏玩家的首选。 总的来说,Meta Quest 3S让混合现实体验更加普及,进一步推动了这项技术的未来发展。
OpenAI首席技术官Mira Murati宣布她将离开公司
OpenAI首席技术官Mira Murati在周三于X平台发文宣布她将离开公司。她表示,在OpenAI度过了六年多的时光后,决定离开,开启自己的探索旅程。Murati在帖子中说道:“经过深思熟虑,我做出了离开OpenAI的艰难决定。尽管没有理想的时机告别一个珍惜的地方,但此刻感觉恰到好处……与OpenAI团队共事的六年半是一段非凡的经历。” 针对这一消息,OpenAI的发言人拒绝进一步评论,只是将TechCrunch引向Murati的推文。CEO Sam Altman随后也在X上回应了Murati的帖子,表达了对她的感谢。他表示:“目前我们还会稍后公布更多的过渡计划,但此刻,我只想表达我的感谢。对她帮助我们取得的成就,我心怀感激,尤其是在艰难时刻她给予的支持和关爱。” Murati的决定正值OpenAI年度开发者大会DevDay即将举行前一周。去年年底,OpenAI前董事会突然解雇了Altman,Murati曾一度被任命为临时CEO。报道称,Murati与前首席科学家Ilya Sutskever一起向董事会表达了对Altman行为的担忧,导致了这一变动。 目前,Altman正在逐步加强对OpenAI的控制以及其形象的塑造。本周一,Altman撰文称OpenAI可能在未来几年内实现“超级智能”,并有望首次获得公司股权,OpenAI也正在从非营利性结构过渡。 Murati于2018年加入OpenAI,最初担任应用AI和合作伙伴关系副总裁,2022年晋升为首席技术官。在此期间,她领导了ChatGPT、DALL-E、Codex等项目的发展,这些AI技术广泛应用于GitHub的Copilot产品。 在加入OpenAI之前,Murati拥有达特茅斯学院的机械工程学位,并曾在高盛和法国航空航天集团Zodiac Aerospace实习,随后在特斯拉担任Model X项目的高级产品经理,期间推出了早期版本的Autopilot。她还曾在Leap Motion公司担任产品和工程副总裁,致力于开发手指追踪技术。 作为OpenAI的CTO,Murati也因发表颇具争议的言论而闻名。她曾在采访中模糊表示OpenAI的AI会达到“博士水平的智能”,并在今年六月声称一些创意工作可能会被取代,而且这些工作“不应该存在”,因为它们的内容质量并不高。 Murati是近期离开OpenAI的多位高层主管之一。前首席科学家Ilya Sutskever和安全负责人Jan Leike在五月离职,联合创始人John Schulman也在上个月宣布加入竞争对手Anthropic。与此同时,OpenAI的总裁Greg Brockman则将休假至年底。 Murati的离职恰逢OpenAI正寻求一轮融资,估值预计超过1500亿美元。据报道,微软、Nvidia、苹果和Thrive Capital正在与其洽谈,融资金额可能高达65亿美元。 OpenAI目前急需资金。据消息称,公司已经在模型训练上花费了约70亿美元,员工成本达到15亿美元。仅ChatGPT的运营费用每天就高达70万美元,而训练GPT-4模型的成本超过1亿美元。
Google今天发布了两款升级版Gemini模型:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002
谷歌今天发布了两款升级版Gemini模型:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002,同时推出了以下更新: 这些新模型是在今年5月Google I/O大会上发布的Gemini 1.5模型的基础上进行了重大改进。开发者可以通过Google AI Studio和Gemini API免费访问这些最新模型,谷歌云的客户和大企业用户也可以在Vertex AI上使用。 总体性能提升,尤其是在数学、长文本处理和视觉任务方面 Gemini 1.5系列模型专为广泛的文本、代码和多模态任务而设计。例如,Gemini模型可以处理1000页的PDF文件、回答包含超过1万行代码的仓库问题、解析时长一小时的视频,并从中生成有用的内容。 这次更新让1.5 Pro和Flash模型在生产环境中的性能更好、速度更快、成本更低。据测试数据显示,1.5 Pro在MMLU-Pro基准测试中的表现提升了约7%,在MATH和HiddenMath竞赛数学题的测试中,两个模型都提升了约20%。在视觉理解和Python代码生成方面,模型的性能也有所提升,幅度在2-7%之间。 模型的响应风格也变得更加简洁,开发者反馈的这一改进意在降低使用成本。例如,在总结、问答和信息提取任务中,输出长度相比之前的模型缩短了5-20%。对于需要长文本输出的聊天类产品,谷歌提供了提示策略指南,帮助用户获得更详细的回应。 Gemini 1.5 Pro模型 Gemini 1.5 Pro的2百万token长上下文窗口和多模态功能让人眼前一亮,从视频理解到处理1000页PDF,仍有许多未被发掘的新用例。今天,谷歌宣布1.5 Pro的输入token价格降低64%,输出token价格降低52%,缓存token价格降低64%,这些调整将于2024年10月1日生效,适用于少于128K token的提示。结合上下文缓存,这大大降低了使用Gemini的成本。 速率限制增加 为了让开发者更轻松地使用Gemini,谷歌将1.5 Flash的付费级速率上限提高到2000 RPM,而1.5 Pro提高到1000 RPM,相比之前分别是1000和360。在接下来的几周内,谷歌还将继续提升Gemini API的速率限制。 更快的输出和更低的延迟 在核心模型改进的同时,谷歌也在过去几周内降低了1.5 Flash的延迟,大幅提升了每秒输出的token数量,解锁了更多的应用场景。 更新的过滤设置 自2023年12月首次发布以来,Gemini系列一直致力于构建一个安全可靠的模型。在今天发布的-002版本中,模型在遵循用户指令的同时进一步平衡了安全性。开发者可以根据自己的需求配置这些安全过滤器,默认情况下,新版本模型将不会自动应用过滤器。 Gemini 1.5 Flash-8B实验性更新 谷歌还发布了“Gemini-1.5-Flash-8B-Exp-0924”实验版本,该版本在文本和多模态任务中的表现有显著提升,现已通过Google AI Studio和Gemini API开放使用。 开发者对1.5 Flash-8B模型的反馈十分积极,谷歌将继续根据这些反馈改进从实验到生产的发布流程。 谷歌对这些更新充满期待,迫不及待想看看大家用新版Gemini模型会开发出什么样的应用!对于Gemini Advanced用户,未来将能访问优化聊天功能的Gemini 1.5 Pro-002版本。
OpenAI于本周二宣布,将为更多付费用户推出“高级语音模式”(AVM)
OpenAI于本周二宣布,将为更多付费用户推出“高级语音模式”(AVM)。这一语音功能能够让ChatGPT的对话更加自然,首先向Plus和Teams套餐的用户开放,而企业版和教育版客户将在下周获得使用权限。 此次更新中,AVM的设计也焕然一新,取代5月展示时的黑色动画点,新的语音功能图标变成了一个蓝色动态球体。当用户的ChatGPT应用中可用AVM时,会在语音图标旁边收到一个弹窗通知。 这周内,所有Plus和Teams用户将在应用中陆续收到该功能更新。为了安抚那些已经等待已久的用户,OpenAI还添加了自定义指令、记忆功能、五种新语音,并且进一步优化了口音处理能力。值得一提的是,AVM现在还能用超过50种语言说“抱歉,来晚了”。 OpenAI官方推特还发布了消息,介绍了五种新语音,分别是Arbor、Maple、Sol、Spruce和Vale。这使得ChatGPT的语音选择增加到9种,几乎赶上了谷歌的Gemini Live系统。所有这些语音名字都取自自然元素,或许是为了体现AVM让互动更加“自然”的理念。 不过,有一个语音明显缺席,那就是曾在春季更新中展示的Sky语音。这个语音因被女演员斯嘉丽·约翰逊指控与她的声音过于相似而引发法律纠纷。约翰逊曾在电影《她》中饰演一位AI系统,因此她对Sky语音提出了异议。虽然OpenAI解释并无意模仿她的声音,但还是迅速下架了Sky语音。 此外,本次更新还没有包括此前展示的视频和屏幕共享功能。这一功能原本可以让GPT-4o同时处理视觉和听觉信息,用户可以实时询问ChatGPT关于眼前纸上的数学题或者电脑屏幕代码的问题。不过,OpenAI目前尚未给出这一多模态功能的正式上线时间。 尽管如此,OpenAI表示,自AVM进行有限的alpha测试以来,功能已经有所改进。除了增强对口音的理解能力外,语音对话的流畅性和响应速度也得到了提升。虽然测试中偶尔仍会出现故障,但OpenAI称这一情况已经有了改善。 此外,AVM还引入了一些定制功能,例如自定义指令,允许用户个性化ChatGPT的响应方式,以及记忆功能,可以让ChatGPT记住之前的对话,方便日后参考。 不过,目前AVM功能尚未在多个地区上线,包括欧盟、英国、瑞士、冰岛、挪威和列支敦士登等。
Sam Altman的博客:The Intelligence Age
未来的几十年里,人类将能够完成许多在祖辈眼中如同魔法般不可思议的事情。 这种现象并非全新的,只不过将以更快的速度发生。随着时间推移,人类的能力大幅提升,我们现在可以做到的事在过去是难以想象的。并不是因为人类的基因发生了改变,而是我们得益于社会的智能基础设施远超个人能力。从某种角度看,社会本身就是一种高级智慧的表现。我们的祖辈以及更早的世代也创造了辉煌成就,为今天的进步打下了坚实的基础。人工智能(AI)将为人类提供工具,解决更多棘手的问题,继续搭建这座进步的脚手架,完成那些我们无法单靠自身解决的难题。进步的故事将延续下去,未来的孩子们将能够完成今天我们无法企及的成就。 虽然不会一夜之间实现,但不久之后,人们将能够与AI协作,达成比单靠个人更大的成就。最终,每个人都可能拥有一支由虚拟专家组成的AI团队,帮助完成几乎任何能够想象的事情。未来的孩子们将拥有虚拟导师,这些导师可以提供个性化的教育,不论是任何学科、任何语言,还是任何学习速度。此外,医疗健康、软件创作等领域的进步也将如此。 凭借这些全新能力,未来人类将实现一种今天难以想象的共同繁荣。虽然财富不一定能带来幸福,毕竟富人也有痛苦,但这无疑会大幅改善全球人民的生活质量。 从历史的角度看,人类经过数千年的科学发现与技术进步,终于能够将沙子熔化,添加杂质,并以极高的精度在微小尺度上排列成计算机芯片,最终创造出能够开发出日益强大的AI系统。这或许是人类历史上最具深远意义的成就之一。未来几千天内(也许更长时间)可能会诞生超级智能,但毫无疑问,人类正朝着这个方向前进。 这一切的关键可以总结为三个字:深度学习。 再详细一点:深度学习有效果,且随着规模扩大表现更佳,于是人类投入了更多资源。这就是故事的核心。人类找到了一个能够学习任何数据分布的算法(或者说,能够掌握产生这些数据分布的“规则”),只要有足够的计算能力和数据,AI在帮助解决复杂问题时表现就越好。这一突破的影响难以完全理解,但其深远性毋庸置疑。 虽然还有很多细节需要解决,但只要不被具体问题困扰,深度学习的成功是显而易见的。AI将随着规模的增长变得更强大,并对人类生活产生深远的改善。 未来,AI模型将成为自主的个人助手,帮助人类完成特定任务,比如协调医疗等服务。更长远来看,AI将变得如此强大,以至于它们能帮助人类开发下一代技术,并推动科学领域的全面进步。 从石器时代、农业时代到工业时代,科技推动了人类进步。如今,计算能力、能源和人类意志正铺就通往“智能时代”的道路。 为了让AI惠及更多人类,我们需要降低计算成本,使其更加普及,这需要大量的能源和芯片。如果基础设施建设不足,AI可能会成为一种稀缺资源,甚至成为战争的导火索,只为富人服务。 在人类迈入“智能时代”的关键时刻,需要谨慎而坚定地采取行动。尽管挑战重重,AI的巨大潜力让我们有责任去解决眼前的风险。未来将充满光明,任何对它的描述都显得苍白无力。智能时代的标志性特征之一就是大规模的繁荣。 尽管这些变革将逐步发生,但那些曾经看似不可思议的壮举——解决气候问题、建立太空殖民地、揭开物理学的所有奥秘——将成为常态。借助近乎无限的智能和能源,人类将拥有实现伟大想法的能力,能完成前所未有的壮举。 当然,和其他技术一样,AI的进步也会带来负面影响。我们需要提前规划,最大化AI的益处,尽量减少其危害。比如,未来几年AI可能会对劳动力市场产生重大影响,虽然变化的速度可能比预期要慢,但不必担心工作消失。即便未来的工作形式与今天不同,人类总会找到发挥自己创造力和为社会作贡献的方式。AI将大幅增强人类的能力,社会将迎来新的扩展期,重新专注于共同进步。 回看历史,许多我们今天所做的事情在几百年前可能显得无比琐碎,但没有人怀念点灯工的时代。如果一位点灯工看到今天的世界,他会觉得这般繁荣是无法想象的。而如果我们能快进到一百年后,我们眼中的繁荣也将变得同样难以想象。
Qwen2.5:开源基础模型的狂欢盛宴!
自从Qwen2发布后的三个月内,众多开发者基于Qwen2语言模型构建了新模型,并提供了宝贵的反馈。在此期间,Qwen团队专注于打造更智能、更具知识性的语言模型。今天,全新Qwen系列的最新成员——Qwen2.5,隆重登场!官方宣布了有史以来规模最大的开源发布之一!让我们开始狂欢吧! https://github.com/QwenLM/Qwen2.5 此次发布的重磅内容包括通用大模型Qwen2.5,以及专注于编程的Qwen2.5-Coder和数学的Qwen2.5-Math。所有开源权重模型均为稠密、仅解码语言模型,涵盖多种尺寸,如下所示: 除了3B和72B版本,所有模型都采用Apache 2.0许可协议,相关文件可在Hugging Face的对应库中找到。此外,用户还可以通过Model Studio体验Qwen-Plus和Qwen-Turbo等旗舰语言模型的API服务。Qwen团队还开源了Qwen2-VL-72B,与上月发布的版本相比进行了性能优化。 Qwen2.5的所有语言模型都经过最新大规模数据集的预训练,数据量高达18万亿tokens。与Qwen2相比,Qwen2.5在知识储备(MMLU: 85+)、编程能力(HumanEval 85+)和数学能力(MATH 80+)方面有显著提升。此外,模型在指令遵循、长文本生成(超过8K tokens)、结构化数据理解(例如表格)、结构化输出生成(特别是JSON格式)等方面也有了巨大进步。Qwen2.5还支持多达128K tokens的处理能力,支持生成长达8K tokens的文本,并保留了对包括中文、英语、法语等29种语言的多语种支持。 Qwen2.5-Coder和Qwen2.5-Math这两款专家模型相比其前辈也有了显著的增强。Qwen2.5-Coder经过了5.5万亿代码相关数据的训练,即使是较小的编程专用模型,也在代码评测中展现出与更大语言模型竞争的能力。Qwen2.5-Math支持中文和英语,并引入了连锁思维(CoT)、程序思维(PoT)和工具整合推理(TIR)等多种推理方式。 Qwen2.5系列在不同的尺寸模型中展现了强大的性能,尤其是Qwen2.5-72B,它在多个指令调整基准上超越了同类的开源大模型如Llama-3.1-70B和Mistral-Large-V2。而且,即便是Qwen2.5-3B这样的较小模型,也在知识密度和性能方面大放异彩,展示了其高效的能力。 此外,Qwen团队还在后期训练方法上做了四大更新,包括支持生成长达8K tokens的文本、结构化数据理解、生成结构化输出(如JSON格式),以及对多种系统提示的适应性提升,使得角色扮演和条件设置更加灵活。对编程领域的用户来说,Qwen2.5-Coder展现了卓越的性能,虽然模型参数较小,但在多种编程语言和任务中表现优异,堪称个人编程助手的最佳选择。 至于数学领域,Qwen2.5-Math相较于Qwen2-Math预训练了更大规模的数学数据,并加强了推理能力,甚至其1.5B的小型号模型也能在数学任务中与大语言模型竞争。 总之,Qwen2.5系列在各个领域都取得了突破性进展,用户可以通过Hugging Face、vllm等多种途径便捷使用这些模型。Qwen2.5还支持工具调用功能,让用户在编程、数学等任务中如虎添翼。通过这些强大的模型,Qwen团队期待看到更多惊人的应用和创新。 准备好开启无限可能的世界吧!