aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

FLUX.1 AI图像生成行业的新挑战者

Posted on September 29, 2024September 29, 2024 by aitrendtrackers@rengongzhineng.io

近年来，AI图像生成行业发展迅猛。当OpenAI（就是开发ChatGPT的公司）在2021年推出DALL-E图像生成模型时，引起了极大关注，因为将文本转为图像在当时还没有听说过。然而，随着OpenAI不断推出更新的模型，全球逐渐意识到，这项技术将对多个行业产生颠覆性影响。亿美元级的AI图像生成市场根据研究数据，2023年全球AI图像生成市场收入达到了3.496亿美元，预计到2030年将飙升至10.81亿美元。很多公司已经开始使用这些图像生成器，尤其在广告创作上，这大大节省了成本。你可能已经看过可口可乐的热门广告，或者注意到那些利用AI技术进行品牌代言的虚拟网红。应用场景多到数不清。甚至电商巨头亚马逊也已经在广告中使用AI生成的逼真模型了。例如，亚马逊印度的应用程序中，广告使用的就是AI生成的图片。亚马逊印度已经开始用AI图像进行广告展示。在这个前景广阔的AI图像生成市场上，活跃着很多公司，例如Midjourney、Adobe、OpenAI、Stability AI、Google、微软、Leonardo AI、Runway AI等，名单还远不止于此。截至2024年7月，市场领先的AI生成模型包括Midjourney V6.1、OpenAI的DALL-E 3以及Stability AI的Stable Diffusion（开源）。但2024年8月1日，一家名为Black Forest Labs的初创公司发布了FLUX.1，令行业内的一些专家感到震惊，也让许多顶尖的AI图像生成公司感到压力。新晋强者——FLUX.1 https://flux-ai.io/ FLUX.1系列模型定义了一个新的标准，提供了更高的细节表现、对文本提示的更好遵从、多样化风格以及更复杂的场景构建。 FLUX.1的背后团队正是最初开发Stable Diffusion技术以及潜在扩散算法的原班人马。这家公司位于德国，已经筹集到了3100万美元的种子资金。 FLUX.1包含三种模型： FLUX.1 Pro 这是旗舰模型，以其卓越的文本提示响应能力、视觉质量、图像精细度以及输出多样性而著称。该模型主要通过API提供，适合商业应用，非常适合专业需求。 FLUX.1 Dev 这是FLUX.1 Pro的精简版，专为非商业用途设计。它保留了与FLUX.1 Pro类似的质量和提示响应能力，同时比同类标准模型更高效。该模型是开源的，用户可以自由使用它进行个人和研究目的，而不受商业限制。 FLUX.1 Schnell 这是FLUX系列中速度最快的模型，专为本地开发和个人使用优化。它在Apache 2.0许可下开放，适合想要快速原型设计或个人项目的用户，优先考虑速度和效率。如何访问FLUX.1模型最简单的方式是通过Hugging Face平台访问，该平台是一个专注于自然语言处理（NLP）和机器学习的AI社区。用户可以在Hugging Face上找到FLUX.1 Dev和FLUX.1 Schnell的空间，并根据需要输入提示生成图像。不过，Hugging Face的使用频率有限制，这意味着在高峰期可能需要较长的等待时间。为了解决这个问题，Black Forest Labs还与多个合作伙伴（如fal.ai、replicate和Freepik等）合作，用户可以选择免费的或付费的计划。在Freepik平台，FLUX.1的各个模型被称为不同的模式：FLUX.1 Schnell为Flux Fast模式，FLUX.1 Dev为Flux模式，FLUX.1 Pro则是Flux Realism模式。 FLUX.1生成的图片展示 FLUX.1生成的图像可以说是令人惊叹，它们的质量已经让很多用户大为赞叹。这种开源工具的一个重要优势是，用户可以根据需要自定义并添加新功能。以下是几个例子，展示了FLUX.1模型生成的高质量图像：…

OpenAI计划取消其非营利组织对公司的控制权，并首次为首席执行官萨姆·阿尔特曼分配股权

Posted on September 27, 2024September 27, 2024 by aitrendtrackers@rengongzhineng.io

据知情人士透露，ChatGPT的开发者OpenAI正计划重组其核心业务，转型为一个营利性的公益公司，不再由其非营利董事会控制。这一举措旨在使公司更具吸引力，吸引更多投资者。据路透社报道，OpenAI的非营利组织将继续存在，并持有新营利公司的一小部分股权。此外，新的治理结构可能会影响公司如何应对AI风险。消息还指出，OpenAI的首席执行官萨姆·阿尔特曼将首次获得该营利性公司的股份，而重组后的公司估值可能高达1500亿美元，并且有意取消投资者收益上限。由于这些信息涉及私密内容，消息来源选择匿名。 OpenAI的一位发言人表示，公司仍专注于开发对所有人有益的人工智能，并正与董事会合作，确保实现这一目标。非营利组织仍然是公司使命的核心，并将继续存在。该公司拟议的结构调整方案，背后涉及重大治理变革。目前，律师和股东仍在协商具体方案，重组完成的时间尚不确定。此外，OpenAI近期还经历了一系列高层变动。公司长期首席技术官米拉·穆拉蒂在周三突然宣布离职，OpenAI的总裁格雷格·布洛克曼也处于休假状态。 OpenAI成立于2015年，最初是一个非营利性AI研究组织，2019年增加了一个营利性的子公司OpenAI LP，以获得微软等公司的资金支持。自2022年推出生成式AI应用ChatGPT以来，OpenAI迅速走红，吸引了超过2亿每周活跃用户，全球掀起了AI投资热潮。OpenAI的估值也从2021年的140亿美元飙升至当前讨论中的1500亿美元，吸引了Thrive Capital和苹果等投资者的关注。 OpenAI的独特结构使其非营利组织控制营利性子公司，旨在确保其使命——创造安全且广泛有益的AGI（通用人工智能）。然而，去年11月，一场引发广泛关注的董事会危机中，非营利董事会曾一度解雇阿尔特曼，随后在员工和投资者的强烈支持下，他在五天后被复职。如今，OpenAI的董事会已被更多科技高管刷新，由前Salesforce联合CEO布雷特·泰勒担任主席。非营利控制权的移除将让OpenAI更像一个典型的初创公司，这一变化受到投资者的普遍欢迎，但也引发了AI安全社区的担忧。今年早些时候，OpenAI解散了专门研究AI长期风险的”超对齐”团队，令外界质疑其是否仍具备足够的治理机制来实现对AGI的责任承担。目前还不清楚阿尔特曼将获得多少股权。尽管阿尔特曼此前已通过其他初创投资成为亿万富翁，但他曾公开表示，自己之所以不持有公司股权，是因为董事会需要没有公司利益相关的成员。他也曾表示，自己已经不缺钱，做这一切是出于对工作的热爱。新的公司架构将类似于OpenAI的主要竞争对手Anthropic和埃隆·马斯克的xAI，这两家公司也都注册为公益公司，既追求利润，又强调社会责任和可持续发展。

Meta发布了新版本的开源AI模型Llama 3.2

Posted on September 26, 2024September 26, 2024 by aitrendtrackers@rengongzhineng.io

Meta在2024年Connect大会上发布了新版本的开源AI模型Llama 3.2，这些小型和中型模型能够在边缘设备和移动设备上运行工作负载。Llama 3.2支持多语言文本生成和视觉应用，如图像识别。这是Meta首次推出的开源多模态模型，能够实现需要视觉理解的多种应用。相比7月发布的Llama 3.1（拥有4050亿参数，是史上最大开源AI模型），Llama 3.2的模型尺寸更小，参数范围从1亿到90亿，适合那些计算资源有限的研究人员。小型模型（1B和3B）专注于文本输入，可以在Qualcomm和MediaTek的硬件上运行，并且经过优化能在Arm架构处理器上本地运行。这种本地处理不仅速度快，而且更安全，因为数据无需上传至云端。中型模型（11B和90B）则支持多模态输入，能够处理文本和图像，例如用来理解图表和财务报表中的销售数据。在性能上，Llama 3.2表现优于OpenAI和Anthropic的领先模型。3B版本在任务跟随和内容总结上超越了谷歌Gemma 2 2.6B和微软Phi 3.5-mini，而90B版本在多个基准测试中击败了Claude 3-Haiku和GPT-4o-mini。为确保安全，Meta在Llama 3.2中引入了新“守护”功能（Llama Guard），增加了图像理解的防护措施，并为小型模型优化了Llama Guard，使其更小巧但仍具备基本功能。 Llama 3.2模型现已在llama.com和Hugging Face上开放下载，用户也可通过谷歌云、AWS、Nvidia、微软Azure等云合作伙伴访问这些模型。Together AI还提供了免费访问Llama 3.2视觉模型（11B）的机会，加速开源AI的应用。 https://huggingface.co/meta-llama

Meta宣布为Ray-Ban Meta智能眼镜增加全新AI功能

Posted on September 26, 2024September 26, 2024 by aitrendtrackers@rengongzhineng.io

Meta宣布为Ray-Ban Meta智能眼镜增加全新AI功能，让用户体验更加智能和便捷。现在，眼镜不仅可以记住你停车的位置，还可以实时翻译语言、识别周围的事物，并提供更多实用的功能。通过与Spotify、Amazon Music以及新加入的Audible和iHeart的合作，用户可以轻松通过语音命令播放音乐或有声读物，让娱乐体验更加丰富。 AI功能的提升使用户无需重复唤醒“Hey Meta”就能连续提问。同时，Meta AI现在支持语音录制和发送WhatsApp或Messenger消息，解放双手，方便随时随地与他人沟通。此外，用户可以请求AI提供实时视频帮助，比如在探索新城市时，AI可提供景点解说或推荐路线，甚至在超市购物时，帮助用户做出食材搭配的决策。未来，眼镜还将具备实时翻译功能，用户与讲西班牙语、法语或意大利语的人交流时，眼镜会自动将对话内容翻译成英文并通过开放式耳机播放。这项功能不仅方便旅行，还能拉近人与人之间的距离。在合作方面，Meta与Be My Eyes应用合作，为视障者提供帮助。通过眼镜的视频通话功能，志愿者可以看到用户的视角，协助他们完成日常任务，比如调整温控器或整理邮件。最后，Meta推出限量版透明镜框和新型变色镜片，进一步展现创新科技与设计美学的结合。这些升级让Ray-Ban Meta眼镜变得更智能、更有趣，同时也更具时尚感。

Meta发布了全新Meta Quest 3S头显

Posted on September 26, 2024September 26, 2024 by aitrendtrackers@rengongzhineng.io

在Connect大会上，Meta发布了全新Meta Quest 3S头显，这款设备与Meta Quest 3具备相同的混合现实功能和强劲性能，但价格更亲民，仅售299.99美元。Quest 3S是为那些初次接触混合现实或希望从Quest或Quest 2升级的用户量身打造的最佳选择。与Meta Quest 3一样，Quest 3S支持全彩透视功能，用户可以在虚拟与现实世界之间自由切换。这款设备不仅能让用户在大屏幕上观看电影、进行健身训练、享受多任务处理功能，还能畅玩各种游戏，性价比极高。Meta Quest 3S的推出标志着Meta Quest 3系列的进一步扩展。在2024年，Meta对Quest生态系统进行了多项改进，包括重新构建了Meta Horizon OS，增强了空间音效，提升了透视功能的对比度和色彩表现。此外，Quest 3S还具备旅行模式，甚至可以在旅途中使用。未来Meta还计划支持更多场景，如火车旅行模式、躺下使用头显、升级Meta AI以及唤醒功能“Hey Meta”。 Quest 3S支持数千款应用程序和游戏，未来还将推出如《蝙蝠侠：阿卡姆之影》等Quest 3和3S独占游戏。Meta也宣布将512GB版本的Meta Quest 3价格从649.99美元降至499.99美元，四倍的存储空间、4K+无限显示和超广视角，使其仍然是技术发烧友和游戏玩家的首选。总的来说，Meta Quest 3S让混合现实体验更加普及，进一步推动了这项技术的未来发展。

OpenAI首席技术官Mira Murati宣布她将离开公司

Posted on September 26, 2024September 26, 2024 by aitrendtrackers@rengongzhineng.io

OpenAI首席技术官Mira Murati在周三于X平台发文宣布她将离开公司。她表示，在OpenAI度过了六年多的时光后，决定离开，开启自己的探索旅程。Murati在帖子中说道：“经过深思熟虑，我做出了离开OpenAI的艰难决定。尽管没有理想的时机告别一个珍惜的地方，但此刻感觉恰到好处……与OpenAI团队共事的六年半是一段非凡的经历。” 针对这一消息，OpenAI的发言人拒绝进一步评论，只是将TechCrunch引向Murati的推文。CEO Sam Altman随后也在X上回应了Murati的帖子，表达了对她的感谢。他表示：“目前我们还会稍后公布更多的过渡计划，但此刻，我只想表达我的感谢。对她帮助我们取得的成就，我心怀感激，尤其是在艰难时刻她给予的支持和关爱。” Murati的决定正值OpenAI年度开发者大会DevDay即将举行前一周。去年年底，OpenAI前董事会突然解雇了Altman，Murati曾一度被任命为临时CEO。报道称，Murati与前首席科学家Ilya Sutskever一起向董事会表达了对Altman行为的担忧，导致了这一变动。目前，Altman正在逐步加强对OpenAI的控制以及其形象的塑造。本周一，Altman撰文称OpenAI可能在未来几年内实现“超级智能”，并有望首次获得公司股权，OpenAI也正在从非营利性结构过渡。 Murati于2018年加入OpenAI，最初担任应用AI和合作伙伴关系副总裁，2022年晋升为首席技术官。在此期间，她领导了ChatGPT、DALL-E、Codex等项目的发展，这些AI技术广泛应用于GitHub的Copilot产品。在加入OpenAI之前，Murati拥有达特茅斯学院的机械工程学位，并曾在高盛和法国航空航天集团Zodiac Aerospace实习，随后在特斯拉担任Model X项目的高级产品经理，期间推出了早期版本的Autopilot。她还曾在Leap Motion公司担任产品和工程副总裁，致力于开发手指追踪技术。作为OpenAI的CTO，Murati也因发表颇具争议的言论而闻名。她曾在采访中模糊表示OpenAI的AI会达到“博士水平的智能”，并在今年六月声称一些创意工作可能会被取代，而且这些工作“不应该存在”，因为它们的内容质量并不高。 Murati是近期离开OpenAI的多位高层主管之一。前首席科学家Ilya Sutskever和安全负责人Jan Leike在五月离职，联合创始人John Schulman也在上个月宣布加入竞争对手Anthropic。与此同时，OpenAI的总裁Greg Brockman则将休假至年底。 Murati的离职恰逢OpenAI正寻求一轮融资，估值预计超过1500亿美元。据报道，微软、Nvidia、苹果和Thrive Capital正在与其洽谈，融资金额可能高达65亿美元。 OpenAI目前急需资金。据消息称，公司已经在模型训练上花费了约70亿美元，员工成本达到15亿美元。仅ChatGPT的运营费用每天就高达70万美元，而训练GPT-4模型的成本超过1亿美元。

Google今天发布了两款升级版Gemini模型：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002

Posted on September 25, 2024September 25, 2024 by aitrendtrackers@rengongzhineng.io

谷歌今天发布了两款升级版Gemini模型：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002，同时推出了以下更新：这些新模型是在今年5月Google I/O大会上发布的Gemini 1.5模型的基础上进行了重大改进。开发者可以通过Google AI Studio和Gemini API免费访问这些最新模型，谷歌云的客户和大企业用户也可以在Vertex AI上使用。总体性能提升，尤其是在数学、长文本处理和视觉任务方面 Gemini 1.5系列模型专为广泛的文本、代码和多模态任务而设计。例如，Gemini模型可以处理1000页的PDF文件、回答包含超过1万行代码的仓库问题、解析时长一小时的视频，并从中生成有用的内容。这次更新让1.5 Pro和Flash模型在生产环境中的性能更好、速度更快、成本更低。据测试数据显示，1.5 Pro在MMLU-Pro基准测试中的表现提升了约7%，在MATH和HiddenMath竞赛数学题的测试中，两个模型都提升了约20%。在视觉理解和Python代码生成方面，模型的性能也有所提升，幅度在2-7%之间。模型的响应风格也变得更加简洁，开发者反馈的这一改进意在降低使用成本。例如，在总结、问答和信息提取任务中，输出长度相比之前的模型缩短了5-20%。对于需要长文本输出的聊天类产品，谷歌提供了提示策略指南，帮助用户获得更详细的回应。 Gemini 1.5 Pro模型 Gemini 1.5 Pro的2百万token长上下文窗口和多模态功能让人眼前一亮，从视频理解到处理1000页PDF，仍有许多未被发掘的新用例。今天，谷歌宣布1.5 Pro的输入token价格降低64%，输出token价格降低52%，缓存token价格降低64%，这些调整将于2024年10月1日生效，适用于少于128K token的提示。结合上下文缓存，这大大降低了使用Gemini的成本。速率限制增加为了让开发者更轻松地使用Gemini，谷歌将1.5 Flash的付费级速率上限提高到2000 RPM，而1.5 Pro提高到1000 RPM，相比之前分别是1000和360。在接下来的几周内，谷歌还将继续提升Gemini API的速率限制。更快的输出和更低的延迟在核心模型改进的同时，谷歌也在过去几周内降低了1.5 Flash的延迟，大幅提升了每秒输出的token数量，解锁了更多的应用场景。更新的过滤设置自2023年12月首次发布以来，Gemini系列一直致力于构建一个安全可靠的模型。在今天发布的-002版本中，模型在遵循用户指令的同时进一步平衡了安全性。开发者可以根据自己的需求配置这些安全过滤器，默认情况下，新版本模型将不会自动应用过滤器。 Gemini 1.5 Flash-8B实验性更新谷歌还发布了“Gemini-1.5-Flash-8B-Exp-0924”实验版本，该版本在文本和多模态任务中的表现有显著提升，现已通过Google AI Studio和Gemini API开放使用。开发者对1.5 Flash-8B模型的反馈十分积极，谷歌将继续根据这些反馈改进从实验到生产的发布流程。谷歌对这些更新充满期待，迫不及待想看看大家用新版Gemini模型会开发出什么样的应用！对于Gemini Advanced用户，未来将能访问优化聊天功能的Gemini 1.5 Pro-002版本。

OpenAI于本周二宣布，将为更多付费用户推出“高级语音模式”（AVM）

Posted on September 25, 2024September 25, 2024 by aitrendtrackers@rengongzhineng.io

OpenAI于本周二宣布，将为更多付费用户推出“高级语音模式”（AVM）。这一语音功能能够让ChatGPT的对话更加自然，首先向Plus和Teams套餐的用户开放，而企业版和教育版客户将在下周获得使用权限。此次更新中，AVM的设计也焕然一新，取代5月展示时的黑色动画点，新的语音功能图标变成了一个蓝色动态球体。当用户的ChatGPT应用中可用AVM时，会在语音图标旁边收到一个弹窗通知。这周内，所有Plus和Teams用户将在应用中陆续收到该功能更新。为了安抚那些已经等待已久的用户，OpenAI还添加了自定义指令、记忆功能、五种新语音，并且进一步优化了口音处理能力。值得一提的是，AVM现在还能用超过50种语言说“抱歉，来晚了”。 OpenAI官方推特还发布了消息，介绍了五种新语音，分别是Arbor、Maple、Sol、Spruce和Vale。这使得ChatGPT的语音选择增加到9种，几乎赶上了谷歌的Gemini Live系统。所有这些语音名字都取自自然元素，或许是为了体现AVM让互动更加“自然”的理念。不过，有一个语音明显缺席，那就是曾在春季更新中展示的Sky语音。这个语音因被女演员斯嘉丽·约翰逊指控与她的声音过于相似而引发法律纠纷。约翰逊曾在电影《她》中饰演一位AI系统，因此她对Sky语音提出了异议。虽然OpenAI解释并无意模仿她的声音，但还是迅速下架了Sky语音。此外，本次更新还没有包括此前展示的视频和屏幕共享功能。这一功能原本可以让GPT-4o同时处理视觉和听觉信息，用户可以实时询问ChatGPT关于眼前纸上的数学题或者电脑屏幕代码的问题。不过，OpenAI目前尚未给出这一多模态功能的正式上线时间。尽管如此，OpenAI表示，自AVM进行有限的alpha测试以来，功能已经有所改进。除了增强对口音的理解能力外，语音对话的流畅性和响应速度也得到了提升。虽然测试中偶尔仍会出现故障，但OpenAI称这一情况已经有了改善。此外，AVM还引入了一些定制功能，例如自定义指令，允许用户个性化ChatGPT的响应方式，以及记忆功能，可以让ChatGPT记住之前的对话，方便日后参考。不过，目前AVM功能尚未在多个地区上线，包括欧盟、英国、瑞士、冰岛、挪威和列支敦士登等。

Sam Altman的博客：The Intelligence Age

Posted on September 24, 2024September 24, 2024 by aitrendtrackers@rengongzhineng.io

未来的几十年里，人类将能够完成许多在祖辈眼中如同魔法般不可思议的事情。这种现象并非全新的，只不过将以更快的速度发生。随着时间推移，人类的能力大幅提升，我们现在可以做到的事在过去是难以想象的。并不是因为人类的基因发生了改变，而是我们得益于社会的智能基础设施远超个人能力。从某种角度看，社会本身就是一种高级智慧的表现。我们的祖辈以及更早的世代也创造了辉煌成就，为今天的进步打下了坚实的基础。人工智能（AI）将为人类提供工具，解决更多棘手的问题，继续搭建这座进步的脚手架，完成那些我们无法单靠自身解决的难题。进步的故事将延续下去，未来的孩子们将能够完成今天我们无法企及的成就。虽然不会一夜之间实现，但不久之后，人们将能够与AI协作，达成比单靠个人更大的成就。最终，每个人都可能拥有一支由虚拟专家组成的AI团队，帮助完成几乎任何能够想象的事情。未来的孩子们将拥有虚拟导师，这些导师可以提供个性化的教育，不论是任何学科、任何语言，还是任何学习速度。此外，医疗健康、软件创作等领域的进步也将如此。凭借这些全新能力，未来人类将实现一种今天难以想象的共同繁荣。虽然财富不一定能带来幸福，毕竟富人也有痛苦，但这无疑会大幅改善全球人民的生活质量。从历史的角度看，人类经过数千年的科学发现与技术进步，终于能够将沙子熔化，添加杂质，并以极高的精度在微小尺度上排列成计算机芯片，最终创造出能够开发出日益强大的AI系统。这或许是人类历史上最具深远意义的成就之一。未来几千天内（也许更长时间）可能会诞生超级智能，但毫无疑问，人类正朝着这个方向前进。这一切的关键可以总结为三个字：深度学习。再详细一点：深度学习有效果，且随着规模扩大表现更佳，于是人类投入了更多资源。这就是故事的核心。人类找到了一个能够学习任何数据分布的算法（或者说，能够掌握产生这些数据分布的“规则”），只要有足够的计算能力和数据，AI在帮助解决复杂问题时表现就越好。这一突破的影响难以完全理解，但其深远性毋庸置疑。虽然还有很多细节需要解决，但只要不被具体问题困扰，深度学习的成功是显而易见的。AI将随着规模的增长变得更强大，并对人类生活产生深远的改善。未来，AI模型将成为自主的个人助手，帮助人类完成特定任务，比如协调医疗等服务。更长远来看，AI将变得如此强大，以至于它们能帮助人类开发下一代技术，并推动科学领域的全面进步。从石器时代、农业时代到工业时代，科技推动了人类进步。如今，计算能力、能源和人类意志正铺就通往“智能时代”的道路。为了让AI惠及更多人类，我们需要降低计算成本，使其更加普及，这需要大量的能源和芯片。如果基础设施建设不足，AI可能会成为一种稀缺资源，甚至成为战争的导火索，只为富人服务。在人类迈入“智能时代”的关键时刻，需要谨慎而坚定地采取行动。尽管挑战重重，AI的巨大潜力让我们有责任去解决眼前的风险。未来将充满光明，任何对它的描述都显得苍白无力。智能时代的标志性特征之一就是大规模的繁荣。尽管这些变革将逐步发生，但那些曾经看似不可思议的壮举——解决气候问题、建立太空殖民地、揭开物理学的所有奥秘——将成为常态。借助近乎无限的智能和能源，人类将拥有实现伟大想法的能力，能完成前所未有的壮举。当然，和其他技术一样，AI的进步也会带来负面影响。我们需要提前规划，最大化AI的益处，尽量减少其危害。比如，未来几年AI可能会对劳动力市场产生重大影响，虽然变化的速度可能比预期要慢，但不必担心工作消失。即便未来的工作形式与今天不同，人类总会找到发挥自己创造力和为社会作贡献的方式。AI将大幅增强人类的能力，社会将迎来新的扩展期，重新专注于共同进步。回看历史，许多我们今天所做的事情在几百年前可能显得无比琐碎，但没有人怀念点灯工的时代。如果一位点灯工看到今天的世界，他会觉得这般繁荣是无法想象的。而如果我们能快进到一百年后，我们眼中的繁荣也将变得同样难以想象。

Qwen2.5：开源基础模型的狂欢盛宴！

Posted on September 23, 2024September 23, 2024 by aitrendtrackers@rengongzhineng.io

自从Qwen2发布后的三个月内，众多开发者基于Qwen2语言模型构建了新模型，并提供了宝贵的反馈。在此期间，Qwen团队专注于打造更智能、更具知识性的语言模型。今天，全新Qwen系列的最新成员——Qwen2.5，隆重登场！官方宣布了有史以来规模最大的开源发布之一！让我们开始狂欢吧！ https://github.com/QwenLM/Qwen2.5 此次发布的重磅内容包括通用大模型Qwen2.5，以及专注于编程的Qwen2.5-Coder和数学的Qwen2.5-Math。所有开源权重模型均为稠密、仅解码语言模型，涵盖多种尺寸，如下所示：除了3B和72B版本，所有模型都采用Apache 2.0许可协议，相关文件可在Hugging Face的对应库中找到。此外，用户还可以通过Model Studio体验Qwen-Plus和Qwen-Turbo等旗舰语言模型的API服务。Qwen团队还开源了Qwen2-VL-72B，与上月发布的版本相比进行了性能优化。 Qwen2.5的所有语言模型都经过最新大规模数据集的预训练，数据量高达18万亿tokens。与Qwen2相比，Qwen2.5在知识储备（MMLU: 85+）、编程能力（HumanEval 85+）和数学能力（MATH 80+）方面有显著提升。此外，模型在指令遵循、长文本生成（超过8K tokens）、结构化数据理解（例如表格）、结构化输出生成（特别是JSON格式）等方面也有了巨大进步。Qwen2.5还支持多达128K tokens的处理能力，支持生成长达8K tokens的文本，并保留了对包括中文、英语、法语等29种语言的多语种支持。 Qwen2.5-Coder和Qwen2.5-Math这两款专家模型相比其前辈也有了显著的增强。Qwen2.5-Coder经过了5.5万亿代码相关数据的训练，即使是较小的编程专用模型，也在代码评测中展现出与更大语言模型竞争的能力。Qwen2.5-Math支持中文和英语，并引入了连锁思维（CoT）、程序思维（PoT）和工具整合推理（TIR）等多种推理方式。 Qwen2.5系列在不同的尺寸模型中展现了强大的性能，尤其是Qwen2.5-72B，它在多个指令调整基准上超越了同类的开源大模型如Llama-3.1-70B和Mistral-Large-V2。而且，即便是Qwen2.5-3B这样的较小模型，也在知识密度和性能方面大放异彩，展示了其高效的能力。此外，Qwen团队还在后期训练方法上做了四大更新，包括支持生成长达8K tokens的文本、结构化数据理解、生成结构化输出（如JSON格式），以及对多种系统提示的适应性提升，使得角色扮演和条件设置更加灵活。对编程领域的用户来说，Qwen2.5-Coder展现了卓越的性能，虽然模型参数较小，但在多种编程语言和任务中表现优异，堪称个人编程助手的最佳选择。至于数学领域，Qwen2.5-Math相较于Qwen2-Math预训练了更大规模的数学数据，并加强了推理能力，甚至其1.5B的小型号模型也能在数学任务中与大语言模型竞争。总之，Qwen2.5系列在各个领域都取得了突破性进展，用户可以通过Hugging Face、vllm等多种途径便捷使用这些模型。Qwen2.5还支持工具调用功能，让用户在编程、数学等任务中如虎添翼。通过这些强大的模型，Qwen团队期待看到更多惊人的应用和创新。准备好开启无限可能的世界吧！

Subscribe 订阅