aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

ChatGPT和GPT-4可能会在今年秋季迎来“草莓”版甜美升级

Posted on August 28, 2024August 28, 2024 by aitrendtrackers@rengongzhineng.io

虽然OpenAI在AI竞赛中长期处于领先地位，但竞争对手已经赶上，甚至在某些情况下超越了GPT-4，这让大家的目光都聚焦在该公司下一代大型语言模型（LLM）上。据报道，GPT-4的继任者正借助一种新AI进行强化，而这款新AI可能会在今年晚些时候作为ChatGPT的一部分推出。据《The Information》报道，OpenAI计划在今年秋季发布一款代号为“Strawberry”的新AI，作为聊天机器人的一部分。报道推测，Strawberry有可能会成为ChatGPT的一部分。 Strawberry的特别之处是什么？关注OpenAI新闻的人可能对Strawberry并不陌生。此前，这款AI被称为Q*（发音为Q Star），由OpenAI前首席科学家Ilya Sutskever启动，后来由Jakub Pachocki和Szymon Sidor两位研究人员在Sutskever离职后继续改进。这款AI曾在2023年引发技术突破，同时也因安全问题引发公司内部动荡。 Strawberry的突出特点是其先进的数学推理能力，能够解决从未见过的数学问题，这是当前的聊天机器人普遍难以做到的。它还具备高级编程和其他技能，能够回答诸如市场营销策略等主观性较强的问题。用于聊天机器人的Strawberry版本是这一AI的简化版，OpenAI的目标是让这个版本在性能上不逊色于更大规模的模型，同时更加经济且易于操作。然而，报道指出，目前尚不清楚这一简化版的Strawberry是否会在今年为ChatGPT或GPT-4带来性能提升。大版本Strawberry的作用 OpenAI发现，Strawberry的大版本可以用来生成高质量的训练数据，供其LLM使用。这种由AI生成的训练数据被称为“合成”数据。通过这种合成数据，公司对网络文本和图像等传统数据的依赖减少了。此外，这种高质量数据还能帮助减少AI常见的“幻觉”错误。 Strawberry有望帮助OpenAI解决为其LLM获取足够现实世界数据的问题。报道称，该公司正利用Strawberry的大版本来训练GPT-4的继任者，代号为“Orion”。此外，Strawberry还可能用于提升OpenAI的智能代理技术。 OpenAI对Strawberry的信心十足，甚至向美国国家安全官员展示了该技术。报道指出，此次展示可能与OpenAI希望向政策制定者更透明的举措有关，这些政策制定者对AI的威力感到担忧。对于OpenAI来说，展示这项技术显得尤为重要，尤其是在公司最近有多位安全负责人离职的情况下。目前尚不清楚简化版Strawberry具体会在今年秋季何时推出，大家只能拭目以待，看看这一增强功能是否能让OpenAI在与竞争对手的较量中再度领先。

埃隆·马斯克宣布：蜂窝Starlink将为所有手机提供免费紧急服务

Posted on August 28, 2024August 28, 2024 by aitrendtrackers@rengongzhineng.io

埃隆·马斯克表示，SpaceX的Starlink手机系统在连接紧急服务时将对用户完全免费。 “不能让人因为忘了付费或无法支付而失去生命，”SpaceX的CEO在周二的一条推文中说道。这一声明正值SpaceX呼吁联邦通信委员会（FCC）批准其“直连手机”的Starlink技术商用，但面临竞争对手AT&T和Verizon的反对。上周五，SpaceX向FCC提交文件称，Starlink技术将惠及所有消费者，因为它能在蜂窝信号覆盖不到的区域向所有无线用户发送紧急警报——即便这些用户并未订阅服务。这是因为该技术利用绕地卫星向地面用户提供蜂窝和互联网连接。周二，马斯克在Twitter上发文称：“如果有人困在荒野中，这技术可以帮助很多人。”他接着补充：“经过深思熟虑，SpaceX Starlink将为处于困境中的手机用户提供免费紧急服务接入。这适用于全球，但需要各国政府的批准。” 目前，马斯克并未透露更多细节，但这一服务有望类似于苹果iPhone的紧急SOS功能，该功能在iPhone 14及更高版本中也是免费的，已经在偏远地区挽救了许多人的生命。 SpaceX正努力争取FCC批准，以便能与T-Mobile合作在今年秋天推出蜂窝Starlink系统。因此，马斯克的推文很可能是为了向美国监管机构施压。同一推文中，FCC共和党专员布伦丹·卡尔（Brendan Carr）也发声支持：“直连手机技术将极大提升公共安全通信和应急响应。” 尽管如此，SpaceX还请求FCC豁免其蜂窝Starlink卫星的正常无线电频率参数，以确保覆盖广度和速度。然而，AT&T和Verizon则要求FCC驳回这一请求，担心Starlink卫星会产生过多无线电干扰。 AT&T向FCC提交的技术分析显示，SpaceX的提议可能会导致AT&T PCS C Block市场部署中网络下行吞吐量平均下降18%。对此，SpaceX回函反驳，称AT&T和Verizon试图阻止消费者接入Starlink技术。蜂窝Starlink系统也势必会与AT&T和Verizon正在开发的手机卫星互联网系统竞争，这一系统由初创公司AST SpaceMobile提供

谷歌又出三款Gemini模型

Posted on August 28, 2024August 28, 2024 by aitrendtrackers@rengongzhineng.io

在AI时代的组织准备：从技术到变革谷歌AI Studio产品负责人Logan Kilpatrick自信满满地在X平台上发文称：“Gemini 1.5 Flash是目前全球开发者的最佳选择。” “前所未有”的Gemini模型最新实验版今年5月，谷歌推出了Gemini 1.5 Flash，这是一款轻量版的Gemini 1.5。Gemini 1.5系列模型专为处理超长文本设计，能够分析超过1000万标记的复杂信息。这使得这些模型能够处理包括文档、视频和音频在内的大量多模态输入。今天，谷歌推出了一款改进版的Gemini 1.5 Flash模型，其参数达80亿。此外，全新的Gemini 1.5 Pro在编码和处理复杂指令方面表现出显著提升，成为8月初发布的前一版本的“即插即用”替代品。 Kilpatrick没有透露更多细节，只是表示谷歌将在未来几周内发布一个可用于生产环境的版本，并“希望附带评估功能”。他在X平台的帖子中解释称，这些实验模型是为了收集反馈，让开发者尽早接触到最新更新。“通过实验性发布获得的经验教训将指导我们如何更广泛地发布模型，”他写道。这次发布的Gemini 1.5 Flash和Pro的“最新实验版”均支持100万个标记限制，并可以通过Google AI Studio和Gemini API免费测试。根据Kilpatrick的说法，这些模型很快也会通过Vertex AI实验端点提供免费使用，并且公司将在未来几周内推出一个用于生产环境的版本。自9月3日起，谷歌将自动将请求重新路由到新模型，并从Google AI Studio和API中移除旧版模型，以“避免因同时保留多个版本而造成混淆”。 “我们迫不及待地想听听大家的反馈，看看这个模型如何能解锁更多新的多模态应用场景，”Kilpatrick在X上发文称。 “巨大进步”，但依旧存在“懒惰编码病” 发布仅几小时后，大型模型系统组织（LMSO）就在其聊天机器人竞技场中发布了基于2万社区投票的排行榜更新。Gemini 1.5 Flash取得了“巨大飞跃”，从第23位跃升至第6位，达到了Llama的水平，并超越了谷歌的Gemma开放模型。 Gemini 1.5 Pro在编码和数学方面也表现出“强劲提升”，并且“显著改进”。 LMSO对这些模型表示赞赏：“恭喜谷歌DeepMind Gemini团队取得了令人难以置信的发布成果！” 然而，正如通常在迭代模型发布中所见，早期反馈呈现出多样化——从过度吹捧到讽刺和困惑。一些X用户质疑为何如此频繁地更新而不是直接推出2.0版本。有人发帖表示：“伙计，这已经不够用了 😐 我们需要真正的升级，Gemini 2.0。” 另一方面，许多自称粉丝的用户对这些快速升级表示赞赏，报告称图像分析的“改进非常明显”。“速度简直太快了，”一位用户写道，另一位则指出，谷歌持续推出新产品，而OpenAI几乎保持沉默。还有人甚至表示，“谷歌团队正在默默地、勤奋地、不断地交付成果。” 但也有批评者称其“糟糕”和“懒惰”，特别是在处理需要较长输出的任务时，认为谷歌在这方面“远远落后”于Claude、OpenAI和Anthropic。一位X用户遗憾地表示，这次更新“可悲地患上了懒惰编码病”，类似于GPT-4 Turbo的表现。另一位用户则称更新版本“并没有那么好”，并表示模型“经常会崩溃，开始重复内容，就像小模型常见的问题那样。” 还有人表示，尽管对测试感到兴奋，但Gemini在编码方面“是最糟糕的。” 还有人调侃谷歌的命名能力，回忆起其今年早些时候的巨大觉醒失误。 “你们已经完全失去了命名事物的能力，”一位用户开玩笑道，另一位则附和说：“你们真的需要找人帮忙起名字。” 还有人冷嘲热讽地问道：“Gemini 1.5还是讨厌白人吗？”

Meta AI动画生成功能的规模化部署与优化策略

Posted on August 27, 2024August 27, 2024 by aitrendtrackers@rengongzhineng.io

Meta推出Meta AI的目标是为人们提供利用生成式AI（GenAI）提升生产力和激发创造力的新方式。然而，GenAI也伴随着规模化的挑战。当Meta在部署新的GenAI技术时，Meta也专注于尽可能快速且高效地向人们提供这些服务。 Meta AI的动画生成功能允许用户生成短动画，并且在这一方面Meta面临着独特的挑战。为了在大规模应用中实现此功能，Meta的图像动画生成模型必须能够服务于使用Meta产品和服务的数十亿用户，并且做到快速生成、极少出错且资源高效。以下是Meta如何通过延迟优化、流量管理和其他新颖技术成功部署Meta AI动画生成功能的过程。优化生成图像动画的延迟在将动画生成功能推向Meta应用家族和Meta AI网站之前，使动画模型的运行速度变得更快是Meta的首要任务之一。Meta希望用户能够体验到仅需几秒钟就能看到动画生成的魔力。这不仅从用户角度重要，而且模型越快、效率越高，Meta就能使用更少的GPU，从而实现可持续的规模化发展。Meta在创建带有视频扩散的动画贴纸、加速图像生成的Imagine Flash、以及通过块缓存加速扩散模型方面的工作帮助Meta开发出实现大幅度延迟优化的新技术。减半浮点精度这些优化技术之一是将浮点精度减半。Meta将模型从float32转换为float16，这加快了推理时间，主要有两个原因。首先，模型的内存占用减少了一半。其次，16位浮点运算比32位运算速度更快。对于所有模型，Meta使用bfloat16，一种用于训练和推理的float16变体，以获取这些优势。改进时序注意力扩展第二项优化是改进了时序注意力扩展。时序注意力层在时间轴和文本条件之间进行注意力计算，需要将上下文张量复制以匹配时间维度或帧数。以前，这是在传递到交叉注意力层之前完成的。然而，这导致了性能提升不理想。Meta选择的优化实现通过利用重复张量是相同的这一事实，在通过交叉注意力线性投影层之后进行扩展，从而减少计算和内存消耗。利用DPM-Solver减少采样步骤第三项优化使用了DPM-Solver。扩散概率模型（DPMs）是一种功能强大且有影响力的模型，能够生成高质量的结果，但其速度较慢。其他可能的解决方案，如去噪扩散隐式模型或去噪扩散概率模型，虽然可以提供高质量的生成，但需要更多的采样步骤。Meta利用了DPM-Solver和线性对数信噪比时间，将采样步骤减少到15步。结合引导和步骤蒸馏 Meta实施的第四项优化是结合引导和步骤蒸馏。通过初始化教师和学生权重相同的模型，Meta进行了步骤蒸馏，训练学生模型在单步内模仿教师模型的多个步骤。引导蒸馏方面，Meta通过无分类器引导的方式实现了条件图像生成。这要求每个求解步骤都进行有条件和无条件的前向传递。然而，在Meta的场景中，每步有三个前向传递：无条件、图像条件和完整的文本与图像条件。通过引导蒸馏，Meta将这三个前向传递合并为一个，使推理时间缩短了三倍。最后，通过训练学生模型同时模仿无分类器引导和多步骤操作，Meta的最终模型只需八步求解，每步只需要一次通过U-Net。 PyTorch优化最后一项优化涉及部署和架构，包含两项转化。首先是利用TorchScript进行脚本化和冻结。通过将模型转换为TorchScript，Meta获得了许多自动优化，包括连续折叠、多个操作的融合以及减少计算图的复杂性。这三项优化帮助Meta提高了推理速度，而冻结技术通过将图中的动态计算值转化为常量，进一步减少了总操作数。虽然这些优化对于Meta的初次发布至关重要，但Meta还在持续突破界限。例如，Meta将所有媒体推理从TorchScript迁移到基于PyTorch 2.0的解决方案，这为Meta带来了多项提升。通过在组件级别利用pytorch.compile进行优化，以及在新架构中启用上下文并行和序列并行等高级优化技术，Meta实现了从减少高级功能的开发时间到改进跟踪、支持多GPU推理的全面胜利。在大规模部署图像动画在完全优化模型后，Meta面临的新挑战是如何在全球范围内运行此模型，支持来自世界各地的流量，同时保持快速的生成时间，尽量减少故障，并确保GPU可以用于公司内的其他重要用例。 Meta首先查看了以前AI生成媒体的流量数据，包括其发布时和随时间推移的流量情况。Meta使用这些信息来估算可以预期的请求数量，并利用模型速度的基准测试来确定需要多少GPU来容纳这些请求。在扩大规模后，Meta开始进行负载测试，以查看是否可以处理各种流量水平，解决各种瓶颈，直到Meta能够处理发布时预计的流量为止。在测试过程中，Meta注意到动画请求的端到端延迟比预期高，并且高于Meta在构建上述所有优化后看到的情况。调查显示，流量在全球范围内被路由，导致显著的网络和通信开销，增加了生成时间。为了解决这个问题，Meta利用了流量管理系统，该系统获取服务的流量或负载数据并使用这些数据计算路由表。

马斯克支持加州AI安全测试法案，引发科技巨头反对

Posted on August 27, 2024August 27, 2024 by aitrendtrackers@rengongzhineng.io

埃隆·马斯克周一公开支持美国最具争议的人工智能政策提案之一，支持加州法案1047号。这项法案要求大型AI模型在使用前必须进行安全测试。尽管此法案遭到科技巨头如马克·安德森和OpenAI的强烈批评，认为其规定模糊且负担过重，可能会对开源模型产生寒蝉效应，但法案作者、民主党州参议员斯科特·维纳表示，他的目的是防止不法分子利用AI制造生物武器等对人类造成灾难性伤害。马斯克在社交平台X（原Twitter）上表示，支持该法案是个“艰难的决定，可能会让一些人不满”，但他认为该法案应该通过。这一表态正值提案的关键时刻，该法案必须在本周末前通过州议会，才能递交至州长加文·纽森的桌前。马斯克强调：“过去20多年，我一直主张对AI进行监管，就像对任何可能对公众构成风险的产品或技术进行监管一样。” 作为特斯拉、X和SpaceX的负责人，马斯克此前曾呼吁主要AI实验室暂停训练新的超强AI系统，但最近他逐渐接受了生成式AI的趋势。X平台近期推出了一款名为Grok的工具，允许用户通过文本提示生成并发布计算机生成的图像，这已经引发了有关虚假信息和深度伪造在社交媒体泛滥的担忧。马斯克的立场使他与硅谷的强大力量，以及国会中的一些民主党议员站在对立面，后者最近几周纷纷反对该法案——其中包括众议员佐伊·洛夫格伦、罗·卡纳和前议长南希·佩洛西。此外，马斯克的支持也使民主党参议员维纳陷入尴尬局面。维纳曾与马斯克就保护LGBTQ青少年隐私的立法问题进行过激烈辩论。

Anthropic打破行业惯例，公开AI系统提示，引发透明化新潮流

Posted on August 27, 2024August 27, 2024 by aitrendtrackers@rengongzhineng.io

在AI行业中，Anthropic公司率先发布了其聊天机器人Claude的系统提示，涵盖了Claude 3 Opus、Claude 3.5 Sonnet和Claude 3.5 Haiku等模型。这些提示引导着AI模型该如何回复用户，规定了其回复的基调和禁忌内容。最新的系统提示（2023年7月12日发布）明确指出，三种模型均不得：打开URL链接或视频；识别或命名图片中的任何人类；以及在回复中使用诸如“当然”或“绝对”等填充词。 Claude 3.5 Sonnet的知识库更新于4月，而Claude 3 Opus和Claude 3.5 Haiku则在2023年8月进行了更新，这意味着这些模型可以使用各自更新日期前后的数据来回答问题。如果模型无法回答某个问题，因为相关信息难以在互联网上找到，它们不会道歉，而是会警告用户，尽管它们会尽量提供准确的回答，但也可能会出现“幻觉”信息。目前，其他AI公司（如OpenAI、Google、Meta和Mistral）都没有公开其系统提示，原因可能是出于竞争考虑，或是为了防止黑客利用提示注入来绕过模型的限制。许多人认为，Anthropic此举是为了展示自己更透明和更具伦理责任感，这可能会引发其他公司跟进。

苹果机器人计划：能否成为智能家居的破局者？

Posted on August 26, 2024August 26, 2024 by aitrendtrackers@rengongzhineng.io

苹果正在悄悄布局机器人领域，希望通过这一新方向不仅在消费者家中占据一席之地，还能为其产品线增添全新维度。与此同时，Meta正准备推出更便宜的Quest设备，苹果也在尝试新的Vision Pro销售策略，而App Store负责人则因公司重组即将离职。苹果的机器人梦想：从桌面设备开始近年来，苹果高层在思考如何推出全新产品时，遇到了一些挑战：公司的设备几乎已经融入了消费者生活的每个角落。从iPhone、iPad、Mac到Apple TV机顶盒，人们依赖这些设备获取信息和娱乐；AirPods和Beats耳机则为耳朵带来极致的音频体验；Apple Watch也让用户可以随时关注健康状况。而苹果的Vision Pro则试图改变用户看待世界的方式。尽管苹果可以不断改进这些现有设备，比如让它们更轻薄、提高电池寿命或加快处理速度，但要创造出一款具有革命性的新产品却越来越难。苹果的自动驾驶汽车项目在今年早些时候宣告失败，但这个项目让公司开始思考一个新问题：如果苹果的产品能够自己“动”起来，会怎样？自动驾驶汽车的梦想虽然破灭了，但它的本质其实就是一个大型滚动机器人。这种核心技术可以应用于其他领域。早在2020年，苹果就开始探索机器人技术，希望让设备具备移动能力。这一探索至今仍在进行。桌面机器人或将面世苹果目前正在研发的测试产品代号为J595，是一款桌面设备。它结合了大屏幕显示器、摄像头和带有机械臂的底座，预计这款设备可能会在2026年或2027年问世。未来，苹果或许还会推出移动机器人，甚至在人形机器人领域发力，预计会在下个十年内实现。苹果相信，机器人技术可以解决许多生活中的小麻烦。例如，当你在厨房忙碌时，设备可以自动将屏幕转向你，帮助你查阅菜谱或进行视频通话。未来的苹果机器人甚至可能承担起家务活，如装洗衣机或清洗餐具。然而，距离这些梦想成真还有很长的路要走。目前，市面上的机器人设备价格昂贵，智能化程度有限，功能也不够丰富。此外，许多消费者可能还没有准备好迎接机器人进入日常生活。苹果在技术研发上将面临巨大的成本压力，消费者购买时也会望而却步。前景广阔，但挑战重重苹果的机器人工作由技术副总裁凯文·林奇负责，他此前领导了公司的自动驾驶汽车项目。如今，他将这支团队的焦点转向了机器人技术。为了赋予未来的机器人设备更多个性，苹果还在开发一种基于生成式AI的新型人机界面，旨在取代Siri成为机器人设备的核心助手。尽管苹果机器人项目前景广阔，但行业内外仍有不少质疑声。汽车项目的失败让人不禁怀疑，苹果是否有能力在机器人领域取得成功。此外，苹果在增强现实眼镜等领域的开发也曾遇到过挫折。目前尚不清楚苹果是否有足够的决心将机器人产品推向市场，但如果苹果真的想要找到新的方式融入消费者的生活，机器人技术可能会是下一个突破口。结语苹果的机器人计划无疑为公司未来的发展提供了一个全新方向。虽然前路充满挑战，但如果苹果能够克服技术障碍并将产品成功推向市场，机器人有望成为苹果在智能家居领域的制胜法宝。未来的家庭生活是否会因为苹果的机器人变得更加便捷，值得我们拭目以待。

研究发现：大多数AI文本检测器远没有宣传的那么可靠

Posted on August 26, 2024August 26, 2024 by aitrendtrackers@rengongzhineng.io

从对“深入探讨”的可疑癖好，到立场摇摆不定的意见，有些明显的迹象可能会让读者觉得一篇文章是AI生成的。然而，要完全准确地辨别AI文本生成，目前对开发者来说仍是个棘手的问题。许多AI文本检测系统可以被简单的技巧轻松打败，比如在文本中加入一个不寻常的符号。它们可能在某些类型的内容上表现出色，比如学生论文，但在其他类型的内容上却表现不佳，比如新闻文章。而那些可以稳定识别AI生成内容的检测器，也有可能会把人类创作的作品误认为是机器所为。宾夕法尼亚大学的研究人员的一项研究揭示了这些发现，并对目前市场上AI文本检测器的一些广告宣传提出了质疑。研究作者提出了一种新的评估方法，旨在通过一个包含1000万篇文章的标准化基准数据集来量化这些工具的有效性。这个数据集涵盖了新闻文章、博客、食谱等内容，并提供了一个公开的排行榜来对检测器进行排名。 “我们希望为AI检测器的评估贡献一个系统化的方法，这样当有人声称他们的创新比现有技术更好时，我们就能验证它确实如此，” 宾夕法尼亚大学计算机与信息科学教授兼研究作者Chris Callison-Burch在接受Tech Brew采访时表示。自2019年OpenAI发布GPT-2以来，尤其是在ChatGPT风靡全球的这两年，专家们对由大型语言模型（LLM）生成的海量文本带来的风险越来越担忧。这些担忧也逐渐成为现实，从教师对AI生成的论文束手无策，到学术研究被垃圾信息淹没，再到骗子利用AI进行大规模诈骗。然而，若没有准确的检测工具，人们甚至难以了解问题的全貌。OpenAI去年放弃了早期尝试的AI文本分类器，理由是“准确率低”。各种尝试为AI生成的文本加上水印的做法也未见成效。 Callison-Burch指出，尽管许多初创公司声称其检测器的准确率高达99%，但实际上，这个问题比看上去复杂得多。研究团队列举了许多绕过检测器的方法，包括用相似形状的同形异义字替换某些字符，或者用英式拼写替换某些单词。他们还发现，检测器通常在它们训练过的文本类型上表现最好，比如，训练于ChatGPT的检测器可能难以处理Anthropic的Claude生成的文本，而训练于新闻文章的工具可能在识别食谱时表现不佳。 Callison-Burch提到，至少有一家初创公司已经在其检测器中加入了防护措施，尽管如此，他对排行榜上一些检测器的表现感到鼓舞。他总结道：“这有点像猫捉老鼠的游戏，或者说是一场军备竞赛。随着LLM越来越强大，它们变得越来越难以被检测到。但对检测的需求比以往任何时候都更加明显。”

Mozilla对今天发布的开源AI新定义感到兴奋，并认为这是向前迈出的重要一步

Posted on August 25, 2024August 25, 2024 by aitrendtrackers@rengongzhineng.io

Mozilla对今天发布的开源AI新定义感到兴奋，并认为这是向前迈出的重要一步。过去的一年里，越来越多的人开始意识到开源AI对社会的好处。早在去年10月，众多支持者就签署了声明，强调开放性和透明性是AI安全和保障的关键要素。今年2月，Mozilla与哥伦比亚全球政治研究所召集了AI专家，探讨开源AI如何推动社会发展的核心目标。政策制定者也在逐步拥抱开源AI，美国国家电信和信息管理局（NTIA）最近发布了一份重要报告，支持AI的开放性。甚至像Google、微软、苹果和Meta这样的公司，也开始对其AI系统的某些部分开放。随着对开源AI的关注日益增加，建立对开源AI的共识变得尤为重要。定义开源AI的标准，包括需要共享的内容以及在何种条件下共享，这一点非常关键。如果缺乏明确的标准，可能导致开源AI的混乱局面：公司随意贴上“开源”标签，即使他们的产品并非真正开源；民间团体无法获得必要的AI组件来进行测试和问责；政策制定者也可能制定无法应对这一复杂问题的法规。最近，开源倡议组织（OSI）发布了新的开源AI定义草案，标志着互联网发展的一个关键时刻。这一时刻是经过两年多的对话、讨论和参与后形成的。这不仅重新定义了“开源”在AI领域的含义，还关乎科技未来的发展及其对社会的影响。早在1998年，OSI发布的原始开源定义不仅仅是一组指导原则，更像是一个关于软件开发新方式的宣言。这个定义奠定了开放系统的基础，如今已经成为现代互联网的支柱。从Linux到Apache，开源项目推动了创新、协作和竞争，使互联网成长为一个多样化且充满活力的生态系统。通过确保软件可以自由使用、修改和共享，最初的开源运动不仅扩大了技术的可及性，还打破了准入壁垒，促进了创新文化和透明度，同时使软件更安全，减少了网络攻击的风险。这一新定义是为开源AI讨论带来清晰度和严谨性的关键一步。它引入了类似现有定义的二元化“开源”定义。尽管这是定义开源AI的众多方法之一，但它为开发者、倡导者和监管者提供了明确的标准，特别是在不同工作场景中。这一定义具体指出，开源AI的核心在于自由使用、研究、修改和共享AI系统，并且强调了获取关键组件的重要性，例如用于训练的数据、AI开发的源代码以及AI模型本身的信息。此外，这一定义还尝试解决AI模型训练数据共享的复杂问题。定义承认在实践中共享完整的训练数据集可能具有挑战性，因此避免了将大量潜在的开源AI开发排除在“开源”之外。为推动这一领域的发展，Mozilla和Eleuther AI召集专家，制定了支持AI训练的开源数据集的最佳实践，并计划很快发布一篇论文，推广AI训练数据更广泛可用的规范。尽管有人可能对OSI定义的某些方面存有异议，例如对训练数据的处理方式，并且定义可能需要随着时间的推移进行改进，但该定义经过一年多的利益相关者参与，已经为开源AI的讨论奠定了重要的参考点。例如，该定义将成为打击“开源洗白”现象的有力工具，这种现象正变得越来越普遍——非开源模型（甚至像Meta的Llama 3这样仅部分开源的模型）被宣传为领先的“开源”选项，却没有真正为公共资源做出贡献。研究人员表明，“开源洗白”对创新、研究以及公众对AI的理解有着显著影响。这一努力展现了开源社区的最佳状态——通过公开讨论，解决分歧，承认不足，并共同完善这个定义，建设出更好的成果。它有效地涵盖了开源社区一直在努力处理的许多关键开放性要素，如不仅仅关注模型权重的开放性，还包括更广泛的模型组件、文档和许可方式。而封闭源代码的生态系统则是在秘密中运作，访问受限，大型科技公司在幕后交换计算资源和人才。相比之下，人们更倾向于选择即便不完美但始终透明的开源方式。许多支持者热切期待继续与OSI和更广泛的开源社区合作，进一步明确开源AI的讨论，并持续为社会释放开源AI的潜力。

Google Imagen 3上线

Posted on August 25, 2024August 25, 2024 by aitrendtrackers@rengongzhineng.io

谷歌最新发布了Imagen 3版本，这是一款AI文本生成图像的工具，目前已在美国用户中开放。根据VentureBeat的报道，这款工具可以通过谷歌的AI Test Kitchen进行体验。据说，与之前的模型相比，Imagen 3能生成更精细的细节、更加丰富的光照效果，并减少了干扰图像的瑕疵。谷歌最早在5月的I/O大会上宣布了这款更新后的Imagen 3工具，但似乎直到最近几天才通过其Vertex AI平台正式向公众开放。上周一些Reddit用户已经开始尝试使用Imagen 3，而谷歌在本周二发布了一篇关于该工具的研究论文。与其他AI图像生成器类似，Imagen 3可以根据用户的提示生成精美的图像。用户还可以通过突出显示某个部分并描述所需更改，来对图像进行编辑。虽然Imagen 3的生成能力相当强大，比如轻松生成类似经典游戏角色的图像，但它还是有一些限制。这个工具不会生成公众人物的图像，例如泰勒·斯威夫特，也不会生成武器图像。尽管如此，只要描述得足够巧妙，用户还是可以绕过这些限制，生成类似于受版权保护的角色图像。例如，有人成功生成了与索尼克和马里奥相似的图像，而另一个人则创造了类似米老鼠的角色。此外，Imagen 3还可以生成公司标志，比如苹果、梅西百货、好时巧克力，甚至是谷歌的标志，这在某些用户的图像中都得以展现。尽管Imagen 3有一定的内容限制，但与埃隆·马斯克旗下X平台上的AI图像生成器Grok相比，这些限制显得相当温和。Grok常常用于生成各种疯狂的内容，包括涉及毒品、暴力以及公众人物的争议性图像。不过，谷歌的AI工具也不是没有问题。今年早些时候，谷歌曾停止允许人们使用其Gemini AI聊天机器人生成图像，因为有用户发现它生成了一些历史上不准确的图像。

Subscribe 订阅