aitrendtrackers@rengongzhineng.io, Author at AI TrendTrackers

Grok-1.5 Vision 预览将数字世界与物理世界连接起来，首款多模态模型

Posted on April 15, 2024April 15, 2024 by aitrendtrackers@rengongzhineng.io

我们很高兴介绍Grok-1.5V，这是我们的首款多模态模型。除了强大的文本处理能力外，Grok现在还能处理各种视觉信息，包括文档、图表、图示、截图和照片。Grok-1.5V即将向早期测试者和现有的Grok用户开放。能力介绍Grok-1.5V在多个领域与现有的前沿多模态模型相媲美，这些领域包括跨学科推理、理解文档、科学图表、图表、截图和照片等。我们对Grok在理解我们的物理世界方面的能力感到特别兴奋。在我们新的RealWorldQA基准测试中，Grok在真实世界空间理解方面表现优于同类，该基准测试衡量真实世界的空间理解能力。在所有数据集中，我们都在零样本设置中评估Grok，不使用思维链提示。基准对比真实世界理解为了开发有用的真实世界AI助手，推进模型对物理世界的理解至关重要。为此，我们引入了一个新的基准测试RealWorldQA。这个基准旨在评估多模态模型的基本真实世界空间理解能力。虽然当前基准中的许多例子对人类来说相对容易，但它们常常对前沿模型构成挑战。根据流程图生成代码未来展望推进我们的多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。在未来几个月，我们预计将在图像、音频和视频等各种模式上，显著提高这些能力。

苹果研究人员推出“pfl-research”：一个快速、模块化且易于使用的Python框架，用于模拟联邦学习

Posted on April 14, 2024April 14, 2024 by aitrendtrackers@rengongzhineng.io

在不断变化的人工智能领域，一种革命性的概念——联邦学习（Federated Learning，FL）引起了广泛关注。这种尖端技术允许在不同设备和位置上合作训练机器学习模型，同时确保个人数据远离窥探目光安全存储。这既利用了数据优化模型，又兼顾了隐私保护，可谓是两全其美。尽管联邦学习令人兴奋，但在这一领域进行研究对数据科学家和机器学习工程师来说是一个真正的挑战。模拟现实的、大规模的FL场景一直是一个持续的难题，现有工具在速度和可扩展性上难以满足现代研究的需求。本文介绍了一个名为pfl-research的突破性Python框架，旨在为您的私有联邦学习（PFL）研究工作提供强大动力。这个框架快速、模块化且用户友好，使研究人员能够迅速迭代和探索新思想，而不会被计算限制所困扰。 pfl-research的一个突出特点是其多功能性。它就像一个会说TensorFlow、PyTorch甚至是传统非神经网络模型多种语言的研究助理。而且，pfl-research与最新的隐私算法兼容良好，确保在你推动可能性的边界时，你的数据安全如虫。但真正让pfl-research与众不同的是其积木式的方法。它就像是研究人员的高科技乐高套装，包含了数据集、模型、算法、聚合器、后端、后处理器等模块化组件，你可以自由组合，创建出符合你特定需求的仿真。无论是想在大型图像数据集上测试新的联邦平均算法，还是需要在分布式文本模型上试验不同的隐私保护技术，pfl-research都能满足你的需求。现在，事情变得更加激动人心。在与其他FL模拟器的测试中，pfl-research的仿真速度最高可达竞争对手的72倍。有了pfl-research，你可以在庞大的数据集上运行实验，而不会流一滴汗或牺牲研究质量。但pfl-research团队并没有因此自满。他们有宏伟的计划继续改进这一工具，比如不断添加对新算法、数据集和跨库仿真（想象一下跨多个组织或机构的联邦学习）的支持。他们还在探索尖端的仿真架构，以推动可扩展性和多功能性的界限，确保pfl-research在联邦学习领域持续发展中保持领先。想象一下pfl-research为你的研究开启的可能性。你可能会是第一个破解隐私保护自然语言处理代码的人，或者开发出针对个性化健康应用的开创性联邦学习方法。在不断进化的人工智能研究世界中，联邦学习是一场游戏规则的改变者，而pfl-research是你的终极助手。它快速、灵活、用户友好，是任何希望在这一激动人心的领域中开辟新天地的研究者的梦想组合。

Google推新芯片，挑战Nvidia、Microsoft和亚马逊的霸主地位

Posted on April 13, 2024April 13, 2024 by aitrendtrackers@rengongzhineng.io

Google宣布其新一代AI芯片——Cloud TPU v5p现已对开发者开放，这是对Nvidia流行AI芯片的少数替代品之一，并且对Microsoft和Amazon也发起了挑战。这款新的张量处理单元（TPU）首次在去年12月与其聊天机器人Gemini同时公布。据公司称，新TPU的训练速度几乎是前代Google TPU v4的三倍。大型语言模型（LLMs）是支持像ChatGPT这样的AI聊天机器人的技术基础。 Google CEO Sundar Pichai在周二拉斯维加斯举行的年度Google Cloud Next大会上说：“现在已经发展到第五代，这些进步帮助客户训练并运行前沿的语言模型。”Google的这一宣布标志着大型科技公司人工智能军备竞赛中的又一里程碑。Nvidia是众所周知的AI芯片——图形处理单元（GPU）的主要供应商。而Google的母公司Alphabet是Nvidia的最大客户之一，仅次于Microsoft和Facebook的母公司Meta。Pichai表示：“[Google的]这些投资使我们站在了AI平台转变的最前沿。”Google的竞争对手Microsoft、Amazon和Meta也都开发了自己的AI芯片。尽管如此，很明显Nvidia对Google依然至关重要。在宣布最新AI芯片的同一篇博客文章中，Google提到了Nvidia 20次。在详述TPU v5p的同时，该公司表示正在更新其A3超级计算机，该计算机使用Nvidia GPU运行。Google还提醒客户，它正在使用Nvidia的最新芯片——Blackwell，在其AI Hypercomputer中。在讨论Google的新AI芯片后，Google Cloud CEO Thomas Kurian进行了一场更加耀眼的展示，介绍了基于Arm的新中央处理单元——Google Axion。在主题演讲中，Kurian手持Axion芯片走上舞台，展示该芯片并赢得掌声。Google Axion是对Microsoft和Amazon已经制造的基于Arm的计算芯片的新竞争者。英国科技公司Arm授权其芯片基础设计给实际的芯片制造商以供构建。Google发布Axion标志着该公司首次使用Arm的芯片基础架构来制造CPU。Google表示，Axion的性能“比目前云中可用的最快通用Arm基础实例高出30%”，并且“性能提升高达50%，能效提高高达60%”。Google客户可以在其云服务上使用Axion，这基本上意味着这些用户将选择在Google的实体数据中心中使用更高效的计算处理器运行其云服务。Google还告诉路透社，“在任何地方使用Arm的客户都可以轻松采用Axion，无需重新架构或重写应用程序。”

Mistral AI突围：开源大模型Mixtral 8x22B颠覆行业格局

Posted on April 13, 2024April 13, 2024 by aitrendtrackers@rengongzhineng.io

巴黎的小伙伴Mistral AI不甘寂寞，冲出重围，推出了全新的大型语言模型Mixtral 8x22B，一举成为人工智能界的新宠儿。这不仅仅是因为它的震撼登场，更因为Mistral承诺将其开源，向像OpenAI、Meta、Google这样的大佬们发起挑战。 Mixtral 8x22B采用了尖端的混合专家（MoE）架构，拥有令人瞩目的1760亿参数和65000令牌的上下文窗口。这些性能不仅超越了它的前作Mixtral 8x7B，也可能在与OpenAI的GPT-3.5和Meta的Llama 2等顶尖模型的竞争中占得一席之地。Mixtral 8x22B的独特之处不仅在于它的技术实力，更在于其无门槛的获取方式；任何人都可以通过种子下载，并且享受Apache 2.0的宽松授权。在OpenAI最近推出带视觉功能的GPT-4 Turbo，Google推出面向开发者免费试用的Gemini Pro 1.5 LLM，以及Meta即将推出Llama 3的模型的大背景下，Mistral的Mixtral 8x22B以其开源性质和广泛的适用前景脱颖而出。 Mixtral 8x22B的推出，反映出人工智能开发趋向于更开放、更协作的大趋势。Mistral AI这家由Google和Meta的前员工创立的公司，正在引领这种变革，它鼓励一个更包容的生态系统，在这里开发者、研究人员和爱好者都能够负担得起且轻松访问到先进的AI技术。初步反馈超级给力，很多人都看好这款模型在从内容创作到客户服务，再到药物研发和气候模型研究等各个领域内燃起创新的星星之火。随着AI技术的快速发展，像Mixtral 8x22B这样的模型发布凸显了开放创新在推动进步中的重要性。Mistral AI的最新动作不仅提升了语言模型的技术水平，也促进了一个更加合作、民主的AI新景观。

OpenAI再创新高：GPT-4-Turbo升级，带来视觉技术和更强大的分析功能

Posted on April 13, 2024April 13, 2024 by aitrendtrackers@rengongzhineng.io

OpenAI最近放出了它那位名叫GPT-4-Turbo的先进人工智能的大更新，不得了，这回它的应答和分析能力可是“大幅提升”了。一开始，这款集成了AI视觉技术，能分析并理解视频、图像和音频内容的模型，仅对开发者开放。但OpenAI表示，这些特色功能很快就会加入到ChatGPT中。这还是头一遭，带有视觉技术的GPT-4-Turbo向第三方开发者开放。想想就有点小激动，这或许会催生出一些关于时尚、编程乃至游戏方面的新奇应用和服务。新模型还将知识更新截止日期延长到了2023年12月。这是AI训练完成的时间点。之前的知识截止日期是去年的4月。 GPT-4-Turbo的大部分焦点都放在了通过API调用访问OpenAI模型的开发者身上，以提升他们的工作效率，创造出更高效的应用程序。这是因为之前需要不同的模型来处理图像和文本。将来，模型及其视觉分析能力将进一步扩展，并加入到像ChatGPT这样的消费者应用中，使其对图像和视频的理解更加高效。这是Google开始推出的Gemini Pro 1.5已经开始实施的一项措施，尽管现在，像OpenAI一样，这家搜索巨头也将其限制在开发者使用的平台上，而不是消费者。GPT-4在最近的基准测试中的表现并不尽如人意，包括与Claude 3 Opus或Google的Gemini等新模型相比。一些较小的模型在特定任务上也表现更佳。这次的更新应该会改变这一局面，或者至少为企业客户增加新的吸引人特性，直到GPT-5问世。更新还保留了128,000个令牌的上下文窗口，大约相当于一本300页的书。虽然不是市场上最大的，但对大多数用例来说已经足够了。到目前为止，OpenAI除了在ChatGPT中关注文本和图像的分析和理解外，还专注于音频的分析和理解。新更新将视频带给了更多人。当这一功能来到ChatGPT时，用户可能能够上传短视频片段，并让AI总结内容或挑选出关键时刻。

体验Humane AI：我与可穿戴AI别针的生活

Posted on April 12, 2024April 12, 2024 by aitrendtrackers@rengongzhineng.io

就像一个固定在你衬衫上的、由AI驱动的《星际迷航》通讯器一样，AI Pin是一个大胆的概念，但它在日常使用中令人沮丧。 Humane的AI Pin体积小巧，承诺可以大大方便我的生活。但它还有很多工作要做。许多我测试过的技术看起来像科幻小说，但在现实世界中使用起来却很麻烦。这就是我对Humane AI Pin的感受。我可以在这个夹在衣服上的设备中看到一个未来的概念，它承诺是一个活的星舰徽章版本，但那个未来还未到来。 Humane AI Pin（售价699美元）想要成为一个自给自足的手机替代品，一个闪亮的语音控制通讯器，同时还能投射出你可以用手控制的激光显示屏，就像一个神奇的投影仪表盘。这在概念上令人惊叹，但在执行上却令人沮丧。Humane的Pin可能是可穿戴设备的未来，超越我们的手表，但目前它还不够稳定或连通性不足。这也不会是我们看到的最后一个AI可穿戴设备：Meta的Ray-Ban眼镜已经有AI功能，并将在下个月向公众推出；初创公司Brilliant正在制造带显示屏的AI眼镜；而Rabbit R1是一个手持的AI驱动设备，就像手机和AI GameBoy的结合。 AI Pin位于这些设备的中间。这些设备中的许多都在寻求重新发明我口袋中的手机，但我得说：那部手机已经非常灵活和惊人了。它已经包含了我相互联系的生活。这就是AI可穿戴设备需要应对的，就像智能手表之前做的那样。它们需要是有用的、价格合理的扩展，而不是昂贵的尝试，去重新发明已经有效的东西。 Humane AI Pin就像Apple Watch和AirPods的设计表亲一样放在黄色桌子上。这个AI Pin非常精美。它是前苹果工程师和设计师Imran Chaudhri和Bethany Bongiorno的智慧结晶，看起来像是Apple Watch和AirPods的结合体，如果两者融合成一个带摄像头的迷你pod的话。光滑且带金属边框的外观让我想起了缩小版的第一代iPhone。附件设计得也很好。AI Pin自带电池，还有一个可以通过衣物磁性连接的扩展电池包，可以提供额外的电量。我之前从未见过这样的设备。AI Pin可以直接夹在衣物上，后面的电池包可以通过布料连接并供电。AI Pin包括一个额外的电池包，以及两种充电方式。其中一种，一个小充电摇篮，可以让你在桌面上充电的同时使用Pin的语音激活功能。另一种，则是一个小的、类似蛋形的便携充电包，它自带电池，感觉像是《机器人瓦力》中EVE使用的AirPods盒子。它还可以充电那些电池增强包，而另一个则在穿戴中使用。这种可更换电池系统是关于徽章的最佳创意之一。我发现我每天的电池寿命可以持续大部分时间，远比我使用Meta的Ray-Ban眼镜几小时后需要充电（然后没眼镜戴）要长。我喜欢有持续充电选项的舒适感。还有几种额外的夹子适用于不同的服装。那个电池增强包有点笨重，穿在我的毛衣下感觉很奇怪，但一个没有电池的较薄后背夹适用于薄衬衫。还有一个夹子带有金属附件，当磁力系统对厚衣服或夹克不够强时使用。别针没有按钮，依赖前面的触摸板来轻点和长按以进行语音命令。没有语音激活，这意味着你总是需要轻点（字面上，像星际舰队官员那样）：单指轻点用于语音，两指长按用于翻译，两指双击拍照，轻点并长按录像。注意：它一次只能录制15秒视频。那种野性的投射激光和手势跟踪：令人惊叹也令人沮丧当你轻点别针并伸出手时，AI Pin的标志性激光投射魔术界面就会发生。近距离跟踪传感器触发激光投影仪，将一个发光的蓝色显示屏投射到你伸出的手上。然后，你可以用那只手来倾斜和捏控界面。看起来就像纯粹的赛博朋克巫术，我很快就掌握了这个概念。导航并不总是容易。显示屏有时需要几次尝试才会出现，而且根据你放置别针的位置，投射距离和角度可能会变化，需要不同的手角度。捏控感觉有点尴尬，尤其是当你需要保持手掌张开时。为了每次我将其固定在衣服上时输入我的解锁密码，我需要将手向外移或向内拉来选择数字，这很麻烦。如果你想连接Wi-Fi，你需要用捏控导航到设置，然后口述你的Wi-Fi密码，这并不容易。（你也可以使用QR码，但那很奇怪）。没有其他连接方式，因为没有手机应用。作为一个经常测试可穿戴设备的人，这让我困惑。不幸的是，在正常的阳光下室外几乎无法使用激光显示屏；它完全洗白了，我不得不遮住手才能尝试看清文字。即使在室内，投射在你手上的投影也很难阅读，因为文字会弯曲和移动。不像屏幕，你的手并不完全平坦。很酷轻点并长按两个手指会触发即时翻译，而我尝试别针的第一次，无论我说什么都会变成西班牙语。据Humane称，它目前支持50种语言。它还可以自动识别另一位说其他语言的发言者的声音，并将其翻译回英语给我听。你的手机也可以翻译，如果你得到正确的应用，但AI Pin感觉更接近一个即时的魔法翻译器。问题是我的别针有时不会切换语言。有时它会卡在德语或法语上。这也许是一个早期问题，但确实令人沮丧。 AI Pin和Meta Ray-Ban眼镜并排放在木桌上就像Meta的AI启用眼镜一样，Human AI Pin可以使用其广角相机扫描世界，处理并反应你所看到的。结果差异很大。我必须让设备“看看”，然后弄清楚我想让它告诉我什么，这感觉像是在咨询一个神灯精灵。有时答案有帮助，有时一点用也没有。你可以让别针大声读出东西，尝试识别汽车、植物或地点或描述一个房间。拍照和AI Pin回答之间的中继需要几秒钟以上。这是一个未来世界的有趣想法，在那里我们佩戴的看见摄像头可以是辅助工具；这是我在测试Meta的Ray-Bans时的想法。这个过程不像我希望的那样自动或流畅有帮助。有时AI根本没有帮助我，或者对同一个问题给出不同的答案。当然，接下来是关于Humane AI Pin的细节和用户体验： AI Pin确实能拍摄静态照片和15秒视频。相机质量还可以，但不算出色。由于没有屏幕或取景器，很难预测别针拍出的照片会是什么样子。你可以在手上预览拍摄的照片，但只有蓝色单色显示。或许能随身携带一个可穿戴相机，不用拿出手机就能捕捉生活瞬间是一种乐趣，但总体来说，我更喜欢Meta的眼镜，因为在我看来它们的相机质量更好（但关于Humane AI相机的优点还有更多讨论）。有限的视频录制时间意味着我无法使用它保存超过短暂实时记忆的片段。关于声控AI：不完整，不可靠当我拿着一罐Spindrift问AI Pin“看看这是什么”，它的回答是：“‘Luck’是由苹果电视加推出的2022年电影，讲述了世界上最倒霉的人Sam Greenfield如何进入幸运之地，并必须与魔法生物联合，扭转她的运气。”我猜它误解了我说的“运气和告诉我这是什么”。这就是我与声控AI的生活典型。当AI Pin的AI工作时，它很有趣。我问了下一班火车何时到达我的城镇，它知道。我询问了纽约喷气机队最新的休赛期操作，然后要求提供该球员的统计数据。你可以在手机上做这些事情，但像Siri和Alexa这样的服务并不总是能顺畅处理语音请求。 AI Pin与我的世界脱节。作为一个独立的、具备蜂窝连接的设备，它根本不与我的手机同步。不是通过手机应用，而是Humane AI Pin有一个网页仪表板，我所有的AI请求、照片和视频以及服务都在那里管理。尽管我欣赏Humane所做的努力，这让我觉得我在重新开始我的数字生活。它不了解我的日历、我的电子邮件、我的笔记或任何其他事情。它不能叫Uber或查找我的购买历史。从某种意义上说，这很安心，但也表明很多服务目前还无法与它集成。 Humane的网页仪表板目前可以与苹果同步联系人，与微软（也用于联系人）和谷歌（联系人，以及同步到谷歌照片）连接。它只支持一项音乐服务：Tidal。如果你恰好订阅了Tidal，AI Pin可以播放流媒体音乐，并且别针的蓝牙可以与耳机配对。还有更多的接入点即将到来，据Humane的创始人说。我写这篇文章的时候还不到第一天。然而，对于一个完全依赖AI服务来帮助我的设备来说，我需要这些服务正常工作。我经常遇到别针告诉我它还不能做某些事情的情况。我不能发送电子邮件。我不能设定计时器。我不能检查营养价值。我不能设置提醒。你可以让别针“记住”事情，这些会被保存为在Humane网页仪表板中的笔记。别针稍后会回忆这些事情，比如我孩子的名字。我更希望它能导入我已经存储在其他地方的笔记。…

苹果全力升级：用专注AI的M4芯片彻底改造Mac系列

Posted on April 12, 2024April 12, 2024 by aitrendtrackers@rengongzhineng.io

苹果公司今日再次掀起科技风暴，据彭博社的马克·古尔曼报道，苹果正在将其Mac电脑系列升级为搭载M4处理器，以提升人工智能性能。继去年推出性能卓越的M3芯片后，为了迎合AI技术的快速进步，苹果此举可谓是加码投入。就在这硬件大战白热化的时刻，微软也不甘示弱，宣布推出新一代优化AI的高通Snapdragon X系列芯片。古尔曼指出，iMac、低配版及高配版的14英寸MacBook Pro、16英寸MacBook Pro以及Mac mini将是首批装载M4芯片的设备，预计2024年面市，其后13英寸及15英寸的MacBook Air将在2025年中期进行更新。稍晚些时候，Mac Studio和Mac Pro也将迎来更新换代。尽管PC市场总体低迷，苹果Mac产品线更是经历了一番苦战，销量自2022年至2023年间暴跌40%，苹果显然是押宝这一重大升级能够扭转Mac的颓势。据悉，不同档次的新机将搭载代号为Donan、Brava和Hydra的M4芯片，其中高端的Mac Book Pro支持高达500GB的RAM，远超现有的192GB。所有这三款芯片均将具备超越M3的AI处理能力。有关M4芯片的更多细节，消费者将在六月的苹果全球开发者大会上有更深入的了解。

内部泄密事件引发震荡：OpenAI解雇两名研究员

Posted on April 12, 2024April 12, 2024 by aitrendtrackers@rengongzhineng.io

近日，AI 界的头号玩家 OpenAI 传出了开除事件，两位安全团队的重要研究员雷奥波德·阿申布伦纳（Leopold Aschenbrenner）和帕维尔·伊兹梅洛夫（Pavel Izmailov）因为“泄密”被请出了大门。内部调查后的结果是这俩人的“离职”，具体啥信息走漏了还是个谜。要知道，阿申布伦纳还是个搞AI安全的新星，拜19岁就毕业于哥伦比亚大学的资质所赐，曾是 OpenAI 首席科学家 Ilya Sutskever 的铁杆盟友。这不，OpenAI 里头还传出了曾经研究项目“Q*”的大新闻，这个项目通过一个新套路让AI能解决从没见过的数学题。内部演示搞得人心惶惶，一边是期待一边是担忧。据说就是这场风波，让 Ilya Sutskever 和之前的董事会差点儿搞掉了 CEO Sam Altman。尽管 OpenAI 喊的是负责任的AI开发，要让AI造福人类，但这次开人的操作可不怎么体面，毕竟“开放”二字似乎跟他们的行为不太匹配。前金主马斯克都出来吐槽了，他说 OpenAI 现在是个挂羊头卖狗肉的“封闭源、追求最大化利润的公司”，和他们最初的非营利初衷大相径庭。至于这次泄密风波，OpenAI 自己嘴紧，被开的两位研究员也没吭声。反正，这场戏还得继续看，不知道最后会不会有人来给这段传奇画上个句号。

Meta推出全新定制AI芯片，加速追赶对手的步伐

Posted on April 11, 2024April 11, 2024 by aitrendtrackers@rengongzhineng.io

Meta，一个疯狂追赶生成式AI领域对手的科技巨头，正在其自家AI研发上砸下数十亿美元。这些投资中的一部分用于招募AI研究人员，更大一块则用于开发硬件，尤其是用于运行和训练Meta AI模型的芯片。就在英特尔宣布其最新AI加速硬件的次日，Meta今日也大张旗鼓地展示了其芯片开发的最新成果——被称为“下一代”的Meta训练与推断加速器（MTIA），是去年MTIA v1的后继产品。这款芯片的应用场景包括在Meta旗下的平台（例如Facebook）上对显示广告进行排名和推荐。与基于7纳米工艺的MTIA v1相比，新一代的MTIA使用了5纳米工艺。在芯片制造中，“工艺”指的是芯片上可以构建的最小组件的大小。新一代的MTIA设计上体积更大，内置了更多的处理核心。尽管其功耗更高——90瓦特对比25瓦特——但它拥有更多的内存（128MB对比64MB）并且运行的平均时钟速度更高（从800MHz提升到1.35GHz）。 Meta表示，新一代MTIA目前已在其16个数据中心区域投入使用，并且与MTIA v1相比，整体性能提升了高达3倍。如果你觉得这个“3倍”的说法听起来有些模糊，那你并不孤单——我们也这么认为。但Meta只是透露，这一数据是通过在两款芯片上测试“四个关键模型”的性能得出的。 Meta在一篇与TechCrunch共享的博客文章中写道：“因为我们控制了整个堆栈，我们能够比商用GPU实现更高的效率。” Meta的硬件展示——在公司各种持续的生成式AI计划的新闻发布会后仅24小时进行——出于几个原因而不同寻常。一是Meta在博客中透露，目前并没有使用新一代MTIA来进行生成式AI的训练工作，尽管公司声称正在探索“几个相关计划”。二是Meta承认，新一代MTIA不会取代GPU来运行或训练模型——而是将与之互补。言下之意，Meta的进展缓慢——可能比他们期望的还要慢。 Meta的AI团队几乎可以肯定正面临削减成本的压力。该公司预计到2024年底将在GPU上投资约180亿美元，用于训练和运行生成式AI模型，而这些模型的训练成本高达数千万美元——自研硬件显然是一个具有吸引力的替代方案。而在Meta的硬件发展缓慢之时，其竞争对手正快速前进，这无疑让Meta的领导层感到焦虑。就在本周，谷歌将其第五代定制AI训练芯片TPU v5p向Google Cloud客户全面开放，并推出了其首个专用于运行模型的芯片Axion。亚马逊已经拥有几个定制AI芯片系列。而微软去年也加入了竞争，推出了Azure Maia AI加速器和Azure Cobalt 100 CPU。 Meta在博客中表示，从首次使用硅片到生产模型，新一代MTIA仅用了不到九个月的时间，这其实比Google TPUs的典型窗口时间还要短。但如果Meta希望实现从第三方GPU中独立出来，并与激烈的竞争对手匹敌，它还有很长的路要走。

谷歌官方力作——CodeGemma代码语言模型

Posted on April 11, 2024April 11, 2024 by aitrendtrackers@rengongzhineng.io

什么是CodeGemma CodeGemma是谷歌开发的一系列专注于代码的大型语言模型(LLM)家族，基于先前训练好的2B和7B Gemma检查点。CodeGemma进一步在主要是英语的数据、数学和编程代码上训练了额外的5000亿标记，以增强逻辑和数学推理能力，适用于代码补全和生成。 CodeGemma 2B专门针对代码填充训练，适用于需要快速代码补全和生成的场景，特别是在延迟和/或隐私非常关键的环境中。CodeGemma 7B的训练数据包括80%的代码填充数据和20%的自然语言，可以用于代码补全以及代码和语言的理解和生成。CodeGemma 7B Instruct经过了针对指令跟随的微调，特别适用于围绕代码、编程或数学推理话题的对话使用。所有模型都维持与其前代相同的8000标记的上下文大小。评估结果在Python的HumanEval基准测试中，CodeGemma-7B在同等大小的7B模型中表现出色，除了DeepSeek-Coder-7B外。对Java、JavaScript和C++等其他编程语言的评估也显示出优秀的性能，这些语言的评估是通过MultiPL-E（HumanEval的翻译）进行的。技术报告显示，该模型在GSM8K上的表现在7B模型中最佳。指令版本CodeGemma-7B-it在HumanEval和MBPP上对最受欢迎的语言表现得更好。使用CodeGemma 你可以在这个空间或下面嵌入的聊天机器人中轻松尝试CodeGemma模型（70亿参数）：这个空间展示了由谷歌开发的CodeGemma-7B-it模型。CodeGemma是基于Gemma之上构建的一系列轻量级开放代码模型。随意使用，或复制以私下运行！https://huggingface.co/spaces/ysharma/CodeGemma Prompt格式对于CodeGemma 2B和CodeGemma 7B模型，它们使用填充（infilling）技术来进行代码补全，这包括代码、注释、文档字符串和导入语句。CodeGemma通过“填充中间”（FIM）目标进行训练，你需要提供前缀和后缀作为补全的上下文。使用以下标记来分隔输入的不同部分：此外，还有提供多文件上下文的标记。具体使用示例将在“与Transformers一起使用”部分展示。对于CodeGemma 7B Instruct模型，它使用与基础Gemma指令调优版本相同的提示格式，遵循以下对话结构：像Gemma模型一样，复现这种格式最简单的方法是使用Transformers库中提供的聊天模板。这些模板通过预定义的标记来结构化输入和输出，从而简化了与模型的交互过程，并使其更易于集成和使用。使用这种结构化输入，模型能够更准确地解析和响应用户的查询，这对于构建交互式AI应用尤为重要。使用Transformers 最新4.39版的变压器大放异彩，带来了CodeGemma这个新玩意儿，让你可以在Hugging Face生态系统中尽情挥洒，例如： – 训练和推断的脚本样例– 安全的文件格式（safetensors）– 配合比特小零件的4位量化工具，PEFT高效调参技术，还有闪电般的注意力机制2代– 各种小工具助你运行模型– 轻松部署模型的出口机制像Gemma模型一样，CodeGemma也能和torch.compile()完美配合，给推断速度来个大提升。惊喜加码：我们还特地准备了一个Colab笔记本，让你一键试用这个模型哦。想要加入CodeGemma的酷炫行列，先来个升级保持最新：下面这段代码示范如何用transformers来实现codegemma-2b的代码补全。记得，这玩意儿大概要6GB的RAM，用float16精度就能在你的家用GPU上跑起来。注意，光标位置的 token 会告诉你代码该从哪儿接着写。这段代码的结果可能如下： CodeGemma 7B通常会比较啰嗦，可能会在代码完结后还不自觉地多嘴几句。如果想要提前结束生成，可以设置一些终止符，像这样：这样一来，一旦碰到任何一个终止符，生成就会立刻停止。 Google Cloud集成你可以通过Vertex AI或Google Kubernetes Engine（GKE）在谷歌云上部署和训练Gemma，使用文本生成推理和Transformers。推理端点集成你还可以在Hugging Face的推理端点上部署CodeGemma，该端点使用文本生成推理作为后端。文本生成推理是Hugging Face开发的生产就绪的推理容器，使大型语言模型的部署变得简单。它具有连续批处理、令牌流处理、多GPU上的张量并行快速推理等特性，并在Apache 2许可下分发。想要了解更多关于使用Hugging Face推理端点部署大型语言模型的信息，请查看之前的博客文章。注意，T4s不支持bfloat16格式，因此你将需要使用不同的GPU选项。这就是关于CodeGemma及其在代码生成、补全和对话使用方面的潜力和应用的概述，以及如何将其与现有的云和推理服务集成的详细信息。…

Subscribe 订阅