Google宣布其新一代AI芯片——Cloud TPU v5p现已对开发者开放,这是对Nvidia流行AI芯片的少数替代品之一,并且对Microsoft和Amazon也发起了挑战。这款新的张量处理单元(TPU)首次在去年12月与其聊天机器人Gemini同时公布。据公司称,新TPU的训练速度几乎是前代Google TPU v4的三倍。大型语言模型(LLMs)是支持像ChatGPT这样的AI聊天机器人的技术基础。 Google CEO Sundar Pichai在周二拉斯维加斯举行的年度Google Cloud Next大会上说:“现在已经发展到第五代,这些进步帮助客户训练并运行前沿的语言模型。”Google的这一宣布标志着大型科技公司人工智能军备竞赛中的又一里程碑。Nvidia是众所周知的AI芯片——图形处理单元(GPU)的主要供应商。而Google的母公司Alphabet是Nvidia的最大客户之一,仅次于Microsoft和Facebook的母公司Meta。Pichai表示:“[Google的]这些投资使我们站在了AI平台转变的最前沿。”Google的竞争对手Microsoft、Amazon和Meta也都开发了自己的AI芯片。 尽管如此,很明显Nvidia对Google依然至关重要。在宣布最新AI芯片的同一篇博客文章中,Google提到了Nvidia 20次。在详述TPU v5p的同时,该公司表示正在更新其A3超级计算机,该计算机使用Nvidia GPU运行。Google还提醒客户,它正在使用Nvidia的最新芯片——Blackwell,在其AI Hypercomputer中。 在讨论Google的新AI芯片后,Google Cloud CEO Thomas Kurian进行了一场更加耀眼的展示,介绍了基于Arm的新中央处理单元——Google Axion。在主题演讲中,Kurian手持Axion芯片走上舞台,展示该芯片并赢得掌声。Google Axion是对Microsoft和Amazon已经制造的基于Arm的计算芯片的新竞争者。英国科技公司Arm授权其芯片基础设计给实际的芯片制造商以供构建。Google发布Axion标志着该公司首次使用Arm的芯片基础架构来制造CPU。Google表示,Axion的性能“比目前云中可用的最快通用Arm基础实例高出30%”,并且“性能提升高达50%,能效提高高达60%”。Google客户可以在其云服务上使用Axion,这基本上意味着这些用户将选择在Google的实体数据中心中使用更高效的计算处理器运行其云服务。Google还告诉路透社,“在任何地方使用Arm的客户都可以轻松采用Axion,无需重新架构或重写应用程序。”
Mistral AI突围:开源大模型Mixtral 8x22B颠覆行业格局
巴黎的小伙伴Mistral AI不甘寂寞,冲出重围,推出了全新的大型语言模型Mixtral 8x22B,一举成为人工智能界的新宠儿。这不仅仅是因为它的震撼登场,更因为Mistral承诺将其开源,向像OpenAI、Meta、Google这样的大佬们发起挑战。 Mixtral 8x22B采用了尖端的混合专家(MoE)架构,拥有令人瞩目的1760亿参数和65000令牌的上下文窗口。这些性能不仅超越了它的前作Mixtral 8x7B,也可能在与OpenAI的GPT-3.5和Meta的Llama 2等顶尖模型的竞争中占得一席之地。Mixtral 8x22B的独特之处不仅在于它的技术实力,更在于其无门槛的获取方式;任何人都可以通过种子下载,并且享受Apache 2.0的宽松授权。 在OpenAI最近推出带视觉功能的GPT-4 Turbo,Google推出面向开发者免费试用的Gemini Pro 1.5 LLM,以及Meta即将推出Llama 3的模型的大背景下,Mistral的Mixtral 8x22B以其开源性质和广泛的适用前景脱颖而出。 Mixtral 8x22B的推出,反映出人工智能开发趋向于更开放、更协作的大趋势。Mistral AI这家由Google和Meta的前员工创立的公司,正在引领这种变革,它鼓励一个更包容的生态系统,在这里开发者、研究人员和爱好者都能够负担得起且轻松访问到先进的AI技术。 初步反馈超级给力,很多人都看好这款模型在从内容创作到客户服务,再到药物研发和气候模型研究等各个领域内燃起创新的星星之火。随着AI技术的快速发展,像Mixtral 8x22B这样的模型发布凸显了开放创新在推动进步中的重要性。Mistral AI的最新动作不仅提升了语言模型的技术水平,也促进了一个更加合作、民主的AI新景观。
OpenAI再创新高:GPT-4-Turbo升级,带来视觉技术和更强大的分析功能
OpenAI最近放出了它那位名叫GPT-4-Turbo的先进人工智能的大更新,不得了,这回它的应答和分析能力可是“大幅提升”了。一开始,这款集成了AI视觉技术,能分析并理解视频、图像和音频内容的模型,仅对开发者开放。但OpenAI表示,这些特色功能很快就会加入到ChatGPT中。 这还是头一遭,带有视觉技术的GPT-4-Turbo向第三方开发者开放。想想就有点小激动,这或许会催生出一些关于时尚、编程乃至游戏方面的新奇应用和服务。新模型还将知识更新截止日期延长到了2023年12月。这是AI训练完成的时间点。之前的知识截止日期是去年的4月。 GPT-4-Turbo的大部分焦点都放在了通过API调用访问OpenAI模型的开发者身上,以提升他们的工作效率,创造出更高效的应用程序。这是因为之前需要不同的模型来处理图像和文本。 将来,模型及其视觉分析能力将进一步扩展,并加入到像ChatGPT这样的消费者应用中,使其对图像和视频的理解更加高效。 这是Google开始推出的Gemini Pro 1.5已经开始实施的一项措施,尽管现在,像OpenAI一样,这家搜索巨头也将其限制在开发者使用的平台上,而不是消费者。GPT-4在最近的基准测试中的表现并不尽如人意,包括与Claude 3 Opus或Google的Gemini等新模型相比。一些较小的模型在特定任务上也表现更佳。 这次的更新应该会改变这一局面,或者至少为企业客户增加新的吸引人特性,直到GPT-5问世。 更新还保留了128,000个令牌的上下文窗口,大约相当于一本300页的书。虽然不是市场上最大的,但对大多数用例来说已经足够了。 到目前为止,OpenAI除了在ChatGPT中关注文本和图像的分析和理解外,还专注于音频的分析和理解。新更新将视频带给了更多人。当这一功能来到ChatGPT时,用户可能能够上传短视频片段,并让AI总结内容或挑选出关键时刻。
体验Humane AI:我与可穿戴AI别针的生活
就像一个固定在你衬衫上的、由AI驱动的《星际迷航》通讯器一样,AI Pin是一个大胆的概念,但它在日常使用中令人沮丧。 Humane的AI Pin体积小巧,承诺可以大大方便我的生活。但它还有很多工作要做。许多我测试过的技术看起来像科幻小说,但在现实世界中使用起来却很麻烦。这就是我对Humane AI Pin的感受。我可以在这个夹在衣服上的设备中看到一个未来的概念,它承诺是一个活的星舰徽章版本,但那个未来还未到来。 Humane AI Pin(售价699美元)想要成为一个自给自足的手机替代品,一个闪亮的语音控制通讯器,同时还能投射出你可以用手控制的激光显示屏,就像一个神奇的投影仪表盘。这在概念上令人惊叹,但在执行上却令人沮丧。Humane的Pin可能是可穿戴设备的未来,超越我们的手表,但目前它还不够稳定或连通性不足。这也不会是我们看到的最后一个AI可穿戴设备:Meta的Ray-Ban眼镜已经有AI功能,并将在下个月向公众推出;初创公司Brilliant正在制造带显示屏的AI眼镜;而Rabbit R1是一个手持的AI驱动设备,就像手机和AI GameBoy的结合。 AI Pin位于这些设备的中间。这些设备中的许多都在寻求重新发明我口袋中的手机,但我得说:那部手机已经非常灵活和惊人了。它已经包含了我相互联系的生活。这就是AI可穿戴设备需要应对的,就像智能手表之前做的那样。它们需要是有用的、价格合理的扩展,而不是昂贵的尝试,去重新发明已经有效的东西。 Humane AI Pin就像Apple Watch和AirPods的设计表亲一样放在黄色桌子上。这个AI Pin非常精美。它是前苹果工程师和设计师Imran Chaudhri和Bethany Bongiorno的智慧结晶,看起来像是Apple Watch和AirPods的结合体,如果两者融合成一个带摄像头的迷你pod的话。光滑且带金属边框的外观让我想起了缩小版的第一代iPhone。附件设计得也很好。AI Pin自带电池,还有一个可以通过衣物磁性连接的扩展电池包,可以提供额外的电量。我之前从未见过这样的设备。AI Pin可以直接夹在衣物上,后面的电池包可以通过布料连接并供电。AI Pin包括一个额外的电池包,以及两种充电方式。其中一种,一个小充电摇篮,可以让你在桌面上充电的同时使用Pin的语音激活功能。另一种,则是一个小的、类似蛋形的便携充电包,它自带电池,感觉像是《机器人瓦力》中EVE使用的AirPods盒子。它还可以充电那些电池增强包,而另一个则在穿戴中使用。这种可更换电池系统是关于徽章的最佳创意之一。我发现我每天的电池寿命可以持续大部分时间,远比我使用Meta的Ray-Ban眼镜几小时后需要充电(然后没眼镜戴)要长。我喜欢有持续充电选项的舒适感。 还有几种额外的夹子适用于不同的服装。那个电池增强包有点笨重,穿在我的毛衣下感觉很奇怪,但一个没有电池的较薄后背夹适用于薄衬衫。还有一个夹子带有金属附件,当磁力系统对厚衣服或夹克不够强时使用。别针没有按钮,依赖前面的触摸板来轻点和长按以进行语音命令。没有语音激活,这意味着你总是需要轻点(字面上,像星际舰队官员那样):单指轻点用于语音,两指长按用于翻译,两指双击拍照,轻点并长按录像。注意:它一次只能录制15秒视频。那种野性的投射激光和手势跟踪:令人惊叹也令人沮丧当你轻点别针并伸出手时,AI Pin的标志性激光投射魔术界面就会发生。近距离跟踪传感器触发激光投影仪,将一个发光的蓝色显示屏投射到你伸出的手上。然后,你可以用那只手来倾斜和捏控界面。看起来就像纯粹的赛博朋克巫术,我很快就掌握了这个概念。导航并不总是容易。 显示屏有时需要几次尝试才会出现,而且根据你放置别针的位置,投射距离和角度可能会变化,需要不同的手角度。捏控感觉有点尴尬,尤其是当你需要保持手掌张开时。为了每次我将其固定在衣服上时输入我的解锁密码,我需要将手向外移或向内拉来选择数字,这很麻烦。如果你想连接Wi-Fi,你需要用捏控导航到设置,然后口述你的Wi-Fi密码,这并不容易。(你也可以使用QR码,但那很奇怪)。没有其他连接方式,因为没有手机应用。作为一个经常测试可穿戴设备的人,这让我困惑。 不幸的是,在正常的阳光下室外几乎无法使用激光显示屏;它完全洗白了,我不得不遮住手才能尝试看清文字。即使在室内,投射在你手上的投影也很难阅读,因为文字会弯曲和移动。不像屏幕,你的手并不完全平坦。 很酷轻点并长按两个手指会触发即时翻译,而我尝试别针的第一次,无论我说什么都会变成西班牙语。据Humane称,它目前支持50种语言。它还可以自动识别另一位说其他语言的发言者的声音,并将其翻译回英语给我听。你的手机也可以翻译,如果你得到正确的应用,但AI Pin感觉更接近一个即时的魔法翻译器。问题是我的别针有时不会切换语言。有时它会卡在德语或法语上。这也许是一个早期问题,但确实令人沮丧。 AI Pin和Meta Ray-Ban眼镜并排放在木桌上就像Meta的AI启用眼镜一样,Human AI Pin可以使用其广角相机扫描世界,处理并反应你所看到的。结果差异很大。我必须让设备“看看”,然后弄清楚我想让它告诉我什么,这感觉像是在咨询一个神灯精灵。有时答案有帮助,有时一点用也没有。 你可以让别针大声读出东西,尝试识别汽车、植物或地点或描述一个房间。拍照和AI Pin回答之间的中继需要几秒钟以上。这是一个未来世界的有趣想法,在那里我们佩戴的看见摄像头可以是辅助工具;这是我在测试Meta的Ray-Bans时的想法。这个过程不像我希望的那样自动或流畅有帮助。有时AI根本没有帮助我,或者对同一个问题给出不同的答案。当然,接下来是关于Humane AI Pin的细节和用户体验: AI Pin确实能拍摄静态照片和15秒视频。相机质量还可以,但不算出色。由于没有屏幕或取景器,很难预测别针拍出的照片会是什么样子。你可以在手上预览拍摄的照片,但只有蓝色单色显示。或许能随身携带一个可穿戴相机,不用拿出手机就能捕捉生活瞬间是一种乐趣,但总体来说,我更喜欢Meta的眼镜,因为在我看来它们的相机质量更好(但关于Humane AI相机的优点还有更多讨论)。有限的视频录制时间意味着我无法使用它保存超过短暂实时记忆的片段。 关于声控AI:不完整,不可靠 当我拿着一罐Spindrift问AI Pin“看看这是什么”,它的回答是:“‘Luck’是由苹果电视加推出的2022年电影,讲述了世界上最倒霉的人Sam Greenfield如何进入幸运之地,并必须与魔法生物联合,扭转她的运气。”我猜它误解了我说的“运气和告诉我这是什么”。这就是我与声控AI的生活典型。 当AI Pin的AI工作时,它很有趣。我问了下一班火车何时到达我的城镇,它知道。我询问了纽约喷气机队最新的休赛期操作,然后要求提供该球员的统计数据。你可以在手机上做这些事情,但像Siri和Alexa这样的服务并不总是能顺畅处理语音请求。 AI Pin与我的世界脱节。作为一个独立的、具备蜂窝连接的设备,它根本不与我的手机同步。不是通过手机应用,而是Humane AI Pin有一个网页仪表板,我所有的AI请求、照片和视频以及服务都在那里管理。 尽管我欣赏Humane所做的努力,这让我觉得我在重新开始我的数字生活。它不了解我的日历、我的电子邮件、我的笔记或任何其他事情。它不能叫Uber或查找我的购买历史。从某种意义上说,这很安心,但也表明很多服务目前还无法与它集成。 Humane的网页仪表板目前可以与苹果同步联系人,与微软(也用于联系人)和谷歌(联系人,以及同步到谷歌照片)连接。它只支持一项音乐服务:Tidal。如果你恰好订阅了Tidal,AI Pin可以播放流媒体音乐,并且别针的蓝牙可以与耳机配对。还有更多的接入点即将到来,据Humane的创始人说。我写这篇文章的时候还不到第一天。然而,对于一个完全依赖AI服务来帮助我的设备来说,我需要这些服务正常工作。我经常遇到别针告诉我它还不能做某些事情的情况。我不能发送电子邮件。我不能设定计时器。我不能检查营养价值。我不能设置提醒。你可以让别针“记住”事情,这些会被保存为在Humane网页仪表板中的笔记。别针稍后会回忆这些事情,比如我孩子的名字。我更希望它能导入我已经存储在其他地方的笔记。…
苹果全力升级:用专注AI的M4芯片彻底改造Mac系列
苹果公司今日再次掀起科技风暴,据彭博社的马克·古尔曼报道,苹果正在将其Mac电脑系列升级为搭载M4处理器,以提升人工智能性能。继去年推出性能卓越的M3芯片后,为了迎合AI技术的快速进步,苹果此举可谓是加码投入。 就在这硬件大战白热化的时刻,微软也不甘示弱,宣布推出新一代优化AI的高通Snapdragon X系列芯片。古尔曼指出,iMac、低配版及高配版的14英寸MacBook Pro、16英寸MacBook Pro以及Mac mini将是首批装载M4芯片的设备,预计2024年面市,其后13英寸及15英寸的MacBook Air将在2025年中期进行更新。稍晚些时候,Mac Studio和Mac Pro也将迎来更新换代。 尽管PC市场总体低迷,苹果Mac产品线更是经历了一番苦战,销量自2022年至2023年间暴跌40%,苹果显然是押宝这一重大升级能够扭转Mac的颓势。据悉,不同档次的新机将搭载代号为Donan、Brava和Hydra的M4芯片,其中高端的Mac Book Pro支持高达500GB的RAM,远超现有的192GB。所有这三款芯片均将具备超越M3的AI处理能力。 有关M4芯片的更多细节,消费者将在六月的苹果全球开发者大会上有更深入的了解。
内部泄密事件引发震荡:OpenAI解雇两名研究员
近日,AI 界的头号玩家 OpenAI 传出了开除事件,两位安全团队的重要研究员雷奥波德·阿申布伦纳(Leopold Aschenbrenner)和帕维尔·伊兹梅洛夫(Pavel Izmailov)因为“泄密”被请出了大门。内部调查后的结果是这俩人的“离职”,具体啥信息走漏了还是个谜。要知道,阿申布伦纳还是个搞AI安全的新星,拜19岁就毕业于哥伦比亚大学的资质所赐,曾是 OpenAI 首席科学家 Ilya Sutskever 的铁杆盟友。 这不,OpenAI 里头还传出了曾经研究项目“Q*”的大新闻,这个项目通过一个新套路让AI能解决从没见过的数学题。内部演示搞得人心惶惶,一边是期待一边是担忧。据说就是这场风波,让 Ilya Sutskever 和之前的董事会差点儿搞掉了 CEO Sam Altman。 尽管 OpenAI 喊的是负责任的AI开发,要让AI造福人类,但这次开人的操作可不怎么体面,毕竟“开放”二字似乎跟他们的行为不太匹配。前金主马斯克都出来吐槽了,他说 OpenAI 现在是个挂羊头卖狗肉的“封闭源、追求最大化利润的公司”,和他们最初的非营利初衷大相径庭。 至于这次泄密风波,OpenAI 自己嘴紧,被开的两位研究员也没吭声。反正,这场戏还得继续看,不知道最后会不会有人来给这段传奇画上个句号。
Meta推出全新定制AI芯片,加速追赶对手的步伐
Meta,一个疯狂追赶生成式AI领域对手的科技巨头,正在其自家AI研发上砸下数十亿美元。这些投资中的一部分用于招募AI研究人员,更大一块则用于开发硬件,尤其是用于运行和训练Meta AI模型的芯片。 就在英特尔宣布其最新AI加速硬件的次日,Meta今日也大张旗鼓地展示了其芯片开发的最新成果——被称为“下一代”的Meta训练与推断加速器(MTIA),是去年MTIA v1的后继产品。这款芯片的应用场景包括在Meta旗下的平台(例如Facebook)上对显示广告进行排名和推荐。 与基于7纳米工艺的MTIA v1相比,新一代的MTIA使用了5纳米工艺。在芯片制造中,“工艺”指的是芯片上可以构建的最小组件的大小。新一代的MTIA设计上体积更大,内置了更多的处理核心。尽管其功耗更高——90瓦特对比25瓦特——但它拥有更多的内存(128MB对比64MB)并且运行的平均时钟速度更高(从800MHz提升到1.35GHz)。 Meta表示,新一代MTIA目前已在其16个数据中心区域投入使用,并且与MTIA v1相比,整体性能提升了高达3倍。如果你觉得这个“3倍”的说法听起来有些模糊,那你并不孤单——我们也这么认为。但Meta只是透露,这一数据是通过在两款芯片上测试“四个关键模型”的性能得出的。 Meta在一篇与TechCrunch共享的博客文章中写道:“因为我们控制了整个堆栈,我们能够比商用GPU实现更高的效率。” Meta的硬件展示——在公司各种持续的生成式AI计划的新闻发布会后仅24小时进行——出于几个原因而不同寻常。 一是Meta在博客中透露,目前并没有使用新一代MTIA来进行生成式AI的训练工作,尽管公司声称正在探索“几个相关计划”。二是Meta承认,新一代MTIA不会取代GPU来运行或训练模型——而是将与之互补。 言下之意,Meta的进展缓慢——可能比他们期望的还要慢。 Meta的AI团队几乎可以肯定正面临削减成本的压力。该公司预计到2024年底将在GPU上投资约180亿美元,用于训练和运行生成式AI模型,而这些模型的训练成本高达数千万美元——自研硬件显然是一个具有吸引力的替代方案。 而在Meta的硬件发展缓慢之时,其竞争对手正快速前进,这无疑让Meta的领导层感到焦虑。 就在本周,谷歌将其第五代定制AI训练芯片TPU v5p向Google Cloud客户全面开放,并推出了其首个专用于运行模型的芯片Axion。亚马逊已经拥有几个定制AI芯片系列。而微软去年也加入了竞争,推出了Azure Maia AI加速器和Azure Cobalt 100 CPU。 Meta在博客中表示,从首次使用硅片到生产模型,新一代MTIA仅用了不到九个月的时间,这其实比Google TPUs的典型窗口时间还要短。但如果Meta希望实现从第三方GPU中独立出来,并与激烈的竞争对手匹敌,它还有很长的路要走。
谷歌官方力作——CodeGemma代码语言模型
什么是CodeGemma CodeGemma是谷歌开发的一系列专注于代码的大型语言模型(LLM)家族,基于先前训练好的2B和7B Gemma检查点。CodeGemma进一步在主要是英语的数据、数学和编程代码上训练了额外的5000亿标记,以增强逻辑和数学推理能力,适用于代码补全和生成。 CodeGemma 2B专门针对代码填充训练,适用于需要快速代码补全和生成的场景,特别是在延迟和/或隐私非常关键的环境中。CodeGemma 7B的训练数据包括80%的代码填充数据和20%的自然语言,可以用于代码补全以及代码和语言的理解和生成。CodeGemma 7B Instruct经过了针对指令跟随的微调,特别适用于围绕代码、编程或数学推理话题的对话使用。所有模型都维持与其前代相同的8000标记的上下文大小。 评估结果 在Python的HumanEval基准测试中,CodeGemma-7B在同等大小的7B模型中表现出色,除了DeepSeek-Coder-7B外。对Java、JavaScript和C++等其他编程语言的评估也显示出优秀的性能,这些语言的评估是通过MultiPL-E(HumanEval的翻译)进行的。技术报告显示,该模型在GSM8K上的表现在7B模型中最佳。指令版本CodeGemma-7B-it在HumanEval和MBPP上对最受欢迎的语言表现得更好。 使用CodeGemma 你可以在这个空间或下面嵌入的聊天机器人中轻松尝试CodeGemma模型(70亿参数): 这个空间展示了由谷歌开发的CodeGemma-7B-it模型。CodeGemma是基于Gemma之上构建的一系列轻量级开放代码模型。随意使用,或复制以私下运行!https://huggingface.co/spaces/ysharma/CodeGemma Prompt格式 对于CodeGemma 2B和CodeGemma 7B模型,它们使用填充(infilling)技术来进行代码补全,这包括代码、注释、文档字符串和导入语句。CodeGemma通过“填充中间”(FIM)目标进行训练,你需要提供前缀和后缀作为补全的上下文。使用以下标记来分隔输入的不同部分: 此外,还有提供多文件上下文的标记。具体使用示例将在“与Transformers一起使用”部分展示。 对于CodeGemma 7B Instruct模型,它使用与基础Gemma指令调优版本相同的提示格式,遵循以下对话结构: 像Gemma模型一样,复现这种格式最简单的方法是使用Transformers库中提供的聊天模板。这些模板通过预定义的标记来结构化输入和输出,从而简化了与模型的交互过程,并使其更易于集成和使用。使用这种结构化输入,模型能够更准确地解析和响应用户的查询,这对于构建交互式AI应用尤为重要。 使用Transformers 最新4.39版的变压器大放异彩,带来了CodeGemma这个新玩意儿,让你可以在Hugging Face生态系统中尽情挥洒,例如: – 训练和推断的脚本样例– 安全的文件格式(safetensors)– 配合比特小零件的4位量化工具,PEFT高效调参技术,还有闪电般的注意力机制2代– 各种小工具助你运行模型– 轻松部署模型的出口机制像Gemma模型一样,CodeGemma也能和torch.compile()完美配合,给推断速度来个大提升。 惊喜加码:我们还特地准备了一个Colab笔记本,让你一键试用这个模型哦。 想要加入CodeGemma的酷炫行列,先来个升级保持最新: 下面这段代码示范如何用transformers来实现codegemma-2b的代码补全。记得,这玩意儿大概要6GB的RAM,用float16精度就能在你的家用GPU上跑起来。 注意,光标位置的 token 会告诉你代码该从哪儿接着写。这段代码的结果可能如下: CodeGemma 7B通常会比较啰嗦,可能会在代码完结后还不自觉地多嘴几句。如果想要提前结束生成,可以设置一些终止符,像这样: 这样一来,一旦碰到任何一个终止符,生成就会立刻停止。 Google Cloud集成 你可以通过Vertex AI或Google Kubernetes Engine(GKE)在谷歌云上部署和训练Gemma,使用文本生成推理和Transformers。 推理端点集成 你还可以在Hugging Face的推理端点上部署CodeGemma,该端点使用文本生成推理作为后端。文本生成推理是Hugging Face开发的生产就绪的推理容器,使大型语言模型的部署变得简单。它具有连续批处理、令牌流处理、多GPU上的张量并行快速推理等特性,并在Apache 2许可下分发。 想要了解更多关于使用Hugging Face推理端点部署大型语言模型的信息,请查看之前的博客文章。注意,T4s不支持bfloat16格式,因此你将需要使用不同的GPU选项。 这就是关于CodeGemma及其在代码生成、补全和对话使用方面的潜力和应用的概述,以及如何将其与现有的云和推理服务集成的详细信息。…
双子座 Gemini1.5和谷歌的本质
昨天谷歌云端服务年度主题演讲的主要信息不容错过:谷歌拥有最佳的人工智能基础设施。这是首席执行官桑达尔·皮查伊在视频问候中的言论: 我想强调谷歌云显示如此进步的几个原因。其中之一是我们对人工智能的深度投资。我们早已知道人工智能将改变每一个行业和公司,包括我们自己。这就是为什么我们在过去十年中一直在构建人工智能基础设施,包括现已进入第五代的TPU。这些进步帮助客户训练并运行前沿的语言模型。这些投资使我们站在了人工智能平台转变的最前沿。 谷歌云CEO托马斯·库里安也明确表示了优先事项: 今天我们将专注于谷歌如何帮助领先公司转型,成为数字和人工智能领导者,这是通向云端的新方式。我们有许多重要的进展,从我们的基础设施开始。 然而,关于主题演讲最有趣的部分是该基础设施所能实现的事物,以及这关于谷歌竞争能力的表述。 落地 关于大型语言模型(LLM)最令人惊讶的事情之一是它们所知道的内容;从一开始,幻觉就是一个问题。当然,幻觉是LLM如此令人印象深刻的部分原因:计算机实际上在创造!这也是一个对于这次主题演讲的企业客户来说并不特别令人印象深刻的特征。为此,库里安在讨论谷歌基础设施优势后不久,谈到了“落地”,不仅是在谷歌的双子座模型广泛应用中,也特别是在企业用例中,通过谷歌的Vertex AI模型管理服务实现:为了增强模型,Vertex AI提供了管理工具,将您的模型与企业应用程序和数据库连接起来,使用扩展和函数调用。Vertex还提供了检索增强生成(RAG),结合检索和生成模型的优势,提供高质量的个性化答案和建议。Vertex可以通过将生成的人工智能与您的企业真实数据相结合,用来自网络和您的组织的最新知识来增强模型。今天我们有一个非常重要的公告:您现在可以通过谷歌搜索进行落地,这可能是世界上最值得信赖的事实信息源,深入了解全球知识。通过谷歌搜索进行双子座回应的落地提高了回应质量,并显著减少了幻觉。 其次,我们还使得用您的企业数据库和应用程序中的数据,以及任何数据库中的数据进行落地变得容易。一旦您选择了合适的模型,调整好并与您的企业真实数据连接后,Vertex的MLOps可以帮助您管理和监控模型。 使用谷歌搜索的RAG实现是一个明显的胜利,与ChatGPT集成Bing(或Microsoft Copilot in Bing)相呼应:LLM在可能的情况下提供答案,并在网络上搜索它不知道的事物,这一功能特别有用,如果您正在寻找更多最新信息的话。然而,在将双子座与谷歌的BigQuery数据仓库和Looker商业智能平台集成的背景中,更令人印象深刻的落地展示如下: 在此演示中,工作人员收到特定产品即将售罄的警报;使用生成人工智能,工作人员可以查看销售趋势,找到类似型号,并为处理存货下降制定行动计划,以便交付给她的团队。 值得注意的不是演示的具体内容(这是专门为Cymbal,谷歌的演示品牌,虚构的);而是LLM的角色:它不提供信息或采取特定行动,而是作为一个更易于访问的自然语言界面来呈现和收集数据,这些数据否则将需要更多的专业知识和时间。换句话说,它是可靠的,因为它通过谷歌承诺与其其他企业数据服务的集成进行了落地。 双子座1.5 与此同时,最后一部分实际上并没有从导言中继续下去:是的,那些利用谷歌或BigQuery的LLM在谷歌的基础设施上运行,但其他公司或创业公司也可以构建类似的东西。这是皮查伊导言的其余部分的来源: 我们还在继续构建能够让搜索、地图和Android等产品更加有用的强大人工智能模型。12月,我们迈出了下一个重大步骤,推出了我们迄今为止最大、最强大的模型——双子座。我们一直在通过我们的API将其引入我们的产品以及企业和开发者中。我们已经推出了下一代双子座1.5 Pro。它已在Vertex AI中进行了私密预览。1.5 Pro表现出戏剧性的性能提升,并包含了长文本理解的突破。这意味着它可以一致地处理100万个信息标记,为企业开辟了使用人工智能创造、发现和构建的新可能性。双子座还具有多模态能力,可以处理音频、视频、文本、代码等更多内容。借助这两项进步,企业今天能够做到之前使用人工智能无法实现的事情。 谷歌尚未透露双子座1.5是如何制造的,但显然该公司已经克服了传统变压器的主要局限性:随着上下文长度的增加,内存要求会呈二次方增长。一种有前景的方法是环形注意力与块状变压器,它将长上下文分解为可以单独计算的片段,即使这些设备在计算这些片段的同时进行通信,也能使上下文整体有意义;在这种情况下,内存要求与上下文长度线性扩展,只需在环形拓扑中简单增加更多设备即可。 这就是谷歌基础设施的用武之地:该公司不仅拥有庞大的TPU车队,还一直在开发这些TPU在从芯片到集群甚至数据中心的每个层面上并行运行(后者对于训练比推断更为重要);如果有需要规模的解决方案,谷歌 是提供这种解决方案的最佳选手,似乎公司正是通过双子座1.5做到了这一点。 演示 为此,根据皮查伊的结束语,主题演讲中的几乎所有其他演示都在暗中利用双子座1.5的上下文窗口。在一个双子座工作区演示中,工作人员评估了两份工作声明,并与公司的合规文档进行了比较: 这里是关键引述: 谷歌驱动器准备就绪,无需任何额外的人工智能预处理工作… 这些文档每份超过70页。我本来需要花几个小时来审查这些文件,但双子座将帮助我找到一个清晰的答案,为我节省大量时间… 在我继续与这个供应商合作之前,我需要确保不存在合规问题,我将坦率地说,我并没有记住我们合规规则书中的每一条规则,因为它有超过100页。我将不得不仔细查看这个提议的80页并手动与100页的规则书进行比较。所以,我在侧边栏中问:“这个报价是否符合以下条件”,然后我只需@提及我们的合规规则书,按Enter键,看看双子座有什么要说的。挺有趣的:双子座发现了一个问题,因为供应商没有列出他们的安全认证。因为双子座在我公司的数据中进行了落地,有对特定文件的来源引用,我可以信任这个回应并在选择供应商之前开始解决问题。这个演示与上一个演示的关键区别在于开头的引述:一个大的上下文窗口在更多的使用场景中起作用,而不需要任何繁琐的RAG实现或特别连接到外部数据存储;只需上传您需要分析的文件,然后开始。在一个创意代理与Imagen演示中,工作人员正在寻求为一个户外产品创建营销图片和故事板: 这里是关键引述: 创意代理可以分析我们之前的活动,了解我们独特的品牌风格,并将其应用到新的创意中。在这种情况下,创意代理分析了我们目录中的超过3,000张品牌图片、描述、视频和其他产品的文档,这些都包含在谷歌驱动器中,以创建这个摘要…创意代理能够使用双子座Pro的100万标记上下文窗口及其跨文本、图片和视频的推理能力来生成这个摘要。 公平地说,这是一个较弱的演示:品牌摘要和营销活动并不那么令人印象深刻,而且使用合成声音创建播客的想法技术上令人印象深刻,但也是从未有人会去听的东西。然而,这本身就是令人印象深刻的:正如我在双子座1.5首次宣布时的更新中所说,“一个大得多的上下文窗口使做傻事成为可能”,而傻事往往会转变为严肃的能力。 在一个双子座代码助手演示中(以前称为开发者的Duet AI),一位新工作的开发者被安排修改网站主页: 对于那些在外面的开发者,你们知道这意味着我们需要在主页中添加填充,修改一些视图,确保我们的微服务配置已更改,通常,即使只是熟悉我们公司拥有超过100,000行代码的11个服务的代码库也需要我一两周的时间。但现在,有了双子座代码助手,作为团队中的新工程师,我可以比以往任何时候都更高效,并可以在几分钟内完成所有这些工作。这是因为双子座的代码转换具有完整的代码库意识,使我们能够轻松地推理整个代码库,而其他模型则无法处理超过12,000到15,000行代码。双子座与代码助手如此智能,我们只需给它我们的业务要求,包括视觉设计…双子座代码助手不仅建议代码编辑;它提供清晰的建议,并确保所有这些建议与[公司的]安全和合规要求保持一致… 结论 让我们回顾一下:在幕后,双子座已分析了我整个代码库在GitLab中;它已实现了一个新功能;并确保生成的所有代码都与我公司的标准和要求兼容。再次说明,撇开这个演示的不切实际性不谈:关键的收获是当模型能够在处理问题时拥有围绕问题的所有上下文时解锁的能力;这只能通过——在这里名称是恰当的——一个长上下文窗口来实现,而这最终是由谷歌的基础设施使能的。 谷歌的本质 如果还不清楚,我认为这次主题演讲是谷歌在人工智能时代迄今为止最令人印象深刻的表现,尤其是因为该公司清楚地知道自己的优势在哪里。几年前我写了一篇名为《微软的垄断宿醉》的文章,讨论了该公司当时正在从Windows作为其战略中心的过渡;核心论点是与路·格斯特纳在1990年代转变IBM的比较。 垄断的好处是公司可以做任何事情,因为没有竞争;坏处是当垄断结束时,公司仍能以平庸的水平做任何事情,但不能在任何一项上做到最好,因为它已变得庞大而懒惰。换句话说,对于一个前垄断者来说,“大”是唯一真正有区别的资产。 我的论点是,商业模型可以改变:IBM做到了,当我写这篇文章时,微软也在这样做。此外,格斯特纳已经表明文化也可以改变,纳德拉在微软也正是这样做的。但是不能改变的是本质:IBM是一个依赖广度而非专业化的公司;这就是为什么格斯特纳正确地没有拆分公司,而是选择向企业提供互联网解决方案。同样,微软是一个围绕Windows集成的公司;公司转向以Teams为中心的云服务也忠实于公司的本质。 谷歌面临许多相同的挑战,经过其长期统治开放网络的几十年:昨天展示的所有产品都依赖于与广告不同的商业模型,要正确执行并交付这些产品将需要文化上的转变,以支持而不是容忍客户。但是没有改变的—— 因为这是公司的本质,因此不能改变——是依赖规模和压倒性基础设施优势。这比任何事情都更定义了谷歌,看到公司如此明确地将这作为一个优势是令人鼓舞的。
谷歌全新发布:Gemini 1.5 Pro,AI领域的一次跨界革新
最近,谷歌推出了Gemini 1.5 Pro (Gemini – Google DeepMind),这是一款功能强大的AI工具,具备了先进的音频理解能力、几乎无限的文件处理能力,以及扩展到100万的上下文窗口。 这次更新中值得注意的是,Gemini 1.5 Pro新增了原生音频理解功能和一个新的文件API,极大地简化了文件管理。此外,更新还引入了系统指令和JSON模式,允许用户对模型输出进行更精确的控制,并推出了一种新的文本嵌入模型,其性能优于现有模型。 Gemini 1.5 Pro现在支持音频和视频输入,使得它可以应用于例如将讲座录音转换成带答案的测验(如下面的示例所示)。 只需上传一段讲座录音,比如Jeff Dean的超过117,000个令牌的讲座,Gemini 1.5 Pro就可以将其转换成一份带答案的测验。 此次更新还满足了开发者的顶级请求,包括用于指导模型响应的系统指令、用于结构化数据提取的JSON模式,以及用于提高输出可靠性的增强功能调用模式。 开发者现在可以访问新的文本嵌入模型,即text-embedding-004,该模型在MTEB基准测试中的表现超过了可比模型,提供了更强的检索性能。这些增强功能是谷歌持续努力的一部分,旨在使Google AI Studio和Gemini API成为使用Gemini构建应用的最佳工具。谷歌鼓励开发者访问Google AI Studio,探索Gemini API Cookbook,并在Discord上加入社区讨论。