Primate Labs正式发布了Geekbench AI,这是一款专为机器学习和AI工作负载设计的基准测试工具。https://www.geekbench.com/ai/download/ Geekbench AI 1.0的发布标志着多年研发工作的成果落地,这一过程还得益于客户、合作伙伴以及AI工程社区的共同努力。在预览阶段,这款工具被称为Geekbench ML,现在更名为Geekbench AI,以符合行业术语并确保用途明确。 Geekbench AI现已在Primate Labs官网上线,支持Windows、macOS和Linux系统。同时,移动端用户也可以在Google Play和苹果App Store下载使用。 Primate Labs推出的这款基准测试工具,旨在为不同平台和架构的AI能力提供统一的评估标准。与传统方法不同的是,Geekbench AI采用了独特的三分评分体系,反映了AI工作负载的复杂性和异质性。 Primate Labs表示:“衡量性能并不简单,这并不是因为运行测试困难,而是因为很难确定哪些测试对性能评估最为重要,尤其是在不同平台之间,且每个平台的实现方式略有不同。” 三分评分体系考虑了现代AI实现中不同精度级别和硬件优化的差异性。这种多维度的评估方式,使开发者、硬件供应商和技术爱好者能更深入了解设备在不同场景下的AI表现。 Geekbench AI的一个显著新增功能是每项测试的准确性测量,这表明AI性能不仅仅关乎速度,还与结果质量密切相关。通过结合速度和准确性指标,Geekbench AI提供了更加全面的AI能力评估,帮助用户理解性能与精度之间的权衡。 Geekbench AI 1.0支持多种AI框架,包括Linux和Windows上的OpenVINO,以及安卓系统上的特定厂商TensorFlow Lite扩展,如三星ENN、ArmNN和高通QNN。广泛的框架支持确保了基准测试反映了AI开发者使用的最新工具和方法。 这款工具还使用了更广泛且多样化的数据集,不仅提升了准确性评估,还更好地代表了现实世界中的AI使用场景。Geekbench AI 1.0中的所有工作负载运行时间至少为一秒,以确保设备在测试过程中达到最大性能,同时仍然能够反映出现实应用中突发性运算的特点。 Primate Labs还发布了详细的技术说明,介绍了Geekbench AI 1.0中使用的工作负载和模型,强调了其对透明度和行业标准测试方法的承诺。该基准测试工具与Geekbench Browser集成,方便跨平台比较和结果分享。 公司预计将定期更新Geekbench AI,以跟上市场变化和新兴AI功能的发展。然而,Primate Labs相信,Geekbench AI已经达到了足够的可靠性,可以集成到专业工作流程中。包括三星和英伟达在内的主要科技公司已经开始使用这款基准测试工具。
通过剪枝与知识蒸馏优化大型语言模型:NVIDIA在Llama 3.1模型上的实践与创新
大型语言模型现在在自然语言处理和理解领域占据了主导地位,凭借其高效性和多功能性脱颖而出。像Llama 3.1 405B和NVIDIA Nemotron-4 340B这样的大型语言模型在许多具有挑战性的任务中表现出色,包括编程、推理和数学。然而,这些模型的部署需要大量资源。因此,业界也在兴起另一种趋势,即开发小型语言模型。这些小型语言模型在许多语言任务中同样表现出色,但部署成本更低,更适合大规模应用。 最近,NVIDIA的研究人员表明,结合结构化权重剪枝和知识蒸馏是一种从大型模型逐渐获得小型模型的有效策略。NVIDIA Minitron 8B和4B就是通过剪枝和蒸馏其15B的“大型兄弟”NVIDIA Nemotron系列模型而得来的。 剪枝和蒸馏带来了多种好处: 该论文还提出了一套实用且有效的结构化压缩最佳实践,这些实践结合了深度、宽度、注意力和多层感知器剪枝,并通过基于知识蒸馏的再训练实现。 NVIDIA首先讨论这些最佳实践,然后展示它们在Llama 3.1 8B模型上的应用效果,得出Llama-3.1-Minitron 4B模型。Llama-3.1-Minitron 4B在与同类大小的开源模型(包括Minitron 4B、Phi-2 2.7B、Gemma2 2.6B和Qwen2-1.5B)的对比中表现优异。Llama-3.1-Minitron 4B即将发布到NVIDIA HuggingFace集合中,等待审批。 剪枝与蒸馏剪枝是使模型变得更小、更精简的过程,方法包括丢弃层或丢弃神经元、注意力头和嵌入通道。剪枝通常伴随一定量的再训练以恢复准确性。 模型蒸馏是一种技术,用于将大型复杂模型中的知识转移到较小、较简单的学生模型中。其目标是在保持原始大型模型大部分预测能力的同时,创建一个运行速度更快、资源消耗更少的高效模型。 经典知识蒸馏与SDG微调蒸馏主要有两种方式: 这两种蒸馏方式是互补的,而非互斥的。NVIDIA主要关注经典知识蒸馏方法。 剪枝与蒸馏过程NVIDIA提出了一种结合剪枝与经典知识蒸馏的资源高效再训练技术。 NVIDIA从一个15B的模型开始,评估每个组件的重要性(层、神经元、注意力头和嵌入通道),然后将模型修剪到目标大小:8B模型。NVIDIA使用教师模型作为学生模型的教师,通过模型蒸馏执行轻量再训练过程。训练完成后,小型模型(8B)作为起点进一步修剪和蒸馏到更小的4B模型。图1显示了逐步剪枝和蒸馏模型的过程,从15B到8B,再从8B到4B。 重要性分析要对模型进行剪枝,关键是要了解模型的哪些部分是重要的。NVIDIA建议使用一种基于激活的纯粹重要性估算策略,该策略通过使用小型校准数据集和仅前向传播计算,同时计算所有考虑轴(深度、神经元、头和嵌入通道)的敏感度信息。与依赖梯度信息且需要后向传播的策略相比,这种策略更加简单且具成本效益。 虽然可以针对给定的轴或轴的组合在剪枝和重要性估算之间反复交替进行,但NVIDIA的实验证明,使用单次重要性估算已经足够,迭代估算并没有带来任何好处。 经典知识蒸馏再训练图2展示了学生模型从教师模型蒸馏的过程。学生通过最小化嵌入输出损失、logit损失和变压器编码器特定损失的组合进行学习,这些损失映射在学生模型的S块和教师模型的T块之间。 剪枝与蒸馏最佳实践基于在《通过剪枝和知识蒸馏压缩语言模型》中进行的广泛消融研究,NVIDIA总结了几个结构化压缩的最佳实践: 尺寸: 剪枝: 再训练: Llama-3.1-Minitron:实践最佳实践Meta最近推出了功能强大的Llama 3.1模型系列,这是首批在许多基准测试中可与闭源模型相媲美的开源模型。Llama 3.1的规模从巨大的405B模型到70B和8B不等。 NVIDIA借鉴了Nemotron蒸馏的经验,开始将Llama 3.1 8B模型蒸馏为更小、更高效的4B模型: 教师微调为了纠正模型在原始数据集上的分布偏移,NVIDIA首先在数据集上对未剪枝的8B模型进行了微调。实验表明,如果不纠正分布偏移,教师模型在蒸馏过程中对数据集的指导效果会欠佳。 仅深度剪枝为了将模型从8B缩减到4B,NVIDIA剪去了16层。通过移除模型中的某些层,观察语言模型损失或在下游任务中的准确性降低,来评估每一层或连续层组的重要性。 图5显示了在验证集上移除1层、2层、8层或16层后的语言模型损失值。NVIDIA发现,模型开头和结尾的层最为重要。 然而,NVIDIA注意到语言模型损失与下游性能之间并不直接相关。图6展示了每个剪枝模型在Winogrande任务上的准确性,表明移除16到31层(即倒数第二层)效果最佳。NVIDIA据此洞见,移除了16到31层。 仅宽度剪枝NVIDIA通过宽度剪枝压缩了Llama 3.1 8B模型,主要剪掉了嵌入和MLP中间维度。具体而言,NVIDIA使用前面提到的基于激活的策略,计算每个注意力头、嵌入通道和MLP隐藏维度的重要性分数。随后: 6剪至3072。 值得注意的是,宽度剪枝后的一次性剪枝的语言模型损失高于深度剪枝,但经过短暂的再训练后,趋势发生了逆转。 准确性基准测试NVIDIA在以下参数下对模型进行了蒸馏: 表1展示了Llama-3.1-Minitron 4B模型(宽度剪枝和深度剪枝变体)与原始Llama 3.1 8B模型及其他类似大小模型在多个领域基准测试中的比较结果。整体上,NVIDIA再次确认宽度剪枝策略相比深度剪枝的有效性,这符合最佳实践。 性能基准测试NVIDIA使用NVIDIA…
Google前CEO的AI预言:未来两年将让你震惊
AI的颠覆性未来:从Eric Schmidt的角度看 前谷歌CEO埃里克·施密特(Eric Schmidt)在斯坦福大学的一次小型讨论会上透露了他对人工智能未来的最新看法,揭示了AI技术快速变化的内在不确定性、速度和规模。这次讨论由施密特的好友、斯坦福经济学教授埃里克·布林约尔夫森(Erik Brynjolfsson)主持,吸引了众多思想深刻的讨论者。以下是一些值得注意的要点。 前所未有的不确定性 施密特承认,他每六个月就会修正自己对人工智能的看法,这显示了这个领域的高度不确定性。他曾在六个月前相信小型模型有机会推动AI前沿技术发展,但如今他已改变看法。他曾大力投资一些小型AI公司,如Mistal、Kyutai和Asari,如今他对这些投资是否明智产生了疑问。 这一转变反映了人工智能领域的动荡,即使像施密特这样熟悉行业动态的专家,也难以准确预见未来的趋势。仅仅六个月时间,他的观点就发生了180度大转弯,这足以说明AI领域的不确定性。 前所未有的速度 施密特描述了一种强大的技术组合,包括大上下文窗口、能够自我学习和改进的AI代理,以及从文本到动作的转换能力。他认为这些技术的影响将超出人们的想象,甚至比社交媒体带来的冲击更为巨大。 如今,AI模型已经能够处理大量上下文信息,未来的模型将会更加强大。例如,施密特提到的Claude模型已经可以在工作记忆中处理200k个令牌(大约15万字)。随着这些技术的不断进步,未来两年的发展速度和变革程度可能会超越过去两年。 前所未有的颠覆 施密特的一个极具挑衅性的例子展示了这些趋势的结合可能带来的影响。他设想一个场景,用户可以对大型语言模型(LLM)说:“给我制作一个TikTok的复制品,吸引所有用户,盗取所有音乐,按我的喜好定制这个程序,在30秒内发布,如果一小时内没有火起来,就换个类似的方式再试一次。” 虽然这种情景看起来像科幻,但它体现了AI技术在数字和物理产品迭代方面的潜力。施密特的这一例子显示了LLM的未来应用可能带来的巨大经济价值。 前所未有的规模 施密特还谈到了AI发展的投资规模。他指出,领先公司正在讨论的资金需求从100亿到3000亿美元不等。这不仅仅是资金问题,还涉及巨大的能源需求,甚至可能重塑地缘政治格局。施密特坦言,“我们国家没有足够的能源来支持这一发展。” 在迷雾中前行 尽管施密特所讨论的内容并不全是新鲜话题,例如关于上下文窗口的扩展、变化速度和规模挑战等问题已经讨论多年,但这次在斯坦福的小型课堂上,他在较少过滤的情况下分享了自己对AI的真实看法。这些观点不依赖于任何科学突破或人工通用智能(AGI)的到来,而是基于他对未来的实际判断。 施密特的观点提醒我们,AI领域的变化速度之快,以至于连行业的资深人士也难以跟上。这些即将到来的技术发展已经开始影响未来的规划,因此,我们是否已经做好了应对这些变化的准备?
Snowflake与Databricks:科技巨头之间的激烈竞争
Snowflake公司一直在寻找收购机会,其中一家初创公司Tabular看起来是一项极具潜力的资产,能够帮助这家软件公司在人工智能领域追赶竞争对手。Snowflake为此展开了独家谈判,拟以超过6亿美元的价格收购该公司。 然而,Snowflake的主要竞争对手Databricks突然介入,最终以近20亿美元的价格收购了Tabular。据知情人士透露,这个价格对于一家年收入仅约100万美元的初创公司来说是前所未有的。更令Snowflake尴尬的是,这笔交易恰巧在Snowflake年度大会的开幕主题演讲前宣布,新任CEO斯里达尔·拉马斯瓦米(Sridhar Ramaswamy)的演讲还没开始,Tabular的交易新闻就已经传遍了整个行业。 这场围绕Tabular的争夺战,揭示了科技行业中最激烈的竞争之一。Snowflake和Databricks正在争夺成为组织、分析和利用海量数据以支持AI应用的核心平台的地位。超过四十多名软件供应商的现任或前任员工、客户或合作伙伴参与了这篇报道,他们中的大多数人选择匿名,以避免在这个充满竞争的环境中遭受职业报复。这些员工还描述了一个日益增长的共识,即大型云基础设施提供商,尤其是微软公司,正对他们的业务构成最大威胁。 两家公司都成立于2010年代初期,最初在数据软件领域有各自的细分市场。它们曾相互推荐业务,甚至Databricks的营销团队也使用Snowflake进行数据分析。 但近年来,随着两家公司推出了重叠的产品,这种合作关系开始破裂。Snowflake发展迅速,并在2021年完成了有史以来规模最大的企业软件首次公开募股(IPO)。而如今,Databricks则成为全球估值最高的初创公司之一,市场对其IPO的期待也日益高涨。 曾被视为“小兄弟”的Databricks,现在通过积极的市场营销和销售策略,扮演了公开挑战者的角色。据多位知情人士透露,Databricks内部有一个名为“SnowMelt”的计划,旨在从Snowflake手中夺取业务,尤其是在数据仓库领域。销售人员还能通过将Snowflake客户迁移到Databricks的竞争服务上获得奖金。此外,Databricks的销售人员有时还会为潜在客户提供抵消Snowflake合同费用的积分,或者以大幅折扣争取客户。 Databricks的典型宣传是其平台不仅功能更全面,还能为企业节省更多成本,尤其是在处理复杂的非结构化数据时,Databricks在构建AI模型方面更有优势。销售团队会使用一款程序来估算客户从Snowflake迁移到Databricks后能够节省的金额。 Snowflake方面则声称自己的产品更便宜。“关于成本的说法让我抓狂,”Snowflake的产品负责人Christian Kleinerman在接受采访时表示。“我告诉客户,试试就知道了,去跑个代表性的基准测试。” Databricks的宣传通过广告广为传播。当参加Snowflake 2023年用户大会的与会者抵达拉斯维加斯时,机场和会场外的广告牌上都写着Databricks的产品比Snowflake便宜九倍。 Databricks的CEO阿里·戈德西(Ali Ghodsi)以言辞激烈的媒体采访和在LinkedIn上发布迁移案例或有利的基准测试结果而闻名。员工们回忆说,他们曾被要求在自己的社交媒体账户上点赞或分享这些帖子。 戈德西在采访中表示,挑战Snowflake帮助提高了Databricks的知名度。“两三年前,选择Snowflake作为数据仓库并不会让人丢掉工作——但我认为现在不再如此。”他说,现在他已经不再专注于将员工的注意力放在Snowflake身上,而是转向推广AI和数据治理等新产品。 尽管很难确定Databricks的成功是否归因于其激进的风格,但无论如何,Databricks的确发展迅速。根据今年6月的投资者演示,其收入增长正在加速。预计到7月,其年化经常性收入将达到24亿美元,其中与Snowflake直接竞争的新仓储产品贡献了超过4亿美元的收入。 Snowflake也没有忽视竞争。公司在过去12个月中报告了30亿美元的年销售额,但其增长速度仅为Databricks的一半左右。Snowflake的首席财务官Mike Scarpelli在采访中表示,公司盈利能力更强。“现实情况是,我们在盈利,而他们在烧钱。他们还能坚持多久?” 无论是Snowflake还是Databricks,都可以用来处理和分析大量数据。例如,一家航空公司可以使用这些工具来分析哪些乘客最有可能根据票价、目的地和天气情况取消航班。这个市场正在快速增长,且并非零和博弈——许多公司同时使用Databricks和Snowflake来处理不同类型的工作,而根据市场研究公司Enterprise Technology Research的数据,仍有无数公司在使用传统工具,这些公司都是这些平台的潜在客户。 今年7月,ETR对同时使用这两款软件的公司进行了调查,结果显示,更多的客户正在将工作负载转移到Databricks上,但绝大多数客户表示他们会继续使用两者。尽管如此,Databricks的首席营收官Ron Gabrisko表示,他预计从长远来看,客户将选择其中一个平台。 “我不知道他为什么如此痴迷于Snowflake,因为我并没有痴迷于Databricks。”Scarpelli在谈到戈德西时说道。 Snowflake作为更成熟的软件供应商,收入更高,言辞上却没有那么激烈。但它也自豪地宣称自己挖走了Databricks的客户,并推出了与Databricks竞争的产品,例如用于数据工程和机器学习的工具。“SparkAttack”是公司内部的一项计划,旨在从Databricks手中夺取机器学习工作流,这个名字则源于戈德西和其他Databricks高管团队创造的“Spark”技术。 Scarpelli还补充道:“他们展示了这些客户——实际上,这些客户几乎都是Snowflake的核心数据仓库客户,并且业务还在我们这里不断增长。”他还指出,“作为一家私营公司,他们可以随便说自己想说的话。” Snowflake的产品主管Kleinerman表示,Databricks的负面营销提出了诸如成本和产品广度等方面的主张,但这些主张在近年来并不准确。他指出,Snowflake在机器学习、非结构化数据和成本管理等产品领域取得了巨大的进展。 Snowflake主打的卖点之一是易用性,尤其是在公司之间共享数据方面。销售人员经常将该平台比作易于操作的iPhone,而Databricks则被比作高度可定制但有时容易出错的Android系统。两家公司都根据客户的使用量收费,类似于公用事业账单的模式,而不是应用软件中常见的固定费率订阅模式。提供计算能力和存储的云公司,如亚马逊的AWS,也采用这种收费方式。 总部位于加拿大的客户体验公司Bond Brand Loyalty通过将大部分数据工作标准化为Snowflake节省了成本并提高了性能。该公司数据部门负责人Francis Silva表示,由于技术要求较低的用户能够使用Snowflake,而他们无法轻松使用Databricks,这带来了明显的优势。 然而,Snowflake一直处于防守状态。由于华尔街担忧客户削减软件支出,这影响了公司的销售增长,其股价今年下跌了36%。最近,一场针对没有启用多因素身份验证的客户的黑客攻击活动引发了大量负面报道。 拉马斯瓦米,这位前谷歌广告业务负责人于今年2月接任Snowflake CEO,专注于推出新产品。Snowflake的首席财务官Scarpelli表示:“他的到来给公司带来了更多的活力——更强的紧迫感。” 拉马斯瓦米最初是通过2023年Snowflake收购的AI搜索初创公司Neeva加入公司的。据知情人士透露,当时Databricks也曾参与了Neeva的竞购。当拉马斯瓦米成为CEO时,Databricks的戈德西曾在接受彭博电视采访时表示,这与他们施加的压力有关。“我认为我们给了他们很大的压力,”戈德西说道。“Snowflake基本上没有在做任何与AI相关的工作。” 尽管这种竞争引发了人们对早期科技巨头之争的联想,但每家公司面临的最大竞争风险可能来自大型云服务提供商——微软、亚马逊和谷歌。这些巨头已经是数据计算基础层的必需品,如今他们正在改善自己的数据产品,具备了捆绑不同工具并可能以更低价格击败较小供应商的能力。 “我们现在看到的最大竞争对手实际上是谷歌的BigQuery,”Snowflake的Scarpelli说道,并指出微软也是一个正在崛起的威胁。 在Databricks内部,合作竞争的概念越来越常见。该公司与微软的长期合作关系依然紧密——由于通过Azure云服务销售的联合服务,Databricks的大量业务来自于使用微软云基础设施的客户。据知情人士透露,2017年底,微软曾与Databricks讨论过收购事宜。 微软一直在投资其竞争性的数据分析服务,并在去年将其重新命名为“Fabric”。这款软件与Power BI一起销售,后者是许多Databricks和Snowflake客户常用的数据可视化工具。作为全球最大的软件制造商,微软在今年7月的文件中首次将Databricks列为竞争对手。 Databricks产品高级副总裁Adam Conway谈到微软的Fabric时表示:“这是一款相对较新的产品。公开场合我就说到这里。”他还补充道:“我不担心其他公司会在创新方面超越我们。” 尽管合作关系仍然是官方立场,但Databricks似乎正在对微软采取更强硬的态度。今年早些时候,Databricks推出了自己的可视化工具,与Power BI直接竞争。一些销售人员还收到了新的反Fabric的宣传指导,而其他人则在研究类似“SnowMelt”的Fabric竞争代号。正如Databricks员工曾在社交媒体上对Snowflake发起攻击,他们现在也开始对微软发起攻势。上个月,一位主管在LinkedIn上发布了一篇关于Fabric的帖子,类似于过去经典的反Snowflake策略。 一名Databricks员工在LinkedIn上写道:“公告:如果你或你认识的人正在考虑使用Fabric作为数据平台或构建生成式AI应用程序,请务必仔细阅读条款,否则你可能会在某些工作负载上支付三倍的费用。”
前谷歌CEO埃里克·施密特的“急转弯”
前谷歌CEO埃里克·施密特(Eric Schmidt)近日因批评谷歌优先考虑“居家办公”而非击败竞争对手(如OpenAI)而登上头条,并在斯坦福大学的一次视频采访中告诉学生们,AI初创公司可以盗取知识产权,之后只需雇律师处理法律纠纷。如今,他已收回其中一个爆炸性言论。 尽管施密特因抨击谷歌的“有害”居家办公政策而受到广泛批评,但此前也有多位行业领袖表示同意他的看法。例如,OpenAI的CEO山姆·奥特曼(Sam Altman)曾认为该行业犯的“最大错误之一”是允许员工“永久远程办公”,Meta的CEO马克·扎克伯格(Mark Zuckerberg)也表示“居家办公的人效率不高”,而特斯拉的CEO埃隆·马斯克(Elon Musk)则称远程办公“在道德上是错误的”。
X平台的新AI图像生成器几乎可以生成任何内容
xAI的Grok聊天机器人现在允许用户通过文本提示生成图像并发布到X平台上。然而,这次的功能发布似乎像埃隆·马斯克的社交网络上发生的其他事件一样,充满了混乱。 X Premium订阅用户已经开始上传各种生成的图像,其中包括奥巴马吸毒、特朗普与一名怀孕女性(大致看起来像卡玛拉·哈里斯)合影,以及特朗普和哈里斯举枪的场景。随着美国大选的临近,加上X已经在欧洲面临监管机构的审查,Grok的生成式AI功能可能会引发新的争议。 虽然Grok声称有保护措施,比如避免生成暴力、仇恨或侵犯版权的图像,但这些“规定”似乎并非严格执行。多次询问Grok的限制,会得到不同的回答,有时会提到“文化敏感性”之类的限制,显得相当不一致。xAI尚未回应关于这些防护措施是否真实存在的置评请求。 尽管Grok在文本生成中会拒绝涉及非法行为的请求,例如教你如何制造毒品,但在图像生成中,一些在其他平台上会被立刻封锁的提示却能通过。比如,“特朗普穿纳粹制服”的提示会生成一个穿着深色制服的特朗普图像。 用户发现,即使Grok拒绝某些请求,也能轻易找到漏洞绕过其限制。这种松散的保护措施可能会导致生成暴力或色情内容,甚至可能涉及更严重的违法内容,而马斯克对这些问题似乎并不在意,反而认为这些功能让人“尽情娱乐”。 与之对比,OpenAI和其他公司对于生成内容有更严格的限制,并且通常会在图像中添加水印,防止误用。然而,Grok的松散规定与马斯克对标准AI和社交媒体安全规范的蔑视相吻合,但在X平台已经因内容审核问题受到监管调查的背景下,这种开放的AI生成器可能会让平台面临更多的审查和风险。 欧洲委员会和英国监管机构已经在调查X是否违反了数字安全法规,美国立法者也在寻求对AI生成的虚假信息和深度伪造内容进行监管。因此,Grok的宽松管控不仅可能影响高端用户和广告商,还可能为X平台带来新的法律挑战。
谷歌在Pixel 9发布会上带来了诸多令人期待的新产品和功能,涵盖手机、手表、耳机
谷歌刚刚结束了其“Made by Google”硬件发布会,正式发布了全新的Pixel 9系列,并对其他设备进行了更新。尽管这次Pixel发布会证实了过去几周的许多传闻,但谷歌还是带来了一些全新的惊喜。 Google Pixel 9系列:新增一个Pro版本供选择 Pixel 9系列终于揭开了面纱,包括三款标准手机和一款折叠手机。常规系列包括一款6.3英寸屏幕的基础款Pixel 9、一款6.8英寸屏幕的Pixel 9 Pro XL,以及一个新的更小的Pixel 9 Pro选项,屏幕为6.3英寸。这三款设备都采用了重新设计的椭圆形摄像头模块,搭载谷歌最新的G4 Tensor芯片,电池续航提升,并增加了新的卫星SOS功能。 Pixel 9的起售价为799美元,比去年的型号贵了100美元;Pixel 9 Pro起价999美元,Pixel 9 Pro XL的起价则为1099美元以上。Pixel 9和Pixel 9 Pro XL将于8月22日开始发货,而更小的Pixel 9 Pro将在9月上市。 Pixel 9 Pro Fold:更大的屏幕和更纤薄的机身 除了三款标准Pixel设备,谷歌还展示了Pixel 9 Pro Fold。相比前代,这款折叠手机更高更薄,外部显示屏为6.3英寸,内部展开后则达到了8英寸。 Pixel 9 Pro Fold还搭载了G4 Tensor芯片,内部显示屏的峰值亮度提升至2700尼特,比原始Pixel Fold的1450尼特高出许多。Pixel 9 Pro Fold的售价为1799美元,预计将于9月4日开始发货。 AI功能多多 Pixel 9系列还配备了谷歌的Gemini AI助手,用户可以用它在应用中查找信息或查询刚拍摄的照片。此外,Pixel 9系列还推出了两款新的AI应用程序:“Pixel Screenshots”利用设备上的AI在保存的截图中搜索信息,而“Pixel Studio”则是一款文本生成图像的应用。 为了配合Pixel 9系列升级的摄像头,谷歌还增加了一些AI图像编辑工具,例如“Add…
Grok-2的Beta版发布
Grok-2是目前最前沿的语言模型,具备顶尖的推理能力。这次发布包含了Grok家族的两名成员:Grok-2和Grok-2 mini。现在,这两款模型已经在𝕏平台上开放给Grok用户。 此次推出的Grok-2是对之前Grok-1.5的重大升级,展现了在聊天、编程和推理方面的前沿能力。同时,Grok-2 mini作为Grok-2的小型但功能强大的兄弟也一同亮相。Grok-2的早期版本已经以“sus-column-r”的名义在LMSYS排行榜上进行了测试,目前表现优于Claude 3.5 Sonnet和GPT-4-Turbo。 Grok-2和Grok-2 mini目前处于𝕏平台上的Beta测试阶段,并将在本月晚些时候通过企业API向更多用户开放。 Grok-2的语言模型和聊天能力 Grok-2的早期版本以“sus-column-r”的名字进入了LMSYS聊天机器人竞技场,这是一个受欢迎的语言模型基准测试平台。Grok-2在LMSYS排行榜上的Elo评分超越了Claude和GPT-4。 在内部测试中,AI导师与模型进行互动,评估模型在指令执行和信息准确性方面的表现。Grok-2在处理检索内容的推理能力和工具使用方面,表现出显著的进步,能够更好地识别缺失信息、推理事件顺序并排除无关内容。 基准测试 Grok-2在多个学术基准测试中表现出色,包括推理、阅读理解、数学、科学和编程等领域。与之前的Grok-1.5相比,Grok-2和Grok-2 mini在这些测试中取得了显著提升,表现出与其他前沿模型相当的竞争力。在视觉数学推理(MathVista)和基于文档的问答(DocVQA)任务中,Grok-2的表现尤为突出,达到了业界最先进的水平。 在𝕏上体验实时信息的Grok 过去几个月中,Grok在𝕏平台上持续优化。如今,推出了新一代的Grok体验,带来了重新设计的界面和新功能。 𝕏 Premium和Premium+用户将能够使用两款新模型:Grok-2和Grok-2 mini。Grok-2是最先进的AI助手,具有强大的文本和视觉理解能力,能够集成𝕏平台的实时信息。Grok-2 mini则在速度和回答质量之间取得了平衡。与前代相比,Grok-2在各类任务中更加直观、易于操作,无论是寻求答案、协作写作,还是解决编程任务,都表现出色。与Black Forest Labs合作,Grok正在与他们的FLUX.1模型进行实验,扩展其在𝕏平台上的功能。如果是Premium或Premium+订阅者,请确保更新到𝕏应用的最新版本,以便参与Grok-2的Beta测试。 使用企业API构建Grok 本月晚些时候,Grok-2和Grok-2 mini还将通过新的企业API平台开放给开发者使用。新的API平台基于全新的技术架构,支持全球范围的低延迟多区域推理部署,提供了增强的安全功能,如强制多因素认证(如Yubikey、Apple TouchID或TOTP),丰富的流量统计数据,以及高级计费分析(包括详细的数据导出)。此外,还提供了管理API,允许团队、用户和计费管理集成到现有的内部工具和服务中。如果想要获得最新消息,可以订阅我们的新闻简报。 未来展望 Grok-2和Grok-2 mini正在𝕏平台上逐步推出,其应用范围包括增强的搜索功能、更深入的𝕏帖子见解和改进的回复功能,所有这些都由Grok驱动。即将发布的多模态理解功能预览也将成为Grok体验的一部分。 自2023年11月推出Grok-1以来,xAI团队以极高的速度推动着发展。通过引入Grok-2,xAI在AI开发领域占据了领先地位。未来几个月中,更多的进展将陆续公布。
谷歌发布会现场尴尬瞬间:AI助手Gemini展示挑战苹果
在谷歌周二发布Pixel手机的活动中,一位名叫David Citron的产品总监登台展示了公司新款AI助手Gemini的移动功能。尴尬的一幕发生在他对观众说完“顺便提一下,今天所有的演示都是现场的”之后。 在谷歌硅谷总部,面对一大群媒体和分析师以及约10万名YouTube观众,Citron拍了一张演唱会海报的照片,并请助手检查他的日历,看看他在流行歌手Sabrina Carpenter于旧金山演出的那晚是否有空。 结果演示失败了,助手冻结并显示错误信息。Citron再次尝试,结果依旧失败。经过简短的“祈祷”后,并更换了一部手机,第三次尝试终于成功了。 助手在Citron的屏幕上弹出了一条信息:“我发现Sabrina Carpenter将于2024年11月9日来旧金山演出。”并且还告诉他:“在此期间,您的日历上没有任何活动。” 尽管这一插曲短暂且有些小故障,但这个演示仍然突出展示了谷歌在人工智能功能逐渐深入智能手机软件领域中的优势。虽然其他竞争对手也在为AI未来做准备,但谷歌的Gemini功能已经成为现实,并且至少在测试阶段,已经可以使用了。 相比之下,苹果在今年6月通过预录视频而非现场演示展示了其助手Siri在新AI系统Apple Intelligence下即将实现的能力。Apple Intelligence目前还在开发者测试阶段,其中的一些关键改进,包括图像生成、与ChatGPT的集成,以及Siri的重大升级,仍未正式推出。 OpenAI作为生成式AI的先驱,虽然也经常公布AI的进展,但严格限制测试用户的数量。 谷歌设备主管Rick Osterloh在接受CNBC采访时表示,“如今,我们已经从只是展望未来的愿景,转变为实际推出产品。” 谷歌的现场演示标志着与去年年底的转变,当时公司试图展示Gemini,但由于视频编辑过度而遭受了广泛批评。 Osterloh进一步强调:“今天展示的内容将在未来几天或几周内实际推出,这是至关重要的。相比之下,其他公司宣布的很多东西,目前还没有广泛向用户开放。我们的产品很快就会让数百万人使用。” 苹果在6月的发布会后,与媒体和分析师进行了几次脚本化的现场测试,展示了Apple Intelligence在当前设备上的部分功能。7月,苹果向开发者发布了一些Apple Intelligence功能的预览版,包括生成摘要的能力,以及让整个iPhone屏幕发光的Siri新界面。然而,这些预览并不包括图像生成、与ChatGPT的集成以及Siri的自然任务执行等最受期待的改进。 谷歌此次的发布会可能会加大对苹果的压力,作为智能手机市场的两大领导者,它们正在竞相将AI整合到各自的操作系统中。IDC预测,具备生成式AI功能的智能手机——即配备了运行AI所需芯片和内存的手机——在2024年的销量将增长四倍,达到约2.34亿台。 “今天我们看到苹果所面临的竞争对手是什么样的,”eMarketer分析师Grace Harmon在接受采访时说道。 随着生成式AI进入手机市场,AI处理也将发生变化。过去由大型数据中心处理的复杂模型将被更简单的功能取代,如摘要生成或流畅性,这些功能主要在设备内部的芯片上运行。 在谷歌100分钟的发布会上,展示了几项目前其他地方还无法使用的功能。 Citron的演示例子——询问海报照片的内容——展示了一项称为“多模态AI”的技术进步,这是苹果尚未计划实现的功能。 谷歌还推出了一项功能,用户可以截取正在浏览的内容的屏幕截图,谷歌会将这些信息整理成可供日后快速搜索的笔记。 谷歌此次发布会的重头戏是其下一代助手Gemini Live。在演示中,该技术能够像人一样自然地聊天,添加购物清单或检查谷歌日历。谷歌高管们在台上表示,这些功能得益于“数十年的AI投资”和其“整合式AI战略”。 谷歌甚至在某种程度上对苹果发起了挑战。在一份新闻稿中,谷歌表示苹果即将与ChatGPT集成的方案不如谷歌私密,因为Gemini“不需要交由你可能不认识或不信任的第三方AI供应商处理。”
postgres.new:在浏览器中构建与AI协作的开源Postgres沙盒
介绍一个名为postgres.new (https://postgres.new/)的浏览器内Postgres沙盒,它配备了AI助手。通过postgres.new,用户可以即时启动无限数量的Postgres数据库,这些数据库直接在浏览器中运行(未来还可以部署到S3)。每个数据库都与一个大型语言模型(LLM)配对,这为一些有趣的使用场景打开了大门: 这一切都完全在本地浏览器中进行,类似于将Postgres和ChatGPT结合成一个界面。 几个有趣的用例: 工作原理 在postgres.new中的所有查询都直接在浏览器中运行,没有远程Postgres容器或WebSocket代理。这成为可能的关键在于PGlite,这是一个可以直接在浏览器中运行的Postgres的WASM版本。ElectricSQL的团队几个月前发布了PGlite,通过将真实的Postgres源代码编译为Web Assembly实现了这一点。 动机 Steve提到,他们在开发postgres.new时的几个目标: 功能及其工作原理 那么,用户在postgres.new中究竟可以做些什么?这些功能是如何实现的? 部署 Steve提到,团队预计将在本周末之前实现只读部署。这一点非常重要,因为在S3中托管一个PGLite数据库的成本非常低。 PGlite深度解析 Steve解释,PGlite是由ElectricSQL开发的,没有它,以上一切都不可能实现。PGlite是一个Postgres的WASM构建,打包成TypeScript/JavaScript客户端库。 即将推出 Steve表示,他们喜欢早期发布和频繁发布,因此还有许多功能在开发中,包括: