最近,马斯克又在聊天中透露了关于他的xAI语言模型Grok新版本——Grok 1.5的到来。这个即将推出的版本承诺带来一系列激动人心的新功能,其中包括一个能自动概括整个讨论串和回复的“格洛克分析”按钮,让把握复杂对话变得更加简单。此外,据报道Grok 1.5还将协助用户创建帖子,有望简化内容创作过程。 Grok 1.5的发布希望在几周内就能实现。它将带来一个“格洛克分析”的按钮,能够总结整个讨论串和回复。它还将帮助人们创建帖子。 这一消息发布仅几天后,谷歌就发布了其Gemini 1.5语言模型,这引发了人们对两大AI巨头之间潜在竞争的猜测。虽然每个模型的具体功能不同,但都旨在通过先进的语言处理能力增强用户体验。 Grok 1.5可能带来的潜在好处包括: X还在与Midjourney,一个AI生成艺术平台,讨论潜在的合作可能。
Adobe 最近拉了个大招,往它的 Acrobat 和 Reader 里植入了 AI 助手帮你读PDF
Adobe 最近出了个大动作,给它的 Acrobat 和 Reader 加入了全新的 AI 助手,这个助手能用对话 AI 的能力来帮助用户理解和总结全球企业和消费者使用的数以万亿计的 PDF 文件。这一举措显示了 Adobe 想要继续在它几十年前开创的 PDF 市场上保持领先地位,尤其是在像 OpenAI 和 Anthropic 这样的初创公司带来可能具有相同功能的新 AI 系统时。 这个还在测试阶段的 AI 助手,能让用户询问 PDF 内容的问题并获得总结性的回答。它还能基于从 PDF 中提取的信息生成格式化的文本,比如演示文稿和电子邮件。Adobe 的这项新功能利用了它的专有机器学习模型,这些模型能理解 PDF 的结构和内容,从而生成文档摘要、回答问题,甚至为电子邮件、报告和演示文稿格式化信息。 对于 Adobe 庞大的用户群来说,这意味着巨大的影响。AI 助手承诺将万亿份 PDF 文档转变为互动的、响应的知识源泉。它的能力包括推荐问题、创建生成性摘要,以及提供智能引用 —— 在一个越来越关注 AI 生成内容的来源和准确性的时代,这是一个关键功能。 Adobe 强调,AI 助手不会妥协客户数据,遵守严格的数据安全协议,并要求同意任何在 AI 训练中使用文档内容的用途。这种对隐私的承诺可能在数据敏感性仍然是首要关注点的企业领域中提供了竞争优势。将 AI 整合到文档管理中最终可能重新定义生产力,特别是对于那些经常需要处理长合同、报告和研究的知识工作者。 Adobe 通过将 AI 整合到其现有平台中,不仅提升了其产品,而且更深入地融入了个人和企业的工作流程。随着公司准备在测试期结束后通过附加订阅提供 AI 助手的全部功能范围,它准备推出一个可能设定新行业标准的强大工具。这一举措可能催生了一种新的文档消费和创建方式,进一步巩固了…
Meta 发布 MMCSG (多模态智能眼镜对话数据集)
近年来,智能眼镜的热度直线上升,尤其在语音和音频应用领域,比如音乐播放和通讯,它们的优势相较于手机或是固定的智能音箱显而易见。想象一下,戴在头上的这玩意儿不仅装备了多个麦克风、摄像头和其他传感器,还能让你体验到与众不同的便捷。最吸引人的一点可能就是实时字幕功能了,想想未来还可能实现实时跨语言翻译,岂不是美滋滋? 但要实现这一切,得先攻克一系列难题,包括但不限于目标说话人的识别与定位、活动检测、语音识别和声音分离。加入其他信号,比如连续的加速度计和陀螺仪数据,结合音频数据,可能就是解决这些问题的钥匙。 为了支持这方面的研究,人们创建了MMCSG数据集。这个数据集包含了两位参与者之间自发对话的记录,两位参与者都获得了报酬,并同意他们的数据被纳入研究。其中一位参与者佩戴了可以捕捉视频、音频(配备7个麦克风)和惯性测量单元(IMU)数据(包括陀螺仪和加速度计)的智能眼镜。所有对话都经过人工注释,提供了智能眼镜佩戴者的转录、分割和标记。为了保护参与者的隐私,视频中的人脸都进行了模糊处理。 MMCSG数据集的目的是为了研究,使用需遵守我们的数据许可协议。 下载数据集: https://ai.meta.com/datasets/mmcsg-downloads/ 下载论文:Task 3 – MMCSG | CHiME Challenges and Workshops
ChatGPT的增长已经进入了瓶颈期
ChatGPT这颗曾经闪耀的AI新星,如今似乎进入了“成长的冬天”。据Similarweb这家分析公司的最新数据透露,OpenAI旗下的这位聊天机器人在过去八个月里有五个月的网络流量呈下降趋势,目前比2023年5月的巅峰时期下降了11%。而它的移动应用程序的增长速度也慢得出奇,甚至没有Snapchat在上个季度新增的用户多。 这些数据表明,OpenAI的后ChatGPT时代来得比许多人预期的还要快。尽管OpenAI最初将ChatGPT视作其GPT模型的一个演示项目,但它迅速成长为一件大事,让人们对它的潜力寄予厚望。然而,随着增长的放缓,公司必须更加努力地推进其他项目,并且思考为什么它的旗舰产品无法持续其快速的增长势头。 SimilarWeb的高级洞察经理David Carr对我说:“尽管他们吸引了很多注意力,ChatGPT仍然没有成为主流”。 让我们来看看这些数据究竟意味着什么: 2023年5月,ChatGPT的网络访问量达到了18亿次的峰值,但在夏季期间开始下滑。到了2023年8月,访问量从高峰时期下降了21%,之后就没有恢复过来。有人将夏季的下滑解释为由于学生放假的临时暂停,但在初秋的反弹之后,ChatGPT的使用量在11月下降了超过3%,12月下降了7%。到了2024年1月,它的访问量为16亿次,比峰值时期下降了11%,自2023年中旬以来增长停滞。这些数字虽然庞大,但相比之下:拥有全球3.4%搜索市场份额的Bing,在1月份收到了13亿次访问。 同时,ChatGPT的移动应用程序也并未如预期般飞速起飞。该应用程序在2023年7月以430万美国用户的身份首次亮相,但到2024年1月只增长到了630万美国用户。相比之下,Snapchat在2023年第四季度仅新增了800万日活跃用户,从4.06亿增长到了4.14亿。 OpenAI没有回应置评请求。 ChatGPT的停滞并不意味着OpenAI的结束,反而是一个进化的必要。这家研究机构可能价值1000亿美元,上周四推出了一个名为Sora的惊人视频生成模型,显示了一条前进的道路。在一个竞争激烈的AI竞赛中,Google的Gemini刚刚达到了GPT-4的能力,OpenAI将不得不持续推出新作以保持领先。Sora正是这样一种创新,当OpenAI CEO Sam Altman在X上展示其能力时,它获得了极高的评价。 尽管开发者为用户在ChatGPT平台上构建插件的梦想可能难以实现,但GPT技术仍然是OpenAI业务的核心。该公司通过出售对GPT模型的访问权限给企业,实现了约20亿美元的年化收入,使它们能够在其产品中构建特定用途的小型机器人和功能,如自然语言搜索。OpenAI还在开发AI代理,可能会接管机器并执行操作,如填写费用报告,这是一个重大推动,可能会最大化其当前技术的价值。 随着OpenAI的模型变得更好,ChatGPT也将变得更好,给它一个随时间增长的机会。公司目前正在解决ChatGPT最令人沮丧的问题之一——它的金鱼记忆——通过构建更好的回忆能力。不必在每次登录后都重新告诉机器人你是谁,对于重度用户来说应该是一种解脱。 大型、通用的聊天机器人也可能就有一个作为用户界面的上限,这是从一开始就困扰着ChatGPT的问题。如果这是极限,OpenAI应该还好,但如果它的革命性应用无法突破当前的阈值,那肯定会感到失望。
全新芯片闪亮登场,人工智能计算速度将迈入光速时代
宾夕法尼亚大学的工程师们最近大显神通,研发出了一款革命性的新芯片,这不是普通的芯片哦,它用光波而不是电来完成那些让AI变聪明的复杂数学计算。想想看,这意味着什么?这意味着电脑的处理速度将大大加速,同时还能省下一大笔电费。 这块硅光子(SiPh)芯片的设计灵感来自于Benjamin Franklin Medal Laureate和H. Nedwill Ramsey教授Nader Engheta的开创性研究。他们用纳米级别的材料操纵技术,在光——通信的最快方式——的帮助下进行数学计算,并且这还是基于硅的平台,没错,就是那个用来大规模生产电脑芯片的便宜且丰富的元素。 光波与物质的互动可能是突破今天电脑芯片局限性的一条途径,这些局限性基本上还是停留在1960年代计算革命初期芯片的原理上。 在《自然·光子学》杂志上发表的一篇论文中,Engheta的团队和电气及系统工程副教授Firooz Aflatouni的团队共同描述了这款新芯片的研发过程。 Engheta说:“我们决定联手。”他们利用Aflatouni的研究小组在纳米级硅器件方面的领先地位。 他们的目标是开发一个平台,用于执行向量-矩阵乘法,这是神经网络发展和功能中的核心数学操作,神经网络是当今AI工具的计算架构。 Engheta解释说,他们没有使用高度均匀的硅晶片,而是“让硅变薄,比如说到150纳米”,但这种变薄只发生在特定区域。这种高度的变化——而不需要添加任何其他材料——提供了一种控制光通过芯片传播的方法,因为高度的变化可以分布以引起光以特定模式散射,让芯片能够以光速进行数学计算。 由于生产芯片的商业铸造厂的限制,Aflatouni说,这种设计已经准备好用于商业应用,并且可能适用于图形处理单元(GPU),随着开发新AI系统的广泛兴趣,对GPU的需求已经急剧上升。 Aflatouni表示:“他们可以将硅光子平台作为一个附加组件,然后你可以加速训练和分类。” 除了更快的速度和更少的能耗外,Engheta和Aflatouni的芯片还具有隐私优势:因为许多计算可以同时进行,所以不需要在计算机的工作内存中存储敏感信息,这使得由这种技术驱动的未来计算机几乎不可能被黑客攻破。 Aflatouni说:“没有人可以黑进一个不存在的内存来访问你的信息。” 其他共同作者还包括宾夕法尼亚大学工程学院的Vahid Nikkhah、Ali Pirmoradi、Farshid Ashtiani和Brian Edwards。
Groq 首秀:一个闪电般基于LPU的 AI 答案引擎
去试试感觉下这个闪电般的速度 Groq Groq家的LPU可不走寻常路,它抛弃了大家熟悉的GPU那套SIMD(单指令多数据)模式。别看GPU玩并行处理玩得飞起,拿来渲染图形啥的有几百个核心呢,但LPU呢,它是专为AI计算打造,能够提供确定性的性能表现。 而且呢,LPU在能源效率上也超给力,它通过减少管理多线程的开销,避免核心利用率低下,因此在每瓦特的计算量上能做得更好,堪称环保小能手。 Groq的LPU潜力无限,无论是聊天机器人互动、个性化内容生成,还是机器翻译等基于大型语言模型的应用,都有望因此而性能飙升,价格更亲民。特别是在NVIDIA的A100和H100那么抢手的情况下,它可能成为一个不错的替代选择。 说到Groq的创立,还得提它的大佬Jonathan Ross。2016年,他搞起了这家公司,而且哦,他可是Google TPU(张量处理单元)项目的发起人,一开始还只是他的业余项目呢。后来他在Google X的Rapid Eval Team混过一阵,最终决定自己出来搞Groq。
Meta 最近搞的LLM软件测试让人眼前一亮
“Meta 使用大型语言模型自动优化单元测试”(https://arxiv.org/abs/2402.09171) 这篇论文介绍了 Meta 的 TestGen-LLM 工具,这是一个利用大型语言模型(LLMs)来自动优化人类编写的测试的工具。该工具确保生成的测试类通过一系列过滤器,以保证相对原始测试套件的显著改进,并减少与 LLM 幻觉相关的问题。文中讨论了在 Instagram 和 Facebook 平台的 Meta 测试马拉松中部署 TestGen-LLM 的情况,并展示了令人鼓舞的结果。在专注于 Instagram 的 Reels 和 Stories 产品的评估中,75% 的 TestGen-LLM 测试用例成功构建,57% 可靠通过,测试覆盖率增加了25%。论文强调了在 diff 时间部署测试的有效性,因为它为工程师提供了现有测试和审核中的代码的完整上下文。通过测试马拉松的经验获得了关于 diff 时间部署模式的见解,揭示了这项技术在现实世界场景中的表现。最初是手动完成的,但在后续事件中自动化了,为 Instagram 测试马拉松构建 TestGen-LLM diffs 取得了有希望的结果。在第一次 Instagram 测试马拉松中,36名工程师提交了105个单元测试 diffs,其中16个由 TestGen-LLM 生成。值得注意的是,一个 diff 因测试用例中缺乏断言而被拒绝。结果各不相同,一些 diffs 通过覆盖以前未触及的方法和文件显著提高了覆盖率。最大的覆盖率改进来自于一个覆盖了多个新文件和 A/B 测试守门员的 diff。在相关工作方面,基于大型语言模型的软件工程(LLMSE)领域的软件测试生成已被广泛研究。虽然以前的文献回顾证实了基于 LLM 的测试生成方法的普遍性,但本文因其专注于扩展现有测试类并报告工业规模部署的结果而脱颖而出。总的来说,这篇论文通过 diff 时间部署策略,为使用 LLM 在 Meta…
Slack 给平台加入了 AI 驱动的搜索和总结功能
Slack 这个企业通讯平台不仅仅是我们日常工作的小助手,它还默默地成为了一个知识库,里面藏着各种宝贵的公司信息。但是,想要从这个混乱无序的知识海洋中捞出有用的信息,以前可没那么简单。好消息来了,Slack 最近推出了几个新功能,让这些信息变得触手可及,包括一项全新的 AI 驱动搜索工具和频道内信息总结能力。 Slack 的产品大佬 Noah Weiss 说,平台以一种非正式且无结构的方式自然而然地收集了企业信息。挑战在于如何找到方法,把这些藏在暗处的知识宝藏挖掘出来。他在接受 TechCrunch 采访时表示,“这一切的关键在于,现在这波生成式 AI 技术的涌现让我们能够从多年来积累的分析中提取出全新的意义和智能。” 去年五月,Slack 在纽约的 Salesforce World Tour 上宣布,它将把生成式 AI 集成到平台中,这不仅仅是一个泛泛的号召,还特别为 Slack 平台上的内容打造了 SlackGPT。 今天的宣布更具体地把这一点付诸实践。Weiss 说,能够总结频道内容帮助员工在休假后迅速赶上进度,或者避免阅读冗长的线索就能抓住对话的要点。通过频道总结,你可以请求一个总结,Slack 的 AI 模型就会生成一个讨论话题的总结,并提供参考资料来展示模型是如何创建总结的每个部分,这是这个功能设计中的一个关键部分。 “你可以深入到任何区域,我们会向你展示所有详细的上下文。所以我们真的在考虑透明度,建立信任,确保我们展示我们的工作,并且给人们能力深入了解更多,如果他们想要的话,”他说。 公司还允许用户以自然的方式提问,就像与 ChatGPT 一样,但它使用的是 Slack 内容而不是更广泛的互联网内容,所以用户可以问一个问题,比如 ‘Project Gizmo 是什么?’ Slack AI 然后提供一个答案,再次带有来源,让人们看到答案从哪里来,以及他们是否可以信任它。 每个答案都包括一个质量检查,用户可以说答案是好的、坏的还是中性的,这样模型就可以学习到关于响应的质量,系统工程师也可以看到模型的表现如何。 他没有透露关于底层模型的具体细节,只是说它是大型语言模型的混合体。“我们发现它们各有不同的表现方式,速度和质量特性也不同。我们花了很多时间对模型进行微调,以适应我们在 Slack 中实际拥有的数据,同时也在提示工程方面做了大量工作。” Slack 的 AI 搜索和总结功能是企业计划的附加产品,这意味着它的成本会在正常许可成本之上额外增加。Slack 没有提供成本细节,但它今天在美国和英国提供,目前只有英文版本,但公司表示不久的将来会有更多语言版本推出。
OpenAI发布Sora,另一个层次的黑科技
OpenAI刚刚向外界展示了一个令人震惊的新技术——一种基于文本提示生成逼真视频的人工智能,这个名为Sora的文本到视频模型,引发了网上一片惊叹。在周四的一篇博客文章中,OpenAI介绍说,Sora“深刻理解语言”,能够生成“表达丰富情感的引人入胜的角色”。https://openai.com/sora Sora能够生成包含多个角色、特定类型动作和准确的主题及背景细节的复杂场景。这家得到微软支持的初创公司说:“这个模型不仅理解用户在提示中请求的内容,还理解这些事物在物理世界中的存在方式。” OpenAI的CEO Sam Altman在X上邀请用户为Sora提供提示,然后发布了一些逼真视频的结果,包括两只金毛寻回犬在山顶上播客、一位祖母制作意大利面食gnocchi,以及海洋动物在海面上进行自行车比赛。 这些超现实的视频质量在社交媒体上引发了惊讶的反响,用户们纷纷称赞这些结果“不可思议”和“改变游戏规则”。“过了两个小时,我的大脑还是无法处理这些由OpenAI Sora生成的视频,”X上的用户Allen T说。然而,这一展示也引发了对潜在风险的担忧,特别是在全球密切关注的选举年,包括11月的美国总统选举。OpenAI在其博客文章中表示,将在向公众发布Sora之前采取几项重要的安全措施。 公司表示:“我们正在与红队专家合作——这些领域专家擅长于信息误导、仇恨内容和偏见——他们将对模型进行对抗测试。”“我们还在开发工具来帮助检测误导内容,比如一个检测分类器,能够识别视频是否由Sora生成。”OpenAI还承认Sora存在弱点,包括连贯性和区分左右的困难。 例如,一个人可能咬了一口饼干,但之后,饼干可能没有咬痕。与OpenAI的竞争对手Meta和Google也展示了文本到视频AI技术,但他们的模型未能产生像Sora那样逼真的结果。
下一代模型:Gemini 1.5,正如它的名字一样闪亮登场
上周,Google推出了其迄今为止最强大的模型——Gemini 1.0 Ultra,标志着其产品,尤其是Gemini Advanced变得更加有用的重要一步。从今天起,开发者和云客户也可以开始使用1.0 Ultra——通过AI Studio和Vertex AI中的Gemini API进行构建。 Google的团队继续推动最新模型的前沿,将安全性放在核心位置,并取得了迅速的进展。事实上,他们已准备好介绍下一代模型:Gemini 1.5。它在多个维度上展现出显著的改进,1.5 Pro在使用更少的计算资源的同时,达到了与1.0 Ultra相当的质量。 这一新一代还实现了在长文本理解上的突破。Google已经显著增加了其模型可以处理的信息量——稳定运行高达100万个令牌,实现了迄今为止任何大规模基础模型中最长的上下文窗口。更长的上下文窗口展示了可能性的承诺,将使得全新的能力成为可能,并帮助开发者构建更多有用的模型和应用程序。Google对开发者和企业客户提供这一实验功能的有限预览感到兴奋。Demis分享了更多关于能力、安全性和可用性的信息。 由Google DeepMind的CEO Demis Hassabis代表双子团队介绍Gemini 1.5:这是人工智能领域令人激动的时刻。领域内的新进展有潜力在未来几年为数十亿人提供更多帮助。自从引入Gemini 1.0以来,Google一直在测试、完善和增强其能力。今天,Google宣布了下一代模型:Gemini 1.5。Gemini 1.5带来了显著提升的性能。它代表了Google方法的一个重大变化,建立在几乎每一个部分的研究和工程创新之上,这包括使Gemini 1.5更加高效的训练和服务,采用了新的专家混合(MoE)架构。 Google正在为早期测试发布的第一个Gemini 1.5模型是Gemini 1.5 Pro。这是一个中等大小的多模态模型,为跨广泛任务的扩展进行了优化,并且与迄今为止最大的模型1.0 Ultra表现在相似的水平。它还引入了在长文本理解上的实验性突破特性。Gemini 1.5 Pro配备了标准的128,000令牌上下文窗口。但从今天起,一小部分开发者和企业客户可以通过AI Studio和Vertex AI在私密预览中尝试高达100万令牌的上下文窗口。 随着Google全面推出100万令牌上下文窗口,他们正在积极工作以改善延迟、降低计算需求并增强用户体验。Google对人们尝试这一突破性能力感到兴奋,并在下方分享了更多关于未来可用性的详细信息。这些在下一代模型中的持续进步将为人们、开发者和企业开启使用人工智能创建、发现和构建的新可能性。 Gemini 1.5基于Google在Transformer和MoE架构上的领先研究。而传统的Transformer作为一个大型神经网络运行,MoE模型被划分为较小的“专家”神经网络。根据给定的输入类型,MoE模型学会只激活其神经网络中最相关的专家路径。这种专业化大大提高了模型的效率。Google是通过诸如Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4等研究,成为深度学习中MoE技术的早期采用者和先锋。 Google的最新模型架构创新使Gemini 1.5能够更快地学习复杂任务并保持质量,同时训练和服务更加高效。这些效率帮助Google的团队比以往任何时候都更快地迭代、训练和交付更高级的Gemini版本,并且他们正在进行进一步的优化。作为大规模模型中首创的长上下文窗口,Google正在不断开发新的评估和基准测试来测试其新颖能力。遵循AI原则和严格的安全政策,Google确保其模型经过广泛的伦理和安全测试。然后,将这些研究成果整合到其治理过程、模型开发和评估中,以持续改进其AI系统。 自从去年12月引入1.0 Ultra以来,Google的团队继续对模型进行精炼,使其对更广泛的发布更安全。他们还进行了关于安全风险的新研究,并开发了红队技术来测试一系列潜在的危害。在发布1.5 Pro之前,Google采取了与其Gemini 1.0模型相同的负责任部署方式,进行了包括内容安全和代表性伤害在内的广泛评估,并将继续扩大这种测试。此外,Google正在开发进一步的测试,以考虑1.5 Pro的新长上下文能力。Google致力于负责任地将每一代Gemini模型带给全球数十亿人、开发者和企业。 从今天开始,Google通过AI Studio和Vertex AI向开发者和企业客户提供1.5 Pro的有限预览。更多信息请参阅Google开发者博客和Google Cloud博客。当模型准备好进行更广泛发布时,Google将引入标准的128,000令牌上下文窗口的1.5 Pro。不久,Google计划引入从标准的128,000上下文窗口开始并扩展到100万令牌的定价等级,随着模型的改进。在测试期间,早期测试者可以免费尝试100万令牌上下文窗口,尽管他们应该预期这一实验性功能会有较长的延迟时间。速度的显著改进也即将到来。 有兴趣测试1.5 Pro的开发者现在可以在AI Studio注册 (https://aistudio.google.com/app/waitlist/97445851),而企业客户可以联系他们的Vertex AI账户团队。