产品:Twelve Labs正式发布他们最新的视频语言基础模型Pegasus-1,并推出一系列全新的视频转文字API(Gist API, Summary API, Generate API)。 产品和研究理念:与许多将视频理解重构为图像或语音理解问题的公司不同,Twelve Labs采取了“视频优先”策略,有四个核心原则:高效的长篇视频处理、多模式理解、视频本地嵌入、视频和语言嵌入之间的深度对齐。 新模型:Pegasus-1大约有800亿个参数,包含三个共同训练的模型组件:视频编码器、视频语言对齐模型、语言解码器。 数据集:Twelve Labs收集了超过3亿个多样化、精心策划的视频文本对,是进行视频语言基础模型训练的最大视频文本语料库之一。这份技术报告基于对包含3500万视频文本对和超过10亿图像文本对的10%子集进行的初步训练运行。 与SOTA视频语言模型的性能比较:与之前的最先进(SOTA)视频语言模型相比,Pegasus-1在MSR-VTT数据集(Xu等人,2016)上显示出61%的相对改进,在视频描述数据集(Maaz等人,2023)上提高了47%,通过QEFVC质量得分(Maaz等人,2023)进行测量。 在我们提出的评估指标VidFactScore上,它在MSR-VTT数据集上显示出20%的绝对F1得分增长,在视频描述数据集上提高了14%。 与ASR+LLM模型的性能比较:ASR+LLM是解决视频到文本任务的广泛采用方法。与Whisper-ChatGPT(OpenAI)和领先的商业ASR+LLM产品相比,Pegasus-1在MSR-VTT上的表现提高了79%,在视频描述数据集上提高了188%。在VidFactScore-F1上,它在MSR-VTT数据集上显示25%的绝对收益,在视频描述数据集上增加了33%。 访问Pegasus-1的API:这是等待名单上的Pegasus驱动的视频到文本API的链接。 更多请访问 https://app.twelvelabs.io/blog/introducing-pegasus-1
谷歌宣布新工具,助用户核实图片真伪!
社交媒体上对图片和视频的背景使用已经导致了危险的误信息传播。谷歌现宣布将提供更多关于图片的背景信息,以防止错误信息的传播。 新的一套工具包括查看图片的历史、元数据以及用户在不同网站上使用它的上下文。谷歌今年早些时候宣布了这些“关于本图像”的功能,现在它已经向全球所有使用英语的用户开放。 用户可以了解谷歌搜索首次“见到”图片的时间,以理解上下文的新近性。该工具还让用户了解其他人在其他网站上是如何描述该图片的,以帮助揭穿任何虚假声明。 谷歌表示,如果有的话,用户还可以看到元数据,包括指示它是否为AI生成图像的字段。该公司说,它标记了所有由谷歌AI创建的图像。十月,Adobe和Microsoft、Nikon、Leica等公司一起,发布了一个符号,明确标记AI生成的图像。 通过点击谷歌图片结果上的三点菜单,可以使用新的图片工具。您也可以通过点击三点菜单中的“关于此结果”工具上的“了解更多关于此页面”的选项来访问它。谷歌指出,它正在探索更多的访问方式。 此外,谷歌今天还宣布,批准的记者和事实核查员将能够上传或复制图片的URL,以在他们自己的工具中了解更多关于它们的信息,这要借助FaceCheck Claim Search API。今年六月,该公司开始测试Fact Check Explorer工具的功能。这为事实核查员提供了探索与特定图片相关的事实检查、参考和其他细节的能力。 更重要的是,该公司正在试验生成性AI来帮助描述诸如不熟悉的卖家页面或未知博客等来源。谷歌说,选择使用搜索生成体验(SGE)的用户将显示AI生成的关于网站的信息,在“更多关于此页面部分”。它补充说,生成的信息将包括页面或网站在其他“高质量”网站上的引用。通常,当没有维基百科或谷歌知识图谱的详细信息或概述时,谷歌的AI会填充信息。 鉴于技术的崛起已经使用户更容易使用生成性AI创建不同的图片,各个公司正在研发技术以提供更多关于图片的信息。六月,Adobe发布了一个开源工具包,帮助应用程序和网站验证图片凭据。此外,X推出了其众包事实检查程序的Community Notes,用于图片和视频。
Nvidia 发力,推出基于 Arm 架构的 PC 芯片,直接向英特尔发起全新挑战
Nvidia 在AI芯片界称王称霸,现在它的新目标是英特尔长期霸占的个人电脑市场! 有料的小道消息来了!据内部人士爆料,Nvidia 正在悄悄儿地设计中央处理器,不仅能跑微软的Windows系统,而且还采用了 Arm Holdings 的黑科技哦。这一大动作是微软一个宏伟计划的一部分,目的是挑战苹果在Mac电脑市场的快速增长。根据市场调查数据,自从苹果发布自家的Arm芯片以来,它的市场份额几乎翻了个倍! 而且,风传Advanced Micro Devices 也不甘示弱,计划加入战局,使用Arm技术为PC制造芯片。如果一切按计划进行,我们可能在2025年就能见到由Nvidia和AMD制造的PC芯片了。他们将和高通站在一起,高通从2016年开始就为笔记本电脑制造基于Arm的芯片。而且,高通还有一款由前苹果工程师设计的顶级芯片,详情将在下周二的活动上揭晓,到时微软的大佬们也会到场。 Nvidia和Intel的股价纷纷起舞,市场反应强烈。不过,当事公司的发言人都守口如瓶,拒绝评论。这一举措可能会对英特尔长期主导的PC行业造成冲击,特别是苹果的自制芯片以惊人的电池寿命和高速性能吸引了大批粉丝。微软的头头们也看在眼里,想要效仿苹果的成功。 回顾历史,微软曾在2016年与高通合作,将Windows系统带到Arm的处理器架构上。并且,他们还给了高通一个独家合作机会,一直到2024年。但显然,微软不想把鸡蛋都放在一个篮子里,合同结束后,市场将向其他公司开放。“微软不想再像90年代那样依赖英特尔,他们需要更多的选项。”金融和战略咨询公司D2D Advisory的CEO说。微软还在推动各大芯片制造商加强人工智能功能,为未来的软件,比如它们的Copilot,铺平道路。 但这条路并不平坦。长久以来,软件开发商们已经投入了大量资源,专为英特尔和AMD的x86架构编写代码。而这些代码并不能在基于Arm的芯片上自动运行,这对整个行业来说是个大挑战。与此同时,英特尔并未坐以待毙,也在自家的芯片中整合了AI功能,甚至展示了能够运行类似ChatGPT功能的笔记本电脑。 现在,一切还处于风声鹤唳的阶段,英特尔和AMD怎么应对,我们拭目以待!而关于AMD加入基于Arm的PC市场的更多细节,也是从芯片界的小道消息中得知的。
Google悄悄筹备:一款秘密AI工具即将震惊业界?
猜猜看,Google可不只是在搞Gemini!最新爆料来了,他们似乎还在酝酿一个叫Stubbs的超酷工具,属于Google Makersuite的一部分。要是真的如泄露的那样,那可太棒了,大家可以不写代码就能视觉化地构建自己的AI原型应用,想想就有点小激动呢! 这中间的玄机是什么? Stubbs的出现,简直就是开启创意之门!只要几下点击,AI应用的雏形就能出现在你面前。不仅如此,还听说能发布、分享,甚至还能改动别人的作品呢!而Gemini,这个大家翘首以盼的多模式AI,可能就是Makersuite和Google Vertex AI的幕后英雄。还有更疯狂的是,它居然能回答带图片的问题!别忘了Jetway,它或许就是Gemini的一部分,能产生HTML内容哦。 为啥这事儿值得一提? 告诉你,问那些用大型语言模型(LLMs)做开发的人,他们绝对更爱OpenAI的API,因为用起来简单得很!现在,Stubbs的画面流出来了,看起来创建GenAI应用就像是玩儿游戏一样直观有趣!如果这一切属实,Google的AI模型可就要火了!当然,现在这些都只是小道消息,咱们还是耐心等待官方发话吧!
随着AI在更多行业的普及,哪些商业模式可能会变得过时
随着某些容易被AI游戏化或限制的商业模式的日益普及,我们正从一个数据分析需要长周期(分析师需要大量时间来运行查询、分析然后以人们能理解的方式呈现发现)的世界转向一个实时优化和洞察的新世界(AI将挖掘数据以发现洞察并做出实时的优化决策)。但是,当企业开始自我优化时,各种疯狂的事情可能会开始发生(或至少AI会建议这样做)。我们能想到哪些疯狂的例子?对于约会应用,两个人的完美匹配增加了流失率,Tinder或Bumble会限制AI的效率,以免产品变得“不可持续地有效”吗?或者在音乐流媒体世界:由于Spotify按歌曲支付给艺术家,它会自动优化其算法以偏爱更长的歌曲,同时考虑每个客户每天收听的分钟数吗?随着AI在优化方面变得非常出色,一些行业和商业模式将需要改变。 基于时间的商业模式可能会因为基于价值的补偿改革而受到破坏。今天,大多数设计师、律师以及许多其他行业继续按小时收费,但由AI驱动的工作流程中的阶梯式改进可能会打乱现状。让我们首先考虑交付给客户的差异化价值的最终来源:它较少是“时间”,更多是“经验”。当然,像院子工作或割草一样的一些例外情况,行业经验可能在交付的价值中不那么能够区分,但我们这里讨论的重点是输出范围长而多样的行业。在这些领域,真正重要的差异因素是一个人的多年经验、通过正规教育和实践磨练的技能、一个人的品味和直觉、一个人的创造力、一个人的人际关系网络,甚至是一个人通过大量过往经验磨练的专有数据和算法。在这样的世界里,基于时间的计费简直不再可行,除非这些服务所衍生的价值也被压缩了好几倍(这不太可能)。律师、设计师、顾问、自由职业者等的经典基于时间的计费模式现已正式过时。那么,在一个我们不再按小时计费的未来,价值可能会以什么方式被捕获呢?也许有一个新的“价值”真相来源,通过第三方计费服务来确定各专业行业任务的价格。就像医疗程序的计费代码和市场定价一样,这些价格可以与行业进行协商,并可能根据一个人的工作经验年限而有所不同。或者,也许我们将进入一个更加客观和可衡量的基于结果的补偿时代?在某些行业里,我们开始为某些事物支付较少的费用,也许我们会以数量来弥补它?这里只是分享一些早期和未成形的想法,但突出的含义是,在AI时代,时间神奇地压缩了,新的定价模式迫切需要取代基于时间的和凭空想象的定价。 AI将威胁购买决策中的主观性,以及品牌和营销的影响力。随着我们对代理辅助体验的指导信任的增加,品牌、推荐和购买决策中的关系的影响力是否会减弱?无论我们是购买电池、运动鞋、薯片还是厨房用具,我们常常受到的影响超过我们愿意承认的品牌感知,而不是基于事实的比较。然而,随着你的“AI代理”越来越了解你——通过每一个个人偏好和先前的购买以及每一个在线评论和消费者报告的判定——你可能会开始更多地信任你的代理的指导,而不是任何其他信号。也许在企业中,后果更加明显,那里的采购流程常常受到人类情感、懒惰和先前关系的影响,这是任何首席财务官的持久恐惧。有多少购买决策是出于错误的原因——比如通过与销售人员一起观看足球比赛和享用牛排晚餐而加强的关系,而不是解决方案的价值和质量?像Globality这样的公司(在我的投资组合中,正在处理企业采购)和许多其他公司都在利用AI彻底改变公司的每一个职能。如果你总体上看这波公司,他们正在处理决策制定中主观性的巨大成本,并且旨在产生更好、更具成本效益的解决方案。最终,提升产品精英制解决了消费者和企业购买世界中的问题。AI威胁到由人为错误和偏见污染的主观决策制定,并将迎来一个最好的产品以最好的价值实际上可能赢得胜利的时代。这对买家来说是一个胜利,但对于那些未能创新并不断优化的卖家来说,可能会非常具有破坏性。 传统娱乐创作的商业将会发展,但不是我们预期的那样。最近,特别是来自代表演员和编剧的工会,人们非常关注AI的后果和潜在的工作流失。然而,我开始将娱乐的未来视为更多的是一个“核心和外围”模式,其中核心(好莱乐 – 以及所有与原创故事创作相关的参与者)只会变得更加强大和高效,而外围(用户生成的内容、未经授权的续集和长尾衍生产品)将增长100倍。随着每个品牌都用AI生成的内容充斥我们的意识,我们将比以往任何时候都更渴望故事、意义和原创性。AI的效率降低了内容创作的成本,所以我们可以承担更多的创意风险。而不是批准五个想法,也许我们可以批准十五个?也许好莱乐会花更少的时间重播安全的剧本(续集和熟悉的故事情节),而是花更多的时间发展新的特许经营权和富有想象力的故事情节?通过AI,核心可以变得好10倍,外围将增长100倍。这里的商业模式破坏是传统工作室中资金的花费。为什么不将衍生内容(续集、动画短片分支等)外包给一群选择的长尾创作者和利用AI的粉丝,然后将节省的资金重新分配给核心?我对AI在各行各业的影响的一般论点是:我们需要重视人类的独创性,并为创造性的头脑释放更高层次任务的能力。 帮助将最佳人才与正确机会相匹配的机制将推动更多的创造性精英制 – 并挑战“老男孩”网络。我一直对创造力感到非常沮丧的一大原因就是“运气”在多大程度上决定了伟大的想法是否能够问世。在好莱乐,你需要得到一个命中注定的经纪人介绍。在许多其他领域,你需要认识正确的猎头或与正确的机构建立联系,这往往更多地取决于你认识谁,而不是你的才华和想法的优点。那么,想象一下一个世界,在这个世界里,知识产权变得更加“开放”,以便更长的人才可以发挥作用,但是有保护措施(这与我们上面讨论的外围类型的内容有关)?也许像Marvel这样的品牌可以邀请100位热情的创作者超越工作室的墙壁,使用AI模型与他们的角色互动,探索新的情节想法?也许AI将帮助用户生成的内容不仅在质量上得到改善,而且还能从更高信号的网络策展人那里获得曝光?到目前为止,社交平台已经根据“关键群体”认为什么(点赞的数量)而不是“可信群体”认为什么(实际上喜欢内容的人是谁,他们作为品味制定者有多可靠)来展现内容。
NVIDIA 研究所的重大突破给机器人学习带来全新转机!
NVIDIA研究所开发的新型AI代理可以教机器人复杂技能,它已经训练了一个机械手进行快速的笔旋转技巧 – 这是机器人首次能像人类一样表现。 上面视频中展示的惊人的手法变换只是机器人已经学会熟练完成的近30项任务之一,这多亏了Eureka,它能自主编写奖励算法来训练机器人。 Eureka还教会了机器人打开抽屉和橱柜、投掷和接球以及操纵剪刀等其他任务。 今天发布的Eureka研究包括一篇论文和项目的AI算法,开发人员可以使用NVIDIA Isaac Gym(一种用于强化学习研究的物理模拟参考应用程序)来进行实验。Isaac Gym建立在NVIDIA Omniverse之上,这是一个基于OpenUSD框架构建3D工具和应用程序的开发平台。Eureka本身由GPT-4大型语言模型提供支持。 NVIDIA的AI研究高级主管兼Eureka论文的作者Anima Anandkumar表示:“强化学习在过去十年中取得了令人印象深刻的胜利,但仍然存在许多挑战,例如奖励设计,这仍然是一个反复试验的过程。” “Eureka是朝着开发新算法的第一步,这些算法集成了生成性和强化学习方法来解决困难的任务。” AI训练机器人 根据该论文,Eureka生成的奖励程序(使机器人能够进行试错学习)在80%以上的任务中胜过专家人类编写的程序。这为机器人带来了平均超过50%的性能提升。 由Eureka教授的机器人手臂打开抽屉。 AI代理利用GPT-4 LLM和生成性AI编写奖励机器人进行强化学习的软件代码。它不需要针对特定任务的提示或预定义的奖励模板-并且可以轻松地纳入人类反馈,以更准确地修改其奖励,以获得更符合开发者愿景的结果。 使用Isaac Gym中的GPU加速模拟,Eureka可以快速评估大批量奖励候选人的质量,从而进行更有效的培训。 然后,Eureka构建了一个从培训结果中提取关键统计数据的摘要,并指导LLM改进其奖励功能的生成。通过这种方式,AI在自我改进。它教会了各种机器人-四足动物、双足动物、四旋翼飞行器、灵巧的手、合作机器人手臂等等-完成各种任务。 研究论文提供了20项Eureka训练任务的深入评估,基于开源的灵巧性基准,要求机器人手展示广泛的复杂操纵技能。 在使用NVIDIA Omniverse生成的可视化中展示了九个Isaac Gym环境的结果。 人形机器人通过Eureka学习奔跑姿势。 NVIDIA的高级研究科学家之一,该项目的贡献者Linxi“Jim”Fan表示:“Eureka是大型语言模型和NVIDIA GPU加速模拟技术的独特组合。” “我们相信Eureka将能够实现灵巧的机器人控制,并为艺术家提供一种新的方法来制作物理上逼真的动画。” 这是一项突破性的工作,一定会让开发者的思维旋转起来,思考可能性,增加了最近NVIDIA研究的进展,如Voyager,这是一个用GPT-4构建的AI代理,可以自主玩Minecraft。 NVIDIA研究包括全球数百名科学家和工程师,团队专注于包括AI、计算机图形、计算机视觉、自动驾驶汽车和机器人技术在内的主题。
MemGPT
在MemGPT中,固定上下文的LLM(大型语言模型)处理器通过分层的内存系统和一套功能得到增强,使其能够管理自己的内存。主上下文是LLM的固定长度输入。在每个处理周期,MemGPT解析LLM的文本输出,并且可以选择放弃控制或执行函数调用,用于在主上下文和外部上下文之间移动数据。当LLM生成函数调用时,它可以要求立即返回执行,以将函数链接在一起。在产生“让步”情况时,除非遇到下一个外部事件触发器(例如用户消息或预定的中断),否则LLM不会再次运行 大型语言模型(LLM)在人工智能领域掀起了一场革命,但其受限的上下文窗口在一些任务,如延长对话和文档分析中,限制了其效用。为了克服这一局限,研究人员提出了一种名为“虚拟上下文管理”的技术,其灵感来源于操作系统中的分层内存系统,通过在高速和低速内存之间移动数据,营造出大量内存资源的假象。 基于此技术,研究团队开发了MemGPT(Memory-GPT),这是一种智能管理不同内存层级的系统,旨在在LLM有限的上下文窗口内有效提供扩展的上下文,并利用中断来管理系统与用户之间的控制流。该系统的设计灵感来自操作系统,已在两个领域进行了评估:文档分析和多次会话聊天。在文档分析任务中,MemGPT能够分析大幅超出LLM上下文窗口的大型文档;在多次会话聊天任务中,MemGPT可创建可以记忆、反思,并通过与用户长期互动而持续进化的对话代理。 研究团队在 https://memgpt.ai 网站上分享了MemGPT的代码和实验数据,以便其他研究者和从业者参考和使用。
亚马逊宣布,其新推出的由人工智能驱动的机器人能将订单处理时间缩短25%。
亚马逊正在其仓库中整合一种新的机器人系统,以改善交货时间、安全性和一般操作。据《华尔街日报》报道,这种名为“Sequoia”的由人工智能驱动的技术,可能将寻找和存储产品的速度提高多达75%,并将订单履行速度提高多达25%。该系统已在亚马逊位于休斯敦的一个仓库中推出。 Sequoia系统涉及运输产品托盘到分拣机的车辆。它使用机器人手臂和计算机视觉来识别库存,然后将其发送给员工进行交付。安全方面的一个声明是,这个过程为工人提供了腰部高度的物品,从而消除了他们对高架货架上物品的需求。Sequoia的推出紧随2022年Sparrow的仓库引入,Sparrow是一个由AI驱动的机器人手臂,可以识别和移动在此步骤之后剩余的产品。 尽管亚马逊将安全性列为Sequoia和Sparrow的动机,但亚马逊在这一领域的记录并不理想。调查报告中心Reveal出版物的2020年报告发现,在2016年至2019年期间,在自动化仓库工作的亚马逊员工的受伤率是那些没有与机器人一起工作的员工的两倍(亚马逊已公开对这一报道提出异议)。机器人的使用使员工需要扫描的物品数量从100增加到每小时多达400个。目前还不清楚Sequoia的实施是否会导致裁员。
DALL·E 3现已在ChatGPT Plus和Enterprise版本中上线!
这是个激动人心的消息!DALL·E 3的推出标志着人工智能在图像创建和理解方面迈出了新的一步。对于ChatGPT Plus和Enterprise的用户来说,这意味着他们现在能够利用DALL·E 3的高级能力,通过简单的文字描述生成具有相关性和创造力的图像。 这不仅能够加强视觉内容的生成,对于设计师、内容创作者、市场营销专业人员等行业的专业人士而言,也大大提高了他们的工作效率和创造力。此外,这项技术的整合还预示着在更广泛的应用领域中,我们将看到更多创新和智能解决方案的出现。 通过DALL·E 3,ChatGPT Plus和Enterprise用户将能体验到人工智能最新进展的直接好处,无论是在提升项目的视觉呈现,还是在开发新颖的应用方面,都拥有前所未有的机会。现在,准备好迎接一个更加丰富多彩、智能化的未来吧!
也许我们终将更深入了解AI是如何运作的
斯坦福大学在2023年的指数报告中,根据100个指标对10位顶尖开发者进行了评分。这提供了AI生态系统整体透明度的即时画面。所有开发者在透明度方面都有很大的改进空间,将在指数的未来版本中继续追踪这些进展。 在最新发布的2023年AI透明度指数中,情况似乎并不容乐观。即便是得分最高的开发者,也只在100分制评分中拿到了54分,可见在透明度方面,整个行业都面临着严峻的挑战。不得不说,对于这些处于行业前沿的基础模型开发者来说,他们距离提供充分透明度的目标,似乎还有一段相当长的路要走。 仔细分析这些数据,我们发现平均得分仅有37%,这无疑反映出一个事实:行业内普遍缺乏足够的透明度。然而,也并非全无希望,因为在82个评估指标中,至少有一家开发者能够满足其中的标准。这一点表明,只要这些公司愿意采纳并实施行业内的最佳实践,提高透明度不是不可能。 在众多参与评分的公司中,开放的基础模型开发者表现最为抢眼。特别是有两家,他们的透明度表现卓越,不仅位列前茅,而且还十分开放,允许公众下载他们的模型权重。而名为Stability AI的开发者,紧随其后,实力强劲。 综上所述,尽管目前各大AI公司在透明度方面还存在不少问题,但通过借鉴行业最佳实践,他们完全有能力做得更好。在这个快速发展的技术领域,理解和信任显得尤为重要,而这正是提高透明度所能带来的价值。