猜猜看,Google可不只是在搞Gemini!最新爆料来了,他们似乎还在酝酿一个叫Stubbs的超酷工具,属于Google Makersuite的一部分。要是真的如泄露的那样,那可太棒了,大家可以不写代码就能视觉化地构建自己的AI原型应用,想想就有点小激动呢! 这中间的玄机是什么? Stubbs的出现,简直就是开启创意之门!只要几下点击,AI应用的雏形就能出现在你面前。不仅如此,还听说能发布、分享,甚至还能改动别人的作品呢!而Gemini,这个大家翘首以盼的多模式AI,可能就是Makersuite和Google Vertex AI的幕后英雄。还有更疯狂的是,它居然能回答带图片的问题!别忘了Jetway,它或许就是Gemini的一部分,能产生HTML内容哦。 为啥这事儿值得一提? 告诉你,问那些用大型语言模型(LLMs)做开发的人,他们绝对更爱OpenAI的API,因为用起来简单得很!现在,Stubbs的画面流出来了,看起来创建GenAI应用就像是玩儿游戏一样直观有趣!如果这一切属实,Google的AI模型可就要火了!当然,现在这些都只是小道消息,咱们还是耐心等待官方发话吧!
Category: Uncategorized
随着AI在更多行业的普及,哪些商业模式可能会变得过时
随着某些容易被AI游戏化或限制的商业模式的日益普及,我们正从一个数据分析需要长周期(分析师需要大量时间来运行查询、分析然后以人们能理解的方式呈现发现)的世界转向一个实时优化和洞察的新世界(AI将挖掘数据以发现洞察并做出实时的优化决策)。但是,当企业开始自我优化时,各种疯狂的事情可能会开始发生(或至少AI会建议这样做)。我们能想到哪些疯狂的例子?对于约会应用,两个人的完美匹配增加了流失率,Tinder或Bumble会限制AI的效率,以免产品变得“不可持续地有效”吗?或者在音乐流媒体世界:由于Spotify按歌曲支付给艺术家,它会自动优化其算法以偏爱更长的歌曲,同时考虑每个客户每天收听的分钟数吗?随着AI在优化方面变得非常出色,一些行业和商业模式将需要改变。 基于时间的商业模式可能会因为基于价值的补偿改革而受到破坏。今天,大多数设计师、律师以及许多其他行业继续按小时收费,但由AI驱动的工作流程中的阶梯式改进可能会打乱现状。让我们首先考虑交付给客户的差异化价值的最终来源:它较少是“时间”,更多是“经验”。当然,像院子工作或割草一样的一些例外情况,行业经验可能在交付的价值中不那么能够区分,但我们这里讨论的重点是输出范围长而多样的行业。在这些领域,真正重要的差异因素是一个人的多年经验、通过正规教育和实践磨练的技能、一个人的品味和直觉、一个人的创造力、一个人的人际关系网络,甚至是一个人通过大量过往经验磨练的专有数据和算法。在这样的世界里,基于时间的计费简直不再可行,除非这些服务所衍生的价值也被压缩了好几倍(这不太可能)。律师、设计师、顾问、自由职业者等的经典基于时间的计费模式现已正式过时。那么,在一个我们不再按小时计费的未来,价值可能会以什么方式被捕获呢?也许有一个新的“价值”真相来源,通过第三方计费服务来确定各专业行业任务的价格。就像医疗程序的计费代码和市场定价一样,这些价格可以与行业进行协商,并可能根据一个人的工作经验年限而有所不同。或者,也许我们将进入一个更加客观和可衡量的基于结果的补偿时代?在某些行业里,我们开始为某些事物支付较少的费用,也许我们会以数量来弥补它?这里只是分享一些早期和未成形的想法,但突出的含义是,在AI时代,时间神奇地压缩了,新的定价模式迫切需要取代基于时间的和凭空想象的定价。 AI将威胁购买决策中的主观性,以及品牌和营销的影响力。随着我们对代理辅助体验的指导信任的增加,品牌、推荐和购买决策中的关系的影响力是否会减弱?无论我们是购买电池、运动鞋、薯片还是厨房用具,我们常常受到的影响超过我们愿意承认的品牌感知,而不是基于事实的比较。然而,随着你的“AI代理”越来越了解你——通过每一个个人偏好和先前的购买以及每一个在线评论和消费者报告的判定——你可能会开始更多地信任你的代理的指导,而不是任何其他信号。也许在企业中,后果更加明显,那里的采购流程常常受到人类情感、懒惰和先前关系的影响,这是任何首席财务官的持久恐惧。有多少购买决策是出于错误的原因——比如通过与销售人员一起观看足球比赛和享用牛排晚餐而加强的关系,而不是解决方案的价值和质量?像Globality这样的公司(在我的投资组合中,正在处理企业采购)和许多其他公司都在利用AI彻底改变公司的每一个职能。如果你总体上看这波公司,他们正在处理决策制定中主观性的巨大成本,并且旨在产生更好、更具成本效益的解决方案。最终,提升产品精英制解决了消费者和企业购买世界中的问题。AI威胁到由人为错误和偏见污染的主观决策制定,并将迎来一个最好的产品以最好的价值实际上可能赢得胜利的时代。这对买家来说是一个胜利,但对于那些未能创新并不断优化的卖家来说,可能会非常具有破坏性。 传统娱乐创作的商业将会发展,但不是我们预期的那样。最近,特别是来自代表演员和编剧的工会,人们非常关注AI的后果和潜在的工作流失。然而,我开始将娱乐的未来视为更多的是一个“核心和外围”模式,其中核心(好莱乐 – 以及所有与原创故事创作相关的参与者)只会变得更加强大和高效,而外围(用户生成的内容、未经授权的续集和长尾衍生产品)将增长100倍。随着每个品牌都用AI生成的内容充斥我们的意识,我们将比以往任何时候都更渴望故事、意义和原创性。AI的效率降低了内容创作的成本,所以我们可以承担更多的创意风险。而不是批准五个想法,也许我们可以批准十五个?也许好莱乐会花更少的时间重播安全的剧本(续集和熟悉的故事情节),而是花更多的时间发展新的特许经营权和富有想象力的故事情节?通过AI,核心可以变得好10倍,外围将增长100倍。这里的商业模式破坏是传统工作室中资金的花费。为什么不将衍生内容(续集、动画短片分支等)外包给一群选择的长尾创作者和利用AI的粉丝,然后将节省的资金重新分配给核心?我对AI在各行各业的影响的一般论点是:我们需要重视人类的独创性,并为创造性的头脑释放更高层次任务的能力。 帮助将最佳人才与正确机会相匹配的机制将推动更多的创造性精英制 – 并挑战“老男孩”网络。我一直对创造力感到非常沮丧的一大原因就是“运气”在多大程度上决定了伟大的想法是否能够问世。在好莱乐,你需要得到一个命中注定的经纪人介绍。在许多其他领域,你需要认识正确的猎头或与正确的机构建立联系,这往往更多地取决于你认识谁,而不是你的才华和想法的优点。那么,想象一下一个世界,在这个世界里,知识产权变得更加“开放”,以便更长的人才可以发挥作用,但是有保护措施(这与我们上面讨论的外围类型的内容有关)?也许像Marvel这样的品牌可以邀请100位热情的创作者超越工作室的墙壁,使用AI模型与他们的角色互动,探索新的情节想法?也许AI将帮助用户生成的内容不仅在质量上得到改善,而且还能从更高信号的网络策展人那里获得曝光?到目前为止,社交平台已经根据“关键群体”认为什么(点赞的数量)而不是“可信群体”认为什么(实际上喜欢内容的人是谁,他们作为品味制定者有多可靠)来展现内容。
NVIDIA 研究所的重大突破给机器人学习带来全新转机!
NVIDIA研究所开发的新型AI代理可以教机器人复杂技能,它已经训练了一个机械手进行快速的笔旋转技巧 – 这是机器人首次能像人类一样表现。 上面视频中展示的惊人的手法变换只是机器人已经学会熟练完成的近30项任务之一,这多亏了Eureka,它能自主编写奖励算法来训练机器人。 Eureka还教会了机器人打开抽屉和橱柜、投掷和接球以及操纵剪刀等其他任务。 今天发布的Eureka研究包括一篇论文和项目的AI算法,开发人员可以使用NVIDIA Isaac Gym(一种用于强化学习研究的物理模拟参考应用程序)来进行实验。Isaac Gym建立在NVIDIA Omniverse之上,这是一个基于OpenUSD框架构建3D工具和应用程序的开发平台。Eureka本身由GPT-4大型语言模型提供支持。 NVIDIA的AI研究高级主管兼Eureka论文的作者Anima Anandkumar表示:“强化学习在过去十年中取得了令人印象深刻的胜利,但仍然存在许多挑战,例如奖励设计,这仍然是一个反复试验的过程。” “Eureka是朝着开发新算法的第一步,这些算法集成了生成性和强化学习方法来解决困难的任务。” AI训练机器人 根据该论文,Eureka生成的奖励程序(使机器人能够进行试错学习)在80%以上的任务中胜过专家人类编写的程序。这为机器人带来了平均超过50%的性能提升。 由Eureka教授的机器人手臂打开抽屉。 AI代理利用GPT-4 LLM和生成性AI编写奖励机器人进行强化学习的软件代码。它不需要针对特定任务的提示或预定义的奖励模板-并且可以轻松地纳入人类反馈,以更准确地修改其奖励,以获得更符合开发者愿景的结果。 使用Isaac Gym中的GPU加速模拟,Eureka可以快速评估大批量奖励候选人的质量,从而进行更有效的培训。 然后,Eureka构建了一个从培训结果中提取关键统计数据的摘要,并指导LLM改进其奖励功能的生成。通过这种方式,AI在自我改进。它教会了各种机器人-四足动物、双足动物、四旋翼飞行器、灵巧的手、合作机器人手臂等等-完成各种任务。 研究论文提供了20项Eureka训练任务的深入评估,基于开源的灵巧性基准,要求机器人手展示广泛的复杂操纵技能。 在使用NVIDIA Omniverse生成的可视化中展示了九个Isaac Gym环境的结果。 人形机器人通过Eureka学习奔跑姿势。 NVIDIA的高级研究科学家之一,该项目的贡献者Linxi“Jim”Fan表示:“Eureka是大型语言模型和NVIDIA GPU加速模拟技术的独特组合。” “我们相信Eureka将能够实现灵巧的机器人控制,并为艺术家提供一种新的方法来制作物理上逼真的动画。” 这是一项突破性的工作,一定会让开发者的思维旋转起来,思考可能性,增加了最近NVIDIA研究的进展,如Voyager,这是一个用GPT-4构建的AI代理,可以自主玩Minecraft。 NVIDIA研究包括全球数百名科学家和工程师,团队专注于包括AI、计算机图形、计算机视觉、自动驾驶汽车和机器人技术在内的主题。
MemGPT
在MemGPT中,固定上下文的LLM(大型语言模型)处理器通过分层的内存系统和一套功能得到增强,使其能够管理自己的内存。主上下文是LLM的固定长度输入。在每个处理周期,MemGPT解析LLM的文本输出,并且可以选择放弃控制或执行函数调用,用于在主上下文和外部上下文之间移动数据。当LLM生成函数调用时,它可以要求立即返回执行,以将函数链接在一起。在产生“让步”情况时,除非遇到下一个外部事件触发器(例如用户消息或预定的中断),否则LLM不会再次运行 大型语言模型(LLM)在人工智能领域掀起了一场革命,但其受限的上下文窗口在一些任务,如延长对话和文档分析中,限制了其效用。为了克服这一局限,研究人员提出了一种名为“虚拟上下文管理”的技术,其灵感来源于操作系统中的分层内存系统,通过在高速和低速内存之间移动数据,营造出大量内存资源的假象。 基于此技术,研究团队开发了MemGPT(Memory-GPT),这是一种智能管理不同内存层级的系统,旨在在LLM有限的上下文窗口内有效提供扩展的上下文,并利用中断来管理系统与用户之间的控制流。该系统的设计灵感来自操作系统,已在两个领域进行了评估:文档分析和多次会话聊天。在文档分析任务中,MemGPT能够分析大幅超出LLM上下文窗口的大型文档;在多次会话聊天任务中,MemGPT可创建可以记忆、反思,并通过与用户长期互动而持续进化的对话代理。 研究团队在 https://memgpt.ai 网站上分享了MemGPT的代码和实验数据,以便其他研究者和从业者参考和使用。
亚马逊宣布,其新推出的由人工智能驱动的机器人能将订单处理时间缩短25%。
亚马逊正在其仓库中整合一种新的机器人系统,以改善交货时间、安全性和一般操作。据《华尔街日报》报道,这种名为“Sequoia”的由人工智能驱动的技术,可能将寻找和存储产品的速度提高多达75%,并将订单履行速度提高多达25%。该系统已在亚马逊位于休斯敦的一个仓库中推出。 Sequoia系统涉及运输产品托盘到分拣机的车辆。它使用机器人手臂和计算机视觉来识别库存,然后将其发送给员工进行交付。安全方面的一个声明是,这个过程为工人提供了腰部高度的物品,从而消除了他们对高架货架上物品的需求。Sequoia的推出紧随2022年Sparrow的仓库引入,Sparrow是一个由AI驱动的机器人手臂,可以识别和移动在此步骤之后剩余的产品。 尽管亚马逊将安全性列为Sequoia和Sparrow的动机,但亚马逊在这一领域的记录并不理想。调查报告中心Reveal出版物的2020年报告发现,在2016年至2019年期间,在自动化仓库工作的亚马逊员工的受伤率是那些没有与机器人一起工作的员工的两倍(亚马逊已公开对这一报道提出异议)。机器人的使用使员工需要扫描的物品数量从100增加到每小时多达400个。目前还不清楚Sequoia的实施是否会导致裁员。
DALL·E 3现已在ChatGPT Plus和Enterprise版本中上线!
这是个激动人心的消息!DALL·E 3的推出标志着人工智能在图像创建和理解方面迈出了新的一步。对于ChatGPT Plus和Enterprise的用户来说,这意味着他们现在能够利用DALL·E 3的高级能力,通过简单的文字描述生成具有相关性和创造力的图像。 这不仅能够加强视觉内容的生成,对于设计师、内容创作者、市场营销专业人员等行业的专业人士而言,也大大提高了他们的工作效率和创造力。此外,这项技术的整合还预示着在更广泛的应用领域中,我们将看到更多创新和智能解决方案的出现。 通过DALL·E 3,ChatGPT Plus和Enterprise用户将能体验到人工智能最新进展的直接好处,无论是在提升项目的视觉呈现,还是在开发新颖的应用方面,都拥有前所未有的机会。现在,准备好迎接一个更加丰富多彩、智能化的未来吧!
也许我们终将更深入了解AI是如何运作的
斯坦福大学在2023年的指数报告中,根据100个指标对10位顶尖开发者进行了评分。这提供了AI生态系统整体透明度的即时画面。所有开发者在透明度方面都有很大的改进空间,将在指数的未来版本中继续追踪这些进展。 在最新发布的2023年AI透明度指数中,情况似乎并不容乐观。即便是得分最高的开发者,也只在100分制评分中拿到了54分,可见在透明度方面,整个行业都面临着严峻的挑战。不得不说,对于这些处于行业前沿的基础模型开发者来说,他们距离提供充分透明度的目标,似乎还有一段相当长的路要走。 仔细分析这些数据,我们发现平均得分仅有37%,这无疑反映出一个事实:行业内普遍缺乏足够的透明度。然而,也并非全无希望,因为在82个评估指标中,至少有一家开发者能够满足其中的标准。这一点表明,只要这些公司愿意采纳并实施行业内的最佳实践,提高透明度不是不可能。 在众多参与评分的公司中,开放的基础模型开发者表现最为抢眼。特别是有两家,他们的透明度表现卓越,不仅位列前茅,而且还十分开放,允许公众下载他们的模型权重。而名为Stability AI的开发者,紧随其后,实力强劲。 综上所述,尽管目前各大AI公司在透明度方面还存在不少问题,但通过借鉴行业最佳实践,他们完全有能力做得更好。在这个快速发展的技术领域,理解和信任显得尤为重要,而这正是提高透明度所能带来的价值。
Meta推出了一款能读懂你的思维并绘制你所想的AI技术
Meta已经推出了一项开创性的AI系统,几乎能瞬间解码大脑中的视觉表征。 根据一项新的研究论文,Meta的AI系统每秒捕捉成千上万的大脑活动测量数据,然后重建我们的大脑是如何感知和处理图像的。报告称:“总体而言,这些结果为实时解码人脑中不断展开的视觉过程提供了重要的一步。” 这项技术利用了磁脑图(MEG)来实时展示思想的视觉表现。 MEG是一种无创脑成像技术,能测量大脑神经活动产生的磁场。通过捕捉这些磁信号,MEG为大脑功能提供了一个窗口,允许研究人员以高时间分辨率研究和绘制大脑活动。 Meta的思维解码技术示意图 图片:Meta—’ AI系统主要由三个部分组成: 图像编码器:此组件创建了一组独立于大脑的图像表示。它基本上将图像分解成AI可以理解和处理的格式。 大脑编码器:这部分将MEG信号对准图像编码器创建的图像嵌入。它充当桥梁,将大脑的活动与图像的表示相连接。 图像解码器:最后的组件根据大脑表示生成一个可信的图像。它接收处理过的信息,并重建一个反映原始思想的图像。 Meta的最新创新并不是读心AI领域的唯一近期进展。Decrypt报道称,加州大学伯克利分校最近的一项研究展示了AI通过扫描大脑活动重建音乐的能力。在那个实验中,参与者想到了Pink Floyd的“Another Brick in the Wall”,AI仅使用来自大脑的数据就能生成类似歌曲的音频。 此外,AI和神经技术的进步已经为身体残疾的个人带来了改变生活的应用。最近的一份报告突显了一个医疗团队成功地在一个四肢瘫痪男子的大脑中植入微芯片的成就。他们利用AI,“重新连接”了他的大脑和身体以及脊髓,恢复了感觉和运动。这些突破性进展预示着AI在医疗保健和康复方面的变革潜力。 观察到的图像与预测的图像 图片:Meta 这种技术的潜在应用非常广泛,从增强虚拟现实体验到可能帮助那些因大脑受伤而失去说话能力的人。 然而,以平衡的视角来看待这些进步是非常重要的。Meta的研究人员指出,虽然MEG解码器的速度很快,但在图像生成方面并不总是精确的。它产生的图像只代表了被感知图像的高级特征,如对象类别,但在详细说明方面可能会出错。 这项技术的影响深远。除了其直接应用之外,理解人类智能的基础并开发像我们一样思考的AI系统,可能会重新定义我们与技术的关系。 “这项技术的快速进步引发了几个伦理考虑,最值得注意的是,保护精神隐私的必要性,”研究人员警告说。最终,虽然AI现在可以描绘我们的思想,但保证画布仍然属于我们自己则取决于我们。
面对ChatGPT的竞争,Google开启“战争模式”并重塑公司文化!
面对ChatGPT的挑战,Google正在采取紧急行动。据报道,Google的Bard部门管理层要求其下属员工以“Bard速度”全速推进工作。这意味着Bard项目的工作节奏远超Google的其他部门。例如,一项新功能的审查在提交当天就可以完成,而通常需要一个季度完成的新功能现在只需一周时间。 对于一个以审慎著称的公司来说,Google加速Bard项目的决策让一些员工感到震惊但也充满活力。为了应对由OpenAI的ChatGPT带来的挑战,Google今年三月推出了Bard,这款产品与ChatGPT类似,也能为用户提供半自动编程、文档摘要、生成博客文章、撰写营销文案等功能。若所有功能都实现,Bard将为Google的语音助手Assistant提供巨大帮助。 Bard团队现已发展到数百人。与此同时,其竞争对手OpenAI的年收入迅速增长到13亿美元,这给Bard带来了更大的开发压力。 但Bard团队目前处于一个尴尬的局面:他们几乎没有参与推动AI聊天机器人的核心语言模型,这部分工作主要由Google DeepMind的Gemini团队负责。此外,尽管Google搜索可以展示“生成AI”结果,但Bard在其中并没有作用。 目前尚不清楚Bard有多少用户,或Google是否像OpenAI一样为高级版本收费,但很可能Bard对Google的重要性会上升。目前,Google正在将Bard推广为几大移动应用中的顶级品牌。预计Bard团队能够获得Gemini的开发数据后,Bard的功能将得到大幅提升。 幕后,Google副总裁兼Bard团队领导Sisie Hsiao及其助手正试图为团队注入紧迫感,这也被一些员工称为“战时”工作,包括更紧迫的任务完成期限,这有时需要员工继续在晚上和周末工作。 不过,对于员工关于工作与生活平衡的问题,Sisie Hsiao表示,如果员工有此类担忧,他们应与上司沟通,看看他们是否适合继续为Bard团队工作。 目前有迹象表明,Sisie Hsiao正在测试新方法来加速产品开发,将员工分配到多个团队,各团队平行推进不同功能的研发。Bard员工将被划分为约30个团队进行定期工作评审,之后Bard高层管理将提供反馈。 分析师认为,尽管Bard目前存在失误,但鉴于其出色的团队领导能力和可能获得的Gemini支持,没有理由看低Bard。
Mac用户热衷于使用人工智能应用,42%的用户每天都在使用这些应用
根据应用订阅服务Setapp的新报告,Mac应用用户对AI的采纳正快速增长。报告发现,如今有42%的Mac用户每日使用基于AI的应用,而63%的用户认为AI应用比没有AI的应用更有益。此外,Mac应用开发者也正在拥抱AI,其中44%已经在他们的应用中实施了AI或机器学习模型,还有28%表示他们正在考虑这样做。 此次调查是该公司发布的关于Mac应用状况的年度报告的一部分,其业务涉及提供订阅服务,该服务可访问超过230个Mac应用。今年,该调查收到了来自主要在美国的1,241名Mac用户的回应,因此它并不一定能提供关于全球范围内基于AI的应用采纳情况的见解。然而,报告强调了这部分Mac用户对AI应用的兴趣,并指出,顶级AI应用包括那些不仅仅是macOS原生应用,如集成了OpenAI技术的Google的AI Bard和Bing。 此外,用户提到的其他顶级AI应用包括TypingMind、Elephas、Spark、Notion、Grammarly、Craft、Luminar Neo、MacGPT、Asana、Raycast和MacWhisper。其中一些应用利用AI增强了它们现有的应用,而不是完全专注于与AI互动的应用。 Setapp的产品负责人Mykola Savin在一份声明中表示:“我们看到AI如何通过提供额外的用户帮助来改变应用的使用体验。在Setapp,我们也看到了AI工具和我们在平台上实施的功能的广泛采纳。也许并不是每个人都能在第一次尝试时成功使用AI。但当他们这样做时,他们倾向于反复使用这些功能。” 这是Setapp在其年度调查中首次询问关于AI应用采纳的情况,所以无法量化现在有多少Mac用户与过去相比每天都在使用AI应用。但看起来,AI应用在用户日常工作流中所占的份额相当大。在他们的Mac上平均安装了51个应用,用户每天可以访问多达15个。由于42%的人表示他们每天都在使用AI应用,这意味着AI现在已经成为用户日常工作流的重要部分。 其他经常使用的应用包括浏览器应用、Microsoft和Google的办公工具(它们也都集成了AI技术)以及Adobe软件。后者在一系列应用中都采纳了生成型AI,包括Photoshop和其他Creative Cloud应用。因此,用户真正接触到的AI驱动的应用可能还要多。 此次调查还报告了关于Mac应用采纳和发现的其他一般性发现,指出订阅比一次性购买更受欢迎,应用发现的主要方式包括Mac App商店、YouTube和社交媒体。此外,70%的调查受访者报告说他们的Mac配备了M1或M2芯片。