最近,科技圈里又传出了一则令人振奋的消息:新晋搜索引擎公司Perplexity,在本年度已经完成了两轮融资后,正式启动了第三轮筹资,金额高达2.5亿美元!这一轮的融资将公司的估值推至25亿至30亿美元之间,让人不禁对这个挑战谷歌的新星刮目相看。 才两岁的Perplexity已经成为投资者的宠儿,尤其是在今年年初和三月初的两轮融资中表现尤为抢眼。他们在一月份募集到7400万美元,估值为5.4亿美元;到了三月,又以令人惊叹的姿态,从包括NVIDIA和亚马逊创始人杰夫·贝佐斯在内的投资者手中筹得6400万美元,估值飙升至10亿美元。更有意思的是,尽管与谷歌竞争激烈,前YouTube首席执行官Susan Wojcicki和谷歌大脑的早期成员Jeff Dean竟然也加入了投资者行列。 但Perplexity究竟有何魔力,让这些重量级玩家趋之若鹜呢?原来,这家初创公司利用先进的人工智能技术,包括使用大型语言模型(如GPT-4、Claude 3和Mistral)来搜索网络信息,并为用户提供带有引用的信息摘要。它已经迅速成为谷歌的有力竞争者,不仅处理的搜索查询数量比去年全年多出7500万次,而且还获得了包括NVIDIA首席执行官Jensen Huang在内的业界巨头的高度评价和频繁使用。 此外,Perplexity还成功吸引了包括Databricks、Stripe、Zoom、NVIDIA和HP等大客户的关注,它们分别利用这个平台进行票务销售趋势研究、精准营销推广、市场环境深度解析和更有效的搜索等,充分体现了Perplexity在金融、法律、体育、广告、软件和硬件等多个行业的广泛应用前景。 看来,Perplexity不仅仅是一个普通的搜索引擎,它正在用AI的力量重新定义信息搜寻的方式,也许很快我们就会看到更多的“Perplexity狂热者”出现。总之,这个大胆挑战传统的新生儿,正以它独特的魅力颠覆着整个搜索引擎市场。
《Adobe Firefly Image 3:创新步伐与挑战并存的AI图像生成技术升级》
Adobe的Firefly系列生成AI模型在创意人士中的声誉并不佳。特别是Firefly图像生成模型,与Midjourney、OpenAI的DALL-E 3以及其他竞争对手相比,它因画面扭曲和对细节的处理不足而被视为不足。然而,Adobe正试图通过其第三代模型——Firefly Image 3来改善这一状况,该模型于本周在公司的Max London会议期间发布。 这款现已在Photoshop(测试版)和Adobe的Firefly网络应用中可用的模型,比前两代(Image 2和Image 1)生成的图像更“真实”,这归功于其对更长、更复杂的提示和场景的理解能力,以及改进的照明和文字生成功能。Adobe表示,它应该能更准确地渲染包括排版、图标、栅格图像和线条艺术在内的内容,并且在描绘拥挤人群和具有“详细特征”及“多种情绪和表情”的人物方面“显著”更加娴熟。 image 2 据非正式测试显示,Image 3确实比Image 2有所提升。 image 3 以下是Image 3和Image 2对比的示例,展示了Image 3在场景理解方面的进步: Image 3的改进无疑得益于更大、更多样化的训练数据集。与Image 2和Image 1一样,Image 3是在Adobe Stock上传内容、已授权和版权到期的公共领域内容的基础上进行训练的。Adobe Stock不断增长,相应的可用训练数据集也在增加。 为了避免诉讼并将自己定位为一个更“道德”的选择,Adobe对训练数据集中的Adobe Stock贡献者实施了支付计划,尽管该计划的条款相当不透明。有争议的是,Adobe还在训练Firefly模型时使用了AI生成的图像,有些人认为这是一种数据洗白行为。 最近的报道揭示,Adobe Stock中的AI生成图像没有从Firefly图像生成模型的训练数据中排除,在这些图像可能包含重复使用的版权材料的情况下,这是一个令人担忧的前景。Adobe为这一做法辩护,声称AI生成的图像只占其训练数据的一小部分,并经过审核过程以确保它们不会展示商标或可识别的角色,或引用艺术家的名字。 尽管拥有更多样化、更“道德”来源的训练数据以及内容过滤器和其他安全措施,也不能保证完全无瑕疵的体验。Image 3的真正测试将在社区开始广泛使用后到来。 与此同时,Image 3为Photoshop带来了几项新的AI驱动功能,不仅仅是增强的图文转换能力。 Image 3的“风格引擎”和新的自动风格化开关,让模型能够生成更广泛的颜色、背景和主题姿势。这些功能被整合到了参照图像选项中,允许用户根据他们希望其未来生成内容 对齐的图像的颜色或调性来调整模型。 新增的三个生成工具——生成背景、生成相似和增强细节——利用Image 3执行精确的图像编辑。生成背景将背景替换为与现有图像融合的生成背景,生成相似则提供照片选定部分的变体(例如人物或物体)。至于增强细节,它则“微调”图像以提高清晰度和清晰度。 Adobe表示,当前的定价层将保持不变,其赔偿政策,声明Adobe将支付与Firefly生成作品相关的版权索赔,也不会改变,其AI生成内容的水印方法也是如此。内容凭证——标识AI生成媒体的元数据——将继续自动附加到网络上和Photoshop中的所有Firefly图像生成上,无论是从头开始生成还是部分使用生成功能编辑的。
研究发现:提示中加入数百个示例显著提升大型语言模型的性能
近期研究显示,当大型语言模型(LLMs)在提示中直接接收到数百甚至数千个示例时,它们在多种任务上的表现显著提升。这项由谷歌、DeepMind等机构的研究人员进行的研究探讨了LLMs在直接通过提示学习大量示例时性能的提升情况,这种方法被称为多示例上下文内学习(Many-Shot In-Context Learning,ICL)。 上下文内学习(ICL)意味着示例直接在上下文(即提示)中给出,不需像微调那样调整模型参数。后者耗时更多,也更昂贵。以往,由于模型一次不能处理和生成大量文本,通常只给模型提供少数几个示例(单示例、少示例)。现在,随着“上下文窗口”(一种短期记忆)的扩大,可以在提示中直接提供给模型数百甚至数千个示例(多示例)。 在使用谷歌的Gemini 1.5 Pro语言模型进行的测试中,该模型可以处理多达一百万个令牌(约70万词)的上下文。结果显示,多示例提示在翻译、总结、规划和回答问题等任务上的表现显著优于少示例提示。 例如,在使用大约1000个翻译示例的情况下,Gemini 1.5甚至在库尔德语和泰米尔语这两种语言的翻译上超越了谷歌翻译,这是迄今为止LLMs与谷歌翻译之间报告的最大差距。在新闻摘要方面,该模型几乎能与专门的程序相媲美,但偶尔会出现如错误的数据和时间等虚构信息,这些信息并未出现在学习示例中。此外,当示例超过50个后,性能开始下降,研究人员尚无法解释此现象。 对于复杂的逻辑任务,如数学或科学问题,研究人员让模型自己创造解决方案并将其作为额外的学习示例,这种方法(“强化ICL”)比人工创造的解决方案更为可靠。 在一个仅给出问题而不给解决方案的实验中(“无监督ICL”),对于某些逻辑任务,这种方法仍然比几个完整的示例效果更好。然而,它通常无法达到“强化ICL”自生成解决方案的水平。研究还发现,模型通过示例“遗忘”了预训练中的错误,并且在给予足够多的示例后甚至能识别抽象的数学模式。然而,示例的给出顺序对模型产生了影响,使提示变得更加复杂。为什么性能有时在示例更多时反而下降,这仍是一个悬而未决的问题。未来的研究需要澄清这一点。 总之,这些结果显示,语言模型可以从提示中的许多示例中可靠地学习。这可能会在未来使针对特定任务的耗时训练变得不再必要。
谷歌推出六大免费人工智能课程,助你轻松启程AI学习之旅
近年来,人工智能(AI)成为科技界的一颗冉冉升起的新星,越来越多的初学者渴望在这片神秘的领域里一探究竟。好消息是,现在有六门免费的AI在线课程,为初学者提供了一条系统的学习路径。每一门课程都旨在以简洁明了的形式介绍基本概念和实用工具,让你轻松开启AI学习之旅! 1. 生成型AI入门:Introduction to Generative AI | Google Cloud Skills Boost 这门课程将带你初识生成型AI,解释其与传统机器学习方法的不同,并探索生成型AI的应用场景。课程中还包括了如何使用谷歌开发的工具来创建自己的AI驱动应用的实操演示,非常适合对AI内容生成及跨领域创新感兴趣的学者。 2. 负责任的AI入门:. Introduction to Responsible AI 本课程关注AI技术的伦理方面,介绍负责任的AI的重要性及其在AI系统开发中的应用。课程内容还涵盖了谷歌的七大AI原则,指导学员如何在项目中负责任地实施AI,确保AI技术的使用既符合道德标准又对社会有益。 3. 变压器模型与BERT模型深度解析:Transformer Models and BERT Model 这门课程将深入探讨变压器模型和双向编码器表示变换器(BERT)模型,讲解变压器架构的各个组成部分,如自注意力机制,并探讨其在文本分类和问答等应用中的使用。适合对最新自然语言处理技术感兴趣的学员。 4. 大型语言模型入门:Introduction to Large Language Models: 本模块介绍大型语言模型及其应用场景,学员将了解如何通过提示调整来提升模型性能。课程还包含了使用谷歌工具开发大型语言模型应用的实用信息,帮助学员实践这些模型的部署。 5. 编码器-解码器架构:Encoder-Decoder Architecture: 编码器-解码器架构是理解AI如何处理文本总结和机器翻译等序列到序列任务的基础。本课程解释了这一架构的主要组成部分,并提供了一个实际的实验室,让学员可以使用TensorFlow编写一个简单的编码器-解码器模型,这种实践经验对于将AI应用于语言任务至关重要。 6. 注意力机制入门:Attention Mechanism 这门课程介绍了注意力机制,这是一种关键组件,通过使神经网络能够专注于输入序列的特定部分来提高性能。课程内容包括注意力机制在机器翻译和文本总结等机器学习任务中的应用,帮助学员更好地理解如何通过注意力技术改善模型性能。 每门课程的完成时间大约为45分钟,并且完成后可获得数字徽章,学员可以在专业平台上展示他们的新技能。这些课程为AI的基础知识到高级算法和架构的探索提供了完美的基础。
COCONut:打造下一代通用分割数据集,重塑计算机视觉基准
近年来,计算机视觉技术由于像COCO这样的综合基准数据集的推动而取得了飞速发展。但是,自COCO面世近十年后,其作为现代AI模型基准的适用性正受到质疑。其标注可能包含早期计算机视觉研究中的偏见和细微差别。随着模型在COCO数据集上的表现逐渐趋于平稳,人们担心过度拟合数据集的特定特征,可能限制了其在现实世界中的应用性。 下载: COCONut: Modernizing COCO Segmentation 为了使COCO分割现代化,研究人员在本文中提出了COCONut——一种全新的、大规模的通用分割数据集。与之前创建大型数据集时常常为了扩展而牺牲标签精度不同,COCONut提供了383K张由人工验证的掩码标记图像。想象一下手工标注数百万个图像中的物体,这将需要数年时间!COCONut通过一个创新的辅助人工标注流程解决了这一挑战,该流程利用神经网络来增强人工标注者的工作效率。 这一流程包括四个关键阶段:机器生成预测、人工检查和编辑、掩码生成/精细化以及专家质量验证。在每个阶段,不同的神经模型分别处理“物体”(可数对象)和“非物体”(无定形区域)类,以确保标注的高质量。 但这个辅助人工流程是如何实际运作的呢?在第一阶段,边界框检测器和掩码分割器分别为“物体”和“非物体”类生成初步提议。人工标注者随后检查这些提议,并根据需要编辑或新增提议。精细化后的框和点被送入不同的模块生成最终的分割掩码。最后,专家标注者验证这些掩码的随机样本,重新标记任何不符合严格质量标准的掩码。 为了扩大数据集规模的同时保持质量,研究人员构建了一个数据引擎。它使用标注数据反复训练神经网络,为标注流程生成更优的提议。这一正向反馈循环,加上来自其他数据集的额外图像,最终形成了包含358K张图像和475万个掩码的COCONut-L分割。 研究人员进行了全面分析,将COCONut的标注与纯人工标注进行了比较。他们的专家标注者在“物体”和“非物体”掩码上展现了高度一致性。与此同时,辅助人工流程显著加快了“物体”类的标注速度。COCONut分为三种规模——COCONut-S(118K张图像)、COCONut-B(242K张图像)和COCONut-L(358K张图像,带475万个掩码)。量化结果显示,随着训练集规模从COCONut-S扩展到COCONut-L,各种神经架构的表现都有所改善。 有趣的是,尽管较大的伪标签数据集带来的收益有限,但在完全由人工标注的COCONut-B上训练带来了最显著的性能提升。这强调了人工标注 数据对于训练强大的分割模型的重要性。 COCONut代表了COCO基准现代化的重大进步。凭借其精心人工验证的标注和严格策划的25K图像验证集(COCONut-val),它有望成为评估当代分割模型的更具挑战性的测试平台。COCONut的开源发布为开发更能力强大、更公正的计算机视觉系统铺平了道路,这些系统适用于现实世界的场景。
AI法庭革命:如何一款名为JusticeText的程序在威斯康星州的一起性侵案中揭示了警方的不当行为
上一年7月25号,在美国威斯康星州的戴恩县,一个看起来平平无奇的刑事案件引爆了一场法律风暴。这不仅仅是因为案件本身,而是因为辩护律师用上了一项黑科技——人工智能。想象一下,这是一部现实版的《少数派报告》。 让我们先来说说这位辩护律师杰萨·尼科尔森·戈茨,她在为自己的客户辩护,这位不幸的灵魂被控在2021年的一次Tinder约会后犯有性侵罪行。就在庭前动议阶段,杰萨的搭档发现了一个问题:主调查官在使用身体摄像头时,似乎有点左支右绌。根据部门的政策,他应该全程佩戴摄像头的。 于是,杰萨索要了与调查相关的录像,警方交出了40小时的视频。通常这种海量数据的倾倒在审判前夕才会发生,对于资源不足的辩护律师来说,这简直是噩梦。但这次不同,因为杰萨使用了JusticeText——一个由两位芝加哥大学计算机科学系毕业生开发的AI程序。这个程序可以快速转录并标记摄像头的音频数据,将长时间的工作压缩到几分钟内完成。 尽管JusticeText没有找到直接证明客户无辜的证据,但它确实揭示了警方的一些问题,特别是一些“明显且可能的有利证据被销毁”的迹象。当杰萨在JusticeText分析的视频中看到调查员对证人说“我尽量说得含糊一些,因为我不想这被记录下来”时,她感到震惊。这段对话后来成了案件被驳回的关键。 法官在3月8日的裁决中提到,由于调查官的行为,被告的辩护权益受到了无法挽回的损害,因此决定驳回这起案件。杰萨·尼科尔森·戈茨因此感叹道:“如果没有JusticeText,审判就会如期进行,而不是被推迟并最终驳回。这彻底改变了我处理发现阶段材料的方式,因为现在我对外面的一切都充满了好奇。” 这就是在现代法律斗争中,AI如何成为一名不可或缺的战士。而这只是个开始,许多类似JusticeText的程序正在被开发和使用,未来的法庭对决可能将更多依赖这些智能工具。
波士顿动力全新电动版Atlas机器人亮相,引领实际应用新篇章
近日,波士顿动力公司在其液压动力的Atlas机器人“退休”后,推出了全新的电动版Atlas,该机器人预计将投入实际应用中。An Electric New Era for Atlas | Boston Dynamics 波士顿动力,这家坐落在美国波士顿的工程与机器人设计巨头,早在2013年就发布了6.2英尺高的Atlas人形机器人。这些年来,我们经常能在视频里看到液压Atlas在假装的建筑工地上跳跃、舞蹈,甚至扔工具包。 时隔十一年,波士顿动力宣布Atlas机器人可以“轻松一下”退休了。取而代之的是全新的电动版Atlas。这一代的Atlas头部装有环形灯,身体部件可旋转,不仅更强壮、更灵巧,也更加敏捷。 虽然外形似人,新Atlas在执行任务时的移动方式却追求效率最大化,不受人类动作范围的限制。 新版Atlas的目标是承担那些单调、肮脏甚至危险的任务。为了测试并迭代Atlas的应用,波士顿动力将与合作伙伴共同研发,首批合作伙伴为现代汽车。 正如公司在博客中所言:“现代汽车团队正在打造下一代汽车制造能力,这将成为新Atlas应用的完美试验场。在接下来的几个月乃至几年里,我们很激动能展示这款世界上最动态的人形机器人的真正能力——无论是在实验室、工厂还是我们的生活中。” 此外,电动Atlas将在液压版的基础上进行扩展,例如,波士顿动力表示将探索多种新的抓取器变体,以满足客户环境中预期的多样化操控需求。 新Atlas还将配备新的人工智能和机器学习工具,如增强学习和计算机视觉,使其能够高效适应复杂的实际情况。 波士顿动力表示:“我们有一个强大的机器学习专家团队正在塑造我们的产品,我们准备立即将有影响力的人工智能推向市场……随着Atlas的发展,这一切将变得更好、更快。”
微软推出VASA-1:通过单张图片和音频创造逼真人脸,技术前景与潜在风险并存
微软研究人员开发了名为VASA的新系统,该系统能够仅使用一张图片和一段音频就创造出逼真的会说话的人脸。VASA-1是基于此框架构建的第一个模型,能够产生精确同步的唇动、自然的头部动作和面部表情,这些都有可能在各种应用中创造更加引人入胜和逼真的体验。 VASA-1的功能不仅仅是将唇部动作与音频匹配。它能够捕捉广泛的情感、细微的面部差异和自然的头部动作,使生成的面孔显得更加可信。此外,用户还可以控制生成视频的内容,比如指定角色的凝视方向、感知距离乃至情绪状态。 最棒的是,该系统还设计有处理意外输入的能力。尽管VASA-1没有针对艺术照片、歌声或非英语语音进行训练,但它仍然可以使用这些输入生成视频。 VASA-1之所以能实现这种现实感,是通过将面部特征、3D头部位置和面部表情分离开来处理。这种“解耦”为视频生成中这些方面的独立控制和编辑提供了可能。 VASA-1的研究团队还强调了其实时效率。该系统能够以高帧率产生高分辨率视频(512×512像素),在离线模式下,其生成帧率为每秒45帧,而在线生成的帧率为每秒40帧。 虽然承认这项技术可能被滥用的潜力,研究人员还是强调了VASA-1的积极应用,包括增强教育体验、帮助有沟通障碍的人士,以及提供陪伴或治疗支持。 然而,我对这项研究论文的时机提出质疑。我认为鉴于人们在社交媒体上会轻信见到的任何东西,这项技术可能会在选举期间被严重滥用,其发布时间本可以推迟。此外,我发现这项技术与谷歌的VLOGGER非常相似。
Meta推动全球AI助手革命:Llama 3引领技术前沿,Meta AI助手全面融入社交媒体平台
ChatGPT引领了AI聊天机器人的浪潮,而Meta则决心在这场竞赛中胜出。 为此,去年9月推出的Meta AI助手现已整合进Instagram、Facebook、WhatsApp和Messenger的搜索栏,并将直接出现在Facebook主要信息流中。你仍然可以在Meta应用的消息收件箱中与它聊天。现在,首次通过独立网站Meta.ai进行访问也成为可能。 为了使Meta的助手有希望成为真正的ChatGPT竞争对手,其底层模型必须同样优秀,甚至更胜一筹。这也是为什么Meta同时宣布推出Llama 3,其下一代基础开源模型。Meta表示,Llama 3在关键基准测试中胜过同类竞争模型,在诸如编码等任务上表现更佳。今天发布的两个较小的Llama 3模型已经整合在Meta AI助手中,并向外部开发者开放,而一个更大、多模态的版本将在未来几个月推出。 Meta的目标是让Meta AI成为“全球人们可以自由使用的最智能AI助手”,CEO马克·扎克伯格告诉我。“有了Llama 3,我们基本上认为我们已经实现了这一目标。” 在美国和其他几个国家,你将开始在更多地方看到Meta AI,包括Instagram的搜索栏。Meta AI助手是我所知的唯一一个集成了来自Bing和Google的实时搜索结果的聊天机器人——Meta将决定何时使用哪个搜索引擎来回答问题。其图像生成能力也已升级,能够在你输入时即时生成动画(本质上是GIF)和高分辨率图像。此外,当你首次打开聊天窗口时,一个受Perplexity启发的提示建议面板旨在“揭示通用聊天机器人能做什么”,Meta的生成AI负责人Ahmad Al-Dahle说。 虽然到目前为止它只在美国可用,但Meta AI现在正在向澳大利亚、加拿大、加纳、牙买加、马拉维、新西兰、尼日利亚、巴基斯坦、新加坡、南非、乌干达、赞比亚和津巴布韦等国的英语用户推出,未来还将覆盖更多国家和语言。这与扎克伯格提出的真正全球AI助手的设想还有距离,但这一更广泛的发布使Meta AI离最终触及公司超过30亿的日活跃用户又近了一步。 有人可能会说这是无耻的抄袭。但很明显,扎克伯格认为Meta庞大的规模加上其快速适应新趋势的能力,是其竞争优势。他正用同样的策略在Meta AI上进行投资,将其推广到各处。 “我不认为今天有很多人在谈论主要AI助手时会想到Meta AI,”他承认。“但我认为这是我们真正开始向很多人介绍它的时刻,我预计它将成为一个相当重要的产品。” 今天,Meta正在向外部开发者推出两个开源的Llama 3模型,有一个80亿参数模型和一个700亿参数模型,这两个模型都将在所有主要的云提供商上可用。(从非常高的层次来看,参数决定了模型的复杂性及其从训练数据中学习的能力。) Llama 3是一个展示AI模型快速扩展的好例子。去年发布的Llama 2最大版本有700亿参数,而即将推出的大版本Llama 3将有超过4000亿参数,扎克伯格说。Llama 2在2万亿标记上训练,而大版本的Llama 3则有超过15万亿标记。(OpenAI尚未公开确认GPT-4的参数数量或标记。) Llama 3的一个关键焦点是显著减少其错误拒绝,即模型声称无法回答实际上是无害的提示的次数。扎克伯格举的一个例子是要求它制作一杯“杀手玛格丽塔”。另一个例子是我在去年的一次采访中给他的,当时Meta AI的最早版本不会告诉我如何分手。 Meta还没有最终决定是否将4000亿参数版本的Llama 3开源,因为它仍在训练中。扎克伯格对于出于安全原因不开源的可能性并不看重。 “我不认为我们或其他领域的人在明年工作的任何东西真的处于那种风险的水平,”他说。“所以我相信我们能够开源。”
台积电在第一季度就给大家来了个惊喜,因为AI芯片的需求大爆发,他们的收入和利润都超出了市场预期
最近,台积电公布了2024年第一季度的财报,喜报连连啊!他们的收入和利润不仅超出了市场预期,还让人看到了芯片行业的新高度。第一季度,台积电的净收入达到了惊人的5926.4亿新台币(约合188.7亿美元),净利润也高达2254.9亿新台币。这些数字的背后,是对3纳米和5纳米技术强劲需求的支撑,特别是在AI应用领域的使用需求激增,因为现在的AI,比如ChatGPT和它的中文兄弟们,正火得一塌糊涂。 台积电不仅是全球最大的先进处理器生产商,还和Nvidia、苹果这些大佬是好基友。他们的CEO C.C. Wei信心满满地表示,2024年将是一个健康增长的年份,得益于技术领先和客户基础的扩大。他还特别提到,几乎所有的AI创新者都在与台积电合作,以满足对节能计算力的巨大需求,预计来自服务器AI处理器的收入将在今年翻倍。 不过,就在台积电财报飘红的同时,台湾上个月还发生了25年来最强的地震,幸好台积电的发言人表示,初步检查其建设现场一切正常,虽然有些晶圆受损需要报废,但预计第二季度大部分生产都能恢复,对收入的影响微乎其微。 而在美国,台积电的亚利桑那子公司也拿到了最高达66亿美元的政府资金初步批准,用于建造世界上最先进的半导体。看来,无论是地震还是竞争,台积电都稳如老狗,未来十年,芯片市场的春天还将继续,让我们拭目以待吧!