Meta的Llama 3模型是在创纪录的数据量上训练的,这可能会导致整个人工智能行业的重新思考,并产生更优秀的模型。 在Llama 3中,Meta推出了一款新的语言模型,其在某些领域的表现显著超过其他模型。据Meta称,性能提升的关键在于显著增加的训练数据量和使用1000万高质量示例进行的精细调整。 虽然高质量数据能够提高甚至是较小语言模型的性能已是众所周知的事实——微软最近再次用其Phi-3模型证实了这一点——但用于预训练的数据量仍然令人惊讶。即使是拥有80亿参数的模型也是在大约15万亿个标记上进行训练的。值得注意的是,这种训练不仅远远超过了用于Llama 2的数据量,也超过了DeepMind发展的Chinchilla缩放法则认为的最优数据量。 语言模型可能显著欠训练根据DeepMind的Chinchilla法则,对于一个80亿参数的模型,约2000亿训练标记被认为是最优的,以最有效地利用计算能力。Llama 3的训练数据量是这个数字的75倍。 尽管训练数据量巨大,Meta发现,“80亿和700亿参数模型在我们对其进行最多15万亿标记的训练后,继续呈对数线性改善”,公司的博客文章中提到。 AI研究员Andrej Karpathy在X(前身为Twitter)上解释说,Chinchilla法则“告诉你计算的最优点”,但没有说明一个模型可以被训练到何种程度直到达到其最大性能。Karpathy是OpenAI的创始成员,曾是特斯拉的AI负责人。 尽管目前尚不清楚通过更长时间的训练能够将语言模型的性能提高到何种程度,直到收益变得微不足道为止。然而,Meta已经表明,尚未触及可能的极限。Karpathy希望其他AI公司将跟随Meta的例子,发布更多经过长时间训练的小型模型。
Adobe即将推出的大项目是一款AI,能将低分辨率视频提升至原始质量的8倍
最近,Adobe的研究团队发布了一篇关于名为VideoGigaGAN的新型生成式AI模型的论文,我们认为这种技术可能会在未来的产品中推出。VideoGigaGAN的功能是将低质量视频的分辨率提升至原始分辨率的最高八倍,同时不牺牲视频的稳定性或忽视源材料的重要细节。项目网站上有几个演示视频展示了它的能力,比如将一个模糊的128×128像素的瀑布视频转换成1024×1024像素的高清视频。 值得注意的是,这种AI技术在处理细节上毫不妥协。在人物面部上可以看到皮肤质地、皱纹、头发丝等细节。其他演示视频也展示了类似的高质量效果。比如,通过这项技术,你可以更清楚地看到池塘中游泳的天鹅和树上的花朵。可能会觉得关注皮肤的皱纹或羽毛等细节有些奇怪,然而,正是这种级别的细节处理,Adobe这样的公司必须精确掌握,如果他们打算在广泛的范围内实施图像增强AI。 改进的AI技术复杂难懂。 “GAN”在VideoGigaGAN中代表生成对抗网络,这是一种能够创建逼真图像的AI类型。Adobe的版本特别基于GigaGAN,专注于提升生成内容以及真实照片的质量。正如TheVerge所指出的,这项技术的问题在于它在提高视频质量时会引起多种问题,如奇怪的图像失真。为了解决这一问题,Adobe研究人员使用了多种技术。 研究论文解释了整个过程,尽管内容密集,你可以自行阅读以获取完整的信息。基本上,他们引入了“流引导传播模块”以确保视频帧之间的一致性,使用抗锯齿技术减少图像失真,以及“高频特征传输”来补偿细节突然下降。VideoGigaGAN的内容不止这些,但这就是其主要内容。 潜在的应用 我们是否会在即将推出的Adobe产品中看到这一技术,或者作为一个独立的应用推出?很可能——至少我们是这么认为的。 在过去的一年中,该公司一直在重点实施人工智能到其软件中,从推出Firefly到Acrobat的新助手。就在几个月前的Adobe MAX 2023期间,一个被称为Project Res Up的视频增强器在活动中预览,其性能与我们在VideoGigaGAN演示中看到的类似。一部20世纪40年代的旧电影从480×360像素分辨率提高到了清晰的1280×960像素。河中大象的模糊视频变得清晰可见。演示者甚至提到,软件可以将剪辑的质量提升四倍。 公开承认,这只是猜测,但VideoGigaGAN很可能是Res-Up背后的引擎。Adobe的未来产品可能会为人们提供一种将旧家庭视频或低质量视频提升为我们脑海中想象的电影的方式。也许,最近的预览是即将发布的暗示。 VideoGigaGAN仍在深入开发中,因此尚不清楚何时或是否会发布。这项AI在处理超过200帧的视频或渲染小物体时还存在一些障碍,但我们肯定会继续关注。 下载:https://arxiv.org/pdf/2404.12388
Elon Musk的AI初创公司xAI完成60亿美元融资,估值飙升至180亿美元
Elon Musk 的 AI 初创公司 xAI 正在完成一轮价值60亿美元的投资,使公司估值达到180亿美元。红杉资本是确认的投资者,这轮融资预计将在几周内完成。xAI 正在寻求60亿美元的资金。 这是一笔足以让你早晨喝咖啡时呛到的巨款。 这个新数字是 xAI 此前讨论的融资数字的两倍。xAI 上一轮10亿美元的融资主要由 Elon Musk 融资,但现在外部投资者(如支持 OpenAI 的红杉资本)也加入了混战。Valor Equity Partners 和 Vy Capital 也有望加入。 这笔资金将被用来推进 xAI 的聊天机器人 Grok,使其成为 ChatGPT 的强大竞争对手。xAI 也在积极吸引工程师,其中包括一些来自 Tesla 的人才。 有了 Elon Musk 的名字,180亿美元听起来似乎不多,但放在背景下看,OpenAI 现在的估值为860亿美元,Twitter(X)被收购的价格为440亿美元。简而言之,投资者的这次投注是巨大的。 他们可能并没有错。许多人因为 Elon 的营销,将 Grok 视为一个只会发表搞笑内容的聊天机器人。但未发布的 Grok 1.5 看起来像是一个出色的 AI 模型,而且与流行话题的 ‘X’ 集成也进行得很顺利。xAI 拥有出色的 AI 人才和不屈不挠的 Elon。押注 Elon…
英伟达以7亿美元收购Run:ai,首次向OpenAI交付DGX H200系统
英伟达收购了总部位于特拉维夫的Run:ai,这是一家使开发者和运营团队更容易管理和优化其AI硬件基础设施的公司。虽然交易的具体条款没有公开披露,但有两位接近此事的消息人士向TechCrunch透露,交易金额为7亿美元。 CTech今天早些时候报道称,双方正处于“高级谈判”阶段,英伟达可能会为Run:ai支付高达10亿美元。显然,谈判进展顺利,除了可能的价格变动外。 英伟达表示,它将继续以“相同的商业模式”提供Run:ai的产品,并将投资于Run:ai的产品路线图,作为Nvidia的DGX Cloud AI平台的一部分,该平台为企业客户提供计算基础设施和软件,客户可以使用这些设施和软件来训练生成型和其他形式的AI模型。英伟达DGX服务器、工作站和DGX Cloud的客户还将获得Run:ai的能力,用于其AI工作负载,英伟达表示,特别是用于在多个数据中心位置运行的生成型AI部署。 Run:ai的CEO Omri Geller在一份声明中表示:“Run:ai自2020年以来一直是Nvidia的密切合作伙伴,我们共同的热情是帮助我们的客户最大限度地利用他们的基础设施。我们很高兴加入Nvidia,并期待继续我们的合作之旅。” Geller与几年前在特拉维夫大学与教授Meir Feder(Run:ai的第三位联合创始人)一起学习的Ronen Dar共同创立了Run:ai。Geller、Dar和Feder希望构建一个平台,该平台能够将AI模型“分解”成在硬件上并行运行的片段,无论是在本地、公共云还是在边缘。 尽管Run:ai的直接竞争对手不多,但其他公司正在将动态硬件分配的概念应用于AI工作负载。例如,Grid.ai提供的软件允许数据科学家在GPU、处理器等上并行训练AI模型。 但在其成立的相对早期,Run:ai就设法建立了一个庞大的客户群,这些客户群均为财富500强公司——这反过来又吸引了风险资本的投资。在被收购之前,Run:ai已从包括Insight Partners、Tiger Global、S Capital和TLV Partners在内的投资者那里筹集了1.18亿美元的资金。 在博客文章中,Nvidia的DGX Cloud副总裁Alexis Bjorlin指出,客户的AI部署变得越来越复杂,公司越来越希望更有效地利用他们的AI计算资源。 ClearML进行的一项关于采用AI的组织的最新调查发现,到目前为止2024年扩展AI的最大挑战是计算资源在可用性和成本方面的限制,其次是基础设施问题。 Bjorlin说:“管理和调度生成型AI、推荐系统、搜索引擎和其他工作负载需要精细的调度来优化系统级和底层基础设施的性能。英伟达的加速计算平台和Run:ai的平台将继续支持广泛的第三方解决方案生态系统,为客户提供 选择和灵活性。与Run:ai合作,英伟达将使客户能够访问任何地方的GPU解决方案的单一织物。” Run:ai是自英伟达在2019年3月以69亿美元收购Mellanox以来的最大一笔收购。
Sup3rCC:一款开源机器学习模型,模拟未来气候条件及其对可再生能源资源的影响
随着各国逐渐转向风能和太阳能等可再生能源,理解气候变化将如何影响这些能源变得至关重要。气候变化带来的极端天气事件,让能源规划者难以预测未来的能源需求。虽然存在一些数据,但这些数据在细节上有限,且无法具体显示气候变化将如何影响可再生能源。 国家可再生能源实验室(NREL)的研究人员意识到了这一问题,并开发了一个名为Sup3rCC的新工具来应对这一挑战。Sup3rCC(超级分辨率气候变化影响可再生能源资源数据)是一个开源模型,它使用先进的机器学习技术模拟未来的气候条件及其对可再生能源资源的影响。 Sup3rCC的独特之处在于它大幅提高了气候数据的分辨率,使得数据比现有方法更加详细和准确。它能比传统技术快40倍生成数据,允许能源规划者快速获取关于未来气候条件的详细信息。 该模型将气候数据的空间分辨率提高了25倍,时间分辨率提高了24倍。这意味着它可以提供有关特定地点和时间的气候条件的详细信息,帮助能源规划者更好地理解可再生能源发电将如何受到影响。 通过模拟未来的气候条件,Sup3rCC有助于弥合能源规划与气候研究之间的差距。它允许能源规划者将气候数据纳入他们的模型中,确保他们能够就未来的能源系统做出知情的决策。 总之,Sup3rCC是一个开创性的工具,彻底改变了我们理解气候变化对可再生能源影响的方式。通过提供详细的、高分辨率的气候数据,它使能源规划者能够在气候变化的背景下,做出知情的关于未来能源系统的决策。 下载:https://registry.opendata.aws/nrel-pds-sup3rcc/
为什么市场人员押注于Apple Vision Pro专业版
自从去年各大品牌在 Roblox 和 Decentraland 这样的元宇宙平台上开设虚拟酒吧、银行和卷饼比赛以来,元宇宙似乎已经无处不在。然而,两年过去了,关于新元宇宙活动的品牌公告大大减少,人们更多的讨论转向了这项技术是否被过度炒作,以及还有谁在使用它。 然而,现在有了一款新的 VR 产品。今年二月,苹果发布了售价3500美元的 Apple Vision Pro 混合现实头盔,品牌如 e.l.f. 化妆品、Alo 瑜伽和 Lowe’s 已经开始尝试使用这一产品。虽然体验可能与戴上 Oculus 头盔进入元宇宙相似,但品牌市场营销人员告诉我们,他们对 Vision Pro 和它可能为品牌沉浸式体验和空间计算的未来意味着什么持乐观态度。 “这肯定是我们将来都会使用计算机的方式,”Valtech 北美数字代理的客户体验副总裁 PJ Stephen 在 Marketing Brew 的一次访谈中说。 Vision Pro 的硬件在当前形式下,Stephen 描述为“在脸上戴着一个五磅重的电脑”,可能会成为一些用户和品牌的进入障碍。Vision Pro 还有一些体验限制,如用户无法闻到、触摸或尝到显示的图像——无论是在元宇宙酒吧还是在 Vision Pro 应用中都是如此。 Stephen 更看好 Vision Pro 的原因是硬件可以整合到现有的技术消费习惯中,体验出现在用户的现实生活环境中。“我不认为有人会真的想把元宇宙当作一个去处,”Stephen 说。“Vision Pro 的真正明了之处在于,它不是关于去别的地方——它是关于把事物带入你的空间。” 根据 Stephen 的说法,另一个可能的区别点是头盔的沉浸式视觉体验,这可能有助于触发客户的情感反应,同时允许他们近距离查看产品。迄今为止,像 Wayfair、Lowe’s 和 J.Crew 这样的品牌已经为 Vision…
Snowflake Arctic:企业 AI 领域的佼佼者 —— 高效智能,真正开源
在今天的云计算盛宴上,Snowflake 公司带来了一款名为 Arctic LLM 的“企业级”生成型 AI 模型。这个小家伙不仅完全开源,还特别为处理如数据库代码生成等企业重负荷工作而优化。看起来,Snowflake 是要以此模型作为他们在生成型 AI 领域的一大步。 Snowflake CEO Sridhar Ramaswamy 在新闻发布会上信心满满地表示,Arctic LLM 将是推动公司及其客户构建企业级产品、实现 AI 潜力和价值的基石。看来,他们不仅仅是想做个小试牛刀,而是有志在生成型 AI 大展拳脚。 不仅如此,Snowflake 还大胆宣称,Arctic LLM 在编程和 SQL 生成等任务上,不仅超过了竞争对手 DBRX,甚至在某些方面还超越了 Meta 的 Llama 2 70B。Snowflake 还强调,Arctic LLM 在流行的通用语言理解基准 MMLU 上取得了领先表现,虽然我们知道这些测试有时只是靠死记硬背也能解决。 此外,Arctic LLM 采用了一种叫做“专家混合”(MoE)的架构,将数据处理任务分解为子任务,由更小的专家模型处理。这种设计使得 Arctic LLM 虽然拥有高达 4800 亿个参数,但每次只激活 170 亿个,足以驱动 128 个独立的专家模型,从而在成本上大为节省。 Arctic LLM 不仅会在 Snowflake 自家的…
去年秋天,雷朋和Meta联手推出了智能眼镜,不仅是个抓拍神器,还出乎意料地兼职耳机。但初版有点短板,缺的就是那个所谓的多模态AI——基本上就是一个AI助手能同时处理图片、音频和文字这些杂七杂八的信息。开售几周后,Meta赶快搞了个早期体验计划,但对大众来说,这功能终于要普及啦! 而就在这时,一个叫Humane AI Pin的新玩意儿也发布了,结果一出来就被评测狂批,用得人心里苦啊。AI设备似乎都蒙上了厄运的阴影。但我在雷朋Meta智能眼镜上体验了几个月的早期AI测试版后,我觉得现在下结论说这类产品没戏,还为时过早。 雷朋Meta智能眼镜的确让未来看起来酷炫多了,但别指望它无所不能。基本操作就是,“嘿,Meta,看看这是啥……”后面可以加上各种命令,比如“告诉我这是什么植物”,或者“读一下这个标志写的啥”,甚至“帮我写个Instagram的标题”。戴上眼镜,AI连接到云端,答案就会直接送到你耳朵里。虽说能力有限,但探索它的极限也挺有意思的。 比如说我那位车迷配偶,也戴着这款眼镜。每次出门,就开启“Meta的AI能不能正确识别这条街上随机的车”模式。有时候AI答得很准,但更多时候却是自信地错误。记得有一天,我配偶在拍我们的车:一辆阿尔法·罗密欧Giulia Quadrifoglio和一辆阿尔法·罗密欧Tonale。(别问我为啥他们这么爱意大利车,我只是个凯美瑞控。)它正确识别了Giulia,却也把Tonale认成了Giulia,这就搞笑了,因为这两车一个是轿车一个是SUV,外形完全不同。 至于我那些多肉植物,AI起初还真帮了大忙,虽然一开始因为我指令给错了,它让我自己描述植物。这就像学新语言一样,得知道怎么和AI沟通。然后它告诉我我有各种各样的多肉植物,包括长生草、库拉索芦荟和厚叶草。我用Planta应用对照了一下,果然有几株厚叶草。 还有一次,我配偶冲进我的办公室,“亲爱的!隔壁后院是不是有只超级大的松鼠?”我们一看,真有一只大老鼠在那晃悠。于是开始了一场默契的比赛。我配偶尝试了各种方法让AI识别这只动物。而我? 我拍了张照,用电脑查了一下。 我赢了。那其实是一只土拨鼠。 在这种情况下,缺个变焦功能就坑爹了。当我配偶拍了手机里的照片后,眼镜 终于认出了土拨鼠。有时候,问题不在于AI能不能用,而在于你得怎么调整自己的行为来配合它。 总的来说,AI在这副眼镜上还算好用。因为连着你的手机,所以几乎不用等待回答。它还是副耳机,所以跟它说话你也不会觉得傻,因为你已经习惯了通过耳塞交谈。总的来说,我觉得AI在我们外出时识别东西最有帮助。这是我平时用手机做的事情的自然延伸。只要不需要放大很远,不拿出手机其实挺好的。 加入一些新元素到熟悉的东西里,总比让人学全新的操作方式来得简单。比如说,我的是太阳镜,如果能在室内戴,我可能会更多用AI。但就目前而言,我还真不是那种怪胎。但我配偶就不同了,他们的眼镜是变色镜片的,而且就是喜欢用AI来找乐子。至于那些更具创造性的任务,比如让AI为我桌上猫的照片写一个搞笑的Instagram标题时,它来了一句,“证明我还活着,不是送披萨的。”幽默感这事儿,因人而异嘛。 但AI只是Meta眼镜的一个功能,不是全部。它们是不错的直播眼镜,也是优秀的第一视角相机。作为开放式耳机也挺棒。我喜欢戴着它们跑步或散步。即使我不用AI,这产品本身就已经很棒了。它在这里,通常能用,也是个还行的语音助手——这就让你更习惯于这种脸上电脑的概念,这也是它的重点所在。
谷歌、Meta和OpenAI,这几个科技巨头最近宣布了一项重要承诺:加强儿童安全措施
最近,“Safety by Design”原则被慈善机构Thorn和致力于解决AI不道德实践的非营利组织All Tech is Human联手提出,目的是为了应对AI技术滥用、制造和传播有害内容的问题,尤其是涉及儿童的恶劣内容。 随着AI技术的飞速发展,利用这一技术制作非法深度伪造影像的可能性大大增加,包括涉及儿童的内容。为此,这些原则的推出,旨在AI产品的开发、部署和维护的每一个环节加入强有力的安全措施。 那些签署这些原则的公司,需要确保他们的训练数据集不含有任何非法的儿童虐待相关内容,严格测试AI模型以防止生成危险图像,仅发布经过儿童安全评估的模型,并通过定期发布进展报告来保持透明度。这一行动不仅体现了将道德考量融入AI技术的前瞻性思维,也为科技行业树立了负责任的新标杆,推动儿童安全的同时,也是科技界的一次自我革新。
介绍Phi-3:微软重新定义小型语言模型(SLM)的可能性
微软最近推出了名为Phi-3的开放式AI模型家族,这是一系列最具性价比的小型语言模型(SLM)。Phi-3模型在各种语言、推理、编码和数学基准测试中的表现超越了同等大小甚至更大型号的模型。此次发布扩展了为客户提供高质量模型的选择,使他们在构建和开发生成式AI应用程序时有更多的实用选择。 从今天开始,3.8亿参数的Phi-3-mini模型已在微软Azure AI Studio、Hugging Face和Ollama平台上提供。https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3 Phi-3-mini提供两种上下文长度变体——4K和128K令牌。它是首个支持高达128K令牌上下文窗口的同类模型,且对质量的影响很小。它经过指令调优,训练以遵循反映人们正常沟通的各种指令类型,确保模型开箱即用。它在Azure AI上可用,利用部署-评估-微调工具链,并在Ollama上可供开发者在本地笔记本电脑上运行。它针对ONNX运行时进行了优化,支持Windows DirectML,并具有跨平台支持,包括图形处理单元(GPU)、CPU甚至移动硬件。它还作为NVIDIA NIM微服务提供,带有标准API接口,可以在任何地方部署,并已针对NVIDIA GPU进行了优化。 在接下来的几周内,将向Phi-3家族添加更多模型,为客户在质量-成本曲线上提供更多灵活性。Phi-3-small(70亿)和Phi-3-medium(140亿)将很快在Azure AI模型目录和其他模型园中提供。 微软持续提供在质量-成本曲线上最佳的模型,今天的Phi-3发布扩大了具有最先进小型模型的选择。Phi-3模型显著超越了同等大小和更大大小的语言模型在关键基准测试上的表现。例如,Phi-3-mini的表现优于其两倍大的模型,而Phi-3-small和Phi-3-medium则超越了包括GPT-3.5T在内的更大型号。 所有报告的数字都是使用相同的流程产生的,以确保数字之间的可比性。因此,由于评估方法的轻微差异,这些数字可能与其他公布的数字不同。我们的技术论文提供了更多关于基准测试的详细信息。 Phi-3模型按照微软的负责任AI标准开发,该标准是一套公司范围内基于责任、透明度、公平性、可靠性与安全、隐私与安全以及包容性的六大原则的要求。Phi-3模型经过严格的安全测量和评估、红队测试、敏感用途审查以及遵守安全指南,以帮助确保这些模型按照微软的标准和最佳实践负责任地开发、测试和部署。 微软利用Azure AI推出助手产品并使客户能够通过生成式AI转型其业务,这突显了对不同大小模型的需求。小型语言模型,如Phi-3,特别适用于资源受限环境、响应时间要求快的场景以及成本受限的用例。 Phi-3-mini特别适用于设备上使用,尤其是在与ONNX运行时进一步优化后,可以跨平台使用。Phi-3模型的较小大小也使得微调或定制更加容易和经济。此外,它们较低的计算需求使得它们是一个成本更低、延迟更低的选择。较长的上下文窗口使得它们能够接收和推理大量文本内容——文档、网页、代码等。Phi-3-mini展示了强大的推理和逻辑能力,使其成为分析任务的理想选择。 客户已经在使用Phi-3构建解决方案。例如,在农业领域,Phi-3已经展现了其价值,尤其是在互联网可能不易获得的地方。如此强大的小型模型连同微软的助手模板,可在需要时为农民提供,且运行成本更低,使AI技术更加普及。 印度的领先商业集团ITC正在利用Phi-3作为其与微软在Krishi Mitra农民应用助手上持续合作的一部分。ITCMAARS技术总监Saif Naik表示:“我们与Krishi Mitra助手的目标是在保持大型语言模型的准确性的同时提高效率。我们很高兴能与微软合作使用经过精细调整的Phi-3来实现我们的目标——效率和准确性!”