微软AI部门负责人穆斯塔法·苏莱曼(Mustafa Suleyman)最近声称,只要在开放网络上发布的内容,就成为了“自由软件”,任何人都可以自由复制和使用。 在接受CNBC采访时,安德鲁·罗斯·索金(Andrew Ross Sorkin)询问他“AI公司是否盗用了世界的知识产权”,他回应说: “对于已经在开放网络上的内容,自90年代以来的社会契约就是公平使用。任何人都可以复制、重建、再生产。这已经成为‘自由软件’,这是一直以来的理解。” 微软目前正面临多起诉讼,指控其与OpenAI盗用了受版权保护的在线内容来训练其生成性AI模型。因此,微软高管为其辩护为合法行为并不令人意外。但令人惊讶的是,他的言论如此公开且明显错误。 版权保护的基本知识 尽管笔者不是法律专家,但可以明确的是,在美国,一旦创作完成,作品便自动受到版权保护。创作者无需申请,更不会因将作品发布在网上而失去版权。事实上,放弃版权的过程非常复杂,以至于律师们制定了专门的网络许可证来帮助实现这一点。 公平使用则是通过法院裁定的,而不是通过“社会契约”。这是一个法律防御机制,允许在法院权衡复制内容的目的、数量以及对版权持有者的影响后,进行某些使用。 尽管许多AI公司声称使用受版权保护的内容进行训练属于“公平使用”,但大多数公司在讨论此事时并不像苏莱曼那样直言不讳。 在提到“公平使用”后,苏莱曼还发表了一句令人深思的言论: “我们作为人类的集体,除了是一个知识和智力的生产引擎,还有什么其他目的呢?” 关于robots.txt的讨论 苏莱曼似乎认为robots.txt文件的概念有些道理——即通过在文本文件中指定哪些机器人不能抓取特定网站的内容,可能会阻止他人获取其内容。他说道: “另一个类别是网站、出版商或新闻机构明确表示‘除了索引外,请勿抓取我的内容。’这是一个灰色地带,我认为这将通过法院解决。” 但robots.txt并不是法律文件。它才是自90年代以来的“社会契约”——然而一些AI公司似乎也在忽略它。据报道,微软的合作伙伴OpenAI就是其中之一。
Author: aitrendtrackers@rengongzhineng.io
Meta最新AI图像生成模型:3D Gen的快速登场
https://ai.meta.com/research/publications/meta-3d-gen Meta公司最近推出了一款全新的“3D Gen”模型,这是一个“最先进的快速处理管道”,能够在一分钟内将输入文本转换为高保真3D图像。 更令人兴奋的是,该系统还能通过文本提示为生成的图像和艺术家制作的图像应用新纹理和皮肤。 据Meta Gen AI研究团队的最新研究,3D Gen不仅提供高分辨率的纹理和材料贴图,还支持基于物理的渲染(PBR)和生成性重新纹理化功能。 研究团队估计,使用Meta的3D AssetGen模型创建初始3D模型的平均推理时间仅为30秒。用户随后可以通过Meta 3D TextureGen模型使用文本提示来进一步完善现有的模型纹理或替换为新的纹理,这一过程预计仅需额外的20秒推理时间。 研究摘要中提到:“通过结合这些优势,3DGen同时在三种方式下表示3D对象:视图空间、体积空间和UV(或纹理)空间。”Meta团队将其3D Gen模型与多个行业基准进行了比较,考虑了文本提示的保真度、视觉质量、纹理细节和伪影等因素。通过结合这两个模型的功能,注释者在68%的时间里选择了通过集成的两阶段过程生成的图像,而不是单阶段生成的图像。 虽然这篇论文中讨论的系统仍在开发中,尚未准备好公开使用,但该研究展示的技术进步可能会在游戏和电影特效到VR应用等多个创意领域产生变革性影响。 赋予用户快速且直观地创建和编辑3D生成内容的能力,可以大大降低这些创作活动的门槛。不难想象,这对游戏开发等领域将产生的巨大影响。
Google RichHF-18K 文本到图像生成中的丰富人类反馈
近年来,图像生成模型(T2I)如Stable Diffusion和Imagen在根据文本描述生成高分辨率图像方面取得了显著进展。然而,许多生成的图像仍然存在诸如伪影(如物体变形、文本和身体部位失真)、与文本描述不一致以及美学质量低下等问题。例如,某个输入提示为“熊猫骑摩托车”,但生成的图像却显示了两只熊猫,并伴有其他不需要的伪影,如熊猫的鼻子和车轮辐条变形。 受人类反馈强化学习(RLHF)在大型语言模型(LLMs)中的成功启发,研究者们探索了从人类反馈中学习(LHF)是否能帮助改善图像生成模型。在应用于LLMs时,人类反馈可以包括简单的偏好评分(如“点赞或踩”、“A或B”),也可以是更详细的回应,如重写有问题的答案。然而,目前LHF在T2I中的应用主要集中在简单的响应上,如偏好评分,因为修复有问题的图像通常需要高级技能(如编辑),这既困难又耗时。 在“富人类反馈的文本到图像生成”中,研究人员设计了一种获取具体且易于获取的富人类反馈的方法。他们展示了LHF在T2I中的可行性和优势。主要贡献有三点: 这是第一个用于最先进的文本到图像生成的丰富反馈数据集和模型。 富人类反馈的收集 从Pick-a-Pic训练数据集中根据PaLI自动创建的属性选择图像,以确保类别和类型的良好多样性,最终得到17K张图像。研究人员将这17K张样本随机分为训练集(16K样本)和验证集(1K样本)。此外,他们在Pick-a-Pic测试集中收集了丰富的人类反馈,作为测试集。最终,RichHF-18K数据集包含16K训练样本、1K验证样本和1K测试样本。 对于每张生成的图像,注释者首先检查图像并阅读文本提示,然后在图像上标记任何不可信、伪影或与文本提示不一致的位置。最后,注释者对未对齐的关键词以及可信度、图像-文本对齐、美学和整体质量的四种评分进行打分,分别使用5分Likert量表。 富人类反馈的预测 RAHF模型的架构基于ViT和T5X模型,受先前大型视觉语言模型(PaLI和Spotlight)的启发。文本信息通过自注意力机制传播到图像标记以预测文本未对齐评分和热图(伪影或未对齐的区域),而视觉信息传播到文本标记以进行更好的视觉感知文本编码,从而解码文本未对齐序列。最好的模型使用单头预测每种类型的反馈,如热图、评分和未对齐序列。研究人员为每个任务在提示中添加了任务字符串(如“不可信热图”)以提示模型特定任务。 从丰富的人类反馈中学习 预测的丰富人类反馈(如评分和热图)可以用来改善图像生成。例如,通过用预测的评分来微调生成模型。研究人员首先通过RAHF预测的评分筛选Muse模型的结果,创建一个高质量的数据集,然后使用该数据集通过LoRA微调方法微调Muse模型。对比评估显示,使用RAHF可信度评分微调的Muse生成的图像比原始Muse具有显著更少的伪影。 此外,研究人员展示了使用RAHF美学评分作为分类器指导来改进Latent Diffusion模型的示例,这表明每种细化的评分都可以改善生成模型的不同方面。 总之,研究人员发布了RichHF-18K,这是第一个用于文本到图像生成的丰富人类反馈数据集。他们设计并训练了一个多模态变压器来预测丰富的人类反馈,并展示了使用这些反馈改进图像生成的一些实例。未来的工作包括改进数据集以提高注释质量(尤其是在未对齐热图上),并收集更多生成模型(如Imagen和DALL-E)的丰富人类反馈,同时探索更多使用丰富人类反馈的方法。他们希望RichHF-18K和初始模型能够激发进一步在图像生成领域学习人类反馈的研究方向。
Runway推出革命性AI模型Gen-3,推动生成式视频创作
Runway一贯致力于推动生成式AI驱动的创意边界,他们的最新模型Runway Gen-3也不例外。这个新的进展展示了一些我们所见过的最具电影感、最惊艳和最逼真的AI视频。(https://runwayml.com/ai-tools/gen-3-alpha/) 在本文中,我们将探讨Runway Gen-3的卓越特性、相对于前代模型的改进,以及其对电影制作、广告、媒体生产、教育、游戏和虚拟现实开发等各个行业的潜在影响。 什么是Runway Gen-3 Alpha? Runway推出了Gen-3 Alpha,这是一款突破性的文本到视频AI模型,设定了视频创作的新标杆。这款先进的模型是Runway视频生成技术的第三代,能够以令人印象深刻的速度和精度生成高分辨率、细节丰富且一致性强的视频。 模型从简单提示生成高质量视频的能力展示了其创造性灵活性。艺术家可以探索多种概念和风格,知道模型可以处理复杂的视觉需求。 这部动漫风格的视频突显了Gen-3在角色参照和细粒度时间控制方面的能力(能够精确管理和操控事件的时序),其一致的艺术方向和流畅的镜头运动尤为显著。对水流和反射等小细节的关注增加了真实感和参与感。 Runway Gen-3的发布时间? 在短暂的alpha测试阶段后,Runway已经推出了Gen-3 Alpha供用户试用。截至本文更新时,你现在可以注册账户并订阅开始使用该工具。 Runway Gen-3的费用是多少? Gen-3模型目前仅对付费订阅者开放。Runway采用按需付费模式,根据GPU使用情况收费,使用户无需进行重大硬件投资即可获得必要的计算能力。 共有几个使用层级——“基础”层是免费的(有使用限制),此外还有“标准”(每月12美元)、“专业”(每月28美元)和“无限”(每月76美元)选项。 Runway Gen-3与Sora AI的对比 Runway Gen-3和OpenAI的Sora是生成式视频生成领域最先进的模型之一。 Runway Gen-3基于视觉转换器、扩散模型和多模态系统实现高保真度和时间一致性。扩散模型通过逐步去噪来精炼图像,产生逼真的高清视觉效果。Gen-3实现了文本到视频和图像到视频的功能。 示例提示: 近距离拍摄在繁忙的幻想市场夜晚飞舞的火焰精灵。 火焰的逼真运动、与周围物体的互动以及真实的阴影和反射展示了模型生成高分辨率内容的能力,增强了输出的电影质量。 技术角度的比较 Sora,由OpenAI开发,使用类似Midjourney的扩散模型技术,从噪声开始,逐步精炼直到生成连贯的场景。基于Transformer架构,Sora将视频表示为数据块集合,逐帧学习文本描述与视觉表现之间的复杂映射。 Sora能够处理各种时长、分辨率和纵横比的多样化视觉数据。Sora AI在动态场景创建方面表现出色,展示了对光照、物理和摄像技术的敏锐理解。 Gen-3的关键特性 根据Runway的官方公告(以及视频证据),Gen-3在早期模型基础上取得了重大进步: 高保真度视频生成 Runway Gen-3展示了视频质量的改进。它以Gen-2的两倍速度生成视频,同时保持卓越的保真度。Gen-3在创建复杂动作如跑步和行走方面表现出色,得益于先进的AI算法准确渲染人类运动和解剖结构。 先进控制 Runway Gen-3引入了先进的控制功能,极大地提高了视频生成的创造性和精确性。模型对角色参照的定制使用单词,允许创作者在不同项目中重用这些参照,使设计的角色外观一致。 示例提示: 一名宇航员在两栋建筑物之间行走。 用户友好界面 Runway Gen-3采用了更新的用户界面,适合初学者和专业人士。它提供直观且用户友好的体验,简化了各种技术水平用户的视频生成过程。 Gen-3的技术创新 模型以两倍于前代版本的速度生成视频,并引入先进特性,如单词角色参照的可定制模型。解决了AI视频生成中的复杂挑战,如创建真实的动作并保持视频的一致性。 示例提示: 一个中年秃头男子在一顶卷发假发和太阳镜突然掉到他头上时变得高兴。 Runway工具套件的集成 Runway Gen-3与其他Runway AI工具集成,提供如文本到视频、图像到视频和高级视频编辑工具的功能,用于创建复杂和定制的视频。 潜在应用及用例…
Open-TeleVision:开放源码的沉浸式遥操作系统
Open-TeleVision:增强机器人学习的沉浸式遥操作系统 (https://robot-tv.github.io/) 遥操作是一种强大的方法,用于收集机器人示范学习所需的在机数据。遥操作系统的直观性和易用性对于确保高质量、多样性和可扩展的数据至关重要。为此,我们提出了一种沉浸式遥操作系统Open-TeleVision,允许操作员以立体方式主动感知机器人的周围环境。此外,该系统将操作员的手臂和手的动作镜像到机器人上,创造出一种仿佛操作员的意识传送到机器人实体中的沉浸式体验。 我们通过收集数据并在两个不同的人形机器人上训练四个长距离、精确任务的模仿学习策略来验证我们系统的有效性。这些任务包括:罐头分类、罐头插入、折叠和卸载,并在现实世界中进行部署。 核心优势: 通过Open-TeleVision系统,我们不仅提高了遥操作的沉浸感和精确性,还为机器人学习提供了丰富而可靠的数据来源,推动了机器人技术的发展和应用。
Kyutai推出开源革命性实时多模态基础模型Moshi,震撼科技界
在震撼科技界的惊人宣布中,Kyutai推出了Moshi,这是一款革命性的实时本地多模态基础模型。该创新模型不仅反映了OpenAI在5月展示的GPT-4o的部分功能,还在某些方面超越了它。https://kyutai.org/ Moshi旨在理解和表达情感,具备多种功能,包括以不同口音(如法语)说话。它可以聆听和生成音频和语音,同时保持文本思维的流畅衔接。Moshi的一个突出特点是能够同时处理两个音频流,使其可以同时聆听和讲话。这种实时交互基于文本和音频的联合预训练,利用了Kyutai开发的7B参数语言模型Helium的合成文本数据。 实验性AI研究快讯 Kyutai强调了负责任的AI使用,通过水印技术检测AI生成的音频,这是目前正在进行中的功能。决定将Moshi作为开源项目发布,体现了Kyutai对透明性和AI社区合作开发的承诺。 Moshi由一个7B参数的多模态语言模型驱动,处理语音输入和输出。模型采用两通道I/O系统,同时生成文本令牌和音频编解码器。基于Kyutai内部开发的Mimi模型,语音编解码器具备300倍压缩率,捕捉语义和声学信息。 训练过程与部署效率 Moshi的训练过程非常严格,细调了100,000个带有情感和风格注释的高细节转录文本。支持70种不同情感和风格的文本到语音引擎在由一名叫Alice的授权配音员录制的20小时音频上进行了细调。该模型设计适应性强,可以在不到30分钟的音频中进行细调。 Moshi的部署展示了其高效性。演示模型托管在Scaleway和Hugging Face平台上,能够在24GB VRAM下处理两个批次。它支持多种后端,包括CUDA、Metal和CPU,并通过Rust优化推理代码。增强的KV缓存和提示缓存预计将进一步提高性能。 未来计划与开源愿景 展望未来,Kyutai对Moshi有着雄心勃勃的计划。团队打算发布技术报告和开源模型版本,包括推理代码库、7B模型、音频编解码器和完整的优化栈。未来版本如Moshi 1.1、1.2和2.0将基于用户反馈改进模型。Moshi的许可旨在尽可能宽松,以促进广泛采用和创新。 总结 Moshi展示了小而专注的团队在AI技术上取得非凡进展的潜力。该模型为研究辅助、头脑风暴、语言学习等开辟了新途径,展示了AI在设备上部署时的非凡灵活性和变革力量。作为开源模型,它邀请了广泛的合作与创新,确保这项突破性技术的好处惠及所有人。
Meta挑战AI效率竞赛:发布采用多令牌预测的新型预训练模型
Meta在提高人工智能效率的竞赛中扔下了挑战书。这家科技巨头周三发布了预训练模型,利用了一种新颖的多令牌预测方法,可能改变大型语言模型(LLM)的开发和部署方式。 这种新技术首次在Meta今年4月发布的研究论文中概述,与传统的仅预测序列中下一个词的LLM训练方法不同。Meta的方法要求模型同时预测多个未来词汇,承诺提高性能并大幅缩短训练时间。 Meta的多令牌预测方法突破了传统单一词汇预测的限制,使模型能够更好地理解语言结构和上下文,从而在各种任务中表现出色。从代码生成到创意写作,这种方法的潜在应用广泛且影响深远,有望缩短AI与人类语言理解之间的差距。 掌控当今威胁:机器规模应对策略 随着AI模型规模和复杂性的不断增长,其对计算能力的巨大需求引发了成本和环境影响方面的担忧。Meta的多令牌预测方法可能提供了一种遏制这种趋势的方法,使先进的AI更加可及且可持续。 民主化AI:高效语言模型的承诺与风险 这种新方法的潜力不仅仅在于效率的提升。通过一次预测多个令牌,这些模型可能会对语言结构和上下文有更细致的理解。这可以改进从代码生成到创意写作的任务,可能弥合AI与人类语言理解水平之间的差距。 然而,这种强大的AI工具的民主化是一把双刃剑。虽然这可以为研究人员和小型公司提供公平的竞争环境,但也降低了潜在滥用的门槛。AI社区现在面临着开发健全的伦理框架和安全措施的挑战,以跟上这些快速的技术进步。 Meta决定在Hugging Face平台上以非商业研究许可证发布这些模型,这与公司对开放科学的承诺一致。但这也是在日益竞争激烈的AI领域中的一个战略举措,开放性可以带来更快的创新和人才获取。 初步发布集中在代码补全任务上,反映了AI辅助编程工具日益增长的市场。随着软件开发与AI的日益紧密结合,Meta的贡献可能加速人类与AI协作编码的趋势。 AI军备竞赛升温:Meta在科技战场上的战略布局 然而,这一发布并非没有争议。批评者认为,更高效的AI模型可能加剧关于AI生成虚假信息和网络威胁的现有担忧。Meta试图通过强调许可证仅限于研究用途来解决这些问题,但有关这些限制措施能否有效执行的疑问仍然存在。 多令牌预测模型是Meta发布的一系列AI研究成果的一部分,包括图像到文本生成和AI生成语音检测方面的进展。这种综合方法表明,Meta不仅在语言模型方面,而且在多个AI领域中都在定位自己为领导者。 随着这一声明尘埃落定,AI社区不得不应对其影响。多令牌预测会成为LLM开发的新标准吗?它能否在不影响质量的情况下兑现其效率的承诺?它将如何影响更广泛的AI研究和应用领域? 研究人员在论文中承认了他们工作的潜在影响,指出:“我们的方法提高了模型的能力和训练效率,同时允许更快的速度。”这一大胆声明为AI发展的新阶段奠定了基础,在这个阶段,效率和能力将齐头并进。 有一点是明确的:Meta的最新举措为已经炙手可热的AI军备竞赛添加了新的燃料。随着研究人员和开发人员深入这些新模型,人工智能故事的下一个篇章正在实时书写。
三星预期第二季度运营利润将飙升至75亿美元,同比增15倍
三星预期第二季度运营利润将飙升至75亿美元,同比增15倍 尽管季度初表现非常出色,投资者仍担心三星在与SK海力士等较小竞争对手的市场地位。相比之下,SK海力士的股价大幅上涨,而三星未能获得NVIDIA对其最新芯片的批准,这令投资者感到担忧。
微软最新一轮裁员波及全球多个团队
微软最新裁员波及多个团队和地区 本周,微软再次实施裁员,这是雷德蒙德科技巨头今年实施的最新一轮裁员。 裁员影响了多个团队和地区。微软拒绝提供被裁员工的具体数量。 受到影响的员工在LinkedIn上的帖子显示,这次裁员主要涉及产品和项目管理岗位的员工。 “组织和人事调整是我们业务管理中必要且常规的一部分,”一位发言人在声明中表示。“我们将继续优先考虑和投资于未来的战略增长领域,以支持我们的客户和合作伙伴。” 微软2024财年的截止日期是6月30日。在新财年开始时,微软重组部分业务并不罕见。 上个月裁员情况 上个月,微软在包括Azure云部门和HoloLens混合现实组织在内的多个领域裁员约1000人。 今年1月,在完成对动视暴雪公司690亿美元的收购后,微软在其游戏部门裁员近2000人,这是该公司有史以来最大的一笔收购。 裁员背景 随着微软试图在资本支出增加的情况下维持其利润率,这些裁员也随之而来。增加的资本支出旨在提供训练和部署支持AI应用程序模型所需的云基础设施。 疫情期间,微软的员工人数大幅增加,但在过去两年中趋于平稳。根据GeekWire基于监管文件和财报电话会议的数据,截至2023年年底,微软在全球约有22.7万名员工,低于一年前的23.2万名。 根据Layoffs.fyi的数据,今年到目前为止,已有超过10万名科技工作者被裁员。去年,各公司裁员超过26万人。
六大Pixel新AI功能提升使用体验
去年,我们重点介绍了七个由AI驱动的Pixel功能,从魔术橡皮擦到真实色调。自那以来,我们取得了很大进展。以下是我们的人工智能工作如何让Pixel手机更加实用的六种新方式。 1. 用Gemini快速总结网页 如果你只需要快速了解一篇英文网页的要点,Gemini可以帮助你节省滚动和浏览的时间。当你启用Gemini时,它可以扫描整个页面的文本,并创建一个简短的摘要,让你在几秒钟内阅读主要要点。 使用方法:在安卓设备上,你可以选择使用Gemini作为你的移动助手。设置好Pixel 8、Pixel 8a或Pixel 8 Pro后,在Google Chrome中打开一个网页并长按电源按钮以唤出Gemini。然后在屏幕出现覆盖层时,要求Gemini总结文章内容。你也可以通过说“Hey Google”来语音激活Gemini。 2. 录制视频后调整声音,使用Audio Magic Eraser 你在录制给好友的生日祝福视频时,背景中的狗叫声破坏了你最喜欢的那一条。Audio Magic Eraser可以降低狗叫声以及其他你不想听到的背景声音,让你发送一个你声音最佳的视频。 使用方法:在Pixel 8、Pixel 8a或Pixel 8 Pro上录制视频。然后进入Google相册,选择视频并点击“编辑”。你会在屏幕底部找到“视频”、“裁剪”、“音频”、“调整”等选项。点击“音频”以调出Audio Magic Eraser功能。它会识别视频中的不同声音类别,如人声、风声或自然声音。选择“自动”让Pixel为你优化音频,或选择并调整音频,降低特定的声音。满意后,点击“完成”。 3. 用Circle to Search获取更多屏幕信息 假设你在手机上看YouTube Shorts视频、阅读文章或浏览屏幕上的内容,你想了解更多信息。现在,在Pixel 6及以上设备上,你可以点击、突出显示、圈出或涂抹屏幕上的任何地方以获取更多信息,无需切换应用程序。 使用方法:按住导航栏,然后圈出或突出显示你想了解更多的视频、图像或文本。你还可以在屏幕底部的搜索栏中添加更多上下文,例如“我在哪里可以买到类似的衬衫?”以优化搜索结果。 4. 用Gboard校对功能保持短信无错 如果你像我一样打字很快,并在注意到尴尬的拼写错误之前就点击发送,那么由gen AI驱动的Gboard校对功能可以帮你。Gboard校对功能可以在你发送之前,一键消除拼写和语法或标点错误。 使用方法:在Pixel 8、Pixel 8a或Pixel 8 Pro上安装Gboard,然后草拟短信。如果功能发现错误,“修复”按钮会立即出现在建议栏中。点击按钮应用对文本的修正,确保你不需要发送后续澄清。你也可以通过点击Gboard上的字母A下的勾号图标自行触发校对。 5. 使用相机扫描并创建PDF文档 轻松将收据、合同或其他纸质文件创建为数字文档,以便存档、发送或共享。这在提交差旅费用或为报税季保存数字收据时非常方便。 使用方法:在Pixel 6或以上设备上打开Google云端硬盘。点击+新建,然后选择“扫描”或直接点击扫描文档图标,即可开始。如果需要在扫描时更好地控制框架,请使用手动模式,这样可以确定离文档的远近。如果只是想快速拍下收据,自动捕捉可以快速识别纸张边缘并为你扫描。你还可以为扫描添加多个页面,预览或删除页面,甚至清理文件上的污渍。按“完成”后,修改文件名并保存到云端硬盘。从那里,你可以发送、共享或下载扫描件。 6. 使用咳嗽和打鼾检测跟踪睡眠声音 想知道你在睡觉时是否经常咳嗽和打鼾?你的Pixel 8、Pixel 8a或Pixel 8 Pro可以告诉你。 使用方法:在Pixel设置中的数字健康和家长控制下,找到并点击睡眠时间模式。进入后,你会在每周摘要下看到咳嗽和打鼾信息。点击“允许访问”并切换打开咳嗽和打鼾检测。该功能不会存储原始音频;相反,频率会被预处理并转换为AI可解释的数字。将其与FitBit配对,可以全面了解你的睡眠习惯和模式,帮助你了解每晚的睡眠质量。