社交媒体巨头 Meta 根据 11 月 16 日的博客文章,介绍了其最新的用于内容编辑和生成的人工智能(AI)模型。
这家公司推出了两种 AI 驱动的生成模型。第一个是 Emu Video,利用 Meta 之前的 Emu 模型,能够基于文本和图像输入生成视频剪辑。第二个模型 Emu Edit,专注于图像操作,承诺在图像编辑方面更精确。
这些模型仍处于研究阶段,但 Meta 表示其初步结果显示了对创作者、艺术家和动画师等的潜在用途。
据 Meta 的博客文章,Emu Video 接受了一种“分解”方法的训练,将训练过程分为两步,以使模型能够响应不同的输入:
“我们将过程分为两步:首先,根据文本提示生成图像,然后根据文本和生成的图像生成视频。这种‘分解’或分割方法让我们能够高效地训练视频生成模型。” 同一模型还可以根据文本提示“动画化”图像。根据 Meta 的说法,不是依赖于“深度级联模型”,Emu Video 只使用两个扩散模型来生成 512×512 分辨率、每秒 16 帧的四秒长视频。
专注于图像操作的 Emu Edit 将允许用户删除或添加图像背景、执行颜色和几何变换,以及图像的局部和全局编辑。
“我们认为,主要目标不应该仅仅是制作一个‘可信的’图像。相反,模型应该专注于精确地改变与编辑请求相关的像素,” Meta 指出,声称其模型能够精确地遵循指令:
“例如,在棒球帽上添加‘Aloha!’文本时,帽子本身应保持不变。” Meta 使用包含 1000 万合成图像的数据集训练 Emu Edit,每个图像都有输入图像和任务描述以及目标输出图像。“我们认为这是迄今为止同类最大的数据集,”公司说。
Meta 新发布的 Emu 模型是使用 11 亿数据训练的,包括 Facebook 和 Instagram 用户分享的照片和标题,CEO 马克·扎克伯格在 9 月的 Meta Connect 活动上透露。
监管机构正在密切审查 Meta 的基于 AI 的工具,导致这家科技公司采取谨慎的部署方法。最近,Meta 披露,它不会允许政治竞选和广告商使用其 AI 工具在 Facebook 和 Instagram 上创建广告。然而,平台的一般广告规则并没有特别针对 AI 制定任何规则。