Open AI 在安静了一段时间之后,终于曝出了大的发展, DALL-E3来了。
在周三的一次小型记者活动中,DALL-E 3 被描述为一个完全理解复杂文本提示的工具,并能生成与之匹配的复杂图片。
OpenAI 网站新设的 DALL-E 3 信息页面上强调:“目前的文本到图像系统常常忽略文字或描述,这使得用户必须精通怎么设定提示。而 DALL-E 3 在生成与文本完全吻合的图像方面取得了巨大进展。”
今年夏天,有关 DALL-E 3 的部分潜在图像在 Discord 上被提前泄露,这些图像显示了与新闻预览所描述的巨大潜力。泄密者称其给 DALL-E 3 提供了一个长提示:“一个粉红色的小丑在自行车比赛中与熊猫击掌。自行车是由奶酪制成的,地面非常泥泞。他们在雾蒙蒙的森林中骑行,熊猫看起来很生气。”得到的图像与这个描述完全一致,令人震惊。
虽然像 Midjourney 和 Stable Diffusion 这样的图像生成器能够模仿真实照片并生成各种物体、风格和人物的表示(并伴随着不少争议),但无疑在生成这种复杂内容方面会遇到困难。
这些图像生成器以及 OpenAI 之前的产品在生成带有文本的图像时都遭遇了困难,通常生成的文本是乱码或荒谬的文字。而 DALL-E 3 显然在将连贯的文本融入图像方面做得更好,正如 OpenAI 的首席执行官 Sam Altman 在 X 上发布的卡通所示。
OpenAI 表示,它将直接将 DALL-E 3 集成到 ChatGPT 中,并强烈暗示聊天机器人将根据提示内容在不同模型之间切换。ChatGPT 原本只是一个简单友好的用户界面,用于从 GPT-3.5 模型获取文本输出,但现在正在迅速演变,整合了第三方插件,这些插件可以从其他来源(包括互联网)获取文本。这进一步扩大了 ChatGPT 的功能,使“聊天机器人”的定义变得更加模糊。
Altman 表示,“DALL-E 3 将在接下来的几周内逐渐为所有 ChatGPT+ 用户提供。” OpenAI 网站表示,所有 ChatGPT Plus 和 ChatGPT Enterprise 客户将在“10 月初”能够使用它,并且 OpenAI 不会对模型的输出提出版权要求。但如果你打算使用 DALL-E 3 生成内容然后自行申请版权,那就是另一个问题了。
内哥会在用了之后再来和大家分享。
#AI#人工智能#生成式人工智能