AI版女娲来了！文字生成图像、视频，8类任务一个模型敲定

发布时间：2021-11-28 09:41:09 所属栏目：传媒来源：互联网

导读：近来，视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本，现在一个新视觉合成模型 Nwa（女娲）也火了。相比于 GauGAN，「女娲」的生成模式更加多样，不仅有文本涂鸦生成图像，还能从文本生成视频。随着 VQ-VAE 这种离散化 VAE 方案的出现

近来，视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本，现在一个新视觉合成模型 Nüwa（女娲）也火了。

相比于 GauGAN，「女娲」的生成模式更加多样，不仅有文本涂鸦生成图像，还能从文本生成视频。

随着 VQ-VAE 这种离散化 VAE 方案的出现，高效和大规模的预训练被逐渐应用于视觉合成任务，例如 DALL-E（图像）、GODIVA（视频）。这些模型虽然取得了巨大的成功，但仍然存在一些局限性——它们分别处理图像和视频，专注于生成其中一种，这限制了模型从图像和视频数据中受益。相比之下，「女娲」是一个统一的多模态预训练模型，在 8 种包含图像和视频处理的下游视觉任务上具有出色的合成效果。

（编辑：岳阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

AI版 女娲 来了！文字生成图像、视频，8类任务一个模型敲定

AI版女娲来了！文字生成图像、视频，8类任务一个模型敲定