AI版 女娲 来了!文字生成图像、视频,8类任务一个模型敲定
发布时间:2021-11-28 09:41:09 所属栏目:传媒 来源:互联网
导读:近来,视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nwa(女娲)也火了。 相比于 GauGAN,「女娲」的生成模式更加多样,不仅有文本涂鸦生成图像,还能从文本生成视频。 随着 VQ-VAE 这种离散化 VAE 方案的出现
近来,视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了。 相比于 GauGAN,「女娲」的生成模式更加多样,不仅有文本涂鸦生成图像,还能从文本生成视频。 随着 VQ-VAE 这种离散化 VAE 方案的出现,高效和大规模的预训练被逐渐应用于视觉合成任务,例如 DALL-E(图像)、GODIVA(视频)。这些模型虽然取得了巨大的成功,但仍然存在一些局限性——它们分别处理图像和视频,专注于生成其中一种,这限制了模型从图像和视频数据中受益。相比之下,「女娲」是一个统一的多模态预训练模型,在 8 种包含图像和视频处理的下游视觉任务上具有出色的合成效果。 (编辑:岳阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- 福州市、中科曙光、福建电子三方签约 共推先进计算产业发展
- 美国疾控中心:数据现代化将改善新冠病毒的检测和跟踪能力
- 杨浦发布大企业创新平台战略 打造“双创”生态战略高地
- 金属边框全面屏 年轻人的“轻旗舰” Redmi 智能电视X系列发
- SolarWinds荣获八项2020 TrustRadius最佳产品奖,并获得“T
- 41项测试一次过!宁畅八款服务器获Windows Server权威认证
- 英特尔宋继强:计算创新进入超异构时代,需要软硬结合,探索
- 宁波保税区金融科技(区块链)产业园:构建数字经济创新生态
- Infinity SOC 消除警报过载,快速准确识别和拦截网络攻击
- 5G加快信息流量传播 直播 短视频新贵花房集团赴港IPO