您的位置
主页 > 建设工程 » 正文

DeepMind把GAN玩出新花样!基于BigGAN,生成高保真视频

来源:www.nazbcg.com 点击:862

[新智慧指南] DeepMind再次使用新技巧玩GAN!这次,介绍了双视频鉴别器GAN。通过更有效地分解鉴别器,所生成的视频样本的长度和分辨率比先前的最佳水平高得多,并且在多个合成和预测的视频数据集上刷新。 SOTA。

也许你已经听说过FaceApp,一个使用AI来改变自拍的移动应用程序。您可能还听说过“这些字符不存在”网站,该网站显示计算机生成的虚构照片。但是你听说过用于生成全新视频的算法吗?最近,DeepMind最近的一篇论文详细介绍了AI剪辑生成领域的最新发展。

论文地址:

研究人员表示,由于使用了“高效计算”组件和技术,再加上新的自定义数据集,他们训练了最佳性能模型:双视频鉴别器GAN(DVD-GAN)可以生成“高保真”一致性256 x 256像素视频,最多48帧。

DVD-GAN的缩写由Ian Goodfellow“强加”

“生成自然视频对于生成建模任务来说是一个非常困难的挑战,并且受到数据复杂性和计算要求的增加的困扰,”该共同作者写道。 “出于这个原因,许多以前关于视频生成的研究围绕着相对简单的数据集或任务来获取强时间条件信息。我们的研究重点是视频合成和视频预测的任务.并扩展生成图像模型的结果对视频世界。“

研究人员围绕尖端的AI架构构建了系统,并专门定制了视频,使其能够在Kinetics-600上进行训练,Kinetics-600是一种比流行语料库大几个数量级的自然视频数据集。具体而言,研究人员使用了扩展的生成对抗网格(GAN),它已应用于各种转换任务,例如将字幕转换为逐个场景图,生成人造星系图像等。本文使用BigGAN,它以大量和数百万个参数而闻名。

由Kinetics-600在128 x 128帧上训练的一组4秒复合视频剪辑

DVD-GAN包含两个鉴别器:空间鉴别器,通过随机采样全分辨率帧并单独处理它们来评估单个帧的内容和结构,以及时间鉴别器,负责提供学习信号以产生运动。还有一个单独的模块:转换器,允许学习的信息在整个AI模型中传播。

至于训练数据集(Kinetics-600),该数据集基于最初计划用于人类行为识别的500,000个10秒高分辨率YouTube剪辑,研究人员称数据集“多样化”和“不受限制”。功能,他们声称这些功能消除了过度拟合的风险。 (在机器学习中,过度拟合是指与特定数据集紧密对应的模型,因此无法可靠地预测未来的观测结果。)

该团队在论文中表示,经过12到96个小时的Google加速第三代TPU培训后,DVD-GAN成功制作了包含目标结构,动作甚至复杂纹理的视频。该模型还尝试以更高的分辨率创建相干对象,并且对象的运动构成更多像素。但研究人员指出,在UCF-101(13,320个人类行为视频的较小数据集)上评估时,DVD-GAN生成的样本的最佳得分为32.97。

“我们希望进一步强调培训和在大型复杂视频数据集上生成模型的好处,例如Kinetics-600,”该论文写道。 “我们希望使用DVD-GAN在此数据集上建立的强基线标准作为生成建模社区的基准。虽然在不受约束的环境中,仍然有很多工作要做,以始终如一地生成逼真的视频。但我们相信DVD-GAN是朝这个方向迈出坚实的一步。“

参考链接:

论文地址: