介绍
生成式 AI 继续取得巨大进展,包括 Stable Diffusion 3、Devin AI,以及现在由 Google AI 推出的 Vlogger。
在这篇文章中,我们将深入了解 Vlogger 并探索其工作流程、功能和应用。
所以,让我们开始吧!
什么是 Google Vlogger?
Vlogger 是由 Google AI 推出的生成式 AI 工具,可以从图像生成动画头像。这些视频以照片般逼真的方式显示照片中的人物,在生成的视频的每一帧中都是如此。
人们还可以输入人物的图像,Vlogger 可以创建人物说话或面部表情、手势或头部动作的临时连贯视频,使其看起来自然。Vlogger 还可以从仅音频输入的合成图像生成头部动作、眨眼或嘴唇动作。
该模型可以作为演示文稿、教育或叙述的独立解决方案使用,并将极大地有利于对人类合成需求很高的游戏和娱乐行业。
Google AI 的目标是通过 Vlogger 实现行为真实感。
Google Vlogger:完整工作流程
Vlogger 是一个多模态实现,配备音频和动画视觉表示。它具有复杂的面部表情和不断提高的身体动作水平,旨在支持与人类用户进行自然对话。
Google AI 打算弥合最近的视频合成突破与可控图像生成方法之间的差距。
该方法从基于生成扩散的网络开始,该网络从音频输入预测身体动作和面部表情。这种方法有助于捕获语音与身体反应(如姿势、注视和表情)之间复杂的关系。接下来,他们介绍了一种受图像扩散模型最新进展影响的新架构,从而可以更好地控制生成图像中的时间和空间。通过整合在预训练期间开发的生成式人类先验,他们增强了图像扩散模型的性能,尤其是在创建一致的人类特征(如眼睛)方面。
Vlogger 将基础模型与超分辨率扩散组件相结合,以生成高质量视频。它使用 2D 控制来引导视频生成,涵盖全身,包括面部表情、身体动作和手势。为了创建更长的视频,我们使用了一种称为时间外推的方法,该方法根据之前的视频段生成新的视频段。Vlogger 还提供编辑视频特定部分(如嘴唇或脸部)的功能。
为了确保系统健壮且可推广,Google AI 收集了一个庞大且多元的数据集,其中包括各种肤色、身体姿势、视角以及语音和身体可见度水平。该数据集还包含动态手势,这对理解自然的人类交流至关重要。Vlogger 在多样性和图像质量方面优于以前的方法,尤其是在已知的 HDTF 和 TalkingHead-1KH 数据集上。它还涵盖了更广泛的场景,生成带有各种面部表情和手势的头部和上半身动作的高分辨率视频。
与其他相关作品相比,Vlogger 的关键属性
Google Vlogger 的应用
如前所述,Vlogger 在内容创作、游戏和娱乐领域具有巨大潜力。
视频编辑
Vlogger 将视频编辑提升到了一个全新的水平。假设我们有一个视频,其中主题在看着别处,但我们需要他/她看着镜头。Vlogger 利用扩散模型的灵活性通过对应该改变的图像部分进行外推来提高视频编辑的一致性,而不会影响像素。
视频语音翻译
Vlogger 的另一个令人印象深刻的功能是它可以获取现有视频并将其翻译成任何语言。假设我们要将输入视频更改为日语。Vlogger 可以获取输入视频并编辑主题的嘴唇和面部表情以匹配新语言。太棒了,对吧?
游戏
Vlogger 可以简化游戏动画。它可以通过使用配音演员的音频输入来为角色创建身临其境的逼真感受。
内容生成
借助仅从单个图像生成的照片般逼真的视频,内容创作和生成可以提升到一个全新的水平。
虚拟助手
Google AI 的 Vlogger 可以对聊天机器人和虚拟助手产生深远影响的另一个领域。通过提供照片般逼真的视觉表示,企业可以集成 Vlogger 以添加人性化的元素,从而获得更具互动性的用户体验。
教育内容
教育已经开始向智能课堂和虚拟导师等形式提供教程的方向发展。借助 Vlogger,教育内容可以拥有各种学科的个性化头像,甚至可以拥有来自不同国籍的学生的多语言头像。
社会影响
尽管 Google Vlogger 在人类视频合成方面取得了最先进的成果,但与其他生成式 AI 工具一样,滥用该技术的可能性也困扰着人们。例如,使用名人头像创建不当内容或可能引发骚乱的政治人物头像。随着深度伪造技术在互联网上迅速蔓延,人们无法判断视频中的人是否被替换成了其他人的肖像。这可能会增加错误信息和欺诈行为的可能性。
结论
Google AI 的 Vlogger 可以将内容创作提升到一个全新的水平。它将塑造人类视频合成的未来,并减少对物理内容创作者的需求。与其他生成式 AI 软件一样,Vlogger 的目的只是简化和简化内容创作者的工作流程,而不是取代他们。
这篇文章就到这里了。我们下一篇文章再见!