视频生成模型简介
生成式 AI 凭借 ChatGPT-4、Stable Diffusion 3、Devin AI 等,以及现在的 SORA,席卷全球。
SORA 是一款由 OpenAI 提供的图像或文本到视频生成工具。生成模型是这些令人惊叹的视频序列和逼真的新颖内容背后的驱动力。这些模型是在视频数据上训练的,能够根据从训练数据集中学习到的内容生成视频。它利用算法和神经网络来生成独特、逼真的视频。
让我们看看一些生成式视频模型的常见应用。
创意讲故事:生成式视频模型可以轻松创建基于叙事的视频,在游戏、VR 和 AR 中提供个性化和交互式讲故事体验。
内容创作:创作者现在可以创建视觉上吸引人的角色和故事,这些角色和故事是全新且独特的。
视频编辑和增强:视频生成模型可以自动执行视频编辑任务,例如生成缺失的帧或增强视频质量,减少后期制作工作。
VR 和 AR:VR 和 AR 已将沉浸式体验提升到一个全新的水平。生成式视频模型可以创建如此逼真的虚拟环境,就像旅行到另一个维度一样。
数据增强和模拟:它们可以通过创建合成视频数据来增强模型的训练数据集,从而显着提高视频分析系统的稳健性。
生成式视频模型在视频合成、讲故事、视频编辑以及更多视频生成任务中具有巨大潜力,证明了它们是 2024 年 Gen AI 的下一个大事件。
什么是 SORA?
OpenAI(ChatGPT 和 Dall-E 的创建者)于 2 月份推出了 SORA,这是一款文本到视频 AI 模型。SORA 是生成式 AI 在创建逼真视频方面的重大进步。OpenAI 展示了一些示例,但并没有进行太多宣传或广告。您以文本形式输入文本提示,SORA 将生成最长可达一分钟的视频。
提示:摄像机跟踪一辆带有黑色车顶架的白色的老式 SUV,它在陡峭的山坡上沿着一条陡峭的泥土路加速行驶,松树环绕着它,轮胎溅起尘土,阳光照射在 SUV 上,它沿着泥土路加速行驶,在场景上投下温暖的光芒。泥土路轻轻地弯向远处,没有其他车辆或车辆。路两边的树木是红杉,点缀着绿色的斑块。从后面看,汽车跟随弯道轻松行驶,让人感觉它像在崎岖的地形上行驶一样。泥土路本身被陡峭的山丘和山脉包围,头顶是蔚蓝的天空,上面飘着缕缕白云。
SORA 使用 NLP 和深度学习模型来生成高质量的一分钟视频。虽然 SORA 并不是第一个生成式视频模型,但它是第一个展示高质量、逼真视频的模型。
SORA 的历史
如前所述,SORA 并不是第一个生成式视频模型。我们还有 Meta 的 Make-a-Video、Google 的 Lumiere、Runway 的 Gen-2 以及 OpenAI 的 Dall-E。
在 SORA 时代之前,我们有 Dall-E(Diverse All-Purpose Lightweight Layout Engine 的缩写),来自 OpenAI。它于 2021 年 1 月推出,是 OpenAI 的多模态文本到图像生成式 AI 工具。它是 GPT-3 的定制版本,在 120 亿个参数上运行。然后,Dall-E 2 于 2022 年问世,它拥有四倍的图像分辨率和简化的 35 亿个参数架构,用于图像生成。与它的前身不同,Dall-E 2 是一个引人注目的模型。
SORA 架构以及它的工作原理
SORA 使用基于扩散的 Transformer 架构来生成视频。下一节将详细介绍。
SORA 使用视觉补丁作为标记。视频数据被分解为帧,其中每一帧都被分解为像素组。SORA 捕获像素的时间信息。
现在让我们探索 SORA 架构的组成部分。
视频压缩
目的是有效地编码、编码和解码视频内容。利用变分自编码器 (VAE) 等框架可以实现这一点。SORA 将原始视频压缩成一个潜伏表示,该表示存储空间和时间信息。
时空补丁
这是 SORA 的核心。它们基于 ViT。传统上,ViT 使用一系列图像补丁来训练 Transformer 模型。SORA 可以使用补丁表示法处理不同分辨率、长度甚至纵横比的视频和图像。
统一表示
SORA 将所有形式的视觉数据转换为统一表示。这里,视频被压缩到低维潜伏空间,并分解为时空补丁。为了简化、可扩展性和稳定性,它使用固定大小的补丁。
可变分辨率
OpenAI 尚未提供有关此技术的更多详细信息。在这里,模型可以将视频分割成补丁,从而增强编码过程。
如何使用 SORA?
SORA 正在开发中,并向各种视觉艺术家、设计师和电影制作人提供访问权限,以征求反馈并改进模型。OpenAI 尚未确定 SORA 公开发布的时间表,但预计将在今年某个时候发布。目前,您可以从 OpenAI 了解更多关于 SORA 的信息。
结论
与 ChatGPT 和 Dall-E 一样,SORA 也将在生成式 AI 领域证明其开创性。人们只能预期这个模型的令人印象深刻的功能,并在公开发布期间提供一些见解。
关于 SORA 的简要介绍就到这里了。我们下一期再见!