深入了解Sora:AGI的又一里程碑
在2024年初,OpenAI引爆了人工智能领域的又一颗炸弹——视频生成模型Sora。
类似一年前的ChatGPT,Sora被认为是通用人工智能(AGI)的又一个重要里程碑。
" Sora代表着AGI实现从10年缩短到1年的可能性," 360董事长周鸿祎发表了这样的预测。
然而,Sora引起轰动并非仅仅因为其生成的视频更长、清晰度更高,而是因为OpenAI已经超越了以往所有人工智能生成模型的能力,成功生成了与真实物理世界相关的视频内容。
尽管无厘头的赛博朋克风格令人着迷,但真实世界如何被人工智能重新呈现才更具意义。
因此,OpenAI提出了一个全新的概念——世界模拟器。
在OpenAI官方发布的技术报告中,Sora被定位为"作为世界模拟器的视频生成模型",并强调"我们的研究结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条可行之路。"
OpenAI认为,Sora为理解和模拟真实世界的模型奠定了基础,这将是实现AGI的一个重要里程碑。因此,Sora不仅仅是在AI视频领域竞争中超越了Runway、Pika等公司,更是为实现AGI打开了新的篇章。
从文字(ChatGPT)到图片(DALL·E)再到视频(Sora),OpenAI仿佛正在拼凑一幅大拼图,试图通过影像媒介形态彻底打破虚拟与现实的边界,成为电影中的"头号玩家"。
如果说苹果的Vision Pro是头号玩家的硬件外显,那么一个能够自动构建仿真虚拟世界的AI系统才是其灵魂。
"语言模型近似人脑,视频模型近似物理世界," 爱丁堡大学的博士生Yao Fu表示。
Sora是如何成为"世界模拟器"的呢?
在OpenAI发布的Sora模型中,打开了2024年AI视频赛道的大门,彻底改变了2023年以前的旧世界。
在Sora的48个演示视频中,解决了以往AI视频的一些问题,如更清晰的生成画面、更逼真的效果、更准确的理解能力、更顺畅的逻辑理解能力以及更稳定和一致性的生成结果等。
然而,这只是Sora展现的冰山一角,因为OpenAI一开始就瞄准的不仅仅是视频,而是所有存在的影像。
影像是一个更大的概念,视频只是其中的一个子集。OpenAI的目标是以视频为切入口,涵盖一切影像,模拟和理解现实世界,即其所强调的"世界模拟器"概念。
Sora的成功体现在哪里呢?首先,OpenAI采用了训练大语言模型的思路,用大规模的视觉数据来训练一个具备通用能力的生成模型。这与以前的"专人专用"逻辑完全不同,展示了OpenAI的大胆创新。
其次,在Sora身上展现了扩散模型与大模型能力的完美融合。
在技术报告中,OpenAI强调了"将各种类型的视觉数据转化为统一表示法的方法,这种表示法可用于生成模型的大规模训练。"
具体而言,OpenAI将视频画面的每一帧编码转化为视觉补丁,每个补丁类似于GPT中的一个token,成为视频、图像中的最小衡量单位。这种方法找到了统一数据的方式,统一了度量衡,也就找到了打通扩散模型和大模型的桥梁。
在整个生成的过程中,扩散模型负责生成效果的部分,而通过增加大模型Transformer的注意力机制,增加了生成的预测和推理能力。这也解释了为什么Sora能够从现有的静态图像中生成视频,还能扩展现有视频或填充缺失的画面帧。
尽管Sora仍有许多局限性,例如物理交互的准确性、长期依赖关系的处理和空间细节的精确性等方面的挑战,但它已经在虚拟和现实世界之间建立了一座桥梁,为无论是虚拟世界的头号玩家,还是机器人更接近人类,都带来了更大的可能性。
总的来说,Sora的发布不仅影响了视频生成领域,还在多个行业中创造了新的机遇和挑战。无论是影视制作、游戏,还是机器人领域,Sora都展示了其世界模拟器的潜力,为实现更智能、更深度的人工智能迈出了重要一步。