生成式人工智能的边界正在被重新定义。通过在大规模视频数据集上进行深度训练,研究人员正在探索如何利用视频生成模型来构建物理世界的模拟器。
这项研究的核心在于开发一种能够处理多种维度特征的文本条件扩散模型。该模型能够同时兼容不同时长、分辨率及长宽比的视频与图像数据。在技术架构层面,我们采用了先进的 Transformer 架构,通过对视频和图像潜码进行“时空补丁”(spacetime patches)化处理,实现了对复杂动态场景的深度理解与重构。
作为这一技术路径的里程碑,旗舰模型 Sora 的问世展示了其强大的生成能力,能够产出长达一分钟的高保真视频。实验结果有力地证明,通过持续扩大视频生成模型的参数规模与训练数据量,我们正在开辟一条通往构建通用物理世界模拟器的极具前景的技术路径。
🔗 来源:OpenAI
推荐意见