像素序列的语言学：图像生成预训练模型如何重塑视觉生成范式

在自然语言处理领域，大规模变换器模型通过学习语言规律，展现出了生成连贯文本的惊人能力。如今，这一逻辑正被引入视觉领域。研究表明，通过将完全相同的模型架构应用于像素序列的训练，我们能够实现同样连贯的图像补全与样本生成。

通过建立生成样本质量与图像分类准确率之间的内在关联，研究人员证明了这种最优生成模型在无监督学习环境下，其提取的特征能力已足以与顶尖的卷积神经网络相媲美。这意味着，视觉信息的处理可以被视为一种特殊的序列建模任务。

这一突破性的发现不仅验证了变换器模型在跨模态任务中的普适性，更预示着一种全新的视觉理解路径：通过对像素序列的深度预测，模型能够自发地学习到复杂的视觉表征，从而在无需人工标注的情况下，挑战传统卷积架构在特征提取领域的地位。

🔗 来源：OpenAI

用户反馈