在自然语言处理领域,大规模变换器模型通过学习语言规律,展现出了生成连贯文本的惊人能力。如今,这一逻辑正被引入视觉领域。研究表明,通过将完全相同的模型架构应用于像素序列的训练,我们能够实现同样连贯的图像补全与样本生成。
通过建立生成样本质量与图像分类准确率之间的内在关联,研究人员证明了这种最优生成模型在无监督学习环境下,其提取的特征能力已足以与顶尖的卷积神经网络相媲美。这意味着,视觉信息的处理可以被视为一种特殊的序列建模任务。
这一突破性的发现不仅验证了变换器模型在跨模态任务中的普适性,更预示着一种全新的视觉理解路径:通过对像素序列的深度预测,模型能够自发地学习到复杂的视觉表征,从而在无需人工标注的情况下,挑战传统卷积架构在特征提取领域的地位。
🔗 来源:OpenAI
推荐意见