在自然语言处理领域,大规模变换器模型通过学习语言序列,已展现出生成连贯文本的惊人能力。如今,这一成功范式正试图跨越模态,向视觉领域发起冲击。研究人员发现,通过将训练对象从文本标记替换为像素序列,完全相同的模型架构同样能够实现图像的连贯补全与样本生成。
通过建立生成样本质量与图像分类准确率之间的关联,研究表明,这种最优的生成模型在无监督学习环境下提取的特征,已足以与目前顶尖的卷积神经网络相媲美。
这一发现不仅证明了变换器架构在处理视觉数据上的巨大潜力,更为无监督视觉学习开辟了新路径。当像素预测的质量能够直接转化为强大的特征表达能力时,我们正见证着一种全新的视觉认知范式的诞生。
🔗 来源:https://openai.com/index/image-gpt
推荐意见