跨越“观察”到“行动”的鸿沟：视频预训练技术助力人工智能掌握复杂任务执行

在人工智能领域，如何让机器从单纯的“观察者”转变为具备复杂决策能力的“执行者”，始终是一个核心课题。近日，一项关于视频预训练技术的突破性研究为这一难题提供了全新的思路：通过大规模学习人类玩家游玩《我的世界》的视频，人工智能不仅掌握了游戏规则，甚至能够完成极其复杂的长程任务。

该研究的核心在于利用了海量的无标签人类游戏视频数据。研究团队通过这种视频预训练技术，构建了一个强大的神经网络。尽管仅使用了极少量的标注数据，但模型却展现出了惊人的学习能力。实验结果显示，经过微调后的模型能够自主完成制作钻石工具的任务——对于经验丰富的玩家而言，这一过程通常需要超过20分钟，涉及多达两万四千次的操作指令。

更具深远意义的是，该模型直接采用了人类原生的交互方式，即通过模拟键盘按键和鼠标移动来进行操作。这种端到端的学习方式赋予了模型极强的通用性。这不仅仅是游戏领域的突破，更是迈向“通用计算机操作智能体”的关键一步。这意味着，未来的智能体或许能够像人类一样，通过观察屏幕上的视觉信息，直接操控各种复杂的计算机软件与界面，实现真正的自动化任务处理。

🔗 来源：OpenAI

跨越“观察”到“行动”的鸿沟：视频预训练技术助力人工智能掌握复杂任务执行

用户反馈

推荐意见

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)