模拟人类好奇心：随机网络蒸馏技术助力强化学习实现探索突破

在强化学习领域，如何让智能体在面对奖励极其稀疏的环境时进行有效探索，始终是制约人工智能进化的核心瓶颈。近日，一种基于预测奖励的新型方法——随机网络蒸馏技术，为破解这一难题提供了全新的视角。

该技术的核心在于通过模拟“好奇心”来驱动智能体的探索行为。通过构建基于预测的奖励机制，智能体能够利用预测误差来识别环境中的未知领域。当智能体遇到无法准确预测的新状态时，系统会产生一种内在的激励，促使智能体主动深入探索那些未曾涉足的区域。

这一突破性的算法在极具挑战性的经典游戏《蒙特祖玛的复仇》中展现了惊人的潜力。由于该游戏环境极其复杂且奖励获取难度极大，传统的学习算法往往难以奏效，而随机网络蒸馏技术首次实现了超越人类平均水平的表现。这一成就不仅标志着智能体自主探索能力的飞跃，也为开发具备高度自主学习能力的通用人工智能开辟了新的路径。

🔗 来源：https://openai.com/index/reinforcement-learning-with-prediction-based-rewards

模拟人类好奇心：随机网络蒸馏技术助力强化学习实现探索突破

用户反馈

推荐意见

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)