在打造安全的人工智能系统方面,一个关键步骤是减少对人工编写目标函数的需求。因为简单地用一个代理来近似复杂的目标或稍微错误理解了复杂目标,都可能导致不希望甚至危险的行为。
近期,在与DeepMind的安全团队合作下,我们开发了一种算法,该算法能够通过告知其在两个提议行为中哪一个更好,从而推断出人类真正的需求。这种方法有助于更准确地理解和实现人的意图,进而提高AI系统的安全性。
🔗 来源:Learning from human preferences (AI 严选)
一个更好的浏览方法。了解更多。
主屏幕上的全屏APP,带有推送通知、徽章等。
在打造安全的人工智能系统方面,一个关键步骤是减少对人工编写目标函数的需求。因为简单地用一个代理来近似复杂的目标或稍微错误理解了复杂目标,都可能导致不希望甚至危险的行为。
近期,在与DeepMind的安全团队合作下,我们开发了一种算法,该算法能够通过告知其在两个提议行为中哪一个更好,从而推断出人类真正的需求。这种方法有助于更准确地理解和实现人的意图,进而提高AI系统的安全性。
推荐意见