随着人工智能迈向通用智能的临近,如何确保比人类更强大的智能体始终处于人类的控制之下,已成为全球科研领域最紧迫的课题——即“超级对齐”难题。面对即将到来的超智能时代,人类如何监管一个智力远超自身的实体,成为了一个关乎文明安全的终极挑战。
近期,一项名为“从弱到强的泛化”的研究为这一困局提供了全新的解题思路,并展示了令人振奋的初步成果。该研究提出了一个极具颠覆性的研究方向:我们能否利用深度学习内在的泛化特性,通过“弱监督者”来实现对“强模型”的有效控制?
在传统的监督逻辑中,监督者的能力通常被认为应当高于或至少等同于被监督者。然而,当人工智能的智能水平超越人类认知边界时,人类将不可避免地沦为“弱监督者”。这一研究的核心价值在于,它试图探索一种跨越能力鸿沟的可能性,即通过挖掘深度学习的泛化潜力,让较弱的监督信号能够引导并约束更强大的智能模型,从而为超级智能时代的安全性构建起一道全新的技术防线。
🔗 来源:https://openai.com/index/weak-to-strong-generalization
推荐意见