在人工智能迈向通用人工智能(AGI)的进程中,如何确保复杂目标的对齐与安全,始终是学术界的核心挑战。传统的对齐技术,如依赖人工标注的数据或预设的奖励函数,在面对超出人类理解与评估能力的复杂任务时,往往面临着难以界定与执行的困境。
近日,一项名为“迭代放大”(Iterated Amplification)的新型AI安全技术引起了广泛关注。该技术的核心逻辑在于,不再试图通过直接提供标签或奖励函数来定义宏大目标,而是通过一种更为精细的策略:将复杂的行为逻辑拆解为一系列人类可理解、可验证的简单子任务。这种方法旨在通过任务的逐层分解,实现对那些即便对于人类而言也过于庞大、复杂的行为目标的精准设定与控制。
尽管目前该研究仍处于非常早期的阶段,实验仅在简单的算法模拟领域中完成,但其展现出的潜力不容小觑。研究团队选择在初步阶段公开这一成果,是因为他们坚信“迭代放大”有望成为一种具备可扩展性的AI安全治理方案,为应对未来超智能系统的安全挑战提供全新的技术路径。
🔗 来源:OpenAI
推荐意见