随着人工智能技术正以前所未有的速度向超人类智能迈进,如何确保这些高度复杂的系统始终符合人类价值观,已成为全球科技界最紧迫的课题。近日,一项总额达1000万美元的“超级对齐快速资助计划”正式宣布启动,旨在通过大规模的科研投入,为超人类AI系统的安全与对齐研究注入强劲动力。
该计划的核心目标是支持针对超人类人工智能系统安全性的前沿技术探索。资助范围涵盖了当前人工智能治理领域中最具挑战性的几个关键维度,包括探索如何利用较弱模型引导更强智能体的“弱到强泛化”研究、旨在提升模型内部决策逻辑透明度的“可解释性”研究,以及确保在智能水平大幅提升后仍能实现有效监管的“可扩展监督”技术。
通过对这些底层技术难题的攻克,该计划试图为未来可能出现的超智能系统构建一套坚实的防御机制。这不仅是对技术边界的探索,更是人类在迈向通用人工智能时代时,为构建安全护栏所进行的战略性布局。
🔗 来源:https://openai.com/index/superalignment-fast-grants
推荐意见