从“硬拒绝”到“安全补全”：探索以输出为中心的AI安全性训练新范式

在人工智能安全领域，长期以来一直存在着“安全性”与“可用性”之间的激烈博弈。传统的安全对齐机制往往依赖于“硬拒绝”（Hard Refusals）策略，即当模型检测到潜在的违规风险时，会直接切断对话或拒绝回答。虽然这种方式在防止有害输出方面非常有效，但其副作用也显而易见：模型往往会变得过于保守，甚至在面对看似无害但涉及敏感边界的指令时，也会表现出过度防御，从而严重损害了AI的实用性与交互体验。

随着OpenAI在GPT-5研发进程中引入全新的“安全补全”（Safe-completions）方法，这一困局正迎来转机。这项新技术的核心在于实现从“防御性拒绝”向“以输出为中心的安全性训练”的范式转移。与以往仅关注输入端过滤不同，新的训练逻辑更加侧重于对输出结果的精细化控制，旨在通过更具细微差别的安全性训练，提升模型在处理复杂指令时的表现。

这种转变对于处理“双重用途”（Dual-use）提示词至关重要。这类提示词具有双刃剑属性，既可以用于合法的学术研究，也可能被用于恶意目的。通过“安全补全”技术，模型不再是简单地采取“一刀切”的拒绝态度，而是在确保输出内容符合安全准则的前提下，尽可能地提供高质量、有帮助的信息。这种以输出为中心的安全性训练，不仅提升了AI响应的安全性，更在本质上增强了其作为生产力工具的智能水平与响应深度。

🔗 来源：OpenAI

从“硬拒绝”到“安全补全”：探索以输出为中心的AI安全性训练新范式

用户反馈

推荐意见

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)