人工智能领域的两大领军企业 OpenAI 与 Anthropic 近日宣布,双方已完成一项史无前例的联合安全评估,并正式公开了相关的研究发现。这项合作标志着行业内首次尝试通过跨实验室的协作机制,对彼此的大型语言模型进行深度的安全性审计与压力测试。
在本次评估过程中,双方采取了互测模式,针对模型在多个关键维度的表现进行了严苛的检测。评估范围涵盖了模型对齐偏差、指令遵循能力、幻觉现象、越狱攻击风险以及其他核心安全指标。通过这种“以矛攻盾”的测试方式,研究人员能够更全面地识别模型在极端或恶意场景下的潜在风险。
此次联合评估的结果不仅展示了当前大模型在安全性提升方面取得的显著进展,同时也揭示了模型在处理复杂指令和抵御恶意诱导时面临的严峻挑战。更深层的意义在于,这一行动凸显了跨实验室协作在应对人工智能安全风险方面的巨大价值,为构建更安全、更可靠的通用人工智能(AGI)提供了新的范式与协作蓝图。
🔗 来源:OpenAI
推荐意见