OpenAI与Anthropic共享首次联合安全评估成果

粉丝

OpenAI和Anthropic共同分享了一项开创性的联合安全评估的发现。他们互相测试了对方模型在偏移、指令遵循、幻觉、破解等方面的表现，以此突显合作进展、面临的挑战以及跨实验室协作的价值。

此次评估涵盖多个关键领域，包括但不限于模型的不一致性（misalignment）、对指令的执行情况（instruction following）、生成错误信息或虚假信息的能力（hallucinations）及如何防止被破解（jailbreaking）。这些测试不仅揭示了当前技术的进步，也指出了未来研究和应用中可能遇到的问题。

通过这种跨实验室的合作方式，OpenAI与Anthropic展示了在人工智能安全领域共同努力的重要性。这不仅有助于提高各自模型的安全性和可靠性，也为整个行业设立了一个新的标杆。

🔗 来源：OpenAI and Anthropic share findings from a joint safety evaluation (AI 严选)

粉丝

用户反馈

0篇意见

OpenAI与Anthropic共享首次联合安全评估成果

用户反馈

推荐意见

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)