在人工智能安全领域,全新的开源安全防护推理模型——包含1200亿参数与200亿参数两个版本——正引起广泛关注。这两个模型均基于原有的开源安全模型进行了后期训练,其核心能力在于能够根据预设的政策准则进行逻辑推理,从而实现对内容进行精准的分类与合规性标注。
本技术报告详细阐述了该系列安全防护模型的功能特性,并提供了基础的安全评估结果。在评估过程中,研究团队以原始的开源安全模型作为基准,旨在通过对比分析,验证新模型在遵循特定政策进行内容识别方面的性能表现。
关于底层开源安全模型在开发流程与架构设计方面的详细信息,读者可参阅原始的模型说明文档。这一系列的发布,标志着在开放权重模型领域,利用推理能力实现自动化内容治理迈出了重要一步。
🔗 来源:OpenAI
推荐意见