在本论文中,我们探讨了发布GPT-OSS时可能面临的最坏情况下前沿风险。我们引入了一种恶意微调(MFT)的方法,通过将GPT-OSS微调至在生物学和网络安全领域具有最大能力来尝试激发其最大程度的能力。 🔗 来源:Estimating worst case frontier risks of open weight LLMs (AI 严选)
推荐意见