Nous Research是一家由加密货币风险投资公司Paradigm支持的开放源代码人工智能初创企业,在上周发布了一种新的竞争性编程模型——NousCoder-14B。这种模型据说能在四天内,利用Nvidia最新B200图形处理器训练48个进行匹配或超越多个大型专有系统。该模型在LiveCodeBench v6上的准确率达到67.87%,比其基础模型Alibaba的Qwen3-14B提高了7.08个百分点。
与此同时,竞争对手Anthropic开发的Claude Code编程工具自年初以来一直主导着社交媒体讨论。开发者们在X平台上发布各种令人惊叹的故事,展示其能力。而Nous Research则强调开源替代品可以弥补差距,并认为透明度与强大功能同样重要。值得一提的是,NousCoder-14B的发布特别开放——它不仅公开了模型参数,还发布了完整的强化学习环境、基准测试套件和训练框架。
研究人员Joe Li在开发过程中将模型的进步轨迹与其自己参加Codeforces的经验进行了对比,发现尽管他在两年内大约解决了1000个问题,但模型仅用四天就完成了类似的学习曲线。这说明人类学习者目前仍然比AI更加高效。然而,Nous Research使用Modal云平台并行运行代码执行沙盒,展示了研究人员利用强化学习改进AI推理能力的复杂方法。
推荐意见