突破“数据墙”：Nous Research 揭示代码大模型进化的新范式——从“预测文本”转向“验证逻辑”

在人工智能领域，代码大模型的进化正迎来一个关键的转折点。Nous Research 最近的研究揭示了一个深刻的洞察：当高质量的人类编写代码逐渐耗尽时，大模型的下一步突破将不再仅仅依赖于单纯的“扩大规模”（Scaling Tokens），而是转向一种基于“可验证奖励”（Verifiable Rewards）的强化学习新范式。

长期以来，大型语言模型的训练逻辑建立在“预测下一个 Token”的基础上，通过海量人类编写的代码进行学习。然而，这种模式正面临严重的“数据墙”危机——高质量、逻辑严密的开源代码库是有限的。一旦模型几乎“读完”了互联网上所有优质的代码，单纯增加训练量带来的边际收益将迅速递减。

为了打破这一僵局，Nous Research 提出了一种类似于 AlphaGo 的进化路径。其核心在于利用代码天然具有的“可验证性”。与文学创作不同，代码是否正确是有客观标准的：一段程序是否能通过编译器？是否能通过预设的测试用例？这种“通过或失败”的二元反馈，为强化学习（Reinforcement Learning）提供了一个完美的“裁判”。

通过引入编译器和测试环境作为奖励机制，模型不再仅仅是模仿人类的写作风格，而是在尝试解决问题的过程中，通过不断的试错与学习，寻找能够通过测试的逻辑路径。这种“可验证奖励”机制将学习的重心从“模仿人类”转向了“验证正确性”。

更具革命性的意义在于，这一范式为“合成数据”的规模化应用铺平了道路。既然模型可以通过编译器自主判断代码的正确性，那么模型就可以开始“自我博弈”：利用现有的逻辑能力生成新的编程问题及其对应的解决方案，并通过自动化测试进行筛选。这种自我生成的闭环学习过程，能够产生无穷无尽的高质量训练数据，从而在逻辑层面实现真正的自我进化，彻底绕过人类编写代码数量的限制。

从“预测文本”到“验证逻辑”的转变，预示着代码大模型正在从单纯的“语言模仿者”进化为真正的“问题解决者”。这不仅是训练方法的变革，更是通往通用人工智能（AGI）在逻辑推理领域迈出的关键一步。

🔗 来源：VentureBeat

突破“数据墙”：Nous Research 揭示代码大模型进化的新范式——从“预测文本”转向“验证逻辑”

用户反馈

推荐意见

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)