跳转到帖子
在手机APP中查看

一个更好的浏览方法。了解更多

AIGC实战 - 只有干货的 AI 社区

主屏幕上的全屏APP,带有推送通知、徽章等。

在iOS和iPadOS上安装此APP
  1. 在Safari中轻敲分享图标
  2. 滚动菜单并轻敲添加到主屏幕
  3. 轻敲右上角的添加按钮。
在安卓上安装此APP
  1. 轻敲浏览器右上角的三个点菜单 (⋮) 。
  2. 轻敲添加到主屏幕安装APP
  3. 轻敲安装进行确认。

从人类偏好的角度深度解析GPT-2微调技术

近日,一项针对774M参数量的GPT-2语言模型进行的人类反馈微调研究引起了广泛关注。这项由资深科技财经记者撰写的研究报告揭示了在不同任务中,如何通过人类直接反馈来调整该模型的行为模式。

研究团队通过对GPT-2模型进行了精细微调(fine-tuning),使之能够更好地满足外部人类标注者的偏好。然而值得注意的是,这些偏好并不总是与研究人员自身的期望相符。具体而言,在句子总结的任务中,标注者倾向于复制粘贴输入中的完整句子(尽管仅要求确保准确性)。因此,经过微调的模型学会了直接复刻。

此次研究中,总结任务共需要60,000个人类标签;而对于其他更简单、风格多样的文本延续任务,则只需5,000个标签便能完成。这种差异化的标注需求反映了不同任务对人类反馈的依赖程度。

该研究的主要动机在于将安全技术进一步融入到“机器与人交互”的广泛任务中,这被认为是提取人类价值观的关键所在。通过这种方式,机器不仅能够更好地理解并模拟人类的语言行为,更有助于在未来的智能应用中遵循更符合人类伦理和价值导向的原则。

此次研究的成功实施为后续类似技术的发展提供了宝贵的参考经验,也为人工智能领域探索更加安全可靠的人机交互模式奠定了基础。未来,随着更多先进技术的应用与实践,我们有理由期待一个更加和谐、智能化的数字世界。

用户反馈

推荐意见

暂无评论,快来抢沙发吧!

Background Picker
Customize Layout

我的帐户

导航

搜索

搜索

配置浏览器推送通知

Chrome (安卓)
  1. 轻敲地址栏旁的锁形图标。
  2. 轻敲权限 → 通知。
  3. 调整你的偏好。
Chrome (台式电脑)
  1. 点击地址栏中的挂锁图标。
  2. 选择网站设置。
  3. 找到通知选项,并调整你的偏好。