跳转到帖子
在手机APP中查看

一个更好的浏览方法。了解更多

AIGC实战 - 只有干货的 AI 社区

主屏幕上的全屏APP,带有推送通知、徽章等。

在iOS和iPadOS上安装此APP
  1. 在Safari中轻敲分享图标
  2. 滚动菜单并轻敲添加到主屏幕
  3. 轻敲右上角的添加按钮。
在安卓上安装此APP
  1. 轻敲浏览器右上角的三个点菜单 (⋮) 。
  2. 轻敲添加到主屏幕安装APP
  3. 轻敲安装进行确认。

破壁行动:对话银河通用,探寻具身智能的进化之路

在人工智能从“数字大脑”向“物理肢体”进化的关键转折点,如何让机器不仅能理解语言,更能理解重力、摩擦力与空间几何?这不仅是算法的挑战,更是感知与行动范式的重构。

近日,我们对话了银河通力的核心成员。在讨论中,一个名为“潜在动力学动作模型”的技术突破成为了焦点。这项技术试图打破传统视觉语言模型与物理控制之间的壁垒,通过将感知与动作深度耦合,为具身智能的落地铺平道路。

长期以来,具身智能领域面临着两大难题:一是如何让模型理解复杂的物理规律,二是如何实现从感知到动作的无缝转换。传统的视觉语言模型擅长逻辑与语言,却往往对物理世界的因果律缺乏直觉。而银河通力的最新研究表明,通过构建一种能够同时处理视觉、语言与物理动力学的统一架构,我们可以让机器在“理解”世界的同时,具备“预判”物理后果的能力。

这种核心突破在于一种全新的学习范式:不再仅仅学习“这是什么”,而是学习“如果我这样做,会发生什么”。

在技术实现层面,这种突破依赖于一种高度集成的架构。通过整合视觉、语言与动力学特征,模型能够捕捉到物体运动的内在逻辑。这种架构不仅能够处理静态的图像,更能理解动态的演变。更重要的是,这种模型具备了处理“因果关系”的潜力——它能通过模拟物理反馈,在实际动作发生前,就在神经元层面完成对物理后果的预演。

然而,算法的进化离不开高质量数据的喂养。银河通力展示了一套极具野心的“数据金字塔”战略。通过构建从互联网海量文本、人类动作捕捉到高精度物理仿真数据的多层级体系,他们正在为模型构建一套完整的“物理常识”。这套体系涵盖了从宏观的语义理解到微观的力学反馈,旨在让模型在进入真实物理世界之前,就已经在数字孪生的海洋中完成了对物理法则的初步习得。

更令人关注的是,这种进化并非仅仅依赖于“成功案例”的堆砌,而是强调从“失败”中学习。在具身智能的训练过程中,模型会经历无数次抓取失败、碰撞与倾覆。通过将这些失败的物理反馈转化为学习信号,模型能够逐渐理解边界条件,从而在真实的物理交互中表现出更强的鲁棒性与适应性。

展望未来,随着这种感知与动作统一架构的成熟,具身智能将不再局限于实验室的特定任务,而是能够走向复杂的、非结构化的真实环境。当机器能够像人类一样,通过观察与试错,建立起对物理世界的直觉时,人工智能的下一次革命,便已在物理世界的每一次触碰中悄然发生。

🔗 来源:钛媒体 (TMTPost)

用户反馈

推荐意见

暂无评论,快来抢沙发吧!

Background Picker
Customize Layout

我的帐户

导航

搜索

搜索

配置浏览器推送通知

Chrome (安卓)
  1. 轻敲地址栏旁的锁形图标。
  2. 轻敲权限 → 通知。
  3. 调整你的偏好。
Chrome (台式电脑)
  1. 点击地址栏中的挂锁图标。
  2. 选择网站设置。
  3. 找到通知选项,并调整你的偏好。