跳转到帖子
在手机APP中查看

一个更好的浏览方法。了解更多

AIGC实战 - 只有干货的 AI 社区

主屏幕上的全屏APP,带有推送通知、徽章等。

在iOS和iPadOS上安装此APP
  1. 在Safari中轻敲分享图标
  2. 滚动菜单并轻敲添加到主屏幕
  3. 轻敲右上角的添加按钮。
在安卓上安装此APP
  1. 轻敲浏览器右上角的三个点菜单 (⋮) 。
  2. 轻敲添加到主屏幕安装APP
  3. 轻敲安装进行确认。

OpenAI 前 CTO 的“新战场”:打破 AI 的回合制枷锁,重塑人机协作的边界

在经历了长达 18 个月的“蛰伏”后,OpenAI 前 CTO Mira Murati 的新势力 Thinking Machines Lab 终于向世界展示了其技术野心。5 月 11 日,该公司发布了一段极具冲击力的研究预览视频,向业界展示了其核心成果——“交互模型”(Interaction Model)。这并非又一场关于参数规模或跑分榜单的常规发布,而是一次对 AI 交互范式的根本性挑战。

如果你仔细观察其 Demo 视频,会发现一种前所未有的“灵动感”:用户在说话时,AI 并非被动等待,而是能实时参与;用户对着摄像头做俯卧撑,AI 能同步计数;甚至当用户在写代码时出现疏忽,AI 会在无需指令的情况下主动出声提醒。这种能够“察言观色”并主动介入的能力,正试图打破当前主流 AI 产品中那种机械化的交互逻辑。

长期以来,几乎所有的 AI 对话系统都受困于一种“回合制”的底层逻辑:用户输入,模型处理,模型输出。这种模式在纯文本场景下尚能应付,但在涉及语音、视频等实时协作时,却显得极其笨拙。在用户说话时,AI 处于“失聪”状态;在 AI 回复时,它又失去了感知新信息的能力。这种如同隔着墙使用对讲机的沟通方式,本质上切断了人机之间实时流动的感知带宽。

Thinking Machines 提出的解决方案是“时间对齐的微回合”(Time-Aligned Micro-Turns)技术。他们将交互的时间颗粒度细化到了 200 毫秒。通过将音频、视频、文本三条数据流交织成连续的 Token 序列,模型不再被“你说完我再说”的边界所束缚。这意味着 AI 可以在用户说话的过程中实时插嘴、边听边搜索、边看边提醒。这种将交互能力直接内置于模型内部的设计,试图从根本上消除延迟,让 AI 的反应更接近人类的自然交流。

为了实现这种极致的流畅度,该团队构建了一个双层架构:一层是负责快速反应的交互层,另一层则是负责深度思考的逻辑层。这种架构不仅让 AI 在处理实时任务时表现得游刃有余,更在性能指标上展现了统治力。在针对实时性与准确性的测试中,其表现大幅领先于现有的主流模型。更重要的是,这种设计试图解决一个核心矛盾:如何在保持高响应速度的同时,不牺牲深度推理的能力。

然而,技术上的突破并非没有代价。回顾 Thinking Machines 的发展历程,可以发现这是一家充满了“英雄主义”色彩却又面临剧烈动荡的公司。从最初汇聚了大量 OpenAI 精锐力量的壮丽开局,到如今面临核心团队流失、人才重组的阵痛,这家公司正处于一场关于技术理想与商业现实的博弈之中。尽管面临人才流失的挑战,但其技术路径所展现出的前瞻性,依然让整个行业感到震动。

在当前的 AI 竞赛中,当所有人都在追求参数规模的扩张时,Thinking Machines 却在尝试回归交互的本质。它试图证明,未来的智能不应仅仅体现在“算力”的堆砌上,更应体现在“感知”的细腻度上。如果说大模型赋予了 AI “大脑”,那么这种全新的交互范式,则是在为 AI 注入“神经末梢”。

这场关于“如何与智能体共存”的技术革命,才刚刚拉开序幕。

用户反馈

推荐意见

暂无评论,快来抢沙发吧!

Background Picker
Customize Layout

我的帐户

导航

搜索

搜索

配置浏览器推送通知

Chrome (安卓)
  1. 轻敲地址栏旁的锁形图标。
  2. 轻敲权限 → 通知。
  3. 调整你的偏好。
Chrome (台式电脑)
  1. 点击地址栏中的挂锁图标。
  2. 选择网站设置。
  3. 找到通知选项,并调整你的偏好。