OpenAI 前 CTO 的“新战场”：打破 AI 的回合制枷锁，重塑人机协作的边界

在经历了长达 18 个月的“蛰伏”后，OpenAI 前 CTO Mira Murati 的新势力 Thinking Machines Lab 终于向世界展示了其技术野心。5 月 11 日，该公司发布了一段极具冲击力的研究预览视频，向业界展示了其核心成果——“交互模型”（Interaction Model）。这并非又一场关于参数规模或跑分榜单的常规发布，而是一次对 AI 交互范式的根本性挑战。

如果你仔细观察其 Demo 视频，会发现一种前所未有的“灵动感”：用户在说话时，AI 并非被动等待，而是能实时参与；用户对着摄像头做俯卧撑，AI 能同步计数；甚至当用户在写代码时出现疏忽，AI 会在无需指令的情况下主动出声提醒。这种能够“察言观色”并主动介入的能力，正试图打破当前主流 AI 产品中那种机械化的交互逻辑。

长期以来，几乎所有的 AI 对话系统都受困于一种“回合制”的底层逻辑：用户输入，模型处理，模型输出。这种模式在纯文本场景下尚能应付，但在涉及语音、视频等实时协作时，却显得极其笨拙。在用户说话时，AI 处于“失聪”状态；在 AI 回复时，它又失去了感知新信息的能力。这种如同隔着墙使用对讲机的沟通方式，本质上切断了人机之间实时流动的感知带宽。

Thinking Machines 提出的解决方案是“时间对齐的微回合”（Time-Aligned Micro-Turns）技术。他们将交互的时间颗粒度细化到了 200 毫秒。通过将音频、视频、文本三条数据流交织成连续的 Token 序列，模型不再被“你说完我再说”的边界所束缚。这意味着 AI 可以在用户说话的过程中实时插嘴、边听边搜索、边看边提醒。这种将交互能力直接内置于模型内部的设计，试图从根本上消除延迟，让 AI 的反应更接近人类的自然交流。

为了实现这种极致的流畅度，该团队构建了一个双层架构：一层是负责快速反应的交互层，另一层则是负责深度思考的逻辑层。这种架构不仅让 AI 在处理实时任务时表现得游刃有余，更在性能指标上展现了统治力。在针对实时性与准确性的测试中，其表现大幅领先于现有的主流模型。更重要的是，这种设计试图解决一个核心矛盾：如何在保持高响应速度的同时，不牺牲深度推理的能力。

然而，技术上的突破并非没有代价。回顾 Thinking Machines 的发展历程，可以发现这是一家充满了“英雄主义”色彩却又面临剧烈动荡的公司。从最初汇聚了大量 OpenAI 精锐力量的壮丽开局，到如今面临核心团队流失、人才重组的阵痛，这家公司正处于一场关于技术理想与商业现实的博弈之中。尽管面临人才流失的挑战，但其技术路径所展现出的前瞻性，依然让整个行业感到震动。

在当前的 AI 竞赛中，当所有人都在追求参数规模的扩张时，Thinking Machines 却在尝试回归交互的本质。它试图证明，未来的智能不应仅仅体现在“算力”的堆砌上，更应体现在“感知”的细腻度上。如果说大模型赋予了 AI “大脑”，那么这种全新的交互范式，则是在为 AI 注入“神经末梢”。

这场关于“如何与智能体共存”的技术革命，才刚刚拉开序幕。

🔗 来源：极客公园 (GeekPark)

OpenAI 前 CTO 的“新战场”：打破 AI 的回合制枷锁，重塑人机协作的边界

用户反馈

推荐意见

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)