跨越模态边界：Google 发布 Gemini Omni，重塑生成式 AI 的创作逻辑

在生成式人工智能领域，从“理解指令”到“创造世界”的跨越正以前所未有的速度发生。继去年 Nano Banana 为 Gemini 注入图像生成与编辑能力，帮助数百万用户实现创意可视化之后，Google 今日正式宣布推出全新的 Gemini Omni 系列模型。这标志着 Gemini 正式进入一个全新的阶段：不仅具备强大的多模态理解力，更拥有了从任何输入形态出发进行全能创作的能力。

作为该系列的先行者，Gemini Omni Flash 已经开始在 Gemini 应用、Google Flow 以及 YouTube Shorts 中陆续上线。Gemini Omni 的核心突破在于其原生多模态的底座架构，它打破了输入与输出之间的模态壁垒。用户可以混合使用图像、音频、视频和文本作为输入，并利用 Gemini 庞大的现实世界知识库，生成具备高度逻辑性与视觉质量的高端视频内容。这种“推理与创作”的深度结合，让 AI 不再仅仅是像素的堆砌，而是具备了理解物理规律与文化语境的能力。

最令创作者瞩目的是其革命性的“对话式视频编辑”功能。通过自然语言指令，用户可以对视频进行极其精细的迭代。这种编辑并非简单的滤镜叠加，而是一种基于上下文的逻辑重构。在编辑过程中，模型能够确保角色的一致性、物理规律的稳定性以及场景的前后连贯性。例如，你可以通过简单的指令将雕塑材质变为气泡，或者通过对话让镜面产生如液体般的波动效果，甚至要求改变摄像机的视角，而无需担心画面逻辑的崩溃。

此外，Gemini Omni 在物理模拟与知识融合方面展现出了惊人的深度。不同于以往仅依赖模式匹配的生成方式，Omni 能够理解重力、动能和流体动力学等复杂的物理法则，从而创造出更具真实感的动态场景。更重要的是，它能将人类的科学、历史与文化知识转化为视觉叙事。无论是制作一段解释蛋白质折叠过程的黏土动画，还是构建一个充满字母符号与文化隐喻的创意短片，Gemini Omni 都能将抽象的概念具象化，实现从“视觉逼真”到“叙事深刻”的飞跃。

展望未来，Gemini Omni 的创作边界将持续扩张。虽然目前音频输入仅支持语音参考，但 Google 已明确表示将很快推出更多类型的音频输入支持。随着模型对图像、文本、视频及音频等全维度参考素材的整合，Gemini Omni 正在将任何碎片化的创意素材，转化为统一且连贯的视觉杰作，彻底重塑数字内容生产的范式。

🔗 来源：Blog

跨越模态边界：Google 发布 Gemini Omni，重塑生成式 AI 的创作逻辑

用户反馈

推荐意见

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)