跳转到帖子
在手机APP中查看

一个更好的浏览方法。了解更多

AIGC实战 - 只有干货的 AI 社区

主屏幕上的全屏APP,带有推送通知、徽章等。

在iOS和iPadOS上安装此APP
  1. 在Safari中轻敲分享图标
  2. 滚动菜单并轻敲添加到主屏幕
  3. 轻敲右上角的添加按钮。
在安卓上安装此APP
  1. 轻敲浏览器右上角的三个点菜单 (⋮) 。
  2. 轻敲添加到主屏幕安装APP
  3. 轻敲安装进行确认。

跨越模态边界:Google 发布 Gemini Omni,重塑生成式 AI 的创作逻辑

在生成式人工智能领域,从“理解指令”到“创造世界”的跨越正以前所未有的速度发生。继去年 Nano Banana 为 Gemini 注入图像生成与编辑能力,帮助数百万用户实现创意可视化之后,Google 今日正式宣布推出全新的 Gemini Omni 系列模型。这标志着 Gemini 正式进入一个全新的阶段:不仅具备强大的多模态理解力,更拥有了从任何输入形态出发进行全能创作的能力。

作为该系列的先行者,Gemini Omni Flash 已经开始在 Gemini 应用、Google Flow 以及 YouTube Shorts 中陆续上线。Gemini Omni 的核心突破在于其原生多模态的底座架构,它打破了输入与输出之间的模态壁垒。用户可以混合使用图像、音频、视频和文本作为输入,并利用 Gemini 庞大的现实世界知识库,生成具备高度逻辑性与视觉质量的高端视频内容。这种“推理与创作”的深度结合,让 AI 不再仅仅是像素的堆砌,而是具备了理解物理规律与文化语境的能力。

最令创作者瞩目的是其革命性的“对话式视频编辑”功能。通过自然语言指令,用户可以对视频进行极其精细的迭代。这种编辑并非简单的滤镜叠加,而是一种基于上下文的逻辑重构。在编辑过程中,模型能够确保角色的一致性、物理规律的稳定性以及场景的前后连贯性。例如,你可以通过简单的指令将雕塑材质变为气泡,或者通过对话让镜面产生如液体般的波动效果,甚至要求改变摄像机的视角,而无需担心画面逻辑的崩溃。

此外,Gemini Omni 在物理模拟与知识融合方面展现出了惊人的深度。不同于以往仅依赖模式匹配的生成方式,Omni 能够理解重力、动能和流体动力学等复杂的物理法则,从而创造出更具真实感的动态场景。更重要的是,它能将人类的科学、历史与文化知识转化为视觉叙事。无论是制作一段解释蛋白质折叠过程的黏土动画,还是构建一个充满字母符号与文化隐喻的创意短片,Gemini Omni 都能将抽象的概念具象化,实现从“视觉逼真”到“叙事深刻”的飞跃。

展望未来,Gemini Omni 的创作边界将持续扩张。虽然目前音频输入仅支持语音参考,但 Google 已明确表示将很快推出更多类型的音频输入支持。随着模型对图像、文本、视频及音频等全维度参考素材的整合,Gemini Omni 正在将任何碎片化的创意素材,转化为统一且连贯的视觉杰作,彻底重塑数字内容生产的范式。

🔗 来源:Blog

用户反馈

推荐意见

暂无评论,快来抢沙发吧!

Background Picker
Customize Layout

我的帐户

导航

搜索

搜索

配置浏览器推送通知

Chrome (安卓)
  1. 轻敲地址栏旁的锁形图标。
  2. 轻敲权限 → 通知。
  3. 调整你的偏好。
Chrome (台式电脑)
  1. 点击地址栏中的挂锁图标。
  2. 选择网站设置。
  3. 找到通知选项,并调整你的偏好。