跳转到帖子
在手机APP中查看

一个更好的浏览方法。了解更多

AIGC实战 - 只有干货的 AI 社区

主屏幕上的全屏APP,带有推送通知、徽章等。

在iOS和iPadOS上安装此APP
  1. 在Safari中轻敲分享图标
  2. 滚动菜单并轻敲添加到主屏幕
  3. 轻敲右上角的添加按钮。
在安卓上安装此APP
  1. 轻敲浏览器右上角的三个点菜单 (⋮) 。
  2. 轻敲添加到主屏幕安装APP
  3. 轻敲安装进行确认。

4.2 文字之外的魔法:AI 也会看图和说话

(0篇评论)

大家好。

在之前的课程里,我们一直都在跟 AI “敲字”。你可能会觉得 AI 就像一个住在电脑屏幕里的“笔友”。

但到了 2026 年,顶级 AI 已经进化出了五感。它不再只读你的文字,它能看到你拍的照片,听懂你说话的语气,甚至能直接开口跟你谈心。这种“能看、能听、能说”的能力,就是我们今天要讲的核心词:多模态 (Multimodal)


一、 AI 的“眼睛”:视觉理解 (Vision)

现在的 AI 已经不是在简单的“识图”,而是在“理解画面”。

它能帮你做什么?

  • 整理杂乱的资料: 你随手拍一张乱七八糟的报销单或手写笔记,发给 AI,它能瞬间帮你转成整齐的 Excel 表格。

  • 硬件与维修助理: 比如你的电脑主板(像 X99 那种复杂的板子)插线没反应,你拍个特写发给它,问:“我这根跳线插对了吗?”它能像专业技师一样指出问题。

  • 生活小百科: 在路边看到不认识的花草,或者在超市看到没见过的水滤芯,拍张照问它:“这是什么?适配什么型号?”它比搜图引擎更聪明,因为它能结合上下文告诉你怎么用。


二、 AI 的“耳朵”与“嘴巴”:语音交互 (Audio)

现在的语音 AI 已经告别了那种“僵硬的机器人声”,变得充满了情感。

  • 听觉(耳朵): 它可以帮你记录一整场会议,不仅能把录音转成文字,还能听出谁在生气,谁在犹豫。

  • 视觉(嘴巴): 它可以变成你的外语陪练。你可以直接用语音跟它练习英语,它能纠正你的发音,还能根据你的语气调整说话的速度。

  • 实时对话模式:Gemini Live 这样的功能,让你可以像给朋友打电话一样跟 AI 交流。你可以随时打断它,问它:“等等,刚才那段你再解释一下。”


三、 1+1 > 2:多模态的终极威力

多模态最迷人的地方在于:你可以把不同的感官组合起来。

想象一下这个场景:

  1. 你正在装修新家,拍了一张客厅的照片。

  2. 你直接对 AI 说:“你看这张图,我想在左边墙角放一个猫爬架,风格要极简一点,帮我搜一下合适的方案并估算一下尺寸。”

AI 此时同时动用了“眼睛”来看图、“耳朵”来听指令、以及“大脑”来计算。 这种体验,才叫真正的“数字助手”。


四、 给小白的 3 个实操建议

  1. 别手打,直接拍: 遇到复杂的说明书、合同条款或复杂的硬件接口,直接拍照发给 AI 提问。

  2. 善用“语音备忘录”: 当你灵感爆发但没空打字时,直接对着 AI 说话,让它帮你把这段杂乱的语音整理成有逻辑的思维导图。

  3. 情绪感知: 当你写了一封重要的邮件拿不定主意时,可以对 AI 说:“读一下这段文字,看看如果你是收件人,你会觉得我的语气太傲慢了吗?”


五、 课后作业:挑战“非文字输入”

请大家今天尝试一次**“非文字提问”**:

  1. 拍一张你桌面上最混乱的东西(或者一张复杂的发票/说明书)。

  2. 发给 AI,并语音提问:“帮我总结一下这里面的核心信息。”

  3. 在评论区分享:AI 的表现有没有惊艳到你?它看懂了哪些你觉得很难的细节?


本章封面图片设计建议

提示词 (Prompt): A high-quality 3D digital illustration of a friendly robot assistant with a glowing, multi-lens camera eye and a sleek speaker interface on its chest. The robot is holding a magnifying glass to inspect a complex 3D motherboard model that is floating as a hologram. On another side, a sound wave visualizer is glowing vibrantly as the robot interacts with a human user (silhouette). The background is a futuristic lab with soft blue and purple lighting. 8k resolution, cinematic atmosphere, representing "Multimodal AI: Vision and Voice".


这一节的内容通过“感官”的类比,应该能让小白迅速理解 AI 的全貌。接下来,我们要开启初级课程的最后一站——【4.3 浏览器插件:让 AI 贴着你的网页走】吗?

用户反馈

Background Picker
Customize Layout

我的帐户

导航

搜索

搜索

配置浏览器推送通知

Chrome (安卓)
  1. 轻敲地址栏旁的锁形图标。
  2. 轻敲权限 → 通知。
  3. 调整你的偏好。
Chrome (台式电脑)
  1. 点击地址栏中的挂锁图标。
  2. 选择网站设置。
  3. 找到通知选项,并调整你的偏好。