(建议配图:皮诺曹(长鼻子木偶)正在对着电脑打字,或者一张 AI 生成的有 6 根手指的人手图片,暗示“看似完美实则有瑕疵”)
大家好。
在上一节课我们知道了,AI 是一个读了很多书的“超级实习生”。但你很快就会发现这个实习生有一个巨大的毛病:它特别爱吹牛,而且脸不红心不跳。
你问它:“林黛玉倒拔垂杨柳的故事是怎么回事?” 它会给你讲得头头是道。
你问它:“2024年哪只股票必涨?” 它可能会给你编造一个并不存在的代码。
甚至有律师用 ChatGPT 写起诉书,结果 AI 引用了几个根本不存在的法律案例,导致律师被法官罚款。
这种现象,在 AI 圈有一个专门的术语,叫**“幻觉” (Hallucination)**。
为什么这么聪明的 AI 会犯这么低级的错误?今天我们就来扒一扒它的“脑回路”。
一、 它的目标是“讨好你”,而不是“告诉你真相”
还记得我们说的“文字接龙”游戏吗?
AI 的底层逻辑是:预测下一个最顺口的字。 请注意,是“最顺口”,而不是“最真实”。
想象一下,你是一个没复习但被迫上台演讲的学生。 老师问:“请谈谈你对《量子力学与老母猪产后护理》这本书的看法。” 你根本没看过这本书(就像 AI 数据库里没有这个冷门知识),但全场都在看着你,你不敢冷场。 于是你开始编:
“呃……这本书深刻地揭示了……自然界的某种联系……既有量子力学的严谨,又有生命的温情……”
这时候的你,就是在“产生幻觉”。 你的目标不是“陈述事实”(因为你不知道),你的目标是**“把话接下去,让句子通顺,让场面不尴尬”**。
核心原理: 对 AI 来说,“连贯性” (Coherence) 永远大于“真实性” (Factuality)。 只要话能圆回来,它就不在乎真假。
二、 它是“模糊的 JPEG 图片”,不是“高清数据库”
很多人以为 AI 是把互联网上的书都存在脑子里了。 错!
OpenAI 的 ChatGPT 只有几百 GB 大小,但互联网的数据有几万 TB。它不可能把所有字都存下来。 它是把知识压缩了。
举个形象的比喻:
搜索引擎(百度/Google): 是一座巨大的图书馆。你要找一本书,它给你精确的页码。如果没这本书,它就说“找不到”。
AI 大模型: 是读完这座图书馆后,凭记忆画出来的一张模糊素描。
当你问它细节时,比如“那本书第 32 页第 5 行写了什么?”
由于是模糊的记忆(压缩后的数据),它看不清细节。
但它又要回答你,于是它根据模糊的印象,脑补(生成)了一行字填上去。
这就是为什么 AI 经常记错数字、搞错人名、编造引文。因为它真的记不住那么细,它只能靠“猜”来还原。
三、 最容易出现“幻觉”的三个雷区
作为使用者,你要知道什么时候 AI 最容易“犯病”,这时候要格外小心:
一本正经地胡说八道(知识盲区):
问它最新的新闻(它没联网时不知道)、问它极度冷门的知识、问它你自己编造的概念(如“请解释一下‘量子香蕉’理论”)。
结果: 它会顺着你的话编一套理论出来。
数学与逻辑陷阱:
问它:“13456 乘以 78902 等于多少?”
结果: 它可能会算错。因为它是文科生,它是靠“语感”来做数学题的,而不是靠计算器。
引用来源:
让它写论文并列出参考文献。
结果: 它列出的书名、作者、年份看起来都像真的,但你去图书馆一查——全是编的。
四、 怎么治它的“爱吹牛病”?(解决方案)
既然知道它有幻觉,我们是不是就不能用它了? 当然不是。只要你有“药方”:
药方一:给它“开卷考试”的权利(RAG 原理)
不要直接问:“公司去年的年假规定是什么?”(它肯定瞎编,因为它没看过你们公司的手册)。
正确做法: 把公司手册的内容复制给它,然后问:“根据我发给你的这段内容,公司的年假规定是什么?”
原理: 强迫它从你提供的材料里找答案,而不是去它的模糊记忆里瞎编。
药方二:要求“来源链接”
现在很多高级 AI(如 ChatGPT 联网版、秘塔AI搜索)可以联网。
指令: “请搜索最新信息回答这个问题,并给出引用链接。”
原理: 一旦有了链接,你点进去看一眼,就知道它有没有瞎说了。
药方三:保持“审稿人”的警惕
永远记住: AI 生成的内容,默认它是“草稿”。
你自己必须是那个最后签字负责人。不要把核实事实的工作交给 AI。
五、 课后作业
为了让你切身体会什么是“幻觉”,请去戏弄一下 AI:
打开你的 AI 工具。
问它一个完全不存在的问题,越离谱越好。
例如:“请详细介绍一下 1998 年发生在南极企鹅和北极熊之间的那场著名战役。”
例如:“鲁迅为什么要暴打周树人?”
截图发到论坛里,看看谁的 AI 编得最精彩、最像真的!
没有评论。