李宏毅教授（Hung-yi Lee）在 2024 年春季开设的 《生成式 AI 导论》

要播放此视频，您需要

📺 切换至 Bilibili

第一部分：生成式 AI 基础 (Basics)

第 1 集：第 0 讲课程说明 (Course Overview)

课程全貌：介绍本学期课程的学习路径图（Map）。
生成式 AI 定义：什么是 Generative AI？它不仅仅是分类（Classification），而是创造（Creation）。
行政事项：作业说明（主要使用 API 进行实战）、评分标准及前置知识要求（Python 基础）。

第 2 集：第 1 讲生成式人工智慧导论 (Introduction)

机器学习回顾：从 Function（函数）的角度理解机器学习：寻找一个函数 $f(x) = y$。
生成式的特质：输出 $y$ 不再是单一数值或类别，而是一个复杂的对象（一段文字、一张图）。
类别概览：文本生成（Text）、图像生成（Image）、音频生成（Audio）及多模态（Multimodal）现状。

第 3 集：第 2 讲 Transformer 模型的直观理解 (Transformer Intuition)

不讲数学：跳过复杂的矩阵运算，用“连连看”的直观方式解释 Transformer。
Seq2Seq 模型：Encoder（编码器）与 Decoder（解码器）的分工。
核心机制 - Attention：注意力机制是如何让模型在翻译或生成时，知道当下的重点该放在输入的哪一个词上（Cross-attention）。

第二部分：训练大语言模型 (Training LLMs)

这一部分是课程的核心，解释了 ChatGPT 诞生的三个关键步骤。

第 4 集：第 3 讲大语言模型修炼史 - 第一阶段：预训练 (Pre-training)

文字接龙：LLM 的本质就是预测下一个字（Next Token Prediction）。
自监督学习：为什么不需要人工标注数据？利用海量互联网文本进行自我学习。
规模效应：参数量（Model Scale）与数据量（Data Scale）对智能涌现的影响。

第 5 集：第 4 讲大语言模型修炼史 - 第二阶段：指令微调 (Instruction Fine-tuning)

预训练的不足：模型只会“续写”，不懂“回答问题”。
对齐人类意图：如何构建指令数据集（Instruction Dataset）。
SFT (Supervised Fine-Tuning)：有监督微调的过程，让模型从“读万卷书”变成“听指挥的助手”。

第 6 集：第 5 讲大语言模型修炼史 - 第三阶段：参与强化学习 (RLHF)

人类偏好：指令微调只能让模型“做对”，RLHF 让模型“做得好”（有礼貌、有用、安全）。
Reward Model (奖励模型)：训练一个打分模型来模拟人类的评价标准。
PPO 算法：利用强化学习（Reinforcement Learning）最大化奖励分数，优化生成策略。

第三部分：使用与评估 (Usage & Evaluation)

第 7 集：第 6 讲提示词工程 (Prompt Engineering)

魔法咒语：不同的 Prompt 对输出结果的巨大影响。
进阶技巧：
- CoT (Chain of Thought)：思维链，让 AI “一步步思考”。
- In-context Learning：少样本学习，给 AI 几个例子看。
- 情绪勒索：对 AI 说“这对我很重要”真的有用吗？

第 8 集：第 7 讲如何让 AI 不胡说八道？(Hallucination)

幻觉现象：为什么 AI 会一本正经地胡说八道？（概率生成的本质缺陷）。
RAG (检索增强生成)：给 AI 配备一个“搜索引擎”或“外部数据库”。
运作流程：检索 (Retrieve) -> 阅读 (Read) -> 生成 (Generate)。

第 9 集：第 8 讲大模型的评估方法 (Evaluation)

考试题目：MMLU、C-Eval 等常见基准测试集介绍。
Elo Rating：像围棋/Dota 天梯一样的竞技场排名（Chatbot Arena）。
LLM-as-a-Judge：用更强的 GPT-4 来给其他小模型的回答打分，是否可靠？

第四部分：前沿图像与视频生成 (Image & Video Generation)

第 10 集：第 9 讲 Video Generation (Sora 原理浅析)

从图到视频：视频生成的难点在于“时间维度的连贯性”。
Sora 技术拆解：Spacetime Patches（时空补丁）的概念。
世界模拟器：视频生成模型是否真的理解了物理规律？

第 11 集：第 10 讲 Diffusion Model 原理 (Stable Diffusion)

加噪与去噪：扩散模型的核心思想——从清晰图加噪变成雪花点（Forward），再从雪花点还原回清晰图（Reverse）。
Denoising Predictor：训练一个预测“噪声”的神经网络。
文生图：Text Encoder 如何控制去噪过程，生成我们想要的画面。

第五部分：进阶技术与未来 (Advanced Topics)

第 12 集：第 11 讲 Self-Correction (让模型自我修正)

反思能力：模型输出错误后，能否自己发现并改正？
Critical Thinking：通过多轮对话让模型审查自己的逻辑。

第 13 集：第 12 讲 Agents (AI 智能体)

从聊天到做事：Agent = LLM + Memory + Planning + Tools。
工具使用：如何让 AI 调用计算器、日历或 API。
规划能力：分解复杂任务（如 AutoGPT 模式）。

第 14 集：第 13 讲 Multimodal (多模态模型)

视觉理解：让 LLM 长出眼睛（Vision Encoder）。
技术路线：LLaVA 等模型是如何将图片特征“翻译”成 LLM 能懂的向量的。
应用场景：看图说话、视觉问答。

第 15 集：第 14 讲 Optimization (大模型优化与加速)

显存焦虑：模型太大跑不动怎么办？
量化 (Quantization)：从 FP16 到 INT8/INT4，降低精度换取速度。
Flash Attention：底层计算加速优化。
Speculative Decoding：让小模型先猜，大模型确定的加速策略。

第 16 集：第 15 讲 Mamba & State Space Models (SSM)

Transformer 的挑战：处理超长文本时的计算量爆炸（长度平方级增长）。
Mamba 架构：结合了 RNN 和 CNN 优点的线性复杂度模型。
选择性机制：如何在有限的记忆中保留重要信息，遗忘不重要信息。

第 17 集：第 16 讲 Graph Neural Networks (图神经网络)

非欧几里得数据：当生成的目标是分子结构、社交网络或知识图谱。
Graph 生成：如何生成节点（Node）和边（Edge）。

第 18 集：第 17 讲 Adversarial Attack (对抗攻击与防御)

越狱 (Jailbreaking)：通过特殊字符串绕过模型的安全防御。
Prompt Injection：提示词注入攻击。
红队测试 (Red Teaming)：如何像黑客一样攻击模型以发现漏洞。

第 19 集：第 18 讲 Explainable AI (可解释性 AI)

黑盒问题：我们真的知道神经网络内部在发生什么吗？
机械可解释性：尝试逆向工程 Transformer 内部的电路。
探针 (Probing)：检测模型某一层是否包含特定的知识。

第 20 集：第 19 讲 Future of AI (生成式 AI 的未来展望)

Scaling Law：单纯增加算力和数据还能让模型变强多久？
合成数据：当人类产生的数据用光了，AI 能吃自己生产的数据吗？
AGI (通用人工智能)：我们要通往何方？李宏毅老师的个人思考与寄语。

李宏毅教授（Hung-yi Lee）在 2024 年春季开设的《生成式 AI 导论》

第一部分：生成式 AI 基础 (Basics)

第二部分：训练大语言模型 (Training LLMs)

第三部分：使用与评估 (Usage & Evaluation)

第四部分：前沿图像与视频生成 (Image & Video Generation)

第五部分：进阶技术与未来 (Advanced Topics)

用户反馈

创建帐户或登录来提出评论

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)