一句话，翻译任何视频

有人说，现在 AI 自动翻译字幕的工具一大把，你这个还有啥用？

确实有不少工具能在线翻译视频，我自己也用了很多。但总觉得翻得不太准、不太好，有时候还冒出一堆错误。

另外我经常在推特、视频号上分享海外视频，干脆就顺手做了这么一套——所以它其实还能帮你把海外视频搬运到国内平台，嘿嘿。

这套工具我用了半年，来回调了很多次，现在比较成熟了，整理干净开源给大家。

装好以后，你只要对它说一句「把这个链接翻译成中文字幕视频」，剩下的它全自动做完：下载、转写、翻译、润色、烧字幕、出文稿，一条龙到底。

转写完全在你自己电脑上跑，不花一分钱 API 费。翻译用的就是你已经装好的 AI，顺手就做了。而且不只英文，日语、韩语、法语这些外语视频，一样能转成中文字幕。

还有它本质就是几个脚本加一份说明书，没绑死 Claude Code 一家——小龙虾（OpenClaw）、Gemini、Codex 这些 AI 编程工具也都能用，区别只是各家装技能的方式不同。

下面手把手带你装上、跑通第一个视频。

这玩意儿到底能干嘛

给它一个视频链接（YouTube、Bilibili、抖音都行），或者一个本地视频文件，它会一条龙做完这五步：

下载 → 转写 → 翻译 → 润色 → 烧字幕，最后顺带出一份文稿

拆开说就是：

把视频下下来（本地文件就直接用）

提取音频，用 Whisper 转写成带精确时间戳的原文字幕

把原文翻译成中文，再润色成符合中文观看习惯的字幕

把字幕烧进画面，输出一个带中文字幕的视频

顺便再出一份 Markdown 文稿，方便你存档或者改成文章

语言不挑。英语、日语、韩语、法语、西班牙语，只要 Whisper 听得懂的，都能转成中文字幕。它会自己识别原视频是什么语言，再翻成中文。中文视频就只做转写出文稿，不绕翻译这一步。

字幕有两种可以选。一种是纯中文，画面干净。另一种是中英双语，中文大、英文小，主次分明，适合想顺便练听力的人。

你全程不用记任何命令。想要什么就用大白话说，比如「这个要双语字幕」「不要水印」「用快速模式」，它都听得懂。

简单说，它把「下载 + 转写 + 翻译 + 配字幕」这条原本要开四五个软件、来回折腾一两个小时的流水线，压缩成了说一句话。

跟现成的翻译工具有啥不一样

市面上字幕工具不少，我自己用下来最在意三件事，这套工具就是冲着这三件事做的。

第一，本地、免费、能离线。转写用的是 OpenAI 开源的 Whisper 模型，苹果芯片的 Mac 上还会自动调 GPU 加速。整个转写过程在你电脑里完成，不上传、不收费。翻译复用你已经在用的 AI，不用再单独买一个翻译 API。

第二，时间戳是真的准。很多工具的字幕会跑在说话人前面，或者半句话挤进下一条，看着难受。这套工具拿到的是精确到每个词什么时候说出口的时间戳，再按「一句话 + 换气停顿」来切，字幕基本说完正好换条。

第三，字幕是给人看的，不是机翻直出。它会自动纠正转写听错的专有名词（Claude 经常被听成 cloud，MCP 被听成 NCP），按语义断句，每行不超过十二个字，技术术语保留英文。双语模式下中文大、英文小，同一条里拉开字号，不是两行一样大堆在一起。

这些都是我自己做了上百条视频踩出来的细节，全写进规则里了。

效果长这样

拿 a16z 刚发的一条访谈试试。受访的是前 OpenAI 首席技术官 Mira Murati，我让工具配了中英双语字幕。

0:11 / 1:34

她原话里有个比喻：

It's more like a tandem bike where both people are pedaling.

机翻大概会甩给你「串联自行车」这种读着别扭的词。这套工具翻成的是：

它更像一辆双人自行车，两个人一起踩着踏板。

接地气、不绕口。专有名词也拎得清，Thinking Machines 这种公司名直接留英文，不硬翻。

你只要发一句「链接 + 翻译这个视频」，它会先问你要纯中文还是中英双语——我平时主要翻成中文，就默认留了这两个选项，实际上翻成任意语言都行。

除了带字幕的视频，它还会同时出一份文稿，原文加中文对照。

整段读下来是这样：

它更像是去造这样一种系统：不会自己闷头狂奔、把整个文明甩在身后，而更像一辆双人自行车，两个人一起踩着踏板。上坡的时候，也许更有劲的那个人踩得更用力，但两个人的手都在车把上。

不挑语言是这套工具最实在的地方。同一段访谈，中文、日语、韩语、阿拉伯语、法语都能翻成双语字幕——各国译文在上、英文原文统一压一行在下，主次分明，连从右往左写的阿拉伯语也排得整整齐齐：

十几分钟的视频没问题

小互

@xiaohu

Jun 4

SpaceX IPO路演视频

由SpaceX CFO Bret-Johnsen通过17分钟的视频详细阐述SpaceX的财务情况和愿景

Starlink 现在 9600+ 颗在轨

• 440 万(24 底)→ 890 万(25 底)→ 1030 万(Q1)

• 一年翻倍，覆盖 164 国 30 亿人

• 直连手机已经覆盖 19 亿人（覆盖不等于使用）

手里有全球最大的一体化超算中心

0:03 / 17:23

一个半小时以上的长视频也能轻松应对

小互

@xiaohu

May 20

Google I/O 2026 开发者大会

完整中英文双语视频

Google I/O 2026：Gemini 3.5 Flash、Spark、Omni 三剑齐发

Gemini 3.5 Flash升级为：行动大脑

Gemini Spark：远端个人 AIAgent 入口

Gemini Omni：多模态世界模型雏形

0:01 / 1:51:15

它其实是三个技能

打开仓库你会看到三个文件夹，各管一段活，可以单独用，也可以串起来用：

xiaohu-video-md：总指挥。负责下载、转写、调翻译、烧字幕、出文稿

xiaohu-subtitle-polish：专门管字幕翻译润色。纠错、翻译、断句、对时间轴、做双语

xiaohu-video-download：纯下载工具。下视频、下音频、下整个播放列表，也能给本地视频烧字幕

翻译一个视频的时候，是 xiaohu-video-md 在总调度，翻译那一步它自己会去叫 xiaohu-subtitle-polish。你不用管这些，知道有这么三块就行。

手把手安装

这套工具目前是给 Mac 调的，苹果芯片的机器跑得最顺。装法有两种，挑一种就行：嫌麻烦，就把下面那段话整段丢给 AI，让它替你全装完；想搞清楚每一步在干嘛、或者怕中途出岔子，就照着后面的手动三步敲。

偷懒版：把这段话丢给 AI

打开你的 AI 编程工具，Claude Code、Codex、小龙虾（OpenClaw）都行，把下面这段原样复制进去发给它。它会自己判断你是什么系统、装好依赖、拉仓库、跑安装脚本，一条龙搞定，中间该问你的会停下来问：

帮我安装这个视频翻译工具：https://github.com/xiaohuailabs/xiaohu-video-translate

按下面的顺序来：

1. 先看我的系统：Mac 还是 Windows；Mac 的话是不是苹果芯片（M 系列）

2. 装依赖：yt-dlp、ffmpeg、whisper-cpp（Mac 用 brew install，Windows 走 WSL 或 winget）。

转写引擎——苹果芯片装 mlx-whisper，其它机器一律装 faster-whisper

3. git clone 这个仓库，进目录跑 bash install.sh，把三个技能装进我的技能目录

4. 装完找到 xiaohu-video-md 技能里的 config.json（Claude Code 在 ~/.claude/skills/ 下），

问我成品想存在哪个文件夹，帮我把 output_dir 改成完整路径

5. 最后检查依赖都装齐了没，告诉我能不能开始用

每一步做完简单说一句你干了啥；依赖装失败就停下来问我，别硬往下跑。

它替你跑的其实就是下面这三步，只是你不用自己敲。想自己动手、或者中途卡住想排查，就照着手动版来。

第一步：装几个基础工具

先确认你装了 Homebrew（Mac 上最常用的软件包管理器，没装的去 brew.sh 按提示装一下）。然后一行命令把三个工具装上：

brew install yt-dlp ffmpeg whisper-cpp

这三个分别是：yt-dlp 负责下视频，ffmpeg 负责音视频处理和烧字幕，whisper-cpp 是「只下载」子技能在本地转写时用的备用命令，主翻译流程不靠它，真正干转写的是下面这步要装的引擎。

再装一个转写引擎。苹果芯片的 Mac 用这个，会走 GPU 加速，最快：（命令里 --break-system-packages 看着吓人，其实只是绕过新版系统的一个安装限制，不动你系统本身，放心敲。）

pip3 install --break-system-packages mlx-whisper

如果不是苹果芯片，就换成通用版本：

pip3 install --break-system-packages faster-whisper

第二步：把技能装进 Claude

把仓库拉下来，跑一下自带的安装脚本：

git clone https://github.com/xiaohuailabs/xiaohu-video-translate.git

cd xiaohu-video-translate

bash install.sh

这个脚本会把三个技能复制到 Claude 的技能目录，自动生成配置文件，还会帮你检查依赖装齐没有。脚本跑到最后会逐项打印 [OK] 或 [缺]，看到 yt-dlp、ffmpeg、转写引擎都是 [OK] 就说明装齐了，哪个显示 [缺] 就按提示补那一个。这里路径以 Claude Code 为例（技能在 ~/.claude/skills/）；你要是用 Codex、小龙虾，把这个目录换成你那家工具的技能目录就行，其余都一样。

第三步：告诉它把成品放哪

打开 ~/.claude/skills/xiaohu-video-md/config.json 这个文件，把里面的 output_dir 改成你想存放成品的文件夹路径（要写完整路径，比如 /Users/你的用户名/Documents/视频翻译）。

中间的临时文件会进 tmp/，最终的文稿进 data/，烧好的视频默认放在下载文件夹里。

转写模型不用手动下。第一次跑的时候，mlx-whisper 会自己从网上把模型拉下来（一点五个 G 左右），下一次就直接用了。

装完，重启一下你的 AI 工具，就能用了。

Windows 用户看这里

上面是 Mac 的装法。Windows 也能跑，但有几处不一样，别照搬。

最省事的办法是用 WSL，也就是 Windows 自带的 Linux 子系统。装好以后把下面这几样装上，脚本就能原样跑：

sudo apt install ffmpeg

pip3 install yt-dlp faster-whisper

如果不想用 WSL，想直接在 Windows 上装，记住三点：

转写引擎用 faster-whisper，别装那个苹果芯片专用的版本。脚本检测不到苹果引擎，会自动用它兜底

安装脚本得用 Git Bash 跑，或者干脆手动把三个技能文件夹复制到工具的技能目录，再把每个配置模板复制成正式配置

字幕字体要换。默认用的是 Mac 的苹方，Windows 上没有这个字体，中文会显示成方块。把命令里的 PingFang SC 换成系统自带的微软雅黑就行

直接在 Windows 上装依赖的话，命令是这样：

pip install yt-dlp faster-whisper

winget install Gyan.FFmpeg

字体这条 Linux 上也一样，苹方是苹果独有的，得换成系统里的中文字体。想让非苹果系统也能自动选对字体、开箱即用，我正在做适配，可以去仓库提 issue 催我。

怎么用

装好以后就一句话的事。下面这些话你都可以直接说：

你说的话它做的事把这个链接翻译成中文字幕视频 + 链接全流程，下载到出成品翻译这个视频，要中英双语字幕 + 链接同上，字幕换成中英双语把这个视频转成文字 + 链接只出 Markdown 文稿，不烧字幕给我本地这个视频加中文字幕 + 文件路径本地文件直接处理下载这个视频 + 链接只下载，不翻译用快速模式转写换更快但精度略低的模型翻译时不要水印关掉水印

几个坑先跟你说在前面

都是我自己踩过的，提前知道能少走弯路。

YouTube 有时候下不动，报一串 403 之类的错。这是 YouTube 近一年风控变严了。脚本会自动从你浏览器里读 cookies 重试，一般能过。还不行就挂个代理。

烧出来的中文字幕是一个个方块。这是 Mac 字体索引的老问题，脚本默认已经绕开了，正常装完不会遇到。只有你手动改过字体设置、或换了系统里没有的字体才会冒出来，真碰上就把字体换回 PingFang SC（苹方）。

第一次用抖音，要先登录一次。跑一下 python3 ~/.claude/skills/xiaohu-video-md/scripts/douyin_login.py，弹出来的浏览器里扫码登录，登录状态只存在你自己电脑上，不会上传到任何地方。开源仓库里我也把我自己的登录信息全删干净了，你拿到的是空的。

拿去用，随便改

仓库地址在这：

github.com/xiaohuailabs/xiaohu-video-translate

代码是 MIT 协议，水印、字幕样式、默认字号这些你都可以照自己喜欢改。唯一提醒一句：别把你自己的配置文件和抖音登录信息传到公开仓库上去，仓库里已经默认帮你挡掉了。

这套工具是我日常真在用的，不是写来演示的玩具。觉得好用，点个 star，有问题提 issue，我会接着维护。

转载 https://x.com/xiaohu/status/2063972223170556302

一句话，翻译任何视频

用户反馈

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)