有人说,现在 AI 自动翻译字幕的工具一大把,你这个还有啥用?
确实有不少工具能在线翻译视频,我自己也用了很多。但总觉得翻得不太准、不太好,有时候还冒出一堆错误。
另外我经常在推特、视频号上分享海外视频,干脆就顺手做了这么一套——所以它其实还能帮你把海外视频搬运到国内平台,嘿嘿。
这套工具我用了半年,来回调了很多次,现在比较成熟了,整理干净开源给大家。
装好以后,你只要对它说一句「把这个链接翻译成中文字幕视频」,剩下的它全自动做完:下载、转写、翻译、润色、烧字幕、出文稿,一条龙到底。
转写完全在你自己电脑上跑,不花一分钱 API 费。翻译用的就是你已经装好的 AI,顺手就做了。而且不只英文,日语、韩语、法语这些外语视频,一样能转成中文字幕。
还有它本质就是几个脚本加一份说明书,没绑死 Claude Code 一家——小龙虾(OpenClaw)、Gemini、Codex 这些 AI 编程工具也都能用,区别只是各家装技能的方式不同。
下面手把手带你装上、跑通第一个视频。
这玩意儿到底能干嘛
给它一个视频链接(YouTube、Bilibili、抖音都行),或者一个本地视频文件,它会一条龙做完这五步:
下载 → 转写 → 翻译 → 润色 → 烧字幕,最后顺带出一份文稿
拆开说就是:
把视频下下来(本地文件就直接用)
提取音频,用 Whisper 转写成带精确时间戳的原文字幕
把原文翻译成中文,再润色成符合中文观看习惯的字幕
把字幕烧进画面,输出一个带中文字幕的视频
顺便再出一份 Markdown 文稿,方便你存档或者改成文章
语言不挑。 英语、日语、韩语、法语、西班牙语,只要 Whisper 听得懂的,都能转成中文字幕。它会自己识别原视频是什么语言,再翻成中文。中文视频就只做转写出文稿,不绕翻译这一步。
字幕有两种可以选。一种是纯中文,画面干净。另一种是中英双语,中文大、英文小,主次分明,适合想顺便练听力的人。
你全程不用记任何命令。想要什么就用大白话说,比如「这个要双语字幕」「不要水印」「用快速模式」,它都听得懂。
简单说,它把「下载 + 转写 + 翻译 + 配字幕」这条原本要开四五个软件、来回折腾一两个小时的流水线,压缩成了说一句话。
跟现成的翻译工具有啥不一样
市面上字幕工具不少,我自己用下来最在意三件事,这套工具就是冲着这三件事做的。
第一,本地、免费、能离线。 转写用的是 OpenAI 开源的 Whisper 模型,苹果芯片的 Mac 上还会自动调 GPU 加速。整个转写过程在你电脑里完成,不上传、不收费。翻译复用你已经在用的 AI,不用再单独买一个翻译 API。
第二,时间戳是真的准。 很多工具的字幕会跑在说话人前面,或者半句话挤进下一条,看着难受。这套工具拿到的是精确到每个词什么时候说出口的时间戳,再按「一句话 + 换气停顿」来切,字幕基本说完正好换条。
第三,字幕是给人看的,不是机翻直出。 它会自动纠正转写听错的专有名词(Claude 经常被听成 cloud,MCP 被听成 NCP),按语义断句,每行不超过十二个字,技术术语保留英文。双语模式下中文大、英文小,同一条里拉开字号,不是两行一样大堆在一起。
这些都是我自己做了上百条视频踩出来的细节,全写进规则里了。
效果长这样
拿 a16z 刚发的一条访谈试试。受访的是前 OpenAI 首席技术官 Mira Murati,我让工具配了中英双语字幕。
0:11 / 1:34
她原话里有个比喻:
It's more like a tandem bike where both people are pedaling.
机翻大概会甩给你「串联自行车」这种读着别扭的词。这套工具翻成的是:
它更像一辆双人自行车,两个人一起踩着踏板。
接地气、不绕口。专有名词也拎得清,Thinking Machines 这种公司名直接留英文,不硬翻。
你只要发一句「链接 + 翻译这个视频」,它会先问你要纯中文还是中英双语——我平时主要翻成中文,就默认留了这两个选项,实际上翻成任意语言都行。
除了带字幕的视频,它还会同时出一份文稿,原文加中文对照。
整段读下来是这样:
它更像是去造这样一种系统:不会自己闷头狂奔、把整个文明甩在身后,而更像一辆双人自行车,两个人一起踩着踏板。上坡的时候,也许更有劲的那个人踩得更用力,但两个人的手都在车把上。
不挑语言是这套工具最实在的地方。同一段访谈,中文、日语、韩语、阿拉伯语、法语都能翻成双语字幕——各国译文在上、英文原文统一压一行在下,主次分明,连从右往左写的阿拉伯语也排得整整齐齐:
十几分钟的视频没问题
小互
@xiaohu
·
Jun 4
SpaceX IPO路演视频
由SpaceX CFO Bret-Johnsen通过17分钟的视频详细阐述SpaceX的财务情况和愿景
Starlink 现在 9600+ 颗在轨
• 440 万(24 底)→ 890 万(25 底)→ 1030 万(Q1)
• 一年翻倍,覆盖 164 国 30 亿人
• 直连手机已经覆盖 19 亿人(覆盖不等于使用)
手里有全球最大的一体化超算中心
Show more
0:03 / 17:23
一个半小时以上的长视频也能轻松应对
小互
@xiaohu
·
May 20
Google I/O 2026 开发者大会
完整中英文双语视频
Google I/O 2026:Gemini 3.5 Flash、Spark、Omni 三剑齐发
Gemini 3.5 Flash升级为:行动大脑
Gemini Spark:远端个人 AIAgent 入口
Gemini Omni:多模态世界模型雏形
0:01 / 1:51:15
它其实是三个技能
打开仓库你会看到三个文件夹,各管一段活,可以单独用,也可以串起来用:
xiaohu-video-md:总指挥。负责下载、转写、调翻译、烧字幕、出文稿
xiaohu-subtitle-polish:专门管字幕翻译润色。纠错、翻译、断句、对时间轴、做双语
xiaohu-video-download:纯下载工具。下视频、下音频、下整个播放列表,也能给本地视频烧字幕
翻译一个视频的时候,是 xiaohu-video-md 在总调度,翻译那一步它自己会去叫 xiaohu-subtitle-polish。你不用管这些,知道有这么三块就行。
手把手安装
这套工具目前是给 Mac 调的,苹果芯片的机器跑得最顺。装法有两种,挑一种就行:嫌麻烦,就把下面那段话整段丢给 AI,让它替你全装完;想搞清楚每一步在干嘛、或者怕中途出岔子,就照着后面的手动三步敲。
偷懒版:把这段话丢给 AI
打开你的 AI 编程工具,Claude Code、Codex、小龙虾(OpenClaw)都行,把下面这段原样复制进去发给它。它会自己判断你是什么系统、装好依赖、拉仓库、跑安装脚本,一条龙搞定,中间该问你的会停下来问:
帮我安装这个视频翻译工具:https://github.com/xiaohuailabs/xiaohu-video-translate
按下面的顺序来:
1. 先看我的系统:Mac 还是 Windows;Mac 的话是不是苹果芯片(M 系列)
2. 装依赖:yt-dlp、ffmpeg、whisper-cpp(Mac 用 brew install,Windows 走 WSL 或 winget)。
转写引擎——苹果芯片装 mlx-whisper,其它机器一律装 faster-whisper
3. git clone 这个仓库,进目录跑 bash install.sh,把三个技能装进我的技能目录
4. 装完找到 xiaohu-video-md 技能里的 config.json(Claude Code 在 ~/.claude/skills/ 下),
问我成品想存在哪个文件夹,帮我把 output_dir 改成完整路径
5. 最后检查依赖都装齐了没,告诉我能不能开始用
每一步做完简单说一句你干了啥;依赖装失败就停下来问我,别硬往下跑。
它替你跑的其实就是下面这三步,只是你不用自己敲。想自己动手、或者中途卡住想排查,就照着手动版来。
第一步:装几个基础工具
先确认你装了 Homebrew(Mac 上最常用的软件包管理器,没装的去 brew.sh 按提示装一下)。然后一行命令把三个工具装上:
brew install yt-dlp ffmpeg whisper-cpp
这三个分别是:yt-dlp 负责下视频,ffmpeg 负责音视频处理和烧字幕,whisper-cpp 是「只下载」子技能在本地转写时用的备用命令,主翻译流程不靠它,真正干转写的是下面这步要装的引擎。
再装一个转写引擎。苹果芯片的 Mac 用这个,会走 GPU 加速,最快:(命令里 --break-system-packages 看着吓人,其实只是绕过新版系统的一个安装限制,不动你系统本身,放心敲。)
pip3 install --break-system-packages mlx-whisper
如果不是苹果芯片,就换成通用版本:
pip3 install --break-system-packages faster-whisper
第二步:把技能装进 Claude
把仓库拉下来,跑一下自带的安装脚本:
git clone https://github.com/xiaohuailabs/xiaohu-video-translate.git
cd xiaohu-video-translate
bash install.sh
这个脚本会把三个技能复制到 Claude 的技能目录,自动生成配置文件,还会帮你检查依赖装齐没有。脚本跑到最后会逐项打印 [OK] 或 [缺],看到 yt-dlp、ffmpeg、转写引擎都是 [OK] 就说明装齐了,哪个显示 [缺] 就按提示补那一个。这里路径以 Claude Code 为例(技能在 ~/.claude/skills/);你要是用 Codex、小龙虾,把这个目录换成你那家工具的技能目录就行,其余都一样。
第三步:告诉它把成品放哪
打开 ~/.claude/skills/xiaohu-video-md/config.json 这个文件,把里面的 output_dir 改成你想存放成品的文件夹路径(要写完整路径,比如 /Users/你的用户名/Documents/视频翻译)。
中间的临时文件会进 tmp/,最终的文稿进 data/,烧好的视频默认放在下载文件夹里。
转写模型不用手动下。第一次跑的时候,mlx-whisper 会自己从网上把模型拉下来(一点五个 G 左右),下一次就直接用了。
装完,重启一下你的 AI 工具,就能用了。
Windows 用户看这里
上面是 Mac 的装法。Windows 也能跑,但有几处不一样,别照搬。
最省事的办法是用 WSL,也就是 Windows 自带的 Linux 子系统。装好以后把下面这几样装上,脚本就能原样跑:
sudo apt install ffmpeg
pip3 install yt-dlp faster-whisper
如果不想用 WSL,想直接在 Windows 上装,记住三点:
转写引擎用 faster-whisper,别装那个苹果芯片专用的版本。脚本检测不到苹果引擎,会自动用它兜底
安装脚本得用 Git Bash 跑,或者干脆手动把三个技能文件夹复制到工具的技能目录,再把每个配置模板复制成正式配置
字幕字体要换。默认用的是 Mac 的苹方,Windows 上没有这个字体,中文会显示成方块。把命令里的 PingFang SC 换成系统自带的微软雅黑就行
直接在 Windows 上装依赖的话,命令是这样:
pip install yt-dlp faster-whisper
winget install Gyan.FFmpeg
字体这条 Linux 上也一样,苹方是苹果独有的,得换成系统里的中文字体。想让非苹果系统也能自动选对字体、开箱即用,我正在做适配,可以去仓库提 issue 催我。
怎么用
装好以后就一句话的事。下面这些话你都可以直接说:
你说的话 它做的事 把这个链接翻译成中文字幕视频 + 链接 全流程,下载到出成品 翻译这个视频,要中英双语字幕 + 链接 同上,字幕换成中英双语 把这个视频转成文字 + 链接 只出 Markdown 文稿,不烧字幕 给我本地这个视频加中文字幕 + 文件路径 本地文件直接处理 下载这个视频 + 链接 只下载,不翻译 用快速模式转写 换更快但精度略低的模型 翻译时不要水印 关掉水印
几个坑先跟你说在前面
都是我自己踩过的,提前知道能少走弯路。
YouTube 有时候下不动,报一串 403 之类的错。 这是 YouTube 近一年风控变严了。脚本会自动从你浏览器里读 cookies 重试,一般能过。还不行就挂个代理。
烧出来的中文字幕是一个个方块。 这是 Mac 字体索引的老问题,脚本默认已经绕开了,正常装完不会遇到。只有你手动改过字体设置、或换了系统里没有的字体才会冒出来,真碰上就把字体换回 PingFang SC(苹方)。
第一次用抖音,要先登录一次。 跑一下 python3 ~/.claude/skills/xiaohu-video-md/scripts/douyin_login.py,弹出来的浏览器里扫码登录,登录状态只存在你自己电脑上,不会上传到任何地方。开源仓库里我也把我自己的登录信息全删干净了,你拿到的是空的。
拿去用,随便改
仓库地址在这:
github.com/xiaohuailabs/xiaohu-video-translate
代码是 MIT 协议,水印、字幕样式、默认字号这些你都可以照自己喜欢改。唯一提醒一句:别把你自己的配置文件和抖音登录信息传到公开仓库上去,仓库里已经默认帮你挡掉了。
这套工具是我日常真在用的,不是写来演示的玩具。觉得好用,点个 star,有问题提 issue,我会接着维护。
转载 https://x.com/xiaohu/status/2063972223170556302
没有评论。