录完一段视频,最难熬的不是拍摄,是后期剪辑。口误、停顿、反复说的废话片段,真正有用的内容,可能只占录制时长的六七成。
剩下那些,得一段一段找,一刀一刀剪,在时间轴上来来回回拖。素材稍微多一点,一下午就这么没了。
正好最近,我在 GitHub 上发现了一个项目:FlyCut Caption,专门用来解决这件事。
FlyCut Caption 是什么
思路很直接:先让 AI 把视频里的语音全部转成字幕,再逐条勾选哪些片段要删掉,最后一键导出裁剪后的视频。
「找废话」这件事,从逐帧拖动变成了逐行阅读,省下来的时间感受很明显。
AI识别语音
勾选删除片段
保护数据隐私
开源无收费
上传视频,AI自动生成字幕
把视频文件拖进界面,进入 ASR 配置页面,选好识别语言,点击开始识别。
底层用的是 Whisper 模型,支持中文、英文等多种语言。时间戳精确到字级别,识别结果比想象中细。
识别过程跑在 Web Worker 后台,不卡界面,等进度条走完,带时间戳的字幕列表就出来了。
勾选要删的片段,实时预览效果
字幕生成之后,进入编辑界面。
哪段说错了、哪段在磨嘴皮子,直接在列表里勾掉。支持批量选择,全选、反选都有。
每条字幕点一下,视频就跳到对应时间点,确认一下再删,比较踏实。
预览模式会自动跳过标记删除的片段,还没导出就能先看最终效果。改了后悔也没关系,撤销重做都支持。
字幕样式与导出
剪完之后,可以给视频烧录字幕,字体大小、颜色、显示位置都能调,所见即所得。
导出时选好质量与格式,视频只保留未删除的片段。字幕也可以同步导出成 SRT 或 JSON 格式备用。
💡 隐私安全亮点
整个处理流程,AI 识别和视频裁剪,全在浏览器本地完成。
Whisper 模型跑在 Transformers.js 上,视频处理用的是 WebAV,不需要把文件上传到任何服务器。
对于商业素材这类对数据有要求的场景,这一点算是额外的保障。
本地部署教程
环境要求是 Node.js 18+ 和 pnpm,四步跑起来:
第一步:克隆项目
git clone https://github.com/x007xyz/flycut-caption.git cd flycut-caption
第二步:安装依赖
pnpm install
第三步:启动开发服务器
pnpm dev
启动后访问 http://localhost:5173 即可。
只想体验一下的话,也可以直接访问作者部署好的演示站点,省去本地搭建的步骤。
总结
视频创作里,最消耗精力的那部分,往往不是想法本身,而是把想法「整理干净」的过程。
FlyCut Caption 做的事不复杂,就是把「找废话、剪废话」这个环节,从体力活变成了扫一眼的事。
经常录制教程、做分享内容的朋友,可以试试看。