|
|
AI视频全自动翻译并配音工具, 本地离线, 解压即用
集成了 语音识别 (ASR)、大模型翻译 (LLM)、语音合成 (TTS) 及 视频合成, 支持一键批量全自动翻译视频并配音
功能简介: 可以将 中文 英语 日语 韩语 法语 德语 西班牙语 葡萄牙语 意大利语 俄语 阿拉伯语的视频自动翻译并配音成 中文或英文 发音的视频, 支持一键批量全自动翻译配音, 如果要求精度, 也可以分步骤操作
实现原理: 先用faster-whisper识别出带时间戳的srt字幕, 然后使用谷歌最新的translategemma模型逐行翻译,最后用indexTTS2.0 实现文本转语音,最后合成视频, 合成视频的时候可选择是否添加 原文,译文或双语字幕
电脑显卡要求: 英伟达12G显存, 显卡驱动需要更新到最新版本
工作室做youtube, titok等自媒体推荐工具
AI 全自动视频翻译配音工具使用说明
功能模块详解
第一步:语音识别 (ASR)
功能目标:将视频中的语音转换为带有时间轴的字幕文本。
* 基础操作:
1. 点击 “选择视频/音频文件” 导入需要处理的媒体文件。
* 提示:如果检测到同目录下有原生字幕文件,软件会弹出提示,建议优先加载原生字幕以提高准确率。
2. 设置参数:
* 模型:推荐使用 faster-whisper-large-v3 以获得最高精度。
* 语言:建议手动选择视频的源语言(如“英语”),比自动检测更稳。
3. 点击 “开始识别”,等待进度条完成。
4. 导入/导出:支持导入已有的 SRT 字幕,或将识别结果导出为 SRT。
* 高级字幕编辑(右键菜单 - 新增功能):
在字幕表格中,选中行点击鼠标右键:
* 按最大字数拆分此行:
* 根据上方工具栏设定的“单行最大字数”(默认30),自动寻找标点符号或合适的断句点将长字幕拆分为多行。
* 增加一行 (拆分为二):
* 将当前选中的行从中间拆分为两行。
* 智能逻辑:如果是英文,会自动寻找中间的空格切分;如果是中文,则按字符数切分。时间戳会根据字符长度比例自动分配,总时长不变。
* 合并行(需选中两行):
* 操作方法:按住 Ctrl 或 Shift 键点击,或按住鼠标左键拖动选中相邻的上下两行,然后右键选择“合并行”。
* 智能逻辑:合并文本和时间轴。针对中文/日文会自动去除中间的空格,英文则保留空格。
* 字幕整理工具栏:
* 一键拆分长难句:批量扫描所有字幕,将超过最大字数的行自动拆分。
* 恢复原始内容:如果编辑乱了,可以一键回退到刚识别完的状态。
第二步:字幕翻译 (Translate)
功能目标:利用本地translategemma大模型将源语言字幕翻译为目标语言。
1. 批量发送 - 多条字幕合并发送
核心逻辑 打破逐行翻译的局限,把多句连贯的字幕内容合并成一个完整文本发送给翻译工具。翻译模型能识别整段的语义逻辑、语气节奏,避免因单句孤立导致的翻译偏差。
2. 滑动窗口 - 发送当前行 + 前几行作为上下文
以 “当前待译字幕行” 为中心,搭配前 2-3 行的内容作为 “上下文窗口” 一起发送。既保证模型聚焦当前行的翻译,又能通过前文信息明确指代、衔接语气
* 操作流程:
1. 切换到“字幕翻译”标签页,数据会自动从第一步同步过来。
2. 设置语言:
* 源语言:视频原本的语言(如英语)。
* 目标语言:你希望配音的语言(如中文)。
3. 选择模型:
* translategemma-4b:速度快,显存占用低(推荐)。
* translategemma-12b:翻译质量更好,但速度较慢。
4. 点击 “开始翻译”。
* 校对与修正:
* 手动修改:直接双击“译文”列的单元格进行修改。
* 单行重译:如果某一行翻译不满意,修改原文或保持原样,点击该行右侧的 “重译” 按钮,模型会重新翻译这一句。
---
第三步:生成音频 (TTS)
功能目标:根据翻译好的文本,克隆原视频的声音(或指定声音)生成配音。
* 核心设置:
1. 参考音频 (Prompt):
* 选择文件:手动上传一段 5-10 秒的清晰人声 wav/mp3 文件。
* 从视频截取(智能):点击此按钮,软件会自动分析原视频,寻找前 60 秒内人声清晰的片段截取作为参考。
2. 启用人声分离 (Demucs):
* 强烈推荐勾选。如果参考音频背景有音乐(BGM),会导致生成的配音也有杂音。勾选此项会自动去除背景音,只保留纯净
人声,极大提升克隆效果。
3. FP16 加速:默认勾选,提升生成速度。
* 生成与试听:
1. 点击 “开始合成”。
2. 生成完成后,点击表格中的 “试听” 按钮检查效果。
3. 单行重新生成:如果某一句读音不对或情感不对,点击右侧 “重新” 按钮,系统会使用不同的随机种子重新生成该句。
---
第四步:导出视频 (Export)
功能目标:将生成的配音与原视频合成。
* 操作:
1. 软件会自动寻找原视频和生成的音频。
2. 点击导出,软件会使用 FFmpeg 将原视频的音轨替换为新的配音,并可选择是否压制硬字幕。
批量全自动处理 (Batch Processing)
功能目标:用户只需放入一堆视频文件,软件将自动完成“识别 -> 翻译 -> 合成 -> 导出”的全流程,实现无人值守配音。
A. 界面配置
1. 待处理视频列表:
* 点击 “添加视频” 或 “添加文件夹” 将多个视频加入任务队列。
2. 全局参数配置(与单页设置同步):
* ASR 设置:选择语言和识别模型。
* 翻译设置:选择翻译模型、源语言和目标语言(如英语 -> 中文)。
* TTS 设置:
* 参考音频获取方式:通常设置为“自动从每个视频截取”,软件会为每个视频单独克隆音色。
* 人声分离:建议开启,以保证批量处理的质量。
3. 输出设置:
* 可以指定一个统一的输出文件夹,所有处理完的视频将以 原文件名_配音版.mp4 的形式命名。
B. 自动化逻辑
1. 全自动流水线:
* 点击 “开始批量任务” 后,软件会针对列表中的第一个视频,依次启动 ASR、翻译、TTS 服务。
* 智能服务切换:软件会自动管理显存。完成 ASR 后会释放 ASR
模型再加载翻译模型,以此类推,确保在有限的显存下稳定运行。
2. 断点续作与容错:
* 如果某个视频处理失败,软件会自动跳到下一个视频,并在日志栏记录错误原因,不会导致整个程序崩溃。
AI视频全自动翻译并配音工具下载地址:
|
|