AI视频全自动翻译并配音工具indexTTS版本

meiyouruguo · 发表于 3 天前

AI视频全自动翻译并配音工具, 本地离线, 解压即用
集成了语音识别 (ASR)、大模型翻译 (LLM)、语音合成 (TTS) 及视频合成, 支持一键批量全自动翻译视频并配音
功能简介: 可以将中文英语日语韩语法语德语西班牙语葡萄牙语意大利语俄语阿拉伯语的视频自动翻译并配音成中文或英文发音的视频, 支持一键批量全自动翻译配音, 如果要求精度, 也可以分步骤操作
实现原理: 先用faster-whisper识别出带时间戳的srt字幕, 然后使用谷歌最新的translategemma模型逐行翻译,最后用indexTTS2.0 实现文本转语音,最后合成视频, 合成视频的时候可选择是否添加原文,译文或双语字幕
电脑显卡要求: 英伟达12G显存, 显卡驱动需要更新到最新版本
工作室做youtube, titok等自媒体推荐工具

AI 全自动视频翻译配音工具使用说明
功能模块详解

第一步：语音识别 (ASR)
功能目标：将视频中的语音转换为带有时间轴的字幕文本。

* 基础操作：
1. 点击 “选择视频/音频文件” 导入需要处理的媒体文件。
         * 提示：如果检测到同目录下有原生字幕文件，软件会弹出提示，建议优先加载原生字幕以提高准确率。
2. 设置参数：
         * 模型：推荐使用 faster-whisper-large-v3 以获得最高精度。
         * 语言：建议手动选择视频的源语言（如“英语”），比自动检测更稳。
3. 点击 “开始识别”，等待进度条完成。
4. 导入/导出：支持导入已有的 SRT 字幕，或将识别结果导出为 SRT。

* 高级字幕编辑（右键菜单 - 新增功能）：
  在字幕表格中，选中行点击鼠标右键：
* 按最大字数拆分此行：
         * 根据上方工具栏设定的“单行最大字数”（默认30），自动寻找标点符号或合适的断句点将长字幕拆分为多行。
* 增加一行 (拆分为二)：
         * 将当前选中的行从中间拆分为两行。
         * 智能逻辑：如果是英文，会自动寻找中间的空格切分；如果是中文，则按字符数切分。时间戳会根据字符长度比例自动分配，总时长不变。
* 合并行（需选中两行）：
         * 操作方法：按住 Ctrl 或 Shift 键点击，或按住鼠标左键拖动选中相邻的上下两行，然后右键选择“合并行”。
         * 智能逻辑：合并文本和时间轴。针对中文/日文会自动去除中间的空格，英文则保留空格。

* 字幕整理工具栏：
* 一键拆分长难句：批量扫描所有字幕，将超过最大字数的行自动拆分。
* 恢复原始内容：如果编辑乱了，可以一键回退到刚识别完的状态。

第二步：字幕翻译 (Translate)
功能目标：利用本地translategemma大模型将源语言字幕翻译为目标语言。

1. 批量发送 - 多条字幕合并发送
      核心逻辑       打破逐行翻译的局限，把多句连贯的字幕内容合并成一个完整文本发送给翻译工具。翻译模型能识别整段的语义逻辑、语气节奏，避免因单句孤立导致的翻译偏差。

2. 滑动窗口 - 发送当前行 + 前几行作为上下文

      以 “当前待译字幕行” 为中心，搭配前 2-3 行的内容作为 “上下文窗口” 一起发送。既保证模型聚焦当前行的翻译，又能通过前文信息明确指代、衔接语气

* 操作流程：
1. 切换到“字幕翻译”标签页，数据会自动从第一步同步过来。
2. 设置语言：
         * 源语言：视频原本的语言（如英语）。
         * 目标语言：你希望配音的语言（如中文）。
3. 选择模型：
         * translategemma-4b：速度快，显存占用低（推荐）。
         * translategemma-12b：翻译质量更好，但速度较慢。
4. 点击 “开始翻译”。

* 校对与修正：
* 手动修改：直接双击“译文”列的单元格进行修改。
* 单行重译：如果某一行翻译不满意，修改原文或保持原样，点击该行右侧的 “重译” 按钮，模型会重新翻译这一句。

---

第三步：生成音频 (TTS)
功能目标：根据翻译好的文本，克隆原视频的声音（或指定声音）生成配音。

* 核心设置：
1. 参考音频 (Prompt)：
         * 选择文件：手动上传一段 5-10 秒的清晰人声 wav/mp3 文件。
         * 从视频截取(智能)：点击此按钮，软件会自动分析原视频，寻找前 60 秒内人声清晰的片段截取作为参考。
2. 启用人声分离 (Demucs)：
         * 强烈推荐勾选。如果参考音频背景有音乐（BGM），会导致生成的配音也有杂音。勾选此项会自动去除背景音，只保留纯净
               人声，极大提升克隆效果。
3. FP16 加速：默认勾选，提升生成速度。

* 生成与试听：
1. 点击 “开始合成”。
2. 生成完成后，点击表格中的 “试听” 按钮检查效果。
3. 单行重新生成：如果某一句读音不对或情感不对，点击右侧 “重新” 按钮，系统会使用不同的随机种子重新生成该句。

---

第四步：导出视频 (Export)
功能目标：将生成的配音与原视频合成。

* 操作：
1. 软件会自动寻找原视频和生成的音频。
2. 点击导出，软件会使用 FFmpeg 将原视频的音轨替换为新的配音，并可选择是否压制硬字幕。

批量全自动处理 (Batch Processing)
  功能目标：用户只需放入一堆视频文件，软件将自动完成“识别 -> 翻译 -> 合成 -> 导出”的全流程，实现无人值守配音。

  A. 界面配置
1. 待处理视频列表：
   * 点击 “添加视频” 或 “添加文件夹” 将多个视频加入任务队列。
2. 全局参数配置（与单页设置同步）：
   * ASR 设置：选择语言和识别模型。
   * 翻译设置：选择翻译模型、源语言和目标语言（如英语 -> 中文）。
   * TTS 设置：
         * 参考音频获取方式：通常设置为“自动从每个视频截取”，软件会为每个视频单独克隆音色。
         * 人声分离：建议开启，以保证批量处理的质量。
3. 输出设置：
   * 可以指定一个统一的输出文件夹，所有处理完的视频将以原文件名_配音版.mp4 的形式命名。

  B. 自动化逻辑
1. 全自动流水线：
   * 点击 “开始批量任务” 后，软件会针对列表中的第一个视频，依次启动 ASR、翻译、TTS 服务。
   * 智能服务切换：软件会自动管理显存。完成 ASR 后会释放 ASR
      模型再加载翻译模型，以此类推，确保在有限的显存下稳定运行。
2. 断点续作与容错：
   * 如果某个视频处理失败，软件会自动跳到下一个视频，并在日志栏记录错误原因，不会导致整个程序崩溃。

AI视频全自动翻译并配音工具下载地址:

付费内容

亲爱的游客您好！如果您要查看本帖隐藏内容请向楼主支付600灵石

立即购买

购买记录

		自动登录	找回密码
密码			立即注册

AI视频全自动翻译并配音工具indexTTS版本

突出会员

丹神