|
|
本软件可以实现视频一键批量全自动翻译并配音, 支持音色克隆
设置里边的参数, 批量和分段处理是通用的
导出视频支持多种速度策略, 兼容各种类型视频
电脑要求: 显卡需要英伟达12G显存,显卡驱动更新到最新版本
容易出错的地方: 软件解压路径不用包含中文
本软件是一款 AI 驱动的视频翻译配音工具,支持:
- 语音识别 (ASR) - 使用faster-wisper模型自动识别视频中的语音并生成字幕
- 字幕翻译 - 使用本地translategemma大语言模型翻译字幕
- 语音合成 (TTS) - 使用 index-tts2 将译文转换为语音
- 视频导出 - 合成最终的配音视频
支持**分步处理**(手动控制每个步骤)和**一键批量处理**(全自动流水线)两种模式。
## 功能页面
### ① 语音识别页面
| 功能 | 说明 |
|------|------|
| 选择视频/音频文件 | 支持 mp4, mkv, avi, mov, webm, mp3, wav, flac 等格式 |
| 开始识别 | 自动检测原生字幕,若无则使用 ASR 识别 |
| 导入 SRT | 导入外部 SRT 字幕文件 |
| 导出 SRT | 将当前字幕导出为 SRT 文件 |
| 恢复原始内容 | 恢复到最初识别/加载的状态 |
**右键菜单功能:**
- **删除行** - 删除选中的单行或多行
- **合并行** - 合并选中的连续多行(2行及以上),时间戳自动调整
---
### ② 字幕翻译页面
| 功能 | 说明 |
|------|------|
| 开始翻译 | 使用本地翻译模型批量翻译所有字幕 |
| 导出译文 SRT | 将译文导出为 SRT 文件 |
| 导入译文 SRT | 导入已翻译的 SRT,按行序号匹配更新时间戳和译文 |
| 重译按钮 | 对单条字幕重新翻译 |
**快捷键:**
- `Ctrl+C` - 复制选中的原文或译文
- `Ctrl+V` - 粘贴到译文列
---
### ③ 生成音频页面
| 功能 | 说明 |
|------|------|
| 选择文件 | 手动选择参考音频文件 |
| 从视频截取(智能) | 自动从视频中寻找有效人声片段作为参考音色 |
| 开始合成 | 批量生成所有字幕的配音 |
| 停止 | 中断当前合成任务 |
| 试听 | 播放单条已生成的配音 |
| 重新 | 重新生成单条配音 |
---
### ④ 导出视频页面
| 功能 | 说明 |
|------|------|
| 数据状态 | 显示当前已加载的数据情况 |
| 当前导出配置 | 显示从设置页面读取的导出参数 |
| 开始合成最终视频 | 合成配音视频并保存 |
---
### ⑤ 设置页面
详见下方 [设置页面详解](#设置页面详解)
---
### 一键全自动批量处理
| 功能 | 说明 |
|------|------|
| 添加视频 | 添加多个视频文件到处理队列 |
| 清空列表 | 清空所有待处理任务 |
| 开始处理 | 按 ASR → 翻译 → TTS → 导出 流水线自动处理 |
| 停止 | 中断当前批量任务 |
| 打开输出目录 | 打开 output/batch_output 文件夹 |
**双击任务行**可打开已完成的配音视频。
---
## 设置页面详解
### 一、语音设置 Tab
#### 1. 语音识别 (ASR)
| 参数 | 说明 | 推荐值 |
|------|------|--------|
| **识别模型** | Whisper 模型大小 | `large-v3`(精度最高)<br>`large-v3-turbo`(速度较快)<br>`medium`/`small`(更快但精度降低) |
| **识别语言** | 指定视频语言 | 已知语言时建议指定,可提升速度和准确率<br>`自动检测` 适用于未知语言 |
| **Beam** | 解码搜索宽度 | `5`(默认)<br>越大越准确但越慢 |
| **VAD过滤** | 语音活动检测 | ✅ 建议启用<br>过滤静音段,切分更精细 |
| **静音阈值** | 判定静音的阈值 (0~1) | `0.4`(默认)<br>越高越容易判为静音 |
| **VAD静音** | 静音持续多久才切分 | `400 ms`(默认)<br>越小切分越细 |
| **语音填充** | 语音段前后补偿 | `30 ms`(默认)<br>防止语音被截断 |
| **词级时间戳** | 按词对齐时间 | ❌ 通常不需要<br>启用会变慢 |
| **前置填充** | 每段开始时间向前扩展 | `0 ms`(默认) |
| **后置填充** | 每段结束时间向后扩展 | `0 ms`(默认) |
#### 2. 音频预处理
| 参数 | 说明 | 推荐值 |
|------|------|--------|
| **启用降噪** | 使用 Roformer 分离人声 | ✅ 建议启用<br>提高识别准确率和音色提取质量 |
---
### 二、翻译设置 Tab
#### 1. 翻译模型
| 参数 | 说明 | 推荐值 |
|------|------|--------|
| **模型文件** | 本地翻译模型 | `translategemma-4b-it-q8_0.gguf`(较快)<br>`translategemma-12b-it-q8_0.gguf`(更准确但更慢) |
#### 2. 翻译语言
| 参数 | 说明 |
|------|------|
| **源语言** | 原视频的语言(英语、中文、日语、韩语、法语、德语等) |
| **目标语言** | 翻译目标语言(中文、英语) |
| **⇄ 交换语言** | 快速交换源语言和目标语言 |
---
### 三、音频设置 Tab
#### 参考音色(批量处理用)
| 参数 | 说明 | 推荐值 |
|------|------|--------|
| **自动从视频提取** | 自动截取视频中的人声作为参考 | ✅ 推荐<br>保持与原视频音色一致 |
| **选择固定音色** | 使用指定的音频文件作为参考 | 当需要统一音色时使用 |
---
### 四、输出设置 Tab
#### 1. 字幕设置
| 参数 | 说明 | 推荐值 |
|------|------|--------|
| **字幕模式** | 是否压制字幕到视频 | `不压制字幕` - 不添加字幕<br>`仅原文` - 只显示原文<br>`仅译文` - 只显示译文<br>`双语字幕` - 上方译文,下方原文 |
| **大小** | 字幕字体大小 | `12-18 px` |
| **底边距** | 字幕距离底部的距离 | `25 px`(默认) |
| **字色** | 字幕文字颜色 | 白色 `#FFFFFF` |
| **描边** | 字幕描边颜色 | 黑色 `#000000` |
| **拆分阈值** | 超过该字数自动拆分字幕 | `30 字`(默认)<br>设为 `0` 禁用拆分 |
#### 2. 导出参数
| 参数 | 说明 | 推荐值 |
|------|------|--------|
| **速度策略** | 配音与视频的时长对齐方式 | 详见 [速度策略详解](#速度策略详解) |
| **段间间隔** | 每段配音之间插入静音 | `0.0 s`(默认)<br>增加间隔可让语速更舒缓 |
| **背景音量** | BGM 与配音混合时的音量 | `1.0`(100%原始音量)<br>建议 `0.3~0.5` 避免干扰配音 |
| **自动换行** | 字幕按长度自动换行 | ❌ 默认关闭 |
| **优先长度** | 达到该长度后寻找标点换行 | `26 字` |
| **最大长度** | 超过该长度强制换行 | `36 字` |
#### 3. 音频输出
| 参数 | 说明 | 推荐值 |
|------|------|--------|
| **保留原视频背景音乐** | 分离并混合原视频的 BGM | ✅ 建议启用<br>保留背景音乐更自然 |
---
## 导出视频策略详解
这是最重要的设置之一,决定了配音如何与视频画面同步。
### 策略对比表
| 策略 | 配音处理 | 视频处理 | 同步效果 | 适用场景 |
|------|---------|---------|---------|---------|
| **音频智能微调** | 逐句压缩/拉伸 | 不变 | ⭐⭐⭐⭐⭐ 最佳 | **推荐** 大多数场景 |
| **保持原速** | 不变 | 不变 | ⭐⭐ 可能不同步 | 无需同步的场景 |
| **音频整体变速** | 整体变速 | 不变 | ⭐⭐⭐ 一般 | 简单快速处理 |
| **视频适配音频** | 不变 | 整体变速 | ⭐⭐⭐⭐ 较好 | 配音自然优先 |
| **分段视频适配** | 不变 | 逐段变速 | ⭐⭐⭐⭐⭐ 精确 | 精确口型同步 |
---
### 各策略详解
#### 1. 音频智能微调 (audio_smart) 【推荐】
```
原理:将每段配音压缩或拉伸,使其刚好填满原字幕的时间槽
```
| 优点 | 缺点 |
|------|------|
| ✅ 视频保持原速,画面自然 | ⚠️ 配音语速可能不均匀 |
| ✅ 配音与画面高度同步 | ⚠️ 压缩过多可能听起来急促 |
| ✅ 处理速度快 | |
**适用场景**:大多数视频翻译配音,尤其是教程、演讲、新闻等。
---
#### 2. 保持原速 (original)
```
原理:配音和视频都不做任何调整,按原始时间轴播放
```
| 优点 | 缺点 |
|------|------|
| ✅ 配音语速自然 | ❌ 配音可能与画面不同步 |
| ✅ 处理最快 | ❌ 可能出现配音重叠或空白 |
**适用场景**:不需要严格同步的场景,如背景解说、旁白等。
---
#### 3. 音频整体变速 (audio_fit)
```
原理:将整段配音统一变速,使总时长匹配视频时长
```
| 优点 | 缺点 |
|------|------|
| ✅ 实现简单 | ⚠️ 语速可能不自然 |
| ✅ 总时长精确匹配 | ⚠️ 无法做到逐句同步 |
**适用场景**:对同步要求不高,只需总时长一致的场景。
---
#### 4. 视频适配音频 (video_fit)
```
原理:调整视频播放速度来匹配配音时长
```
| 优点 | 缺点 |
|------|------|
| ✅ 配音完全自然 | ⚠️ 视频会变快或变慢 |
| ✅ 配音听感最佳 | ⚠️ 画面可能不自然 |
**适用场景**:配音质量优先,对视频速度变化不敏感的场景。
---
#### 5. 分段视频适配 (video_fit_segment)
```
原理:逐句调整视频速度,使每段视频时长匹配对应配音时长
```
| 优点 | 缺点 |
|------|------|
| ✅ 配音完全自然 | ⚠️ 视频速度频繁变化 |
| ✅ 每句都精确同步 | ⚠️ 画面可能有跳跃感 |
| ✅ 口型同步最精确 | ⚠️ 处理时间较长 |
**特殊功能**:此策略下,如果启用背景音乐,BGM 会**自动循环**以填满新的视频时长。
**适用场景**:对口型同步要求极高的场景,如电影、电视剧配音。
---
### 策略选择建议
```
┌─────────────────────────────────────────────────────┐
│ 选择策略 │
├─────────────────────────────────────────────────────┤
│ │
│ 需要配音与画面同步吗? │
│ │ │
│ ├── 是 ──→ 视频速度可以变化吗? │
│ │ │ │
│ │ ├── 是 ──→ 分段视频适配 │
│ │ │ │
│ │ └── 否 ──→ 音频智能微调 ⭐ │
│ │ │
│ └── 否 ──→ 保持原速 │
│ │
└─────────────────────────────────────────────────────┘
```
---
## 使用流程
### 分步处理模式
```
1. 语音识别页面
└── 选择视频 → 开始识别 → 检查/编辑字幕
2. 字幕翻译页面
└── 开始翻译 → 检查/编辑译文
3. 生成音频页面
└── 选择参考音频 → 开始合成 → 试听检查
4. 导出视频页面
└── 确认配置 → 开始合成最终视频
```
### 批量处理模式
```
1. 进入"一键全自动批量处理"页面
2. 添加多个视频文件
3. 在"设置"页面配置参数
4. 点击"开始处理"
5. 等待全部完成
6. 点击"打开输出目录"查看结果
```
---
## 常见问题
### Q1: 识别结果不准确怎么办?
- 尝试指定正确的"识别语言"
- 启用"降噪"选项
- 使用更大的模型 (large-v3)
- 调整 VAD 相关参数
### Q2: 翻译质量不好怎么办?(需要16G显存)
- 尝试使用 12B 模型(更准确)
- 手动编辑不准确的译文
- 使用"重译"按钮重新翻译单条
### Q3: 配音语速太快/太慢?
- 调整"速度策略"
- 增加"段间间隔"让语速更舒缓
- 使用"分段视频适配"让视频适应配音
### Q4: 背景音乐太吵?
- 降低"背景音量"参数(建议 0.3~0.5)
- 或关闭"保留原视频背景音乐"
### Q5: 字幕显示不完整?
- 调整"拆分阈值"让长字幕自动拆分
- 启用"自动换行"
- 调整字幕"大小"
### Q6: 处理速度慢?
- 使用较小的 ASR 模型 (medium/small)
- 使用 4B 翻译模型
- 关闭"词级时间戳"
- 确保使用 GPU (CUDA)
---
## 输出目录结构
```
output/
├── 视频名称/ # 分步处理输出
│ ├── 0000.wav # TTS 生成的音频片段
│ ├── 0001.wav
│ ├── ...
│ ├── final_audio.wav # 合成的完整配音
│ └── 视频名称_配音版_时间戳.mp4 # 最终输出视频
│
└── batch_output/ # 批量处理输出
├── task_0/ # 第1个视频的临时文件
├── task_1/
├── ...
└── 视频名称_dubbed.mp4 # 批量处理的输出视频
```
QQ交流群 1013340559
________________________________________________________________________________________________________________________
AI视频全自动翻译并配音工具下载链接:https://pan.quark.cn/s/bb0e43db9144
checkpoints 模型文件夹下载链接: https://pan.quark.cn/s/d832446e62db
工具和模型是分开的, 两个链接都要下载, 下载后checkpoints 模型文件夹, 放到video_Translate_vip_2.0 目录下
________________________________________________________________________________________________________________________
试用版本,下载可试用10天
|
|