AIBL论坛

 找回密码
 立即注册
本论坛所有软件旨在帮助用户创建逼真且有趣的内容,帮助做自媒体的人制作原创有趣的视频或广告,如果使用别人的肖像,使用之前需获得同意和许可(建议使用AI生成的人脸),严禁使用本论坛发布的资源用于不符合当地法律法规的事情
查看: 138|回复: 0

AI视频全自动翻译并配音工具indexTTS版本

[复制链接]
发表于 3 天前 | 显示全部楼层 |阅读模式
AI视频全自动翻译并配音工具, 本地离线, 解压即用  
集成了 语音识别 (ASR)、大模型翻译 (LLM)、语音合成 (TTS) 及 视频合成, 支持一键批量全自动翻译视频并配音
功能简介: 可以将 中文 英语 日语 韩语 法语 德语 西班牙语 葡萄牙语 意大利语 俄语 阿拉伯语的视频自动翻译并配音成 中文或英文 发音的视频, 支持一键批量全自动翻译配音, 如果要求精度, 也可以分步骤操作
实现原理: 先用faster-whisper识别出带时间戳的srt字幕, 然后使用谷歌最新的translategemma模型逐行翻译,最后用indexTTS2.0 实现文本转语音,最后合成视频,  合成视频的时候可选择是否添加 原文,译文或双语字幕
电脑显卡要求: 英伟达12G显存, 显卡驱动需要更新到最新版本
工作室做youtube, titok等自媒体推荐工具
5.jpg 1.jpg 2.jpg
3.jpg 4.jpg

AI 全自动视频翻译配音工具使用说明
功能模块详解

第一步:语音识别 (ASR)
功能目标:将视频中的语音转换为带有时间轴的字幕文本。

* 基础操作:
   1. 点击 “选择视频/音频文件” 导入需要处理的媒体文件。
           * 提示:如果检测到同目录下有原生字幕文件,软件会弹出提示,建议优先加载原生字幕以提高准确率。
   2. 设置参数:
           * 模型:推荐使用 faster-whisper-large-v3 以获得最高精度。
           * 语言:建议手动选择视频的源语言(如“英语”),比自动检测更稳。
   3. 点击 “开始识别”,等待进度条完成。
   4. 导入/导出:支持导入已有的 SRT 字幕,或将识别结果导出为 SRT。

* 高级字幕编辑(右键菜单 - 新增功能):
  在字幕表格中,选中行点击鼠标右键:
   * 按最大字数拆分此行:
           * 根据上方工具栏设定的“单行最大字数”(默认30),自动寻找标点符号或合适的断句点将长字幕拆分为多行。
   * 增加一行 (拆分为二):
           * 将当前选中的行从中间拆分为两行。
           * 智能逻辑:如果是英文,会自动寻找中间的空格切分;如果是中文,则按字符数切分。时间戳会根据字符长度比例自动分配,总时长不变。
   * 合并行(需选中两行):
           * 操作方法:按住 Ctrl 或 Shift 键点击,或按住鼠标左键拖动选中相邻的上下两行,然后右键选择“合并行”。
           * 智能逻辑:合并文本和时间轴。针对中文/日文会自动去除中间的空格,英文则保留空格。

* 字幕整理工具栏:
   * 一键拆分长难句:批量扫描所有字幕,将超过最大字数的行自动拆分。
   * 恢复原始内容:如果编辑乱了,可以一键回退到刚识别完的状态。


第二步:字幕翻译 (Translate)
功能目标:利用本地translategemma大模型将源语言字幕翻译为目标语言。

1. 批量发送 - 多条字幕合并发送
        核心逻辑        打破逐行翻译的局限,把多句连贯的字幕内容合并成一个完整文本发送给翻译工具。翻译模型能识别整段的语义逻辑、语气节奏,避免因单句孤立导致的翻译偏差。

2. 滑动窗口 - 发送当前行 + 前几行作为上下文
        
        以 “当前待译字幕行” 为中心,搭配前 2-3 行的内容作为 “上下文窗口” 一起发送。既保证模型聚焦当前行的翻译,又能通过前文信息明确指代、衔接语气

* 操作流程:
   1. 切换到“字幕翻译”标签页,数据会自动从第一步同步过来。
   2. 设置语言:
           * 源语言:视频原本的语言(如英语)。
           * 目标语言:你希望配音的语言(如中文)。
   3. 选择模型:
           * translategemma-4b:速度快,显存占用低(推荐)。
           * translategemma-12b:翻译质量更好,但速度较慢。
   4. 点击 “开始翻译”。

* 校对与修正:
   * 手动修改:直接双击“译文”列的单元格进行修改。
   * 单行重译:如果某一行翻译不满意,修改原文或保持原样,点击该行右侧的 “重译” 按钮,模型会重新翻译这一句。

---

第三步:生成音频 (TTS)
功能目标:根据翻译好的文本,克隆原视频的声音(或指定声音)生成配音。

* 核心设置:
   1. 参考音频 (Prompt):
           * 选择文件:手动上传一段 5-10 秒的清晰人声 wav/mp3 文件。
           * 从视频截取(智能):点击此按钮,软件会自动分析原视频,寻找前 60 秒内人声清晰的片段截取作为参考。
   2. 启用人声分离 (Demucs):
           * 强烈推荐勾选。如果参考音频背景有音乐(BGM),会导致生成的配音也有杂音。勾选此项会自动去除背景音,只保留纯净
                 人声,极大提升克隆效果。
   3. FP16 加速:默认勾选,提升生成速度。

* 生成与试听:
   1. 点击 “开始合成”。
   2. 生成完成后,点击表格中的 “试听” 按钮检查效果。
   3. 单行重新生成:如果某一句读音不对或情感不对,点击右侧 “重新” 按钮,系统会使用不同的随机种子重新生成该句。

---

第四步:导出视频 (Export)
功能目标:将生成的配音与原视频合成。

* 操作:
   1. 软件会自动寻找原视频和生成的音频。
   2. 点击导出,软件会使用 FFmpeg 将原视频的音轨替换为新的配音,并可选择是否压制硬字幕。
   
   
批量全自动处理 (Batch Processing)
  功能目标:用户只需放入一堆视频文件,软件将自动完成“识别 -> 翻译 -> 合成 -> 导出”的全流程,实现无人值守配音。

  A. 界面配置
   1. 待处理视频列表:
       * 点击 “添加视频” 或 “添加文件夹” 将多个视频加入任务队列。
   2. 全局参数配置(与单页设置同步):
       * ASR 设置:选择语言和识别模型。
       * 翻译设置:选择翻译模型、源语言和目标语言(如英语 -> 中文)。
       * TTS 设置:
           * 参考音频获取方式:通常设置为“自动从每个视频截取”,软件会为每个视频单独克隆音色。
           * 人声分离:建议开启,以保证批量处理的质量。
   3. 输出设置:
       * 可以指定一个统一的输出文件夹,所有处理完的视频将以 原文件名_配音版.mp4 的形式命名。

  B. 自动化逻辑
   1. 全自动流水线:
       * 点击 “开始批量任务” 后,软件会针对列表中的第一个视频,依次启动 ASR、翻译、TTS 服务。
       * 智能服务切换:软件会自动管理显存。完成 ASR 后会释放 ASR
         模型再加载翻译模型,以此类推,确保在有限的显存下稳定运行。
   2. 断点续作与容错:
       * 如果某个视频处理失败,软件会自动跳到下一个视频,并在日志栏记录错误原因,不会导致整个程序崩溃。





AI视频全自动翻译并配音工具下载地址:
付费内容
亲爱的游客您好!如果您要查看本帖隐藏内容请向楼主支付600灵石
















AIBL论坛免责申明
本论坛刊载的所有内容,包括图片、软件、模型等均在网上搜集。
论坛提供的内容仅用于个人学习、研究或欣赏。我们不保证内容的正确性。通过使用本站内容随之而来的风险与本站无关
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|AIBL论坛

GMT+8, 2026-1-22 21:30 , Processed in 0.046950 second(s), 26 queries , Gzip On.

Powered by AI技术论坛 X3.5

© 2001-2026 dfl论坛

快速回复 返回顶部 返回列表