VibeVoice-ASR音频转录识别成文字工具,支持srt字幕导出

meiyouruguo · 发表于 2026-1-22 13:01:39

VibeVoice-ASR音频识别工具, 支持srt字幕导出, 本地离线, 识别的很准确
导出字幕可以配合 indextts 做多人博客
电脑配置推荐 : 英伟达 24G显存以上

微软开源了 9B 参数的全新统一语音识别模型 VibeVoice-ASR，支持处理长达 60 分钟的长音频，能够在单次处理中生成包含说话人身份、精确时间戳和文本内容的结构化转录结果。模型支持用户自定义热词以提升特定领域的识别准确率。

VibeVoice-ASR 主要特性：
单次处理最长 60 分钟音频：与将音频分割成短片段（通常会丢失全局上下文）的传统 ASR 模型不同，VibeVoice ASR 可接受长达 60 分钟的连续音频输入，每个音频片段长度为 64K。这确保了整整一小时内说话人追踪的一致性和语义连贯性。
自定义热词：用户可以提供自定义热词（例如，特定名称、技术术语或背景信息）来指导识别过程，从而显著提高特定领域内容的识别准确率。
丰富的转录（谁、何时、什么）：该模型联合执行 ASR、人声分割和时间戳功能，生成结构化的输出：「谁在何时说了什么」。

1. 重复惩罚 (Repetition Penalty)

  一句话解释：防止模型变成“复读机”，强制它去寻找新的词汇。

* 原理：

  在模型决定下一个字输出什么时，如果某个字已经在刚才生成的内容里出现过了，这个参数会人为地降低该字被选中的概率（分值）。
   * 1.0：代表没有任何惩罚（原样输出）。
   * 大于 1.0（如 1.1 或 1.2）：代表施加惩罚。数值越大，模型越不愿意重复刚才说过的词。

* 在 ASR（语音识别）中的作用：
   * 常见问题：当音频中有长时间的静音、背景噪音，或者说话人结巴时，模型有时会陷入死循环，不停地输出“的的的
      的”或“是是是是”。
   * 如何解决：调高此参数（例如调到 1.1 或 1.2）可以直接打断这种循环，强迫模型往下进行。
   * 副作用：如果设置得太高（例如 1.5
      以上），模型可能会刻意避免重复必要的词（比如“这个在这个地方”可能会被错误地修改，因为模型不想重复“这个”）。

  ---

  2. 开启采样 (Enable Sampling) 及其参数

  一句话解释：决定模型是“死板地只选概率最大的词”，还是“根据概率随机抽签”。

  如果不开启采样（即 do_sample=False），模型使用的是贪婪搜索 (Greedy
  Search)。这意味着每一步它只选可能性最高的那个字。这对于语音识别通常是最好的，因为我们追求的是准确还原，而不是通过“随机
  ”来产生创意。

  一旦开启采样 (`do_sample=True`)，以下两个参数才会生效，它们共同控制生成的“随机性”和“创造性”：

  A. 温度 (Temperature)

* 原理：调整概率分布的“平滑程度”。
   * 低温度 (接近
      0)：极度保守。模型会极度放大高概率词的优势，几乎等同于贪婪搜索。生成的文本非常连贯、逻辑性强，但可能比较死板。
   * 高温度 (接近 1 或更高)：放飞自我。模型会缩小各个词之间的概率差距，使得那些原本概率较低的词也有机会被选中。
* 在 ASR 中的作用：
   * 推荐值：0 或非常低 (0.1)。语音识别要求准确，如果你说“苹果”，你肯定不希望因为模型太有“创意”而写成“香蕉”。
   * 何时调高：只有当模型在某段音频上死活听不对，总是输出同一句错误的废话时，可以尝试稍微调高温度（例如
      0.4），让它尝试从其他概率路径走走看，看能不能“蒙”对。

  B. Top-p (核采样 / Nucleus Sampling)

* 原理：这是一个“动态截断”机制。模型会将所有可能的下一个字的概率从高到低排序，然后把它们的概率加起来。一旦总和达到了
   p（比如 0.9），剩下的所有低概率词直接被淘汰，根本不予考虑。
   * Top-p = 1.0：考虑词表里所有的词（不过滤）。
   * Top-p = 0.9：只在概率总和占前 90% 的那些最靠谱的词里选，把剩下 10% 极其离谱的词通过切掉。
* 在 ASR 中的作用：
   * 它主要用于防止模型在高温度下产生完全不通顺的乱码。
   * 在 ASR 中通常保持默认（0.9 或 0.95）即可

VibeVoice-ASR音频识别成文字工具整合包下载链接:

链接：https://pan.quark.cn/s/d3cbd2bd394b

sonata1121 · 发表于 2026-4-20 13:31:23

常见问题：当音频中有长时间的静音、背景噪音，或者说话人结巴时，模型有时会陷入死循环，不停地输出“的的的
的”或“是是是是”。

解决问题的办法是调高参数，1.1,1.2 在哪里调高？

		自动登录	找回密码
密码			立即注册

VibeVoice-ASR音频转录识别成文字工具,支持srt字幕导出

突出会员

丹神