|
|
VibeVoice-ASR音频识别工具, 支持srt字幕导出, 本地离线, 识别的很准确
导出字幕可以配合 indextts 做多人博客
电脑配置推荐 : 英伟达 24G显存以上
微软开源了 9B 参数的全新统一语音识别模型 VibeVoice-ASR,支持处理长达 60 分钟的长音频,能够在单次处理中生成包含说话人身份、精确时间戳和文本内容的结构化转录结果。模型支持用户自定义热词以提升特定领域的识别准确率。
VibeVoice-ASR 主要特性:
单次处理最长 60 分钟音频:与将音频分割成短片段(通常会丢失全局上下文)的传统 ASR 模型不同,VibeVoice ASR 可接受长达 60 分钟的连续音频输入,每个音频片段长度为 64K。这确保了整整一小时内说话人追踪的一致性和语义连贯性。
自定义热词:用户可以提供自定义热词(例如,特定名称、技术术语或背景信息)来指导识别过程,从而显著提高特定领域内容的识别准确率。
丰富的转录(谁、何时、什么):该模型联合执行 ASR、人声分割和时间戳功能,生成结构化的输出:「谁 在 何时 说了什么」。
1. 重复惩罚 (Repetition Penalty)
一句话解释: 防止模型变成“复读机”,强制它去寻找新的词汇。
* 原理:
在模型决定下一个字输出什么时,如果某个字已经在刚才生成的内容里出现过了,这个参数会人为地降低该字被选中的概率(分值)。
* 1.0:代表没有任何惩罚(原样输出)。
* 大于 1.0(如 1.1 或 1.2):代表施加惩罚。数值越大,模型越不愿意重复刚才说过的词。
* 在 ASR(语音识别)中的作用:
* 常见问题:当音频中有长时间的静音、背景噪音,或者说话人结巴时,模型有时会陷入死循环,不停地输出“的 的 的
的”或“是 是 是 是”。
* 如何解决:调高此参数(例如调到 1.1 或 1.2)可以直接打断这种循环,强迫模型往下进行。
* 副作用:如果设置得太高(例如 1.5
以上),模型可能会刻意避免重复必要的词(比如“这个在这个地方”可能会被错误地修改,因为模型不想重复“这个”)。
---
2. 开启采样 (Enable Sampling) 及其参数
一句话解释: 决定模型是“死板地只选概率最大的词”,还是“根据概率随机抽签”。
如果不开启采样(即 do_sample=False),模型使用的是贪婪搜索 (Greedy
Search)。这意味着每一步它只选可能性最高的那个字。这对于语音识别通常是最好的,因为我们追求的是准确还原,而不是通过“随机
”来产生创意。
一旦开启采样 (`do_sample=True`),以下两个参数才会生效,它们共同控制生成的“随机性”和“创造性”:
A. 温度 (Temperature)
* 原理:调整概率分布的“平滑程度”。
* 低温度 (接近
0):极度保守。模型会极度放大高概率词的优势,几乎等同于贪婪搜索。生成的文本非常连贯、逻辑性强,但可能比较死板。
* 高温度 (接近 1 或更高):放飞自我。模型会缩小各个词之间的概率差距,使得那些原本概率较低的词也有机会被选中。
* 在 ASR 中的作用:
* 推荐值:0 或非常低 (0.1)。语音识别要求准确,如果你说“苹果”,你肯定不希望因为模型太有“创意”而写成“香蕉”。
* 何时调高:只有当模型在某段音频上死活听不对,总是输出同一句错误的废话时,可以尝试稍微调高温度(例如
0.4),让它尝试从其他概率路径走走看,看能不能“蒙”对。
B. Top-p (核采样 / Nucleus Sampling)
* 原理:这是一个“动态截断”机制。模型会将所有可能的下一个字的概率从高到低排序,然后把它们的概率加起来。一旦总和达到了
p(比如 0.9),剩下的所有低概率词直接被淘汰,根本不予考虑。
* Top-p = 1.0:考虑词表里所有的词(不过滤)。
* Top-p = 0.9:只在概率总和占前 90% 的那些最靠谱的词里选,把剩下 10% 极其离谱的词通过切掉。
* 在 ASR 中的作用:
* 它主要用于防止模型在高温度下产生完全不通顺的乱码。
* 在 ASR 中通常保持默认(0.9 或 0.95)即可
VibeVoice-ASR音频识别成文字工具整合包下载链接:
链接:https://pan.quark.cn/s/d3cbd2bd394b
|
|