meiyouruguo 发表于 前天 02:06

openai-whisper视频音频转文本字幕整合包,支持50系列显卡

openai-whisper视频音频转文本字幕整合包,支持50系列显卡,支持批量转换
whisper是OpenAI公司出品的AI字幕神器,是目前最好的语音生成字幕工具之一,开源且支持本地部署,支持多种语言识别(英语识别准确率非常惊艳)。



Whisper模型的主要区别:

模型大小和性能对比

| 模型   | 参数量   | 相对速度 | VRAM需求 | 转录质量 | 适用场景      |
|--------|-------|------|--------|------|-----------|
| tiny   | 39M   | 最快   | ~1GB   | 较低   | 快速预览、实时转录 |
| base   | 74M   | 很快   | ~1GB   | 中等   | 日常使用平衡点   |
| small| 244M| 快    | ~2GB   | 良好   | 大多数应用推荐   |
| medium | 769M| 中等   | ~5GB   | 很好   | 高质量需求   |
| large| 1550M | 慢    | ~10GB| 最好   | 最高质量要求    |   翻译到英文选择此模型
| turbo| -   | 很快   | ~6GB   | 很好   | 速度与质量平衡   |不支持翻译到英文

详细说明

tiny

- 最快速度,几乎实时处理
- 质量较低,可能有较多错误
- 适合快速预览或对准确性要求不高的场景

base

- 速度与质量的入门平衡
- 比tiny质量好,但仍可能有明显错误
- 适合快速处理大量音频文件

small

- 推荐的日常使用模型
- 质量显著提升,速度仍然可接受
- 大部分场景下的最佳选择

medium

- 高质量转录
- 处理速度明显变慢
- 适合对准确性要求较高的场景

large

- 最高质量,接近人工转录水平
- 速度最慢,资源消耗最大
- 适合专业转录、字幕制作等

turbo (新版本)

- 优化版large模型
- 在保持high质量的同时大幅提升速度
- 是large的更快替代品

选择建议

- 日常使用: small或turbo
- 快速预览: tiny或base
- 专业工作: medium或large
- 硬件限制: tiny或base
_________________________________________________________________________
Whisper中高级选项的四个功能:

1. 温度 (Temperature)

作用: 控制输出的随机性和创造性
- 范围: 0.0 - 1.0
- 默认值: 0.0
- 0.0: 完全确定性输出,每次结果相同
- >0.0: 增加随机性,可能产生不同的转录结果
- 使用建议: 大多数情况下保持0.0,除非需要多样性输出

# 温度=0.0: "今天天气很好"
# 温度=0.5: 可能输出 "今天天气不错" 或其他相近表达

2. Beam大小 (Beam Size)

作用: 控制搜索算法的宽度,影响质量和速度
- 范围: 1-10
- 默认值: 5
- 数值越大: 质量更好,但速度更慢
- 数值越小: 速度更快,但可能质量下降
- 使用建议: 追求质量用8-10,追求速度用1-3

# beam_size=1: 贪婪搜索,最快但质量一般
# beam_size=5: 平衡点
# beam_size=10: 最佳质量,但最慢

3. 词级时间戳 (Word Timestamps)

作用: 为每个单词提供精确的开始和结束时间
- 默认: 关闭(只有句子级时间戳)
- 开启后: 每个词都有独立的时间标记
- 用途:
    - 制作更精确的字幕
    - 语音分析
    - 同步显示文字

// 关闭词级时间戳
{"start": 0.0, "end": 3.5, "text": "今天天气很好"}

// 开启词级时间戳
{"words": [
    {"word": "今天", "start": 0.0, "end": 0.8},
    {"word": "天气", "start": 0.9, "end": 1.5},
    {"word": "很好", "start": 1.6, "end": 2.2}
]}

4. 初始提示 (Initial Prompt)

作用: 提供上下文信息,引导转录方向
- 用途:
    - 指定专业术语
    - 提供背景信息
    - 改善特定领域的转录准确性
- 示例:
"这是一段关于人工智能的技术讲座"
"演讲者在讨论机器学习算法"
"医学会议上的病例讨论"

使用场景建议

普通用户

- 温度: 0.0
- Beam: 5
- 词级时间戳: 关闭
- 初始提示: 空

制作字幕

- 温度: 0.0
- Beam: 8-10
- 词级时间戳: 开启
- 初始提示: 描述内容类型

专业转录

- 温度: 0.0
- Beam: 10
- 词级时间戳: 开启
- 初始提示: 填写专业背景

快速处理

- 温度: 0.0
- Beam: 1-3
- 词级时间戳: 关闭
- 初始提示: 空

这些选项让你能根据具体需求调整Whisper的行为,在速度、质量和功能之间找到最佳平衡点。

请更新你的电脑显卡驱动到最新版本,确保显卡驱动的cuda 版本大于12.9 才能用

openai-whisper视频音频转文本字幕整合包下载地址:

链接:https://pan.quark.cn/s/484a2824c491

解压密码: www.aibl.vip




页: [1]
查看完整版本: openai-whisper视频音频转文本字幕整合包,支持50系列显卡