Qwen3-ASR 是一个先进的自动语音识别模型,支持 52+ 种语言和方言,具有极高的准确率。 本演示展示了 1.7B 模型,该模型提供了卓越的多语言识别能力。
电脑显卡推荐: 英伟达独立显卡 12G
Qwen3-ASR家族包括Qwen3-ASR-1.7B和Qwen3-ASR-0.6B,支持52种语言和方言的语言识别和ASR。两者都利用大规模语音训练数据和其基础模型Qwen3-Omni的强大音频理解能力。实验显示,1.7B版本在开源ASR模型中达到了最先进的性能,并且能够与最强的专有商业API竞争。以下是主要功能: 一体化:Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 支持30种语言和22种中文方言的语言识别和语音识别,能够识别来自多个国家和地区的英语口音。 优秀且快速:Qwen3-ASR家族ASR模型在复杂的声学环境和复杂文本模式下保持高质量且稳健的识别能力。Qwen3-ASR-1.7B 在开源和内部基准测试中均表现出色。虽然0.6B版本实现了准确率高效的权衡,但在128并发时吞吐量达到2000倍。它们都实现了单一模型的流式/离线统一推理,并且支持转录长音频。 新颖且强的强制对齐解决方案:我们推出了Qwen3-ForcedAligner-0.6B,支持在11种语言中对任意单位在最多5分钟的语音时间戳预测。评估显示其时间戳准确性优于基于端对外的强制对齐模型。 全面的推理工具包:除了开源Qwen3-ASR系列的架构和权重外,我们还发布了一个强大且功能齐全的推理框架,支持基于vLLM的批处理推理、异步服务、流式推理、时间戳预测等功能。
[size=1.25em]已发布型号描述与下载
以下是Qwen3-ASR模型的介绍和下载信息。请选择并下载符合您需求的型号。 [td]| 模型 | 支持的语言 | 支持的方言 | 推理模式 | 音频类型 | | Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B | 中文(zh)、英语(en)、粤语(yue)、阿拉伯语(ar)、德语(de)、法语(fr)、西班牙语(es)、葡萄牙语(pt)、印尼语(id)、意大利语(it)、韩语(ko)、俄语(ru)、泰语(th)、越南语(vi)、日语(ja)、土耳其语(tr)、印地语(hi)、马来语(ms)、荷兰语(nl)、瑞典语(sv)、丹麦语(da)、芬兰语(fi)、波兰语(pl)、捷克语(cs)、菲律宾语(fil)、波斯语(fa)、希腊语(el)、匈牙利语(胡) 马其顿(mk)、罗马尼亚(ro) | 安徽、东北、福建、甘肃、贵州、河北、河北、湖南、江西、宁夏、山东、陕西、山西、四川、天津、云南、浙江、粤语(香港口音)、粤语(粤语、粤语、吴语、闽南语)。 | 离线 / 流媒体 | 语音、歌唱、配音乐歌曲 | | Qwen3-强制校正器-0.6B | 中文、英语、粤语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语 | -- | NAR | 演讲 |
Qwen3-ASR音频识别转文本工具解压即用整合包下载地址:
链接:https://pan.quark.cn/s/dcd3c116675d
|