AIBL论坛

 找回密码
 立即注册
本论坛所有软件旨在帮助用户创建逼真且有趣的内容,帮助做自媒体的人制作原创有趣的视频或广告,如果使用别人的肖像,使用之前需获得同意和许可(建议使用AI生成的人脸),严禁使用本论坛发布的资源用于不符合当地法律法规的事情
查看: 140|回复: 0

Qwen3-ASR音频识别转文本工具,阿里Qwen出品

[复制链接]
发表于 昨天 16:19 | 显示全部楼层 |阅读模式
Qwen3-ASR 是一个先进的自动语音识别模型,支持 52+ 种语言和方言,具有极高的准确率。 本演示展示了 1.7B 模型,该模型提供了卓越的多语言识别能力。


电脑显卡推荐: 英伟达独立显卡 12G

7.jpg
Qwen3-ASR家族包括Qwen3-ASR-1.7B和Qwen3-ASR-0.6B,支持52种语言和方言的语言识别和ASR。两者都利用大规模语音训练数据和其基础模型Qwen3-Omni的强大音频理解能力。实验显示,1.7B版本在开源ASR模型中达到了最先进的性能,并且能够与最强的专有商业API竞争。以下是主要功能:
  • 一体化:Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 支持30种语言和22种中文方言的语言识别和语音识别,能够识别来自多个国家和地区的英语口音。
  • 优秀且快速:Qwen3-ASR家族ASR模型在复杂的声学环境和复杂文本模式下保持高质量且稳健的识别能力。Qwen3-ASR-1.7B 在开源和内部基准测试中均表现出色。虽然0.6B版本实现了准确率高效的权衡,但在128并发时吞吐量达到2000倍。它们都实现了单一模型的流式/离线统一推理,并且支持转录长音频。
  • 新颖且强的强制对齐解决方案:我们推出了Qwen3-ForcedAligner-0.6B,支持在11种语言中对任意单位在最多5分钟的语音时间戳预测。评估显示其时间戳准确性优于基于端对外的强制对齐模型。
  • 全面的推理工具包:除了开源Qwen3-ASR系列的架构和权重外,我们还发布了一个强大且功能齐全的推理框架,支持基于vLLM的批处理推理、异步服务、流式推理、时间戳预测等功能。

[size=1.25em]已发布型号描述与下载

以下是Qwen3-ASR模型的介绍和下载信息。请选择并下载符合您需求的型号。
[td]
模型支持的语言支持的方言推理模式音频类型
Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B中文(zh)、英语(en)、粤语(yue)、阿拉伯语(ar)、德语(de)、法语(fr)、西班牙语(es)、葡萄牙语(pt)、印尼语(id)、意大利语(it)、韩语(ko)、俄语(ru)、泰语(th)、越南语(vi)、日语(ja)、土耳其语(tr)、印地语(hi)、马来语(ms)、荷兰语(nl)、瑞典语(sv)、丹麦语(da)、芬兰语(fi)、波兰语(pl)、捷克语(cs)、菲律宾语(fil)、波斯语(fa)、希腊语(el)、匈牙利语(胡) 马其顿(mk)、罗马尼亚(ro)安徽、东北、福建、甘肃、贵州、河北、河北、湖南、江西、宁夏、山东、陕西、山西、四川、天津、云南、浙江、粤语(香港口音)、粤语(粤语、粤语、吴语、闽南语)。离线 / 流媒体语音、歌唱、配音乐歌曲
Qwen3-强制校正器-0.6B中文、英语、粤语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语--NAR演讲



Qwen3-ASR音频识别转文本工具解压即用整合包下载地址:

链接:https://pan.quark.cn/s/dcd3c116675d




AIBL论坛免责申明
本论坛刊载的所有内容,包括图片、软件、模型等均在网上搜集。
论坛提供的内容仅用于个人学习、研究或欣赏。我们不保证内容的正确性。通过使用本站内容随之而来的风险与本站无关
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|AIBL论坛

GMT+8, 2026-2-1 18:27 , Processed in 0.041393 second(s), 25 queries , Gzip On.

Powered by AI技术论坛 X3.5

© 2001-2026 dfl论坛

快速回复 返回顶部 返回列表