meiyouruguo 发表于 昨天 20:45

FireRedASR2S视频音频转录识别成srt字幕文本工具

FireRedASR2S 是一款最先进的(SOTA)、工业级一体化 ASR 系统,配备 ASR、VAD、LID 和 Punc 模块。所有模块均实现SOTA性能:
[*]FireRedASR2:自动语音识别(ASR),支持中文(普通话、20+方言/口音)、英语、代码切换和歌词识别。普通话(4个测试集)平均CER为2.89%,汉语方言(19个测试)为11.55%,优于豆宝ASR、Qwen3-ASR-1.7B、Fun-ASR和Fun-ASR-Nano-2512。FireRedASR2-AED 还支持字级时间戳和置信度评分。
[*]FireRedVAD:支持100+语言语音/歌唱/音乐的语音活动检测(VAD)。97.57%的F1表现优于Silero-VAD、TEN-VAD和FunASR-VAD。支持非流媒体/流媒体VAD和音频事件检测。
[*]FireRedLID:口语识别(LID),支持100+种语言和20+种中文方言/口音。准确率97.18%,优于Whisper和SpeechBrain-LID。
[*]FireRedPunc:中文和英文的标点预测(Punc)。78.90%的平均F1表现优于FunASR-Punc(62.77%)。



FireRedASR2S视频音频转录识别成srt字幕文本工具下载地址:
链接:https://pan.quark.cn/s/c9813896824c
解压密码: www.aibl.vip

markczc 发表于 昨天 22:37

谢谢大佬分享!

jandown 发表于 22 分钟前

一个asr,为什么模型那么大?
页: [1]
查看完整版本: FireRedASR2S视频音频转录识别成srt字幕文本工具