Qwen3-TTS 支持 10 种主要语言(中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文)以及多种方言音色,以满足全球化的应用需求。此外,该模型具备强大的上下文理解能力,可根据指令和文本语义自适应地控制语调、语速和情感表达,并在面对含噪声的输入文本时展现出显著增强的鲁棒性。主要特性包括:
- 强大的语音表征能力:基于自研的 Qwen3-TTS-Tokenizer-12Hz,实现了高效的声学压缩与高维语义建模。完整保留了副语言信息和声学环境特征,通过轻量级非 DiT 架构即可实现高速、高保真的语音重建。
- 通用端到端架构:采用离散多码本语言模型(LM)架构,实现全信息端到端语音建模。彻底规避了传统 LM+DiT 方案固有的信息瓶颈和级联误差问题,显著提升了模型的通用性、生成效率和性能上限。
- 极致低延迟流式生成:基于创新的 Dual-Track 混合流式生成架构,单个模型同时支持流式与非流式生成。在输入单个字符后即可立即输出首个音频包,端到端合成延迟低至 97ms,满足实时交互场景的严苛要求。
- 智能文本理解与语音控制:支持由自然语言指令驱动的语音生成,可灵活控制音色、情感、韵律等多维度声学属性。通过深度融合文本语义理解,模型能自适应调整语调、节奏和情感表达,实现“所想即所听”的拟真输出。
更多介绍: https://modelscope.cn/models/Qwen/Qwen3-TTS-12Hz-1.7B-Base
github仓库:https://github.com/QwenLM/Qwen3-TTS
已发布模型说明与下载
以下为已发布的 Qwen3-TTS 模型的介绍与下载信息。技术报告中提到的其他模型将在近期陆续发布。请根据您的需求选择并下载合适的模型。 [td]| Tokenizer 名称 | 描述 | | Qwen3-TTS-Tokenizer-12Hz | Qwen3-TTS-Tokenizer-12Hz 模型,可将输入语音编码为 codes 并解码还原为语音。 | [td]| 模型 | 特性 | 语言支持 | 流式生成 | 指令控制 | | Qwen3-TTS-12Hz-1.7B-VoiceDesign | 根据用户提供的描述进行音色设计。 | 中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文 | ✅ | ✅ | | Qwen3-TTS-12Hz-1.7B-CustomVoice | 通过用户指令对目标音色进行风格控制;支持 9 种优质音色,涵盖性别、年龄、语言和方言的多种组合。 | 中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文 | ✅ | ✅ | | Qwen3-TTS-12Hz-1.7B-Base | 基础模型,支持从用户提供的 3 秒音频快速克隆音色;可用于微调(FT)其他模型。 | 中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文 | ✅ | | | Qwen3-TTS-12Hz-0.6B-CustomVoice | 支持 9 种优质音色,涵盖性别、年龄、语言和方言的多种组合。 | 中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文 | ✅ | | | Qwen3-TTS-12Hz-0.6B-Base | 基础模型,支持从用户提供的 3 秒音频快速克隆音色;可用于微调(FT)其他模型。 | 中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文 | ✅ | |
对于 Qwen3-TTS-12Hz-1.7B/0.6B-CustomVoice 模型,支持的说话人列表及其语音描述如下所示。我们建议使用每位说话人的母语以获得最佳音质。当然,每位说话人都可以说出模型支持的任意语言。 [td]| 说话人 | 语音描述 | 母语 | | Vivian | 明亮、略带锐利感的年轻女声。 | 中文 | | Serena | 温暖柔和的年轻女声。 | 中文 | | Uncle_Fu | 音色低沉醇厚的成熟男声。 | 中文 | | Dylan | 清晰自然的北京青年男声。 | 中文(北京方言) | | Eric | 活泼、略带沙哑明亮感的成都男声。 | 中文(四川方言) | | Ryan | 富有节奏感的动感男声。 | 英语 | | Aiden | 阳光、中频清晰的美式男声。 | 英语 | | Ono_Anna | 轻快灵巧的俏皮日语女声。 | 日语 | | Sohee | 情感丰富的温暖韩语女声。 | 韩语 | 语音设计对于语音设计模型(Qwen3-TTS-12Hz-1.7B-VoiceDesign),你可以使用 generate_voice_design 提供目标文本和自然语言形式的 instruct 描述。
Qwen3-TTS音频克隆生成工具解压即用整合包下载链接:
链接:https://pan.quark.cn/s/9562a7fe9ee8
项目刚发布, 还不太稳定, 大家下载先用着,等过几天稳定了,我再更新最新版本
|