Create README_zh.md
Browse files- README_zh.md +78 -0
README_zh.md
ADDED
|
@@ -0,0 +1,78 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
language:
|
| 3 |
+
- zh
|
| 4 |
+
- en
|
| 5 |
+
tags:
|
| 6 |
+
- llm
|
| 7 |
+
- tts
|
| 8 |
+
- zero-shot
|
| 9 |
+
- voice-cloning
|
| 10 |
+
- reinforcement-learning
|
| 11 |
+
- flow-matching
|
| 12 |
+
license: mit
|
| 13 |
+
pipeline_tag: text-to-speech
|
| 14 |
+
---
|
| 15 |
+
|
| 16 |
+
# GLM-TTS: 可控且富含情感的零样本语音合成模型
|
| 17 |
+
|
| 18 |
+
<div align="center">
|
| 19 |
+
<img src="assets/images/logo.svg" width="50%"/>
|
| 20 |
+
</div>
|
| 21 |
+
|
| 22 |
+
<p align="center">
|
| 23 |
+
<a href="https://github.com/zai-org/GLM-TTS" target="_blank">💻 GitHub 仓库</a>
|
| 24 |
+
|
|
| 25 |
+
<a href="https://huggingface.co/spaces/zai-org/GLM-TTS" target="_blank">🤗 在线演示 (Demo)</a>
|
| 26 |
+
|
|
| 27 |
+
<a href="https://audio.z.ai/" target="_blank">🛠️ Audio.Z.AI</a>
|
| 28 |
+
</p>
|
| 29 |
+
|
| 30 |
+
## 📖 模型介绍
|
| 31 |
+
|
| 32 |
+
GLM-TTS 是一个基于大语言模型(LLM)的高质量文本转语音(TTS)合成系统,支持零样本(Zero-shot)声音克隆和流式推理。该系统采用两阶段架构,结合了用于生成语音 Token 的 LLM 和用于波形合成的 Flow Matching 模型。
|
| 33 |
+
|
| 34 |
+
通过引入 **多奖励强化学习(Multi-Reward Reinforcement Learning)** 框架,GLM-TTS 显著提升了生成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。
|
| 35 |
+
|
| 36 |
+
### ✨ 核心特性
|
| 37 |
+
|
| 38 |
+
* **零样本声音克隆 (Zero-shot Voice Cloning):** 仅需 3-10 秒的提示音频即可克隆任意说话人的声音。
|
| 39 |
+
* **强化学习增强的情感控制 (RL-enhanced Emotion Control):** 利用多奖励强化学习框架(GRPO)优化韵律和情感表达。
|
| 40 |
+
* **高质量合成 (High-quality Synthesis):** 生成的语音质量媲美商业系统,且字符错误率(CER)更低。
|
| 41 |
+
* **音素级控制 (Phoneme-level Control):** 支持“混合音素 + 文本”输入,以实现精准的发音控制(例如多音字处理)。
|
| 42 |
+
* **流式推理 (Streaming Inference):** 支持适合交互式应用的实时音频生成。
|
| 43 |
+
* **双语支持 (Bilingual Support):** 针对中英文混合文本进行了专门优化。
|
| 44 |
+
|
| 45 |
+
## 🧠 系统架构
|
| 46 |
+
|
| 47 |
+
GLM-TTS 遵循两阶段设计:
|
| 48 |
+
|
| 49 |
+
1. **第一阶段 (Stage 1 - LLM):** 基于 Llama 的模型将输入文本转换为语音 Token 序列。
|
| 50 |
+
2. **第二阶段 (Stage 2 - Flow Matching):** Flow 模型将 Token 序列转换为高质量的梅尔频谱图 (Mel-spectrograms),随后通过声码器 (Vocoder) 转换为波形。
|
| 51 |
+
|
| 52 |
+
<div align="center">
|
| 53 |
+
<img src="assets/images/architecture.png" width="60%" alt="GLM-TTS 架构图">
|
| 54 |
+
</div>
|
| 55 |
+
|
| 56 |
+
### 强化学习对齐 (Reinforcement Learning Alignment)
|
| 57 |
+
为了解决情感表达平淡的问题,GLM-TTS 使用 **群组相对策略优化 (GRPO)** 算法,结合多种奖励函数(相似度、CER、情感、笑声)来对齐 LLM 的生成策略。
|
| 58 |
+
|
| 59 |
+
## 📊 评估结果
|
| 60 |
+
|
| 61 |
+
在 `seed-tts-eval` 基准上进行的评估显示,**GLM-TTS_RL** 在保持高说话人相似度的同时,实现了最低的字符错误率 (CER)。
|
| 62 |
+
|
| 63 |
+
| 模型 (Model) | CER ↓ | SIM ↑ | 是否开源 (Open-source) |
|
| 64 |
+
| :--- | :---: | :---: | :---: |
|
| 65 |
+
| Seed-TTS | 1.12 | **79.6** | 🔒 否 |
|
| 66 |
+
| CosyVoice2 | 1.38 | 75.7 | 👐 是 |
|
| 67 |
+
| F5-TTS | 1.53 | 76.0 | 👐 是 |
|
| 68 |
+
| **GLM-TTS (Base)** | 1.03 | 76.1 | 👐 是 |
|
| 69 |
+
| **GLM-TTS_RL (Ours)** | **0.89** | 76.4 | 👐 是 |
|
| 70 |
+
|
| 71 |
+
## 🚀 快速开始 (Quick Start)
|
| 72 |
+
|
| 73 |
+
### 安装 (Installation)
|
| 74 |
+
|
| 75 |
+
```bash
|
| 76 |
+
git clone [https://github.com/zai-org/GLM-TTS.git](https://github.com/zai-org/GLM-TTS.git)
|
| 77 |
+
cd GLM-TTS
|
| 78 |
+
pip install -r requirements.txt
|