Update README_zh.md
Browse files- README_zh.md +6 -6
README_zh.md
CHANGED
|
@@ -38,13 +38,13 @@ pipeline_tag: text-to-speech
|
|
| 38 |
<a href="https://audio.z.ai/" target="_blank">🛠️ Audio.Z.AI</a>
|
| 39 |
</p>
|
| 40 |
|
| 41 |
-
##
|
| 42 |
|
| 43 |
GLM-TTS 是一个基于大语言模型(LLM)的高质量文本转语音(TTS)合成系统,支持零样本(Zero-shot)声音克隆和流式推理。该系统采用两阶段架构,结合了用于生成语音 Token 的 LLM 和用于波形合成的 Flow Matching 模型。
|
| 44 |
|
| 45 |
通过引入 **多奖励强化学习(Multi-Reward Reinforcement Learning)** 框架,GLM-TTS 显著提升了生成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。
|
| 46 |
|
| 47 |
-
###
|
| 48 |
|
| 49 |
* **零样本声音克隆 (Zero-shot Voice Cloning):** 仅需 3-10 秒的提示音频即可克隆任意说话人的声音。
|
| 50 |
* **强化学习增强的情感控制 (RL-enhanced Emotion Control):** 利用多奖励强化学习框架(GRPO)优化韵律和情感表达。
|
|
@@ -53,7 +53,7 @@ GLM-TTS 是一个基于大语言模型(LLM)的高质量文本转语音(TTS
|
|
| 53 |
* **流式推理 (Streaming Inference):** 支持适合交互式应用的实时音频生成。
|
| 54 |
* **双语支持 (Bilingual Support):** 针对中英文混合文本进行了专门优化。
|
| 55 |
|
| 56 |
-
##
|
| 57 |
|
| 58 |
GLM-TTS 遵循两阶段设计:
|
| 59 |
|
|
@@ -67,7 +67,7 @@ GLM-TTS 遵循两阶段设计:
|
|
| 67 |
### 强化学习对齐 (Reinforcement Learning Alignment)
|
| 68 |
为了解决情感表达平淡的问题,GLM-TTS 使用 **群组相对策略优化 (GRPO)** 算法,结合多种奖励函数(相似度、CER、情感、笑声)来对齐 LLM 的生成策略。
|
| 69 |
|
| 70 |
-
##
|
| 71 |
|
| 72 |
在 `seed-tts-eval` 基准上进行的评估显示,**GLM-TTS_RL** 在保持高说话人相似度的同时,实现了最低的字符错误率 (CER)。
|
| 73 |
|
|
@@ -79,7 +79,7 @@ GLM-TTS 遵循两阶段设计:
|
|
| 79 |
| **GLM-TTS (Base)** | 1.03 | 76.1 | 👐 是 |
|
| 80 |
| **GLM-TTS_RL (Ours)** | **0.89** | 76.4 | 👐 是 |
|
| 81 |
|
| 82 |
-
##
|
| 83 |
|
| 84 |
### 安装 (Installation)
|
| 85 |
|
|
@@ -105,7 +105,7 @@ python glmtts_inference.py \
|
|
| 105 |
bash glmtts_inference.sh
|
| 106 |
```
|
| 107 |
|
| 108 |
-
##
|
| 109 |
|
| 110 |
我们感谢以下开源项目的支持:
|
| 111 |
|
|
|
|
| 38 |
<a href="https://audio.z.ai/" target="_blank">🛠️ Audio.Z.AI</a>
|
| 39 |
</p>
|
| 40 |
|
| 41 |
+
## 模型介绍
|
| 42 |
|
| 43 |
GLM-TTS 是一个基于大语言模型(LLM)的高质量文本转语音(TTS)合成系统,支持零样本(Zero-shot)声音克隆和流式推理。该系统采用两阶段架构,结合了用于生成语音 Token 的 LLM 和用于波形合成的 Flow Matching 模型。
|
| 44 |
|
| 45 |
通过引入 **多奖励强化学习(Multi-Reward Reinforcement Learning)** 框架,GLM-TTS 显著提升了生成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。
|
| 46 |
|
| 47 |
+
### 核心特性
|
| 48 |
|
| 49 |
* **零样本声音克隆 (Zero-shot Voice Cloning):** 仅需 3-10 秒的提示音频即可克隆任意说话人的声音。
|
| 50 |
* **强化学习增强的情感控制 (RL-enhanced Emotion Control):** 利用多奖励强化学习框架(GRPO)优化韵律和情感表达。
|
|
|
|
| 53 |
* **流式推理 (Streaming Inference):** 支持适合交互式应用的实时音频生成。
|
| 54 |
* **双语支持 (Bilingual Support):** 针对中英文混合文本进行了专门优化。
|
| 55 |
|
| 56 |
+
## 系统架构
|
| 57 |
|
| 58 |
GLM-TTS 遵循两阶段设计:
|
| 59 |
|
|
|
|
| 67 |
### 强化学习对齐 (Reinforcement Learning Alignment)
|
| 68 |
为了解决情感表达平淡的问题,GLM-TTS 使用 **群组相对策略优化 (GRPO)** 算法,结合多种奖励函数(相似度、CER、情感、笑声)来对齐 LLM 的生成策略。
|
| 69 |
|
| 70 |
+
## 评估结果
|
| 71 |
|
| 72 |
在 `seed-tts-eval` 基准上进行的评估显示,**GLM-TTS_RL** 在保持高说话人相似度的同时,实现了最低的字符错误率 (CER)。
|
| 73 |
|
|
|
|
| 79 |
| **GLM-TTS (Base)** | 1.03 | 76.1 | 👐 是 |
|
| 80 |
| **GLM-TTS_RL (Ours)** | **0.89** | 76.4 | 👐 是 |
|
| 81 |
|
| 82 |
+
## 快速开始 (Quick Start)
|
| 83 |
|
| 84 |
### 安装 (Installation)
|
| 85 |
|
|
|
|
| 105 |
bash glmtts_inference.sh
|
| 106 |
```
|
| 107 |
|
| 108 |
+
## 致谢 & 引用
|
| 109 |
|
| 110 |
我们感谢以下开源项目的支持:
|
| 111 |
|