Cocii commited on
Commit
7f6dfa8
·
verified ·
1 Parent(s): 4edc284

Update README_zh.md

Browse files
Files changed (1) hide show
  1. README_zh.md +6 -6
README_zh.md CHANGED
@@ -38,13 +38,13 @@ pipeline_tag: text-to-speech
38
  <a href="https://audio.z.ai/" target="_blank">🛠️ Audio.Z.AI</a>
39
  </p>
40
 
41
- ## 📖 模型介绍
42
 
43
  GLM-TTS 是一个基于大语言模型(LLM)的高质量文本转语音(TTS)合成系统,支持零样本(Zero-shot)声音克隆和流式推理。该系统采用两阶段架构,结合了用于生成语音 Token 的 LLM 和用于波形合成的 Flow Matching 模型。
44
 
45
  通过引入 **多奖励强化学习(Multi-Reward Reinforcement Learning)** 框架,GLM-TTS 显著提升了生成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。
46
 
47
- ### 核心特性
48
 
49
  * **零样本声音克隆 (Zero-shot Voice Cloning):** 仅需 3-10 秒的提示音频即可克隆任意说话人的声音。
50
  * **强化学习增强的情感控制 (RL-enhanced Emotion Control):** 利用多奖励强化学习框架(GRPO)优化韵律和情感表达。
@@ -53,7 +53,7 @@ GLM-TTS 是一个基于大语言模型(LLM)的高质量文本转语音(TTS
53
  * **流式推理 (Streaming Inference):** 支持适合交互式应用的实时音频生成。
54
  * **双语支持 (Bilingual Support):** 针对中英文混合文本进行了专门优化。
55
 
56
- ## 🧠 系统架构
57
 
58
  GLM-TTS 遵循两阶段设计:
59
 
@@ -67,7 +67,7 @@ GLM-TTS 遵循两阶段设计:
67
  ### 强化学习对齐 (Reinforcement Learning Alignment)
68
  为了解决情感表达平淡的问题,GLM-TTS 使用 **群组相对策略优化 (GRPO)** 算法,结合多种奖励函数(相似度、CER、情感、笑声)来对齐 LLM 的生成策略。
69
 
70
- ## 📊 评估结果
71
 
72
  在 `seed-tts-eval` 基准上进行的评估显示,**GLM-TTS_RL** 在保持高说话人相似度的同时,实现了最低的字符错误率 (CER)。
73
 
@@ -79,7 +79,7 @@ GLM-TTS 遵循两阶段设计:
79
  | **GLM-TTS (Base)** | 1.03 | 76.1 | 👐 是 |
80
  | **GLM-TTS_RL (Ours)** | **0.89** | 76.4 | 👐 是 |
81
 
82
- ## 🚀 快速开始 (Quick Start)
83
 
84
  ### 安装 (Installation)
85
 
@@ -105,7 +105,7 @@ python glmtts_inference.py \
105
  bash glmtts_inference.sh
106
  ```
107
 
108
- ## 🙏 致谢 & 引用
109
 
110
  我们感谢以下开源项目的支持:
111
 
 
38
  <a href="https://audio.z.ai/" target="_blank">🛠️ Audio.Z.AI</a>
39
  </p>
40
 
41
+ ## 模型介绍
42
 
43
  GLM-TTS 是一个基于大语言模型(LLM)的高质量文本转语音(TTS)合成系统,支持零样本(Zero-shot)声音克隆和流式推理。该系统采用两阶段架构,结合了用于生成语音 Token 的 LLM 和用于波形合成的 Flow Matching 模型。
44
 
45
  通过引入 **多奖励强化学习(Multi-Reward Reinforcement Learning)** 框架,GLM-TTS 显著提升了生成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。
46
 
47
+ ### 核心特性
48
 
49
  * **零样本声音克隆 (Zero-shot Voice Cloning):** 仅需 3-10 秒的提示音频即可克隆任意说话人的声音。
50
  * **强化学习增强的情感控制 (RL-enhanced Emotion Control):** 利用多奖励强化学习框架(GRPO)优化韵律和情感表达。
 
53
  * **流式推理 (Streaming Inference):** 支持适合交互式应用的实时音频生成。
54
  * **双语支持 (Bilingual Support):** 针对中英文混合文本进行了专门优化。
55
 
56
+ ## 系统架构
57
 
58
  GLM-TTS 遵循两阶段设计:
59
 
 
67
  ### 强化学习对齐 (Reinforcement Learning Alignment)
68
  为了解决情感表达平淡的问题,GLM-TTS 使用 **群组相对策略优化 (GRPO)** 算法,结合多种奖励函数(相似度、CER、情感、笑声)来对齐 LLM 的生成策略。
69
 
70
+ ## 评估结果
71
 
72
  在 `seed-tts-eval` 基准上进行的评估显示,**GLM-TTS_RL** 在保持高说话人相似度的同时,实现了最低的字符错误率 (CER)。
73
 
 
79
  | **GLM-TTS (Base)** | 1.03 | 76.1 | 👐 是 |
80
  | **GLM-TTS_RL (Ours)** | **0.89** | 76.4 | 👐 是 |
81
 
82
+ ## 快速开始 (Quick Start)
83
 
84
  ### 安装 (Installation)
85
 
 
105
  bash glmtts_inference.sh
106
  ```
107
 
108
+ ## 致谢 & 引用
109
 
110
  我们感谢以下开源项目的支持:
111