Cocii commited on
Commit
81f3029
·
verified ·
1 Parent(s): 9053f3d

Create README_zh.md

Browse files
Files changed (1) hide show
  1. README_zh.md +78 -0
README_zh.md ADDED
@@ -0,0 +1,78 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - zh
4
+ - en
5
+ tags:
6
+ - llm
7
+ - tts
8
+ - zero-shot
9
+ - voice-cloning
10
+ - reinforcement-learning
11
+ - flow-matching
12
+ license: mit
13
+ pipeline_tag: text-to-speech
14
+ ---
15
+
16
+ # GLM-TTS: 可控且富含情感的零样本语音合成模型
17
+
18
+ <div align="center">
19
+ <img src="assets/images/logo.svg" width="50%"/>
20
+ </div>
21
+
22
+ <p align="center">
23
+ <a href="https://github.com/zai-org/GLM-TTS" target="_blank">💻 GitHub 仓库</a>
24
+ &nbsp;&nbsp;|&nbsp;&nbsp;
25
+ <a href="https://huggingface.co/spaces/zai-org/GLM-TTS" target="_blank">🤗 在线演示 (Demo)</a>
26
+ &nbsp;&nbsp;|&nbsp;&nbsp;
27
+ <a href="https://audio.z.ai/" target="_blank">🛠️ Audio.Z.AI</a>
28
+ </p>
29
+
30
+ ## 📖 模型介绍
31
+
32
+ GLM-TTS 是一个基于大语言模型(LLM)的高质量文本转语音(TTS)合成系统,支持零样本(Zero-shot)声音克隆和流式推理。该系统采用两阶段架构,结合了用于生成语音 Token 的 LLM 和用于波形合成的 Flow Matching 模型。
33
+
34
+ 通过引入 **多奖励强化学习(Multi-Reward Reinforcement Learning)** 框架,GLM-TTS 显著提升了生成语音的表现力,相比传统 TTS 系统实现了更自然的情感控制。
35
+
36
+ ### ✨ 核心特性
37
+
38
+ * **零样本声音克隆 (Zero-shot Voice Cloning):** 仅需 3-10 秒的提示音频即可克隆任意说话人的声音。
39
+ * **强化学习增强的情感控制 (RL-enhanced Emotion Control):** 利用多奖励强化学习框架(GRPO)优化韵律和情感表达。
40
+ * **高质量合成 (High-quality Synthesis):** 生成的语音质量媲美商业系统,且字符错误率(CER)更低。
41
+ * **音素级控制 (Phoneme-level Control):** 支持“混合音素 + 文本”输入,以实现精准的发音控制(例如多音字处理)。
42
+ * **流式推理 (Streaming Inference):** 支持适合交互式应用的实时音频生成。
43
+ * **双语支持 (Bilingual Support):** 针对中英文混合文本进行了专门优化。
44
+
45
+ ## 🧠 系统架构
46
+
47
+ GLM-TTS 遵循两阶段设计:
48
+
49
+ 1. **第一阶段 (Stage 1 - LLM):** 基于 Llama 的模型将输入文本转换为语音 Token 序列。
50
+ 2. **第二阶段 (Stage 2 - Flow Matching):** Flow 模型将 Token 序列转换为高质量的梅尔频谱图 (Mel-spectrograms),随后通过声码器 (Vocoder) 转换为波形。
51
+
52
+ <div align="center">
53
+ <img src="assets/images/architecture.png" width="60%" alt="GLM-TTS 架构图">
54
+ </div>
55
+
56
+ ### 强化学习对齐 (Reinforcement Learning Alignment)
57
+ 为了解决情感表达平淡的问题,GLM-TTS 使用 **群组相对策略优化 (GRPO)** 算法,结合多种奖励函数(相似度、CER、情感、笑声)来对齐 LLM 的生成策略。
58
+
59
+ ## 📊 评估结果
60
+
61
+ 在 `seed-tts-eval` 基准上进行的评估显示,**GLM-TTS_RL** 在保持高说话人相似度的同时,实现了最低的字符错误率 (CER)。
62
+
63
+ | 模型 (Model) | CER ↓ | SIM ↑ | 是否开源 (Open-source) |
64
+ | :--- | :---: | :---: | :---: |
65
+ | Seed-TTS | 1.12 | **79.6** | 🔒 否 |
66
+ | CosyVoice2 | 1.38 | 75.7 | 👐 是 |
67
+ | F5-TTS | 1.53 | 76.0 | 👐 是 |
68
+ | **GLM-TTS (Base)** | 1.03 | 76.1 | 👐 是 |
69
+ | **GLM-TTS_RL (Ours)** | **0.89** | 76.4 | 👐 是 |
70
+
71
+ ## 🚀 快速开始 (Quick Start)
72
+
73
+ ### 安装 (Installation)
74
+
75
+ ```bash
76
+ git clone [https://github.com/zai-org/GLM-TTS.git](https://github.com/zai-org/GLM-TTS.git)
77
+ cd GLM-TTS
78
+ pip install -r requirements.txt