Cocii
/

glmtts-test

@@ -38,13 +38,13 @@ pipeline_tag: text-to-speech
     <a href="https://audio.z.ai/" target="_blank">🛠️ Audio.Z.AI</a>
 </p>
-## 📖 模型介绍
 GLM-TTS 是一个基于大语言模型（LLM）的高质量文本转语音（TTS）合成系统，支持零样本（Zero-shot）声音克隆和流式推理。该系统采用两阶段架构，结合了用于生成语音 Token 的 LLM 和用于波形合成的 Flow Matching 模型。
 通过引入 **多奖励强化学习（Multi-Reward Reinforcement Learning）** 框架，GLM-TTS 显著提升了生成语音的表现力，相比传统 TTS 系统实现了更自然的情感控制。
-### ✨ 核心特性
 * **零样本声音克隆 (Zero-shot Voice Cloning)：** 仅需 3-10 秒的提示音频即可克隆任意说话人的声音。
 * **强化学习增强的情感控制 (RL-enhanced Emotion Control)：** 利用多奖励强化学习框架（GRPO）优化韵律和情感表达。
@@ -53,7 +53,7 @@ GLM-TTS 是一个基于大语言模型（LLM）的高质量文本转语音（TTS
 * **流式推理 (Streaming Inference)：** 支持适合交互式应用的实时音频生成。
 * **双语支持 (Bilingual Support)：** 针对中英文混合文本进行了专门优化。
-## 🧠 系统架构
 GLM-TTS 遵循两阶段设计：
@@ -67,7 +67,7 @@ GLM-TTS 遵循两阶段设计：
 ### 强化学习对齐 (Reinforcement Learning Alignment)
 为了解决情感表达平淡的问题，GLM-TTS 使用 **群组相对策略优化 (GRPO)** 算法，结合多种奖励函数（相似度、CER、情感、笑声）来对齐 LLM 的生成策略。
-## 📊 评估结果
 在 `seed-tts-eval` 基准上进行的评估显示，**GLM-TTS_RL** 在保持高说话人相似度的同时，实现了最低的字符错误率 (CER)。
@@ -79,7 +79,7 @@ GLM-TTS 遵循两阶段设计：
 | **GLM-TTS (Base)** | 1.03 | 76.1 | 👐 是 |
 | **GLM-TTS_RL (Ours)** | **0.89** | 76.4 | 👐 是 |
-## 🚀 快速开始 (Quick Start)
 ### 安装 (Installation)
@@ -105,7 +105,7 @@ python glmtts_inference.py \
 bash glmtts_inference.sh
 ```
-## 🙏 致谢 & 引用
 我们感谢以下开源项目的支持：

     <a href="https://audio.z.ai/" target="_blank">🛠️ Audio.Z.AI</a>
 </p>
+## 模型介绍
 GLM-TTS 是一个基于大语言模型（LLM）的高质量文本转语音（TTS）合成系统，支持零样本（Zero-shot）声音克隆和流式推理。该系统采用两阶段架构，结合了用于生成语音 Token 的 LLM 和用于波形合成的 Flow Matching 模型。
 通过引入 **多奖励强化学习（Multi-Reward Reinforcement Learning）** 框架，GLM-TTS 显著提升了生成语音的表现力，相比传统 TTS 系统实现了更自然的情感控制。
+### 核心特性
 * **零样本声音克隆 (Zero-shot Voice Cloning)：** 仅需 3-10 秒的提示音频即可克隆任意说话人的声音。
 * **强化学习增强的情感控制 (RL-enhanced Emotion Control)：** 利用多奖励强化学习框架（GRPO）优化韵律和情感表达。
 * **流式推理 (Streaming Inference)：** 支持适合交互式应用的实时音频生成。
 * **双语支持 (Bilingual Support)：** 针对中英文混合文本进行了专门优化。
+## 系统架构
 GLM-TTS 遵循两阶段设计：
 ### 强化学习对齐 (Reinforcement Learning Alignment)
 为了解决情感表达平淡的问题，GLM-TTS 使用 **群组相对策略优化 (GRPO)** 算法，结合多种奖励函数（相似度、CER、情感、笑声）来对齐 LLM 的生成策略。
+## 评估结果
 在 `seed-tts-eval` 基准上进行的评估显示，**GLM-TTS_RL** 在保持高说话人相似度的同时，实现了最低的字符错误率 (CER)。
 | **GLM-TTS (Base)** | 1.03 | 76.1 | 👐 是 |
 | **GLM-TTS_RL (Ours)** | **0.89** | 76.4 | 👐 是 |
+## 快速开始 (Quick Start)
 ### 安装 (Installation)
 bash glmtts_inference.sh
 ```
+## 致谢 & 引用
 我们感谢以下开源项目的支持：