Instructions to use MoYoYoTech/VoiceDialogue with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use MoYoYoTech/VoiceDialogue with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-to-speech", model="MoYoYoTech/VoiceDialogue")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("MoYoYoTech/VoiceDialogue", dtype="auto")

llama-cpp-python

How to use MoYoYoTech/VoiceDialogue with llama-cpp-python:

# !pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained(
	repo_id="MoYoYoTech/VoiceDialogue",
	filename="assets/models/llm/qwen/Qwen3-8B-Q6_K.gguf",
)

llm.create_chat_completion(
	messages = "\"The answer to the universe is 42\""
)

Notebooks
Google Colab
Kaggle
Local Apps

llama.cpp

How to use MoYoYoTech/VoiceDialogue with llama.cpp:

Install from brew

brew install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf MoYoYoTech/VoiceDialogue:Q6_K
# Run inference directly in the terminal:
llama-cli -hf MoYoYoTech/VoiceDialogue:Q6_K

Install from WinGet (Windows)

winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf MoYoYoTech/VoiceDialogue:Q6_K
# Run inference directly in the terminal:
llama-cli -hf MoYoYoTech/VoiceDialogue:Q6_K

Use pre-built binary

# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases
# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf MoYoYoTech/VoiceDialogue:Q6_K
# Run inference directly in the terminal:
./llama-cli -hf MoYoYoTech/VoiceDialogue:Q6_K

Build from source code

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf MoYoYoTech/VoiceDialogue:Q6_K
# Run inference directly in the terminal:
./build/bin/llama-cli -hf MoYoYoTech/VoiceDialogue:Q6_K

Use Docker

docker model run hf.co/MoYoYoTech/VoiceDialogue:Q6_K

LM Studio
Jan
Ollama
How to use MoYoYoTech/VoiceDialogue with Ollama:
```
ollama run hf.co/MoYoYoTech/VoiceDialogue:Q6_K
```

Unsloth Studio new

How to use MoYoYoTech/VoiceDialogue with Unsloth Studio:

Install Unsloth Studio (macOS, Linux, WSL)

curl -fsSL https://unsloth.ai/install.sh | sh
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for MoYoYoTech/VoiceDialogue to start chatting

Install Unsloth Studio (Windows)

irm https://unsloth.ai/install.ps1 | iex
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for MoYoYoTech/VoiceDialogue to start chatting

Using HuggingFace Spaces for Unsloth

# No setup required
# Open https://huggingface.co/spaces/unsloth/studio in your browser
# Search for MoYoYoTech/VoiceDialogue to start chatting

Pi new

How to use MoYoYoTech/VoiceDialogue with Pi:

Start the llama.cpp server

# Install llama.cpp:
brew install llama.cpp
# Start a local OpenAI-compatible server:
llama-server -hf MoYoYoTech/VoiceDialogue:Q6_K

Configure the model in Pi

# Install Pi:
npm install -g @mariozechner/pi-coding-agent
# Add to ~/.pi/agent/models.json:
{
  "providers": {
    "llama-cpp": {
      "baseUrl": "http://localhost:8080/v1",
      "api": "openai-completions",
      "apiKey": "none",
      "models": [
        {
          "id": "MoYoYoTech/VoiceDialogue:Q6_K"
        }
      ]
    }
  }
}

Run Pi

# Start Pi in your project directory:
pi

Hermes Agent new

How to use MoYoYoTech/VoiceDialogue with Hermes Agent:

Start the llama.cpp server

# Install llama.cpp:
brew install llama.cpp
# Start a local OpenAI-compatible server:
llama-server -hf MoYoYoTech/VoiceDialogue:Q6_K

Configure Hermes

# Install Hermes:
curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash
hermes setup
# Point Hermes at the local server:
hermes config set model.provider custom
hermes config set model.base_url http://127.0.0.1:8080/v1
hermes config set model.default MoYoYoTech/VoiceDialogue:Q6_K

Run Hermes

hermes

Docker Model Runner
How to use MoYoYoTech/VoiceDialogue with Docker Model Runner:
```
docker model run hf.co/MoYoYoTech/VoiceDialogue:Q6_K
```

Lemonade

How to use MoYoYoTech/VoiceDialogue with Lemonade:

Pull the model

# Download Lemonade from https://lemonade-server.ai/
lemonade pull MoYoYoTech/VoiceDialogue:Q6_K

Run and chat with the model

lemonade run user.VoiceDialogue-Q6_K

List all available models

lemonade list

liumaolin commited on Jun 6, 2025

Commit

710072a

1 Parent(s): 3eb6daa

Update README.md: clarify usage details, add dynamic speaker management, and refine documentation for consistency and completeness.

Browse files

Files changed (1) hide show

README.md +57 -56

README.md CHANGED Viewed

@@ -63,16 +63,16 @@ VoiceDialogue 是一个基于 Python 的完整语音对话系统，实现了端
 - **自定义系统提示词** - 可在代码中配置 AI 助手的行为风格
 ### 🎭 语音合成
-项目集成了两种先进的语音合成技术，提供丰富的音色选择：
 #### GPT-SoVITs 技术（中文角色）
 基于 GPT-SoVITs 的中文语音合成，支持以下角色：
-- **罗翔** - 法学教授风格，具有幽默风趣和深入浅出的讲解风格
-- **马保国** - 太极大师风格，带有标志性的口音和语调特色
-- **沈逸** - 学者风格，具有理性分析风格和富有磁性的嗓音
-- **杨幂** - 明星风格，拥有清甜动人的声线和自然流畅的表达方式
-- **周杰伦** - 歌手风格，具有标志性的说话风格和音乐气质
-- **马云** - 企业家风格，富有激情的演讲风格和商业洞察表达方式
 #### Kokoro TTS 技术（英文角色）
 基于 Kokoro TTS 的英文语音合成，支持以下角色：
@@ -82,8 +82,8 @@ VoiceDialogue 是一个基于 Python 的完整语音对话系统，实现了端
 #### 技术特点
 - **智能引擎选择** - 系统根据内容语言自动选择最适合的TTS引擎
 - **高质量合成** - 采用先进的神经网络技术，生成自然流畅的语音
-- **多角色支持** - 提供多样化的音色选择，满足不同场景需求
 - **可扩展架构** - 模块化设计，方便添加更多语音角色和TTS引擎
 ### ⚙️ 服务模式
@@ -150,11 +150,14 @@ sudo apt update && sudo apt install ffmpeg
 直接在终端进行实时语音对话。
 ```bash
-# 启动语音对话系统 (默认使用中文)
 python src/VoiceDialogue/main.py
 # 指定语言和角色
-python src/VoiceDialogue/main.py --language en --speaker "Yang Mi"
 ```
 **首次运行说明**：
@@ -170,10 +173,15 @@ python src/VoiceDialogue/main.py --language en --speaker "Yang Mi"
 # 启动 API 服务器
 python src/VoiceDialogue/main.py --mode api
-# 指定不同端口
-python src/VoiceDialogue/main.py --mode api --port 9000
 ```
 - API 文档地址: `http://localhost:8000/docs`
 ## ⚙️ 配置选项
@@ -185,12 +193,12 @@ python src/VoiceDialogue/main.py --mode api --port 9000
 |---|---|---|---|---|
 | `--mode` | `-m` | `cli`, `api` | `cli` | 设置运行模式 |
 | `--language`| `-l` | `zh`, `en` | `zh` | (CLI模式) 设置用户语言 |
-| `--speaker` | `-s` | (见下表) | `沈逸` | (CLI模式) 设置TTS语音角色 |
 | `--host` | | IP地址 | `0.0.0.0` | (API模式) 服务器主机 |
 | `--port` | `-p` | 端口号 | `8000` | (API模式) 服务器端口 |
 | `--reload`| | 无 | `False` | (API模式) 启用热重载 |
-**支持的 `speaker` 角色**:
 - 中文角色：`罗翔`, `马保国`, `沈逸`, `杨幂`, `周杰伦`, `马云`
 - 英文角色：`Heart`, `Bella`, `Nicole`
@@ -199,37 +207,19 @@ python src/VoiceDialogue/main.py --mode api --port 9000
 #### 大语言模型 (LLM)
 - **模型路径和参数**: LLM 的模型和推理参数目前在代码中硬编码，方便快速启动。
-- **文件位置**: `src/VoiceDialogue/services/text/text_generator.py`
-- **自定义**: 你可以修改 `LLMResponseGenerator` 类中的 `run` 方法，更换模型路径或调整 `model_params` 字典中的参数（如 `temperature`, `top_k`, `top_p` 等）。
-```python
-# src/VoiceDialogue/services/text/text_generator.py
-# ...
-class LLMResponseGenerator(BaseThread):
-# ...
-    def run(self):
-        # 修改这里的模型路径
-        model_path = paths.MODELS_PATH / 'llm' / 'Qwen2.5-14B-Instruct.Q4_0.gguf'
-        # 修改这里的推理参数
-        model_params = {
-            'streaming': True,
-            'n_gpu_layers': -1,
-            'n_batch': 512,
-            # ...
-        }
-# ...
-```
 #### 语音识别 (ASR)
-- **引擎自动选择**: 系统会根据 `--language` 参数自动选择最合适的 ASR 引擎 (`FunASR` for `zh`, `Whisper` for `en`)。
-- **模型配置**: ASR 模型的具体配置位于 `src/VoiceDialogue/services/speech/asr/manager.py`。
 #### 系统提示词 (System Prompt)
 - **功能**: 定义 AI 角色的行为和说话风格。
-- **文件位置**: `src/VoiceDialogue/services/text/text_generator.py`
-- **自定义**: 你可以修改 `CHINESE_SYSTEM_PROMPT` 和 `ENGLISH_SYSTEM_PROMPT` 变量的值。
 ## 📁 项目结构
@@ -237,32 +227,39 @@ class LLMResponseGenerator(BaseThread):
 VoiceDialogue/
 ├── src/
 │   └── VoiceDialogue/
 │       ├── api/                 # Web API 模块 (FastAPI)
 │       │   ├── app.py           # FastAPI 应用实例
 │       │   ├── server.py        # uvicorn 服务器
-│       │   └── ...              # 路由、依赖、模型等
 │       ├── config/              # 配置管理
-│       │   ├── paths.py         # 路径配置
-│       │   └── settings.py      # 系统设置
 │       ├── models/              # 数据模型和任务
 │       │   ├── language_model.py # 语言模型定义
 │       │   └── voice_task.py    # 语音任务定义
 │       ├── services/            # 服务模块
 │       │   ├── audio/           # 音频处理服务
-│       │   │   ├── aec_audio_capture.py  # 回声消除捕获
-│       │   │   ├── audio_answer.py       # TTS 音频生成
-│       │   │   ├── audio_player.py       # 音频播放
-│       │   │   └── audio_generator/      # TTS 管理器
 │       │   ├── speech/          # 语音识别服务
-│       │   │   ├── speech_monitor.py     # 语音状态监控
-│       │   │   ├── asr_service.py        # ASR 识别服务
-│       │   │   └── asr/                  # ASR 管理器
 │       │   └── text/            # 文本生成服务
-│       │       ├── text_generator.py     # LLM 文本生成
-│       │       └── langchain_llm.py    # LangChain 集成
-│       ├── utils/               # 工具函数
-│       └── main.py              # 主程序入口
-├── models/                      # 预训练模型存储 (自动下载)
 ├── requirements.txt             # Python 依赖
 └── README.md                    # 项目说明文档
 ```
@@ -306,9 +303,9 @@ pip install -U huggingface_hub
 ### 3. 内存不足错误 (OOM)
 - **问题**: `CUDA out of memory` 或 RAM 不足。
-- **解决方案**: LLM 是主要的内存消耗者。你可以通过修改 `src/VoiceDialogue/services/text/text_generator.py` 来降低资源消耗：
-    - **更换模型**: 将 `model_path` 指向一个更小的模型（如 7B Q4 量化模型）。
-    - **减少批处理大小**: 减小 `model_params` 中的 `n_batch` 值（如 `256`）。
     - **减少上下文长度**: 减小 `n_ctx` 的值（如 `1024`）。
 ### 4. 依赖包冲突
@@ -320,6 +317,10 @@ conda env remove -n voicedialogue
 # ... 重新执行安装步骤 ...
 ```
 ## 📄 许可证
 本项目采用 MIT 许可证开源。

 - **自定义系统提示词** - 可在代码中配置 AI 助手的行为风格
 ### 🎭 语音合成
+项目集成了两种先进的语音合成技术，支持动态说话人管理：
 #### GPT-SoVITs 技术（中文角色）
 基于 GPT-SoVITs 的中文语音合成，支持以下角色：
+- **罗翔** (Luo Xiang) - 法学教授风格，具有幽默风趣和深入浅出的讲解风格
+- **马保国** (Ma Baoguo) - 太极大师风格，带有标志性的口音和语调特色
+- **沈逸** (Shen Yi) - 学者风格，具有理性分析风格和富有磁性的嗓音
+- **杨幂** (Yang Mi) - 明星风格，拥有清甜动人的声线和自然流畅的表达方式
+- **周杰伦** (Zhou Jielun) - 歌手风格，具有标志性的说话风格和音乐气质
+- **马云** (Ma Yun) - 企业家风格，富有激情的演讲风格和商业洞察表达方式
 #### Kokoro TTS 技术（英文角色）
 基于 Kokoro TTS 的英文语音合成，支持以下角色：
 #### 技术特点
 - **智能引擎选择** - 系统根据内容语言自动选择最适合的TTS引擎
+- **动态说话人管理** - 支持运行时动态加载和切换说话人
 - **高质量合成** - 采用先进的神经网络技术，生成自然流畅的语音
 - **可扩展架构** - 模块化设计，方便添加更多语音角色和TTS引擎
 ### ⚙️ 服务模式
 直接在终端进行实时语音对话。
 ```bash
+# 启动语音对话系统 (默认使用中文，沈逸角色)
 python src/VoiceDialogue/main.py
 # 指定语言和角色
+python src/VoiceDialogue/main.py --language en --speaker Heart
+# 查看所有可用角色
+python src/VoiceDialogue/main.py --help
 ```
 **首次运行说明**：
 # 启动 API 服务器
 python src/VoiceDialogue/main.py --mode api
+# 指定不同端口和启用热重载
+python src/VoiceDialogue/main.py --mode api --port 9000 --reload
 ```
+**API 服务特性**：
 - API 文档地址: `http://localhost:8000/docs`
+- 支持 TTS 模型管理（查看、加载、删除）
+- 实时模型状态监控
+- RESTful API 设计
 ## ⚙️ 配置选项
 |---|---|---|---|---|
 | `--mode` | `-m` | `cli`, `api` | `cli` | 设置运行模式 |
 | `--language`| `-l` | `zh`, `en` | `zh` | (CLI模式) 设置用户语言 |
+| `--speaker` | `-s` | (动态获取) | `沈逸` | (CLI模式) 设置TTS语音角色 |
 | `--host` | | IP地址 | `0.0.0.0` | (API模式) 服务器主机 |
 | `--port` | `-p` | 端口号 | `8000` | (API模式) 服务器端口 |
 | `--reload`| | 无 | `False` | (API模式) 启用热重载 |
+**支持的说话人角色**（动态加载）:
 - 中文角色：`罗翔`, `马保国`, `沈逸`, `杨幂`, `周杰伦`, `马云`
 - 英文角色：`Heart`, `Bella`, `Nicole`
 #### 大语言模型 (LLM)
 - **模型路径和参数**: LLM 的模型和推理参数目前在代码中硬编码，方便快速启动。
+- **文件���置**: `src/VoiceDialogue/services/text/generator.py`
+- **自定义**: 你可以修改 `LLMResponseGenerator` 类中的配置。
 #### 语音识别 (ASR)
+- **引擎自动选择**: 系统会根据 `--language` 参数自动选择最合适的 ASR 引擎。
+- **模型配置**: ASR 模型的具体配置位于 `src/VoiceDialogue/services/speech/recognizers/manager.py`。
 #### 系统提示词 (System Prompt)
 - **功能**: 定义 AI 角色的行为和说话风格。
+- **文件位置**: `src/VoiceDialogue/services/text/generator.py`
+- **自定义**: 你可以修改系统提示词变量的值。
 ## 📁 项目结构
 VoiceDialogue/
 ├── src/
 │   └── VoiceDialogue/
+│       ├── main.py              # 主程序入口
 │       ├── api/                 # Web API 模块 (FastAPI)
 │       │   ├── app.py           # FastAPI 应用实例
 │       │   ├── server.py        # uvicorn 服务器
+│       │   ├── core/            # 核心配置
+│       │   ├── routes/          # API 路由
+│       │   ├── schemas/         # 数据模型
+│       │   └── middleware/      # 中间件
 │       ├── config/              # 配置管理
+│       │   └── paths.py         # 路径配置
+│       ├── core/                # 核心模块
+│       │   └── constants.py     # 全局常量和队列
 │       ├── models/              # 数据模型和任务
 │       │   ├── language_model.py # 语言模型定义
 │       │   └── voice_task.py    # 语音任务定义
 │       ├── services/            # 服务模块
 │       │   ├── audio/           # 音频处理服务
+│       │   │   ├── capture.py   # 回声消除音频捕获
+│       │   │   ├── player.py    # 音频播放
+│       │   │   ├── generator.py # TTS 音频生成器
+│       │   │   └── generators/  # TTS 引擎管理
 │       │   ├── speech/          # 语音识别服务
+│       │   │   ├── monitor.py   # 语音状态监控
+│       │   │   ├── recognizer.py # ASR 识别服务
+│       │   │   └── recognizers/ # ASR 引擎管理
 │       │   └── text/            # 文本生成服务
+│       │       └── generator.py # LLM 文本生成
+│       └── utils/               # 工具函数
+├── third_party/                 # 第三方库
+│   └── moyoyo_tts/             # GPT-SoVITs TTS 引擎
+├── tests/                       # 测试文件
+├── docs/                        # 文档目录 (空)
+├── assets/                      # 资源文件
 ├── requirements.txt             # Python 依赖
 └── README.md                    # 项目说明文档
 ```
 ### 3. 内存不足错误 (OOM)
 - **问题**: `CUDA out of memory` 或 RAM 不足。
+- **解决方案**: LLM 是主要的内存消耗者。你可以通过修改 `src/VoiceDialogue/services/text/generator.py` 来降低资源消耗：
+    - **更换模型**: 将模型路径指向一个更小的模型（如 7B Q4 量化模型）。
+    - **减少批处理大小**: 减小模型参数中的 `n_batch` 值（如 `256`）。
     - **减少上下文长度**: 减小 `n_ctx` 的值（如 `1024`）。
 ### 4. 依赖包冲突
 # ... 重新执行安装步骤 ...
 ```
+### 5. 说话人角色不存在
+- **问题**: 指定的说话人不在支持列表中。
+- **解决方案**: 使用 `python src/VoiceDialogue/main.py --help` 查看所有可用的说话人角色。
 ## 📄 许可证
 本项目采用 MIT 许可证开源。