Instructions to use MoYoYoTech/VoiceDialogue with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use MoYoYoTech/VoiceDialogue with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-to-speech", model="MoYoYoTech/VoiceDialogue")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("MoYoYoTech/VoiceDialogue", dtype="auto")

llama-cpp-python

How to use MoYoYoTech/VoiceDialogue with llama-cpp-python:

# !pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained(
	repo_id="MoYoYoTech/VoiceDialogue",
	filename="assets/models/llm/qwen/Qwen3-8B-Q6_K.gguf",
)

llm.create_chat_completion(
	messages = "\"The answer to the universe is 42\""
)

Notebooks
Google Colab
Kaggle
Local Apps Settings

llama.cpp

How to use MoYoYoTech/VoiceDialogue with llama.cpp:

Install (macOS, Linux)

curl -LsSf https://llama.app/install.sh | sh
# Start a local OpenAI-compatible server with a web UI:
llama serve -hf MoYoYoTech/VoiceDialogue:Q6_K
# Run inference directly in the terminal:
llama cli -hf MoYoYoTech/VoiceDialogue:Q6_K

Install from WinGet (Windows)

winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama serve -hf MoYoYoTech/VoiceDialogue:Q6_K
# Run inference directly in the terminal:
llama cli -hf MoYoYoTech/VoiceDialogue:Q6_K

Use pre-built binary

# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases
# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf MoYoYoTech/VoiceDialogue:Q6_K
# Run inference directly in the terminal:
./llama-cli -hf MoYoYoTech/VoiceDialogue:Q6_K

Build from source code

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf MoYoYoTech/VoiceDialogue:Q6_K
# Run inference directly in the terminal:
./build/bin/llama-cli -hf MoYoYoTech/VoiceDialogue:Q6_K

Use Docker

docker model run hf.co/MoYoYoTech/VoiceDialogue:Q6_K

LM Studio
Jan
Ollama
How to use MoYoYoTech/VoiceDialogue with Ollama:
```
ollama run hf.co/MoYoYoTech/VoiceDialogue:Q6_K
```

Unsloth Studio

How to use MoYoYoTech/VoiceDialogue with Unsloth Studio:

Install Unsloth Studio (macOS, Linux, WSL)

curl -fsSL https://unsloth.ai/install.sh | sh
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for MoYoYoTech/VoiceDialogue to start chatting

Install Unsloth Studio (Windows)

irm https://unsloth.ai/install.ps1 | iex
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for MoYoYoTech/VoiceDialogue to start chatting

Using HuggingFace Spaces for Unsloth

# No setup required
# Open https://huggingface.co/spaces/unsloth/studio in your browser
# Search for MoYoYoTech/VoiceDialogue to start chatting

How to use MoYoYoTech/VoiceDialogue with Pi:

Start the llama.cpp server

# Install llama.cpp:
brew install llama.cpp
# Start a local OpenAI-compatible server:
llama serve -hf MoYoYoTech/VoiceDialogue:Q6_K

Configure the model in Pi

# Install Pi:
npm install -g @mariozechner/pi-coding-agent
# Add to ~/.pi/agent/models.json:
{
  "providers": {
    "llama-cpp": {
      "baseUrl": "http://localhost:8080/v1",
      "api": "openai-completions",
      "apiKey": "none",
      "models": [
        {
          "id": "MoYoYoTech/VoiceDialogue:Q6_K"
        }
      ]
    }
  }
}

Run Pi

# Start Pi in your project directory:
pi

Hermes Agent new

How to use MoYoYoTech/VoiceDialogue with Hermes Agent:

Start the llama.cpp server

# Install llama.cpp:
brew install llama.cpp
# Start a local OpenAI-compatible server:
llama serve -hf MoYoYoTech/VoiceDialogue:Q6_K

Configure Hermes

# Install Hermes:
curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash
hermes setup
# Point Hermes at the local server:
hermes config set model.provider custom
hermes config set model.base_url http://127.0.0.1:8080/v1
hermes config set model.default MoYoYoTech/VoiceDialogue:Q6_K

Run Hermes

hermes

Atomic Chat new

OpenClaw new

How to use MoYoYoTech/VoiceDialogue with OpenClaw:

Start the llama.cpp server

# Install llama.cpp:
brew install llama.cpp
# Start a local OpenAI-compatible server:
llama serve -hf MoYoYoTech/VoiceDialogue:Q6_K

Configure OpenClaw

# Install OpenClaw:
npm install -g openclaw@latest
# Register the local server and set it as the default model:
openclaw onboard --non-interactive --mode local \
  --auth-choice custom-api-key \
  --custom-base-url http://127.0.0.1:8080/v1 \
  --custom-model-id "MoYoYoTech/VoiceDialogue:Q6_K" \
  --custom-provider-id llama-cpp \
  --custom-compatibility openai \
  --custom-text-input \
  --accept-risk \
  --skip-health

Run OpenClaw

openclaw agent --local --agent main --message "Hello from Hugging Face"

Docker Model Runner
How to use MoYoYoTech/VoiceDialogue with Docker Model Runner:
```
docker model run hf.co/MoYoYoTech/VoiceDialogue:Q6_K
```

Lemonade

How to use MoYoYoTech/VoiceDialogue with Lemonade:

Pull the model

# Download Lemonade from https://lemonade-server.ai/
lemonade pull MoYoYoTech/VoiceDialogue:Q6_K

Run and chat with the model

lemonade run user.VoiceDialogue-Q6_K

List all available models

lemonade list

liumaolin commited on Jun 10, 2025

Commit

511ff0c

1 Parent(s): 6eec50d

Rename 'src/VoiceDialogue' to 'src/voice_dialogue'.

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

main.py +349 -0
src/VoiceDialogue/services/text/__init__.py +0 -0
src/voice_dialogue/__init__.py +14 -0
src/{VoiceDialogue → voice_dialogue/api}/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/app.py +1 -1
src/{VoiceDialogue → voice_dialogue}/api/core/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/core/config.py +2 -1
src/{VoiceDialogue → voice_dialogue}/api/core/lifespan.py +2 -2
src/{VoiceDialogue → voice_dialogue}/api/core/service_factories.py +5 -5
src/{VoiceDialogue → voice_dialogue}/api/core/service_manager.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/dependencies/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/dependencies/audio_deps.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/middleware/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/middleware/logging.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/middleware/rate_limit.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/routes/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/routes/asr_routes.py +1 -1
src/{VoiceDialogue → voice_dialogue}/api/routes/system_routes.py +1 -1
src/{VoiceDialogue → voice_dialogue}/api/routes/tts_routes.py +1 -1
src/{VoiceDialogue → voice_dialogue}/api/routes/websocket_routes.py +1 -1
src/{VoiceDialogue → voice_dialogue}/api/schemas/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/schemas/asr_schemas.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/schemas/system_schemas.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/schemas/tts_schemas.py +2 -1
src/{VoiceDialogue → voice_dialogue}/api/schemas/voice_schemas.py +0 -0
src/{VoiceDialogue → voice_dialogue}/api/server.py +0 -0
src/{VoiceDialogue/api → voice_dialogue/config}/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/config/paths.py +0 -0
src/{VoiceDialogue/config → voice_dialogue/core}/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/core/base.py +0 -0
src/{VoiceDialogue → voice_dialogue}/core/constants.py +1 -1
src/{VoiceDialogue → voice_dialogue}/core/enums.py +0 -0
src/{VoiceDialogue → voice_dialogue}/core/session_manager.py +0 -0
src/{VoiceDialogue → voice_dialogue}/core/state_manager.py +1 -1
src/{VoiceDialogue → voice_dialogue}/main.py +0 -0
src/{VoiceDialogue → voice_dialogue}/models/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/models/voice_task.py +0 -0
src/{VoiceDialogue/core → voice_dialogue/services}/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/services/audio/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/services/audio/capture.py +2 -2
src/{VoiceDialogue → voice_dialogue}/services/audio/generator.py +3 -3
src/{VoiceDialogue → voice_dialogue}/services/audio/generators/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/services/audio/generators/configs/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/services/audio/generators/configs/kokoro.py +0 -0
src/{VoiceDialogue → voice_dialogue}/services/audio/generators/configs/moyoyo.py +1 -1
src/{VoiceDialogue → voice_dialogue}/services/audio/generators/manager.py +0 -0
src/{VoiceDialogue → voice_dialogue}/services/audio/generators/models/__init__.py +0 -0
src/{VoiceDialogue → voice_dialogue}/services/audio/generators/models/base.py +0 -0
src/{VoiceDialogue → voice_dialogue}/services/audio/generators/models/kokoro.py +1 -1
src/{VoiceDialogue → voice_dialogue}/services/audio/generators/models/moyoyo.py +2 -2

main.py ADDED Viewed

	@@ -0,0 +1,349 @@

+import argparse
+import sys
+import time
+import typing
+from pathlib import Path
+import uvicorn
+HERE = Path(__file__).parent
+lib_path = HERE / "src"
+if lib_path.as_posix() not in sys.path:
+    sys.path.insert(0, lib_path.as_posix())
+from voice_dialogue.core.constants import (
+    audio_frames_queue,
+    user_voice_queue,
+    transcribed_text_queue,
+    text_input_queue,
+    audio_output_queue
+)
+from voice_dialogue.services.audio.capture import EchoCancellingAudioCapture
+from voice_dialogue.services.audio.generator import TTSAudioGenerator
+from voice_dialogue.services.audio.generators.models import tts_config_registry
+from voice_dialogue.services.audio.player import AudioStreamPlayer
+from voice_dialogue.services.speech.monitor import SpeechStateMonitor
+from voice_dialogue.services.speech.recognizer import ASRWorker
+from voice_dialogue.services.text.generator import LLMResponseGenerator
+language: typing.Literal['zh', 'en'] = 'en'
+def launch_system(
+        user_language: str,
+        speaker: str
+) -> None:
+    """
+    启动完整的语音对话系统
+    该函数负责启动并协调语音对话系统的所有组件，包括音频采集、语音识别、
+    文本生成、语音合成和音频播放等功能模块。系统采用多线程架构，各组件
+    通过队列进行数据传递和通信。
+    系统工作流程：
+    1. 音频采集：EchoCancellingAudioCapture 采集用户语音并进行回声消除
+    2. 语音监测：SpeechStateMonitor 检测用户是否在说话
+    3. 语音识别：ASRWorker 将用户语音转换为文本
+    4. 文本生成：LLMResponseGenerator 基于用户问题生成AI回答
+    5. 语音合成：TTSAudioGenerator 将AI回答转换为语音
+    6. 音频播放：AudioStreamPlayer 播放生成的语音
+    Args:
+        user_language (str): 用户语言，支持 'zh'（中文）和 'en'（英文）
+        speaker (str): 语音合成使用的说话人，支持：
+                      '罗翔', '马保国', '沈逸', '杨幂', '周杰伦', '马云'
+    Raises:
+        ValueError: 当指定的说话人不在支持列表中时抛出异常
+    Returns:
+        None: 函数会一直运行直到所有线程结束
+    Note:
+        该函数会阻塞运行，直到系统被外部停止或发生异常
+    """
+    threads = []
+    #
+    audio_frame_probe = EchoCancellingAudioCapture(audio_frames_queue=audio_frames_queue)
+    audio_frame_probe.start()
+    threads.append(audio_frame_probe)
+    #
+    user_voice_checker = SpeechStateMonitor(
+        audio_frame_queue=audio_frames_queue,
+        user_voice_queue=user_voice_queue,
+    )
+    user_voice_checker.start()
+    threads.append(user_voice_checker)
+    #
+    whisper_worker = ASRWorker(
+        user_voice_queue=user_voice_queue, transcribed_text_queue=transcribed_text_queue,
+        language=user_language
+    )
+    whisper_worker.start()
+    threads.append(whisper_worker)
+    answer_generator_worker = LLMResponseGenerator(
+        user_question_queue=transcribed_text_queue,
+        generated_answer_queue=text_input_queue
+    )
+    answer_generator_worker.start()
+    threads.append(answer_generator_worker)
+    # 动态获取TTS配置，而不是使用固定映射
+    tts_speaker_config = _get_tts_config_by_speaker_name(speaker)
+    if tts_speaker_config is None:
+        # 如果找不到指定说话人，列出所有可用说话人并抛出异常
+        available_speakers = _get_available_speaker_names()
+        raise ValueError(f"不支持的TTS说话人: {speaker}。可用说话人: {', '.join(available_speakers)}")
+    audio_generator_worker = TTSAudioGenerator(
+        text_input_queue=text_input_queue,
+        audio_output_queue=audio_output_queue,
+        tts_config=tts_speaker_config
+    )
+    audio_generator_worker.start()
+    threads.append(audio_generator_worker)
+    audio_playing_worker = AudioStreamPlayer(audio_playing_queue=audio_output_queue)
+    audio_playing_worker.start()
+    threads.append(audio_playing_worker)
+    while not all([thread.is_ready for thread in threads]):
+        time.sleep(0.1)
+    # audio_frame_probe.start_record()
+    print(f'{"=" * 80}\n服务启动成功\n{"=" * 80}')
+    for thread in threads:
+        thread.join()
+def _get_tts_config_by_speaker_name(speaker_name: str):
+    """
+    根据说话人名称获取TTS配置
+    支持中文名称和英文名称，优先匹配中文名称映射，
+    如果找不到则直接使用英文名称搜索
+    Args:
+        speaker_name (str): 说话人名称
+    Returns:
+        BaseTTSConfig: TTS配置，如果找不到则返回None
+    """
+    # 中文名称到英文名称的映射（保持向后兼容）
+    chinese_to_english_mapping = {
+        '罗翔': 'Luo Xiang',
+        '马保国': 'Ma Baoguo',
+        '沈逸': 'Shen Yi',
+        '杨幂': 'Yang Mi',
+        '周杰伦': 'Zhou Jielun',
+        '马云': 'Ma Yun',
+    }
+    # 首先尝试中文名称映射
+    english_name = chinese_to_english_mapping.get(speaker_name, speaker_name)
+    # 获取所有可用配置
+    all_configs = tts_config_registry.get_all_configs()
+    # 搜索匹配的配置
+    for config in all_configs:
+        if config.character_name == english_name:
+            return config
+    # 如果通过映射找不到，尝试直接匹配输入的名称
+    if speaker_name != english_name:
+        for config in all_configs:
+            if config.character_name == speaker_name:
+                return config
+    return None
+def _get_available_speaker_names():
+    """
+    获取所有可用的说话人名称列表
+    Returns:
+        list[str]: 包含中文显示名称和英文原始名称的列表
+    """
+    # 中文显示名称映射
+    english_to_chinese_mapping = {
+        'Luo Xiang': '罗翔',
+        'Ma Baoguo': '马保国',
+        'Shen Yi': '沈逸',
+        'Yang Mi': '杨幂',
+        'Zhou Jielun': '周杰伦',
+        'Ma Yun': '马云',
+    }
+    all_configs = tts_config_registry.get_all_configs()
+    speaker_names = []
+    for config in all_configs:
+        # 优先显示中文名称
+        chinese_name = english_to_chinese_mapping.get(config.character_name)
+        if chinese_name:
+            speaker_names.append(chinese_name)
+        else:
+            # 如果没有中文映射，使用英文原名
+            speaker_names.append(config.character_name)
+    return sorted(speaker_names)
+def _update_argument_parser_speaker_choices():
+    """
+    动态更新命令行参数解析器中的说话人选项
+    Returns:
+        list[str]: 可用的说话人选择列表
+    """
+    return _get_available_speaker_names()
+def create_argument_parser():
+    """创建命令行参数解析器"""
+    # 动态获取可用说话人列表
+    available_speakers = _update_argument_parser_speaker_choices()
+    parser = argparse.ArgumentParser(
+        description="VoiceDialogue - 语音对话系统",
+        formatter_class=argparse.RawDescriptionHelpFormatter,
+        epilog=f"""
+示例用法:
+  # 启动命令行模式（默认）
+  python main.py
+  # 启动命令行模式并指定参数
+  python main.py --mode cli --language zh --speaker 沈逸
+  # 启动API服务器
+  python main.py --mode api
+  # 启动API服务器并指定端口
+  python main.py --mode api --port 9000
+  # 启动API服务器并启用热重载（开发模式）
+  python main.py --mode api --port 8000 --reload
+支持的说话人:
+  {', '.join(available_speakers)}
+        """
+    )
+    # 运行模式选择
+    parser.add_argument(
+        '--mode', '-m',
+        choices=['cli', 'api'],
+        default='cli',
+        help='运行模式: cli=命令行模式, api=API服务器模式 (默认: cli)'
+    )
+    # 命令行模式参数
+    cli_group = parser.add_argument_group('命令行模式参数')
+    cli_group.add_argument(
+        '--language', '-l',
+        choices=['zh', 'en'],
+        default='zh',
+        help='用户语言: zh=中文, en=英文 (默认: zh)'
+    )
+    cli_group.add_argument(
+        '--speaker', '-s',
+        choices=available_speakers,
+        default='沈逸' if '沈逸' in available_speakers else (available_speakers[0] if available_speakers else '沈逸'),
+        help='TTS说话人 (默认: 沈逸)'
+    )
+    # API服务器模式参数
+    api_group = parser.add_argument_group('API服务器模式参数')
+    api_group.add_argument(
+        '--host',
+        default='0.0.0.0',
+        help='服务器主机地址 (默认: 0.0.0.0)'
+    )
+    api_group.add_argument(
+        '--port', '-p',
+        type=int,
+        default=8000,
+        help='服务器端口 (默认: 8000)'
+    )
+    api_group.add_argument(
+        '--reload',
+        action='store_true',
+        help='启用热重载（开发模式）'
+    )
+    return parser
+def launch_api_server(host: str = "0.0.0.0", port: int = 8000, reload: bool = False):
+    """
+    启动API服务器
+    Args:
+        host (str): 服务器主机地址，默认为 "0.0.0.0"
+        port (int): 服务器端口，默认为 8000
+        reload (bool): 是否启用热重载，默认为 False
+    """
+    print(f'{"=" * 80}\n正在启动API服务器...\n{"=" * 80}')
+    print(f"服务器地址: http://{host}:{port}")
+    print(f"API文档: http://{host}:{port}/docs")
+    print(f"热重载: {'启用' if reload else '禁用'}")
+    print(f'{"=" * 80}')
+    # 导入并启动FastAPI应用
+    uvicorn.run(
+        "api.app:app",
+        host=host,
+        port=port,
+        reload=reload,
+        log_level="info"
+    )
+def main():
+    """
+    主程序入口函数
+    根据命令行参数选择启动模式：
+    - cli: 启动命令行语音对话系统
+    - api: 启动HTTP API服务器
+    """
+    parser = create_argument_parser()
+    args = parser.parse_args()
+    print(f"""
+{"=" * 80}
+VoiceDialogue - 语音对话系统
+{"=" * 80}
+运行模式: {args.mode.upper()}
+{"=" * 80}
+    """)
+    try:
+        if args.mode == 'cli':
+            print(f"语言设置: {args.language}")
+            print(f"说话人: {args.speaker}")
+            print("正在启动命令行语音对话系统...")
+            launch_system(args.language, args.speaker)
+        elif args.mode == 'api':
+            launch_api_server(
+                host=args.host,
+                port=args.port,
+                reload=args.reload
+            )
+    except KeyboardInterrupt:
+        print("\n程序被用户中断")
+    except Exception as e:
+        print(f"程序运行出错: {e}")
+        raise
+if __name__ == '__main__':
+    main()

src/VoiceDialogue/services/text/__init__.py DELETED Viewed

File without changes

src/voice_dialogue/__init__.py ADDED Viewed

	@@ -0,0 +1,14 @@

+from .core.constants import (
+    audio_frames_queue,
+    user_voice_queue,
+    transcribed_text_queue,
+    text_input_queue,
+    audio_output_queue
+)
+from .services.audio.capture import EchoCancellingAudioCapture
+from .services.audio.generator import TTSAudioGenerator
+from .services.audio.generators.models import tts_config_registry
+from .services.audio.player import AudioStreamPlayer
+from .services.speech.monitor import SpeechStateMonitor
+from .services.speech.recognizer import ASRWorker
+from .services.text.generator import LLMResponseGenerator

src/{VoiceDialogue → voice_dialogue/api}/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/app.py RENAMED Viewed

@@ -6,7 +6,7 @@ from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import FileResponse
 from fastapi.staticfiles import StaticFiles
-from config.paths import FRONTEND_ASSETS_PATH
 from .core.config import AppConfig
 from .core.lifespan import lifespan
 from .middleware.logging import LoggingMiddleware

 from fastapi.responses import FileResponse
 from fastapi.staticfiles import StaticFiles
+from voice_dialogue.config.paths import FRONTEND_ASSETS_PATH
 from .core.config import AppConfig
 from .core.lifespan import lifespan
 from .middleware.logging import LoggingMiddleware

src/{VoiceDialogue → voice_dialogue}/api/core/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/core/config.py RENAMED Viewed

@@ -1,6 +1,8 @@
 import logging
 from typing import Dict, Any
 logger = logging.getLogger(__name__)
@@ -17,7 +19,6 @@ class TTSConfigInitializer:
         }
         try:
-            from services.audio.generators import tts_config_registry
             config_count = len(tts_config_registry.get_all_configs())
             result.update({

 import logging
 from typing import Dict, Any
+from voice_dialogue.services.audio.generators import tts_config_registry
 logger = logging.getLogger(__name__)
         }
         try:
             config_count = len(tts_config_registry.get_all_configs())
             result.update({

src/{VoiceDialogue → voice_dialogue}/api/core/lifespan.py RENAMED Viewed

@@ -4,8 +4,8 @@ from contextlib import asynccontextmanager
 from fastapi import FastAPI
-from services.audio.generators import tts_config_registry
-from utils import get_system_language
 from .config import TTSConfigInitializer
 from .service_factories import get_core_voice_service_definitions
 from .service_manager import ServiceManager

 from fastapi import FastAPI
+from voice_dialogue.services.audio.generators import tts_config_registry
+from voice_dialogue.utils import get_system_language
 from .config import TTSConfigInitializer
 from .service_factories import get_core_voice_service_definitions
 from .service_manager import ServiceManager

src/{VoiceDialogue → voice_dialogue}/api/core/service_factories.py RENAMED Viewed

@@ -1,11 +1,11 @@
-from core.constants import (
     transcribed_text_queue, text_input_queue, audio_output_queue,
     audio_frames_queue, user_voice_queue, websocket_message_queue
 )
-from services.audio import EchoCancellingAudioCapture, TTSAudioGenerator, AudioStreamPlayer
-from services.audio.generators import BaseTTSConfig, tts_config_registry
-from services.speech import SpeechStateMonitor, ASRWorker
-from services.text.generator import LLMResponseGenerator
 from .service_manager import ServiceDefinition

+from voice_dialogue.core.constants import (
     transcribed_text_queue, text_input_queue, audio_output_queue,
     audio_frames_queue, user_voice_queue, websocket_message_queue
 )
+from voice_dialogue.services.audio import EchoCancellingAudioCapture, TTSAudioGenerator, AudioStreamPlayer
+from voice_dialogue.services.audio.generators import BaseTTSConfig, tts_config_registry
+from voice_dialogue.services.speech import SpeechStateMonitor, ASRWorker
+from voice_dialogue.services.text.generator import LLMResponseGenerator
 from .service_manager import ServiceDefinition

src/{VoiceDialogue → voice_dialogue}/api/core/service_manager.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/dependencies/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/dependencies/audio_deps.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/middleware/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/middleware/logging.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/middleware/rate_limit.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/routes/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/routes/asr_routes.py RENAMED Viewed

@@ -2,7 +2,7 @@ import logging
 from fastapi import APIRouter, HTTPException, Request, BackgroundTasks
-from services.speech.recognizers import asr_manager
 from ..core.service_factories import get_asr_worker_service_definition
 from ..schemas.asr_schemas import (
     SupportedLanguagesResponse, ASRInstanceRequest, ASRInstanceResponse

 from fastapi import APIRouter, HTTPException, Request, BackgroundTasks
+from voice_dialogue.services.speech.recognizers import asr_manager
 from ..core.service_factories import get_asr_worker_service_definition
 from ..schemas.asr_schemas import (
     SupportedLanguagesResponse, ASRInstanceRequest, ASRInstanceResponse

src/{VoiceDialogue → voice_dialogue}/api/routes/system_routes.py RENAMED Viewed

@@ -4,7 +4,7 @@ import time
 from fastapi import APIRouter, HTTPException, BackgroundTasks, Request
-from core.constants import session_manager
 from ..core.service_factories import get_audio_capture_service_definition
 from ..schemas.system_schemas import (
     SystemStatusResponse, SystemResponse

 from fastapi import APIRouter, HTTPException, BackgroundTasks, Request
+from voice_dialogue.core.constants import session_manager
 from ..core.service_factories import get_audio_capture_service_definition
 from ..schemas.system_schemas import (
     SystemStatusResponse, SystemResponse

src/{VoiceDialogue → voice_dialogue}/api/routes/tts_routes.py RENAMED Viewed

@@ -3,7 +3,7 @@ from typing import Optional
 from fastapi import APIRouter, HTTPException, BackgroundTasks, Request
-from services.audio.generators import tts_config_registry
 from ..core.service_factories import get_tts_audio_generator_service_definition
 from ..schemas.tts_schemas import (
     TTSModelInfo, TTSModelListResponse, TTSModelLoadRequest,

 from fastapi import APIRouter, HTTPException, BackgroundTasks, Request
+from voice_dialogue.services.audio.generators import tts_config_registry
 from ..core.service_factories import get_tts_audio_generator_service_definition
 from ..schemas.tts_schemas import (
     TTSModelInfo, TTSModelListResponse, TTSModelLoadRequest,

src/{VoiceDialogue → voice_dialogue}/api/routes/websocket_routes.py RENAMED Viewed

@@ -4,7 +4,7 @@ from queue import Empty
 from fastapi import APIRouter, WebSocket, WebSocketDisconnect
-from core.constants import websocket_message_queue, session_manager
 ws = APIRouter()
 logger = logging.getLogger(__name__)

 from fastapi import APIRouter, WebSocket, WebSocketDisconnect
+from voice_dialogue.core.constants import websocket_message_queue, session_manager
 ws = APIRouter()
 logger = logging.getLogger(__name__)

src/{VoiceDialogue → voice_dialogue}/api/schemas/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/schemas/asr_schemas.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/schemas/system_schemas.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/schemas/tts_schemas.py RENAMED Viewed

@@ -1,6 +1,7 @@
 from typing import List, Optional, Literal
 from pydantic import BaseModel, Field
-import hashlib
 class TTSModelInfo(BaseModel):

+import hashlib
 from typing import List, Optional, Literal
 from pydantic import BaseModel, Field
 class TTSModelInfo(BaseModel):

src/{VoiceDialogue → voice_dialogue}/api/schemas/voice_schemas.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/api/server.py RENAMED Viewed

File without changes

src/{VoiceDialogue/api → voice_dialogue/config}/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/config/paths.py RENAMED Viewed

File without changes

src/{VoiceDialogue/config → voice_dialogue/core}/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/core/base.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/core/constants.py RENAMED Viewed

@@ -3,7 +3,7 @@ import multiprocessing
 import threading
 from collections import OrderedDict
-from utils.cache import LRUCacheDict
 from .session_manager import SessionIdManager
 from .state_manager import VoiceStateManager

 import threading
 from collections import OrderedDict
+from voice_dialogue.utils.cache import LRUCacheDict
 from .session_manager import SessionIdManager
 from .state_manager import VoiceStateManager

src/{VoiceDialogue → voice_dialogue}/core/enums.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/core/session_manager.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/core/state_manager.py RENAMED Viewed

@@ -1,6 +1,6 @@
 import uuid
-from utils.cache import LRUCacheDict
 from .enums import AudioState

 import uuid
+from voice_dialogue.utils.cache import LRUCacheDict
 from .enums import AudioState

src/{VoiceDialogue → voice_dialogue}/main.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/models/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/models/voice_task.py RENAMED Viewed

File without changes

src/{VoiceDialogue/core → voice_dialogue/services}/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/services/audio/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/services/audio/capture.py RENAMED Viewed

@@ -8,8 +8,8 @@ import time
 import numpy as np
-from config.paths import LIBRARIES_PATH
-from core.base import BaseThread
 class EchoCancellingAudioCapture(BaseThread):

 import numpy as np
+from voice_dialogue.config.paths import LIBRARIES_PATH
+from voice_dialogue.core.base import BaseThread
 class EchoCancellingAudioCapture(BaseThread):

src/{VoiceDialogue → voice_dialogue}/services/audio/generator.py RENAMED Viewed

@@ -2,9 +2,9 @@ import time
 from multiprocessing import Queue
 from queue import Empty
-from core.base import BaseThread
-from core.constants import dropped_audio_cache, user_still_speaking_event, voice_state_manager
-from models.voice_task import VoiceTask
 from .generators import tts_manager, BaseTTSConfig

 from multiprocessing import Queue
 from queue import Empty
+from voice_dialogue.core.base import BaseThread
+from voice_dialogue.core.constants import dropped_audio_cache, user_still_speaking_event, voice_state_manager
+from voice_dialogue.models.voice_task import VoiceTask
 from .generators import tts_manager, BaseTTSConfig

src/{VoiceDialogue → voice_dialogue}/services/audio/generators/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/services/audio/generators/configs/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/services/audio/generators/configs/kokoro.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/services/audio/generators/configs/moyoyo.py RENAMED Viewed

@@ -1,4 +1,4 @@
-from services.audio.generators.models.moyoyo import MoYoYoTTSConfig
 # 基础预训练模型文件映射
 BASE_PRETRAINED_FILES = {

+from ..models.moyoyo import MoYoYoTTSConfig
 # 基础预训练模型文件映射
 BASE_PRETRAINED_FILES = {

src/{VoiceDialogue → voice_dialogue}/services/audio/generators/manager.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/services/audio/generators/models/__init__.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/services/audio/generators/models/base.py RENAMED Viewed

File without changes

src/{VoiceDialogue → voice_dialogue}/services/audio/generators/models/kokoro.py RENAMED Viewed

@@ -3,8 +3,8 @@ from pathlib import Path
 from pydantic import BaseModel, Field
 from .base import BaseTTSConfig, TTSConfigType
-from config import paths
 class InferenceParameters(BaseModel):

 from pydantic import BaseModel, Field
+from voice_dialogue.config import paths
 from .base import BaseTTSConfig, TTSConfigType
 class InferenceParameters(BaseModel):

src/{VoiceDialogue → voice_dialogue}/services/audio/generators/models/moyoyo.py RENAMED Viewed

@@ -4,8 +4,8 @@ from pathlib import Path
 from pydantic import BaseModel, Field
-from config.paths import TTS_MODELS_PATH
-from utils.download_utils import download_file_from_huggingface
 from .base import BaseTTSConfig, TTSConfigType, VoiceModelStatus

 from pydantic import BaseModel, Field
+from voice_dialogue.config.paths import TTS_MODELS_PATH
+from voice_dialogue.utils.download_utils import download_file_from_huggingface
 from .base import BaseTTSConfig, TTSConfigType, VoiceModelStatus