liumaolin commited on
Commit
c57de2a
·
1 Parent(s): a5d5551

Revamp API core description: expand feature details for ASR, LLMs, TTS, system control, and real-time communication; improve clarity and structure of documentation.

Browse files
Files changed (1) hide show
  1. src/VoiceDialogue/api/core/config.py +70 -15
src/VoiceDialogue/api/core/config.py CHANGED
@@ -52,21 +52,76 @@ class AppConfig:
52
 
53
  def _get_description(self) -> str:
54
  return """
55
- 语音对话系统的HTTP API接口
56
-
57
- ## 功能特性
58
-
59
- * **TTS模型管理**: 查看、加载、删除TTS模型
60
- * **模型状态监控**: 实时监控模型下载和加载状态
61
- * **RESTful API**: 标准的REST接口设计
62
- * **自动文档**: 自动生成的API文档和测试界面
63
-
64
- ## 使用方法
65
-
66
- 1. 查看所有可用的TTS模型: `GET /api/v1/tts/models`
67
- 2. 加载指定模型: `POST /api/v1/tts/models/load`
68
- 3. 查看模型状态: `GET /api/v1/tts/models/{model_id}/status`
69
- 4. 删除模型: `DELETE /api/v1/tts/models/{model_id}`
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
70
  """
71
 
72
  def get_cors_config(self) -> dict:
 
52
 
53
  def _get_description(self) -> str:
54
  return """
55
+ # VoiceDialogue - 智能语音对话系统 API
56
+
57
+ 一个基于人工智能的完整语音对话系统,集成了语音识别(ASR)、大语言模型(LLM)和文本转语音(TTS)技术,提供端到端的语音交互体验。
58
+
59
+ ## 🚀 核心功能
60
+
61
+ ### 🎤 语音识别 (ASR)
62
+ * **多语言支持**: 中文(FunASR)、英文及其他语言(Whisper)
63
+ * **智能引擎切换**: 根据语言自动选择最优识别引擎
64
+ * **实时语音转文本**: 低延迟的语音识别处理
65
+ * **动态语言切换**: 运行时创建和切换不同语言的ASR实例
66
+
67
+ ### 🤖 智能对话
68
+ * **大语言模型集成**: 基于Qwen2.5等先进模型
69
+ * **上下文理解**: 支持多轮对话和上下文记忆
70
+ * **自定义系统提示**: 可配置AI助手的行为和角色
71
+
72
+ ### 🎭 高质量语音合成 (TTS)
73
+ * **中文角色**: 基于GPT-SoVITs技术,支持罗翔、马保国、沈逸、杨幂、周杰伦、马云等特色角色
74
+ * **英文角色**: 基于Kokoro TTS技术,支持Heart、Bella、Nicole等自然语音
75
+ * **智能引擎选择**: 根据内容语言自动选择最适合的TTS引擎
76
+ * **动态角色管理**: 运行时加载、切换和管理语音角色
77
+
78
+ ### ⚡ 实时通信
79
+ * **WebSocket连接**: 支持实时语音消息推送
80
+ * **状态监控**: 实时监控系统和模型状态
81
+ * **会话管理**: 智能的会话ID管理和消息路由
82
+
83
+ ### 🔧 系统管理
84
+ * **服务生命周期**: 完整的系统启动、停止、重启控制
85
+ * **音频捕获**: 高质量的音频输入处理和回声消除
86
+ * **状态监控**: 详细的服务状态和性能指标
87
+
88
+ ## 📋 主要API端点
89
+
90
+ ### TTS模型管理
91
+ * `GET /api/v1/tts/models` - 获取所有可用的TTS模型列表
92
+ * `POST /api/v1/tts/models/load` - 加载指定的TTS模型
93
+ * `GET /api/v1/tts/models/{model_id}/status` - 查看模型下载和加载状态
94
+ * `DELETE /api/v1/tts/models/{model_id}` - 删除已下载的模型
95
+
96
+ ### 语音识别管理
97
+ * `GET /api/v1/asr/languages` - 获取支持的识别语言列表
98
+ * `POST /api/v1/asr/instance/create` - 创建指定语言的ASR实例
99
+
100
+ ### 系统控制
101
+ * `GET /api/v1/system/status` - 获取系统整体状态
102
+ * `POST /api/v1/system/start` - 启动语音对话系统
103
+ * `POST /api/v1/system/stop` - 停止语音对话系统
104
+ * `POST /api/v1/system/restart` - 重启语音对话系统
105
+
106
+ ### 实时通信
107
+ * `WebSocket /api/v1/ws` - WebSocket连接,接收实时系统消息
108
+
109
+ ## 🛠️ 技术特性
110
+
111
+ * **异步处理**: 基于FastAPI的高性能异步架构
112
+ * **后台任务**: 模型下载和加载在后台执行,不阻塞API响应
113
+ * **错误处理**: 完善的异常处理和错误信息反馈
114
+ * **状态管理**: 实时的模型和系统状态跟踪
115
+ * **CORS支持**: 跨域资源共享配置,便于前端集成
116
+ * **API文档**: 自动生成的交互式API文档
117
+
118
+ ## 💡 使用场景
119
+
120
+ * **智能客服**: 语音客服机器人和自动问答系统
121
+ * **语音助手**: 个人或企业级语音助手应用
122
+ * **内容创作**: 语音内容生成和多角色配音
123
+ * **教育培训**: 语音交互式学习和培训系统
124
+ * **无障碍应用**: 视力障碍用户的语音交互界面
125
  """
126
 
127
  def get_cors_config(self) -> dict: