liumaolin
commited on
Commit
·
c57de2a
1
Parent(s):
a5d5551
Revamp API core description: expand feature details for ASR, LLMs, TTS, system control, and real-time communication; improve clarity and structure of documentation.
Browse files
src/VoiceDialogue/api/core/config.py
CHANGED
|
@@ -52,21 +52,76 @@ class AppConfig:
|
|
| 52 |
|
| 53 |
def _get_description(self) -> str:
|
| 54 |
return """
|
| 55 |
-
|
| 56 |
-
|
| 57 |
-
|
| 58 |
-
|
| 59 |
-
|
| 60 |
-
|
| 61 |
-
|
| 62 |
-
*
|
| 63 |
-
|
| 64 |
-
|
| 65 |
-
|
| 66 |
-
|
| 67 |
-
|
| 68 |
-
|
| 69 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 70 |
"""
|
| 71 |
|
| 72 |
def get_cors_config(self) -> dict:
|
|
|
|
| 52 |
|
| 53 |
def _get_description(self) -> str:
|
| 54 |
return """
|
| 55 |
+
# VoiceDialogue - 智能语音对话系统 API
|
| 56 |
+
|
| 57 |
+
一个基于人工智能的完整语音对话系统,集成了语音识别(ASR)、大语言模型(LLM)和文本转语音(TTS)技术,提供端到端的语音交互体验。
|
| 58 |
+
|
| 59 |
+
## 🚀 核心功能
|
| 60 |
+
|
| 61 |
+
### 🎤 语音识别 (ASR)
|
| 62 |
+
* **多语言支持**: 中文(FunASR)、英文及其他语言(Whisper)
|
| 63 |
+
* **智能引擎切换**: 根据语言自动选择最优识别引擎
|
| 64 |
+
* **实时语音转文本**: 低延迟的语音识别处理
|
| 65 |
+
* **动态语言切换**: 运行时创建和切换不同语言的ASR实例
|
| 66 |
+
|
| 67 |
+
### 🤖 智能对话
|
| 68 |
+
* **大语言模型集成**: 基于Qwen2.5等先进模型
|
| 69 |
+
* **上下文理解**: 支持多轮对话和上下文记忆
|
| 70 |
+
* **自定义系统提示**: 可配置AI助手的行为和角色
|
| 71 |
+
|
| 72 |
+
### 🎭 高质量语音合成 (TTS)
|
| 73 |
+
* **中文角色**: 基于GPT-SoVITs技术,支持罗翔、马保国、沈逸、杨幂、周杰伦、马云等特色角色
|
| 74 |
+
* **英文角色**: 基于Kokoro TTS技术,支持Heart、Bella、Nicole等自然语音
|
| 75 |
+
* **智能引擎选择**: 根据内容语言自动选择最适合的TTS引擎
|
| 76 |
+
* **动态角色管理**: 运行时加载、切换和管理语音角色
|
| 77 |
+
|
| 78 |
+
### ⚡ 实时通信
|
| 79 |
+
* **WebSocket连接**: 支持实时语音消息推送
|
| 80 |
+
* **状态监控**: 实时监控系统和模型状态
|
| 81 |
+
* **会话管理**: 智能的会话ID管理和消息路由
|
| 82 |
+
|
| 83 |
+
### 🔧 系统管理
|
| 84 |
+
* **服务生命周期**: 完整的系统启动、停止、重启控制
|
| 85 |
+
* **音频捕获**: 高质量的音频输入处理和回声消除
|
| 86 |
+
* **状态监控**: 详细的服务状态和性能指标
|
| 87 |
+
|
| 88 |
+
## 📋 主要API端点
|
| 89 |
+
|
| 90 |
+
### TTS模型管理
|
| 91 |
+
* `GET /api/v1/tts/models` - 获取所有可用的TTS模型列表
|
| 92 |
+
* `POST /api/v1/tts/models/load` - 加载指定的TTS模型
|
| 93 |
+
* `GET /api/v1/tts/models/{model_id}/status` - 查看模型下载和加载状态
|
| 94 |
+
* `DELETE /api/v1/tts/models/{model_id}` - 删除已下载的模型
|
| 95 |
+
|
| 96 |
+
### 语音识别管理
|
| 97 |
+
* `GET /api/v1/asr/languages` - 获取支持的识别语言列表
|
| 98 |
+
* `POST /api/v1/asr/instance/create` - 创建指定语言的ASR实例
|
| 99 |
+
|
| 100 |
+
### 系统控制
|
| 101 |
+
* `GET /api/v1/system/status` - 获取系统整体状态
|
| 102 |
+
* `POST /api/v1/system/start` - 启动语音对话系统
|
| 103 |
+
* `POST /api/v1/system/stop` - 停止语音对话系统
|
| 104 |
+
* `POST /api/v1/system/restart` - 重启语音对话系统
|
| 105 |
+
|
| 106 |
+
### 实时通信
|
| 107 |
+
* `WebSocket /api/v1/ws` - WebSocket连接,接收实时系统消息
|
| 108 |
+
|
| 109 |
+
## 🛠️ 技术特性
|
| 110 |
+
|
| 111 |
+
* **异步处理**: 基于FastAPI的高性能异步架构
|
| 112 |
+
* **后台任务**: 模型下载和加载在后台执行,不阻塞API响应
|
| 113 |
+
* **错误处理**: 完善的异常处理和错误信息反馈
|
| 114 |
+
* **状态管理**: 实时的模型和系统状态跟踪
|
| 115 |
+
* **CORS支持**: 跨域资源共享配置,便于前端集成
|
| 116 |
+
* **API文档**: 自动生成的交互式API文档
|
| 117 |
+
|
| 118 |
+
## 💡 使用场景
|
| 119 |
+
|
| 120 |
+
* **智能客服**: 语音客服机器人和自动问答系统
|
| 121 |
+
* **语音助手**: 个人或企业级语音助手应用
|
| 122 |
+
* **内容创作**: 语音内容生成和多角色配音
|
| 123 |
+
* **教育培训**: 语音交互式学习和培训系统
|
| 124 |
+
* **无障碍应用**: 视力障碍用户的语音交互界面
|
| 125 |
"""
|
| 126 |
|
| 127 |
def get_cors_config(self) -> dict:
|