Refactor TTS audio generation: rename queues for clarity, update `TTSAudioGenerator` initialization, and enhance docstrings for better maintainability.

Files changed (2) hide show

src/VoiceDialogue/main.py +56 -7
src/VoiceDialogue/services/audio/audio_answer.py +33 -6

src/VoiceDialogue/main.py CHANGED Viewed

@@ -22,12 +22,42 @@ language: typing.Literal['zh', 'en'] = 'en'
 def launch_system(
         user_language: str,
         speaker: str
-):
     audio_frames_queue = Queue()
     user_voice_queue = Queue()
     transcribed_text_queue = Queue()
-    generated_answer_queue = Queue()
-    tts_generated_audio_queue = Queue()
     threads = []
     #
     audio_frame_probe = EchoCancellingAudioCapture(audio_frames_queue=audio_frames_queue)
@@ -52,7 +82,7 @@ def launch_system(
     answer_generator_worker = LLMResponseGenerator(
         user_question_queue=transcribed_text_queue,
-        generated_answer_queue=generated_answer_queue
     )
     answer_generator_worker.start()
     threads.append(answer_generator_worker)
@@ -71,14 +101,14 @@ def launch_system(
     tts_speaker_config = tts_config_registry.get_config(TTSConfigType.MOYOYO, role)
     audio_generator_worker = TTSAudioGenerator(
-        processed_answer_queue=generated_answer_queue,
-        tts_generated_audio_queue=tts_generated_audio_queue,
         tts_config=tts_speaker_config
     )
     audio_generator_worker.start()
     threads.append(audio_generator_worker)
-    audio_playing_worker = AudioStreamPlayer(audio_playing_queue=tts_generated_audio_queue)
     audio_playing_worker.start()
     threads.append(audio_playing_worker)
@@ -92,6 +122,25 @@ def launch_system(
 def main():
     user_language: typing.Literal['zh', 'en'] = 'zh'
     # '罗翔', '马保国', '沈逸', '杨幂', '周杰伦', '马云'

 def launch_system(
         user_language: str,
         speaker: str
+) -> None:
+    """
+    启动完整的语音对话系统
+    该函数负责启动并协调语音对话系统的所有组件，包括音频采集、语音识别、
+    文本生成、语音合成和音频播放等功能模块。系统采用多线程架构，各组件
+    通过队列进行数据传递和通信。
+    系统工作流程：
+    1. 音频采集：EchoCancellingAudioCapture 采集用户语音并进行回声消除
+    2. 语音监测：SpeechStateMonitor 检测用户是否在说话
+    3. 语音识别：ASRWorker 将用户语音转换为文本
+    4. 文本生成：LLMResponseGenerator 基于用户问题生成AI回答
+    5. 语音合成：TTSAudioGenerator 将AI回答转换为语音
+    6. 音频播放：AudioStreamPlayer 播放生成的语音
+    Args:
+        user_language (str): 用户语言，支持 'zh'（中文）和 'en'（英文）
+        speaker (str): 语音合成使用的说话人，支持：
+                      '罗翔', '马保国', '沈逸', '杨幂', '周杰伦', '马云'
+    Raises:
+        ValueError: 当指定的说话人不在支持列表中时抛出异常
+    Returns:
+        None: 函数会一直运行直到所有线程结束
+    Note:
+        该函数会阻塞运行，直到系统被外部停止或发生异常
+    """
     audio_frames_queue = Queue()
     user_voice_queue = Queue()
     transcribed_text_queue = Queue()
+    text_input_queue = Queue()
+    audio_output_queue = Queue()
     threads = []
     #
     audio_frame_probe = EchoCancellingAudioCapture(audio_frames_queue=audio_frames_queue)
     answer_generator_worker = LLMResponseGenerator(
         user_question_queue=transcribed_text_queue,
+        generated_answer_queue=text_input_queue
     )
     answer_generator_worker.start()
     threads.append(answer_generator_worker)
     tts_speaker_config = tts_config_registry.get_config(TTSConfigType.MOYOYO, role)
     audio_generator_worker = TTSAudioGenerator(
+        text_input_queue=text_input_queue,
+        audio_output_queue=audio_output_queue,
         tts_config=tts_speaker_config
     )
     audio_generator_worker.start()
     threads.append(audio_generator_worker)
+    audio_playing_worker = AudioStreamPlayer(audio_playing_queue=audio_output_queue)
     audio_playing_worker.start()
     threads.append(audio_playing_worker)
 def main():
+    """
+    主程序入口函数
+    配置并启动语音对话系统的默认设置。当前配置：
+    - 用户语言：中文 ('zh')
+    - TTS说话人：沈逸
+    该函数可以根据需要修改默认配置，或者扩展为支持命令行参数。
+    Returns:
+        None
+    Example:
+        直接运行脚本：
+        $ python main.py
+        系统将使用默认配置启动语音对话服务
+    """
     user_language: typing.Literal['zh', 'en'] = 'zh'
     # '罗翔', '马保国', '沈逸', '杨幂', '周杰伦', '马云'

src/VoiceDialogue/services/audio/audio_answer.py CHANGED Viewed

@@ -9,17 +9,44 @@ from .audio_generator import tts_manager, BaseTTSConfig
 class TTSAudioGenerator(BaseThread):
-    """TTS 音频生成器 - 负责将文本转换为音频"""
     def __init__(self, group=None, target=None, name=None, args=(), kwargs={}, *, daemon=None,
-                 processed_answer_queue, tts_generated_audio_queue, tts_config: BaseTTSConfig):
         super().__init__(group, target, name, args, kwargs, daemon=daemon)
-        self.processed_answer_queue: Queue = processed_answer_queue
-        self.tts_generated_audio_queue: Queue = tts_generated_audio_queue
         self.tts_instance = tts_manager.create_tts(tts_config)
     def run(self):
         self.tts_instance.setup()
         self.tts_instance.warmup()
@@ -28,7 +55,7 @@ class TTSAudioGenerator(BaseThread):
         while not self.stopped():
             try:
-                voice_task: VoiceTask = self.processed_answer_queue.get(block=False, timeout=0.1)
             except Empty:
                 continue
@@ -57,4 +84,4 @@ class TTSAudioGenerator(BaseThread):
             voice_task.tts_end_time = time.time()
             # print(f'生成音频：{voice_task.answer_sentence}')
-            self.tts_generated_audio_queue.put(voice_task)

 class TTSAudioGenerator(BaseThread):
+    """
+    TTS 音频生成器 - 负责将文本转换为音频
+    这个类是一个多线程音频生成器，主要功能包括：
+    1. 从处理完的答案队列中获取语音任务
+    2. 使用TTS引擎将文本转换为音频
+    3. 处理用户打断和音频缓存逻辑
+    4. 将生成的音频任务放入音频队列中
+    """
     def __init__(self, group=None, target=None, name=None, args=(), kwargs={}, *, daemon=None,
+                 text_input_queue: Queue, audio_output_queue: Queue, tts_config: BaseTTSConfig):
+        """
+        初始化TTS音频生成器
+        Args:
+            text_input_queue: 文本输入队列，包含待转换的文本任务
+            audio_output_queue: 音频输出队列，用于输出转换后的音频
+            tts_config: TTS配置对象，包含语音合成的相关设置
+        """
         super().__init__(group, target, name, args, kwargs, daemon=daemon)
+        self.text_input_queue: Queue = text_input_queue
+        self.audio_output_queue: Queue = audio_output_queue
         self.tts_instance = tts_manager.create_tts(tts_config)
     def run(self):
+        """
+        主运行循环
+        执行流程：
+        1. 初始化和预热TTS引擎
+        2. 持续监听处理队列
+        3. 处理语音任务和中断逻辑
+        4. 生成音频并放入输出队列
+        """
         self.tts_instance.setup()
         self.tts_instance.warmup()
         while not self.stopped():
             try:
+                voice_task: VoiceTask = self.text_input_queue.get(block=False, timeout=0.1)
             except Empty:
                 continue
             voice_task.tts_end_time = time.time()
             # print(f'生成音频：{voice_task.answer_sentence}')
+            self.audio_output_queue.put(voice_task)