Spaces:

Ryanus
/

CoquiTTS

Sleeping

App Files Files Community

Ryanus commited on Jul 1, 2025

Commit

404cf65

verified ·

1 Parent(s): aea3a2a

Update app.py

Browse files

Files changed (1) hide show

app.py +65 -36

app.py CHANGED Viewed

@@ -5,7 +5,8 @@ import os
 import tempfile
 import datetime
 import shutil
-import re # 引入 re 模組用於更強大的檔案名稱淨化
 # --- 打印 Gradio 版本以供診斷 ---
 print(f"Gradio version at runtime: {gr.__version__}")
@@ -22,7 +23,6 @@ from TTS.config.shared_configs import BaseDatasetConfig
 from TTS.tts.models.xtts import XttsArgs
 try:
-    # 將必要的類別加入 PyTorch 的安全全局變數白名單，以解決反序列化問題
     torch.serialization.add_safe_globals([XttsConfig, XttsAudioConfig, BaseDatasetConfig, XttsArgs])
     print("已將 XTTS 相關配置類加入 PyTorch 安全全局變數白名單。")
 except Exception as e:
@@ -38,12 +38,42 @@ tts = None
 # 全局變數來儲存模型載入時發生的任何錯誤訊息。
 model_load_error = None
-# 初始化 TTS 模型
 try:
     print("正在嘗試載入 Coqui TTS XTTS-v2 模型...")
-    # 載入 XTTS-v2 模型
     tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", progress_bar=True).to(device)
     print("Coqui TTS XTTS-v2 模型已成功載入。")
 except Exception as e:
     model_load_error = (
         f"載入 Coqui TTS XTTS-v2 模型時發生錯誤: {e}。\n"
@@ -59,14 +89,12 @@ SUPPORTED_LANGUAGES = [
 ]
 # --- 預設語音參考檔案路徑 ---
-# 請確保你已將 'speaker.wav' 檔案上傳到 Hugging Face Space 的根目錄
 DEFAULT_SPEAKER_WAV = "speaker.wav"
 # --- 自動儲存設定 ---
-SAVE_GENERATED_AUDIO_DIR = "generated_audio" # 儲存生成的語音檔案的資料夾
-SAVE_UPLOADED_REFERENCES_DIR = "uploaded_references" # 儲存上傳的參考語音檔案的資料夾
-# 確保儲存資料夾存在
 os.makedirs(SAVE_GENERATED_AUDIO_DIR, exist_ok=True)
 os.makedirs(SAVE_UPLOADED_REFERENCES_DIR, exist_ok=True)
 # --- 結束自動儲存設定 ---
@@ -77,9 +105,7 @@ def sanitize_filename(text: str, max_len: int = 50) -> str:
     移除除字母、數字、空格和連字號以外的所有字元，
     將空格替換為底線，並截斷至指定長度。
     """
-    # 替換任何非字母數字、非空格、非連字號的字元為空字串
     safe_text = re.sub(r'[^\w\s-]', '', text).strip()
-    # 將一個或多個空格替換為單個底線
     safe_text = re.sub(r'\s+', '_', safe_text)
     if len(safe_text) > max_len:
         safe_text = safe_text[:max_len]
@@ -94,7 +120,7 @@ def generate_speech(text: str, language: str, uploaded_speaker_audio_path: str):
     if model_load_error:
         return None, f"應用程式啟動錯誤：{model_load_error}"
-    if tts is None:
         return None, "TTS 模型未成功載入，無法生成語音。請檢查日誌獲取詳細資訊。"
     if not text:
@@ -121,19 +147,37 @@ def generate_speech(text: str, language: str, uploaded_speaker_audio_path: str):
             status_message += f"警告：儲存參考語音失敗: {e}\n"
         print(f"使用上傳的語音參考檔案: {speaker_wav_to_use}")
-    else: # 如果用戶沒有上傳檔案，則使用預設檔案
         speaker_wav_to_use = DEFAULT_SPEAKER_WAV
         if not os.path.exists(speaker_wav_to_use):
             return None, f"錯誤：預設���音參考檔案 ({DEFAULT_SPEAKER_WAV}) 未找到。請上傳一個檔案或確保預設檔案存在。"
         print(f"沒有上傳語音參考檔案，將使用預設檔案: {speaker_wav_to_use}")
     # --- 結束決定 ---
-    output_file = None # 用於 Gradio 播放的臨時檔案
     try:
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
             output_file = fp.name
         print(f"正在為語言 '{language}' 生成語音，使用語音參考檔案: {speaker_wav_to_use}...")
         tts.tts_to_file(text=text, language=language, speaker_wav=speaker_wav_to_use, file_path=output_file)
         print(f"語音已生成到臨時檔案：{output_file}")
@@ -153,7 +197,7 @@ def generate_speech(text: str, language: str, uploaded_speaker_audio_path: str):
     except Exception as e:
         print(f"生成語音時發生錯誤: {e}")
         if output_file and os.path.exists(output_file):
-            os.remove(output_file) # 清理臨時檔案
         return None, f"生成語音失敗: {e}"
 def list_saved_audio_files() -> list:
@@ -163,7 +207,7 @@ def list_saved_audio_files() -> list:
         for filename in os.listdir(SAVE_GENERATED_AUDIO_DIR):
             if filename.lower().endswith(".wav"):
                 audio_files.append(os.path.join(SAVE_GENERATED_AUDIO_DIR, filename))
-    audio_files.sort(key=os.path.getmtime, reverse=True) # 按修改時間倒序排列，最新檔案在前
     return audio_files
 def list_uploaded_reference_files() -> list:
@@ -173,7 +217,7 @@ def list_uploaded_reference_files() -> list:
         for filename in os.listdir(SAVE_UPLOADED_REFERENCES_DIR):
             if filename.lower().endswith(".wav"):
                 ref_files.append(os.path.join(SAVE_UPLOADED_REFERENCES_DIR, filename))
-    ref_files.sort(key=os.path.getmtime, reverse=True) # 按修改時間倒序排列，最新檔案在前
     return ref_files
 # Gradio 介面配置 (使用 gr.Blocks 實現多 Tab 介面)
@@ -191,21 +235,12 @@ with gr.Blocks(title="Coqui TTS XTTS-v2 語音生成") as demo:
                     type="filepath",
                     label="上傳語音參考檔案 (WAV) (可選)",
                     sources=["microphone", "upload"],
-                    # 如果您的 Gradio 版本支援且您希望顯示波形和資訊，可以取消註釋以下行：
-                    # waveform_options=gr.Audio.WaveformOptions(
-                    #     waveform_color="#0055EE",
-                    #     waveform_progress_color="#00AAFF",
-                    #     skip_length=2,
-                    #     show_controls=True,
-                    # ),
-                    # info="上傳一個清晰的 WAV 檔案作為語音參考。音頻長度建議在 3-10 秒之間。"
                 )
                 generate_button = gr.Button("生成語音")
             with gr.Column():
                 output_audio = gr.Audio(label="生成的語音", type="filepath")
                 status_textbox = gr.Textbox(label="狀態")
-        # 將生成按鈕與 generate_speech 函數綁定
         generate_button.click(
             fn=generate_speech,
             inputs=[text_input, language_dropdown, speaker_audio_upload],
@@ -218,14 +253,12 @@ with gr.Blocks(title="Coqui TTS XTTS-v2 語音生成") as demo:
         saved_generated_files_output = gr.File(
             label="生成的語音檔案",
-            file_count="multiple", # 允許顯示多個檔案
-            interactive=False # 不允許用戶上傳，只用於顯示和下載
         )
         refresh_generated_button = gr.Button("刷新生成語音列表")
-        # 應用程式載入時，自動載入檔案列表
         demo.load(list_saved_audio_files, outputs=[saved_generated_files_output])
-        # 點擊刷新按鈕時，重新載入檔案列表
         refresh_generated_button.click(list_saved_audio_files, outputs=[saved_generated_files_output])
     with gr.Tab("查看已上傳參考語音"):
@@ -234,17 +267,13 @@ with gr.Blocks(title="Coqui TTS XTTS-v2 語音生成") as demo:
         saved_uploaded_ref_files_output = gr.File(
             label="上傳的參考語音檔案",
-            file_count="multiple", # 允許顯示多個檔案
-            interactive=False # 不允許用戶上傳，只用於顯示和下載
         )
         refresh_uploaded_ref_button = gr.Button("刷新參考語音列表")
-        # 應用程式載入時，自動載入檔案列表
         demo.load(list_uploaded_reference_files, outputs=[saved_uploaded_ref_files_output])
-        # 點擊刷新按鈕時，重新載入檔案列表
         refresh_uploaded_ref_button.click(list_uploaded_reference_files, outputs=[saved_uploaded_ref_files_output])
-# 啟動 Gradio 應用
 if __name__ == "__main__":
-    demo.launch() # 修正：新增這一行並正確縮排

 import tempfile
 import datetime
 import shutil
+import re
+import onnxruntime as rt # 引入 onnxruntime
 # --- 打印 Gradio 版本以供診斷 ---
 print(f"Gradio version at runtime: {gr.__version__}")
 from TTS.tts.models.xtts import XttsArgs
 try:
     torch.serialization.add_safe_globals([XttsConfig, XttsAudioConfig, BaseDatasetConfig, XttsArgs])
     print("已將 XTTS 相關配置類加入 PyTorch 安全全局變數白名單。")
 except Exception as e:
 # 全局變數來儲存模型載入時發生的任何錯誤訊息。
 model_load_error = None
+# 全局變數來儲存 ONNX Session
+onnx_session = None
+onnx_model_path = "xtts_v2_quantized.onnx" # 假設量化後的 ONNX 模型路徑
+# 初始化 TTS 模型或 ONNX Session
 try:
     print("正在嘗試載入 Coqui TTS XTTS-v2 模型...")
+    # 這裡可以嘗試載入原始 PyTorch 模型，然後進行 ONNX 轉換和量化
+    # 或者直接載入預先轉換好的 ONNX 模型
+    # 為了簡化，這裡假設我們仍然使用 TTS 庫來載入模型，
+    # 但如果需要 ONNX 優化，您可能需要手動導出 XTTS-v2 到 ONNX
+    # 並使用 onnxruntime.InferenceSession 來載入。
+    # 這部分需要更深入的 XTTS-v2 模型結構知識。
+    # 這裡僅為示意，實際的 ONNX 轉換和載入會更複雜
+    # if os.path.exists(onnx_model_path):
+    #     print(f"正在載入 ONNX 模型: {onnx_model_path}")
+    #     onnx_session = rt.InferenceSession(onnx_model_path, providers=['CPUExecutionProvider'])
+    #     print("ONNX 模型已成功載入。")
+    # else:
+    #     print("ONNX 模型未找到，將載入 PyTorch 模型。")
     tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", progress_bar=True).to(device)
     print("Coqui TTS XTTS-v2 模型已成功載入。")
+    # 如果要進行 ONNX 轉換，可以在這裡添加邏輯
+    # 例如：
+    # if device == "cpu" and not os.path.exists(onnx_model_path):
+    #     print("嘗試將 PyTorch 模型轉換為 ONNX...")
+    #     # 這部分需要 XTTS-v2 模型的具體輸入格式來進行 torch.onnx.export
+    #     # 並且可能需要量化
+    #     # dummy_input = ... # 根據 XTTS-v2 的 forward 函數定義 dummy input
+    #     # torch.onnx.export(tts.model, dummy_input, onnx_model_path, opset_version=15)
+    #     # onnx_session = rt.InferenceSession(onnx_model_path, providers=['CPUExecutionProvider'])
+    #     # print("模型已轉換並載入為 ONNX。")
 except Exception as e:
     model_load_error = (
         f"載入 Coqui TTS XTTS-v2 模型時發生錯誤: {e}。\n"
 ]
 # --- 預設語音參考檔案路徑 ---
 DEFAULT_SPEAKER_WAV = "speaker.wav"
 # --- 自動儲存設定 ---
+SAVE_GENERATED_AUDIO_DIR = "generated_audio"
+SAVE_UPLOADED_REFERENCES_DIR = "uploaded_references"
 os.makedirs(SAVE_GENERATED_AUDIO_DIR, exist_ok=True)
 os.makedirs(SAVE_UPLOADED_REFERENCES_DIR, exist_ok=True)
 # --- 結束自動儲存設定 ---
     移除除字母、數字、空格和連字號以外的所有字元，
     將空格替換為底線，並截斷至指定長度。
     """
     safe_text = re.sub(r'[^\w\s-]', '', text).strip()
     safe_text = re.sub(r'\s+', '_', safe_text)
     if len(safe_text) > max_len:
         safe_text = safe_text[:max_len]
     if model_load_error:
         return None, f"應用程式啟動錯誤：{model_load_error}"
+    if tts is None and onnx_session is None:
         return None, "TTS 模型未成功載入，無法生成語音。請檢查日誌獲取詳細資訊。"
     if not text:
             status_message += f"警告：儲存參考語音失敗: {e}\n"
         print(f"使用上傳的語音參考檔案: {speaker_wav_to_use}")
+    else:
         speaker_wav_to_use = DEFAULT_SPEAKER_WAV
         if not os.path.exists(speaker_wav_to_use):
             return None, f"錯誤：預設���音參考檔案 ({DEFAULT_SPEAKER_WAV}) 未找到。請上傳一個檔案或確保預設檔案存在。"
         print(f"沒有上傳語音參考檔案，將使用預設檔案: {speaker_wav_to_use}")
     # --- 結束決定 ---
+    output_file = None
     try:
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
             output_file = fp.name
         print(f"正在為語言 '{language}' 生成語音，使用語音參考檔案: {speaker_wav_to_use}...")
+        # 如果 ONNX Session 存在，嘗試使用 ONNX 進行推理
+        # 這部分需要將 XTTS-v2 的輸入轉換為 ONNX 模型所需的格式
+        # 並將輸出轉換回音訊格式。這會非常複雜，因為 TTS 庫封裝了許多細節。
+        # if onnx_session:
+        #     # 這裡需要 XTTS-v2 ONNX 模型的具體輸入/輸出格式
+        #     # 例如：
+        #     # inputs = {
+        #     #     onnx_session.get_inputs()[0].name: processed_text_input,
+        #     #     onnx_session.get_inputs()[1].name: processed_speaker_input,
+        #     #     ...
+        #     # }
+        #     # outputs = onnx_session.run(None, inputs)
+        #     # generated_audio_data = outputs[0]
+        #     # import soundfile as sf
+        #     # sf.write(output_file, generated_audio_data, 24000) # 假設採樣率為 24000
+        #     pass # 暫時不實作 ONNX 推理，因為太複雜
+        # else:
         tts.tts_to_file(text=text, language=language, speaker_wav=speaker_wav_to_use, file_path=output_file)
         print(f"語音已生成到臨時檔案：{output_file}")
     except Exception as e:
         print(f"生成語音時發生錯誤: {e}")
         if output_file and os.path.exists(output_file):
+            os.remove(output_file)
         return None, f"生成語音失敗: {e}"
 def list_saved_audio_files() -> list:
         for filename in os.listdir(SAVE_GENERATED_AUDIO_DIR):
             if filename.lower().endswith(".wav"):
                 audio_files.append(os.path.join(SAVE_GENERATED_AUDIO_DIR, filename))
+    audio_files.sort(key=os.path.getmtime, reverse=True)
     return audio_files
 def list_uploaded_reference_files() -> list:
         for filename in os.listdir(SAVE_UPLOADED_REFERENCES_DIR):
             if filename.lower().endswith(".wav"):
                 ref_files.append(os.path.join(SAVE_UPLOADED_REFERENCES_DIR, filename))
+    ref_files.sort(key=os.path.getmtime, reverse=True)
     return ref_files
 # Gradio 介面配置 (使用 gr.Blocks 實現多 Tab 介面)
                     type="filepath",
                     label="上傳語音參考檔案 (WAV) (可選)",
                     sources=["microphone", "upload"],
                 )
                 generate_button = gr.Button("生成語音")
             with gr.Column():
                 output_audio = gr.Audio(label="生成的語音", type="filepath")
                 status_textbox = gr.Textbox(label="狀態")
         generate_button.click(
             fn=generate_speech,
             inputs=[text_input, language_dropdown, speaker_audio_upload],
         saved_generated_files_output = gr.File(
             label="生成的語音檔案",
+            file_count="multiple",
+            interactive=False
         )
         refresh_generated_button = gr.Button("刷新生成語音列表")
         demo.load(list_saved_audio_files, outputs=[saved_generated_files_output])
         refresh_generated_button.click(list_saved_audio_files, outputs=[saved_generated_files_output])
     with gr.Tab("查看已上傳參考語音"):
         saved_uploaded_ref_files_output = gr.File(
             label="上傳的參考語音檔案",
+            file_count="multiple",
+            interactive=False
         )
         refresh_uploaded_ref_button = gr.Button("刷新參考語音列表")
         demo.load(list_uploaded_reference_files, outputs=[saved_uploaded_ref_files_output])
         refresh_uploaded_ref_button.click(list_uploaded_reference_files, outputs=[saved_uploaded_ref_files_output])
 if __name__ == "__main__":
+    demo.launch()