Spaces:

Ryanus
/

CoquiTTS

Sleeping

App Files Files Community

Ryanus commited on Jun 28, 2025

Commit

c7d85cb

verified ·

1 Parent(s): 774228a

Update app.py

Browse files

Files changed (1) hide show

app.py +107 -84

app.py CHANGED Viewed

@@ -3,8 +3,9 @@ from TTS.api import TTS
 import gradio as gr
 import os
 import tempfile
-import datetime # 用於生成唯一檔案名
-import shutil   # 用於檔案複製
 # --- 打印 Gradio 版本以供診斷 ---
 print(f"Gradio version at runtime: {gr.__version__}")
@@ -21,13 +22,13 @@ from TTS.config.shared_configs import BaseDatasetConfig
 from TTS.tts.models.xtts import XttsArgs
 try:
     torch.serialization.add_safe_globals([XttsConfig, XttsAudioConfig, BaseDatasetConfig, XttsArgs])
     print("已將 XTTS 相關配置類加入 PyTorch 安全全局變數白名單。")
 except Exception as e:
     print(f"警告：無法將安全全局變數加入 PyTorch 白名單: {e}")
     print("如果遇到模型載入錯誤，請檢查 PyTorch 和 TTS 庫版本。")
 # 檢查是否有 CUDA 可用，否則使用 CPU
 device = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"使用設備: {device}")
@@ -40,57 +41,21 @@ model_load_error = None
 # 初始化 TTS 模型
 try:
     print("正在嘗試載入 Coqui TTS XTTS-v2 模型...")
     tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", progress_bar=True).to(device)
     print("Coqui TTS XTTS-v2 模型已成功載入。")
 except Exception as e:
-    model_load_error = f"載入 Coqui TTS XTTS-v2 模型時發生錯誤: {e}。\n請確保你的網路連接正常，並且模型名稱正確。此外，請檢查 Hugging Face Space 的日誌以獲取更多詳細資訊。"
     print(model_load_error)
 # XTTS-v2 支援的語言列表
 SUPPORTED_LANGUAGES = [
-    "en",      # English
-    "zh-cn",   # Chinese (Simplified)
-    "es",      # Spanish
-    "fr",      # French
-    "de",      # German
-    "it",      # Italian
-    "pt",      # Portuguese
-    "pl",      # Polish
-    "ru",      # Russian
-    "ja",      # Japanese
-    "ko",      # Korean
-    "ar",      # Arabic
-    "hi",      # Hindi
-    "tr",      # Turkish
-    "nl",      # Dutch
-    "sv",      # Swedish
-    "da",      # Danish
-    "fi",      # Finnish
-    "no",      # Norwegian
-    "cs",      # Czech
-    "hu",      # Hungarian
-    "el",      # Greek
-    "uk",      # Ukrainian
-    "vi",      # Vietnamese
-    "th",      # Thai
-    "id",      # Indonesian
-    "ms",      # Malay
-    "ro",      # Romanian
-    "sk",      # Slovak
-    "hr",      # Croatian
-    "bg",      # Bulgarian
-    "ca",      # Catalan
-    "fa",      # Persian
-    "he",      # Hebrew
-    "ur",      # Urdu
-    "bn",      # Bengali
-    "gu",      # Gujarati
-    "kn",      # Kannada
-    "ml",      # Malayalam
-    "mr",      # Marathi
-    "pa",      # Punjabi
-    "ta",      # Tamil
-    "te",      # Telugu
 ]
 # --- 預設語音參考檔案路徑 ---
@@ -98,18 +63,33 @@ SUPPORTED_LANGUAGES = [
 DEFAULT_SPEAKER_WAV = "speaker.wav"
 # --- 自動儲存設定 ---
-SAVE_DIR = "generated_audio" # 儲存生成的語音檔案的資料夾
 # 確保儲存資料夾存在
-os.makedirs(SAVE_DIR, exist_ok=True)
 # --- 結束自動儲存設定 ---
-def generate_speech(text, language, uploaded_speaker_audio_path):
     """
     根據輸入文字、語言和語音參考檔案生成語音。
     如果用戶上傳了檔案，則使用上傳的檔案；否則使用預設的 speaker.wav。
-    生成的語音將自動儲存到指定資料夾。
     """
     if model_load_error:
         return None, f"應用程式啟動錯誤：{model_load_error}"
@@ -122,15 +102,30 @@ def generate_speech(text, language, uploaded_speaker_audio_path):
     if not language:
         return None, "請選擇一個語言！"
     # --- 決定使用哪個語音參考檔案 ---
-    speaker_wav_to_use = uploaded_speaker_audio_path
-    if not speaker_wav_to_use: # 如果用戶沒有上傳檔案
         speaker_wav_to_use = DEFAULT_SPEAKER_WAV
         if not os.path.exists(speaker_wav_to_use):
             return None, f"錯誤：預設語音參考檔案 ({DEFAULT_SPEAKER_WAV}) 未找到。請上傳一個檔案或確保預設檔案存在。"
         print(f"沒有上傳語音參考檔案，將使用預設檔案: {speaker_wav_to_use}")
-    else:
-        print(f"使用上傳的語音參考檔案: {speaker_wav_to_use}")
     # --- 結束決定 ---
     output_file = None # 用於 Gradio 播放的臨時檔案
@@ -143,44 +138,49 @@ def generate_speech(text, language, uploaded_speaker_audio_path):
         print(f"語音已生成到臨時檔案：{output_file}")
         # --- 自動儲存生成的語音檔案 ---
-        timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
-        # 清理文本，用於檔案名，避免特殊字元
-        safe_text = "".join(c for c in text if c.isalnum() or c.isspace()).strip()
-        if len(safe_text) > 30: # 限制檔案名長度
-            safe_text = safe_text[:30] + "..."
-        # 組合最終儲存路徑
-        saved_file_name = f"{timestamp}_{language}_{safe_text}.wav"
-        saved_file_path = os.path.join(SAVE_DIR, saved_file_name)
-        # 將臨時檔案複製到儲存目錄
         shutil.copy(output_file, saved_file_path)
-        print(f"語音已自動儲存到：{saved_file_path}")
         # --- 結束自動儲存 ---
-        return output_file, f"語音生成成功！已儲存為：{saved_file_path}"
     except Exception as e:
         print(f"生成語音時發生錯誤: {e}")
         if output_file and os.path.exists(output_file):
             os.remove(output_file) # 清理臨時檔案
         return None, f"生成語音失敗: {e}"
-# --- 新增：查看已儲存語音的功能 ---
-def list_saved_audio_files():
-    """掃描儲存資料夾，返回所有 .wav 檔案的完整路徑列表。"""
     audio_files = []
-    if os.path.exists(SAVE_DIR) and os.path.isdir(SAVE_DIR):
-        for filename in os.listdir(SAVE_DIR):
             if filename.lower().endswith(".wav"):
-                audio_files.append(os.path.join(SAVE_DIR, filename))
     audio_files.sort(key=os.path.getmtime, reverse=True) # 按修改時間倒序排列，最新檔案在前
     return audio_files
-# --- 結束新增 ---
 # Gradio 介面配置 (使用 gr.Blocks 實現多 Tab 介面)
 with gr.Blocks(title="Coqui TTS XTTS-v2 語音生成") as demo:
     gr.Markdown("# Coqui TTS XTTS-v2 語音生成 (CPU)")
-    gr.Markdown("此演示使用 CPU 運行，請注意 XTTS-v2 在 CPU 上運行會非常慢。您可以上傳自己的語音，或使用預設語音。生成的語音將自動儲存到 Space 專案中。")
     with gr.Tab("語音生成"):
         with gr.Row():
@@ -191,7 +191,14 @@ with gr.Blocks(title="Coqui TTS XTTS-v2 語音生成") as demo:
                     type="filepath",
                     label="上傳語音參考檔案 (WAV) (可選)",
                     sources=["microphone", "upload"],
-                    # 移除 waveform_options 和 info 參數以避免 Gradio 版本兼容性問題
                 )
                 generate_button = gr.Button("生成語音")
             with gr.Column():
@@ -206,21 +213,37 @@ with gr.Blocks(title="Coqui TTS XTTS-v2 語音生成") as demo:
         )
     with gr.Tab("查看已儲存語音"):
-        gr.Markdown("### 已儲存的語音檔案")
-        gr.Markdown("請注意：每次生成語音並儲存後，Hugging Face Space 會自動重啟，因此您可能需要點擊刷新按鈕來查看最新檔案。")
-        saved_files_output = gr.File(
-            label="已儲存的語音檔案",
             file_count="multiple", # 允許顯示多個檔案
             interactive=False # 不允許用戶上傳，只用於顯示和下載
         )
-        refresh_button = gr.Button("刷新檔案列表")
         # 應用程式載入時，自動載入檔案列表
-        demo.load(list_saved_audio_files, outputs=[saved_files_output])
         # 點擊刷新按鈕時，重新載入檔案列表
-        refresh_button.click(list_saved_audio_files, outputs=[saved_files_output])
 # 啟動 Gradio 應用
 if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
 import os
 import tempfile
+import datetime
+import shutil
+import re # 引入 re 模組用於更強大的檔案名稱淨化
 # --- 打印 Gradio 版本以供診斷 ---
 print(f"Gradio version at runtime: {gr.__version__}")
 from TTS.tts.models.xtts import XttsArgs
 try:
+    # 將必要的類別加入 PyTorch 的安全全局變數白名單，以解決反序列化問題
     torch.serialization.add_safe_globals([XttsConfig, XttsAudioConfig, BaseDatasetConfig, XttsArgs])
     print("已將 XTTS 相關配置類加入 PyTorch 安全全局變數白名單。")
 except Exception as e:
     print(f"警告：無法將安全全局變數加入 PyTorch 白名單: {e}")
     print("如果遇到模型載入錯誤，請檢查 PyTorch 和 TTS 庫版本。")
 # 檢查是否有 CUDA 可用，否則使用 CPU
 device = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"使用設備: {device}")
 # 初始化 TTS 模型
 try:
     print("正在嘗試載入 Coqui TTS XTTS-v2 模型...")
+    # 載入 XTTS-v2 模型
     tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", progress_bar=True).to(device)
     print("Coqui TTS XTTS-v2 模型已成功載入。")
 except Exception as e:
+    model_load_error = (
+        f"載入 Coqui TTS XTTS-v2 模型時發生錯誤: {e}。\n"
+        "請確保你的網路連接正常，並且模型名稱正確。此外，請檢查 Hugging Face Space 的日誌以獲取更多詳細資訊。"
+    )
     print(model_load_error)
 # XTTS-v2 支援的語言列表
 SUPPORTED_LANGUAGES = [
+    "en", "zh-cn", "es", "fr", "de", "it", "pt", "pl", "ru", "ja", "ko", "ar", "hi", "tr",
+    "nl", "sv", "da", "fi", "no", "cs", "hu", "el", "uk", "vi", "th", "id", "ms", "ro",
+    "sk", "hr", "bg", "ca", "fa", "he", "ur", "bn", "gu", "kn", "ml", "mr", "pa", "ta", "te",
 ]
 # --- 預設語音參考檔案路徑 ---
 DEFAULT_SPEAKER_WAV = "speaker.wav"
 # --- 自動儲存設定 ---
+SAVE_GENERATED_AUDIO_DIR = "generated_audio" # 儲存生成的語音檔案的資料夾
+SAVE_UPLOADED_REFERENCES_DIR = "uploaded_references" # 儲存上傳的參考語音檔案的資料夾
 # 確保儲存資料夾存在
+os.makedirs(SAVE_GENERATED_AUDIO_DIR, exist_ok=True)
+os.makedirs(SAVE_UPLOADED_REFERENCES_DIR, exist_ok=True)
 # --- 結束自動儲存設定 ---
+def sanitize_filename(text: str, max_len: int = 50) -> str:
+    """
+    淨化字串以用於檔案名稱。
+    移除除字母、數字、空格和連字號以外的所有字元，
+    將空格替換為底線，並截斷至指定長度。
+    """
+    # 替換任何非字母數字、非空格、非連字號的字元為空字串
+    safe_text = re.sub(r'[^\w\s-]', '', text).strip()
+    # 將一個或多個空格替換為單個底線
+    safe_text = re.sub(r'\s+', '_', safe_text)
+    if len(safe_text) > max_len:
+        safe_text = safe_text[:max_len]
+    return safe_text
+def generate_speech(text: str, language: str, uploaded_speaker_audio_path: str):
     """
     根據輸入文字、語言和語音參考檔案生成語音。
     如果用戶上傳了檔案，則使用上傳的檔案；否則使用預設的 speaker.wav。
+    生成的語音和上傳的參考語音（如果有的話）都將自動儲存到指定資料夾。
     """
     if model_load_error:
         return None, f"應用程式啟動錯誤：{model_load_error}"
     if not language:
         return None, "請選擇一個語言！"
+    speaker_wav_to_use = None
+    status_message = ""
     # --- 決定使用哪個語音參考檔案 ---
+    if uploaded_speaker_audio_path:
+        speaker_wav_to_use = uploaded_speaker_audio_path
+        try:
+            timestamp_ref = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
+            original_ext = os.path.splitext(uploaded_speaker_audio_path)[1]
+            saved_ref_file_name = f"{timestamp_ref}_uploaded_ref{original_ext}"
+            saved_ref_file_path = os.path.join(SAVE_UPLOADED_REFERENCES_DIR, saved_ref_file_name)
+            shutil.copy(uploaded_speaker_audio_path, saved_ref_file_path)
+            print(f"上傳的參考語音已儲存到：{saved_ref_file_path}")
+            status_message += f"參考語音已儲存到：{saved_ref_file_path}\n"
+        except Exception as e:
+            print(f"儲存上傳的參考語音時發生錯誤: {e}")
+            status_message += f"警告：儲存參考語音失敗: {e}\n"
+        print(f"使用上傳的語音參考檔案: {speaker_wav_to_use}")
+    else: # 如果用戶沒有上傳檔案，則使用預設檔案
         speaker_wav_to_use = DEFAULT_SPEAKER_WAV
         if not os.path.exists(speaker_wav_to_use):
             return None, f"錯誤：預設語音參考檔案 ({DEFAULT_SPEAKER_WAV}) 未找到。請上傳一個檔案或確保預設檔案存在。"
         print(f"沒有上傳語音參考檔案，將使用預設檔案: {speaker_wav_to_use}")
     # --- 結束決定 ---
     output_file = None # 用於 Gradio 播放的臨時檔案
         print(f"語音已生成到臨時檔案：{output_file}")
         # --- 自動儲存生成的語音檔案 ---
+        timestamp_gen = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
+        sanitized_text = sanitize_filename(text)
+        saved_file_name = f"{timestamp_gen}_{language}_{sanitized_text}.wav"
+        saved_file_path = os.path.join(SAVE_GENERATED_AUDIO_DIR, saved_file_name)
         shutil.copy(output_file, saved_file_path)
+        print(f"生成的語音已自動儲存到：{saved_file_path}")
+        status_message += f"語音生成成功！已儲存為：{saved_file_path}"
         # --- 結束自動儲存 ---
+        return output_file, status_message
     except Exception as e:
         print(f"生成語音時發生錯誤: {e}")
         if output_file and os.path.exists(output_file):
             os.remove(output_file) # 清理臨時檔案
         return None, f"生成語音失敗: {e}"
+def list_saved_audio_files() -> list:
+    """掃描儲存生成的語音資料夾，返回所有 .wav 檔案的完整路徑列表。"""
     audio_files = []
+    if os.path.exists(SAVE_GENERATED_AUDIO_DIR) and os.path.isdir(SAVE_GENERATED_AUDIO_DIR):
+        for filename in os.listdir(SAVE_GENERATED_AUDIO_DIR):
             if filename.lower().endswith(".wav"):
+                audio_files.append(os.path.join(SAVE_GENERATED_AUDIO_DIR, filename))
     audio_files.sort(key=os.path.getmtime, reverse=True) # 按修改時間倒序排列，最新檔案在前
     return audio_files
+def list_uploaded_reference_files() -> list:
+    """掃描上傳參考語音資料夾，返回所有 .wav 檔案的完整路徑列表。"""
+    ref_files = []
+    if os.path.exists(SAVE_UPLOADED_REFERENCES_DIR) and os.path.isdir(SAVE_UPLOADED_REFERENCES_DIR):
+        for filename in os.listdir(SAVE_UPLOADED_REFERENCES_DIR):
+            if filename.lower().endswith(".wav"):
+                ref_files.append(os.path.join(SAVE_UPLOADED_REFERENCES_DIR, filename))
+    ref_files.sort(key=os.path.getmtime, reverse=True) # 按修改時間倒序排列，最新檔案在前
+    return ref_files
 # Gradio 介面配置 (使用 gr.Blocks 實現多 Tab 介面)
 with gr.Blocks(title="Coqui TTS XTTS-v2 語音生成") as demo:
     gr.Markdown("# Coqui TTS XTTS-v2 語音生成 (CPU)")
+    gr.Markdown("此演示使用 CPU 運行，請注意 XTTS-v2 在 CPU 上運行會非常慢。您可以上傳自己的語音，或使用預設語音。**生成的語音和上傳的參考語音都將自動儲存到 Space 專案中。**")
+    gr.Markdown("**重要提示：** 每次儲存檔案都會觸發 Hugging Face Space 的自動重建，導致應用程式暫時不可用並重新載入模型。")
     with gr.Tab("語音生成"):
         with gr.Row():
                     type="filepath",
                     label="上傳語音參考檔案 (WAV) (可選)",
                     sources=["microphone", "upload"],
+                    # 如果您的 Gradio 版本支援且您希望顯示波形和資訊，可以取消註釋以下行：
+                    # waveform_options=gr.Audio.WaveformOptions(
+                    #     waveform_color="#0055EE",
+                    #     waveform_progress_color="#00AAFF",
+                    #     skip_length=2,
+                    #     show_controls=True,
+                    # ),
+                    # info="上傳一個清晰的 WAV 檔案作為語音參考。音頻長度建議在 3-10 秒之間。"
                 )
                 generate_button = gr.Button("生成語音")
             with gr.Column():
         )
     with gr.Tab("查看已儲存語音"):
+        gr.Markdown("### 已儲存的生成語音檔案")
+        gr.Markdown("這些是您生成的語音檔案。")
+        saved_generated_files_output = gr.File(
+            label="生成的語音檔案",
             file_count="multiple", # 允許顯示多個檔案
             interactive=False # 不允許用戶上傳，只用於顯示和下載
         )
+        refresh_generated_button = gr.Button("刷新生成語音列表")
         # 應用程式載入時，自動載入檔案列表
+        demo.load(list_saved_audio_files, outputs=[saved_generated_files_output])
         # 點擊刷新按鈕時，重新載入檔案列表
+        refresh_generated_button.click(list_saved_audio_files, outputs=[saved_generated_files_output])
+    with gr.Tab("查看已上傳參考語音"):
+        gr.Markdown("### 已儲存的上傳參考語音檔案")
+        gr.Markdown("這些是您上傳的語音參考檔案。")
+        saved_uploaded_ref_files_output = gr.File(
+            label="上傳的參考語音檔案",
+            file_count="multiple", # 允許顯示多個檔案
+            interactive=False # 不允許用戶上傳，只用於顯示和下載
+        )
+        refresh_uploaded_ref_button = gr.Button("刷新參考語音列表")
+        # 應用程式載入時，自動載入檔案列表
+        demo.load(list_uploaded_reference_files, outputs=[saved_uploaded_ref_files_output])
+        # 點擊刷新按鈕時，重新載入檔案列表
+        refresh_uploaded_ref_button.click(list_uploaded_reference_files, outputs=[saved_uploaded_ref_files_output])
 # 啟動 Gradio 應用
 if __name__ == "__main__":