BreezeTTS

Sleeping

App Files Files Community

dseditor commited on Jul 4, 2025

Commit

7bca07a

verified ·

1 Parent(s): a1194fa

Upload 2 files

Browse files

Files changed (2) hide show

app.py +257 -137
text_mapping.txt +217 -0

app.py CHANGED Viewed

@@ -1,13 +1,12 @@
 """
-Breeze2-VITS 繁體中文語音合成 - 單說話人版本
-專為台灣國語優化的高品質語音合成系統
 """
 import gradio as gr
 import numpy as np
 import os
-import tempfile
-import shutil
 from pathlib import Path
 import torch
@@ -24,11 +23,171 @@ except ImportError:
     from huggingface_hub import hf_hub_download
 class TaiwaneseVITSTTS:
     def __init__(self):
         self.tts = None
         self.model_dir = Path("./models")
         self.dict_dir = Path("./dict")
         self.setup_jieba_dict()
         self.setup_model()
@@ -36,35 +195,25 @@ class TaiwaneseVITSTTS:
         """設置 jieba 字典目錄"""
         try:
             print("🔧 設置 jieba 字典...")
-            # 創建字典目錄
             self.dict_dir.mkdir(exist_ok=True)
-            # 創建基本的字典文件
             self.create_basic_jieba_dict()
             print(f"✅ jieba 字典設置完成: {self.dict_dir}")
         except Exception as e:
             print(f"⚠️ jieba 字典設置失敗: {e}")
-            # 創建空目錄作為後備
             self.dict_dir.mkdir(exist_ok=True)
     def create_basic_jieba_dict(self):
         """創建基本的 jieba 字典文件"""
         try:
-            # 創建基本的 jieba 字典文件
             jieba_dict_path = self.dict_dir / "jieba.dict.utf8"
             user_dict_path = self.dict_dir / "user.dict.utf8"
             idf_path = self.dict_dir / "idf.txt.big"
             stop_words_path = self.dict_dir / "stop_words.txt"
-            # 如果字典文件不存在，創建空文件
             for file_path in [jieba_dict_path, user_dict_path, idf_path, stop_words_path]:
                 if not file_path.exists():
                     file_path.touch()
                     print(f"📝 創建字典文件: {file_path.name}")
         except Exception as e:
             print(f"⚠️ 創建基本字典文件失敗: {e}")
@@ -85,11 +234,6 @@ class TaiwaneseVITSTTS:
             return False
         print("✅ 所有模型文件都存在")
-        for file_name in required_files:
-            file_path = self.model_dir / file_name
-            size_mb = file_path.stat().st_size / (1024 * 1024)
-            print(f"  📄 {file_name}: {size_mb:.1f} MB")
         return True
     def setup_model(self):
@@ -102,14 +246,7 @@ class TaiwaneseVITSTTS:
             provider = "cuda" if device == "cuda" else "cpu"
             print(f"🔧 使用設備: {device.upper()}")
-            if device == "cuda":
-                try:
-                    print(f"🎮 GPU: {torch.cuda.get_device_name()}")
-                    print(f"💾 GPU 記憶體: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
-                except:
-                    print("🎮 GPU 資訊獲取失敗，但將嘗試使用 GPU")
-            # 配置 VITS 模型
             vits_config = sherpa_onnx.OfflineTtsVitsModelConfig(
                 model=str(self.model_dir / "breeze2-vits.onnx"),
                 lexicon=str(self.model_dir / "lexicon.txt"),
@@ -117,79 +254,66 @@ class TaiwaneseVITSTTS:
                 dict_dir=str(self.dict_dir),
             )
-            print(f"📚 字典目錄: {self.dict_dir}")
-            # 配置 TTS 模型
             model_config = sherpa_onnx.OfflineTtsModelConfig(
                 vits=vits_config,
                 num_threads=2 if device == "cpu" else 1,
-                debug=False,  # 關閉調試模式以減少日誌
                 provider=provider,
             )
-            # 創建 TTS 配置
             config = sherpa_onnx.OfflineTtsConfig(
                 model=model_config,
                 rule_fsts="",
-                max_num_sentences=2,  # 支援較長句子
             )
             print("🔄 正在載入 TTS 模型...")
             self.tts = sherpa_onnx.OfflineTts(config)
             print("🚀 TTS 模型初始化成功!")
             # 測試模型
-            print("🧪 進行模型測試...")
             test_audio = self.tts.generate(text="測試", sid=0, speed=1.0)
             if len(test_audio.samples) > 0:
                 print("✅ 模型測試通過!")
-            else:
-                print("⚠️ 模型測試失敗，但模型已載入")
         except Exception as e:
             print(f"❌ 模型設置失敗: {e}")
-            print(f"錯誤類型: {type(e).__name__}")
             import traceback
             print(f"詳細錯誤: {traceback.format_exc()}")
             raise
-    def synthesize(self, text, speed=1.0):
-        """合成語音 - 單說話人版本"""
         if not text or not text.strip():
             return None, "❌ 請輸入文本"
-        # 文本預處理
-        text = text.strip()
-        if len(text) > 500:  # 增加文本長度限制
             text = text[:500]
         try:
-            print(f"🎤 正在合成語音: {text[:50]}...")
-            print(f"⚡ 語音速度: {speed}x")
-            # 生成語音 - 固定使用說話人 ID 0
-            audio = self.tts.generate(
-                text=text,
-                sid=0,  # 固定使用第一個說話人
-                speed=speed
-            )
-            # 獲取音頻數據
             samples = audio.samples
             sample_rate = audio.sample_rate
             if len(samples) == 0:
                 return None, "❌ 語音生成失敗：生成的音頻為空"
-            # 轉換為 numpy 陣列
             audio_array = np.array(samples, dtype=np.float32)
-            # 確保是單聲道
             if len(audio_array.shape) > 1:
                 audio_array = audio_array.mean(axis=1)
-            # 正規化音頻
             max_val = np.max(np.abs(audio_array))
             if max_val > 0:
                 audio_array = audio_array / max_val * 0.9
@@ -197,7 +321,11 @@ class TaiwaneseVITSTTS:
             duration = len(audio_array) / sample_rate
             print(f"✅ 語音合成完成! 長度: {duration:.2f}秒")
-            return (sample_rate, audio_array), f"✅ 語音合成成功！\n📊 採樣率: {sample_rate}Hz\n⏱️ 時長: {duration:.2f}秒\n🎭 台灣國語聲音"
         except Exception as e:
             error_msg = f"❌ 語音合成失敗: {str(e)}"
@@ -217,34 +345,33 @@ except Exception as e:
     model_status = f"🔴 模型載入失敗: {str(e)}"
-def generate_speech(text, speed):
-    """Gradio 介面函數 - 移除說話人參數"""
     if tts_model is None:
         return None, f"❌ TTS 模型未正確載入\n\n詳情: {model_status}"
-    return tts_model.synthesize(text, speed)
 def create_interface():
-    # 預設範例文本 - 移除說話人參數
     examples = [
-        ["你好，歡迎使用繁體中文語音合成系統！", 1.0],
-        ["今天天氣很好，適合出去走走。", 1.0],
-        ["人工智慧技術正在快速發展，為我們的生活帶來許多便利。", 1.1],
-        ["台灣是一個美麗的島嶼，有著豐富的文化和美食。", 0.9],
-        ["科技改變生活，創新引領未來。讓我們一起擁抱智慧時代的到來。", 1.2],
-        ["春天來了，櫻花盛開，微風輕拂，真是個美好的季節。", 0.8],
     ]
-    # 檢查模型狀態
     device_info = "🎮 GPU" if torch.cuda.is_available() else "💻 CPU"
     with gr.Blocks(
-        title="繁體中文語音合成 - Breeze2-VITS",
         theme=gr.themes.Soft(),
         css="""
         .gradio-container {
-            max-width: 900px !important;
             margin: auto !important;
         }
         .status-box {
@@ -267,53 +394,49 @@ def create_interface():
         gr.HTML(f"""
         <div class="status-box">
-            <h1>🎙️ 繁體中文語音合成 - Breeze2-VITS</h1>
             <p><strong>狀態:</strong> {model_status} | <strong>設備:</strong> {device_info}</p>
         </div>
         """)
         gr.HTML("""
         <div class="feature-box">
-            <strong>🇹🇼 專業台灣國語 TTS</strong> | 由 MediaTek 開發，專為繁體中文優化
         </div>
         """)
         if not tts_model:
             gr.Markdown(f"""
             ### ⚠️ 模型載入失敗
             **錯誤詳情**: {model_status}
-            **可能原因**:
-            - 模型文件缺失或損壞
-            - jieba 字典配置問題
-            - 記憶體不足
-            請檢查日誌獲取更多資訊。
             """)
         with gr.Row():
             with gr.Column(scale=1):
-                # 文本輸入
                 text_input = gr.Textbox(
-                    label="📝 輸入文本 (最多500字)",
-                    placeholder="請輸入要合成的繁體中文文本...",
                     lines=5,
                     max_lines=8,
-                    value="你好，這是一個語音合成測試。歡迎使用繁體中文TTS系統！"
                 )
-                # 只保留語音速度控制
-                speed = gr.Slider(
-                    label="⚡ 語音速度",
-                    minimum=0.5,
-                    maximum=2.0,
-                    step=0.1,
-                    value=1.0,
-                    info="調節語音播放速度 (0.5x 慢速 ↔ 2.0x 快速)"
-                )
-                # 生成按鈕
                 generate_btn = gr.Button(
                     "🎵 生成台灣國語語音",
                     variant="primary",
@@ -322,7 +445,6 @@ def create_interface():
                 )
             with gr.Column(scale=1):
-                # 音頻輸出
                 audio_output = gr.Audio(
                     label="🔊 生成的語音",
                     type="numpy",
@@ -330,80 +452,78 @@ def create_interface():
                     show_download_button=True
                 )
-                # 狀態訊息
                 status_msg = gr.Textbox(
                     label="📊 狀態資訊",
                     interactive=False,
-                    lines=4,
                     value="準備就緒，請輸入文本並點擊生成語音" if tts_model else f"模型載入失敗: {model_status}"
                 )
-        # 範例
-        if tts_model:  # 只有在模型正常載入時才顯示範例
             gr.Examples(
                 examples=examples,
-                inputs=[text_input, speed],  # 移除說話人參數
                 outputs=[audio_output, status_msg],
                 fn=generate_speech,
                 cache_examples=False,
-                label="📚 範例文本 (點擊即可使用)"
             )
-        # 使用說明和技術資訊
-        with gr.Accordion("📋 使用說明與技術資訊", open=False):
             gr.Markdown(f"""
-            ### 🚀 使用說明
-            1. 在文本框中輸入繁體中文文本 (支援最多500字)
-            2. 調整語音速度 (建議範圍 0.8x - 1.5x)
-            3. 點擊「生成台灣國語語音」按鈕
-            4. 在右側播放和下載生成的語音
-            ### 🎯 模型特色
-            - **專業台灣國語**: 經過台灣語料訓練，發音自然
-            - **高品質合成**: 使用 VITS 架構，語音清晰流暢
-            - **移動優化**: 輕量化設計，適合各種設備
-            - **即時生成**: 快速推理，支援即時語音合成
             ### 🔧 技術資訊
             - **模型**: MediaTek Breeze2-VITS-onnx
-            - **語言**: 繁體中文 (台灣國語)
-            - **採樣率**: 22050 Hz
-            - **推理引擎**: Sherpa-ONNX
             - **運行設備**: {device_info}
             - **模型狀態**: {model_status}
-            - **字典配置**: {'✅ 已配置' if Path('./dict').exists() else '❌ 未配置'}
-            ### 📝 最佳實踐
-            - **文本長度**: 建議單次合成 10-100 字，效果最佳
-            - **標點符號**: 適當使用逗號和句號來控制語調停頓
-            - **語音速度**: 一般對話建議 1.0x，朗讀建議 0.9x，快速播報建議 1.3x
-            - **特殊字符**: 避免使用過多英文或特殊符號
             ### 🛠️ 故障排除
-            如果遇到問題：
-            1. 檢查文本是否為繁體中文
-            2. 嘗試較短的文本 (10-50字)
-            3. 重新整理頁面重新載入模型
-            4. 檢查瀏覽器控制台錯誤訊息
-            ### 📄 授權資訊
-            - **模型**: MediaTek Research 開源模型
-            - **使用範圍**: 研究和個人使用
-            - **商業使用**: 請參考 MediaTek 授權條款
             """)
-        # 事件綁定 - 移除說話人參數
         generate_btn.click(
             fn=generate_speech,
-            inputs=[text_input, speed],
             outputs=[audio_output, status_msg],
             api_name="generate_speech"
         )
-        # 鍵盤快捷鍵
         text_input.submit(
             fn=generate_speech,
-            inputs=[text_input, speed],
             outputs=[audio_output, status_msg]
         )

 """
+Breeze2-VITS 繁體中文語音合成 - 增強版
+支援英文和數字自動轉換為中文發音
 """
 import gradio as gr
 import numpy as np
 import os
+import re
 from pathlib import Path
 import torch
     from huggingface_hub import hf_hub_download
+class TextConverter:
+    """文本轉換器，將英文和數字轉換為中文發音"""
+    def __init__(self, mapping_file="text_mapping.txt"):
+        self.mapping_file = Path(mapping_file)
+        self.conversion_map = {}
+        self.load_mapping()
+    def load_mapping(self):
+        """載入轉換對照表"""
+        try:
+            if self.mapping_file.exists():
+                with open(self.mapping_file, 'r', encoding='utf-8') as f:
+                    lines = f.readlines()
+                for line in lines:
+                    line = line.strip()
+                    # 跳過註釋和空行
+                    if line.startswith('#') or not line:
+                        continue
+                    if '|' in line:
+                        original, chinese = line.split('|', 1)
+                        self.conversion_map[original.strip().lower()] = chinese.strip()
+                print(f"✅ 載入 {len(self.conversion_map)} 個轉換規則")
+            else:
+                print(f"⚠️ 轉換對照表文件不存在: {self.mapping_file}")
+                self.create_default_mapping()
+        except Exception as e:
+            print(f"❌ 載入轉換對照表失敗: {e}")
+            self.create_default_mapping()
+    def create_default_mapping(self):
+        """創建預設的轉換對照表"""
+        default_mappings = {
+            # 數字
+            '0': '零', '1': '一', '2': '二', '3': '三', '4': '四',
+            '5': '五', '6': '六', '7': '七', '8': '八', '9': '九',
+            '10': '十', '100': '一百', '1000': '一千',
+            # 常用英文
+            'hello': '哈囉', 'hi': '嗨', 'bye': '拜拜', 'ok': '歐凱',
+            'yes': '是的', 'no': '不', 'good': '好的', 'bad': '不好',
+            # 技術詞彙
+            'ai': '人工智慧', 'api': '程式介面', 'app': '應用程式',
+            'cpu': '中央處理器', 'gpu': '圖形處理器',
+            # 字母
+            'a': '欸', 'b': '比', 'c': '西', 'd': '迪', 'e': '伊'
+        }
+        self.conversion_map = default_mappings
+        print(f"✅ 使用預設轉換規則: {len(default_mappings)} 個")
+    def convert_numbers(self, text):
+        """轉換連續數字為中文"""
+        def number_to_chinese(match):
+            number = match.group()
+            if len(number) <= 2:  # 簡單數字直接對應
+                result = ""
+                for digit in number:
+                    result += self.conversion_map.get(digit, digit)
+                return result
+            else:
+                # 複雜數字處理
+                return self.convert_large_number(number)
+        # 匹配連續數字
+        text = re.sub(r'\d+', number_to_chinese, text)
+        return text
+    def convert_large_number(self, number_str):
+        """轉換大數字為中文"""
+        try:
+            num = int(number_str)
+            if num == 0:
+                return '零'
+            # 簡化的數字轉換（支援到萬）
+            units = ['', '十', '百', '千', '萬']
+            digits = ['零', '一', '二', '三', '四', '五', '六', '七', '八', '九']
+            if num < 10:
+                return digits[num]
+            elif num < 100:
+                tens = num // 10
+                ones = num % 10
+                result = digits[tens] + '十'
+                if ones > 0:
+                    result += digits[ones]
+                return result
+            elif num < 1000:
+                hundreds = num // 100
+                remainder = num % 100
+                result = digits[hundreds] + '百'
+                if remainder > 0:
+                    if remainder < 10:
+                        result += '零' + digits[remainder]
+                    else:
+                        result += self.convert_large_number(str(remainder))
+                return result
+            else:
+                # 對於更大的數字，簡化處理
+                return number_str  # 保持原樣
+        except:
+            return number_str
+    def convert_english(self, text):
+        """轉換英文單詞為中文"""
+        # 按長度排序，先處理長詞彙
+        sorted_words = sorted(self.conversion_map.keys(), key=len, reverse=True)
+        for english_word in sorted_words:
+            if len(english_word) > 1:  # 跳過單字母，後面單��處理
+                chinese_word = self.conversion_map[english_word]
+                # 使用單詞邊界匹配，不區分大小寫
+                pattern = r'\b' + re.escape(english_word) + r'\b'
+                text = re.sub(pattern, chinese_word, text, flags=re.IGNORECASE)
+        return text
+    def convert_single_letters(self, text):
+        """轉換單個英文字母"""
+        def letter_to_chinese(match):
+            letter = match.group().lower()
+            return self.conversion_map.get(letter, letter)
+        # 匹配獨立的英文字母
+        text = re.sub(r'\b[a-zA-Z]\b', letter_to_chinese, text)
+        return text
+    def convert_text(self, text):
+        """主要轉換函數"""
+        if not text:
+            return text
+        original_text = text
+        print(f"🔄 原始文本: {original_text}")
+        # 1. 轉換英文單詞
+        text = self.convert_english(text)
+        # 2. 轉換數字
+        text = self.convert_numbers(text)
+        # 3. 轉換剩餘的單個字母
+        text = self.convert_single_letters(text)
+        # 4. 清理多餘空格
+        text = re.sub(r'\s+', ' ', text).strip()
+        if text != original_text:
+            print(f"✅ 轉換後文本: {text}")
+        return text
 class TaiwaneseVITSTTS:
     def __init__(self):
         self.tts = None
         self.model_dir = Path("./models")
         self.dict_dir = Path("./dict")
+        self.text_converter = TextConverter()
         self.setup_jieba_dict()
         self.setup_model()
         """設置 jieba 字典目錄"""
         try:
             print("🔧 設置 jieba 字典...")
             self.dict_dir.mkdir(exist_ok=True)
             self.create_basic_jieba_dict()
             print(f"✅ jieba 字典設置完成: {self.dict_dir}")
         except Exception as e:
             print(f"⚠️ jieba 字典設置失敗: {e}")
             self.dict_dir.mkdir(exist_ok=True)
     def create_basic_jieba_dict(self):
         """創建基本的 jieba 字典文件"""
         try:
             jieba_dict_path = self.dict_dir / "jieba.dict.utf8"
             user_dict_path = self.dict_dir / "user.dict.utf8"
             idf_path = self.dict_dir / "idf.txt.big"
             stop_words_path = self.dict_dir / "stop_words.txt"
             for file_path in [jieba_dict_path, user_dict_path, idf_path, stop_words_path]:
                 if not file_path.exists():
                     file_path.touch()
                     print(f"📝 創建字典文件: {file_path.name}")
         except Exception as e:
             print(f"⚠️ 創建基本字典文件失敗: {e}")
             return False
         print("✅ 所有模型文件都存在")
         return True
     def setup_model(self):
             provider = "cuda" if device == "cuda" else "cpu"
             print(f"🔧 使用設備: {device.upper()}")
             vits_config = sherpa_onnx.OfflineTtsVitsModelConfig(
                 model=str(self.model_dir / "breeze2-vits.onnx"),
                 lexicon=str(self.model_dir / "lexicon.txt"),
                 dict_dir=str(self.dict_dir),
             )
             model_config = sherpa_onnx.OfflineTtsModelConfig(
                 vits=vits_config,
                 num_threads=2 if device == "cpu" else 1,
+                debug=False,
                 provider=provider,
             )
             config = sherpa_onnx.OfflineTtsConfig(
                 model=model_config,
                 rule_fsts="",
+                max_num_sentences=2,
             )
             print("🔄 正在載入 TTS 模型...")
             self.tts = sherpa_onnx.OfflineTts(config)
             print("🚀 TTS 模型初始化成功!")
             # 測試模型
             test_audio = self.tts.generate(text="測試", sid=0, speed=1.0)
             if len(test_audio.samples) > 0:
                 print("✅ 模型測試通過!")
         except Exception as e:
             print(f"❌ 模型設置失敗: {e}")
             import traceback
             print(f"詳細錯誤: {traceback.format_exc()}")
             raise
+    def synthesize(self, text, speed=1.0, enable_conversion=True):
+        """合成語音"""
         if not text or not text.strip():
             return None, "❌ 請輸入文本"
+        original_text = text.strip()
+        # 文本轉換
+        if enable_conversion:
+            text = self.text_converter.convert_text(original_text)
+        else:
+            text = original_text
+        if len(text) > 500:
             text = text[:500]
         try:
+            print(f"🎤 正在合成語音...")
+            if enable_conversion and text != original_text:
+                print(f"📝 使用轉換後文本: {text}")
+            audio = self.tts.generate(text=text, sid=0, speed=speed)
             samples = audio.samples
             sample_rate = audio.sample_rate
             if len(samples) == 0:
                 return None, "❌ 語音生成失敗：生成的音頻為空"
             audio_array = np.array(samples, dtype=np.float32)
             if len(audio_array.shape) > 1:
                 audio_array = audio_array.mean(axis=1)
             max_val = np.max(np.abs(audio_array))
             if max_val > 0:
                 audio_array = audio_array / max_val * 0.9
             duration = len(audio_array) / sample_rate
             print(f"✅ 語音合成完成! 長度: {duration:.2f}秒")
+            status_info = f"✅ 語音合成成功！\n📊 採樣率: {sample_rate}Hz\n⏱️ 時長: {duration:.2f}秒"
+            if enable_conversion and text != original_text:
+                status_info += f"\n🔄 已轉換: {original_text} → {text}"
+            return (sample_rate, audio_array), status_info
         except Exception as e:
             error_msg = f"❌ 語音合成失敗: {str(e)}"
     model_status = f"🔴 模型載入失敗: {str(e)}"
+def generate_speech(text, speed, enable_conversion):
+    """Gradio 介面函數"""
     if tts_model is None:
         return None, f"❌ TTS 模型未正確載入\n\n詳情: {model_status}"
+    return tts_model.synthesize(text, speed, enable_conversion)
 def create_interface():
+    # 預設範例文本
     examples = [
+        ["你好，歡迎使用繁體中文語音合成系統！", 1.0, True],
+        ["今天是2024年1月1日，天氣很好。", 1.0, True],
+        ["我的email是test@gmail.com，請聯繫我。", 1.0, True],
+        ["這是一個AI技術的demo，使用Python開發。", 1.1, True],
+        ["Hello world! 這是一個測試。", 1.0, True],
+        ["iPhone 15和Samsung Galaxy哪個比較好？", 0.9, True],
     ]
     device_info = "🎮 GPU" if torch.cuda.is_available() else "💻 CPU"
     with gr.Blocks(
+        title="繁體中文語音合成 - Breeze2-VITS Enhanced",
         theme=gr.themes.Soft(),
         css="""
         .gradio-container {
+            max-width: 1000px !important;
             margin: auto !important;
         }
         .status-box {
         gr.HTML(f"""
         <div class="status-box">
+            <h1>🎙️ 繁體中文語音合成 - Breeze2-VITS Enhanced</h1>
             <p><strong>狀態:</strong> {model_status} | <strong>設備:</strong> {device_info}</p>
         </div>
         """)
         gr.HTML("""
         <div class="feature-box">
+            <strong>🇹🇼 專業台灣國語 TTS</strong> | 🔄 自動英數轉換 | 🎯 智慧文本處理
         </div>
         """)
         if not tts_model:
             gr.Markdown(f"""
             ### ⚠️ 模型載入失敗
             **錯誤詳情**: {model_status}
             """)
         with gr.Row():
             with gr.Column(scale=1):
                 text_input = gr.Textbox(
+                    label="📝 輸入文本 (支援中英混合、數字)",
+                    placeholder="請輸入要合成的文本，支援中文、英文、數字混合...",
                     lines=5,
                     max_lines=8,
+                    value="你好！今天是2024年，歡迎使用AI語音合成系統。"
                 )
+                with gr.Row():
+                    speed = gr.Slider(
+                        label="⚡ 語音速度",
+                        minimum=0.5,
+                        maximum=2.0,
+                        step=0.1,
+                        value=1.0,
+                        info="調節語音播放速度"
+                    )
+                    enable_conversion = gr.Checkbox(
+                        label="🔄 啟用英數轉換",
+                        value=True,
+                        info="自動將英文和數字轉換為中文發音"
+                    )
                 generate_btn = gr.Button(
                     "🎵 生成台灣國語語音",
                     variant="primary",
                 )
             with gr.Column(scale=1):
                 audio_output = gr.Audio(
                     label="🔊 生成的語音",
                     type="numpy",
                     show_download_button=True
                 )
                 status_msg = gr.Textbox(
                     label="📊 狀態資訊",
                     interactive=False,
+                    lines=5,
                     value="準備就緒，請輸入文本並點擊生成語音" if tts_model else f"模型載入失敗: {model_status}"
                 )
+        if tts_model:
             gr.Examples(
                 examples=examples,
+                inputs=[text_input, speed, enable_conversion],
                 outputs=[audio_output, status_msg],
                 fn=generate_speech,
                 cache_examples=False,
+                label="📚 範例文本 (支援中英數混合)"
             )
+        with gr.Accordion("📋 使用說明與功能特色", open=False):
             gr.Markdown(f"""
+            ### 🚀 主要功能
+            #### 🔄 智慧文本轉換
+            - **英文轉換**: hello → 哈囉, AI → 人工智慧
+            - **數字轉換**: 123 → 一二三, 2024 → 二零二四
+            - **品牌名稱**: Apple → 蘋果, Google → 谷歌
+            - **技術詞彙**: API → 程式介面, CPU → 中央處理器
+            #### 🎯 支援內容
+            - 繁體中文文本
+            - 英文單詞和句子
+            - 阿拉伯數字
+            - 混合語言文本
+            - 常見縮寫和品牌
+            ### 📝 使用技巧
+            1. **啟用轉換**: 勾選「啟用英數轉換」自動處理英文和數字
+            2. **關閉轉換**: 取消勾選以使用原始文本（純中文效果最佳）
+            3. **混合文本**: 支援「今天天氣很好，temperature是25度」這樣的混合文本
+            4. **專有名詞**: 系統已內建常見品牌和技術詞彙的中文發音
             ### 🔧 技術資訊
             - **模型**: MediaTek Breeze2-VITS-onnx
+            - **轉換規則**: {len(tts_model.text_converter.conversion_map) if tts_model else 0} 個內建對照
+            - **支援格式**: 中文、英文、數字、符號
             - **運行設備**: {device_info}
             - **模型狀態**: {model_status}
+            ### ⚙️ 自定義轉換
+            您可以編輯 `text_mapping.txt` 文件來添加自定義的轉換規則：
+            ```
+            your_word|您的中文發音
+            brand_name|品牌中文名
+            ```
             ### 🛠️ 故障排除
+            - **英文不發音**: 確保啟用「英數轉換」功能
+            - **數字不發音**: 檢查轉換功能是否開啟
+            - **發音不準**: 嘗試關閉轉換使用純中文文本
+            - **載入失敗**: 檢查模型文件是否完整
             """)
+        # 事件綁定
         generate_btn.click(
             fn=generate_speech,
+            inputs=[text_input, speed, enable_conversion],
             outputs=[audio_output, status_msg],
             api_name="generate_speech"
         )
         text_input.submit(
             fn=generate_speech,
+            inputs=[text_input, speed, enable_conversion],
             outputs=[audio_output, status_msg]
         )

text_mapping.txt ADDED Viewed

	@@ -0,0 +1,217 @@

+# Breeze2-VITS 英文和數字轉中文對照表
+# 格式：原文|中文發音
+# 支援正則表達式匹配
+# === 數字轉換 ===
+0|零
+1|一
+2|二
+3|三
+4|四
+5|五
+6|六
+7|七
+8|八
+9|九
+10|十
+11|十一
+12|十二
+13|十三
+14|十四
+15|十五
+16|十六
+17|十七
+18|十八
+19|十九
+20|二十
+# === 常用英文單詞 ===
+hello|哈囉
+hi|嗨
+hey|嘿
+bye|拜拜
+goodbye|再見
+ok|歐凱
+okay|歐凱
+yes|是的
+no|不
+good|好的
+bad|不好
+new|新的
+old|舊的
+big|大的
+small|小的
+long|長的
+short|短的
+# === 技術詞彙 ===
+ai|人工智慧
+cpu|中央處理器
+gpu|圖形處理器
+app|應用程式
+api|程式介面
+url|網址
+html|超文本標記語言
+css|層疊樣式表
+js|腳本語言
+javascript|腳本語言
+python|派森
+java|爪哇
+php|皮H皮
+sql|結構化查詢語言
+json|資料格式
+xml|標記語言
+http|超文本傳輸協定
+https|安全超文本傳輸協定
+ftp|檔案傳輸協定
+ssh|安全外殼協定
+# === 社交媒體和品牌 ===
+facebook|臉書
+instagram|照片分享平台
+twitter|推特
+youtube|影片平台
+google|谷歌
+apple|蘋果
+microsoft|微軟
+amazon|亞馬遜
+netflix|網飛
+spotify|音樂平台
+uber|優步
+tesla|特斯拉
+nike|耐吉
+samsung|三星
+sony|索尼
+# === 常用英文字母 ===
+a|欸
+b|比
+c|西
+d|迪
+e|伊
+f|艾芙
+g|吉
+h|艾奇
+i|愛
+j|傑
+k|凱
+l|艾爾
+m|艾姆
+n|恩
+o|歐
+p|皮
+q|克優
+r|艾爾
+s|艾斯
+t|提
+u|優
+v|威
+w|達布優
+x|艾克斯
+y|歪
+z|資德
+# === 時間相關 ===
+am|上午
+pm|下午
+monday|星期一
+tuesday|星期二
+wednesday|星期三
+thursday|星期四
+friday|星期五
+saturday|星期六
+sunday|星期日
+january|一月
+february|二月
+march|三月
+april|四月
+may|五月
+june|六月
+july|七月
+august|八月
+september|九月
+october|十月
+november|十一月
+december|十二月
+# === 常用縮寫 ===
+diy|自己動手做
+wifi|無線網路
+usb|通用序列匯流排
+cd|光碟
+dvd|數位影音光碟
+mp3|音樂檔案
+mp4|影片檔案
+pdf|可攜式文件格式
+jpg|圖片格式
+png|圖片格式
+gif|動圖格式
+zip|壓縮檔案
+rar|壓縮檔案
+# === 學術和專業詞彙 ===
+phd|博士
+mba|企業管理碩士
+ceo|執行長
+cto|技術長
+cfo|財務長
+hr|人力資源
+pr|公關
+it|資訊技術
+iot|物聯網
+ar|擴增實境
+vr|虛擬實境
+ml|機器學習
+dl|深度學習
+nlp|自然語言處理
+cv|電腦視覺
+# === 日常用語 ===
+email|電子郵件
+e-mail|電子郵件
+website|網站
+online|線上
+offline|離線
+download|下載
+upload|上傳
+login|登入
+logout|登出
+password|密碼
+username|使用者名稱
+update|更新
+upgrade|升級
+install|安裝
+uninstall|解除安裝
+backup|備份
+restore|還原
+# === 常見組織和地名 ===
+usa|美國
+uk|英國
+nyc|紐約市
+la|洛杉磯
+sf|舊金山
+nasa|美國太空總署
+fbi|聯邦調查局
+cia|中央情報局
+who|世界衛生組織
+un|聯合國
+eu|歐盟
+nato|北大西洋公約組織
+# === 其他常用 ===
+tv|電視
+pc|個人電腦
+mac|蘋果電腦
+ios|蘋果作業系統
+android|安卓系統
+windows|視窗系統
+linux|林納克斯系統
+xbox|遊戲主機
+ps|遊戲主機
+nintendo|任天堂
+steam|遊戲平台
+twitch|直播平台
+discord|語音平台
+zoom|視訊會議
+slack|辦公通訊軟體