Spaces:

LTTEAM
/

LyTranTTS-Free

Paused

App Files Files Community

LTTEAM commited on Jul 14, 2025

Commit

1fb759a

verified ·

1 Parent(s): dbc2e4d

Update fix

Browse files

Files changed (1) hide show

fix +426 -385

fix CHANGED Viewed

@@ -1,386 +1,427 @@
-import json
-import asyncio
-import os
-import re
-import subprocess
-from pathlib import Path
-import gradio as gr
-from edge_tts import Communicate
-from gtts import gTTS
-VOICES_FILE = Path(__file__).parent / "voices.json"
-with open(VOICES_FILE, encoding="utf-8") as f:
-    voices_data = json.load(f)
-languages = sorted(voices_data.keys())
-def get_genders(lang):
-    return sorted(voices_data.get(lang, {}).keys())
-def get_edge_voices(lang, gender):
-    return [v["display_name"] for v in voices_data.get(lang, {}).get(gender, [])]
-# Map Edge display_name → voice_code
-edge_voice_map = {
-    v["display_name"]: v["voice_code"]
-    for block in voices_data.values()
-    for gender_block in block.values()
-    for v in gender_block
-}
-MAX_CHARS = 5000  # Edge-TTS giới hạn ~5000 ký tự
-def split_text(text, max_chars=MAX_CHARS):
-    parts = re.split(r'(?<=[。！？.!?,;:])', text)
-    segments, buf = [], ""
-    for part in parts:
-        if len(buf) + len(part) <= max_chars:
-            buf += part
-        else:
-            if buf:
-                segments.append(buf)
-            while len(part) > max_chars:
-                segments.append(part[:max_chars])
-                part = part[max_chars:]
-            buf = part
-    if buf:
-        segments.append(buf)
-    return segments
-def merge_audios(seg_paths, output_path):
-    list_file = "concat_list.txt"
-    with open(list_file, "w", encoding="utf-8") as f:
-        for p in seg_paths:
-            f.write(f"file '{os.path.abspath(p)}'\n")
-    subprocess.run([
-        "ffmpeg", "-y", "-f", "concat", "-safe", "0",
-        "-i", list_file, "-c", "copy", output_path
-    ], check=True)
-    os.remove(list_file)
-    for p in seg_paths:
-        os.remove(p)
-def get_audio_duration(path):
-    # trả về duration in seconds (float) qua ffprobe
-    out = subprocess.check_output([
-        "ffprobe", "-v", "error",
-        "-show_entries", "format=duration",
-        "-of", "default=noprint_wrappers=1:nokey=1",
-        path
-    ])
-    return float(out.strip())
-async def _edge_tts(text, voice_code, rate, pitch, out_path):
-    tts = Communicate(text=text, voice=voice_code, rate=rate, pitch=pitch)
-    await tts.save(out_path)
-def run_edge_tts(text, voice_name, rate_slider, pitch_slider, out_path):
-    rate = f"{rate_slider:+d}%"
-    pitch = f"{pitch_slider:+d}Hz"
-    voice_code = edge_voice_map[voice_name]
-    if os.path.exists(out_path):
-        os.remove(out_path)
-    asyncio.run(_edge_tts(text, voice_code, rate, pitch, out_path))
-def run_google_tts(text, lang_code, out_path):
-    # lang_code lấy từ mã ngôn ngữ như 'vi' hoặc 'en'
-    tts = gTTS(text=text, lang=lang_code)
-    tts.save(out_path)
-def build_srt(segments, durations, srt_path):
-    def fmt(ts):
-        h = int(ts // 3600)
-        m = int((ts%3600)//60)
-        s = int(ts%60)
-        ms = int((ts - int(ts))*1000)
-        return f"{h:02}:{m:02}:{s:02},{ms:03}"
-    with open(srt_path, "w", encoding="utf-8") as f:
-        cum = 0.0
-        for i, (seg, dur) in enumerate(zip(segments, durations), start=1):
-            start = fmt(cum)
-            end = fmt(cum + dur)
-            f.write(f"{i}\n{start} --> {end}\n{seg.strip()}\n\n")
-            cum += dur
-def generate_tts(text, engine, lang, gender, voice_name, rate, pitch):
-    if not text.strip():
-        return None, None
-    segments = split_text(text)
-    seg_files, durations = [], []
-    # choose synth per engine
-    for idx, seg in enumerate(segments):
-        seg_path = f"seg_{idx}.mp3"
-        if engine == "Edge":
-            run_edge_tts(seg, voice_name, rate, pitch, seg_path)
-        else:
-            # google chỉ dùng mã 'vi' nếu Vietnamese, else default 'en'
-            lang_code = "vi" if "Việt" in lang else "en"
-            run_google_tts(seg, lang_code, seg_path)
-        seg_files.append(seg_path)
-        durations.append(get_audio_duration(seg_path))
-    out_audio = "LyTranTTS.mp3"
-    merge_audios(seg_files, out_audio)
-    # build .srt
-    srt_file = "LyTranTTS.srt"
-    build_srt(segments, durations, srt_file)
-    return out_audio, srt_file
-def preview_voice(engine, lang, gender, voice_name, rate, pitch):
-    text = "Xin chào! Đây là ứng dụng chuyển văn bản thành giọng, nói được phát triển bởi Lý Trần." if "Việt" in lang else "Hello, This is a Text to Speech, Speech App developed by Ly Tran"
-    out = "LyTranTTS.mp3"
-    if engine == "Edge":
-        run_edge_tts(text, voice_name, rate, pitch, out)
-    else:
-        lang_code = "vi" if "Việt" in lang else "en"
-        run_google_tts(text, lang_code, out)
-    return out
-def on_language_change(lang):
-    genders = get_genders(lang)
-    default_gender = genders[0] if genders else None
-    voices = get_edge_voices(lang, default_gender) if default_gender else []
-    default_voice = voices[0] if voices else None
-    return (
-        gr.update(choices=genders, value=default_gender),
-        gr.update(choices=voices, value=default_voice),
-    )
-def on_gender_change(lang, gender):
-    voices = get_edge_voices(lang, gender)
-    default_voice = voices[0] if voices else None
-    return gr.update(choices=voices, value=default_voice)
-DEFAULT_LANG = "Đa Ngôn Ngữ"
-# Custom CSS for better styling
-custom_css = """
-:root {
-    --primary: #4f46e5;
-    --secondary: #f9fafb;
-    --accent: #10b981;
-    --text: #1f2937;
-    --border: #e5e7eb;
-}
-body {
-    font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif;
-}
-.gradio-container {
-    max-width: 900px !important;
-    margin: 0 auto;
-    background-color: white;
-    border-radius: 12px;
-    box-shadow: 0 4px 6px -1px rgba(0, 0, 0, 0.1);
-}
-h1 {
-    color: var(--primary) !important;
-    font-weight: 700 !important;
-    margin-bottom: 0.5rem !important;
-}
-.description {
-    color: var(--text) !important;
-    margin-bottom: 1.5rem !important;
-    font-size: 1rem !important;
-}
-.input-section, .output-section {
-    background-color: var(--secondary);
-    padding: 1.5rem;
-    border-radius: 8px;
-    margin-bottom: 1.5rem;
-    border: 1px solid var(--border);
-}
-.input-section label, .output-section label {
-    font-weight: 600 !important;
-    color: var(--text) !important;
-}
-.tab {
-    background-color: white !important;
-    border-radius: 8px !important;
-    padding: 1rem !important;
-}
-button {
-    background-color: var(--primary) !important;
-    color: white !important;
-    border: none !important;
-    border-radius: 6px !important;
-    padding: 0.5rem 1rem !important;
-    font-weight: 500 !important;
-    transition: all 0.2s !important;
-}
-button:hover {
-    background-color: #4338ca !important;
-    transform: translateY(-1px) !important;
-}
-.preview-btn {
-    background-color: var(--accent) !important;
-}
-.preview-btn:hover {
-    background-color: #0d9b6e !important;
-}
-.slider-container {
-    margin-top: 1rem;
-}
-.slider-container label {
-    margin-bottom: 0.5rem;
-    display: block;
-}
-footer {
-    text-align: center;
-    margin-top: 2rem;
-    color: #6b7280;
-    font-size: 0.875rem;
-}
-"""
-with gr.Blocks(title="LyTranTTS - Phiên bản miễn phí", css=custom_css) as demo:
-    # Header Section
-    with gr.Row():
-        gr.Markdown("""
-        <div style="text-align: center; width: 100%;">
-            <h1 style="margin-bottom: 0;">LyTranTTS - Phiên bản miễn phí</h1>
-            <p style="color: #6b7280; margin-top: 0.5rem;">Công cụ chuyển văn bản thành giọng nói chuyên nghiệp</p>
-        </div>
-        """)
-    # Main Description
-    gr.Markdown("""
-    <div class="description">
-    Công cụ chuyển văn bản thành giọng nói với nhiều tùy chọn ngôn ngữ và giọng đọc tự nhiên.
-    Không giới hạn ký tự & cho phép tải file srt.
-    </div>
-    """)
-    # Input Section
-    with gr.Column(elem_classes="input-section"):
-        # Engine Selection
-        engine = gr.Radio(
-            ["Edge", "Google"],
-            label="Chọn Engine TTS",
-            value="Edge",
-            info="Edge TTS hỗ trợ nhiều giọng đọc hơn, Google TTS đơn giản và nhanh"
-        )
-        # Text Input
-        text_input = gr.Textbox(
-            label="Nhập văn bản cần chuyển đổi",
-            lines=8,
-            placeholder="Nhập hoặc dán văn bản của bạn vào đây...",
-            elem_id="text-input"
-        )
-        # Voice Configuration
-        with gr.Row():
-            with gr.Column():
-                lang_dd = gr.Dropdown(
-                    label="Ngôn ngữ",
-                    choices=languages,
-                    value=DEFAULT_LANG,
-                    info="Chọn ngôn ngữ phù hợp với văn bản"
-                )
-            with gr.Column():
-                gender_dd = gr.Dropdown(
-                    label="Giới tính giọng đọc",
-                    choices=get_genders(DEFAULT_LANG),
-                    value=get_genders(DEFAULT_LANG)[0],
-                    interactive=True
-                )
-            with gr.Column():
-                voice_dd = gr.Dropdown(
-                    label="Chọn giọng đọc",
-                    choices=get_edge_voices(DEFAULT_LANG, get_genders(DEFAULT_LANG)[0]),
-                    value=get_edge_voices(DEFAULT_LANG, get_genders(DEFAULT_LANG)[0])[0],
-                    info="Chọn giọng đọc yêu thích của bạn"
-                )
-        # Voice Adjustment
-        with gr.Row():
-            with gr.Column():
-                rate_sl = gr.Slider(
-                    -50, 50,
-                    value=0,
-                    step=1,
-                    label="Điều chỉnh tốc độ (%)",
-                    info="Tăng/giảm tốc độ giọng đọc"
-                )
-            with gr.Column():
-                pitch_sl = gr.Slider(
-                    -50, 50,
-                    value=0,
-                    step=1,
-                    label="Điều chỉnh cao độ (Hz)",
-                    info="Tăng/giảm độ cao của giọng nói"
-                )
-    # Action Buttons
-    with gr.Row():
-        gen_btn = gr.Button("Tạo giọng nói", variant="primary")
-        preview_btn = gr.Button("Nghe thử giọng", variant="secondary", elem_classes="preview-btn")
-    # Output Section
-    with gr.Column(elem_classes="output-section"):
-        with gr.Tabs():
-            with gr.TabItem("Kết quả chính"):
-                out_audio = gr.Audio(
-                    label="Âm thanh đầu ra (MP3)",
-                    type="filepath",
-                    autoplay=True,
-                    elem_id="output-audio"
-                )
-                out_srt = gr.File(
-                    label="File phụ đề (SRT)",
-                    file_types=[".srt"],
-                    elem_id="output-srt"
-                )
-            with gr.TabItem("Bản xem trước"):
-                prev_audio = gr.Audio(
-                    label="Bản thử giọng",
-                    type="filepath",
-                    autoplay=True,
-                    elem_id="preview-audio"
-                )
-    # Footer
-    gr.Markdown("""
-    <footer>
-    <p>Phát triển bởi <strong>Lý Trần</strong> | Cộng đồng LTTEAM</p>
-    <p><a href="https://www.facebook.com/groups/622526090937760" target="_blank">Tham gia nhóm Facebook</a></p>
-    </footer>
-    """)
-    # Update dropdowns
-    lang_dd.change(on_language_change, inputs=[lang_dd], outputs=[gender_dd, voice_dd])
-    gender_dd.change(on_gender_change, inputs=[lang_dd, gender_dd], outputs=[voice_dd])
-    # Generate & SRT
-    gen_btn.click(
-        fn=generate_tts,
-        inputs=[text_input, engine, lang_dd, gender_dd, voice_dd, rate_sl, pitch_sl],
-        outputs=[out_audio, out_srt]
-    )
-    # Preview
-    preview_btn.click(
-        fn=preview_voice,
-        inputs=[engine, lang_dd, gender_dd, voice_dd, rate_sl, pitch_sl],
-        outputs=[prev_audio]
-    )
-if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0")

+import json
+import asyncio
+import os
+import re
+import subprocess
+from pathlib import Path
+import gradio as gr
+from edge_tts import Communicate
+from gtts import gTTS
+import requests
+import base64
+import wave
+# EDGE voices
+VOICES_FILE = Path(__file__).parent / "voices.json"
+with open(VOICES_FILE, encoding="utf-8") as f:
+    voices_data = json.load(f)
+languages = sorted(voices_data.keys())
+def get_genders(lang):
+    return sorted(voices_data.get(lang, {}).keys())
+def get_edge_voices(lang, gender):
+    return [v["display_name"] for v in voices_data.get(lang, {}).get(gender, [])]
+edge_voice_map = {
+    v["display_name"]: v["voice_code"]
+    for block in voices_data.values()
+    for gender_block in block.values()
+    for v in gender_block
+}
+# Gemini voices (hardcoded)
+GEMINI_VOICES = [
+    "Zephyr", "Puck", "Charon", "Kore", "Fenrir", "Leda", "Orus", "Aoede",
+    "Callirrhoe", "Autonoe", "Enceladus", "Iapetus", "Umbriel", "Algieba",
+    "Despina", "Erinome", "Algenib", "Rasalgethi", "Laomedeia", "Achernar",
+    "Alnilam", "Schedar", "Gacrux", "Pulcherrima", "Achird",
+    "Zubenelgenubi", "Vindemiatrix", "Sadachbia", "Sadaltager", "Sulafat"
+]
+def get_gemini_voices():
+    return GEMINI_VOICES
+MAX_CHARS = 5000  # Edge-TTS giới hạn ~5000 ký tự
+def split_text(text, max_chars=MAX_CHARS):
+    parts = re.split(r'(?<=[。！？.!?,;:])', text)
+    segments, buf = [], ""
+    for part in parts:
+        if len(buf) + len(part) <= max_chars:
+            buf += part
+        else:
+            if buf:
+                segments.append(buf)
+            while len(part) > max_chars:
+                segments.append(part[:max_chars])
+                part = part[max_chars:]
+            buf = part
+    if buf:
+        segments.append(buf)
+    return segments
+def merge_audios(seg_paths, output_path):
+    list_file = "concat_list.txt"
+    with open(list_file, "w", encoding="utf-8") as f:
+        for p in seg_paths:
+            f.write(f"file '{os.path.abspath(p)}'\n")
+    subprocess.run([
+        "ffmpeg", "-y", "-f", "concat", "-safe", "0",
+        "-i", list_file, "-c", "copy", output_path
+    ], check=True)
+    os.remove(list_file)
+    for p in seg_paths:
+        os.remove(p)
+def get_audio_duration(path):
+    out = subprocess.check_output([
+        "ffprobe", "-v", "error",
+        "-show_entries", "format=duration",
+        "-of", "default=noprint_wrappers=1:nokey=1",
+        path
+    ])
+    return float(out.strip())
+async def _edge_tts(text, voice_code, rate, pitch, out_path):
+    tts = Communicate(text=text, voice=voice_code, rate=rate, pitch=pitch)
+    await tts.save(out_path)
+def run_edge_tts(text, voice_name, rate_slider, pitch_slider, out_path):
+    rate = f"{rate_slider:+d}%"
+    pitch = f"{pitch_slider:+d}Hz"
+    voice_code = edge_voice_map[voice_name]
+    if os.path.exists(out_path):
+        os.remove(out_path)
+    asyncio.run(_edge_tts(text, voice_code, rate, pitch, out_path))
+def run_google_tts(text, lang_code, out_path):
+    tts = gTTS(text=text, lang=lang_code)
+    tts.save(out_path)
+def run_gemini_tts(text, model, api_key, voice_name, out_path):
+    API_URL_TEMPLATE = "https://generativelanguage.googleapis.com/v1beta/models/{model}:generateContent"
+    url = API_URL_TEMPLATE.format(model=model)
+    headers = {
+        "Content-Type": "application/json",
+        "X-goog-api-key": api_key
+    }
+    payload = {
+        "contents": [
+            { "parts": [ { "text": text } ] }
+        ],
+        "generationConfig": {
+            "responseModalities": ["AUDIO"],
+            "speechConfig": {
+                "voiceConfig": {
+                    "prebuiltVoiceConfig": {
+                        "voiceName": voice_name
+                    }
+                }
+            }
+        }
+    }
+    resp = requests.post(url, headers=headers, json=payload)
+    resp.raise_for_status()
+    b64 = resp.json()["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
+    pcm_data = base64.b64decode(b64)
+    wav_path = out_path.replace('.mp3', '.wav')
+    with wave.open(wav_path, "wb") as wf:
+        wf.setnchannels(1)
+        wf.setsampwidth(2)
+        wf.setframerate(24000)
+        wf.writeframes(pcm_data)
+    subprocess.run(['ffmpeg', '-y', '-i', wav_path, out_path], check=True)
+    os.remove(wav_path)
+def build_srt(segments, durations, srt_path):
+    def fmt(ts):
+        h = int(ts // 3600)
+        m = int((ts%3600)//60)
+        s = int(ts%60)
+        ms = int((ts - int(ts))*1000)
+        return f"{h:02}:{m:02}:{s:02},{ms:03}"
+    with open(srt_path, "w", encoding="utf-8") as f:
+        cum = 0.0
+        for i, (seg, dur) in enumerate(zip(segments, durations), start=1):
+            start = fmt(cum)
+            end = fmt(cum + dur)
+            f.write(f"{i}\n{start} --> {end}\n{seg.strip()}\n\n")
+            cum += dur
+def generate_tts(text, engine, lang, gender, voice_name, rate, pitch, api_key, gemini_model, gemini_voice):
+    if not text.strip():
+        return None, None
+    segments = split_text(text)
+    seg_files, durations = [], []
+    for idx, seg in enumerate(segments):
+        seg_path = f"seg_{idx}.mp3"
+        if engine == "Edge":
+            run_edge_tts(seg, voice_name, rate, pitch, seg_path)
+        elif engine == "Google":
+            lang_code = "vi" if "Việt" in lang else "en"
+            run_google_tts(seg, lang_code, seg_path)
+        elif engine == "Google API":
+            if not api_key:
+                raise Exception("Bạn phải nhập API key Google Gemini TTS!")
+            run_gemini_tts(seg, gemini_model, api_key, gemini_voice, seg_path)
+        seg_files.append(seg_path)
+        durations.append(get_audio_duration(seg_path))
+    out_audio = "LyTranTTS.mp3"
+    merge_audios(seg_files, out_audio)
+    srt_file = "LyTranTTS.srt"
+    build_srt(segments, durations, srt_file)
+    return out_audio, srt_file
+def preview_voice(engine, lang, gender, voice_name, rate, pitch, api_key, gemini_model, gemini_voice):
+    text = "Xin chào! Đây là ứng dụng chuyển văn bản thành giọng, nói được phát triển bởi Lý Trần." if "Việt" in lang else "Hello, This is a Text to Speech, Speech App developed by Ly Tran"
+    out = "LyTranTTS.mp3"
+    if engine == "Edge":
+        run_edge_tts(text, voice_name, rate, pitch, out)
+    elif engine == "Google":
+        lang_code = "vi" if "Việt" in lang else "en"
+        run_google_tts(text, lang_code, out)
+    elif engine == "Google API":
+        if not api_key:
+            raise Exception("Bạn phải nhập API key Google Gemini TTS!")
+        run_gemini_tts(text, gemini_model, api_key, gemini_voice, out)
+    return out
+def on_engine_change(engine):
+    # Show/hide Gemini fields when engine changes
+    show_gemini = engine == "Google API"
+    return (
+        gr.update(visible=show_gemini),   # api_key_input
+        gr.update(visible=show_gemini),   # gemini_model_input
+        gr.update(visible=not show_gemini),   # voice_dd (Edge voice)
+        gr.update(visible=show_gemini),   # gemini_voice_dd
+    )
+def on_language_change(lang):
+    genders = get_genders(lang)
+    default_gender = genders[0] if genders else None
+    voices = get_edge_voices(lang, default_gender) if default_gender else []
+    default_voice = voices[0] if voices else None
+    return (
+        gr.update(choices=genders, value=default_gender),
+        gr.update(choices=voices, value=default_voice),
+    )
+def on_gender_change(lang, gender):
+    voices = get_edge_voices(lang, gender)
+    default_voice = voices[0] if voices else None
+    return gr.update(choices=voices, value=default_voice)
+DEFAULT_LANG = "Đa Ngôn Ngữ"
+DEFAULT_MODEL = "gemini-2.5-flash-preview-tts"
+custom_css = """
+:root {
+    --primary: #4f46e5;
+    --secondary: #f9fafb;
+    --accent: #10b981;
+    --text: #1f2937;
+    --border: #e5e7eb;
+}
+body {
+    font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif;
+}
+.gradio-container {
+    max-width: 900px !important;
+    margin: 0 auto;
+    background-color: white;
+    border-radius: 12px;
+    box-shadow: 0 4px 6px -1px rgba(0, 0, 0, 0.1);
+}
+h1 {
+    color: var(--primary) !important;
+    font-weight: 700 !important;
+    margin-bottom: 0.5rem !important;
+}
+.description {
+    color: var(--text) !important;
+    margin-bottom: 1.5rem !important;
+    font-size: 1rem !important;
+}
+.input-section, .output-section {
+    background-color: var(--secondary);
+    padding: 1.5rem;
+    border-radius: 8px;
+    margin-bottom: 1.5rem;
+    border: 1px solid var(--border);
+}
+.input-section label, .output-section label {
+    font-weight: 600 !important;
+    color: var(--text) !important;
+}
+.tab {
+    background-color: white !important;
+    border-radius: 8px !important;
+    padding: 1rem !important;
+}
+button {
+    background-color: var(--primary) !important;
+    color: white !important;
+    border: none !important;
+    border-radius: 6px !important;
+    padding: 0.5rem 1rem !important;
+    font-weight: 500 !important;
+    transition: all 0.2s !important;
+}
+button:hover {
+    background-color: #4338ca !important;
+    transform: translateY(-1px) !important;
+}
+.preview-btn {
+    background-color: var(--accent) !important;
+}
+.preview-btn:hover {
+    background-color: #0d9b6e !important;
+}
+.slider-container {
+    margin-top: 1rem;
+}
+.slider-container label {
+    margin-bottom: 0.5rem;
+    display: block;
+}
+footer {
+    text-align: center;
+    margin-top: 2rem;
+    color: #6b7280;
+    font-size: 0.875rem;
+}
+"""
+with gr.Blocks(title="LyTranTTS - Phiên bản miễn phí", css=custom_css) as demo:
+    with gr.Row():
+        gr.Markdown("""
+        <div style="text-align: center; width: 100%;">
+            <h1 style="margin-bottom: 0;">LyTranTTS - Phiên bản miễn phí</h1>
+            <p style="color: #6b7280; margin-top: 0.5rem;">Công cụ chuyển văn bản thành giọng nói chuyên nghiệp</p>
+        </div>
+        """)
+    gr.Markdown("""
+    <div class="description">
+    Công cụ chuyển văn bản thành giọng nói với nhiều tùy chọn ngôn ngữ và giọng đọc tự nhiên.
+    Không giới hạn ký tự & cho phép tải file srt.
+    </div>
+    """)
+    with gr.Column(elem_classes="input-section"):
+        engine = gr.Radio(
+            ["Edge", "Google", "Google API"],
+            label="Chọn Engine TTS",
+            value="Edge",
+            info="Edge TTS hỗ trợ nhiều giọng đọc hơn, Google TTS đơn giản và nhanh, Google API dùng API key Gemini"
+        )
+        text_input = gr.Textbox(
+            label="Nhập văn bản cần chuyển đổi",
+            lines=8,
+            placeholder="Nhập hoặc dán văn bản của bạn vào đây...",
+            elem_id="text-input"
+        )
+        with gr.Row():
+            with gr.Column():
+                lang_dd = gr.Dropdown(
+                    label="Ngôn ngữ",
+                    choices=languages,
+                    value=DEFAULT_LANG,
+                    info="Chọn ngôn ngữ phù hợp với văn bản"
+                )
+            with gr.Column():
+                gender_dd = gr.Dropdown(
+                    label="Giới tính giọng đọc",
+                    choices=get_genders(DEFAULT_LANG),
+                    value=get_genders(DEFAULT_LANG)[0],
+                    interactive=True
+                )
+            with gr.Column():
+                voice_dd = gr.Dropdown(
+                    label="Chọn giọng đọc",
+                    choices=get_edge_voices(DEFAULT_LANG, get_genders(DEFAULT_LANG)[0]),
+                    value=get_edge_voices(DEFAULT_LANG, get_genders(DEFAULT_LANG)[0])[0],
+                    info="Chọn giọng đọc yêu thích của bạn"
+                )
+            with gr.Column():
+                gemini_voice_dd = gr.Dropdown(
+                    label="Giọng Gemini",
+                    choices=get_gemini_voices(),
+                    value=get_gemini_voices()[0],
+                    visible=False
+                )
+        with gr.Row():
+            with gr.Column():
+                rate_sl = gr.Slider(
+                    -50, 50,
+                    value=0,
+                    step=1,
+                    label="Điều chỉnh tốc độ (%)",
+                    info="Tăng/giảm tốc độ giọng đọc"
+                )
+            with gr.Column():
+                pitch_sl = gr.Slider(
+                    -50, 50,
+                    value=0,
+                    step=1,
+                    label="Điều chỉnh cao độ (Hz)",
+                    info="Tăng/giảm độ cao của giọng nói"
+                )
+        with gr.Row():
+            api_key_input = gr.Textbox(
+                label="Google Gemini API key",
+                placeholder="Nhập API key Google Gemini của bạn...",
+                visible=False
+            )
+            gemini_model_input = gr.Textbox(
+                label="Model Gemini TTS",
+                value=DEFAULT_MODEL,
+                visible=False
+            )
+    with gr.Row():
+        gen_btn = gr.Button("Tạo giọng nói", variant="primary")
+        preview_btn = gr.Button("Nghe thử giọng", variant="secondary", elem_classes="preview-btn")
+    with gr.Column(elem_classes="output-section"):
+        with gr.Tabs():
+            with gr.TabItem("Kết quả chính"):
+                out_audio = gr.Audio(
+                    label="Âm thanh đầu ra (MP3)",
+                    type="filepath",
+                    autoplay=True,
+                    elem_id="output-audio"
+                )
+                out_srt = gr.File(
+                    label="File phụ đề (SRT)",
+                    file_types=[".srt"],
+                    elem_id="output-srt"
+                )
+            with gr.TabItem("Bản xem trước"):
+                prev_audio = gr.Audio(
+                    label="Bản thử giọng",
+                    type="filepath",
+                    autoplay=True,
+                    elem_id="preview-audio"
+                )
+    gr.Markdown("""
+    <footer>
+    <p>Phát triển bởi <strong>Lý Trần</strong> | Cộng đồng LTTEAM</p>
+    <p><a href="https://www.facebook.com/groups/622526090937760" target="_blank">Tham gia nhóm Facebook</a></p>
+    </footer>
+    """)
+    # Update dropdowns khi đổi engine
+    engine.change(on_engine_change, inputs=[engine], outputs=[api_key_input, gemini_model_input, voice_dd, gemini_voice_dd])
+    lang_dd.change(on_language_change, inputs=[lang_dd], outputs=[gender_dd, voice_dd])
+    gender_dd.change(on_gender_change, inputs=[lang_dd, gender_dd], outputs=[voice_dd])
+    # Generate
+    gen_btn.click(
+        fn=generate_tts,
+        inputs=[text_input, engine, lang_dd, gender_dd, voice_dd, rate_sl, pitch_sl, api_key_input, gemini_model_input, gemini_voice_dd],
+        outputs=[out_audio, out_srt]
+    )
+    preview_btn.click(
+        fn=preview_voice,
+        inputs=[engine, lang_dd, gender_dd, voice_dd, rate_sl, pitch_sl, api_key_input, gemini_model_input, gemini_voice_dd],
+        outputs=[prev_audio]
+    )
+if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0")