Spaces:

Plana-Archive
/

Project-SEKAI

Running

App Files Files Community

Plana-Archive commited on Mar 19

Commit

5ad521e

verified ·

1 Parent(s): c2836fc

Update app.py

Browse files

Files changed (1) hide show

app.py +262 -325

app.py CHANGED Viewed

@@ -1,7 +1,8 @@
 import json
 import os
-import re
-import random  # Impor random di sini
 import librosa
 import numpy as np
 import torch
@@ -14,344 +15,280 @@ from text import text_to_sequence, _clean_text
 from mel_processing import spectrogram_torch
 from huggingface_hub import hf_hub_download
-# Mengambil token dari Secret Variables (Settings Space)
-HF_TOKEN = os.getenv("HF_TOKEN")
 REPO_ID = "Plana-Archive/Plana-TTS"
 SUBFOLDER = "Prosekai-TTS/saved_model"
-# Setting CPU Mode untuk Space Gratis
 device = torch.device("cpu")
-limitation = os.getenv("SYSTEM") == "spaces"
 def get_text(text, hps, is_phoneme):
     text_norm = text_to_sequence(text, hps.symbols, [] if is_phoneme else hps.data.text_cleaners)
     if hps.data.add_blank:
         text_norm = commons.intersperse(text_norm, 0)
-    text_norm = LongTensor(text_norm)
-    return text_norm
-def create_tts_fn(model, hps, speaker_ids):
-    def tts_fn(text, speaker, speed, is_phoneme):
-        if limitation:
-            text_len = len(text)
-            max_len = 500
-            if is_phoneme:
-                max_len *= 3
-            if text_len > max_len:
-                return "Error: Text is too long", None
-        speaker_id = speaker_ids[speaker]
-        stn_tst = get_text(text, hps, is_phoneme)
-        with no_grad():
-            x_tst = stn_tst.unsqueeze(0).to(device)
-            x_tst_lengths = LongTensor([stn_tst.size(0)]).to(device)
-            sid = LongTensor([speaker_id]).to(device)
-            audio = model.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667,
-                                noise_scale_w=0.8, length_scale=1.0 / speed)[0][0, 0].data.cpu().float().numpy()
-        del stn_tst, x_tst, x_tst_lengths, sid
-        return "Success", (hps.data.sampling_rate, audio)
     return tts_fn
 def create_to_phoneme_fn(hps):
     def to_phoneme_fn(text):
-        return _clean_text(text, hps.data.text_cleaners) if text != "" else ""
     return to_phoneme_fn
-# ================== CSS LAYOUT YANG DIPERBARUI ==================
-css_layout = """
-    /* Warna tema utama: Hijau lembut dan tebal */
-    :root {
-        --primary-green: #2ecc71;
-        --soft-green: #d5f5e3;
-        --glow-green: rgba(46, 204, 113, 0.3);
-    }
-    /* Latar belakang utama putih cerah */
-    .gradio-container {
-        background-color: white !important;
-    }
-    /* Judul utama di tengah dan berwarna hijau */
-    h1 {
-        text-align: center !important;
-        color: #27ae60 !important;
-        text-shadow: 0 0 10px var(--glow-green);
-    }
-    /* Hilangkan footer Gradio default */
-    .gradio-footer {
-        display: none !important;
-    }
-    /* ===== BAGIAN SELECT CHARACTER (RADIO BUTTON DI-STYLE SEPERTI KOTAK) ===== */
-    .character-radio .gr-radio {
-        display: flex;
-        flex-direction: column;
-        gap: 8px;
-        max-height: 200px;
-        overflow-y: auto;
-        padding: 10px;
-        border: 2px solid var(--primary-green);
-        border-radius: 16px;
-        background: white;
-        box-shadow: 0 4px 15px var(--glow-green);
-    }
-    /* Sembunyikan radio button asli */
-    .character-radio .gr-radio input[type="radio"] {
-        display: none;
-    }
-    /* Style untuk setiap item label */
-    .character-radio .gr-radio label {
-        display: block;
-        background: linear-gradient(145deg, #ffffff, var(--soft-green));
-        border: 1px solid var(--primary-green);
-        border-radius: 30px;
-        padding: 8px 16px;
-        margin: 0;
-        cursor: pointer;
-        color: #2c3e50;
-        font-weight: bold;
-        text-align: center;
-        transition: all 0.3s ease;
-        box-shadow: 0 2px 8px rgba(0,0,0,0.05);
-    }
-    .character-radio .gr-radio label:hover {
-        background: var(--primary-green);
-        color: white;
-        transform: scale(1.02);
-        box-shadow: 0 6px 12px var(--glow-green);
-        border-color: white;
-    }
-    /* Saat terpilih */
-    .character-radio .gr-radio input[type="radio"]:checked + label {
-        background: var(--primary-green);
-        color: white;
-        border-color: white;
-        box-shadow: 0 0 0 2px white, 0 0 0 4px var(--primary-green);
-    }
-    /* Scrollbar kustom */
-    .character-radio .gr-radio::-webkit-scrollbar {
-        width: 8px;
-    }
-    .character-radio .gr-radio::-webkit-scrollbar-track {
-        background: var(--soft-green);
-        border-radius: 10px;
-    }
-    .character-radio .gr-radio::-webkit-scrollbar-thumb {
-        background: var(--primary-green);
-        border-radius: 10px;
-    }
-    /* ===== BACKGROUND HIJAU UNTUK LABEL TERTENTU (VERSI LEBIH AKURAT) ===== */
-    /* Target label untuk TextArea dengan id text-label */
-    .gr-box-wrapper:has(> #text-label) > label,
-    #text-label + label {
-        background-color: var(--primary-green) !important;
-        color: white !important;
-        padding: 4px 12px !important;
-        border-radius: 20px !important;
-        font-weight: bold !important;
-        box-shadow: none !important;
-        display: inline-block !important;
-        margin-bottom: 4px !important;
-    }
-    /* Target label untuk Slider dengan id speed-label */
-    .gr-box-wrapper:has(> #speed-label) > label,
-    #speed-label + label {
-        background-color: var(--primary-green) !important;
-        color: white !important;
-        padding: 4px 12px !important;
-        border-radius: 20px !important;
-        font-weight: bold !important;
-        box-shadow: none !important;
-        display: inline-block !important;
-        margin-bottom: 4px !important;
-    }
-    /* Target label untuk Textbox output message */
-    .gr-box-wrapper:has(> #output-msg-label) > label,
-    #output-msg-label + label {
-        background-color: var(--primary-green) !important;
-        color: white !important;
-        padding: 4px 12px !important;
-        border-radius: 20px !important;
-        font-weight: bold !important;
-        box-shadow: none !important;
-        display: inline-block !important;
-        margin-bottom: 4px !important;
-    }
-    /* Target label untuk Audio output */
-    .gr-box-wrapper:has(> #output-audio-label) > label,
-    #output-audio-label + label {
-        background-color: var(--primary-green) !important;
-        color: white !important;
-        padding: 4px 12px !important;
-        border-radius: 20px !important;
-        font-weight: bold !important;
-        box-shadow: none !important;
-        display: inline-block !important;
-        margin-bottom: 4px !important;
-    }
-    /* ===== CREDIT SECTION (hanya CREATED BY MUTSUMI) ===== */
-    .credit-section {
-        margin-top: 40px;
-        padding: 20px;
-        background: linear-gradient(135deg, #ffffff, #f0fff4);
-        border-top: 3px solid var(--primary-green);
-        border-radius: 30px 30px 0 0;
-        text-align: center;
-        box-shadow: 0 -5px 20px var(--glow-green);
-    }
-    .credit-text {
-        font-size: 1.8rem;
-        font-weight: bold;
-        color: var(--primary-green);
-        text-shadow: 0 0 10px var(--glow-green);
-        letter-spacing: 2px;
-    }
-    /* Gaya untuk loading Gradio (progress bar) menjadi hijau */
-    .gr-progress {
-        background: var(--primary-green) !important;
-    }
-    .gr-progress-track {
-        background: var(--soft-green) !important;
-    }
-    /* Memastikan elemen lain tetap seperti aslinya */
-    #advanced-btn {
-        color: white;
-        border-color: black;
-        background: black;
-        font-size: .7rem !important;
-        border-radius: 14px !important;
-    }
-    #advanced-options {
-        display: none;
-        margin-bottom: 20px;
-    }
 """
-# ================== AKHIR CSS ==================
-if __name__ == '__main__':
-    print("[*] Downloading model assets from Hub...")
-    # Menggunakan token dari environment variable
-    config_path = hf_hub_download(repo_id=REPO_ID, filename="config.json", subfolder=SUBFOLDER, token=HF_TOKEN)
-    model_path = hf_hub_download(repo_id=REPO_ID, filename="model.pth", subfolder=SUBFOLDER, token=HF_TOKEN)
-    cover_path = hf_hub_download(repo_id=REPO_ID, filename="cover.png", subfolder=SUBFOLDER, token=HF_TOKEN)
-    hps = utils.get_hparams_from_file(config_path)
-    model = SynthesizerTrn(
-        len(hps.symbols),
-        hps.data.filter_length // 2 + 1,
-        hps.train.segment_size // hps.data.hop_length,
-        n_speakers=hps.data.n_speakers,
-        **hps.model).to(device)
-    utils.load_checkpoint(model_path, model, None)
-    model.eval()
-    speaker_ids = [sid for sid, name in enumerate(hps.speakers) if name != "None"]
-    speakers = [name for sid, name in enumerate(hps.speakers) if name != "None"]
-    # Daftar contoh teks random (bisa ditambah)
     random_texts = [
-        "こんにちは。",
-        "おはようございます。",
-        "こんばんは。",
-        "今日はいい天気ですね。",
-        "プロジェクトセカイへようこそ！",
-        "Hatsune Miku",
-        "初音ミク",
-        "音街ウナ",
-        "鏡音リン",
-        "鏡音レン"
     ]
-    models_tts = [('プロセカ TTS', cover_path, speakers, '日本語 (Japanese)', 'こんにちは。',
-                   hps.symbols, create_tts_fn(model, hps, speaker_ids),
-                   create_to_phoneme_fn(hps))]
-    with gr.Blocks(css=css_layout, theme=gr.themes.Soft(primary_hue="green")) as app:
-        # Judul utama di tengah
-        gr.Markdown("# Project Sekai VITS\n\n")
-        with gr.TabItem("Proseka"):
-            for i, (name, cover, spks, lang, ex, syms, tts_fn, to_phoneme_fn) in enumerate(models_tts):
-                with gr.Column():
-                    # Menampilkan cover.png
-                    gr.Image(value=cover, label="Cover", show_label=False, width="100%")
-                    # ===== INPUT TEXT AREA dengan tombol Random =====
-                    with gr.Row():
-                        tts_input1 = gr.TextArea(
-                            label="Text", value=ex, elem_id="text-label"  # Hanya satu elem_id
-                        )
-                        random_btn = gr.Button("🎲 Random", scale=0, min_width=80)
-                    # ===== BAGIAN SELECT CHARACTER (RADIO BUTTON YANG DI-STYLE) =====
-                    gr.Markdown("### **Select Character**")
-                    character_radio = gr.Radio(
-                        choices=spks,
-                        value=spks[0],
-                        label="",
-                        elem_classes="character-radio"
-                    )
-                    # ===== SPEED SLIDER =====
-                    tts_input3 = gr.Slider(
-                        label="Speed", value=1, minimum=0.1, maximum=2, step=0.1,
-                        elem_id="speed-label"
-                    )
-                    # ===== ADVANCED OPTIONS =====
-                    with gr.Accordion(label="Advanced Options", open=False):
-                        phoneme_input = gr.Checkbox(value=False, label="Phoneme input")
-                        to_phoneme_btn = gr.Button("Convert text to phoneme")
-                        phoneme_list = gr.Dataset(
-                            label="Phoneme list",
-                            components=[tts_input1],
-                            samples=[[x] for x in syms]
-                        )
-                        phoneme_list_json = gr.Json(value=syms, visible=False)
-                    # ===== TOMBOL GENERATE =====
-                    tts_submit = gr.Button("Generate", variant="primary")
-                    tts_output1 = gr.Textbox(label="Output Message", elem_id="output-msg-label")
-                    tts_output2 = gr.Audio(label="Output Audio", elem_id="output-audio-label")
-                    # ===== FUNGSI RANDOM TEXT =====
-                    def set_random_text():
-                        return random.choice(random_texts)
-                    random_btn.click(
-                        fn=set_random_text,
-                        inputs=[],
-                        outputs=[tts_input1]
-                    )
-                    # ===== FUNGSI TTS =====
-                    tts_submit.click(
-                        tts_fn,
-                        [tts_input1, character_radio, tts_input3, phoneme_input],
-                        [tts_output1, tts_output2]
-                    )
-                    to_phoneme_btn.click(to_phoneme_fn, [tts_input1], [tts_input1])
-        # ===== CREDIT SECTION =====
-        with gr.Column(elem_classes="credit-section"):
-            gr.Markdown("""
-            <div class="credit-text">✨ CREATED BY MUTSUMI ✨</div>
-            """)
-    app.queue().launch()

 import json
 import os
+import sys
+import traceback
+import random
 import librosa
 import numpy as np
 import torch
 from mel_processing import spectrogram_torch
 from huggingface_hub import hf_hub_download
+# ================= KONFIGURASI =================
+HF_TOKEN = os.getenv("HF_TOKEN")  # Token dari Secret (jika diperlukan)
 REPO_ID = "Plana-Archive/Plana-TTS"
 SUBFOLDER = "Prosekai-TTS/saved_model"
 device = torch.device("cpu")
+limitation = os.getenv("SYSTEM") == "spaces"  # batasan teks di Spaces gratis
+# ================= FUNGSI BANTU =================
 def get_text(text, hps, is_phoneme):
+    """Mengubah teks menjadi tensor ID untuk model."""
     text_norm = text_to_sequence(text, hps.symbols, [] if is_phoneme else hps.data.text_cleaners)
     if hps.data.add_blank:
         text_norm = commons.intersperse(text_norm, 0)
+    return LongTensor(text_norm)
+def load_model_and_speakers():
+    """Memuat model dan daftar speaker dengan penanganan error."""
+    try:
+        print("[INFO] Downloading model assets...")
+        config_path = hf_hub_download(repo_id=REPO_ID, filename="config.json", subfolder=SUBFOLDER, token=HF_TOKEN)
+        model_path = hf_hub_download(repo_id=REPO_ID, filename="model.pth", subfolder=SUBFOLDER, token=HF_TOKEN)
+        cover_path = hf_hub_download(repo_id=REPO_ID, filename="cover.png", subfolder=SUBFOLDER, token=HF_TOKEN)
+        # Baca konfigurasi
+        hps = utils.get_hparams_from_file(config_path)
+        # Inisialisasi model
+        model = SynthesizerTrn(
+            len(hps.symbols),
+            hps.data.filter_length // 2 + 1,
+            hps.train.segment_size // hps.data.hop_length,
+            n_speakers=hps.data.n_speakers,
+            **hps.model
+        ).to(device)
+        # Muat bobot model
+        utils.load_checkpoint(model_path, model, None)
+        model.eval()
+        # Ekstrak daftar speaker
+        # Coba beberapa kemungkinan struktur data
+        if hasattr(hps, 'speakers') and isinstance(hps.speakers, list):
+            speakers = [name for name in hps.speakers if name != "None"]
+        elif hasattr(hps, 'speaker_names') and isinstance(hps.speaker_names, list):
+            speakers = [name for name in hps.speaker_names if name != "None"]
+        else:
+            # Fallback: buat speaker default berdasarkan jumlah
+            speakers = [f"Speaker {i+1}" for i in range(hps.data.n_speakers)]
+        # Pastikan tidak ada duplikat
+        speakers = list(dict.fromkeys(speakers))
+        speaker_ids = list(range(len(speakers)))
+        print(f"[INFO] Loaded {len(speakers)} speakers: {speakers}")
+        return model, hps, speakers, speaker_ids, cover_path
+    except Exception as e:
+        print("[ERROR] Gagal memuat model:")
+        traceback.print_exc()
+        raise gr.Error(f"Gagal memuat model: {str(e)}")
+# ================= FUNGSI TTS =================
+def create_tts_fn(model, hps, speaker_ids, speakers):
+    """Membuat fungsi TTS dengan penanganan error."""
+    def tts_fn(text, speaker_name, speed, is_phoneme):
+        try:
+            # Validasi input
+            if not text.strip():
+                return "Error: Teks kosong", None
+            if limitation and len(text) > (1500 if is_phoneme else 500):
+                return "Error: Teks terlalu panjang", None
+            # Cari ID speaker berdasarkan nama
+            try:
+                speaker_idx = speakers.index(speaker_name)
+                speaker_id = speaker_ids[speaker_idx]
+            except ValueError:
+                return f"Error: Speaker '{speaker_name}' tidak ditemukan", None
+            # Proses teks
+            stn_tst = get_text(text, hps, is_phoneme)
+            with no_grad():
+                x_tst = stn_tst.unsqueeze(0).to(device)
+                x_tst_lengths = LongTensor([stn_tst.size(0)]).to(device)
+                sid = LongTensor([speaker_id]).to(device)
+                # Inferensi
+                audio = model.infer(
+                    x_tst, x_tst_lengths,
+                    sid=sid,
+                    noise_scale=0.667,
+                    noise_scale_w=0.8,
+                    length_scale=1.0 / speed
+                )[0][0, 0].data.cpu().float().numpy()
+            return "Sukses", (hps.data.sampling_rate, audio)
+        except Exception as e:
+            print("[ERROR] Saat generate:")
+            traceback.print_exc()
+            return f"Error: {str(e)}", None
     return tts_fn
 def create_to_phoneme_fn(hps):
+    """Fungsi konversi teks ke fonem (jika diperlukan)."""
     def to_phoneme_fn(text):
+        return _clean_text(text, hps.data.text_cleaners) if text else ""
     return to_phoneme_fn
+# ================= CSS SEDERHANA =================
+css = """
+/* Latar putih bersih */
+.gradio-container { background: white !important; }
+/* Judul hijau di tengah */
+h1 { text-align: center; color: #2ecc71; }
+/* Sembunyikan footer */
+.gradio-footer { display: none !important; }
+/* Label hijau tanpa shadow */
+label {
+    background: #2ecc71 !important;
+    color: white !important;
+    padding: 2px 10px !important;
+    border-radius: 20px !important;
+    font-weight: bold !important;
+    display: inline-block !important;
+    margin-bottom: 4px !important;
+    box-shadow: none !important;
+}
+/* Kotak karakter dengan scroll */
+.character-box {
+    border: 2px solid #2ecc71;
+    border-radius: 12px;
+    padding: 10px;
+    max-height: 250px;
+    overflow-y: auto;
+    background: #f9f9f9;
+    margin-bottom: 15px;
+}
+/* Radio button disembunyikan, label menjadi kotak */
+.character-box input[type="radio"] { display: none; }
+.character-box label {
+    display: block;
+    background: white;
+    border: 1px solid #2ecc71;
+    border-radius: 25px;
+    padding: 8px 12px;
+    margin: 5px 0;
+    cursor: pointer;
+    color: #2c3e50;
+    font-weight: normal;
+    transition: all 0.2s;
+    box-shadow: none !important;
+}
+.character-box label:hover {
+    background: #2ecc71;
+    color: white;
+}
+.character-box input[type="radio"]:checked + label {
+    background: #2ecc71;
+    color: white;
+    border-color: white;
+    font-weight: bold;
+}
+/* Credit section */
+.credit {
+    margin-top: 40px;
+    text-align: center;
+    font-size: 1.5rem;
+    color: #2ecc71;
+    border-top: 2px solid #2ecc71;
+    padding-top: 20px;
+}
 """
+# ================= MAIN =================
+if __name__ == "__main__":
+    # Muat model dan speaker
+    model, hps, speakers, speaker_ids, cover_path = load_model_and_speakers()
+    # Contoh teks acak (tanpa Jepang)
     random_texts = [
+        "Hello, how are you today?",
+        "This is a test sentence.",
+        "Welcome to Project Sekai TTS.",
+        "I love music and singing.",
+        "Can you generate speech for me?",
+        "Hatsune Miku is a virtual singer.",
+        "Let's create something amazing."
     ]
+    # Buat fungsi TTS
+    tts_fn = create_tts_fn(model, hps, speaker_ids, speakers)
+    to_phoneme_fn = create_to_phoneme_fn(hps)
+    # ===== GRADIO INTERFACE =====
+    with gr.Blocks(css=css, theme=gr.themes.Soft(primary_hue="green")) as demo:
+        gr.Markdown("# Project SEKAI VITS")
+        with gr.Tab("Proseka"):
+            # Cover image
+            gr.Image(value=cover_path, show_label=False, width="100%")
+            # Input teks dan tombol random
+            with gr.Row():
+                text_input = gr.TextArea(
+                    label="Text",
+                    placeholder="Masukkan teks di sini...",
+                    value=random_texts[0]
+                )
+                random_btn = gr.Button("🎲 Random", scale=0, min_width=80)
+            # Pilihan karakter (custom radio dengan scroll)
+            gr.Markdown("### Select Character")
+            with gr.Column(elem_classes="character-box"):
+                # Buat radio secara manual agar bisa di-styling
+                character_radio = gr.Radio(
+                    choices=speakers,
+                    value=speakers[0],
+                    label="",
+                    show_label=False
+                )
+            # Speed slider
+            speed_slider = gr.Slider(
+                label="Speed",
+                minimum=0.5,
+                maximum=2.0,
+                value=1.0,
+                step=0.1
+            )
+            # Advanced options (opsional)
+            with gr.Accordion("Advanced Options", open=False):
+                phoneme_check = gr.Checkbox(label="Phoneme input", value=False)
+                to_phoneme_btn = gr.Button("Convert to phoneme")
+            # Tombol generate
+            generate_btn = gr.Button("Generate", variant="primary")
+            # Output
+            output_msg = gr.Textbox(label="Output Message")
+            output_audio = gr.Audio(label="Output Audio")
+            # ===== INTERAKSI =====
+            # Random text
+            random_btn.click(
+                fn=lambda: random.choice(random_texts),
+                outputs=text_input
+            )
+            # Generate
+            generate_btn.click(
+                fn=tts_fn,
+                inputs=[text_input, character_radio, speed_slider, phoneme_check],
+                outputs=[output_msg, output_audio]
+            )
+            # Convert to phoneme
+            to_phoneme_btn.click(
+                fn=to_phoneme_fn,
+                inputs=[text_input],
+                outputs=[text_input]
+            )
+        # Credit
+        gr.Markdown('<div class="credit">✨ CREATED BY MUTSUMI ✨</div>')
+    demo.queue().launch()