Spaces:

kochit
/

Voice_Colour

Sleeping

App Files Files Community

kochit commited on Feb 11

Commit

e428c83

verified ·

1 Parent(s): 9e9ea2a

Update app.py

Browse files

Files changed (1) hide show

app.py +82 -48

app.py CHANGED Viewed

@@ -1,32 +1,42 @@
 import os
 import sys
-import subprocess
 import torch
 import gradio as gr
 import edge_tts
 import asyncio
 from huggingface_hub import hf_hub_download
-# --- 1. System Setup ---
-print("Setting up OpenVoice...")
-# OpenVoice Repo ကို Clone လုပ်ခြင်း
 if not os.path.exists("OpenVoice"):
-    subprocess.run(["git", "clone", "https://github.com/myshell-ai/OpenVoice.git"])
-# Python Path ထဲသို့ ထည့်ခြင်း
 sys.path.append(os.path.abspath("OpenVoice"))
-# Checkpoint များကို Download ဆွဲခြင်း
 os.makedirs("checkpoints/converter", exist_ok=True)
-try:
-    print("Downloading Model Checkpoints...")
-    hf_hub_download(repo_id="myshell-ai/OpenVoice", filename="checkpoints/converter/config.json", local_dir=".", local_dir_use_symlinks=False)
-    hf_hub_download(repo_id="myshell-ai/OpenVoice", filename="checkpoints/converter/checkpoint.pth", local_dir=".", local_dir_use_symlinks=False)
-except Exception as e:
-    print(f"Download Warning: {e}")
-# --- 2. Import Modules ---
 try:
     from openvoice.api import ToneColorConverter
     from openvoice import se_extractor
@@ -35,79 +45,103 @@ except ImportError:
     from api import ToneColorConverter
     import se_extractor
-# --- 3. Initialize Models ---
-device = "cuda" if torch.cuda.is_available() else "cpu"
 ckpt_converter = 'checkpoints/converter'
 if not os.path.exists(f"{ckpt_converter}/config.json"):
     ckpt_converter = 'OpenVoice/checkpoints/converter'
-try:
-    tone_color_converter = ToneColorConverter(f'{ckpt_converter}/config.json', device=device)
-    tone_color_converter.load_ckpt(f'{ckpt_converter}/checkpoint.pth')
-    print("Model Loaded Successfully!")
-except Exception as e:
-    print(f"Model Loading Error: {e}")
-# --- 4. Main Logic ---
 async def run_edge_tts(text, gender):
-    # မြန်မာအသံ (Thiha = Male, Nular = Female)
     voice = "my-MM-ThihaNeural" if gender == "Male" else "my-MM-NularNeural"
     output_file = "temp_base.mp3"
     communicate = edge_tts.Communicate(text, voice)
     await communicate.save(output_file)
     return output_file
-def predict(text, ref_audio, gender, tau):
-    if not text: return "စာရိုက်ထည့်ပါ", None
-    if not ref_audio: return "Reference Audio ထည့်ပါ", None
     try:
-        # Step 1: Edge TTS ဖြင့် မြန်မာစာဖတ်
         base_audio = asyncio.run(run_edge_tts(text, gender))
-        # Step 2: Tone Extract
         os.makedirs("outputs", exist_ok=True)
-        # Reference Audio ကိုတော့ VAD ခံမည် (ဆူညံသံပါနိုင်လို့)
         try:
             target_se, _ = se_extractor.get_se(ref_audio, tone_color_converter, target_dir='outputs', vad=True)
         except Exception as e:
-             return f"Reference Audio Error (Too Short?): {str(e)}", None
-        # Base Audio (TTS) ကို VAD ပိတ်ထားမည် (Error မတက်အောင်)
         source_se, _ = se_extractor.get_se(base_audio, tone_color_converter, target_dir='outputs', vad=False)
-        # Step 3: Convert
-        output_path = "outputs/final_mm_voice.wav"
         tone_color_converter.convert(
             audio_src_path=base_audio,
             src_se=source_se,
             tgt_se=target_se,
-            output_path=output_path,
             message="@NanoBanana"
         )
-        return "Success! (အဆင်ပြေပါပြီ)", output_path
-    except Exception as e:
-        return f"System Error: {str(e)}", None
-# --- 5. UI ---
-with gr.Blocks(title="Myanmar OpenVoice Fixed V2") as demo:
-    gr.Markdown("# 🇲🇲 Myanmar Voice Cloning (Stable Version)")
-    gr.Markdown("မြန်မာစာကို အနည်းဆုံး စာကြောင်းရှည်ရှည် (၂) ကြောင်းခန့် ရိုက်ထည့်ပေးပါ။")
     with gr.Row():
         with gr.Column():
             input_text = gr.Textbox(label="မြန်မာစာ ရိုက်ပါ", placeholder="မင်္ဂလာပါ... (စာကြောင်းရှည်ရှည်ရေးပေးပါ)", lines=3)
-            gender = gr.Radio(["Male", "Female"], label="EdgeTTS Gender", value="Male")
-            ref_audio = gr.Audio(label="Reference Audio (မူရင်းအသံ)", type="filepath")
-            tau = gr.Slider(0.0, 1.0, value=0.3, label="Similarity (Tau)")
             btn = gr.Button("Generate Voice", variant="primary")
         with gr.Column():
             status = gr.Textbox(label="Status")
             audio = gr.Audio(label="Result")
-    btn.click(fn=predict, inputs=[input_text, ref_audio, gender, tau], outputs=[status, audio])
 demo.launch()

 import os
 import sys
+# --- SECRET FIX: Force CPU (သူများ Space ၏ လျှို့ဝှက်ချက်) ---
+# GPU Driver မကောင်းတဲ့ စက်တွေကို ရှောင်ရန် GPU ကို လုံးဝ ဖျောက်ထားလိုက်ပါပြီ။
+os.environ["CUDA_VISIBLE_DEVICES"] = "-1"
 import torch
 import gradio as gr
 import edge_tts
 import asyncio
+import shutil
 from huggingface_hub import hf_hub_download
+# PyTorch ကို CPU အတင်းသုံးခိုင်းခြင်း
+pt_device = "cpu"
+torch.set_default_device(pt_device)
+print(f"🚀 System Running on: {pt_device.upper()} (Stable Mode)")
+# 1. Setup OpenVoice
 if not os.path.exists("OpenVoice"):
+    print("Installing OpenVoice...")
+    os.system("git clone https://github.com/myshell-ai/OpenVoice.git")
 sys.path.append(os.path.abspath("OpenVoice"))
 os.makedirs("checkpoints/converter", exist_ok=True)
+# Download Checkpoints
+def download_models():
+    try:
+        hf_hub_download(repo_id="myshell-ai/OpenVoice", filename="checkpoints/converter/config.json", local_dir=".", local_dir_use_symlinks=False)
+        hf_hub_download(repo_id="myshell-ai/OpenVoice", filename="checkpoints/converter/checkpoint.pth", local_dir=".", local_dir_use_symlinks=False)
+    except Exception as e:
+        print(f"Download Error: {e}")
+download_models()
+# Import OpenVoice Modules
 try:
     from openvoice.api import ToneColorConverter
     from openvoice import se_extractor
     from api import ToneColorConverter
     import se_extractor
+# 2. Load Model (Strictly CPU)
+print("Loading OpenVoice Model...")
 ckpt_converter = 'checkpoints/converter'
 if not os.path.exists(f"{ckpt_converter}/config.json"):
     ckpt_converter = 'OpenVoice/checkpoints/converter'
+# Device ကို 'cpu' ဟု အတိအကျ ပေးထားသည်
+tone_color_converter = ToneColorConverter(f'{ckpt_converter}/config.json', device=pt_device)
+tone_color_converter.load_ckpt(f'{ckpt_converter}/checkpoint.pth')
+print("✅ Model Loaded Successfully!")
+# 3. Mastering Engine
+def apply_mastering(input_wav, style="Radio"):
+    if not shutil.which("ffmpeg"):
+        return input_wav
+    output_wav = "outputs/mastered_output.wav"
+    if style == "Radio / Studio (Crisp)":
+        filter_complex = "highpass=f=80, acompressor=threshold=-12dB:ratio=2:attack=5:release=50, equalizer=f=2000:t=q:w=1:g=2, loudnorm"
+    elif style == "Natural (Soft)":
+        filter_complex = "highpass=f=60, acompressor=threshold=-15dB:ratio=1.5:attack=10:release=100, loudnorm"
+    else:
+        return input_wav
+    command = ["ffmpeg", "-y", "-i", input_wav, "-af", filter_complex, "-ar", "44100", output_wav]
+    try:
+        import subprocess
+        subprocess.run(command, check=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
+        return output_wav
+    except:
+        return input_wav
+# 4. Main Workflow
 async def run_edge_tts(text, gender):
     voice = "my-MM-ThihaNeural" if gender == "Male" else "my-MM-NularNeural"
     output_file = "temp_base.mp3"
     communicate = edge_tts.Communicate(text, voice)
     await communicate.save(output_file)
     return output_file
+def predict(text, ref_audio, gender, mastering_style):
+    if not text: return "Error: စာရိုက်ထည့်ပါ", None
+    if not ref_audio: return "Error: Reference Audio ထည့်ပါ", None
     try:
+        # Step A: Edge TTS
         base_audio = asyncio.run(run_edge_tts(text, gender))
+        # Step B: OpenVoice (CPU)
         os.makedirs("outputs", exist_ok=True)
+        # VAD Handling - Device error ရှောင်ရန် try/except
         try:
             target_se, _ = se_extractor.get_se(ref_audio, tone_color_converter, target_dir='outputs', vad=True)
         except Exception as e:
+            print(f"VAD Error (Skipping VAD): {e}")
+            target_se, _ = se_extractor.get_se(ref_audio, tone_color_converter, target_dir='outputs', vad=False)
         source_se, _ = se_extractor.get_se(base_audio, tone_color_converter, target_dir='outputs', vad=False)
+        raw_output = "outputs/raw_mm_voice.wav"
+        # Conversion
         tone_color_converter.convert(
             audio_src_path=base_audio,
             src_se=source_se,
             tgt_se=target_se,
+            output_path=raw_output,
             message="@NanoBanana"
         )
+        # Step C: Mastering
+        final_output = apply_mastering(raw_output, mastering_style)
+        return "Success!", final_output
+    except Exception as e:
+        # Error အသေးစိတ်ကို Log ထုတ်ကြည့်ခြင်း
+        import traceback
+        traceback.print_exc()
+        return f"Error: {str(e)}", None
+# 5. UI Setup
+with gr.Blocks(title="Myanmar Voice Studio") as demo:
+    gr.Markdown("# 🇲🇲 Myanmar Voice Studio (CPU Stable)")
     with gr.Row():
         with gr.Column():
             input_text = gr.Textbox(label="မြန်မာစာ ရိုက်ပါ", placeholder="မင်္ဂလာပါ... (စာကြောင်းရှည်ရှည်ရေးပေးပါ)", lines=3)
+            with gr.Row():
+                gender = gr.Radio(["Male", "Female"], label="Base Voice", value="Male")
+                mastering = gr.Dropdown(["Radio / Studio (Crisp)", "Natural (Soft)", "Raw (No Effect)"], value="Radio / Studio (Crisp)", label="Mastering Effect")
+            ref_audio = gr.Audio(label="Reference Audio", type="filepath")
             btn = gr.Button("Generate Voice", variant="primary")
         with gr.Column():
             status = gr.Textbox(label="Status")
             audio = gr.Audio(label="Result")
+    btn.click(fn=predict, inputs=[input_text, ref_audio, gender, mastering], outputs=[status, audio])
 demo.launch()