xtts67

Sleeping

sg123321 commited on 17 days ago

Commit

9c8f593

verified ·

1 Parent(s): f150cf3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,19 +1,35 @@
 import os
 import gradio as gr
-from TTS.api import TTS
 import torch
-import spaces
-# License accept
 os.environ["COQUI_TOS_AGREED"] = "1"
-# Model load (Wait for 2-3 mins first time)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
-@spaces.GPU(duration=60)
 def clone_voice(text, language, speaker_audio):
     output_path = "output.wav"
     tts.tts_to_file(
         text=text,
         file_path=output_path,
@@ -22,13 +38,18 @@ def clone_voice(text, language, speaker_audio):
     )
     return output_path
 iface = gr.Interface(
     fn=clone_voice,
     inputs=[
-        gr.Textbox(label="Text", value="Namaste, kaise hain aap?"),
         gr.Dropdown(label="Language", choices=["hi", "en"], value="hi"),
-        gr.Audio(label="Reference Audio", type="filepath")
     ],
-    outputs=gr.Audio(label="Cloned Voice")
 )
-iface.launch()

 import os
 import gradio as gr
 import torch
+import spaces # ZeroGPU Magic
+# 1. Terms Accept
 os.environ["COQUI_TOS_AGREED"] = "1"
+# 2. Model Installation Check
+print("⏳ Importing TTS...")
+try:
+    from TTS.api import TTS
+except ImportError:
+    print("❌ TTS Install Failed. Check requirements.txt")
+    raise
+# 3. Load Model (GPU Support)
 device = "cuda" if torch.cuda.is_available() else "cpu"
+print(f"⚙️ Device Selected: {device}")
+# Model ko global variable mein rakhenge
 tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
+# 4. Voice Cloning Function (With ZeroGPU Decorator)
+@spaces.GPU(duration=120)
 def clone_voice(text, language, speaker_audio):
+    if not text or not speaker_audio:
+        return None
     output_path = "output.wav"
+    # Generate Audio
     tts.tts_to_file(
         text=text,
         file_path=output_path,
     )
     return output_path
+# 5. UI Setup
 iface = gr.Interface(
     fn=clone_voice,
     inputs=[
+        gr.Textbox(label="Text to Speak", value="Namaste, ye meri cloned aawaz hai.", lines=2),
         gr.Dropdown(label="Language", choices=["hi", "en"], value="hi"),
+        gr.Audio(label="Upload Speaker Voice (WAV/MP3)", type="filepath")
     ],
+    outputs=gr.Audio(label="Generated Audio"),
+    title="🚀 Shubham's Super Fast XTTS (H200 GPU)",
+    description="ZeroGPU powered Hindi Voice Cloning."
 )
+if __name__ == "__main__":
+    iface.launch()