talkclone

Build error

App Files Files Community

asbgig commited on Aug 22, 2025

Commit

8d9fcd0

verified ·

1 Parent(s): 1c8e78d

Update app.py

Browse files

Files changed (1) hide show

app.py +83 -57

app.py CHANGED Viewed

@@ -1,15 +1,24 @@
-# app.py — TalkClone (HF Space, one-column, footer hidden, binds to $PORT)
 import os, re, tempfile
 import numpy as np
 import soundfile as sf
 import gradio as gr
-# Accept Coqui license non-interactively (required on Spaces)
 os.environ.setdefault("COQUI_TOS_AGREED", "1")
 MODEL_NAME = "tts_models/multilingual/multi-dataset/xtts_v2"
 _tts = None
 def get_tts():
     """Lazy-load TTS; try GPU if available, else CPU."""
@@ -18,6 +27,11 @@ def get_tts():
         return _tts
     try:
         import torch
         use_gpu = torch.cuda.is_available()
     except Exception:
         use_gpu = False
@@ -28,12 +42,6 @@ def get_tts():
         _tts = TTS(MODEL_NAME)
     return _tts
-LANGS = [
-    ("English", "en"), ("Urdu", "ur"), ("Hindi", "hi"), ("Arabic", "ar"),
-    ("French", "fr"), ("German", "de"), ("Spanish", "es"), ("Italian", "it"),
-    ("Portuguese", "pt"), ("Turkish", "tr"),
-]
 def clean_text(t: str) -> str:
     return " ".join((t or "").strip().split())
@@ -45,28 +53,45 @@ def synth_to_file_safe(tts, txt, out_path, wav_path, lang, speed):
         tts.tts_to_file(text=txt, file_path=out_path,
                         speaker_wav=wav_path, language=lang)
-def tts_clone(text, ref_audio, language_code, speed, split_sentences, progress=gr.Progress(track_tqdm=True)):
     if ref_audio is None:
-        raise gr.Error("Please upload a reference voice sample (10–60 seconds, clean speech).")
     text = clean_text(text)
     if not text:
         raise gr.Error("Please enter some text.")
     wav_path = ref_audio
     chunks = [text]
     if split_sentences:
-        chunks = [s.strip() for s in re.split(r'(?<=[.!?؟۔])\s+', text) if s.strip()]
     tts = get_tts()
     out_wavs = []
     with tempfile.TemporaryDirectory() as td:
         for i, chunk in enumerate(chunks, 1):
-            progress((i-1)/max(len(chunks),1), desc=f"Synthesizing {i}/{len(chunks)}")
             part_path = os.path.join(td, f"part_{i}.wav")
-            synth_to_file_safe(tts, chunk, part_path, wav_path, language_code, speed)
             data, sr = sf.read(part_path)
             out_wavs.append((data, sr))
         if len(out_wavs) == 1:
             final_data, sr = out_wavs[0]
         else:
@@ -77,58 +102,59 @@ def tts_clone(text, ref_audio, language_code, speed, split_sentences, progress=g
         sf.write(final_path, final_data, sr)
         return final_path
-# One-column & hide footer/API/settings
-HIDE_CSS = """
-.gradio-container { max-width: 880px !important; margin: 0 auto; }
-footer, .footer, #footer, [data-testid="block-analytics"], [data-testid="embed-info"] { display:none !important; }
-a[href*="gradio.live"], a[href*="gradio.app"], a[href*="hf.space"] { display:none !important; }
-button[aria-label="Settings"] { display:none !important; }
 """
 with gr.Blocks(
     title="TalkClone - Voice Cloning & TTS",
-    css=HIDE_CSS,
     analytics_enabled=False
 ) as demo:
-    gr.Markdown("## TalkClone — Turn Text into Speech from a Reference Voice")
-    gr.Markdown(
-        "Upload a short **reference voice** (10–60s), choose **language**, enter **text**, click **Generate**.\n"
-        "**Tip:** Long texts are split by sentence for reliability; shorter sentences synthesize faster."
-    )
-    ref_audio = gr.Audio(label="Reference Voice (WAV/MP3)", type="filepath")
-    # Use codes to avoid tuple issues in some Gradio builds
-    language = gr.Dropdown(choices=[code for _, code in LANGS], value="en", label="Language")
-    text = gr.Textbox(label="Text", lines=6, placeholder="Type or paste your text here…")
-    speed = gr.Slider(0.7, 1.3, value=1.0, step=0.05, label="Speed")
-    split = gr.Checkbox(value=True, label="Auto split long text by sentence")
-    submit = gr.Button("Generate", variant="primary")
-    output = gr.Audio(label="Cloned Speech", type="filepath", interactive=False)
-    download = gr.File(label="Download audio")
-    def run_and_return(text, ref_audio, language, speed, split):
-        path = tts_clone(text, ref_audio, language, speed, split)
-        return path, path
-    submit.click(run_and_return,
-                 inputs=[text, ref_audio, language, speed, split],
-                 outputs=[output, download])
 if __name__ == "__main__":
     port = int(os.environ.get("PORT", "7860"))
     try:
-        demo.queue().launch(
-            server_name="0.0.0.0",
-            server_port=port,
-            show_error=True,
-            show_api=False,
-        )
     except TypeError:
-        # For very old/new Gradio where queue() signature differs
-        demo.launch(
-            server_name="0.0.0.0",
-            server_port=port,
-            show_error=True,
-            show_api=False,
-        )

+# app.py — TalkClone (HF Space, 1-column, custom styles, CPU-friendly)
 import os, re, tempfile
 import numpy as np
 import soundfile as sf
 import gradio as gr
+# Agree to Coqui CPML non-interactively on Spaces
 os.environ.setdefault("COQUI_TOS_AGREED", "1")
 MODEL_NAME = "tts_models/multilingual/multi-dataset/xtts_v2"
+# Show labels, send codes
+LANGS = [
+    ("English","en"), ("Urdu","ur"), ("Hindi","hi"), ("Arabic","ar"),
+    ("French","fr"), ("German","de"), ("Spanish","es"), ("Italian","it"),
+    ("Portuguese","pt"), ("Turkish","tr"),
+]
+LANG_LABELS = [name for name, _ in LANGS]
+LANG_MAP = {name: code for name, code in LANGS}
 _tts = None
 def get_tts():
     """Lazy-load TTS; try GPU if available, else CPU."""
         return _tts
     try:
         import torch
+        # Use all available CPU threads on Basic (usually 2 vCPU)
+        try:
+            torch.set_num_threads(max(1, min(4, os.cpu_count() or 2)))
+        except Exception:
+            pass
         use_gpu = torch.cuda.is_available()
     except Exception:
         use_gpu = False
         _tts = TTS(MODEL_NAME)
     return _tts
 def clean_text(t: str) -> str:
     return " ".join((t or "").strip().split())
         tts.tts_to_file(text=txt, file_path=out_path,
                         speaker_wav=wav_path, language=lang)
+def tts_clone(text, ref_audio, lang_label, speed, split_sentences, progress=gr.Progress(track_tqdm=True)):
     if ref_audio is None:
+        raise gr.Error("Upload a reference voice (10–60s, clean speech).")
     text = clean_text(text)
     if not text:
         raise gr.Error("Please enter some text.")
+    # Limit extremely long jobs on CPU Basic
+    if len(text) > 1400 and not split_sentences:
+        raise gr.Error("Text is very long. Enable 'Auto split' or paste a shorter chunk on CPU.")
+    lang = LANG_MAP.get(lang_label, "en")
     wav_path = ref_audio
+    # Sentence split + also break very long sentences into ~180–220 chars
     chunks = [text]
     if split_sentences:
+        rough = [s.strip() for s in re.split(r'(?<=[.!?؟۔])\s+', text) if s.strip()]
+        chunks = []
+        for s in rough:
+            if len(s) <= 220:
+                chunks.append(s)
+            else:
+                # soft wrap long lines
+                for i in range(0, len(s), 200):
+                    chunks.append(s[i:i+200])
     tts = get_tts()
     out_wavs = []
     with tempfile.TemporaryDirectory() as td:
+        total = max(len(chunks), 1)
         for i, chunk in enumerate(chunks, 1):
+            progress((i-1)/total, desc=f"Synthesizing {i}/{total}")
             part_path = os.path.join(td, f"part_{i}.wav")
+            synth_to_file_safe(tts, chunk, part_path, wav_path, lang, speed)
             data, sr = sf.read(part_path)
             out_wavs.append((data, sr))
+        # Concatenate
         if len(out_wavs) == 1:
             final_data, sr = out_wavs[0]
         else:
         sf.write(final_path, final_data, sr)
         return final_path
+# ==== Styles (1 column + colors + hide HF/Gradio UI chrome) ====
+CUSTOM_CSS = """
+.gradio-container { max-width: 860px !important; margin: 0 auto; }
+#wrap, #ref, #lang, #txt, #spd, #split, #out_audio, #dl {
+  background: #f8fafc !important; /* slate-50 */
+  border: 1px solid #e5e7eb !important; /* gray-200 */
+  border-radius: 14px !important;
+  padding: 14px !important;
+}
+/* Primary button color */
+#gen button, #gen { background: #10b981 !important; color: #fff !important; }
+#gen button:hover { filter: brightness(0.95); }
+/* Hide footer/API/Settings & obvious Space links */
+footer, .footer, #footer,
+a[href*="gradio.live"], a[href*="gradio.app"], a[href*="/api"], a[href*="hf.space"],
+button[aria-label="Settings"],
+[data-testid="block-analytics"], [data-testid="embed-info"] { display: none !important; }
 """
 with gr.Blocks(
     title="TalkClone - Voice Cloning & TTS",
+    css=CUSTOM_CSS,
     analytics_enabled=False
 ) as demo:
+    with gr.Column(elem_id="wrap"):
+        gr.Markdown("## TalkClone — Text-to-Speech with Voice Cloning")
+        gr.Markdown("Upload a short **reference voice** (10–60s), choose **language**, enter **text**, then **Generate**. "
+                    "On CPU Basic, keep text short or enable **Auto split** for speed.")
+        ref_audio = gr.Audio(label="Reference Voice (WAV/MP3)", type="filepath", elem_id="ref")
+        language = gr.Dropdown(choices=LANG_LABELS, value="English", label="Language", elem_id="lang")
+        text = gr.Textbox(label="Text", lines=6, placeholder="Type or paste your text here…", elem_id="txt")
+        speed = gr.Slider(0.7, 1.3, value=1.0, step=0.05, label="Speed", elem_id="spd")
+        split = gr.Checkbox(value=True, label="Auto split long text by sentence", elem_id="split")
+        submit = gr.Button("Generate", variant="primary", elem_id="gen")
+        output = gr.Audio(label="Cloned Speech", type="filepath", interactive=False, elem_id="out_audio")
+        download = gr.File(label="Download audio", elem_id="dl")
+        def run_and_return(text, ref_audio, language, speed, split):
+            p = tts_clone(text, ref_audio, language, speed, split)
+            return p, p
+        submit.click(run_and_return,
+                     inputs=[text, ref_audio, language, speed, split],
+                     outputs=[output, download])
 if __name__ == "__main__":
     port = int(os.environ.get("PORT", "7860"))
     try:
+        demo.queue().launch(server_name="0.0.0.0", server_port=port, show_error=True, show_api=False)
     except TypeError:
+        demo.launch(server_name="0.0.0.0", server_port=port, show_error=True, show_api=False)