Spaces:

Alstears
/

chatterbox-id-clone-api

Running

App Files Files Community

Alstears commited on 2 days ago

Commit

f67e6c8

verified ·

1 Parent(s): 0b8917a

Update app.py

Browse files

Files changed (1) hide show

app.py +83 -27

app.py CHANGED Viewed

@@ -1,12 +1,20 @@
 import os
-os.environ["CUDA_VISIBLE_DEVICES"] = ""
 import tempfile
 import requests
 import torch
 import torchaudio as ta
 import gradio as gr
-from threading import Lock
 from chatterbox.tts import ChatterboxTTS
 from huggingface_hub import hf_hub_download
@@ -14,56 +22,104 @@ from safetensors.torch import load_file
 MODEL_REPO = "grandhigh/Chatterbox-TTS-Indonesian"
 CHECKPOINT_FILENAME = "t3_cfg.safetensors"
 _model = None
-_lock = Lock()
 def get_model():
     global _model
     if _model is None:
-        with _lock:
             if _model is None:
-                m = ChatterboxTTS.from_pretrained(device="cpu")  # device di sini saja
-                ckpt = hf_hub_download(repo_id=MODEL_REPO, filename=CHECKPOINT_FILENAME)
-                t3_state = load_file(ckpt, device="cpu")
                 m.t3.load_state_dict(t3_state)
-                m.eval()
                 _model = m
     return _model
-def _download_wav(url: str):
     r = requests.get(url, timeout=90)
     r.raise_for_status()
-    f = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
-    f.write(r.content)
-    f.close()
-    return f.name
-def clone_voice(text, audio_file, audio_url):
     if not text or not text.strip():
-        raise gr.Error("Text prompt kosong.")
-    prompt_path = audio_file or ( _download_wav(audio_url.strip()) if audio_url and audio_url.strip() else None )
     if not prompt_path:
-        raise gr.Error("Upload WAV atau isi URL WAV.")
     model = get_model()
     with torch.no_grad():
-        wav = model.generate(text.strip(), audio_prompt_path=prompt_path)
     if wav.dim() == 1:
         wav = wav.unsqueeze(0)
-    out = tempfile.NamedTemporaryFile(delete=False, suffix=".wav").name
-    ta.save(out, wav.cpu(), model.sr)
-    return out
-with gr.Blocks() as demo:
-    text = gr.Textbox(label="Text Prompt", lines=4)
-    wav = gr.Audio(label="Upload WAV", type="filepath")
-    url = gr.Textbox(label="WAV URL (opsional)")
     btn = gr.Button("Generate")
-    out = gr.Audio(label="Output", type="filepath")
-    btn.click(clone_voice, [text, wav, url], out, api_name="clone_voice")
 if __name__ == "__main__":
     port = int(os.getenv("PORT", "7860"))

 import os
+os.environ["CUDA_VISIBLE_DEVICES"] = ""  # paksa CPU-only
 import tempfile
+from threading import Lock
 import requests
 import torch
 import torchaudio as ta
 import gradio as gr
+# Paksa semua torch.load map ke CPU (hindari error deserialize CUDA)
+_original_torch_load = torch.load
+def _torch_load_cpu(*args, **kwargs):
+    kwargs.setdefault("map_location", torch.device("cpu"))
+    return _original_torch_load(*args, **kwargs)
+torch.load = _torch_load_cpu
 from chatterbox.tts import ChatterboxTTS
 from huggingface_hub import hf_hub_download
 MODEL_REPO = "grandhigh/Chatterbox-TTS-Indonesian"
 CHECKPOINT_FILENAME = "t3_cfg.safetensors"
+DEVICE = "cpu"
 _model = None
+_model_lock = Lock()
 def get_model():
     global _model
     if _model is None:
+        with _model_lock:
             if _model is None:
+                print("Loading model on first request (CPU)...")
+                m = ChatterboxTTS.from_pretrained(device=DEVICE)
+                ckpt_path = hf_hub_download(
+                    repo_id=MODEL_REPO,
+                    filename=CHECKPOINT_FILENAME
+                )
+                t3_state = load_file(ckpt_path, device="cpu")
                 m.t3.load_state_dict(t3_state)
+                # JANGAN pakai m.to("cpu") -> ChatterboxTTS tidak punya method .to()
+                if hasattr(m, "eval"):
+                    m.eval()
                 _model = m
+                print("Model ready.")
     return _model
+def _download_wav(url: str) -> str:
     r = requests.get(url, timeout=90)
     r.raise_for_status()
+    tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
+    tmp.write(r.content)
+    tmp.close()
+    return tmp.name
+def clone_voice(text: str, audio_file, audio_url: str):
     if not text or not text.strip():
+        raise gr.Error("Text prompt tidak boleh kosong.")
+    prompt_path = None
+    if audio_file:
+        # gr.Audio(type='filepath') -> path string
+        prompt_path = audio_file
+    elif audio_url and audio_url.strip():
+        prompt_path = _download_wav(audio_url.strip())
     if not prompt_path:
+        raise gr.Error("Upload WAV atau isi Audio URL WAV.")
     model = get_model()
     with torch.no_grad():
+        wav = model.generate(
+            text.strip(),
+            audio_prompt_path=prompt_path
+        )
+    # pastikan format [channels, samples]
     if wav.dim() == 1:
         wav = wav.unsqueeze(0)
+    out_path = tempfile.NamedTemporaryFile(delete=False, suffix=".wav").name
+    ta.save(out_path, wav.cpu(), model.sr)
+    return out_path
+with gr.Blocks(title="Chatterbox Indonesian Voice Cloning (CPU)") as demo:
+    gr.Markdown("## Chatterbox-TTS Indonesian - Voice Cloning (CPU)")
+    gr.Markdown("Masukkan teks + upload WAV (atau URL WAV)")
+    text_in = gr.Textbox(
+        label="Text Prompt",
+        lines=4,
+        placeholder="Contoh: Halo, ini demo voice cloning saya."
+    )
+    wav_in = gr.Audio(
+        label="Upload WAV Prompt",
+        type="filepath"
+    )
+    url_in = gr.Textbox(
+        label="Audio URL WAV (opsional)",
+        placeholder="https://example.com/input.wav"
+    )
     btn = gr.Button("Generate")
+    out_audio = gr.Audio(label="Hasil Audio", type="filepath")
+    btn.click(
+        fn=clone_voice,
+        inputs=[text_in, wav_in, url_in],
+        outputs=[out_audio],
+        api_name="clone_voice"
+    )
 if __name__ == "__main__":
     port = int(os.getenv("PORT", "7860"))