Spaces:

ruslanmv
/

ai-story-server-cpu

Running on Zero

App Files Files Community

ruslanmv commited on Sep 28

Commit

7741539

1 Parent(s): 96b9f29

updates

Browse files

Files changed (2) hide show

app.py +14 -14
requirements.txt +3 -5

app.py CHANGED Viewed

@@ -10,12 +10,12 @@ from typing import List, Tuple, Dict, Generator
 from dotenv import load_dotenv
 load_dotenv()
-# Make downloads fast & quiet
-os.environ.setdefault("HF_HUB_ENABLE_HF_TRANSFER", "1")
 os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
 os.environ.setdefault("COQUI_TOS_AGREED", "1")
-# Avoid Gradio analytics pandas edge-cases
-os.environ.setdefault("GRADIO_ANALYTICS_ENABLED", "False")
 # HF Spaces / Gradio
 try:
@@ -79,7 +79,8 @@ def pcm_to_wav(pcm: bytes, sr: int = 24000, ch: int = 1, bit: int = 16) -> bytes
     if pcm.startswith(b"RIFF"):  # already WAV
         return pcm
     chunk = 36 + len(pcm)
-    hdr = struct.pack("<4sI4s4sIHHIIHH4sI",
         b"RIFF", chunk, b"WAVE", b"fmt ", 16, 1, ch, sr,
         sr * ch * bit // 8, ch * bit // 8, bit, b"data", len(pcm)
     )
@@ -165,20 +166,20 @@ precache_assets()
 def _load_xtts(device: str) -> Xtts:
     print("Loading Coqui XTTS V2 model (first run)...")
-    model_dir, model_pth, vocab_json, speakers_pth = _xtts_paths()
     cfg = XttsConfig()
     cfg.load_json(os.path.join(model_dir, "config.json"))
     model = Xtts.init_from_config(cfg)
-    # IMPORTANT: pass speaker_file_path to avoid NoneType join inside library
     model.load_checkpoint(
         cfg,
-        checkpoint_path=model_pth,
-        vocab_path=vocab_json,
-        speaker_file_path=speakers_pth,  # <-- fixes TypeError
         eval=True,
-        use_deepspeed=False,              # deepspeed not installed
     )
     model.to(device)
     print("XTTS model ready.")
@@ -272,7 +273,7 @@ def generate_story_and_speech(secret_token_input: str, input_text: str, chatbot_
     tts, llm = load_models()
-    # Pre-compute & cache voice latents once per session
     global voice_latents
     if not voice_latents:
         for role, fname in [
@@ -326,7 +327,6 @@ def generate_story_and_speech(secret_token_input: str, input_text: str, chatbot_
 print("Downloading voice files (idempotent)...")
 # Already handled in precache, but keep for local dev logs
-# (No-op if files exist)
 demo = gr.Interface(
     fn=generate_story_and_speech,
@@ -342,4 +342,4 @@ demo = gr.Interface(
 )
 if __name__ == "__main__":
-    demo.queue().launch()  # you can add ssr_mode=False if you prefer

 from dotenv import load_dotenv
 load_dotenv()
+# Fast downloads & stable behavior
+os.environ.setdefault("HF_HUB_ENABLE_HF_TRANSFER", "1")       # faster HF downloads
 os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
 os.environ.setdefault("COQUI_TOS_AGREED", "1")
+os.environ.setdefault("GRADIO_ANALYTICS_ENABLED", "false")    # avoid pandas analytics path
+os.environ.setdefault("TORCH_FORCE_NO_WEIGHTS_ONLY_LOAD", "1")
 # HF Spaces / Gradio
 try:
     if pcm.startswith(b"RIFF"):  # already WAV
         return pcm
     chunk = 36 + len(pcm)
+    hdr = struct.pack(
+        "<4sI4s4sIHHIIHH4sI",
         b"RIFF", chunk, b"WAVE", b"fmt ", 16, 1, ch, sr,
         sr * ch * bit // 8, ch * bit // 8, bit, b"data", len(pcm)
     )
 def _load_xtts(device: str) -> Xtts:
     print("Loading Coqui XTTS V2 model (first run)...")
+    model_name = "tts_models/multilingual/multi-dataset/xtts_v2"
+    ModelManager().download_model(model_name)  # idempotent
+    model_dir = os.path.join(get_user_data_dir("tts"), model_name.replace("/", "--"))
     cfg = XttsConfig()
     cfg.load_json(os.path.join(model_dir, "config.json"))
     model = Xtts.init_from_config(cfg)
+    # Use checkpoint_dir so the library finds model.pth, vocab.json and speakers_xtts.pth itself
     model.load_checkpoint(
         cfg,
+        checkpoint_dir=model_dir,
         eval=True,
+        use_deepspeed=False,   # deepspeed not installed in your Space
     )
     model.to(device)
     print("XTTS model ready.")
     tts, llm = load_models()
+    # Pre-compute & cache voice latents once per worker
     global voice_latents
     if not voice_latents:
         for role, fname in [
 print("Downloading voice files (idempotent)...")
 # Already handled in precache, but keep for local dev logs
 demo = gr.Interface(
     fn=generate_story_and_speech,
 )
 if __name__ == "__main__":
+    demo.queue().launch(analytics_enabled=False)

requirements.txt CHANGED Viewed

@@ -7,16 +7,14 @@ python-dotenv
 spaces
 requests
 numpy
-pandas>=2.2.2,<3  # Fixes Gradio analytics OptionError
-# TTS
-TTS @ git+https://github.com/coqui-ai/TTS@v0.22.0
-pydantic==2.5.3
 # LLM
 llama-cpp-python==0.2.79
-# Audio & Text
 noisereduce==3.0.3
 pydub
 langid

 spaces
 requests
 numpy
+# TTS (maintained fork; keeps "from TTS..." imports)
+coqui-tts==0.27.2
 # LLM
 llama-cpp-python==0.2.79
+# Audio & Text Processing
 noisereduce==3.0.3
 pydub
 langid