Spaces:

TGPro1
/

S2ST

Sleeping

App Files Files Community

TGPro1 commited on Jan 21

Commit

5e62ae0

verified ·

1 Parent(s): 1b24af3

Upload app.py with huggingface_hub

Browse files

Files changed (1) hide show

app.py +50 -62

app.py CHANGED Viewed

@@ -17,12 +17,10 @@ import logging
 from threading import Thread, Lock
 from huggingface_hub import snapshot_download
-# 🛡️ 1. SILENCE LOGS (User requested zero clutter)
 logging.getLogger("transformers").setLevel(logging.ERROR)
 logging.getLogger("TTS").setLevel(logging.ERROR)
-logging.getLogger("onnxruntime").setLevel(logging.ERROR)
 os.environ["CT2_VERBOSE"] = "0"
-os.environ["KMP_WARNINGS"] = "0"
 # 🛠️ 2. COMPATIBILITY PATCHES
 if "torchaudio.backend" not in sys.modules:
@@ -78,8 +76,8 @@ except ImportError:
             if f is None: return lambda x: x
             return f
-# FORCE BUILD TRIGGER: 12:25:00 Jan 21 2026
-# v96: Power-Worker & Zero-Latency Chatterbox (GPU). 4x Workers for Whisper.
 os.environ["COQUI_TOS_AGREED"] = "1"
 MODELS = {"stt": None, "translate": None, "tts": None, "denoiser": None}
@@ -88,28 +86,30 @@ WARMUP_STATUS = {"complete": False, "in_progress": False}
 WARMUP_LOCK = Lock()
 def activate_gpu_models(action):
-    """v96: Power-Mode Activation"""
     global MODELS, WARMUP_STATUS
     local_only = WARMUP_STATUS["complete"]
-    device = "cuda" if torch.cuda.is_available() else "cpu"
-    # 1. Faster-Whisper Power-Mode
     if action in ["stt", "s2st"]:
         stt_on_gpu = False
         try: stt_on_gpu = MODELS["stt"] is not None and MODELS["stt"].model.device == "cuda"
         except: pass
         if not stt_on_gpu:
-            print(f"🎙️ [v96] Power-Mode Activation: Whisper (GPU) with 4-Workers...")
-            if MODELS["stt"]: del MODELS["stt"]
-            gc.collect(); torch.cuda.empty_cache()
-            # Optimized for H200 MIG 3g
-            MODELS["stt"] = WhisperModel(
-                "large-v3",
-                device="cuda",
-                compute_type="int8_float16",
-                local_files_only=local_only
-            )
     # 2. XTTS-v2
     if action in ["tts", "s2st"]:
@@ -119,14 +119,18 @@ def activate_gpu_models(action):
             tts_on_gpu = "cuda" in curr
         except: pass
         if MODELS["tts"] is None or not tts_on_gpu:
-            print(f"🔊 [v96] Activating XTTS-v2 (GPU)...")
-            if MODELS["tts"] is None:
-                MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
-            else: MODELS["tts"].to("cuda")
-    # 3. Chatterbox GPU-Mode (Zero-Latency)
-    # v96: Moving to GPU during active sessions to eliminate CPU delays
-    chatterbox_utils.load_chatterbox(device=device)
     # 4. Helpers
     if MODELS["denoiser"] is None:
@@ -135,47 +139,36 @@ def activate_gpu_models(action):
     if MODELS["translate"] is None: MODELS["translate"] = "active"
 def release_gpu_models():
-    """v96: Persistent RAM Handoff (Serverless)"""
     global MODELS
-    print("🧹 [v96] Releasing GPU resources. Moving models to System RAM (CPU)...")
-    # Whisper: Switch to CPU (Fast transition)
-    if MODELS["stt"] and MODELS["stt"].model.device == "cuda":
-        del MODELS["stt"]
-        MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8", local_files_only=True)
-    # XTTS: Move to CPU
-    if MODELS["tts"]:
-        try: MODELS["tts"].to("cpu")
-        except: pass
-    # Chatterbox: Move session to CPU for idle
-    chatterbox_utils.load_chatterbox(device="cpu")
     gc.collect()
     if torch.cuda.is_available(): torch.cuda.empty_cache()
-    print("✅ System in Warm-Idle (System RAM).")
 def warmup_task():
-    """Silent Power-Warmup"""
     global WARMUP_STATUS
     with WARMUP_LOCK:
         if WARMUP_STATUS["complete"] or WARMUP_STATUS["in_progress"]: return
         WARMUP_STATUS["in_progress"] = True
-    print("\n🔥 --- SILENT POWER-WARMUP STARTED (v96) ---")
-    start = time.time()
     try:
-        # Pre-load to RAM
         MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8")
         MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
         chatterbox_utils.warmup_chatterbox()
         WARMUP_STATUS["complete"] = True
-        print(f"✅ --- PEAK STABILITY: SYSTEM WARM ({time.time()-start:.2f}s) --- \n")
-    except Exception as e:
-        print(f"❌ Warmup fail: {e}")
-    finally:
-        WARMUP_STATUS["in_progress"] = False
 def _stt_logic(request_dict):
     audio_bytes = base64.b64decode(request_dict.get("file"))
@@ -183,7 +176,7 @@ def _stt_logic(request_dict):
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
         f.write(audio_bytes); temp_path = f.name
     try:
-        # v96: num_workers=4 for extreme speed
         segments, _ = MODELS["stt"].transcribe(temp_path, language=lang, beam_size=1)
         return {"text": " ".join([s.text for s in segments]).strip()}
     finally:
@@ -197,7 +190,6 @@ def _tts_logic(text, lang, speaker_wav_b64):
     XTTS_MAP = {"en": "en", "de": "de", "fr": "fr", "es": "es", "it": "it", "pl": "pl", "pt": "pt", "tr": "tr", "ru": "ru", "nl": "nl", "cs": "cs", "ar": "ar", "hu": "hu", "ko": "ko", "hi": "hi", "zh": "zh-cn"}
     clean_lang = lang.strip().lower().split('-')[0]
     mapped_lang = XTTS_MAP.get(clean_lang) or ("zh-cn" if clean_lang == "zh" else None)
     if mapped_lang:
         speaker_wav_path = None
         if speaker_wav_b64:
@@ -213,8 +205,6 @@ def _tts_logic(text, lang, speaker_wav_b64):
         finally:
             if speaker_wav_path and "default_speaker" not in speaker_wav_path and os.path.exists(speaker_wav_path): os.unlink(speaker_wav_path)
             if 'output_path' in locals() and os.path.exists(output_path): os.unlink(output_path)
-    # Fallback to Chatterbox (Already on GPU if in core_process)
     try:
         temp_ref = None
         if speaker_wav_b64:
@@ -230,7 +220,7 @@ def _tts_logic(text, lang, speaker_wav_b64):
 def core_process(request_dict):
     action = request_dict.get("action")
     t1 = time.time()
-    print(f"--- [v96] 🚀 POWER-MODE GPU SESSION: {action} ---")
     activate_gpu_models(action)
     try:
         if action == "stt": res = _stt_logic(request_dict)
@@ -244,12 +234,11 @@ def core_process(request_dict):
         elif action == "health": res = {"status": "awake"}
         else: res = {"error": f"Unknown action: {action}"}
     finally:
-        print(f"--- [v96] ✨ POWER-DONE: {action} ({time.time()-t1:.2f}s) ---")
         release_gpu_models()
     return res
 app = FastAPI()
 @app.on_event("startup")
 async def startup_event():
     Thread(target=warmup_task, daemon=True).start()
@@ -260,8 +249,7 @@ async def api_process(request: Request):
     except Exception as e: return {"error": str(e)}
 @app.get("/health")
-def health():
-    return {"status": "ok", "power_warm": WARMUP_STATUS["complete"], "time": time.ctime()}
 @app.post("/api/v1/clear_cache")
 async def clear_cache():

 from threading import Thread, Lock
 from huggingface_hub import snapshot_download
+# 🛡️ 1. SILENCE LOGS
 logging.getLogger("transformers").setLevel(logging.ERROR)
 logging.getLogger("TTS").setLevel(logging.ERROR)
 os.environ["CT2_VERBOSE"] = "0"
 # 🛠️ 2. COMPATIBILITY PATCHES
 if "torchaudio.backend" not in sys.modules:
             if f is None: return lambda x: x
             return f
+# FORCE BUILD TRIGGER: 12:35:00 Jan 21 2026
+# v97: Bulletproof Handoff (Loop Prevention). Stability Focus (1-Worker).
 os.environ["COQUI_TOS_AGREED"] = "1"
 MODELS = {"stt": None, "translate": None, "tts": None, "denoiser": None}
 WARMUP_LOCK = Lock()
 def activate_gpu_models(action):
+    """v97: Stability-First Activation"""
     global MODELS, WARMUP_STATUS
     local_only = WARMUP_STATUS["complete"]
+    # 1. Faster-Whisper: Stability Focus
     if action in ["stt", "s2st"]:
         stt_on_gpu = False
         try: stt_on_gpu = MODELS["stt"] is not None and MODELS["stt"].model.device == "cuda"
         except: pass
         if not stt_on_gpu:
+            print(f"🎙️ [v97] Activating Whisper on GPU (Stability Mode)...")
+            try:
+                if MODELS["stt"]: del MODELS["stt"]
+                gc.collect(); torch.cuda.empty_cache()
+                # Reduced workers to 1 to prevent MIG OOM/Crash loops
+                MODELS["stt"] = WhisperModel(
+                    "large-v3",
+                    device="cuda",
+                    compute_type="float16", # Stable standard
+                    local_files_only=local_only
+                )
+            except Exception as e:
+                print(f"⚠️ Whisper GPU failed: {e}. Falling back to CPU.")
+                MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8", local_files_only=True)
     # 2. XTTS-v2
     if action in ["tts", "s2st"]:
             tts_on_gpu = "cuda" in curr
         except: pass
         if MODELS["tts"] is None or not tts_on_gpu:
+            print(f"🔊 [v97] Activating XTTS-v2 (GPU)...")
+            try:
+                if MODELS["tts"] is None:
+                    MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
+                else: MODELS["tts"].to("cuda")
+            except Exception as e:
+                print(f"⚠️ XTTS GPU failed: {e}. Staying on CPU.")
+                if MODELS["tts"] is None:
+                    MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
+    # 3. Chatterbox: Accelerated in Session
+    chatterbox_utils.load_chatterbox(device="cuda" if torch.cuda.is_available() else "cpu")
     # 4. Helpers
     if MODELS["denoiser"] is None:
     if MODELS["translate"] is None: MODELS["translate"] = "active"
 def release_gpu_models():
+    """v97: Clean Exit Handoff"""
     global MODELS
+    print("🧹 [v97] Releasing resources...")
+    try:
+        if MODELS["stt"] and MODELS["stt"].model.device == "cuda":
+            del MODELS["stt"]
+            MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8", local_files_only=True)
+        if MODELS["tts"]:
+            try: MODELS["tts"].to("cpu")
+            except: pass
+        chatterbox_utils.load_chatterbox(device="cpu")
+    except: pass
     gc.collect()
     if torch.cuda.is_available(): torch.cuda.empty_cache()
 def warmup_task():
+    """Silent Warmup (Resident RAM)"""
     global WARMUP_STATUS
     with WARMUP_LOCK:
         if WARMUP_STATUS["complete"] or WARMUP_STATUS["in_progress"]: return
         WARMUP_STATUS["in_progress"] = True
+    print("\n🔥 --- SILENT WARMUP STARTED (v97) ---")
     try:
         MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8")
         MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
         chatterbox_utils.warmup_chatterbox()
         WARMUP_STATUS["complete"] = True
+        print(f"✅ --- SYSTEM WARM --- \n")
+    except: pass
+    finally: WARMUP_STATUS["in_progress"] = False
 def _stt_logic(request_dict):
     audio_bytes = base64.b64decode(request_dict.get("file"))
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
         f.write(audio_bytes); temp_path = f.name
     try:
+        # Beam size 1 for maximum speed and stability
         segments, _ = MODELS["stt"].transcribe(temp_path, language=lang, beam_size=1)
         return {"text": " ".join([s.text for s in segments]).strip()}
     finally:
     XTTS_MAP = {"en": "en", "de": "de", "fr": "fr", "es": "es", "it": "it", "pl": "pl", "pt": "pt", "tr": "tr", "ru": "ru", "nl": "nl", "cs": "cs", "ar": "ar", "hu": "hu", "ko": "ko", "hi": "hi", "zh": "zh-cn"}
     clean_lang = lang.strip().lower().split('-')[0]
     mapped_lang = XTTS_MAP.get(clean_lang) or ("zh-cn" if clean_lang == "zh" else None)
     if mapped_lang:
         speaker_wav_path = None
         if speaker_wav_b64:
         finally:
             if speaker_wav_path and "default_speaker" not in speaker_wav_path and os.path.exists(speaker_wav_path): os.unlink(speaker_wav_path)
             if 'output_path' in locals() and os.path.exists(output_path): os.unlink(output_path)
     try:
         temp_ref = None
         if speaker_wav_b64:
 def core_process(request_dict):
     action = request_dict.get("action")
     t1 = time.time()
+    print(f"--- [v97] 🚀 GPU SESSION: {action} ---")
     activate_gpu_models(action)
     try:
         if action == "stt": res = _stt_logic(request_dict)
         elif action == "health": res = {"status": "awake"}
         else: res = {"error": f"Unknown action: {action}"}
     finally:
+        print(f"--- [v97] ✨ END: {action} ({time.time()-t1:.2f}s) ---")
         release_gpu_models()
     return res
 app = FastAPI()
 @app.on_event("startup")
 async def startup_event():
     Thread(target=warmup_task, daemon=True).start()
     except Exception as e: return {"error": str(e)}
 @app.get("/health")
+def health(): return {"status": "ok", "warm": WARMUP_STATUS["complete"], "time": time.ctime()}
 @app.post("/api/v1/clear_cache")
 async def clear_cache():