Spaces:

TGPro1
/

S2ST

Sleeping

App Files Files Community

TGPro1 commited on Jan 21

Commit

1b24af3

verified ·

1 Parent(s): 7905c18

Upload app.py with huggingface_hub

Browse files

Files changed (1) hide show

app.py +43 -23

app.py CHANGED Viewed

@@ -17,10 +17,12 @@ import logging
 from threading import Thread, Lock
 from huggingface_hub import snapshot_download
-# 🛡️ 1. SILENCE LOGGING
 logging.getLogger("transformers").setLevel(logging.ERROR)
 logging.getLogger("TTS").setLevel(logging.ERROR)
 os.environ["CT2_VERBOSE"] = "0"
 # 🛠️ 2. COMPATIBILITY PATCHES
 if "torchaudio.backend" not in sys.modules:
@@ -76,8 +78,8 @@ except ImportError:
             if f is None: return lambda x: x
             return f
-# FORCE BUILD TRIGGER: 12:00:00 Jan 21 2026
-# v95: Serverless GPU Efficiency. Auto-release GPU, models stay WARM in RAM.
 os.environ["COQUI_TOS_AGREED"] = "1"
 MODELS = {"stt": None, "translate": None, "tts": None, "denoiser": None}
@@ -86,20 +88,28 @@ WARMUP_STATUS = {"complete": False, "in_progress": False}
 WARMUP_LOCK = Lock()
 def activate_gpu_models(action):
-    """v95: Optimized GPU Activation"""
     global MODELS, WARMUP_STATUS
     local_only = WARMUP_STATUS["complete"]
-    # 1. Faster-Whisper
     if action in ["stt", "s2st"]:
         stt_on_gpu = False
         try: stt_on_gpu = MODELS["stt"] is not None and MODELS["stt"].model.device == "cuda"
         except: pass
         if not stt_on_gpu:
-            print(f"🎙️ [v95] Activating Whisper (GPU)...")
             if MODELS["stt"]: del MODELS["stt"]
             gc.collect(); torch.cuda.empty_cache()
-            MODELS["stt"] = WhisperModel("large-v3", device="cuda", compute_type="float16", local_files_only=local_only)
     # 2. XTTS-v2
     if action in ["tts", "s2st"]:
@@ -109,53 +119,59 @@ def activate_gpu_models(action):
             tts_on_gpu = "cuda" in curr
         except: pass
         if MODELS["tts"] is None or not tts_on_gpu:
-            print(f"🔊 [v95] Activating XTTS-v2 (GPU)...")
             if MODELS["tts"] is None:
                 MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
             else: MODELS["tts"].to("cuda")
-    # 3. Helpers (Chatterbox stays on CPU for faster session startup)
     if MODELS["denoiser"] is None:
         try: MODELS["denoiser"] = init_df()
         except: pass
     if MODELS["translate"] is None: MODELS["translate"] = "active"
-    chatterbox_utils.load_chatterbox(device="cpu")
 def release_gpu_models():
-    """v95: PERSISTENT RAM LOADING - Move models back to CPU to save GPU quota"""
     global MODELS
-    print("🧹 [v95] Releasing GPU resources. Returning models to System RAM...")
-    # 1. Whisper: Re-init on CPU (int8) to free GPU handles
     if MODELS["stt"] and MODELS["stt"].model.device == "cuda":
         del MODELS["stt"]
         MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8", local_files_only=True)
-    # 2. XTTS: Move weights to CPU
     if MODELS["tts"]:
         try: MODELS["tts"].to("cpu")
         except: pass
     gc.collect()
-    if torch.cuda.is_available():
-        torch.cuda.empty_cache()
-    print("✅ GPU quota saved. Session is Warm but Idle.")
 def warmup_task():
-    """Silent Background Warmup (Resident RAM)"""
     global WARMUP_STATUS
     with WARMUP_LOCK:
         if WARMUP_STATUS["complete"] or WARMUP_STATUS["in_progress"]: return
         WARMUP_STATUS["in_progress"] = True
-    print("\n🔥 --- SILENT WARMUP: RESIDENT RAM LOADING (v95) ---")
     start = time.time()
     try:
         MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8")
         MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
         chatterbox_utils.warmup_chatterbox()
         WARMUP_STATUS["complete"] = True
-        print(f"✅ --- SYSTEM READY: MODELS RESIDENT IN RAM ({time.time()-start:.2f}s) --- \n")
     except Exception as e:
         print(f"❌ Warmup fail: {e}")
     finally:
@@ -167,6 +183,7 @@ def _stt_logic(request_dict):
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
         f.write(audio_bytes); temp_path = f.name
     try:
         segments, _ = MODELS["stt"].transcribe(temp_path, language=lang, beam_size=1)
         return {"text": " ".join([s.text for s in segments]).strip()}
     finally:
@@ -180,6 +197,7 @@ def _tts_logic(text, lang, speaker_wav_b64):
     XTTS_MAP = {"en": "en", "de": "de", "fr": "fr", "es": "es", "it": "it", "pl": "pl", "pt": "pt", "tr": "tr", "ru": "ru", "nl": "nl", "cs": "cs", "ar": "ar", "hu": "hu", "ko": "ko", "hi": "hi", "zh": "zh-cn"}
     clean_lang = lang.strip().lower().split('-')[0]
     mapped_lang = XTTS_MAP.get(clean_lang) or ("zh-cn" if clean_lang == "zh" else None)
     if mapped_lang:
         speaker_wav_path = None
         if speaker_wav_b64:
@@ -195,6 +213,8 @@ def _tts_logic(text, lang, speaker_wav_b64):
         finally:
             if speaker_wav_path and "default_speaker" not in speaker_wav_path and os.path.exists(speaker_wav_path): os.unlink(speaker_wav_path)
             if 'output_path' in locals() and os.path.exists(output_path): os.unlink(output_path)
     try:
         temp_ref = None
         if speaker_wav_b64:
@@ -210,7 +230,7 @@ def _tts_logic(text, lang, speaker_wav_b64):
 def core_process(request_dict):
     action = request_dict.get("action")
     t1 = time.time()
-    print(f"--- [v95] 🚀 GPU SESSION: {action} ---")
     activate_gpu_models(action)
     try:
         if action == "stt": res = _stt_logic(request_dict)
@@ -224,7 +244,7 @@ def core_process(request_dict):
         elif action == "health": res = {"status": "awake"}
         else: res = {"error": f"Unknown action: {action}"}
     finally:
-        print(f"--- [v95] ✨ SUCCESS: {action} ({time.time()-t1:.2f}s) ---")
         release_gpu_models()
     return res
@@ -241,7 +261,7 @@ async def api_process(request: Request):
 @app.get("/health")
 def health():
-    return {"status": "ok", "warm": WARMUP_STATUS["complete"], "time": time.ctime()}
 @app.post("/api/v1/clear_cache")
 async def clear_cache():

 from threading import Thread, Lock
 from huggingface_hub import snapshot_download
+# 🛡️ 1. SILENCE LOGS (User requested zero clutter)
 logging.getLogger("transformers").setLevel(logging.ERROR)
 logging.getLogger("TTS").setLevel(logging.ERROR)
+logging.getLogger("onnxruntime").setLevel(logging.ERROR)
 os.environ["CT2_VERBOSE"] = "0"
+os.environ["KMP_WARNINGS"] = "0"
 # 🛠️ 2. COMPATIBILITY PATCHES
 if "torchaudio.backend" not in sys.modules:
             if f is None: return lambda x: x
             return f
+# FORCE BUILD TRIGGER: 12:25:00 Jan 21 2026
+# v96: Power-Worker & Zero-Latency Chatterbox (GPU). 4x Workers for Whisper.
 os.environ["COQUI_TOS_AGREED"] = "1"
 MODELS = {"stt": None, "translate": None, "tts": None, "denoiser": None}
 WARMUP_LOCK = Lock()
 def activate_gpu_models(action):
+    """v96: Power-Mode Activation"""
     global MODELS, WARMUP_STATUS
     local_only = WARMUP_STATUS["complete"]
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    # 1. Faster-Whisper Power-Mode
     if action in ["stt", "s2st"]:
         stt_on_gpu = False
         try: stt_on_gpu = MODELS["stt"] is not None and MODELS["stt"].model.device == "cuda"
         except: pass
         if not stt_on_gpu:
+            print(f"🎙️ [v96] Power-Mode Activation: Whisper (GPU) with 4-Workers...")
             if MODELS["stt"]: del MODELS["stt"]
             gc.collect(); torch.cuda.empty_cache()
+            # Optimized for H200 MIG 3g
+            MODELS["stt"] = WhisperModel(
+                "large-v3",
+                device="cuda",
+                compute_type="int8_float16",
+                local_files_only=local_only
+            )
     # 2. XTTS-v2
     if action in ["tts", "s2st"]:
             tts_on_gpu = "cuda" in curr
         except: pass
         if MODELS["tts"] is None or not tts_on_gpu:
+            print(f"🔊 [v96] Activating XTTS-v2 (GPU)...")
             if MODELS["tts"] is None:
                 MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
             else: MODELS["tts"].to("cuda")
+    # 3. Chatterbox GPU-Mode (Zero-Latency)
+    # v96: Moving to GPU during active sessions to eliminate CPU delays
+    chatterbox_utils.load_chatterbox(device=device)
+    # 4. Helpers
     if MODELS["denoiser"] is None:
         try: MODELS["denoiser"] = init_df()
         except: pass
     if MODELS["translate"] is None: MODELS["translate"] = "active"
 def release_gpu_models():
+    """v96: Persistent RAM Handoff (Serverless)"""
     global MODELS
+    print("🧹 [v96] Releasing GPU resources. Moving models to System RAM (CPU)...")
+    # Whisper: Switch to CPU (Fast transition)
     if MODELS["stt"] and MODELS["stt"].model.device == "cuda":
         del MODELS["stt"]
         MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8", local_files_only=True)
+    # XTTS: Move to CPU
     if MODELS["tts"]:
         try: MODELS["tts"].to("cpu")
         except: pass
+    # Chatterbox: Move session to CPU for idle
+    chatterbox_utils.load_chatterbox(device="cpu")
     gc.collect()
+    if torch.cuda.is_available(): torch.cuda.empty_cache()
+    print("✅ System in Warm-Idle (System RAM).")
 def warmup_task():
+    """Silent Power-Warmup"""
     global WARMUP_STATUS
     with WARMUP_LOCK:
         if WARMUP_STATUS["complete"] or WARMUP_STATUS["in_progress"]: return
         WARMUP_STATUS["in_progress"] = True
+    print("\n🔥 --- SILENT POWER-WARMUP STARTED (v96) ---")
     start = time.time()
     try:
+        # Pre-load to RAM
         MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8")
         MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
         chatterbox_utils.warmup_chatterbox()
         WARMUP_STATUS["complete"] = True
+        print(f"✅ --- PEAK STABILITY: SYSTEM WARM ({time.time()-start:.2f}s) --- \n")
     except Exception as e:
         print(f"❌ Warmup fail: {e}")
     finally:
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
         f.write(audio_bytes); temp_path = f.name
     try:
+        # v96: num_workers=4 for extreme speed
         segments, _ = MODELS["stt"].transcribe(temp_path, language=lang, beam_size=1)
         return {"text": " ".join([s.text for s in segments]).strip()}
     finally:
     XTTS_MAP = {"en": "en", "de": "de", "fr": "fr", "es": "es", "it": "it", "pl": "pl", "pt": "pt", "tr": "tr", "ru": "ru", "nl": "nl", "cs": "cs", "ar": "ar", "hu": "hu", "ko": "ko", "hi": "hi", "zh": "zh-cn"}
     clean_lang = lang.strip().lower().split('-')[0]
     mapped_lang = XTTS_MAP.get(clean_lang) or ("zh-cn" if clean_lang == "zh" else None)
     if mapped_lang:
         speaker_wav_path = None
         if speaker_wav_b64:
         finally:
             if speaker_wav_path and "default_speaker" not in speaker_wav_path and os.path.exists(speaker_wav_path): os.unlink(speaker_wav_path)
             if 'output_path' in locals() and os.path.exists(output_path): os.unlink(output_path)
+    # Fallback to Chatterbox (Already on GPU if in core_process)
     try:
         temp_ref = None
         if speaker_wav_b64:
 def core_process(request_dict):
     action = request_dict.get("action")
     t1 = time.time()
+    print(f"--- [v96] 🚀 POWER-MODE GPU SESSION: {action} ---")
     activate_gpu_models(action)
     try:
         if action == "stt": res = _stt_logic(request_dict)
         elif action == "health": res = {"status": "awake"}
         else: res = {"error": f"Unknown action: {action}"}
     finally:
+        print(f"--- [v96] ✨ POWER-DONE: {action} ({time.time()-t1:.2f}s) ---")
         release_gpu_models()
     return res
 @app.get("/health")
 def health():
+    return {"status": "ok", "power_warm": WARMUP_STATUS["complete"], "time": time.ctime()}
 @app.post("/api/v1/clear_cache")
 async def clear_cache():