Spaces:

TGPro1
/

S2ST

Sleeping

App Files Files Community

TGPro1 commited on Jan 21

Commit

fc295c3

verified ·

1 Parent(s): 5e62ae0

Upload app.py with huggingface_hub

Browse files

Files changed (1) hide show

app.py +22 -27

app.py CHANGED Viewed

@@ -76,8 +76,8 @@ except ImportError:
             if f is None: return lambda x: x
             return f
-# FORCE BUILD TRIGGER: 12:35:00 Jan 21 2026
-# v97: Bulletproof Handoff (Loop Prevention). Stability Focus (1-Worker).
 os.environ["COQUI_TOS_AGREED"] = "1"
 MODELS = {"stt": None, "translate": None, "tts": None, "denoiser": None}
@@ -86,30 +86,30 @@ WARMUP_STATUS = {"complete": False, "in_progress": False}
 WARMUP_LOCK = Lock()
 def activate_gpu_models(action):
-    """v97: Stability-First Activation"""
     global MODELS, WARMUP_STATUS
     local_only = WARMUP_STATUS["complete"]
-    # 1. Faster-Whisper: Stability Focus
     if action in ["stt", "s2st"]:
         stt_on_gpu = False
         try: stt_on_gpu = MODELS["stt"] is not None and MODELS["stt"].model.device == "cuda"
         except: pass
         if not stt_on_gpu:
-            print(f"🎙️ [v97] Activating Whisper on GPU (Stability Mode)...")
             try:
                 if MODELS["stt"]: del MODELS["stt"]
                 gc.collect(); torch.cuda.empty_cache()
-                # Reduced workers to 1 to prevent MIG OOM/Crash loops
                 MODELS["stt"] = WhisperModel(
                     "large-v3",
                     device="cuda",
-                    compute_type="float16", # Stable standard
                     local_files_only=local_only
                 )
             except Exception as e:
-                print(f"⚠️ Whisper GPU failed: {e}. Falling back to CPU.")
-                MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8", local_files_only=True)
     # 2. XTTS-v2
     if action in ["tts", "s2st"]:
@@ -119,17 +119,12 @@ def activate_gpu_models(action):
             tts_on_gpu = "cuda" in curr
         except: pass
         if MODELS["tts"] is None or not tts_on_gpu:
-            print(f"🔊 [v97] Activating XTTS-v2 (GPU)...")
-            try:
-                if MODELS["tts"] is None:
-                    MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
-                else: MODELS["tts"].to("cuda")
-            except Exception as e:
-                print(f"⚠️ XTTS GPU failed: {e}. Staying on CPU.")
-                if MODELS["tts"] is None:
-                    MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
-    # 3. Chatterbox: Accelerated in Session
     chatterbox_utils.load_chatterbox(device="cuda" if torch.cuda.is_available() else "cpu")
     # 4. Helpers
@@ -139,9 +134,9 @@ def activate_gpu_models(action):
     if MODELS["translate"] is None: MODELS["translate"] = "active"
 def release_gpu_models():
-    """v97: Clean Exit Handoff"""
     global MODELS
-    print("🧹 [v97] Releasing resources...")
     try:
         if MODELS["stt"] and MODELS["stt"].model.device == "cuda":
             del MODELS["stt"]
@@ -155,18 +150,18 @@ def release_gpu_models():
     if torch.cuda.is_available(): torch.cuda.empty_cache()
 def warmup_task():
-    """Silent Warmup (Resident RAM)"""
     global WARMUP_STATUS
     with WARMUP_LOCK:
         if WARMUP_STATUS["complete"] or WARMUP_STATUS["in_progress"]: return
         WARMUP_STATUS["in_progress"] = True
-    print("\n🔥 --- SILENT WARMUP STARTED (v97) ---")
     try:
         MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8")
         MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
         chatterbox_utils.warmup_chatterbox()
         WARMUP_STATUS["complete"] = True
-        print(f"✅ --- SYSTEM WARM --- \n")
     except: pass
     finally: WARMUP_STATUS["in_progress"] = False
@@ -176,7 +171,7 @@ def _stt_logic(request_dict):
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
         f.write(audio_bytes); temp_path = f.name
     try:
-        # Beam size 1 for maximum speed and stability
         segments, _ = MODELS["stt"].transcribe(temp_path, language=lang, beam_size=1)
         return {"text": " ".join([s.text for s in segments]).strip()}
     finally:
@@ -220,7 +215,7 @@ def _tts_logic(text, lang, speaker_wav_b64):
 def core_process(request_dict):
     action = request_dict.get("action")
     t1 = time.time()
-    print(f"--- [v97] 🚀 GPU SESSION: {action} ---")
     activate_gpu_models(action)
     try:
         if action == "stt": res = _stt_logic(request_dict)
@@ -234,7 +229,7 @@ def core_process(request_dict):
         elif action == "health": res = {"status": "awake"}
         else: res = {"error": f"Unknown action: {action}"}
     finally:
-        print(f"--- [v97] ✨ END: {action} ({time.time()-t1:.2f}s) ---")
         release_gpu_models()
     return res

             if f is None: return lambda x: x
             return f
+# FORCE BUILD TRIGGER: 12:40:00 Jan 21 2026
+# v98: Peak Performance Re-enabled (4-Workers).
 os.environ["COQUI_TOS_AGREED"] = "1"
 MODELS = {"stt": None, "translate": None, "tts": None, "denoiser": None}
 WARMUP_LOCK = Lock()
 def activate_gpu_models(action):
+    """v98: High-Parallelism Peak Mode"""
     global MODELS, WARMUP_STATUS
     local_only = WARMUP_STATUS["complete"]
+    # 1. Faster-Whisper: Peak Performance with 4 workers
     if action in ["stt", "s2st"]:
         stt_on_gpu = False
         try: stt_on_gpu = MODELS["stt"] is not None and MODELS["stt"].model.device == "cuda"
         except: pass
         if not stt_on_gpu:
+            print(f"🎙️ [v98] Peak Performance Activation: Whisper (GPU) with 4-Workers...")
             try:
                 if MODELS["stt"]: del MODELS["stt"]
                 gc.collect(); torch.cuda.empty_cache()
                 MODELS["stt"] = WhisperModel(
                     "large-v3",
                     device="cuda",
+                    compute_type="int8_float16",
+                    num_workers=4, # RESTORED (User request)
                     local_files_only=local_only
                 )
             except Exception as e:
+                print(f"⚠️ Whisper GPU Peak failed: {e}. Falling back to standard mode.")
+                MODELS["stt"] = WhisperModel("large-v3", device="cuda", compute_type="float16", local_files_only=local_only)
     # 2. XTTS-v2
     if action in ["tts", "s2st"]:
             tts_on_gpu = "cuda" in curr
         except: pass
         if MODELS["tts"] is None or not tts_on_gpu:
+            print(f"🔊 [v98] Activating XTTS-v2 (GPU)...")
+            if MODELS["tts"] is None:
+                MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
+            else: MODELS["tts"].to("cuda")
+    # 3. Chatterbox Accelerated
     chatterbox_utils.load_chatterbox(device="cuda" if torch.cuda.is_available() else "cpu")
     # 4. Helpers
     if MODELS["translate"] is None: MODELS["translate"] = "active"
 def release_gpu_models():
+    """v98: Clean Idle (Resident RAM)"""
     global MODELS
+    print("🧹 [v98] Session complete. Releasing GPU...")
     try:
         if MODELS["stt"] and MODELS["stt"].model.device == "cuda":
             del MODELS["stt"]
     if torch.cuda.is_available(): torch.cuda.empty_cache()
 def warmup_task():
+    """Silent Power-Warmup"""
     global WARMUP_STATUS
     with WARMUP_LOCK:
         if WARMUP_STATUS["complete"] or WARMUP_STATUS["in_progress"]: return
         WARMUP_STATUS["in_progress"] = True
+    print("\n🔥 --- SILENT POWER-WARMUP STARTED (v98) ---")
     try:
         MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8")
         MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
         chatterbox_utils.warmup_chatterbox()
         WARMUP_STATUS["complete"] = True
+        print(f"✅ --- PEAK READY -- \n")
     except: pass
     finally: WARMUP_STATUS["in_progress"] = False
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
         f.write(audio_bytes); temp_path = f.name
     try:
+        # Multi-worker Power (4 workers)
         segments, _ = MODELS["stt"].transcribe(temp_path, language=lang, beam_size=1)
         return {"text": " ".join([s.text for s in segments]).strip()}
     finally:
 def core_process(request_dict):
     action = request_dict.get("action")
     t1 = time.time()
+    print(f"--- [v98] 🚀 PEAK GPU SESSION: {action} ---")
     activate_gpu_models(action)
     try:
         if action == "stt": res = _stt_logic(request_dict)
         elif action == "health": res = {"status": "awake"}
         else: res = {"error": f"Unknown action: {action}"}
     finally:
+        print(f"--- [v98] ✨ PEAK-DONE: {action} ({time.time()-t1:.2f}s) ---")
         release_gpu_models()
     return res