Spaces:

TGPro1
/

S2ST

Sleeping

App Files Files Community

TGPro1 commited on Jan 21

Commit

7905c18

verified ·

1 Parent(s): 6ac1ef6

Upload app.py with huggingface_hub

Browse files

Files changed (1) hide show

app.py +45 -31

app.py CHANGED Viewed

@@ -17,11 +17,10 @@ import logging
 from threading import Thread, Lock
 from huggingface_hub import snapshot_download
-# 🛡️ 1. SILENCE VERBOSE LOGGING
 logging.getLogger("transformers").setLevel(logging.ERROR)
 logging.getLogger("TTS").setLevel(logging.ERROR)
 os.environ["CT2_VERBOSE"] = "0"
-os.environ["KMP_WARNINGS"] = "0"
 # 🛠️ 2. COMPATIBILITY PATCHES
 if "torchaudio.backend" not in sys.modules:
@@ -77,68 +76,88 @@ except ImportError:
             if f is None: return lambda x: x
             return f
-# FORCE BUILD TRIGGER: 11:55:00 Jan 21 2026
-# v94: Startup Event Warmup + Fix Port Conflict. Final Stabilization.
 os.environ["COQUI_TOS_AGREED"] = "1"
 MODELS = {"stt": None, "translate": None, "tts": None, "denoiser": None}
-WARMUP_STATUS = {"complete": False, "in_progress": False, "error": None}
 WARMUP_LOCK = Lock()
 def activate_gpu_models(action):
-    """v94: Direct GPU Activation"""
     global MODELS, WARMUP_STATUS
     local_only = WARMUP_STATUS["complete"]
     # 1. Faster-Whisper
     if action in ["stt", "s2st"]:
-        stt_ready = False
-        try: stt_ready = MODELS["stt"] is not None and MODELS["stt"].model.device == "cuda"
         except: pass
-        if not stt_ready:
-            print(f"🎙️ [v94] Activating Whisper (Local={local_only})...")
-            if MODELS["stt"]: del MODELS["stt"]; gc.collect(); torch.cuda.empty_cache()
             MODELS["stt"] = WhisperModel("large-v3", device="cuda", compute_type="float16", local_files_only=local_only)
     # 2. XTTS-v2
     if action in ["tts", "s2st"]:
-        tts_ready = False
         try:
             curr = str(next(MODELS["tts"].synthesizer.tts_model.parameters()).device)
-            tts_ready = "cuda" in curr
         except: pass
-        if MODELS["tts"] is None or not tts_ready:
-            print(f"🔊 [v94] Activating XTTS-v2 (Local={local_only})...")
             if MODELS["tts"] is None:
                 MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
             else: MODELS["tts"].to("cuda")
-    # 3. Helpers
     if MODELS["denoiser"] is None:
         try: MODELS["denoiser"] = init_df()
         except: pass
     if MODELS["translate"] is None: MODELS["translate"] = "active"
-    chatterbox_utils.load_chatterbox(device="cuda" if torch.cuda.is_available() else "cpu")
 def warmup_task():
-    """Silent Background Warmup (Threaded)"""
     global WARMUP_STATUS
     with WARMUP_LOCK:
         if WARMUP_STATUS["complete"] or WARMUP_STATUS["in_progress"]: return
         WARMUP_STATUS["in_progress"] = True
-    print("\n🔥 --- SILENT WARMUP STARTED (v94) ---")
     start = time.time()
     try:
         MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8")
         MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
         chatterbox_utils.warmup_chatterbox()
         WARMUP_STATUS["complete"] = True
-        print(f"✅ --- SYSTEM READY ({time.time()-start:.2f}s) --- \n")
     except Exception as e:
         print(f"❌ Warmup fail: {e}")
-        WARMUP_STATUS["error"] = str(e)
     finally:
         WARMUP_STATUS["in_progress"] = False
@@ -191,7 +210,7 @@ def _tts_logic(text, lang, speaker_wav_b64):
 def core_process(request_dict):
     action = request_dict.get("action")
     t1 = time.time()
-    print(f"--- [v94] 🚀 GPU SESSION START: {action} ---")
     activate_gpu_models(action)
     try:
         if action == "stt": res = _stt_logic(request_dict)
@@ -205,17 +224,14 @@ def core_process(request_dict):
         elif action == "health": res = {"status": "awake"}
         else: res = {"error": f"Unknown action: {action}"}
     finally:
-        print(f"--- [v94] ✨ END: {action} ({time.time()-t1:.2f}s) ---")
-        gc.collect()
-        if torch.cuda.is_available(): torch.cuda.empty_cache()
     return res
 app = FastAPI()
 @app.on_event("startup")
 async def startup_event():
-    """Ensure warmup starts regardless of entry point (v94)"""
-    print("🚀 App Startup Event: Launching Background Warmup")
     Thread(target=warmup_task, daemon=True).start()
 @app.post("/api/v1/process")
@@ -225,12 +241,12 @@ async def api_process(request: Request):
 @app.get("/health")
 def health():
-    return {"status": "ok", "optimized": WARMUP_STATUS["complete"], "time": time.ctime()}
 @app.post("/api/v1/clear_cache")
 async def clear_cache():
     try:
-        gc.collect(); torch.cuda.empty_cache()
         temp_dir = tempfile.gettempdir()
         for f in os.listdir(temp_dir):
             if f.endswith(".wav") or f.startswith("tm"):
@@ -246,7 +262,5 @@ def gradio_fn(req_json):
 demo = gr.Interface(fn=gradio_fn, inputs="text", outputs="text", title="🚀 AI Engine")
 app = gr.mount_gradio_app(app, demo, path="/")
-# Note: if __name__ == "__main__" is skipped if launched via 'uvicorn app:app'
 if __name__ == "__main__":
-    print("🛠️ Manual Start detected")
     uvicorn.run(app, host="0.0.0.0", port=7860, log_level="error")

 from threading import Thread, Lock
 from huggingface_hub import snapshot_download
+# 🛡️ 1. SILENCE LOGGING
 logging.getLogger("transformers").setLevel(logging.ERROR)
 logging.getLogger("TTS").setLevel(logging.ERROR)
 os.environ["CT2_VERBOSE"] = "0"
 # 🛠️ 2. COMPATIBILITY PATCHES
 if "torchaudio.backend" not in sys.modules:
             if f is None: return lambda x: x
             return f
+# FORCE BUILD TRIGGER: 12:00:00 Jan 21 2026
+# v95: Serverless GPU Efficiency. Auto-release GPU, models stay WARM in RAM.
 os.environ["COQUI_TOS_AGREED"] = "1"
 MODELS = {"stt": None, "translate": None, "tts": None, "denoiser": None}
+WARMUP_STATUS = {"complete": False, "in_progress": False}
 WARMUP_LOCK = Lock()
 def activate_gpu_models(action):
+    """v95: Optimized GPU Activation"""
     global MODELS, WARMUP_STATUS
     local_only = WARMUP_STATUS["complete"]
     # 1. Faster-Whisper
     if action in ["stt", "s2st"]:
+        stt_on_gpu = False
+        try: stt_on_gpu = MODELS["stt"] is not None and MODELS["stt"].model.device == "cuda"
         except: pass
+        if not stt_on_gpu:
+            print(f"🎙️ [v95] Activating Whisper (GPU)...")
+            if MODELS["stt"]: del MODELS["stt"]
+            gc.collect(); torch.cuda.empty_cache()
             MODELS["stt"] = WhisperModel("large-v3", device="cuda", compute_type="float16", local_files_only=local_only)
     # 2. XTTS-v2
     if action in ["tts", "s2st"]:
+        tts_on_gpu = False
         try:
             curr = str(next(MODELS["tts"].synthesizer.tts_model.parameters()).device)
+            tts_on_gpu = "cuda" in curr
         except: pass
+        if MODELS["tts"] is None or not tts_on_gpu:
+            print(f"🔊 [v95] Activating XTTS-v2 (GPU)...")
             if MODELS["tts"] is None:
                 MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
             else: MODELS["tts"].to("cuda")
+    # 3. Helpers (Chatterbox stays on CPU for faster session startup)
     if MODELS["denoiser"] is None:
         try: MODELS["denoiser"] = init_df()
         except: pass
     if MODELS["translate"] is None: MODELS["translate"] = "active"
+    chatterbox_utils.load_chatterbox(device="cpu")
+def release_gpu_models():
+    """v95: PERSISTENT RAM LOADING - Move models back to CPU to save GPU quota"""
+    global MODELS
+    print("🧹 [v95] Releasing GPU resources. Returning models to System RAM...")
+    # 1. Whisper: Re-init on CPU (int8) to free GPU handles
+    if MODELS["stt"] and MODELS["stt"].model.device == "cuda":
+        del MODELS["stt"]
+        MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8", local_files_only=True)
+    # 2. XTTS: Move weights to CPU
+    if MODELS["tts"]:
+        try: MODELS["tts"].to("cpu")
+        except: pass
+    gc.collect()
+    if torch.cuda.is_available():
+        torch.cuda.empty_cache()
+    print("✅ GPU quota saved. Session is Warm but Idle.")
 def warmup_task():
+    """Silent Background Warmup (Resident RAM)"""
     global WARMUP_STATUS
     with WARMUP_LOCK:
         if WARMUP_STATUS["complete"] or WARMUP_STATUS["in_progress"]: return
         WARMUP_STATUS["in_progress"] = True
+    print("\n🔥 --- SILENT WARMUP: RESIDENT RAM LOADING (v95) ---")
     start = time.time()
     try:
         MODELS["stt"] = WhisperModel("large-v3", device="cpu", compute_type="int8")
         MODELS["tts"] = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
         chatterbox_utils.warmup_chatterbox()
         WARMUP_STATUS["complete"] = True
+        print(f"✅ --- SYSTEM READY: MODELS RESIDENT IN RAM ({time.time()-start:.2f}s) --- \n")
     except Exception as e:
         print(f"❌ Warmup fail: {e}")
     finally:
         WARMUP_STATUS["in_progress"] = False
 def core_process(request_dict):
     action = request_dict.get("action")
     t1 = time.time()
+    print(f"--- [v95] 🚀 GPU SESSION: {action} ---")
     activate_gpu_models(action)
     try:
         if action == "stt": res = _stt_logic(request_dict)
         elif action == "health": res = {"status": "awake"}
         else: res = {"error": f"Unknown action: {action}"}
     finally:
+        print(f"--- [v95] ✨ SUCCESS: {action} ({time.time()-t1:.2f}s) ---")
+        release_gpu_models()
     return res
 app = FastAPI()
 @app.on_event("startup")
 async def startup_event():
     Thread(target=warmup_task, daemon=True).start()
 @app.post("/api/v1/process")
 @app.get("/health")
 def health():
+    return {"status": "ok", "warm": WARMUP_STATUS["complete"], "time": time.ctime()}
 @app.post("/api/v1/clear_cache")
 async def clear_cache():
     try:
+        release_gpu_models()
         temp_dir = tempfile.gettempdir()
         for f in os.listdir(temp_dir):
             if f.endswith(".wav") or f.startswith("tm"):
 demo = gr.Interface(fn=gradio_fn, inputs="text", outputs="text", title="🚀 AI Engine")
 app = gr.mount_gradio_app(app, demo, path="/")
 if __name__ == "__main__":
     uvicorn.run(app, host="0.0.0.0", port=7860, log_level="error")