Spaces:

TGPro1
/

S2ST

Running on Zero

App Files Files Community

TGPro1 commited on 27 days ago

Commit

cb0d204

verified ·

1 Parent(s): 18cbedf

Upload app.py with huggingface_hub

Browse files

Files changed (1) hide show

app.py +5 -14

app.py CHANGED Viewed

@@ -1,4 +1,3 @@
-# 🚀 v136: ZEROGPU HOPPER ULTIMATE (PERSISTENT GPU)
 try:
     import spaces
 except ImportError:
@@ -21,17 +20,9 @@ import time
 import gc
 import traceback
 import soundfile as sf
-from faster_whisper import WhisperModel
-# 🛡️ 0. INFRASTRUCTURE PURIST (v136)
 import numpy as np
-import uvicorn
-from fastapi import FastAPI, Request
-from fastapi.middleware.cors import CORSMiddleware
 from transformers import pipeline, AutoModelForSpeechSeq2Seq, AutoProcessor
 from TTS.api import TTS
-import gradio as gr
-import json # Added for gradio interface
 # ==========================================
 # 🚀 v137 - HOPPER NATIVE (Transformers + Persistent VRAM)
@@ -48,19 +39,18 @@ os.environ["PYTHONWARNINGS"] = "ignore"
 os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":4096:8"
 torch.backends.cuda.matmul.allow_tf32 = False
 torch.backends.cudnn.allow_tf32 = False
-torch.use_deterministic_algorithms(False) # Some kernels might need this, but let's keep it flexible
 app = FastAPI()
 app.add_middleware(CORSMiddleware, allow_origins=["*"], allow_methods=["*"], allow_headers=["*"])
-MODELS = {"stt": None, "tts": None, "processor": None}
 def load_gpu_models():
     """Persistent loading into GPU VRAM. Only runs once per worker."""
     global MODELS
     device = "cuda"
-    if MODELS["stt"] is None:
         print("--- [v137] 📥 LOADING NATIVE WHISPER (Large-v3-Turbo) ---")
         model_id = "openai/whisper-large-v3-turbo"
         torch_dtype = torch.float16
@@ -82,7 +72,7 @@ def load_gpu_models():
         )
         print("--- [v137] ✅ WHISPER LOADED ---")
-    if MODELS["tts"] is None:
         print("--- [v137] 📥 LOADING XTTS (VRAM STABLE) ---")
         MODELS["tts"] = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
         print("--- [v137] ✅ XTTS LOADED ---")
@@ -179,7 +169,8 @@ def health(): return {"status": "ok", "v": "137"}
 # Gradio interface for debugging
 with gr.Blocks() as demo:
-    gr.Markdown("## v137 HOPPER NATIVE (H200 Stable)")
     with gr.Row():
         audio_in = gr.Audio(type="filepath", label="Input Audio")
         stt_btn = gr.Button("STT")

 try:
     import spaces
 except ImportError:
 import gc
 import traceback
 import soundfile as sf
 import numpy as np
 from transformers import pipeline, AutoModelForSpeechSeq2Seq, AutoProcessor
 from TTS.api import TTS
 # ==========================================
 # 🚀 v137 - HOPPER NATIVE (Transformers + Persistent VRAM)
 os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":4096:8"
 torch.backends.cuda.matmul.allow_tf32 = False
 torch.backends.cudnn.allow_tf32 = False
 app = FastAPI()
 app.add_middleware(CORSMiddleware, allow_origins=["*"], allow_methods=["*"], allow_headers=["*"])
+MODELS = {"stt": None, "tts": None}
 def load_gpu_models():
     """Persistent loading into GPU VRAM. Only runs once per worker."""
     global MODELS
     device = "cuda"
+    if MODELS.get("stt") is None:
         print("--- [v137] 📥 LOADING NATIVE WHISPER (Large-v3-Turbo) ---")
         model_id = "openai/whisper-large-v3-turbo"
         torch_dtype = torch.float16
         )
         print("--- [v137] ✅ WHISPER LOADED ---")
+    if MODELS.get("tts") is None:
         print("--- [v137] 📥 LOADING XTTS (VRAM STABLE) ---")
         MODELS["tts"] = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)
         print("--- [v137] ✅ XTTS LOADED ---")
 # Gradio interface for debugging
 with gr.Blocks() as demo:
+    gr.Markdown("# 🚀 v137 HOPPER NATIVE (H200 Stable)")
+    gr.Markdown("Direct GPU path | Transformers Whisper | XTTS-v2 Singleton")
     with gr.Row():
         audio_in = gr.Audio(type="filepath", label="Input Audio")
         stt_btn = gr.Button("STT")