Spaces:

BissakaAI
/

spaceb

Sleeping

App Files Files Community

BissakaAI commited on Dec 16, 2025

Commit

42081cb

verified ·

1 Parent(s): 5d41ed7

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -13

app.py CHANGED Viewed

@@ -10,17 +10,20 @@ from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
 # ----------------------------
 ASR_MODEL_ID = "openai/whisper-large-v3"
 HF_TOKEN = os.getenv("HF_TOKEN")
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 DTYPE = torch.float16 if DEVICE == "cuda" else torch.float32
 # ----------------------------
 # Load processor & model
 # ----------------------------
 processor = AutoProcessor.from_pretrained(
     ASR_MODEL_ID,
     token=HF_TOKEN
 )
 model = AutoModelForSpeechSeq2Seq.from_pretrained(
     ASR_MODEL_ID,
     torch_dtype=DTYPE,
@@ -30,6 +33,7 @@ model = AutoModelForSpeechSeq2Seq.from_pretrained(
 ).to(DEVICE)
 model.eval()
 # ----------------------------
 # Audio preprocessing
@@ -38,7 +42,7 @@ def preprocess_audio(audio):
     if audio is None:
         return None
-    # Gradio returns (sr, np.ndarray)
     sr, speech = audio
     # Stereo → mono
@@ -76,15 +80,10 @@ def transcribe_audio(audio):
     with torch.no_grad():
         generated_ids = model.generate(
-    **inputs,
-    max_new_tokens=256,
-    language=None,
-    task="transcribe",
-    prompt_ids=processor.get_prompt_ids(
-        text="This audio may be in Yoruba, Hausa, Igbo, Nigerian Pidgin or English."
-    )
-)
     transcription = processor.batch_decode(
         generated_ids,
@@ -94,7 +93,7 @@ def transcribe_audio(audio):
     return transcription.strip()
 # ----------------------------
-# Gradio UI (REAL-TIME MIC)
 # ----------------------------
 demo = gr.Interface(
     fn=transcribe_audio,
@@ -104,9 +103,12 @@ demo = gr.Interface(
         label="Speak or Upload Audio"
     ),
     outputs=gr.Textbox(label="Transcription"),
-    title="HealthAtlas ASR (Whisper)",
-    description="Real-time multilingual speech-to-text with automatic language detection"
 )
 if __name__ == "__main__":
     demo.launch()

 # ----------------------------
 ASR_MODEL_ID = "openai/whisper-large-v3"
 HF_TOKEN = os.getenv("HF_TOKEN")
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 DTYPE = torch.float16 if DEVICE == "cuda" else torch.float32
 # ----------------------------
 # Load processor & model
 # ----------------------------
+print("Loading Whisper processor...")
 processor = AutoProcessor.from_pretrained(
     ASR_MODEL_ID,
     token=HF_TOKEN
 )
+print("Loading Whisper model...")
 model = AutoModelForSpeechSeq2Seq.from_pretrained(
     ASR_MODEL_ID,
     torch_dtype=DTYPE,
 ).to(DEVICE)
 model.eval()
+print("✅ Whisper Large v3 loaded")
 # ----------------------------
 # Audio preprocessing
     if audio is None:
         return None
+    # Gradio returns (sample_rate, waveform)
     sr, speech = audio
     # Stereo → mono
     with torch.no_grad():
         generated_ids = model.generate(
+            **inputs,
+            max_new_tokens=256,
+            task="transcribe"   # 🔑 THIS IS ALL YOU NEED
+        )
     transcription = processor.batch_decode(
         generated_ids,
     return transcription.strip()
 # ----------------------------
+# Gradio UI (Mic + Upload)
 # ----------------------------
 demo = gr.Interface(
     fn=transcribe_audio,
         label="Speak or Upload Audio"
     ),
     outputs=gr.Textbox(label="Transcription"),
+    title="HealthAtlas ASR (Whisper Large v3)",
+    description="Real-time multilingual speech-to-text with automatic language detection",
 )
+# ----------------------------
+# Launch
+# ----------------------------
 if __name__ == "__main__":
     demo.launch()