Spaces:

BissakaAI
/

spaceb

Sleeping

App Files Files Community

BissakaAI commited on Dec 16, 2025

Commit

5db1504

verified ·

1 Parent(s): 42081cb

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -28

app.py CHANGED Viewed

@@ -15,25 +15,22 @@ DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 DTYPE = torch.float16 if DEVICE == "cuda" else torch.float32
 # ----------------------------
-# Load processor & model
 # ----------------------------
-print("Loading Whisper processor...")
 processor = AutoProcessor.from_pretrained(
     ASR_MODEL_ID,
-    token=HF_TOKEN
 )
-print("Loading Whisper model...")
 model = AutoModelForSpeechSeq2Seq.from_pretrained(
     ASR_MODEL_ID,
     torch_dtype=DTYPE,
     low_cpu_mem_usage=True,
     use_safetensors=True,
-    token=HF_TOKEN
 ).to(DEVICE)
 model.eval()
-print("✅ Whisper Large v3 loaded")
 # ----------------------------
 # Audio preprocessing
@@ -42,22 +39,26 @@ def preprocess_audio(audio):
     if audio is None:
         return None
-    # Gradio returns (sample_rate, waveform)
     sr, speech = audio
     # Stereo → mono
     if speech.ndim > 1:
         speech = np.mean(speech, axis=1)
     speech = speech.astype(np.float32)
     # Force 16kHz
     if sr != 16000:
-        speech = librosa.resample(
-            speech,
-            orig_sr=sr,
-            target_sr=16000
-        )
     return speech
@@ -67,48 +68,51 @@ def preprocess_audio(audio):
 def transcribe_audio(audio):
     speech = preprocess_audio(audio)
-    if speech is None or len(speech) == 0:
-        return "No audio provided."
     inputs = processor(
         speech,
         sampling_rate=16000,
         return_tensors="pt"
     )
     inputs = {k: v.to(DEVICE) for k, v in inputs.items()}
     with torch.no_grad():
         generated_ids = model.generate(
             **inputs,
-            max_new_tokens=256,
-            task="transcribe"   # 🔑 THIS IS ALL YOU NEED
         )
-    transcription = processor.batch_decode(
         generated_ids,
         skip_special_tokens=True
-    )[0]
-    return transcription.strip()
 # ----------------------------
-# Gradio UI (Mic + Upload)
 # ----------------------------
 demo = gr.Interface(
     fn=transcribe_audio,
     inputs=gr.Audio(
         sources=["microphone", "upload"],
         type="numpy",
-        label="Speak or Upload Audio"
     ),
     outputs=gr.Textbox(label="Transcription"),
-    title="HealthAtlas ASR (Whisper Large v3)",
-    description="Real-time multilingual speech-to-text with automatic language detection",
 )
-# ----------------------------
-# Launch
-# ----------------------------
 if __name__ == "__main__":
-    demo.launch()

 DTYPE = torch.float16 if DEVICE == "cuda" else torch.float32
 # ----------------------------
+# Load Whisper
 # ----------------------------
 processor = AutoProcessor.from_pretrained(
     ASR_MODEL_ID,
+    use_auth_token=HF_TOKEN
 )
 model = AutoModelForSpeechSeq2Seq.from_pretrained(
     ASR_MODEL_ID,
     torch_dtype=DTYPE,
     low_cpu_mem_usage=True,
     use_safetensors=True,
+    use_auth_token=HF_TOKEN
 ).to(DEVICE)
 model.eval()
 # ----------------------------
 # Audio preprocessing
     if audio is None:
         return None
     sr, speech = audio
     # Stereo → mono
     if speech.ndim > 1:
         speech = np.mean(speech, axis=1)
+    # Convert to float32
     speech = speech.astype(np.float32)
+    # Normalize volume
+    rms = np.sqrt(np.mean(speech ** 2))
+    if rms > 0:
+        speech = speech / rms
+    # Trim silence
+    speech, _ = librosa.effects.trim(speech, top_db=25)
     # Force 16kHz
     if sr != 16000:
+        speech = librosa.resample(speech, orig_sr=sr, target_sr=16000).astype(np.float32)
     return speech
 def transcribe_audio(audio):
     speech = preprocess_audio(audio)
+    if speech is None or len(speech) < 16000:
+        return "Audio too short or unclear. Please speak clearly and try again."
     inputs = processor(
         speech,
         sampling_rate=16000,
         return_tensors="pt"
     )
     inputs = {k: v.to(DEVICE) for k, v in inputs.items()}
     with torch.no_grad():
+        # Force Yoruba transcription
         generated_ids = model.generate(
             **inputs,
+            task="transcribe",
+            language="yo",          # Yoruba ISO-639-1 code
+            max_new_tokens=512,
+            temperature=0.0,
+            no_repeat_ngram_size=3
         )
+    text = processor.batch_decode(
         generated_ids,
         skip_special_tokens=True
+    )[0].strip()
+    if len(text.split()) < 2:
+        return "Speech unclear. Please repeat slowly in Yoruba."
+    return text
 # ----------------------------
+# Gradio UI
 # ----------------------------
 demo = gr.Interface(
     fn=transcribe_audio,
     inputs=gr.Audio(
         sources=["microphone", "upload"],
         type="numpy",
+        label="Speak clearly or upload audio in Yoruba"
     ),
     outputs=gr.Textbox(label="Transcription"),
+    title="Yoruba ASR (Whisper)",
+    description="Speech-to-text system that transcribes only Yoruba"
 )
 if __name__ == "__main__":
+    demo.launch(share=True)