Spaces:

BissakaAI
/

spaceb

Sleeping

App Files Files Community

BissakaAI commited on Dec 16, 2025

Commit

535bed6

verified ·

1 Parent(s): 46b214b

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -80

app.py CHANGED Viewed

@@ -1,95 +1,46 @@
-import os
-import torch
 import gradio as gr
-import librosa
 import numpy as np
-from transformers import AutoProcessor, SeamlessM4Tv2ForSpeechToText
-ASR_MODEL_ID = "facebook/seamless-m4t-v2-large"
-HF_TOKEN = os.getenv("HF_TOKEN")
-DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
-processor = AutoProcessor.from_pretrained(
-    ASR_MODEL_ID,
-    token=HF_TOKEN
 )
-asr_model = SeamlessM4Tv2ForSpeechToText.from_pretrained(
-    ASR_MODEL_ID,
-    token=HF_TOKEN
-).to(DEVICE)
-asr_model.eval()
-# Audio preprocessing
-def preprocess_audio(audio):
     if audio is None:
-        return None
-    # Gradio returns (sr, np.ndarray) OR (np.ndarray, sr)
-    if isinstance(audio, tuple):
-        if isinstance(audio[0], np.ndarray):
-            speech = audio[0]
-            sr = audio[1]
-        else:
-            sr = audio[0]
-            speech = audio[1]
-    else:
-        return None
-    # Stereo → mono
-    if speech.ndim > 1:
-        speech = np.mean(speech, axis=1)
-    speech = speech.astype(np.float32)
-    # Force 16kHz
-    if sr != 16000:
-        speech = librosa.resample(
-            speech,
-            orig_sr=sr,
-            target_sr=16000
-        )
-    return speech
-#ASR
-def transcribe_audio(audio):
-    speech = preprocess_audio(audio)
-    if speech is None or len(speech) == 0:
-        return "No audio provided."
-    inputs = processor(
-        audio=speech,
-        sampling_rate=16000,
-        return_tensors="pt"
-    ).to(DEVICE)
-    with torch.no_grad():
-        generated_ids = asr_model.generate(
-            inputs["input_features"],
-            max_new_tokens=256
-        )
-    transcription = processor.batch_decode(
-        generated_ids,
-        skip_special_tokens=True
-    )[0]
-    return transcription.strip()
 demo = gr.Interface(
-    fn=transcribe_audio,
-    inputs=gr.Audio(type="numpy", label="Upload or Record Speech"),
-    outputs=gr.Textbox(label="Transcription"),
-    title="HealthAtlas ASR Service",
-    description="Automatic language detection (Seamless-M4T v2)"
 )
-if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
 import numpy as np
+from faster_whisper import WhisperModel
+# Load model (small = fast, medium = better accuracy)
+model = WhisperModel(
+    "small",
+    device="cuda" if torch.cuda.is_available() else "cpu",
+    compute_type="float16" if torch.cuda.is_available() else "int8"
 )
+def transcribe_stream(audio):
     if audio is None:
+        return ""
+    sr, data = audio
+    # Convert to mono
+    if data.ndim > 1:
+        data = np.mean(data, axis=1)
+    segments, info = model.transcribe(
+        data,
+        language="yo",        # Yoruba (use None for auto-detect)
+        beam_size=5
+    )
+    text = ""
+    for seg in segments:
+        text += seg.text + " "
+    return text.strip()
 demo = gr.Interface(
+    fn=transcribe_stream,
+    inputs=gr.Audio(
+        source="microphone",
+        type="numpy",
+        streaming=True
+    ),
+    outputs=gr.Textbox(),
+    title="Real-Time Streaming ASR (Whisper)",
+    description="Low-latency live speech recognition"
 )
+demo.launch()