Spaces:

Somalitts
/

speech-to-text

Running

Somalitts commited on Jul 15, 2025

Commit

df98aad

verified ·

1 Parent(s): 568f26c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,32 +1,32 @@
-import torch
 import torchaudio
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
-import gradio as gr
-model = Wav2Vec2ForCTC.from_pretrained("tacab/tacab_asr_somali")
-processor = Wav2Vec2Processor.from_pretrained("tacab/tacab_asr_somali")
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model.to(device)
 def transcribe(audio):
     waveform, sample_rate = torchaudio.load(audio)
     if sample_rate != 16000:
-        waveform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(waveform)
-    if waveform.shape[0] > 1:
-        waveform = waveform.mean(dim=0, keepdim=True)
-    inputs = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt")
-    input_values = inputs.input_values.to(device)
     with torch.no_grad():
-        logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.batch_decode(predicted_ids)[0]
-    return transcription.lower()
-gr.Interface(
     fn=transcribe,
-    inputs=gr.Audio(type="filepath", label="🎙️ Ku hadal Af Soomaali"),
-    outputs=gr.Text(label="📄 Qoraalka la helay"),
-    title="Tacab ASR Somali",
-    description="ASR model for Somali speech-to-text using Wav2Vec2.",
 ).launch()

+import gradio as gr
 import torchaudio
+import torch
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+# Load model and processor
+processor = Wav2Vec2Processor.from_pretrained("Mustafaa4a/ASR-Somali")
+model = Wav2Vec2ForCTC.from_pretrained("Mustafaa4a/ASR-Somali")
 def transcribe(audio):
     waveform, sample_rate = torchaudio.load(audio)
     if sample_rate != 16000:
+        resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
+        waveform = resampler(waveform)
+    inputs = processor(waveform.squeeze(), sampling_rate=16000, return_tensors="pt")
     with torch.no_grad():
+        logits = model(**inputs).logits
     predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.decode(predicted_ids[0])
+    return transcription
+# Gradio Interface setup
+interface = gr.Interface(
     fn=transcribe,
+    inputs=gr.Audio(type="filepath", label="Upload Somali Audio (.wav)"),
+    outputs=gr.Textbox(label="Transcription"),
+    title="Somali-speech_to_text",
+    description="Upload a Somali speech audio file (mono WAV, 16kHz) and get the text transcription."
 ).launch()