Spaces:

ARTPARK-IISc
/

Vaani-FastConformer-Multilingual-ASR

Running

App Files Files Community

SujithPulikodan commited on 14 days ago

Commit

7b7d2ab

verified ·

1 Parent(s): 8e1bba7

Upload 3 files

Browse files

Files changed (3) hide show

README.md +4 -5
app.py +77 -0
requirements.txt +40 -0

README.md CHANGED Viewed

@@ -1,14 +1,13 @@
 ---
 title: Vaani FastConformer Multilingual ASR
-emoji: ⚡
-colorFrom: blue
 colorTo: pink
 sdk: gradio
 sdk_version: 6.5.1
 app_file: app.py
-pinned: false
-license: mit
-short_description: 'Speech-to-text across multiple Indian langauges '
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
 title: Vaani FastConformer Multilingual ASR
+emoji: 🚀
+colorFrom: red
 colorTo: pink
 sdk: gradio
 sdk_version: 6.5.1
+python_version: 3.10.0
 app_file: app.py
+pinned: false
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,77 @@

+import torch
+import gradio as gr
+from nemo.collections.asr.models import EncDecRNNTBPEModel
+import soundfile as sf
+import numpy as np
+import torchaudio
+MODEL_NAME = "ARTPARK-IISc/Vaani-FastConformer-Multilingual"
+print("Loading model, this may take a few minutes...")
+model = EncDecRNNTBPEModel.from_pretrained(MODEL_NAME)
+model.eval()
+# Use CPU if GPU is not available
+if not torch.cuda.is_available():
+    model = model.cpu()
+print("Model loaded successfully.")
+TARGET_SR = 16000
+def resample_if_needed(audio, sr):
+    if sr == TARGET_SR:
+        return audio
+    audio_tensor = torch.from_numpy(audio).unsqueeze(0)  # (1, T)
+    resampler = torchaudio.transforms.Resample(
+        orig_freq=sr,
+        new_freq=TARGET_SR
+    )
+    audio_resampled = resampler(audio_tensor)
+    return audio_resampled.squeeze(0).numpy()
+def transcribe(audio_input):
+    """
+    audio_input: (sample_rate, audio_array)
+    """
+    if audio_input is None:
+        return ""
+    sr, audio = audio_input
+    # Convert stereo → mono
+    if audio.ndim == 2:
+        audio = np.mean(audio, axis=1)
+    # Convert to float32
+    audio = audio.astype(np.float32)
+    # Normalize
+    audio = audio / (np.max(np.abs(audio)) + 1e-9)
+    # Resample to 16kHz if needed
+    audio = resample_if_needed(audio, sr)
+    hypotheses = model.transcribe(
+        audio=[audio],
+        return_hypotheses=True
+    )
+    return hypotheses[0].text if hypotheses else ""
+demo = gr.Interface(
+    fn=transcribe,
+    inputs=gr.Audio(
+        sources=["microphone", "upload"],
+        type="numpy",
+        label="Record or upload WAV audio"
+    ),
+    outputs=gr.Textbox(label="Transcription"),
+    title="Vaani Multilingual ASR (NeMo RNNT)",
+    description="Upload a WAV file and get the multilingual ASR transcription."
+)
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,40 @@

+torch==2.8.0
+lightning==2.4.0
+cloudpickle==3.1.2
+fiddle==0.3.0
+numpy==2.1.0
+nemo-toolkit==2.4.0
+lhotse==1.32.0
+ml-dtypes==0.5.3
+onnx==1.19.0
+librosa
+einops==0.8.1
+soundfile
+gradio
+omegaconf
+hydra-core
+sentencepiece
+texterrors
+transformers
+jiwer
+webdataset==1.0.2
+pyannote.core==5.0.0
+omegaconf==2.3.0
+editdistance
+pyannote.core
+# Audio
+soxr
+# Utilities
+tqdm
+packaging
+PyYAML
+requests
+ipython==8.37.0
+pyannote.audio==3.3.2
+pyannote.database==5.1.3
+pyannote.metrics==3.2.1
+pyannote.pipeline==3.0.1