Spaces:

Devion333
/

compare-ASR-models

Sleeping

App Files Files Community

Devion333 commited on Aug 17

Commit

1746625

verified ·

1 Parent(s): aad5e80

Create app.py

Browse files

Files changed (1) hide show

app.py +62 -0

app.py ADDED Viewed

	@@ -0,0 +1,62 @@

+import os
+os.environ["TRANSFORMERS_NO_TF"] = "1"
+from transformers import pipeline
+import gradio as gr
+from evaluate import load
+# Load WER metric
+wer_metric = load("wer")
+# Preload multiple ASR models for comparison
+models = {
+    "Wav2Vec2 (Devion333)": pipeline(
+        task="automatic-speech-recognition",
+        model="Devion333/wav2vec2-xls-r-300m-dv"
+    ),
+    "Wav2Vec2 (Sammau)": pipeline(
+        task="automatic-speech-recognition",
+        model="Sammau/wav2vec2-large-xls-r-300m-dv-ng"
+    ),
+    "Wav2Vec2 (Alyaan)": pipeline(
+        task="automatic-speech-recognition",
+        model="shiimi/wav2vec2LM"
+    )
+}
+def transcribe(audio, chosen_models, reference):
+    results = {}
+    for model_name in chosen_models:
+        asr_pipe = models[model_name]
+        prediction = asr_pipe(audio)["text"]
+        if reference.strip():
+            # compute WER if reference provided
+            wer = wer_metric.compute(
+                predictions=[prediction.lower()],
+                references=[reference.lower()]
+            )
+            results[model_name] = {
+                "prediction": prediction,
+                "WER": round(wer, 3)
+            }
+        else:
+            results[model_name] = {
+                "prediction": prediction
+            }
+    return results
+demo = gr.Interface(
+    fn=transcribe,
+    inputs=[
+        gr.Audio(sources=["microphone", "upload"], type="filepath", label="Upload or Record Speech"),
+        gr.CheckboxGroup(choices=list(models.keys()), value=["Wav2Vec2 (Devion333)"], label="Choose Models to Compare"),
+        gr.Textbox(label="Reference Transcript (optional)")
+    ],
+    outputs=gr.JSON(label="Transcriptions & Statistics"),
+    title="ASR Model Comparison",
+    description="Upload or record audio, select ASR models, and compare their transcriptions. Optionally, provide a reference transcript to calculate WER."
+)
+if name == "main":
+    demo.launch()