Spaces:

adiitya29
/

Multilingual-ASR

Running

App Files Files Community

adiitya29 commited on 7 days ago

Commit

8f2047c

1 Parent(s): bddec1e

app.py file name changed to gradio_ui.py which shows history tab and transcribe button

Browse files

Files changed (2) hide show

app.py +0 -46
app/asr_model.py +10 -5

app.py DELETED Viewed

@@ -1,46 +0,0 @@
-import gradio as gr
-from app.asr_model import load_model, transcribe_audio
-from app.language_detection import detect_language_from_text
-from app.history import save_to_history, export_history
-def process_audio(audio_path):
-    if audio_path is None:
-        return "No audio uploaded.", "Unknown"
-    # Transcribe Speech
-    transcript = transcribe_audio(audio_path)
-    # Detect Language from transcript
-    lang = detect_language_from_text(transcript)
-    # Save History
-    save_to_history(audio_path, transcript, lang)
-    return transcript, lang
-def create_ui():
-    with gr.Blocks(title="Multilingual ASR") as demo:
-        gr.Markdown("# Multilingual Automatic Speech Recognition")
-        gr.Markdown("Upload an audio file to get a text transcription using Wav2Vec.")
-        with gr.Row():
-            with gr.Column():
-                audio_input = gr.Audio(type="filepath", label="Upload Audio")
-                transcribe_btn = gr.Button("Transcribe")
-            with gr.Column():
-                lang_output = gr.Textbox(label="Detected Language")
-                transcript_output = gr.Textbox(label="Transcription", lines=10)
-                download_btn = gr.File(label="Download Transcript (Coming Soon)")
-        transcribe_btn.click(
-            fn=process_audio,
-            inputs=audio_input,
-            outputs=[transcript_output, lang_output]
-        )
-    return demo
-if __name__ == "__main__":
-    demo = create_ui()
-    demo.launch()

app/asr_model.py CHANGED Viewed

@@ -18,11 +18,16 @@ def load_model(model_name: str = "facebook/wav2vec2-base-960h"):
     processor = Wav2Vec2Processor.from_pretrained(model_name)
     model = Wav2Vec2ForCTC.from_pretrained(model_name)
-    # Move to GPU if available (MPS for Apple Silicon)
-    if torch.backends.mps.is_available():
-        model.to("mps")
-    elif torch.cuda.is_available():
-        model.to("cuda")
 def transcribe_audio(audio_filepath: str) -> str:
     """

     processor = Wav2Vec2Processor.from_pretrained(model_name)
     model = Wav2Vec2ForCTC.from_pretrained(model_name)
+    # Temporary fix: Force CPU usage.
+    # The MPS (Apple Silicon GPU) backend in PyTorch currently has known bugs with Wav2Vec2
+    # that can cause the forward pass to freeze indefinitely.
+    device = "cpu"
+    # if torch.backends.mps.is_available():
+    #     device = "mps"
+    # elif torch.cuda.is_available():
+    #     device = "cuda"
+    model.to(device)
 def transcribe_audio(audio_filepath: str) -> str:
     """