Spaces:

Devion333
/

wave2vec2

Sleeping

App Files Files Community

Devion333 commited on Aug 17, 2025

Commit

fa5a1d8

verified ·

1 Parent(s): 269d84d

Update app.py

Browse files

Files changed (1) hide show

app.py +155 -33

app.py CHANGED Viewed

@@ -1,44 +1,166 @@
 import gradio as gr
-from transformers import pipeline
-# Load ASR pipeline
-asr_pipeline = pipeline(task="automatic-speech-recognition", model="import gradio as gr
-from transformers import pipeline
-# Load ASR pipeline
-asr_pipeline = pipeline(task="automatic-speech-recognition", model="Devion333/wav2vec2-xls-r-300m-dv")
-# 🔹 Replace with your own model if you trained one, e.g., "Devion333/whisper-small-dv-syn"
-def transcribe(audio):
-    result = asr_pipeline(audio)
-    return result["text"]
-# Build Gradio app
-gradio_app = gr.Interface(
-    fn=transcribe,
-    inputs=gr.Audio(sources=["upload", "microphone"], type="filepath", label="Speak or Upload Audio"),
-    outputs=gr.Textbox(label="Transcription"),
-    title="Speech-to-Text (ASR)",
-    description="Upload an audio file or record speech and get the transcription using a Hugging Face ASR model."
-)
-if __name__ == "__main__":
-    gradio_app.launch()
-")
-# 🔹 Replace with your own model if you trained one, e.g., "Devion333/whisper-small-dv-syn"
-def transcribe(audio):
-    result = asr_pipeline(audio)
-    return result["text"]
-# Build Gradio app
-gradio_app = gr.Interface(
     fn=transcribe,
-    inputs=gr.Audio(sources=["upload", "microphone"], type="filepath", label="Speak or Upload Audio"),
-    outputs=gr.Textbox(label="Transcription"),
-    title="Speech-to-Text (ASR)",
-    description="Upload an audio file or record speech and get the transcription using a Hugging Face ASR model."
 )
-if __name__ == "__main__":
-    gradio_app.launch()

+import spaces
 import gradio as gr
+import subprocess
+import sys
+import os
+@spaces.GPU
+def transcribe(audio_file):
+    try:
+        # Load audio file
+        waveform, sample_rate = torchaudio.load(audio_file)
+        # Move waveform to the correct device
+        waveform = waveform.to(device)
+        # Get the duration of the audio
+        duration = waveform.shape[1] / sample_rate
+        # Check if the audio is too short or too long
+        if duration < MIN_LENGTH or duration > MAX_LENGTH:
+            return f"Audio duration is too short or too long. Duration: {duration} seconds"
+        # Resample if necessary
+        if sample_rate != 16000:
+            resampler = torchaudio.transforms.Resample(sample_rate, 16000).to(device)
+            waveform = resampler(waveform)
+        # Convert to mono if stereo
+        if waveform.shape[0] > 1:
+            waveform = waveform.mean(dim=0, keepdim=True)
+        # Move to CPU for numpy conversion
+        waveform = waveform.cpu()
+        audio_input = waveform.squeeze().numpy()
+        # Ensure audio input is float32
+        if audio_input.dtype != np.float32:
+            audio_input = audio_input.astype(np.float32)
+        # Process audio input
+        input_values = processor(
+            audio_input,
+            sampling_rate=16_000,
+            return_tensors="pt"
+        ).input_values.to(device)
+        # Convert to float16 if using CUDA
+        if torch_dtype == torch.float16:
+            input_values = input_values.half()
+        # Generate transcription
+        with torch.no_grad():
+            logits = model(input_values).logits
+        # Use language model for decoding
+        transcription = processor.decode(logits[0].cpu().numpy())
+        # Return the transcription in lowercase
+        print(transcription)
+        return transcription[0].lower()
+    except Exception as e:
+        return f"Error during transcription: {str(e)}"
+# Create Gradio interface
+css = """
+.textbox1 textarea {
+    font-size: 18px !important;
+    font-family: 'MV_Faseyha', 'Faruma', 'A_Faruma' !important;
+    line-height: 1.8 !important;
+}
+.textbox2 textarea {
+    display: none;
+}
+"""
+demo = gr.Blocks(css=css)
+tab_audio = gr.Interface(
     fn=transcribe,
+    inputs=[
+        gr.Audio(sources=["upload","microphone"], type="filepath", label="Audio"),
+    ],
+    outputs=gr.Textbox(label="Transcription", rtl=True, elem_classes="textbox1"),
+    title="Transcribe Dhivehi Audio",
+    allow_flagging="never",
 )
+with demo:
+    gr.TabbedInterface([tab_audio], ["Audio"])
+def install_requirements():
+    requirements_path = 'requirements.txt'
+    # Check if requirements.txt exists
+    if not os.path.exists(requirements_path):
+        print("Error: requirements.txt not found")
+        return False
+    try:
+        print("Installing requirements...")
+        # Using --no-cache-dir to avoid memory issues
+        subprocess.check_call([
+            sys.executable,
+            "-m",
+            "pip",
+            "install",
+            "-r",
+            requirements_path,
+            "--no-cache-dir"
+        ])
+        print("Successfully installed all requirements")
+        return True
+    except subprocess.CalledProcessError as e:
+        print(f"Error installing requirements: {e}")
+        return False
+    except Exception as e:
+        print(f"Unexpected error: {e}")
+        return False
+# Launch the interface
+if name == "main":
+    success = install_requirements()
+    if success:
+        print("All requirements installed successfully")
+        from transformers import Wav2Vec2ForCTC, Wav2Vec2ProcessorWithLM
+        import torch
+        import torchaudio
+        import numpy as np
+        # Device and dtype configuration
+        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+        MODEL_NAME = "Devion333/wav2vec2-xls-r-300m-dv" # Trained on common voice with ngram from news corpa
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/wav2vec2-large-mms-1b-cv" # Trained on Common Voice Data (Unknown Hours)
+        # MODEL_NAME =  "/home/rusputin/lab/audio/fine-tunes/whisper-small-dv-syn-md" # Trained on 100% Synthetic Data (150 Hours)
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/whisper-small-cv" # Trained on Common Voice Data (Unknown Hours)
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/whisper-medium-dv-syn-md" # Trained on 100% Synthetic Data (150 Hours)
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/whisper-medium-cv" # Trained on Common Voice Data (Unknown Hours)
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/whisper-large-v3-dv-syn-md" # Trained on 100% Synthetic Data (150 Hours)
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/whisper-large-v3-cv" # Trained on Common Voice Data (Unknown Hours)
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/whisper-large-v3-calls-md" # Trained on phone calls (65 Hours)
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/wav2vec2-large-mms-1b-calls-md" # Trained on phone calls (65 Hours)
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/wav2vec2-large-xlsr-calls-md" # Trained on phone calls (23 Hours)
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/wav2vec2-large-xlsr-dv-syn-md" # Trained on 100% Synthetic Data (80 Hours)
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/dhivehi-asr-full-ctc" # Trained on multiple datasets (350+ Hours)
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/dhivehi-asr-full-ctc-v2" # Trained on multiple datasets (350+ Hours)
+        # MODEL_NAME = "/home/rusputin/lab/audio/fine-tunes/dhivehi-asr-full-whisper-v3" # Trained on multiple datasets (350+ Hours)
+        # Load model and processor with LM
+        processor = Wav2Vec2ProcessorWithLM.from_pretrained(MODEL_NAME)
+        model = Wav2Vec2ForCTC.from_pretrained(
+            MODEL_NAME,
+            torch_dtype=torch_dtype
+        ).to(device)
+        MAX_LENGTH = 120 # 2 minutes
+        MIN_LENGTH = 1 # 1 second
+        demo.launch()
+    else:
+        print("Failed to install some requirements")