Spaces:

don0726
/

hello

Sleeping

App Files Files Community

don0726 commited on Mar 19

Commit

7e4df1a

verified ·

1 Parent(s): 6ba0047

Create app.py

Browse files

Files changed (1) hide show

app.py +68 -0

app.py ADDED Viewed

	@@ -0,0 +1,68 @@

+import gradio as gr
+import whisperx
+import torch
+import tempfile
+import os
+# Load model once (important for speed)
+device = "cuda" if torch.cuda.is_available() else "cpu"
+compute_type = "float16" if device == "cuda" else "int8"
+model = whisperx.load_model("base", device, compute_type=compute_type)
+def transcribe(audio_file, language_code):
+    if audio_file is None:
+        return "Please upload audio"
+    # Save temp file
+    temp_audio = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
+    temp_audio.write(audio_file)
+    temp_audio.close()
+    # Load audio
+    audio = whisperx.load_audio(temp_audio.name)
+    # Transcribe
+    result = model.transcribe(audio, language=language_code)
+    # Align model for word timestamps
+    model_a, metadata = whisperx.load_align_model(
+        language_code=result["language"], device=device
+    )
+    aligned_result = whisperx.align(
+        result["segments"],
+        model_a,
+        metadata,
+        audio,
+        device,
+        return_char_alignments=False
+    )
+    # Format output
+    output = []
+    for seg in aligned_result["segments"]:
+        for word in seg["words"]:
+            start = round(word["start"], 2)
+            end = round(word["end"], 2)
+            text = word["word"]
+            output.append(f"[{start} - {end}] {text}")
+    os.remove(temp_audio.name)
+    return "\n".join(output)
+# Gradio UI
+demo = gr.Interface(
+    fn=transcribe,
+    inputs=[
+        gr.Audio(type="binary", label="Upload Audio"),
+        gr.Textbox(label="Language Code (en, hi, etc.)", value="en"),
+    ],
+    outputs=gr.Textbox(label="Word-level Transcription"),
+    title="WhisperX Word-level Transcription",
+    description="Upload audio and get word-level timestamps"
+)
+demo.launch()