Spaces:

palli23
/

ASR_API2

Sleeping

App Files Files Community

palli23 commited on Dec 3, 2025

Commit

ea1ab79

1 Parent(s): 8f9658b

fix transcribe bug

Browse files

Files changed (2) hide show

app.py +23 -43
requirements.txt +1 -3

app.py CHANGED Viewed

@@ -1,62 +1,42 @@
-# app.py – Your original working version + only 2 safe fixes
 import os
 import gradio as gr
 import spaces
 from transformers import pipeline
-import numpy as np
-import librosa
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
-# ←←← ONLY CHANGE #1: Load model once at startup (this is what made it slow before)
-print("Loading model once at startup...")
-pipe = pipeline(
-    "automatic-speech-recognition",
-    model=MODEL_NAME,
-    device=0,
-    token=os.getenv("HF_TOKEN")
-)
-# ←←← ONLY CHANGE #2: Fix the lang_to_id crash (harmless, needed)
-if not hasattr(pipe.model.generation_config, "lang_to_id"):
-    pipe.model.generation_config.lang_to_id = {"is": 50259}
-    pipe.model.generation_config.task_to_id = {"transcribe": 50359}
-    pipe.model.generation_config.forced_decoder_ids = None
-print("Model ready – everything else is exactly your original code")
-@spaces.GPU(duration=120)
-def transcribe_safe(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
-    # ←←← Your exact original chunking code – untouched
-    audio, sr = librosa.load(audio_path, sr=16000)
-    chunk_len = 16000 * 20
-    stride = 16000 * 2
-    chunks = []
-    for i in range(0, len(audio), chunk_len - stride):
-        chunk = audio[i:i + chunk_len]
-        if len(chunk) < 16000:
-            break
-        chunks.append(chunk)
-    full_text = ""
-    for idx, chunk in enumerate(chunks):
-        result = pipe(chunk, batch_size=8)   # ← your original batch_size=8
-        full_text += result["text"] + " "
-    return full_text.strip() or "Ekkert heyrt"
-# ←←← Your exact original UI – 100% unchanged
-with gr.Blocks(title="Íslenskt ASR – 3 mín ZeroGPU") as demo:
-    gr.Markdown("# Íslenskt ASR – 3 mín hljóð")
-    gr.Markdown("**~4 % WER · 25–45 sek · ZeroGPU (PRO)**")
     audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav (allt að 3 mín)")
-    btn = gr.Button("Transcribe (25–45 sek)", variant="primary", size="lg")
     out = gr.Textbox(lines=30, label="Útskrift")
-    btn.click(transcribe_safe, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))

 import os
 import gradio as gr
 import spaces
 from transformers import pipeline
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
+@spaces.GPU(duration=60)   # nóg fyrir 3 mín hljóð
+def transcribe_3min(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
+    # Whisper pipeline með chunking – ZeroGPU öruggt
+    pipe = pipeline(
+        "automatic-speech-recognition",
+        model=MODEL_NAME,
+        device=0,
+        token=os.getenv("HF_TOKEN")
+    )
+    result = pipe(
+        audio_path,
+        chunk_length_s=30,           # 30 sek chunkar
+        stride_length_s=(6, 0),      # 6 sek overlap
+        return_timestamps=False,
+        batch_size=8
+    )
+    return result["text"]
+# Interface
+with gr.Blocks(title="Íslenskt ASR – 3 mín") as demo:
+    gr.Markdown("# Íslenskt ASR – 3 mínútur")
+    gr.Markdown("**Whisper · Very low WER · 0.5-5minute audio transcribe á ZeroGPU**")
     audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav (allt að 3 mín)")
+    btn = gr.Button("Transcribe", variant="primary", size="lg")
     out = gr.Textbox(lines=30, label="Útskrift")
+    btn.click(transcribe_3min, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))

requirements.txt CHANGED Viewed

@@ -1,6 +1,4 @@
 gradio
 transformers
 torch
-spaces
-librosa
-soundfile

 gradio
 transformers
 torch
+spaces  # For @spaces.GPU