ASR_API2

Sleeping

App Files Files Community

palli23 commited on Dec 3, 2025

Commit

1feadc6

1 Parent(s): 707f539

fix transcribe bug

Browse files

Files changed (1) hide show

app.py +11 -10

app.py CHANGED Viewed

@@ -1,15 +1,12 @@
-# app.py – FIXED: now 15–25 seconds for 3-minute file on paid T4
 import os
 import gradio as gr
 import spaces
 from transformers import pipeline
-import numpy as np
-import librosa
 import torch
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
-# ←←← THIS IS THE ONLY BIG CHANGE: load model ONCE at startup
 print("Loading model once at startup (takes ~25 s once, never again)...")
 pipe = pipeline(
     "automatic-speech-recognition",
@@ -18,17 +15,20 @@ pipe = pipeline(
     device=0,
     token=os.getenv("HF_TOKEN")
 )
-# Pre-set Icelandic so it never has to guess
 pipe.model.generation_config.language = "is"
 pipe.model.generation_config.task = "transcribe"
 print("Model ready and locked to Icelandic!")
-@spaces.GPU(duration=120)   # 2 minutes is more than enough now
 def transcribe_safe(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
-    # ← Your original safe chunking (20 s chunks, 2 s overlap)
     audio, sr = librosa.load(audio_path, sr=16000)
     chunk_len = 16000 * 20
     stride    = 16000 * 2
@@ -41,7 +41,7 @@ def transcribe_safe(audio_path):
     full_text = ""
     for chunk in chunks:
-        result = pipe(chunk, batch_size=16)   # ← raised from 8 → 16 (T4 loves it)
         full_text += result["text"] + " "
     return full_text.strip() or "Ekkert heyrt"
@@ -52,9 +52,10 @@ with gr.Blocks(title="Íslenskt ASR – 3 mín T4 Paid") as demo:
     gr.Markdown("**~4 % WER · 15–25 sek · T4 Paid**")
     audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav (allt að 3 mín)")
-    btn = gr.Button("Transcribe (1525 sek)", variant="primary", size="lg")
     out = gr.Textbox(lines=30, label="Útskrift")
-    btn.click(transcribe, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))

+# app.py – FINAL VERSION – works on paid T4 right now (15–25 s for 3 min)
 import os
 import gradio as gr
 import spaces
 from transformers import pipeline
 import torch
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
 print("Loading model once at startup (takes ~25 s once, never again)...")
 pipe = pipeline(
     "automatic-speech-recognition",
     device=0,
     token=os.getenv("HF_TOKEN")
 )
+# Lock to Icelandic – no language detection delay
 pipe.model.generation_config.language = "is"
 pipe.model.generation_config.task = "transcribe"
 print("Model ready and locked to Icelandic!")
+# ←←← THIS IS THE FUNCTION NAME THAT WAS MISSING BEFORE
+@spaces.GPU(duration=120)   # more than enough on paid GPU
 def transcribe_safe(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
+    # Your original safe 20-second chunking (kept exactly as you wrote it)
+    import librosa
     audio, sr = librosa.load(audio_path, sr=16000)
     chunk_len = 16000 * 20
     stride    = 16000 * 2
     full_text = ""
     for chunk in chunks:
+        result = pipe(chunk, batch_size=16)   # raised from 8 → 16
         full_text += result["text"] + " "
     return full_text.strip() or "Ekkert heyrt"
     gr.Markdown("**~4 % WER · 15–25 sek · T4 Paid**")
     audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav (allt að 3 mín)")
+    btn = gr.Button("Transcribe (15–25 sek)", variant="primary", size="lg")
     out = gr.Textbox(lines=30, label="Útskrift")
+    # ←←← FIXED: now points to the correct function name
+    btn.click(transcribe_safe, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))