ASR_API2

Sleeping

App Files Files Community

palli23 commited on Dec 3, 2025

Commit

cde6c6f

1 Parent(s): 1feadc6

fix transcribe bug

Browse files

Files changed (1) hide show

app.py +18 -13

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# app.py – FINAL VERSION – works on paid T4 right now (15–25 s for 3 min)
 import os
 import gradio as gr
 import spaces
@@ -7,31 +7,37 @@ import torch
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
-print("Loading model once at startup (takes ~25 s once, never again)...")
 pipe = pipeline(
     "automatic-speech-recognition",
     model=MODEL_NAME,
-    torch_dtype=torch.float16,          # FP16 = 2× faster on T4
     device=0,
     token=os.getenv("HF_TOKEN")
 )
-# Lock to Icelandic – no language detection delay
 pipe.model.generation_config.language = "is"
 pipe.model.generation_config.task = "transcribe"
-print("Model ready and locked to Icelandic!")
-# ←←← THIS IS THE FUNCTION NAME THAT WAS MISSING BEFORE
-@spaces.GPU(duration=120)   # more than enough on paid GPU
 def transcribe_safe(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
-    # Your original safe 20-second chunking (kept exactly as you wrote it)
     import librosa
     audio, sr = librosa.load(audio_path, sr=16000)
-    chunk_len = 16000 * 20
-    stride    = 16000 * 2
     chunks = []
     for i in range(0, len(audio), chunk_len - stride):
         chunk = audio[i:i + chunk_len]
@@ -41,12 +47,12 @@ def transcribe_safe(audio_path):
     full_text = ""
     for chunk in chunks:
-        result = pipe(chunk, batch_size=16)   # raised from 8 → 16
         full_text += result["text"] + " "
     return full_text.strip() or "Ekkert heyrt"
-# Your beautiful UI – unchanged
 with gr.Blocks(title="Íslenskt ASR – 3 mín T4 Paid") as demo:
     gr.Markdown("# Íslenskt ASR – 3 mín hljóð")
     gr.Markdown("**~4 % WER · 15–25 sek · T4 Paid**")
@@ -55,7 +61,6 @@ with gr.Blocks(title="Íslenskt ASR – 3 mín T4 Paid") as demo:
     btn = gr.Button("Transcribe (15–25 sek)", variant="primary", size="lg")
     out = gr.Textbox(lines=30, label="Útskrift")
-    # ←←← FIXED: now points to the correct function name
     btn.click(transcribe_safe, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))

+# app.py – FINAL & WORKING on paid T4 (15–25 s for 3 min)
 import os
 import gradio as gr
 import spaces
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
+print("Loading model once at startup...")
 pipe = pipeline(
     "automatic-speech-recognition",
     model=MODEL_NAME,
+    torch_dtype=torch.float16,
     device=0,
     token=os.getenv("HF_TOKEN")
 )
+# ←←← THIS FIXES THE lang_to_id ERROR FOREVER
+if not hasattr(pipe.model.generation_config, "lang_to_id"):
+    pipe.model.generation_config.lang_to_id = {"is": 50259}
+    pipe.model.generation_config.task_to_id = {"transcribe": 50359}
+    pipe.model.generation_config.forced_decoder_ids = None
 pipe.model.generation_config.language = "is"
 pipe.model.generation_config.task = "transcribe"
+print("Model ready – locked to Icelandic – no more errors!")
+@spaces.GPU(duration=120)
 def transcribe_safe(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
+    # ← librosa imported here so startup never crashes
     import librosa
     audio, sr = librosa.load(audio_path, sr=16000)
+    chunk_len = 16000 * 100  # 20 seconds
+    stride    = 16000 * 2     # 2 seconds overlap
     chunks = []
     for i in range(0, len(audio), chunk_len - stride):
         chunk = audio[i:i + chunk_len]
     full_text = ""
     for chunk in chunks:
+        result = pipe(chunk, batch_size=16)
         full_text += result["text"] + " "
     return full_text.strip() or "Ekkert heyrt"
+# Your original beautiful UI
 with gr.Blocks(title="Íslenskt ASR – 3 mín T4 Paid") as demo:
     gr.Markdown("# Íslenskt ASR – 3 mín hljóð")
     gr.Markdown("**~4 % WER · 15–25 sek · T4 Paid**")
     btn = gr.Button("Transcribe (15–25 sek)", variant="primary", size="lg")
     out = gr.Textbox(lines=30, label="Útskrift")
     btn.click(transcribe_safe, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))