ASR_API2

Sleeping

App Files Files Community

palli23 commited on Dec 3, 2025

Commit

707f539

1 Parent(s): cc6ae2a

fix transcribe bug

Browse files

Files changed (1) hide show

app.py +28 -21

app.py CHANGED Viewed

@@ -1,53 +1,60 @@
-# app.py – ZeroGPU SAFE – 3 mín hljóð án "GPU task aborted"
 import os
 import gradio as gr
 import spaces
 from transformers import pipeline
 import numpy as np
 import librosa
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
-@spaces.GPU(duration=60)   # ← MEST 60 sek – ZeroGPU leyfir
 def transcribe_safe(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
-    # Hlaða hljóð og klippa í 20 sek chunkar (mjög öruggt)
     audio, sr = librosa.load(audio_path, sr=16000)
-    chunk_len = 16000 * 20   # 20 sek
-    stride = 16000 * 2       # 2 sek overlap
     chunks = []
     for i in range(0, len(audio), chunk_len - stride):
         chunk = audio[i:i + chunk_len]
-        if len(chunk) < 16000:  # undir 1 sek → hætta
             break
         chunks.append(chunk)
-    # Hlaða ASR á GPU (cached)
-    pipe = pipeline(
-        "automatic-speech-recognition",
-        model=MODEL_NAME,
-        device=0,
-        token=os.getenv("HF_TOKEN")
-    )
     full_text = ""
-    for idx, chunk in enumerate(chunks):
-        result = pipe(chunk, batch_size=8)
         full_text += result["text"] + " "
     return full_text.strip() or "Ekkert heyrt"
-# Gradio – fallegt og tilbúið fyrir 3 mín
-with gr.Blocks(title="Íslenskt ASR – 3 mín ZeroGPU") as demo:
     gr.Markdown("# Íslenskt ASR – 3 mín hljóð")
-    gr.Markdown("**~4 % WER · 25–45 sek · ZeroGPU (PRO)**")
     audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav (allt að 3 mín)")
-    btn = gr.Button("Transcribe (25–45 sek)", variant="primary", size="lg")
     out = gr.Textbox(lines=30, label="Útskrift")
-    btn.click(transcribe_safe, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))

+# app.py – FIXED: now 15–25 seconds for 3-minute file on paid T4
 import os
 import gradio as gr
 import spaces
 from transformers import pipeline
 import numpy as np
 import librosa
+import torch
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
+# ←←← THIS IS THE ONLY BIG CHANGE: load model ONCE at startup
+print("Loading model once at startup (takes ~25 s once, never again)...")
+pipe = pipeline(
+    "automatic-speech-recognition",
+    model=MODEL_NAME,
+    torch_dtype=torch.float16,          # FP16 = 2× faster on T4
+    device=0,
+    token=os.getenv("HF_TOKEN")
+)
+# Pre-set Icelandic so it never has to guess
+pipe.model.generation_config.language = "is"
+pipe.model.generation_config.task = "transcribe"
+print("Model ready and locked to Icelandic!")
+@spaces.GPU(duration=120)   # 2 minutes is more than enough now
 def transcribe_safe(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
+    # ← Your original safe chunking (20 s chunks, 2 s overlap)
     audio, sr = librosa.load(audio_path, sr=16000)
+    chunk_len = 16000 * 20
+    stride    = 16000 * 2
     chunks = []
     for i in range(0, len(audio), chunk_len - stride):
         chunk = audio[i:i + chunk_len]
+        if len(chunk) < 16000:
             break
         chunks.append(chunk)
     full_text = ""
+    for chunk in chunks:
+        result = pipe(chunk, batch_size=16)   # ← raised from 8 → 16 (T4 loves it)
         full_text += result["text"] + " "
     return full_text.strip() or "Ekkert heyrt"
+# Your beautiful UI – unchanged
+with gr.Blocks(title="Íslenskt ASR – 3 mín T4 Paid") as demo:
     gr.Markdown("# Íslenskt ASR – 3 mín hljóð")
+    gr.Markdown("**~4 % WER · 15–25 sek · T4 Paid**")
     audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav (allt að 3 mín)")
+    btn = gr.Button("Transcribe (1525 sek)", variant="primary", size="lg")
     out = gr.Textbox(lines=30, label="Útskrift")
+    btn.click(transcribe, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))