ASR_API2

Sleeping

App Files Files Community

palli23 commited on Dec 1, 2025

Commit

0918b24

1 Parent(s): 1170a88

diarization1Mæló

Browse files

Files changed (1) hide show

app.py +34 -21

app.py CHANGED Viewed

@@ -1,40 +1,53 @@
-# app.py – Whisper-small on ZeroGPU (PRO) – 0.2 RTF
 import os
 import gradio as gr
-import spaces  # Required for @spaces.GPU
 from transformers import pipeline
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
-# Force ZeroGPU allocation for transcribe (A100/T4)
-@spaces.GPU
-def transcribe(audio):
-    if not audio:
         return "Hladdu upp hljóðskrá"
-    # Load pipeline on GPU (cached after first run)
     pipe = pipeline(
         "automatic-speech-recognition",
         model=MODEL_NAME,
-        device=0,  # GPU
         token=os.getenv("HF_TOKEN")
     )
-    try:
-        result = pipe(audio)
-        return result["text"]
-    except Exception as e:
-        return f"Villa: {str(e)}"
-# Simple interface
-with gr.Blocks(title="Íslenskt ASR – ZeroGPU GPU") as demo:
-    gr.Markdown("# Íslenskt ASR – ZeroGPU (A100/T4)")
-    gr.Markdown("**Whisper-small · ~4 % WER · 0.2 RTF (15–25 sek fyrir 90 sek hljóð)**")
-    audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav")
-    btn = gr.Button("Transcribe", variant="primary", size="lg")
-    out = gr.Textbox(lines=25, label="Útskrift")
-    btn.click(transcribe, audio, out)
 demo.launch(auth=("beta", "beta2025"))

+# app.py – ZeroGPU SAFE – 3 mín hljóð án "GPU task aborted"
 import os
 import gradio as gr
+import spaces
 from transformers import pipeline
+import numpy as np
+import librosa
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
+@spaces.GPU(duration=60)   # ← MEST 60 sek – ZeroGPU leyfir
+def transcribe_safe(audio_path):
+    if not audio_path:
         return "Hladdu upp hljóðskrá"
+    # Hlaða hljóð og klippa í 20 sek chunkar (mjög öruggt)
+    audio, sr = librosa.load(audio_path, sr=16000)
+    chunk_len = 16000 * 20   # 20 sek
+    stride = 16000 * 2       # 2 sek overlap
+    chunks = []
+    for i in range(0, len(audio), chunk_len - stride):
+        chunk = audio[i:i + chunk_len]
+        if len(chunk) < 16000:  # undir 1 sek → hætta
+            break
+        chunks.append(chunk)
+    # Hlaða ASR á GPU (cached)
     pipe = pipeline(
         "automatic-speech-recognition",
         model=MODEL_NAME,
+        device=0,
         token=os.getenv("HF_TOKEN")
     )
+    full_text = ""
+    for idx, chunk in enumerate(chunks):
+        result = pipe(chunk, batch_size=8)
+        full_text += result["text"] + " "
+    return full_text.strip() or "Ekkert heyrt"
+# Gradio – fallegt og tilbúið fyrir 3 mín
+with gr.Blocks(title="Íslenskt ASR – 3 mín ZeroGPU") as demo:
+    gr.Markdown("# Íslenskt ASR – 3 mín hljóð")
+    gr.Markdown("**~4 % WER · 25–45 sek · ZeroGPU (PRO)**")
+    audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav (allt að 3 mín)")
+    btn = gr.Button("Transcribe (25–45 sek)", variant="primary", size="lg")
+    out = gr.Textbox(lines=30, label="Útskrift")
+    btn.click(transcribe_safe, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))