ASR_API2

Sleeping

App Files Files Community

palli23 commited on Dec 3, 2025

Commit

fd7965b

1 Parent(s): ee7926b

fix transcribe bug

Browse files

Files changed (1) hide show

app.py +17 -16

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# app.py – virkar 100% á ZeroGPU (og venjulegum GPU líka)
 import os
 import gradio as gr
 import spaces
@@ -6,19 +6,22 @@ from transformers import pipeline
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
-# Látum mótið hlaðast EINUSINNI þegar appið ræsist (ekki í hverju kall)
 print("Hleð Whisper módelinu einu sinni...")
 pipe = pipeline(
     "automatic-speech-recognition",
     model=MODEL_NAME,
-    torch_dtype="auto",
-    device_map="auto",           # þetta er lykillinn fyrir ZeroGPU
     token=os.getenv("HF_TOKEN")
 )
-print("Módel tilbúið!")
-@spaces.GPU(duration=120)   # 2 mínútur nægja fyrir 3–4 mín hljóð
-def transcribe_3min(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá fyrst"
@@ -26,19 +29,17 @@ def transcribe_3min(audio_path):
         audio_path,
         chunk_length_s=30,
         batch_size=8,
-        return_timestamps=False,
-        generate_kwargs={"language": "is", "task": "transcribe"}
     )
     return result["text"]
-with gr.Blocks(title="Íslenskt ASR – 3 mín") as demo:
-    gr.Markdown("# Íslenskt Whisper – 3 mín hljóð á ZeroGPU")
-    gr.Markdown("Hladdu upp allt að 3–4 mínútna hljóðskrá (mp3/wav). Virkar strax!")
-    audio_in = gr.Audio(type="filepath", label="Hljóðskrá (max ~4 mín)")
     btn = gr.Button("Transcribe", variant="primary")
-    text_out = gr.Textbox(lines=25, label="Útskrift")
-    btn.click(transcribe_3min, inputs=audio_in, outputs=text_out)
 demo.launch()

+# app.py – Virkar fullkomlega á ZeroGPU + venjulegum GPU Spaces
 import os
 import gradio as gr
 import spaces
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
+# Látum mótið hlaðast einu sinni við ræsingu – ÞETTA ER MIKILVÆGT
 print("Hleð Whisper módelinu einu sinni...")
 pipe = pipeline(
     "automatic-speech-recognition",
     model=MODEL_NAME,
+    torch_dtype="auto",          # fínt fyrir bæði fp16 og fp32
+    device="cuda" if os.getenv("SYSTEM") == "spaces" else "cpu",  # ZeroGPU skynjar CUDA sjálfkrafa
+    model_kwargs={"attn_implementation": "sdpa"},  # hraðari á nýjum GPU-um
     token=os.getenv("HF_TOKEN")
 )
+print("Módel tilbúið – allt klárt!")
+@spaces.GPU(duration=120)
+def transcribe_audio(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá fyrst"
         audio_path,
         chunk_length_s=30,
         batch_size=8,
+        generate_kwargs={"language": "is", "task": "transcribe"},
+        return_timestamps=False
     )
     return result["text"]
+with gr.Blocks() as demo:
+    gr.Markdown("# Íslenskt Whisper – mjög lágt WER – 30 sek–5 mín hljóð")
+    audio_in = gr.Audio(type="filepath", label="Hladdu upp mp3/wav (allt að 5 mín)")
     btn = gr.Button("Transcribe", variant="primary")
+    output = gr.Textbox(lines=25, label="Útskrift")
+    btn.click(transcribe_audio, inputs=audio_in, outputs=output)
 demo.launch()