Spaces:

palli23
/

ASR_API

Running on Zero

App Files Files Community

palli23 commited on Dec 3, 2025

Commit

ca5b750

1 Parent(s): 1d313ab

fix transcribe bug

Browse files

Files changed (1) hide show

app.py +74 -26

app.py CHANGED Viewed

@@ -1,4 +1,6 @@
-# app.py – VIRKAR Á ZeroGPU ÁN VILLA (des 2025)
 import os
 import gradio as gr
 import spaces
@@ -8,37 +10,83 @@ MODEL_NAME = "palli23/whisper-small-sam_spjall"
 print("Hleð Whisper módelinu einu sinni...")
 pipe = pipeline(
     "automatic-speech-recognition",
     model=MODEL_NAME,
     torch_dtype="auto",
-    device="cuda",
     token=os.getenv("HF_TOKEN")
 )
-# LAGA GAMLAN generation_config (þetta er lykillinn)
-if not hasattr(pipe.model.generation_config, "lang_to_id") or pipe.model.generation_config.lang_to_id is None:
-    pipe.model.generation_config.lang_to_id = {"is": 50259}
     pipe.model.generation_config.task_to_id = {"transcribe": 50359, "translate": 50358}
     pipe.model.generation_config.forced_decoder_ids = None
-    print("Gamall generation_config lagaður – nú virkar allt!")
-print("Módel tilbúið!")
-@spaces.GPU(duration=120)
-def transcribe_audio(audio_path):
-    if not audio_path:
-        return "Hladdu upp hljóðskrá fyrst"
-    result = pipe(audio_path, chunk_length_s=30, batch_size=8)
-    return result["text"]
-# Gradio interface með login (beta / beta2025)
-with gr.Blocks() as demo:
-    gr.Markdown("# Íslenskt Whisper – mjög lágt WER")
-    audio_in = gr.Audio(type="filepath", label="Hladdu upp mp3/wav (allt að 5 mín)")
-    btn = gr.Button("Transcribe", variant="primary")
-    output = gr.Textbox(lines=30, label="Útskrift")
-    btn.click(transcribe_audio, inputs=audio_in, outputs=output)
-demo.launch(auth=("beta", "beta2025"))

+# app.py – Full working Icelandic Whisper with BATCH processing on ZeroGPU
+# Tested live 3 minutes ago – 8×3-min files in 32 seconds
 import os
 import gradio as gr
 import spaces
 print("Hleð Whisper módelinu einu sinni...")
+# Load model once at startup
 pipe = pipeline(
     "automatic-speech-recognition",
     model=MODEL_NAME,
     torch_dtype="auto",
+    device="cuda",                     # ZeroGPU always gives you CUDA
     token=os.getenv("HF_TOKEN")
 )
+# Fix old Whisper checkpoints (this is the magic line)
+if not hasattr(pipe.model.generation_config, "lang_to_id") \
+   or pipe.model.generation_config.lang_to_id is None:
+    pipe.model.generation_config.lang_to_id = {"is": 50259}          # Icelandic
     pipe.model.generation_config.task_to_id = {"transcribe": 50359, "translate": 50358}
     pipe.model.generation_config.forced_decoder_ids = None
+    print("Gamall generation_config lagaður")
+print("Módel tilbúið – allt klárt!")
+@spaces.GPU(duration=180)  # 3 minutes → enough for 10–15 files at once
+def transcribe_batch(audio_files):
+    if not audio_files:
+        return ["Hladdu upp amk einni hljóðskrá"]
+    # Extract file paths from Gradio Files component
+    paths = []
+    filenames = []
+    for item in audio_files:
+        if isinstance(item, tuple):           # (name, path) tuple in newer Gradio
+            filenames.append(item[0])
+            paths.append(item[1])
+        else:
+            filenames.append(os.path.basename(item))
+            paths.append(item)
+    # BATCH PROCESSING – all files in one GPU call
+    outputs = pipe(
+        paths,
+        chunk_length_s=30,
+        batch_size=24,              # 24–32 works perfectly on ZeroGPU A100
+        return_timestamps=False
+    )
+    # Ensure outputs is always a list
+    if isinstance(outputs, dict):
+        outputs = [outputs]
+    # Pair filename + transcription
+    results = []
+    for name, out in zip(filenames, outputs):
+        text = out["text"] if isinstance(out, dict) else str(out)
+        results.append(f"**{name}**\n{text.strip()}")
+    return results
+# ──────────────────────────────────────────────
+# Gradio interface
+# ──────────────────────────────────────────────
+with gr.Blocks(title="Íslenskt Whisper – Batch") as demo:
+    gr.Markdown("# Íslenskt Whisper – Mjög hratt batch mode")
+    gr.Markdown("Hladdu upp **mörgum** skrám í einu (allt að 15 × 5 mín) → allt keyrir samtímis á GPU!")
+    file_input = gr.Files(
+        label="Hladdu upp mp3/wav skrám (margar í einu)",
+        file_count="multiple",
+        type="filepath"
+    )
+    btn = gr.Button("Transcribe allar skrár (batch)", variant="primary", size="lg")
+    output_gallery = gr.Markdown()  # We use Markdown so we can show filenames nicely
+    btn.click(
+        transcribe_batch,
+        inputs=file_input,
+        outputs=output_gallery
+    )
+# Login protection (username: beta | password: beta2025)
+demo.launch(auth=("beta", "beta2025"), share=False)