ASR_API2

Sleeping

App Files Files Community

palli23 commited on Dec 3, 2025

Commit

86ce37e

1 Parent(s): ca5b750

fix transcribe bug

Browse files

Files changed (1) hide show

app.py +31 -66

app.py CHANGED Viewed

@@ -1,6 +1,4 @@
-# app.py – Full working Icelandic Whisper with BATCH processing on ZeroGPU
-# Tested live 3 minutes ago – 8×3-min files in 32 seconds
 import os
 import gradio as gr
 import spaces
@@ -8,85 +6,52 @@ from transformers import pipeline
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
-print("Hleð Whisper módelinu einu sinni...")
-# Load model once at startup
 pipe = pipeline(
     "automatic-speech-recognition",
     model=MODEL_NAME,
     torch_dtype="auto",
-    device="cuda",                     # ZeroGPU always gives you CUDA
     token=os.getenv("HF_TOKEN")
 )
-# Fix old Whisper checkpoints (this is the magic line)
-if not hasattr(pipe.model.generation_config, "lang_to_id") \
-   or pipe.model.generation_config.lang_to_id is None:
-    pipe.model.generation_config.lang_to_id = {"is": 50259}          # Icelandic
     pipe.model.generation_config.task_to_id = {"transcribe": 50359, "translate": 50358}
     pipe.model.generation_config.forced_decoder_ids = None
-    print("Gamall generation_config lagaður")
-print("Módel tilbúið – allt klárt!")
-@spaces.GPU(duration=180)  # 3 minutes → enough for 10–15 files at once
-def transcribe_batch(audio_files):
-    if not audio_files:
-        return ["Hladdu upp amk einni hljóðskrá"]
-    # Extract file paths from Gradio Files component
-    paths = []
-    filenames = []
-    for item in audio_files:
-        if isinstance(item, tuple):           # (name, path) tuple in newer Gradio
-            filenames.append(item[0])
-            paths.append(item[1])
-        else:
-            filenames.append(os.path.basename(item))
-            paths.append(item)
-    # BATCH PROCESSING – all files in one GPU call
-    outputs = pipe(
-        paths,
-        chunk_length_s=30,
-        batch_size=24,              # 24–32 works perfectly on ZeroGPU A100
-        return_timestamps=False
-    )
-    # Ensure outputs is always a list
-    if isinstance(outputs, dict):
-        outputs = [outputs]
-    # Pair filename + transcription
-    results = []
-    for name, out in zip(filenames, outputs):
-        text = out["text"] if isinstance(out, dict) else str(out)
-        results.append(f"**{name}**\n{text.strip()}")
-    return results
-# ──────────────────────────────────────────────
-# Gradio interface
-# ──────────────────────────────────────────────
-with gr.Blocks(title="Íslenskt Whisper – Batch") as demo:
-    gr.Markdown("# Íslenskt Whisper – Mjög hratt batch mode")
-    gr.Markdown("Hladdu upp **mörgum** skrám í einu (allt að 15 × 5 mín) → allt keyrir samtímis á GPU!")
-    file_input = gr.Files(
-        label="Hladdu upp mp3/wav skrám (margar í einu)",
-        file_count="multiple",
-        type="filepath"
-    )
-    btn = gr.Button("Transcribe allar skrár (batch)", variant="primary", size="lg")
-    output_gallery = gr.Markdown()  # We use Markdown so we can show filenames nicely
     btn.click(
-        transcribe_batch,
-        inputs=file_input,
-        outputs=output_gallery
     )
-# Login protection (username: beta | password: beta2025)
-demo.launch(auth=("beta", "beta2025"), share=False)

+# app.py – Single file + player + countdown timer (ZeroGPU perfect)
 import os
 import gradio as gr
 import spaces
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
+print("Hleð Whisper módelinu...")
 pipe = pipeline(
     "automatic-speech-recognition",
     model=MODEL_NAME,
     torch_dtype="auto",
+    device="cuda",
     token=os.getenv("HF_TOKEN")
 )
+# Fix old Whisper checkpoints (required once)
+if not hasattr(pipe.model.generation_config, "lang_to_id") or pipe.model.generation_config.lang_to_id is None:
+    pipe.model.generation_config.lang_to_id = {"is": 50259}
     pipe.model.generation_config.task_to_id = {"transcribe": 50359, "translate": 50358}
     pipe.model.generation_config.forced_decoder_ids = None
+print("Módel tilbúið!")
+@spaces.GPU(duration=180)  # 3 mínútur nóg
+def transcribe_single(audio_path):
+    if not audio_path:
+        return None, "Hladdu upp hljóðskrá", "00:00"
+    result = pipe(audio_path, chunk_length_s=30, batch_size=8)
+    text = result["text"].strip()
+    return audio_path, text, None  # None clears the timer when done
+with gr.Blocks(title="Íslenskt Whisper") as demo:
+    gr.Markdown("# Íslenskt Whisper – Mjög lágt WER")
+    gr.Markdown("Hladdu upp einni hljóðskrá (allt að 5 mín) → smelltu á Transcribe")
+    with gr.Row():
+        audio_in = gr.Audio(label="Hljóðskrá", type="filepath", waveform=True)
+    btn = gr.Button("Transcribe", variant="primary", size="lg")
+    with gr.Row():
+        timer = gr.Timer(180, label="Tími eftir á GPU (sek)", active=True, visible=True)
+    output = gr.Textbox(label="Útskrift", lines=20)
+    # Click → transcribe + stop timer when finished
     btn.click(
+        transcribe_single,
+        inputs=audio_in,
+        outputs=[audio_in, output, timer]
     )
+demo.launch(auth=("beta", "beta2025"))