ASR_API2

Sleeping

App Files Files Community

palli23 commited on Dec 3, 2025

Commit

9d663d7

1 Parent(s): 40e6eb1

fix transcribe bug

Browse files

Files changed (1) hide show

app.py +34 -27

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# app.py – 3 mín hljóð (ZeroGPU virkur, ekkert diarization)
 import os
 import gradio as gr
 import spaces
@@ -6,38 +6,45 @@ from transformers import pipeline
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
-@spaces.GPU(duration=60)   # nóg fyrir 3 mín hljóð
-def transcribe_3min(audio_path):
     if not audio_path:
-        return "Hladdu upp hljóðskrá"
-    # Whisper pipeline með chunking – ZeroGPU öruggt
-    pipe = pipeline(
-        "automatic-speech-recognition",
-        model=MODEL_NAME,
-        device=0,
-        token=os.getenv("HF_TOKEN")
-    )
     result = pipe(
         audio_path,
-        chunk_length_s=30,           # 30 sek chunkar
-        stride_length_s=(6, 0),      # 6 sek overlap
         return_timestamps=False,
-        batch_size=8
     )
     return result["text"]
-# Interface
-with gr.Blocks(title="Íslenskt ASR – 3 mín") as demo:
-    gr.Markdown("# Íslenskt ASR – 3 mínútur")
-    gr.Markdown("**Whisper · Very low WER · 0.5-5minute audio transcribe á ZeroGPU**")
-    audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav (allt að 3 mín)")
-    btn = gr.Button("Transcribe", variant="primary", size="lg")
-    out = gr.Textbox(lines=30, label="Útskrift")
-    btn.click(transcribe_3min, inputs=audio, outputs=out)
-demo.launch(auth=("beta", "beta2025"))

+# app.py – Fixed for outdated generation_config (virkar á ZeroGPU)
 import os
 import gradio as gr
 import spaces
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
+print("Hleð Whisper módelinu einu sinni...")
+pipe = pipeline(
+    "automatic-speech-recognition",
+    model=MODEL_NAME,
+    torch_dtype="auto",
+    device="cuda" if os.getenv("SYSTEM") == "spaces" else "cpu",
+    model_kwargs={"attn_implementation": "sdpa"},
+    token=os.getenv("HF_TOKEN")
+)
+# *** THIS IS THE FIX: Uppfæra generation_config til að styðja language/task ***
+pipe.model.generation_config.language = "is"  # Default language
+pipe.model.generation_config.task = "transcribe"  # Default task
+pipe.model.generation_config.forced_decoder_ids = None  # Disable old forced IDs (deprecated)
+pipe.model.generation_config.suppress_tokens = []  # Clear suppress if needed
+print("Generation config uppfærð – allt klárt!")
+@spaces.GPU(duration=120)
+def transcribe_audio(audio_path):
     if not audio_path:
+        return "Hladdu upp hljóðskrá fyrst"
     result = pipe(
         audio_path,
+        chunk_length_s=30,
+        batch_size=8,
         return_timestamps=False,
+        # Núna virkar þetta án generate_kwargs (því config er sett)
+        # Ef þú vilt breyta: generate_kwargs={"language": "is", "task": "transcribe"}
     )
     return result["text"]
+with gr.Blocks() as demo:
+    gr.Markdown("# Íslenskt Whisper – mjög lágt WER – 30 sek–5 mín hljóð")
+    audio_in = gr.Audio(type="filepath", label="Hladdu upp mp3/wav (allt að 5 mín)")
+    btn = gr.Button("Transcribe", variant="primary")
+    output = gr.Textbox(lines=25, label="Útskrift")
+    btn.click(transcribe_audio, inputs=audio_in, outputs=output)
+demo.launch()