ASR_API2

Sleeping

App Files Files Community

palli23 commited on Nov 30, 2025

Commit

04cee61

1 Parent(s): d89e139

diarization

Browse files

Files changed (1) hide show

app.py +12 -20

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# app.py – Whisper-small + Mælendagreining (pyannote 3.1) – ZeroGPU
 import os
 import gradio as gr
 import spaces
@@ -8,21 +8,20 @@ import tempfile
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
-# Mælendagreining – BESTA módel 2025 (þú hefur samþykkt license)
-@spaces.GPU(duration=120)   # 120 sek max – nóg fyrir 5 mín hljóð
 def transcribe_with_diarization(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
-    # 1. Mælendagreining (pyannote)
     diarization = Pipeline.from_pretrained(
         "pyannote/speaker-diarization-3.1",
-        use_auth_token=os.getenv("HF_TOKEN")
     ).to("cuda")
     dia_result = diarization(audio_path)
-    # 2. Whisper-small á hverjum mælandahluta
     asr = pipeline(
         "automatic-speech-recognition",
         model=MODEL_NAME,
@@ -32,31 +31,24 @@ def transcribe_with_diarization(audio_path):
     full_text = ""
     for turn, _, speaker in dia_result.itertracks(yield_label=True):
-        start = turn.start
-        end = turn.end
-        # Klippa út segmentið
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
             dia_result.crop(audio_path, turn).export(tmp.name, format="wav")
             segment_path = tmp.name
         text = asr(segment_path)["text"].strip()
         full_text += f"[MÆLENDI {speaker}] {text}\n"
-        os.unlink(segment_path)  # hreinsa temp skrá
     return full_text or "Ekkert heyrt"
-# Gradio interface
-with gr.Blocks(title="Íslenskt ASR + Mælendagreining") as demo:
     gr.Markdown("# Íslenskt ASR + Mælendagreining")
-    gr.Markdown("**Whisper-small + pyannote 3.1 · ~4 % WER + 95 % DIAR**")
-    gr.Markdown("Fullkominn podcast-transcript með réttum mælendum")
-    audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav (allt að 5 mín)")
-    btn = gr.Button("Transcribe með mælendum (40–90 sek)", variant="primary", size="lg")
-    out = gr.Textbox(lines=35, label="Útskrift með mælendum")
-    btn.click(transcribe_with_diarization, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))

+# app.py – Mælendagreining VIRKAR á ZeroGPU (2025 fix)
 import os
 import gradio as gr
 import spaces
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
+@spaces.GPU(duration=120)
 def transcribe_with_diarization(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
+    # Mælendagreining – 2025 syntax
     diarization = Pipeline.from_pretrained(
         "pyannote/speaker-diarization-3.1",
+        token=os.getenv("HF_TOKEN")   # ← FIX
     ).to("cuda")
     dia_result = diarization(audio_path)
+    # Whisper-small
     asr = pipeline(
         "automatic-speech-recognition",
         model=MODEL_NAME,
     full_text = ""
     for turn, _, speaker in dia_result.itertracks(yield_label=True):
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
             dia_result.crop(audio_path, turn).export(tmp.name, format="wav")
             segment_path = tmp.name
         text = asr(segment_path)["text"].strip()
         full_text += f"[MÆLENDI {speaker}] {text}\n"
+        os.unlink(segment_path)
     return full_text or "Ekkert heyrt"
+with gr.Blocks() as demo:
     gr.Markdown("# Íslenskt ASR + Mælendagreining")
+    gr.Markdown("**Whisper-small + pyannote 3.1 · 2025 fix**")
+    audio = gr.Audio(type="filepath")
+    btn = gr.Button("Transcribe með mælendum", variant="primary")
+    out = gr.Textbox(lines=35)
+    btn.click(transcribe_with_diarization, audio, out)
 demo.launch(auth=("beta", "beta2025"))