ASR_API2

Sleeping

App Files Files Community

palli23 commited on Nov 30, 2025

Commit

399a407

1 Parent(s): c871a9c

diarization1Mæló

Browse files

Files changed (1) hide show

app.py +19 -23

app.py CHANGED Viewed

@@ -1,7 +1,3 @@
-# ============================================================
-# app.py – Whisper-small + Pyannote 3.1 (ZeroGPU örugg)
-# ============================================================
 import os
 import gradio as gr
 import spaces
@@ -10,14 +6,19 @@ import torch
 from transformers import pipeline
 from pyannote.audio import Pipeline
-from torch.serialization import add_safe_globals
-# ================================================
-# Workaround fyrir PyTorch 2.6 weights-only unpickling
-# ================================================
 add_safe_globals({
-    "Specifications": "pyannote.audio.core.task",
 })
@@ -32,8 +33,8 @@ def transcribe_with_diarization(audio_path):
         return "Hladdu upp hljóðskrá."
     # ----------------------------
-    # 1. Load diarization pipeline
-    #    (ENGINN token parameter!)
     # ----------------------------
     diarization = Pipeline.from_pretrained(
         DIAR_MODEL,
@@ -43,7 +44,7 @@ def transcribe_with_diarization(audio_path):
     diar = diarization(audio_path)
     # ----------------------------
-    # 2. Whisper ASR
     # ----------------------------
     asr = pipeline(
         task="automatic-speech-recognition",
@@ -51,9 +52,6 @@ def transcribe_with_diarization(audio_path):
         device=0
     )
-    # ----------------------------
-    # 3. Skera út segment + ASR
-    # ----------------------------
     output_lines = []
     for turn, _, speaker in diar.itertracks(yield_label=True):
@@ -70,17 +68,15 @@ def transcribe_with_diarization(audio_path):
     return "\n".join(output_lines) or "Enginn texti fannst."
-# ------------------------------------------------------------
-# GRADIO UI
-# ------------------------------------------------------------
 with gr.Blocks() as demo:
-    gr.Markdown("# 🎙️ Íslenskt ASR + mælendagreining")
-    gr.Markdown("Whisper-small + pyannote 3.1 (ZeroGPU örugg útgáfa)")
     audio = gr.Audio(type="filepath", label="Hlaða inn hljóði (.wav / .mp3)")
-    out = gr.Textbox(lines=30, label="Útskrift með mælendum")
-    btn = gr.Button("Transcribe með mælendum", variant="primary")
     btn.click(transcribe_with_diarization, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))

 import os
 import gradio as gr
 import spaces
 from transformers import pipeline
 from pyannote.audio import Pipeline
+# ==========================================================
+# ZeroGPU SAFE GLOBALS FIX — PYANNOTE 3.1 CHECKPOINT COMPAT
+# ==========================================================
+from torch.serialization import add_safe_globals
+from pyannote.audio.core.task import Specifications
+from pyannote.audio.core.model import Model
 add_safe_globals({
+    "Specifications": Specifications,
+    "pyannote.audio.core.task.Specifications": Specifications,
+    "Model": Model,
+    "pyannote.audio.core.model.Model": Model,
 })
         return "Hladdu upp hljóðskrá."
     # ----------------------------
+    # Load diarization pipeline
+    # (NO token argument!)
     # ----------------------------
     diarization = Pipeline.from_pretrained(
         DIAR_MODEL,
     diar = diarization(audio_path)
     # ----------------------------
+    # Whisper ASR
     # ----------------------------
     asr = pipeline(
         task="automatic-speech-recognition",
         device=0
     )
     output_lines = []
     for turn, _, speaker in diar.itertracks(yield_label=True):
     return "\n".join(output_lines) or "Enginn texti fannst."
+# ==========================================================
+# UI
+# ==========================================================
 with gr.Blocks() as demo:
+    gr.Markdown("# 🎙️ Íslenskt ASR + mælendagreining (ZeroGPU)")
     audio = gr.Audio(type="filepath", label="Hlaða inn hljóði (.wav / .mp3)")
+    out = gr.Textbox(lines=25, label="Útskrift")
+    btn = gr.Button("Transcribe")
     btn.click(transcribe_with_diarization, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))