Spaces:

palli23
/

ASR_API

Running on Zero

App Files Files Community

palli23 commited on Nov 30, 2025

Commit

d89e139

1 Parent(s): 48ac366

update3

Browse files

Files changed (2) hide show

app.py +38 -29
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -1,31 +1,29 @@
-# app.py – ZeroGPU SAFE – 3 mín hljóð án "GPU task aborted"
 import os
 import gradio as gr
 import spaces
 from transformers import pipeline
-import numpy as np
-import librosa
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
-@spaces.GPU(duration=60)   # ← MEST 60 sek – ZeroGPU leyfir
-def transcribe_safe(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
-    # Hlaða hljóð og klippa í 20 sek chunkar (mjög öruggt)
-    audio, sr = librosa.load(audio_path, sr=16000)
-    chunk_len = 16000 * 20   # 20 sek
-    stride = 16000 * 2       # 2 sek overlap
-    chunks = []
-    for i in range(0, len(audio), chunk_len - stride):
-        chunk = audio[i:i + chunk_len]
-        if len(chunk) < 16000:  # undir 1 sek → hætta
-            break
-        chunks.append(chunk)
-    # Hlaða ASR á GPU (cached)
-    pipe = pipeline(
         "automatic-speech-recognition",
         model=MODEL_NAME,
         device=0,
@@ -33,21 +31,32 @@ def transcribe_safe(audio_path):
     )
     full_text = ""
-    for idx, chunk in enumerate(chunks):
-        result = pipe(chunk, batch_size=8)
-        full_text += result["text"] + " "
-    return full_text.strip() or "Ekkert heyrt"
-# Gradio – fallegt og tilbúið fyrir 3 mín
-with gr.Blocks(title="Íslenskt ASR – 3 mín ZeroGPU") as demo:
-    gr.Markdown("# Íslenskt ASR – 3 mín hljóð")
-    gr.Markdown("**~4 % WER · 25–45 sek · ZeroGPU (PRO)**")
-    audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav (allt að 3 mín)")
-    btn = gr.Button("Transcribe (25–45 sek)", variant="primary", size="lg")
-    out = gr.Textbox(lines=30, label="Útskrift")
-    btn.click(transcribe_safe, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))

+# app.py – Whisper-small + Mælendagreining (pyannote 3.1) – ZeroGPU
 import os
 import gradio as gr
 import spaces
 from transformers import pipeline
+from pyannote.audio import Pipeline
+import tempfile
 MODEL_NAME = "palli23/whisper-small-sam_spjall"
+# Mælendagreining – BESTA módel 2025 (þú hefur samþykkt license)
+@spaces.GPU(duration=120)   # 120 sek max – nóg fyrir 5 mín hljóð
+def transcribe_with_diarization(audio_path):
     if not audio_path:
         return "Hladdu upp hljóðskrá"
+    # 1. Mælendagreining (pyannote)
+    diarization = Pipeline.from_pretrained(
+        "pyannote/speaker-diarization-3.1",
+        use_auth_token=os.getenv("HF_TOKEN")
+    ).to("cuda")
+    dia_result = diarization(audio_path)
+    # 2. Whisper-small á hverjum mælandahluta
+    asr = pipeline(
         "automatic-speech-recognition",
         model=MODEL_NAME,
         device=0,
     )
     full_text = ""
+    for turn, _, speaker in dia_result.itertracks(yield_label=True):
+        start = turn.start
+        end = turn.end
+        # Klippa út segmentið
+        with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
+            dia_result.crop(audio_path, turn).export(tmp.name, format="wav")
+            segment_path = tmp.name
+        text = asr(segment_path)["text"].strip()
+        full_text += f"[MÆLENDI {speaker}] {text}\n"
+        os.unlink(segment_path)  # hreinsa temp skrá
+    return full_text or "Ekkert heyrt"
+# Gradio interface
+with gr.Blocks(title="Íslenskt ASR + Mælendagreining") as demo:
+    gr.Markdown("# Íslenskt ASR + Mælendagreining")
+    gr.Markdown("**Whisper-small + pyannote 3.1 · ~4 % WER + 95 % DIAR**")
+    gr.Markdown("Fullkominn podcast-transcript með réttum mælendum")
+    audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav (allt að 5 mín)")
+    btn = gr.Button("Transcribe með mælendum (40–90 sek)", variant="primary", size="lg")
+    out = gr.Textbox(lines=35, label="Útskrift með mælendum")
+    btn.click(transcribe_with_diarization, inputs=audio, outputs=out)
 demo.launch(auth=("beta", "beta2025"))

requirements.txt CHANGED Viewed

@@ -2,5 +2,6 @@ gradio
 transformers
 torch
 spaces
 librosa
 soundfile

 transformers
 torch
 spaces
+pyannote.audio
 librosa
 soundfile