Spaces:

aidn
/

yapper

Sleeping

App Files Files Community

aidn commited on Mar 18

Commit

4f54665

verified ·

1 Parent(s): bd0276b

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -53

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ import tempfile
 import numpy as np
 import soundfile as sf
 import torch
 import gradio as gr
 from transformers import pipeline as hf_pipeline
@@ -11,13 +12,11 @@ from transformers import pipeline as hf_pipeline
 HF_TOKEN = os.environ.get("HF_TOKEN", "")
 ASR_MODELS = {
-    "whisper-tiny  (schnellste, geringste Qualität)": "openai/whisper-tiny",
-    "whisper-base  (schnell, gut für kurze Aufnahmen)": "openai/whisper-base",
-    "whisper-small (empfohlen für CPU)": "openai/whisper-small",
-    "distil-whisper-large-v3 (langsam, beste Qualität)": "distil-whisper/distil-large-v3",
 }
-# ── Lazy Model Loading ─────────────────────────────────────────────────────────
 _asr_cache: dict = {}
 _diar_pipe = None
@@ -28,8 +27,8 @@ def get_asr(model_key: str):
         _asr_cache[model_id] = hf_pipeline(
             "automatic-speech-recognition",
             model=model_id,
-            device="cpu",
-            torch_dtype=torch.float32,
             chunk_length_s=30,
             return_timestamps=True,
         )
@@ -49,21 +48,20 @@ def get_diar():
         _diar_pipe = PyannotePipeline.from_pretrained(
             "pyannote/speaker-diarization-3.1",
             use_auth_token=HF_TOKEN,
-        )
     return _diar_pipe
 # ── Hilfsfunktionen ────────────────────────────────────────────────────────────
 def merge_with_speakers(chunks: list, diarization) -> list[tuple]:
-    """Ordnet jedem ASR-Chunk den dominanten Sprecher zu."""
     merged = []
     for chunk in chunks:
         ts = chunk.get("timestamp", (None, None))
         start, end = ts if ts else (None, None)
         if start is None:
             continue
-        end = end or (start + 1.0)  # Fallback falls letzter Chunk kein End-Timestamp hat
         best_speaker, best_overlap = "Unbekannt", 0.0
         for turn, _, speaker in diarization.itertracks(yield_label=True):
@@ -77,10 +75,8 @@ def merge_with_speakers(chunks: list, diarization) -> list[tuple]:
 def format_diarized(segments: list[tuple]) -> str:
-    """Gruppiert aufeinanderfolgende Chunks desselben Sprechers."""
     if not segments:
         return ""
     lines = []
     cur_speaker, cur_start, cur_texts = None, 0.0, []
@@ -98,22 +94,44 @@ def format_diarized(segments: list[tuple]) -> str:
     return "\n\n".join(lines)
-# ── Haupt-Pipeline ─────────────────────────────────────────────────────────────
 def transcribe(audio, model_key: str, use_diar: bool):
-    """Generator-Funktion: liefert Zwischenergebnisse live an die UI."""
     if audio is None:
         yield "⚠️ Kein Audio eingegeben.", ""
         return
     sample_rate, audio_data = audio
-    # Mono erzwingen
     if audio_data.ndim > 1:
         audio_data = audio_data.mean(axis=1)
     audio_data = audio_data.astype(np.float32)
-    # Normalisieren (16-bit PCM → float)
     if audio_data.max() > 1.0:
         audio_data /= 32768.0
@@ -121,34 +139,10 @@ def transcribe(audio, model_key: str, use_diar: bool):
         tmp_path = f.name
         sf.write(tmp_path, audio_data, sample_rate)
     try:
-        # ── Schritt 1: Transkription ──
-        yield "⏳ Lade ASR-Modell und transkribiere...", ""
-        asr = get_asr(model_key)
-        result = asr(tmp_path)
-        raw_transcript = result["text"].strip()
-        chunks = result.get("chunks", [])
-        if not use_diar:
-            yield raw_transcript, ""
-            return
-        # ── Schritt 2: Diarisierung ──
-        yield raw_transcript, "⏳ Diarisierung läuft (auf CPU kann das einige Minuten dauern)..."
-        try:
-            diar = get_diar()
-            diarization = diar(tmp_path)
-            segments = merge_with_speakers(chunks, diarization)
-            labeled = format_diarized(segments)
-            yield raw_transcript, labeled or "(Keine Sprecher erkannt.)"
-        except EnvironmentError as e:
-            yield raw_transcript, f"⚠️ {e}"
-        except Exception as e:
-            yield raw_transcript, f"⚠️ Diarisierung fehlgeschlagen: {e}"
     finally:
         os.unlink(tmp_path)
@@ -159,14 +153,15 @@ TOKEN_WARNING = (
     "> ⚠️ **Kein `HF_TOKEN` gefunden.**  \n"
     "> Diarisierung (pyannote) ist deaktiviert.  \n"
     "> Füge das Token unter **Settings → Variables and secrets** als `HF_TOKEN` hinzu  \n"
-    "> und akzeptiere die Lizenzbedingungen auf [hf.co/pyannote/speaker-diarization-3.1](https://huggingface.co/pyannote/speaker-diarization-3.1)."
 )
-with gr.Blocks(title="Meeting Transcriber") as demo:
-    gr.Markdown("# 🎙️ Meeting Transcriber")
     gr.Markdown(
         "Lade eine Audiodatei hoch **oder** nimm direkt über das Mikrofon auf.  \n"
-        "Das Audio wird transkribiert und optional nach Sprechern getrennt."
     )
     if not HF_TOKEN:
@@ -181,12 +176,12 @@ with gr.Blocks(title="Meeting Transcriber") as demo:
             )
             model_dd = gr.Dropdown(
                 choices=list(ASR_MODELS.keys()),
-                value="whisper-small (empfohlen für CPU)",
                 label="Transkriptionsmodell",
             )
             diar_cb = gr.Checkbox(
                 value=bool(HF_TOKEN),
-                label="Speaker-Diarisierung aktivieren (pyannote, braucht HF_TOKEN)",
                 interactive=bool(HF_TOKEN),
             )
             run_btn = gr.Button("▶ Transkribieren", variant="primary")
@@ -207,9 +202,9 @@ with gr.Blocks(title="Meeting Transcriber") as demo:
     gr.Markdown(
         "---\n"
         "**Hinweise:**  \n"
-        "• Auf Free CPU dauert Whisper-small ~1–2× Echtzeit, Diarisierung ~2–5× Echtzeit.  \n"
-        "• Für pyannote musst du die Lizenzbedingungen auf Hugging Face akzeptiert haben.  \n"
-        "• Das erste Laden der Modelle dauert länger (Download-Cache)."
     )
     run_btn.click(

 import numpy as np
 import soundfile as sf
 import torch
+import spaces                          # ← ZeroGPU: muss importiert werden
 import gradio as gr
 from transformers import pipeline as hf_pipeline
 HF_TOKEN = os.environ.get("HF_TOKEN", "")
 ASR_MODELS = {
+    "whisper-small  (gut, schnell)": "openai/whisper-small",
+    "whisper-large-v3 (beste Qualität)": "openai/whisper-large-v3",
+    "distil-whisper-large-v3 (empfohlen: Qualität+Speed)": "distil-whisper/distil-large-v3",
 }
 _asr_cache: dict = {}
 _diar_pipe = None
         _asr_cache[model_id] = hf_pipeline(
             "automatic-speech-recognition",
             model=model_id,
+            device="cuda",             # ← ZeroGPU: cuda statt cpu
+            torch_dtype=torch.float16, # ← ZeroGPU: float16 statt float32
             chunk_length_s=30,
             return_timestamps=True,
         )
         _diar_pipe = PyannotePipeline.from_pretrained(
             "pyannote/speaker-diarization-3.1",
             use_auth_token=HF_TOKEN,
+        ).to(torch.device("cuda"))     # ← ZeroGPU: auf GPU verschieben
     return _diar_pipe
 # ── Hilfsfunktionen ────────────────────────────────────────────────────────────
 def merge_with_speakers(chunks: list, diarization) -> list[tuple]:
     merged = []
     for chunk in chunks:
         ts = chunk.get("timestamp", (None, None))
         start, end = ts if ts else (None, None)
         if start is None:
             continue
+        end = end or (start + 1.0)
         best_speaker, best_overlap = "Unbekannt", 0.0
         for turn, _, speaker in diarization.itertracks(yield_label=True):
 def format_diarized(segments: list[tuple]) -> str:
     if not segments:
         return ""
     lines = []
     cur_speaker, cur_start, cur_texts = None, 0.0, []
     return "\n\n".join(lines)
+# ── Haupt-Pipeline (mit @spaces.GPU dekoriert) ────────────────────────────────
+# duration=300 = max. 5 Minuten GPU-Zeit pro Call.
+# Passe den Wert an deine längsten Meetings an (300s reicht für ~30 min Audio).
+@spaces.GPU(duration=300)              # ← ZeroGPU: Pflicht-Decorator
+def run_pipeline(tmp_path: str, model_key: str, use_diar: bool):
+    """Läuft komplett auf der GPU. Wird von transcribe() aufgerufen."""
+    asr = get_asr(model_key)
+    result = asr(tmp_path)
+    raw_transcript = result["text"].strip()
+    chunks = result.get("chunks", [])
+    if not use_diar:
+        return raw_transcript, ""
+    try:
+        diar = get_diar()
+        diarization = diar(tmp_path)
+        segments = merge_with_speakers(chunks, diarization)
+        labeled = format_diarized(segments)
+        return raw_transcript, labeled or "(Keine Sprecher erkannt.)"
+    except EnvironmentError as e:
+        return raw_transcript, f"⚠️ {e}"
+    except Exception as e:
+        return raw_transcript, f"⚠️ Diarisierung fehlgeschlagen: {e}"
 def transcribe(audio, model_key: str, use_diar: bool):
+    """UI-Handler: Audio vorbereiten, GPU-Funktion aufrufen."""
     if audio is None:
         yield "⚠️ Kein Audio eingegeben.", ""
         return
     sample_rate, audio_data = audio
     if audio_data.ndim > 1:
         audio_data = audio_data.mean(axis=1)
     audio_data = audio_data.astype(np.float32)
     if audio_data.max() > 1.0:
         audio_data /= 32768.0
         tmp_path = f.name
         sf.write(tmp_path, audio_data, sample_rate)
+    yield "⏳ GPU wird angefordert und Pipeline gestartet...", ""
     try:
+        transcript, labeled = run_pipeline(tmp_path, model_key, use_diar)
+        yield transcript, labeled
     finally:
         os.unlink(tmp_path)
     "> ⚠️ **Kein `HF_TOKEN` gefunden.**  \n"
     "> Diarisierung (pyannote) ist deaktiviert.  \n"
     "> Füge das Token unter **Settings → Variables and secrets** als `HF_TOKEN` hinzu  \n"
+    "> und akzeptiere die Lizenzbedingungen auf "
+    "[hf.co/pyannote/speaker-diarization-3.1](https://huggingface.co/pyannote/speaker-diarization-3.1)."
 )
+with gr.Blocks(title="Meeting Transcriber (ZeroGPU)") as demo:
+    gr.Markdown("# 🎙️ Meeting Transcriber · ZeroGPU Edition")
     gr.Markdown(
         "Lade eine Audiodatei hoch **oder** nimm direkt über das Mikrofon auf.  \n"
+        "Läuft auf NVIDIA H200 via ZeroGPU – deutlich schneller als CPU."
     )
     if not HF_TOKEN:
             )
             model_dd = gr.Dropdown(
                 choices=list(ASR_MODELS.keys()),
+                value="distil-whisper-large-v3 (empfohlen: Qualität+Speed)",
                 label="Transkriptionsmodell",
             )
             diar_cb = gr.Checkbox(
                 value=bool(HF_TOKEN),
+                label="Speaker-Diarisierung (pyannote) – braucht HF_TOKEN",
                 interactive=bool(HF_TOKEN),
             )
             run_btn = gr.Button("▶ Transkribieren", variant="primary")
     gr.Markdown(
         "---\n"
         "**Hinweise:**  \n"
+        "• ZeroGPU-Quota: PRO-User haben 1.500 Sek/Tag (~50 kurze Meetings).  \n"
+        "• Max. 5 Minuten GPU-Zeit pro Transkription (`duration=300`).  \n"
+        "• Für pyannote musst du die Lizenzbedingungen auf Hugging Face akzeptiert haben."
     )
     run_btn.click(