ASR_API2

Sleeping

App Files Files Community

palli23 commited on Nov 30, 2025

Commit

c27f348

1 Parent(s): b348bed

diarization1Mæló

Browse files

Files changed (2) hide show

app.py +24 -33
requirements.txt +1 -1

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# app.py – Whisper-small + WebRTC VAD + ECAPA mælendagreining – VIRKAR Á ZeroGPU
 import os
 import gradio as gr
 import spaces
@@ -6,23 +6,25 @@ import webrtcvad
 import numpy as np
 from pydub import AudioSegment
 from sklearn.cluster import AgglomerativeClustering
-from transformers import pipeline, Wav2Vec2Processor, Wav2Vec2Model
 import torch
 import tempfile
 # ÞITT Whisper-small model
 ASR_MODEL = "palli23/whisper-small-sam_spjall"
-# ECAPA speaker embedding model (létt og hratt)
-EMB_MODEL = "speechbrain/spkrec-ecapa-voxceleb"
-processor = Wav2Vec2Processor.from_pretrained(EMB_MODEL)
-embedder = Wav2Vec2Model.from_pretrained(EMB_MODEL)
-# Hlaða ASR á GPU (cached)
 asr = pipeline("automatic-speech-recognition", model=ASR_MODEL, device=0)
-# WebRTC VAD (mjög létt)
-vad = webrtcvad.Vad(2)  # mode 2 = aggressive
 def audio_to_frames(path, frame_ms=30):
     audio = AudioSegment.from_file(path).set_channels(1).set_frame_rate(16000)
@@ -40,7 +42,7 @@ def extract_speech_segments(path):
         if vad.is_speech(frame.tobytes(), 16000):
             current.append(frame)
         else:
-            if len(current) > 20:  # að minnsta kosti 20 frames (~600 ms)
                 segments.append(np.concatenate(current))
             current = []
     if len(current) > 20:
@@ -49,9 +51,8 @@ def extract_speech_segments(path):
 def get_embedding(segment):
     with torch.no_grad():
-        inputs = processor(segment, sampling_rate=16000, return_tensors="pt", padding=True)
-        emb = embedder(inputs.input_values.to("cuda")).last_hidden_state.mean(dim=1)
-    return emb.cpu().numpy()[0]
 @spaces.GPU(duration=120)
 def transcribe_with_speakers(audio_path):
@@ -62,27 +63,17 @@ def transcribe_with_speakers(audio_path):
     if not segments:
         return "Engin tala heyrðist"
-    # Búa til embeddings
     embeddings = [get_embedding(seg) for seg in segments]
-    # Klústra mælendur (max 8)
-    clustering = AgglomerativeClustering(
-        n_clusters=None,
-        distance_threshold=0.8,
-        linkage="average"
-    ).fit(embeddings)
     labels = clustering.labels_
-    # Transcribe hvert segment
     result = []
     for seg, spk in zip(segments, labels):
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
-            audio = AudioSegment(
-                data=seg.tobytes(),
-                sample_width=2,
-                frame_rate=16000,
-                channels=1
-            ).export(f.name, format="wav")
             seg_path = f.name
         text = asr(seg_path)["text"].strip()
@@ -91,14 +82,14 @@ def transcribe_with_speakers(audio_path):
     return "\n".join(result)
-# Gradio
 with gr.Blocks() as demo:
     gr.Markdown("# Íslenskt ASR + Mælendagreining (WebRTC + ECAPA)")
-    gr.Markdown("**ZeroGPU – Virkar 100 % · 3–5 mín hljóð → 30–60 sek**")
-    audio = gr.Audio(type="filepath", label="Hladdu upp .mp3 / .wav")
-    btn = gr.Button("Transcribe með mælendum", variant="primary", size="lg")
-    out = gr.Textbox(lines=35, label="Útskrift")
     btn.click(transcribe_with_speakers, audio, out)

+# app.py – FIXED ECAPA (SpeechBrain Native) + Whisper-small – ZeroGPU
 import os
 import gradio as gr
 import spaces
 import numpy as np
 from pydub import AudioSegment
 from sklearn.cluster import AgglomerativeClustering
+from transformers import pipeline
+from speechbrain.inference.speaker import EncoderClassifier  # ← Native SpeechBrain
 import torch
 import tempfile
 # ÞITT Whisper-small model
 ASR_MODEL = "palli23/whisper-small-sam_spjall"
+# SpeechBrain ECAPA (native – no Transformers error)
+embedder = EncoderClassifier.from_hparams(
+    source="speechbrain/spkrec-ecapa-voxceleb",
+    savedir="tmp_ecapa_cache"  # local cache
+)
+# Hlaða ASR á GPU
 asr = pipeline("automatic-speech-recognition", model=ASR_MODEL, device=0)
+# WebRTC VAD
+vad = webrtcvad.Vad(2)
 def audio_to_frames(path, frame_ms=30):
     audio = AudioSegment.from_file(path).set_channels(1).set_frame_rate(16000)
         if vad.is_speech(frame.tobytes(), 16000):
             current.append(frame)
         else:
+            if len(current) > 20:  # min 600 ms
                 segments.append(np.concatenate(current))
             current = []
     if len(current) > 20:
 def get_embedding(segment):
     with torch.no_grad():
+        emb = embedder.encode_batch(torch.tensor(segment).unsqueeze(0).float() / 32768.0)
+    return emb.squeeze().numpy()
 @spaces.GPU(duration=120)
 def transcribe_with_speakers(audio_path):
     if not segments:
         return "Engin tala heyrðist"
+    # Embeddings og clustering
     embeddings = [get_embedding(seg) for seg in segments]
+    clustering = AgglomerativeClustering(n_clusters=None, distance_threshold=0.8).fit(embeddings)
     labels = clustering.labels_
+    # Transcribe
     result = []
     for seg, spk in zip(segments, labels):
         with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
+            audio = AudioSegment(data=seg.tobytes(), sample_width=2, frame_rate=16000, channels=1)
+            audio.export(f.name, format="wav")
             seg_path = f.name
         text = asr(seg_path)["text"].strip()
     return "\n".join(result)
+# Interface
 with gr.Blocks() as demo:
     gr.Markdown("# Íslenskt ASR + Mælendagreining (WebRTC + ECAPA)")
+    gr.Markdown("**Whisper-small + SpeechBrain ECAPA · Virkar á ZeroGPU**")
+    audio = gr.Audio(type="filepath")
+    btn = gr.Button("Transcribe með mælendum", variant="primary")
+    out = gr.Textbox(lines=35)
     btn.click(transcribe_with_speakers, audio, out)

requirements.txt CHANGED Viewed

@@ -2,9 +2,9 @@ gradio
 transformers
 torch
 spaces
 webrtcvad
 pydub
 numpy
 scikit-learn
-speechbrain
 soundfile

 transformers
 torch
 spaces
+speechbrain
 webrtcvad
 pydub
 numpy
 scikit-learn
 soundfile