speaker-diarization

Runtime error

App Files Files Community

luckyhookin commited on Nov 22, 2025

Commit

f7e0be6

0 Parent(s):

init

Browse files

Files changed (5) hide show

.gitattributes +35 -0
README.md +12 -0
app.py +106 -0
packages.txt +2 -0
requirements.txt +8 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,12 @@

+---
+title: Speaker Diarization
+emoji: 📚
+colorFrom: red
+colorTo: yellow
+sdk: gradio
+sdk_version: 5.49.1
+app_file: app.py
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,106 @@

+from io import BytesIO
+import os
+import gradio as gr
+import spaces
+import torch
+from pyannote.audio import Pipeline
+import torchaudio
+from pydub import AudioSegment
+from pyannote.audio import Pipeline
+import json
+import requests
+# Authenticate with Huggingface
+AUTH_TOKEN = os.getenv("HF_TOKEN")
+# Load the diarization pipeline
+device = torch.device("cuda")
+pipeline = Pipeline.from_pretrained(
+    "pyannote/speaker-diarization-community-1",
+    token=AUTH_TOKEN).to(device)
+def preprocess_audio(audio_path):
+    """Convert audio to mono, 16kHz WAV format suitable for pyannote."""
+    try:
+        if isinstance(audio_path, str):
+            bytes = False
+        else:
+            bytes = True
+        # Load audio with pydub
+        audio = AudioSegment.from_file(BytesIO(audio_path) if bytes else audio_path)
+        # Convert to mono and set sample rate to 16kHz
+        audio = audio.set_channels(1).set_frame_rate(16000)
+        # Export to temporary WAV file
+        temp_wav = "temp_audio.wav"
+        audio.export(temp_wav, format="wav")
+        return temp_wav
+    except Exception as e:
+        raise ValueError(f"Error preprocessing audio: {str(e)}")
+def handle_audio(url, audio_path, num_speakers):
+    """Handle audio processing and diarization."""
+    if url:
+        response = requests.get(url, timeout=60)
+        audio_path = response.content
+    audio_path = preprocess_audio(audio_path)
+    res = diarize_audio(audio_path, num_speakers)
+    # Clean up temporary file
+    if os.path.exists(audio_path):
+        os.remove(audio_path)
+    return res
+@spaces.GPU(duration=120)
+def diarize_audio(audio_path, num_speakers):
+    """Perform speaker diarization and return formatted results."""
+    try:
+        # Load audio for pyannote
+        waveform, sample_rate = torchaudio.load(audio_path)
+        audio_dict = {"waveform": waveform, "sample_rate": sample_rate}
+        # Configure pipeline with number of speakers
+        pipeline_params = {"num_speakers": num_speakers} if num_speakers > 0 else { "min_speakers": 2, "max_speakers": 6 }
+        diarization = pipeline(audio_dict, **pipeline_params)
+        # Format results
+        results = []
+        for turn, speaker in diarization.exclusive_speaker_diarization:
+            result = {
+                "start": round(turn.start, 3),
+                "end": round(turn.end, 3),
+                "speaker_id": speaker
+            }
+            results.append(result)
+        return json.dumps(results, indent=2)
+    except Exception as e:
+        return f"Error: {str(e)}", ""
+# Gradio interface
+with gr.Blocks() as demo:
+    gr.Markdown("# Speaker Diarization with speaker-diarization-community-1")
+    gr.Markdown("Upload an audio file and specify the number of speakers to diarize the audio.")
+    with gr.Row():
+        url_input = gr.Textbox(label="URL")
+        audio_input = gr.Audio(label="Upload Audio File", type="filepath")
+        num_speakers = gr.Slider(minimum=0, maximum=10, step=1, label="Number of Speakers", value=2)
+    submit_btn = gr.Button("Diarize")
+    with gr.Row():
+        json_output = gr.Textbox(label="Diarization Results (JSON)")
+    submit_btn.click(
+        fn=handle_audio,
+        inputs=[url_input, audio_input, num_speakers],
+        outputs=[json_output],
+        concurrency_limit=2,
+    )
+# Launch the Gradio app
+demo.launch()

packages.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ libsndfile1
2	+ ffmpeg

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+pyannote.audio
+torch
+torchaudio
+pydub
+numpy
+huggingface_hub
+gradio
+spaces