Spaces:

empirenexus
/

TranscriptWriting

Sleeping

App Files Files Community

jmisak commited on Oct 18, 2025

Commit

02be25d

verified ·

1 Parent(s): 92752f3

Delete audio_transcriber.py

Browse files

Files changed (1) hide show

audio_transcriber.py +0 -100

audio_transcriber.py DELETED Viewed

@@ -1,100 +0,0 @@
-from faster_whisper import WhisperModel
-from speechbrain.inference import EncoderClassifier
-from sklearn.cluster import AgglomerativeClustering
-from docx import Document
-import torch, torchaudio, numpy as np
-def transcribe_with_diarization_streaming(audio_path: str, num_speakers: int = 1):
-    """
-    Streaming transcription with diarization support.
-    - Processes audio in chunks (default 30s).
-    - Streams partial transcripts as they’re ready.
-    - Handles single-speaker fallback.
-    """
-    # Device fallback
-    device = "cuda" if torch.cuda.is_available() else "cpu"
-    compute_type = "float16" if device == "cuda" else "int8"
-    print(f"[1/3] Loading Whisper model on {device}...")
-    try:
-        if torch.cuda.is_available():
-            device = "cuda"
-            compute_type = "float16"
-            _ = torch.zeros(1).to(device)  # sanity check
-        else:
-            raise RuntimeError("No CUDA")
-    except Exception:
-        print("⚠️ CUDA not usable, falling back to CPU")
-        device = "cpu"
-        compute_type = "int8"
-    whisper_model = WhisperModel("large-v3", device=device, compute_type=compute_type)
-    return whisper_model
-    print(f"[2/3] Transcribing...")
-    # Streaming generator
-    segments, info = whisper_model.transcribe(
-        audio_path,
-        language="en",
-        beam_size=5,
-        word_timestamps=True,
-        vad_filter=True,
-    )
-    segments_list = []
-    for seg in segments:
-        print(f"[stream] {seg.start:.2f}-{seg.end:.2f}: {seg.text}")
-        segments_list.append(seg)
-    # Speaker embeddings
-    print(f"[3/3] Extracting speaker embeddings...")
-    speaker_model = EncoderClassifier.from_hparams(
-        source="speechbrain/spkrec-ecapa-voxceleb",
-        savedir="models/speaker_embeddings",
-        run_opts={"device": device}
-    )
-    waveform, sample_rate = torchaudio.load(audio_path)
-    embeddings, valid_segments = [], []
-    for seg in segments_list:
-        start_sample = int(seg.start * sample_rate)
-        end_sample = int(seg.end * sample_rate)
-        if end_sample > start_sample:
-            seg_audio = waveform[:, start_sample:end_sample]
-            if sample_rate != 16000:
-                seg_audio = torchaudio.transforms.Resample(sample_rate, 16000)(seg_audio)
-            with torch.no_grad():
-                emb = speaker_model.encode_batch(seg_audio)
-                embeddings.append(emb.squeeze().cpu().numpy())
-                valid_segments.append(seg)
-    # Handle empty or single-speaker case
-    if len(embeddings) == 0 or num_speakers <= 1:
-        print("Single speaker detected or no embeddings. Skipping clustering.")
-        speaker_labels = [0] * len(valid_segments)
-        num_speakers = 1
-    else:
-        if num_speakers > len(embeddings):
-            num_speakers = len(embeddings)
-        clustering = AgglomerativeClustering(n_clusters=num_speakers)
-        speaker_labels = clustering.fit_predict(np.array(embeddings))
-    # Build transcript
-    doc = Document()
-    doc.add_heading('Interview Transcript', 0)
-    doc.add_paragraph(f"Detected {num_speakers} speaker(s)")
-    doc.add_paragraph("")
-    for seg, spk in zip(valid_segments, speaker_labels):
-        doc.add_paragraph(f"Speaker {spk+1}: {seg.text.strip()}")
-    output_path = audio_path.rsplit('.', 1)[0] + '_transcript.docx'
-    doc.save(output_path)
-    print(f"✓ Saved transcript: {output_path}")
-    return output_path