Spaces:

MicroHealth
/

AV-to-transcripts

Paused

App Files Files Community

bluenevus commited on Apr 22, 2025

Commit

170241f

verified ·

1 Parent(s): 256795b

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -10

app.py CHANGED Viewed

@@ -11,6 +11,10 @@ from spellchecker import SpellChecker
 from pydub import AudioSegment
 import librosa
 import numpy as np
 # Check if CUDA is available and set the device
 device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -70,27 +74,35 @@ def format_transcript(transcript):
 def transcribe_audio(audio_file):
     try:
-        # Load the entire audio file
         audio_input, sr = librosa.load(audio_file, sr=16000)
         # Convert to float32 numpy array
         audio_input = audio_input.astype(np.float32)
-        # Process in chunks of 30 seconds with overlap
-        chunk_length = 30 * sr
-        overlap = 5 * sr  # 5 seconds overlap
         transcriptions = []
-        for i in range(0, len(audio_input), chunk_length - overlap):
-            chunk = audio_input[i:i+chunk_length]
             input_features = processor(chunk, sampling_rate=16000, return_tensors="pt").input_features.to(device)
             predicted_ids = model.generate(input_features)
-            transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
-            transcriptions.extend(transcription)
-        # Join all transcriptions
         full_transcription = " ".join(transcriptions)
         print(f"Full transcription length: {len(full_transcription)} characters")
         return full_transcription
     except Exception as e:

 from pydub import AudioSegment
 import librosa
 import numpy as np
+from pyannote.audio import Pipeline
+# Initialize the speaker diarization pipeline
+pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization")
 # Check if CUDA is available and set the device
 device = "cuda" if torch.cuda.is_available() else "cpu"
 def transcribe_audio(audio_file):
     try:
+        # Perform speaker diarization
+        diarization = pipeline(audio_file)
+        # Load the audio file
         audio_input, sr = librosa.load(audio_file, sr=16000)
         # Convert to float32 numpy array
         audio_input = audio_input.astype(np.float32)
         transcriptions = []
+        current_speaker = None
+        for turn, _, speaker in diarization.itertracks(yield_label=True):
+            start_sample = int(turn.start * sr)
+            end_sample = int(turn.end * sr)
+            chunk = audio_input[start_sample:end_sample]
             input_features = processor(chunk, sampling_rate=16000, return_tensors="pt").input_features.to(device)
             predicted_ids = model.generate(input_features)
+            transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
+            if speaker != current_speaker:
+                if current_speaker is not None:
+                    transcriptions.append("\n\n")  # Add line break for new speaker
+                current_speaker = speaker
+            transcriptions.append(f"Speaker {speaker}: {transcription}")
         full_transcription = " ".join(transcriptions)
         print(f"Full transcription length: {len(full_transcription)} characters")
         return full_transcription
     except Exception as e: