Spaces:

MicroHealth
/

AV-to-transcripts

Paused

App Files Files Community

bluenevus commited on Apr 22, 2025

Commit

e53f221

verified ·

1 Parent(s): 19689fb

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -39

app.py CHANGED Viewed

@@ -81,47 +81,21 @@ def format_transcript_with_speakers(transcript, diarization):
     return "".join(formatted_transcript)
 def transcribe_audio(audio_file):
-    try:
-        print("Loading audio file...")
-        audio_input, sr = librosa.load(audio_file, sr=16000)
-        audio_input = audio_input.astype(np.float32)
-        print(f"Audio duration: {len(audio_input) / sr:.2f} seconds")
-        # Apply speaker diarization
-        if pipeline:
-            print("Applying speaker diarization...")
-            diarization = pipeline(audio_file)
-            print("Speaker diarization complete.")
-        else:
-            diarization = None
-        chunk_length = 30 * sr
-        overlap = 5 * sr
-        transcriptions = []
-        print("Starting transcription...")
-        for i in range(0, len(audio_input), chunk_length - overlap):
-            chunk = audio_input[i:i+chunk_length]
-            input_features = processor(chunk, sampling_rate=16000, return_tensors="pt").input_features.to(device)
-            predicted_ids = model.generate(input_features)
-            transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
-            transcriptions.extend(transcription)
-            print(f"Processed {i / sr:.2f} to {(i + chunk_length) / sr:.2f} seconds")
-        full_transcription = " ".join(transcriptions)
-        print(f"Transcription complete. Full transcription length: {len(full_transcription)} characters")
-        if diarization:
-            print("Applying formatting with speaker diarization...")
-            formatted_transcription = format_transcript_with_speakers(full_transcription, diarization)
-        else:
-            print("Applying formatting without speaker diarization...")
-            formatted_transcription = format_transcript_with_breaks(full_transcription)
-        return formatted_transcription
-    except Exception as e:
-        print(f"Error in transcribe_audio: {str(e)}")
-        raise
 def format_transcript_with_breaks(transcript):
     sentences = re.split('(?<=[.!?]) +', transcript)

     return "".join(formatted_transcript)
 def transcribe_audio(audio_file):
+    # Perform diarization on the entire audio file
+    diarization = pipeline(audio_file)
+    # Load the audio
+    audio_input, sr = librosa.load(audio_file, sr=16000)
+    # Transcribe the entire audio (or use chunking with time tracking if necessary)
+    input_features = processor(audio_input, sampling_rate=16000, return_tensors="pt").input_features.to(device)
+    predicted_ids = model.generate(input_features)
+    full_transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
+    # Apply diarization to the full transcription
+    formatted_transcription = format_transcript_with_speakers(full_transcription, diarization)
+    return formatted_transcription
 def format_transcript_with_breaks(transcript):
     sentences = re.split('(?<=[.!?]) +', transcript)