Spaces:

MicroHealth
/

AV-to-transcripts

Paused

App Files Files Community

bluenevus commited on Apr 22, 2025

Commit

f1f904a

verified ·

1 Parent(s): 28b8cb5

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -19

app.py CHANGED Viewed

@@ -79,36 +79,39 @@ def format_transcript(transcript):
 def transcribe_audio(audio_file):
     try:
-        # Perform speaker diarization
-        diarization = pipeline(audio_file)
-        # Load the audio file
         audio_input, sr = librosa.load(audio_file, sr=16000)
         # Convert to float32 numpy array
         audio_input = audio_input.astype(np.float32)
         transcriptions = []
-        current_speaker = None
-        for turn, _, speaker in diarization.itertracks(yield_label=True):
-            start_sample = int(turn.start * sr)
-            end_sample = int(turn.end * sr)
-            chunk = audio_input[start_sample:end_sample]
             input_features = processor(chunk, sampling_rate=16000, return_tensors="pt").input_features.to(device)
             predicted_ids = model.generate(input_features)
-            transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
-            if speaker != current_speaker:
-                if current_speaker is not None:
-                    transcriptions.append("\n\n")  # Add line break for new speaker
-                current_speaker = speaker
-            transcriptions.append(f"Speaker {speaker}: {transcription}")
         full_transcription = " ".join(transcriptions)
-        print(f"Full transcription length: {len(full_transcription)} characters")
         return full_transcription
     except Exception as e:
         print(f"Error in transcribe_audio: {str(e)}")

 def transcribe_audio(audio_file):
     try:
+        # Load the entire audio file
+        print("Loading audio file...")
         audio_input, sr = librosa.load(audio_file, sr=16000)
         # Convert to float32 numpy array
         audio_input = audio_input.astype(np.float32)
+        print(f"Audio duration: {len(audio_input) / sr:.2f} seconds")
+        # Process in chunks of 30 seconds with overlap
+        chunk_length = 30 * sr
+        overlap = 5 * sr  # 5 seconds overlap
         transcriptions = []
+        print("Starting transcription...")
+        for i in range(0, len(audio_input), chunk_length - overlap):
+            chunk = audio_input[i:i+chunk_length]
             input_features = processor(chunk, sampling_rate=16000, return_tensors="pt").input_features.to(device)
             predicted_ids = model.generate(input_features)
+            transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+            transcriptions.extend(transcription)
+            print(f"Processed {i / sr:.2f} to {(i + chunk_length) / sr:.2f} seconds")
+        # Join all transcriptions
         full_transcription = " ".join(transcriptions)
+        print(f"Transcription complete. Full transcription length: {len(full_transcription)} characters")
+        # Apply spelling correction and formatting
+        print("Applying spelling correction and formatting...")
+        full_transcription = correct_spelling(full_transcription)
+        full_transcription = format_transcript(full_transcription)
         return full_transcription
     except Exception as e:
         print(f"Error in transcribe_audio: {str(e)}")