Spaces:

MicroHealth
/

AV-to-transcripts

Paused

bluenevus commited on Apr 22, 2025

Commit

3bed379

verified ·

1 Parent(s): 71090a5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,6 +9,7 @@ import io
 import os
 from bs4 import BeautifulSoup
 import re
 # Load the transcription model
 transcription_pipeline = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-base-960h")
@@ -36,8 +37,11 @@ def transcribe_audio(audio_bytes):
     waveform, sample_rate = torchaudio.load("temp_audio.wav")
     os.remove("temp_audio.wav")
     # Transcribe the audio
-    result = transcription_pipeline(waveform, chunk_length_s=30)
     transcript = result['text']
     # Split transcript into paragraphs based on silence
@@ -47,10 +51,13 @@ def transcribe_audio(audio_bytes):
     for chunk in chunks:
         chunk.export("temp_chunk.wav", format="wav")
-        waveform, sample_rate = torchaudio.load("temp_chunk.wav")
         os.remove("temp_chunk.wav")
-        chunk_result = transcription_pipeline(waveform, chunk_length_s=30)
         chunk_transcript = chunk_result['text']
         if chunk_transcript:

 import os
 from bs4 import BeautifulSoup
 import re
+import numpy as np
 # Load the transcription model
 transcription_pipeline = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-base-960h")
     waveform, sample_rate = torchaudio.load("temp_audio.wav")
     os.remove("temp_audio.wav")
+    # Convert torch.Tensor to numpy.ndarray
+    waveform_np = waveform.numpy().squeeze()
     # Transcribe the audio
+    result = transcription_pipeline(waveform_np, chunk_length_s=30)
     transcript = result['text']
     # Split transcript into paragraphs based on silence
     for chunk in chunks:
         chunk.export("temp_chunk.wav", format="wav")
+        waveform_chunk, sample_rate_chunk = torchaudio.load("temp_chunk.wav")
         os.remove("temp_chunk.wav")
+        # Convert torch.Tensor to numpy.ndarray
+        waveform_chunk_np = waveform_chunk.numpy().squeeze()
+        chunk_result = transcription_pipeline(waveform_chunk_np, chunk_length_s=30)
         chunk_transcript = chunk_result['text']
         if chunk_transcript: