Spaces:

MicroHealth
/

AV-to-transcripts

Paused

bluenevus commited on Apr 22, 2025

Commit

b0c825b

verified ·

1 Parent(s): 1b493d6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -70,22 +70,27 @@ def format_transcript(transcript):
 def transcribe_audio(audio_file):
     try:
-        # Load and resample the audio to 16000 Hz
-        audio_input, _ = librosa.load(audio_file, sr=16000)
         # Convert to float32 numpy array
         audio_input = audio_input.astype(np.float32)
-        # Prepare the input features
-        input_features = processor(audio_input, sampling_rate=16000, return_tensors="pt").input_features.to(device)
-        # Generate token ids
-        predicted_ids = model.generate(input_features)
-        # Decode token ids to text
-        transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
-        return transcription[0]
     except Exception as e:
         print(f"Error in transcribe_audio: {str(e)}")
         raise
@@ -118,8 +123,6 @@ def transcribe_video(url):
         return transcript
     except Exception as e:
         error_message = f"An error occurred: {str(e)}"
-        print(error_message)
-        return error_message
 def download_transcript(transcript):
     with tempfile.NamedTemporaryFile(mode='w', delete=False, suffix='.txt') as temp_file:

 def transcribe_audio(audio_file):
     try:
+        # Load the entire audio file
+        audio_input, sr = librosa.load(audio_file, sr=16000)
         # Convert to float32 numpy array
         audio_input = audio_input.astype(np.float32)
+        # Process in chunks of 30 seconds
+        chunk_length = 30 * sr
+        transcriptions = []
+        for i in range(0, len(audio_input), chunk_length):
+            chunk = audio_input[i:i+chunk_length]
+            input_features = processor(chunk, sampling_rate=16000, return_tensors="pt").input_features.to(device)
+            predicted_ids = model.generate(input_features)
+            transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+            transcriptions.extend(transcription)
+        # Join all transcriptions
+        full_transcription = " ".join(transcriptions)
+        return full_transcription
     except Exception as e:
         print(f"Error in transcribe_audio: {str(e)}")
         raise
         return transcript
     except Exception as e:
         error_message = f"An error occurred: {str(e)}"
 def download_transcript(transcript):
     with tempfile.NamedTemporaryFile(mode='w', delete=False, suffix='.txt') as temp_file: