Spaces:

MicroHealth
/

AV-to-transcripts

Paused

bluenevus commited on Apr 22, 2025

Commit

659b8b6

verified ·

1 Parent(s): 874fc37

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -68,9 +68,14 @@ def format_transcript(transcript):
 def transcribe_audio(audio_file):
     try:
-        # Load and preprocess the audio
-        audio_input, sample_rate = sf.read(audio_file)
-        input_features = processor(audio_input, sampling_rate=sample_rate, return_tensors="pt").input_features.to(device)
         # Generate token ids
         predicted_ids = model.generate(input_features)

 def transcribe_audio(audio_file):
     try:
+        # Load and resample the audio to 16000 Hz
+        audio_input, _ = librosa.load(audio_file, sr=16000)
+        # Convert to float32 numpy array
+        audio_input = audio_input.astype(np.float32)
+        # Prepare the input features
+        input_features = processor(audio_input, sampling_rate=16000, return_tensors="pt").input_features.to(device)
         # Generate token ids
         predicted_ids = model.generate(input_features)