Spaces:

Abbas133
/

Englishia

Sleeping

Abbas133 commited on Jan 7, 2025

Commit

354513a

verified ·

1 Parent(s): 831fa7f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -17,10 +17,16 @@ def speech_to_text(audio):
         return "No audio provided."
     # Load the audio file
-    input_audio, sample_rate = torchaudio.load(audio)
     # Process the audio for ASR
-    input_audio = asr_processor(input_audio, sampling_rate=sample_rate, return_tensors="pt", padding=True)
     logits = asr_model(input_audio.input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = asr_processor.decode(predicted_ids[0])

         return "No audio provided."
     # Load the audio file
+    input_audio, original_sample_rate = torchaudio.load(audio)
+    # Resample the audio to 16,000 Hz if necessary
+    target_sample_rate = 16000
+    if original_sample_rate != target_sample_rate:
+        resampler = torchaudio.transforms.Resample(orig_freq=original_sample_rate, new_freq=target_sample_rate)
+        input_audio = resampler(input_audio)
     # Process the audio for ASR
+    input_audio = asr_processor(input_audio, sampling_rate=target_sample_rate, return_tensors="pt", padding=True)
     logits = asr_model(input_audio.input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
     transcription = asr_processor.decode(predicted_ids[0])