Spaces:

KuyaToto
/

wav2vec-speech-api

Sleeping

KuyaToto commited on Jul 22, 2025

Commit

7658fb6

verified ·

1 Parent(s): 83e3242

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,14 +13,24 @@ model = Wav2Vec2ForCTC.from_pretrained(model_id)
 def transcribe(audio_data):
     if audio_data is None:
         return "⚠️ No audio received."
-    audio, sample_rate = audio_data  # ✅ Unpack the tuple
-    # Resample if needed
     if sample_rate != 16000:
         number_of_samples = round(len(audio) * 16000 / sample_rate)
         audio = resample(audio, number_of_samples)
     # Process and predict
     input_values = processor(audio, sampling_rate=16000, return_tensors="pt").input_values
     with torch.no_grad():

 def transcribe(audio_data):
     if audio_data is None:
         return "⚠️ No audio received."
+    audio, sample_rate = audio_data
+    # Convert stereo to mono if needed
+    if len(audio.shape) == 2:
+        audio = np.mean(audio, axis=1)
+    # Ensure sample_rate is an integer
+    sample_rate = int(sample_rate)
+    # Resample to 16000 Hz if needed
     if sample_rate != 16000:
         number_of_samples = round(len(audio) * 16000 / sample_rate)
         audio = resample(audio, number_of_samples)
+    # Normalize audio
+    audio = audio.astype(np.float32)
     # Process and predict
     input_values = processor(audio, sampling_rate=16000, return_tensors="pt").input_values
     with torch.no_grad():