Spaces:

MusIre
/

practiceAI

Sleeping

MusIre commited on Nov 27, 2023

Commit

638cf1e

1 Parent(s): d2a0f58

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,38 +16,15 @@ forced_decoder_ids = processor.get_decoder_prompt_ids(language="italian", task="
 # Custom preprocessing function
 def preprocess_audio(audio_data, sampling_rate=16_000):
-    print(type(audio_data))
-    print(audio_data)
-    raw_speech = np.asarray(audio_data, dtype=np.float32)
-    # Pad or truncate the audio data to the required length
-    if len(raw_speech) > processor.feature_extractor.max_len:
-        raw_speech = raw_speech[:processor.feature_extractor.max_len]
-    else:
-        raw_speech = np.pad(raw_speech, (0, processor.feature_extractor.max_len - len(raw_speech)))
-    # Process the audio data using the Whisper processor
-    processed_data = processor(
-        raw_speech,
-        sampling_rate=sampling_rate,
-        return_tensors="pt",
-        padding=True,
-        truncation=True
-    )
-    return processed_data.input_features
 # Function to perform ASR on audio data
 def transcribe_audio(audio_data):
-    # Preprocess the audio data
     input_features = preprocess_audio(audio_data)
-    # Generate token ids
-    predicted_ids = model.generate(input_features)
-    # Decode token ids to text
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
     return transcription[0]
 # Create Gradio interface

 # Custom preprocessing function
 def preprocess_audio(audio_data, sampling_rate=16_000):
+    sample_rate, raw_audio = audio_data
+    raw_speech = np.asarray(raw_audio, dtype=np.float32)
+    return {"input_values": raw_speech, "sampling_rate": sample_rate}
 # Function to perform ASR on audio data
 def transcribe_audio(audio_data):
     input_features = preprocess_audio(audio_data)
+    predicted_ids = model.generate(input_features["input_values"])
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
     return transcription[0]
 # Create Gradio interface