Spaces:

seayala
/

Simple-Audio-Classification-Keras

Sleeping

seayala commited on Apr 27, 2025

Commit

729b487

verified ·

1 Parent(s): 8d5fb9b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,31 +9,38 @@ labels = ['down', 'go', 'left', 'no', 'off', 'on', 'right', 'stop', 'up', 'yes']
 def extract_features(file_name):
     try:
-        # Carga el audio sin cambiar el sample rate
-        audio, sample_rate = librosa.load(file_name, sr=None)
-        # Saca el espectrograma de magnitud
-        spectrogram = np.abs(librosa.stft(audio, n_fft=512, hop_length=256))
-        # Convierte a escala logarítmica (como normalmente esperan los modelos de audio)
-        log_spectrogram = librosa.amplitude_to_db(spectrogram)
         # Ajusta tamaño exacto
-        log_spectrogram = librosa.util.fix_length(log_spectrogram, size=257, axis=0)
-        log_spectrogram = librosa.util.fix_length(log_spectrogram, size=97, axis=1)
         # Normaliza
-        log_spectrogram = (log_spectrogram - np.mean(log_spectrogram)) / np.std(log_spectrogram)
-        # Añade canal para la red convolucional
-        log_spectrogram = log_spectrogram[..., np.newaxis]
     except Exception as e:
         print(f"Error encountered while parsing file: {file_name}")
         print(e)
         return None
-    return log_spectrogram
 def classify_audio(audio_file):
     print(f"Tipo de audio_file: {type(audio_file)}")

 def extract_features(file_name):
     try:
+        # Resamplea a 16kHz
+        audio, sample_rate = librosa.load(file_name, sr=16000)
+        # Saca Mel-spectrograma
+        mel_spectrogram = librosa.feature.melspectrogram(
+            y=audio,
+            sr=sample_rate,
+            n_mels=257,
+            n_fft=512,
+            hop_length=256
+        )
+        # Convierte a escala logarítmica
+        log_mel_spectrogram = librosa.power_to_db(mel_spectrogram, ref=np.max)
         # Ajusta tamaño exacto
+        log_mel_spectrogram = librosa.util.fix_length(log_mel_spectrogram, size=257, axis=0)
+        log_mel_spectrogram = librosa.util.fix_length(log_mel_spectrogram, size=97, axis=1)
         # Normaliza
+        log_mel_spectrogram = (log_mel_spectrogram - np.mean(log_mel_spectrogram)) / np.std(log_mel_spectrogram)
+        # Añade canal
+        log_mel_spectrogram = log_mel_spectrogram[..., np.newaxis]
     except Exception as e:
         print(f"Error encountered while parsing file: {file_name}")
         print(e)
         return None
+    return log_mel_spectrogram
 def classify_audio(audio_file):
     print(f"Tipo de audio_file: {type(audio_file)}")