Spaces:

SwitchAlpha
/

baby

Runtime error

App Files Files Community

SwitchAlpha commited on Aug 28, 2025

Commit

e4c7073

verified ·

1 Parent(s): 4839cef

Update app.py

Browse files

Files changed (1) hide show

app.py +82 -32

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import librosa
 import traceback
 import os
-# ==== Feature params (adjust to match training if you know them) ====
 SR = 16000
 N_FFT = 1024
 HOP_LENGTH = 256
@@ -15,58 +15,110 @@ N_BANDS = 6
 FMIN = 20.0
 WINDOW = "hann"
 N_MFCC = 40
-# ====================================================================
-# Lazy-load so startup doesn't crash if files are missing
 _model = None
 _label = None
 _model_err = None
 def load_artifacts():
     global _model, _label, _model_err
     if _model is not None:
         return
     try:
-        assert os.path.exists("model.joblib"), "model.joblib not found in working dir"
-        assert os.path.exists("label.joblib"), "label.joblib not found in working dir"
         _model = joblib.load("model.joblib")
         _label = joblib.load("label.joblib")
     except Exception as e:
         _model_err = f"Model load failed: {e}\n{traceback.format_exc()}"
 def extract_features_from_array(y, sr):
-    # mono + resample
     y = np.asarray(y, dtype=np.float32)
     if y.ndim > 1:
         y = np.mean(y, axis=1)
     if sr != SR:
         y = librosa.resample(y=y, orig_sr=sr, target_sr=SR)
         sr = SR
-    # pad to at least 1s
     if len(y) < SR:
         y = np.pad(y, (0, SR - len(y)))
-    # features
-    mfcc = np.mean(librosa.feature.mfcc(y=y, sr=sr, n_mfcc=N_MFCC,
-                                        n_fft=N_FFT, hop_length=HOP_LENGTH,
-                                        win_length=WIN_LENGTH, window=WINDOW).T, axis=0)
-    mel = np.mean(librosa.feature.melspectrogram(y=y, sr=sr, n_fft=N_FFT,
-                                                 hop_length=HOP_LENGTH, win_length=WIN_LENGTH,
-                                                 n_mels=N_MELS).T, axis=0)
-    stft = np.abs(librosa.stft(y, n_fft=N_FFT, hop_length=HOP_LENGTH,
-                               win_length=WIN_LENGTH, window=WINDOW))
-    chroma = np.mean(librosa.feature.chroma_stft(S=stft, sr=sr).T, axis=0)
-    contrast = np.mean(librosa.feature.spectral_contrast(S=stft, sr=sr,
-                                                         n_fft=N_FFT, hop_length=HOP_LENGTH,
-                                                         win_length=WIN_LENGTH,
-                                                         n_bands=N_BANDS, fmin=FMIN).T, axis=0)
-    tonnetz = np.mean(librosa.feature.tonnetz(y=librosa.effects.harmonic(y), sr=sr).T, axis=0)
-    feats = np.concatenate([mfcc, chroma, mel, contrast, tonnetz]).astype(np.float32)
     return feats
 def predict_from_audio(audio):
     """
-    We set inputs=gr.Audio(type="numpy"), which gives a tuple: (sr, array)
-    If you prefer filepath, switch inputs to gr.Audio(type="filepath") and keep only the filepath branch.
     """
     try:
         load_artifacts()
@@ -76,7 +128,7 @@ def predict_from_audio(audio):
         if audio is None:
             return "Lütfen bir ses dosyası yükleyin veya kaydedin."
-        # Handle different gradio formats robustly
         if isinstance(audio, dict) and "sampling_rate" in audio and "array" in audio:
             sr = int(audio["sampling_rate"])
             y = np.array(audio["array"], dtype=np.float32)
@@ -85,29 +137,27 @@ def predict_from_audio(audio):
             sr = int(sr)
             y = np.array(y, dtype=np.float32)
         elif isinstance(audio, str):
-            # if you changed inputs to type="filepath"
             y, sr = librosa.load(audio, sr=SR)
         else:
             return "Beklenmedik ses girdisi formatı."
         feats = extract_features_from_array(y, sr)
-        X = feats.reshape(1, -1)
         pred = _model.predict(X)
-        # Make sure label is a Python string (not numpy type)
         label = _label.inverse_transform(pred)[0]
         return f"Tahmin: {str(label)}"
     except Exception as e:
-        # Show full traceback in the textbox so we see the real error instead of generic “output error”
         tb = traceback.format_exc()
         return f"❌ Hata oluştu:\n{e}\n\nTraceback:\n{tb}"
 TITLE = "Baby Cry Classification (foduucom)"
-DESC = "Bir bebek ağlaması sesini yükleyin veya kaydedin; model sınıf tahmini yapsın."
 demo = gr.Interface(
     fn=predict_from_audio,
-    inputs=gr.Audio(sources=["upload", "microphone"], type="numpy"),  # or "filepath"
     outputs=gr.Textbox(lines=6),
     title=TITLE,
     description=DESC,

 import traceback
 import os
+# ==== Özellik/işleme parametreleri (eğitimdekilerle eşleştirmen önerilir) ====
 SR = 16000
 N_FFT = 1024
 HOP_LENGTH = 256
 FMIN = 20.0
 WINDOW = "hann"
 N_MFCC = 40
+# ============================================================================
 _model = None
 _label = None
 _model_err = None
 def load_artifacts():
+    """model.joblib ve label.joblib dosyalarını geç yükle (lazy load)."""
     global _model, _label, _model_err
     if _model is not None:
         return
     try:
+        if not os.path.exists("model.joblib"):
+            raise FileNotFoundError("model.joblib not found in working dir")
+        if not os.path.exists("label.joblib"):
+            raise FileNotFoundError("label.joblib not found in working dir")
         _model = joblib.load("model.joblib")
         _label = joblib.load("label.joblib")
     except Exception as e:
         _model_err = f"Model load failed: {e}\n{traceback.format_exc()}"
+def _mean_std(feat_2d):
+    # (time, dim) dizisinden mean ve std çıkar
+    m = np.mean(feat_2d, axis=0)
+    s = np.std(feat_2d, axis=0)
+    return m, s
 def extract_features_from_array(y, sr):
+    """
+    194 boyutlu özellik vektörü üret:
+    MFCC mean+std = 40*2=80
+    Chroma mean+std = 12*2=24
+    Mel mean = 64
+    Spectral contrast mean+std = 7*2=14
+    Tonnetz mean+std = 6*2=12
+    Toplam = 194
+    """
     y = np.asarray(y, dtype=np.float32)
+    # mono + yeniden örnekleme
     if y.ndim > 1:
         y = np.mean(y, axis=1)
     if sr != SR:
         y = librosa.resample(y=y, orig_sr=sr, target_sr=SR)
         sr = SR
+    # çok kısa kayıtları pad et (>=1 sn)
     if len(y) < SR:
         y = np.pad(y, (0, SR - len(y)))
+    # MFCC (mean + std) → 80
+    mfcc = librosa.feature.mfcc(
+        y=y, sr=sr, n_mfcc=N_MFCC,
+        n_fft=N_FFT, hop_length=HOP_LENGTH,
+        win_length=WIN_LENGTH, window=WINDOW
+    ).T
+    mfcc_mean, mfcc_std = _mean_std(mfcc)
+    # Mel-spectrogram (sadece mean) → 64
+    mel = librosa.feature.melspectrogram(
+        y=y, sr=sr, n_fft=N_FFT,
+        hop_length=HOP_LENGTH, win_length=WIN_LENGTH,
+        n_mels=N_MELS
+    ).T
+    mel_mean = np.mean(mel, axis=0)
+    # STFT
+    S = np.abs(librosa.stft(
+        y, n_fft=N_FFT, hop_length=HOP_LENGTH,
+        win_length=WIN_LENGTH, window=WINDOW
+    ))
+    # Chroma (mean + std) → 24
+    chroma = librosa.feature.chroma_stft(S=S, sr=sr).T
+    chroma_mean, chroma_std = _mean_std(chroma)
+    # Spectral Contrast (mean + std) → 14
+    contrast = librosa.feature.spectral_contrast(
+        S=S, sr=sr, n_fft=N_FFT, hop_length=HOP_LENGTH,
+        win_length=WIN_LENGTH, n_bands=N_BANDS, fmin=FMIN
+    ).T
+    contrast_mean, contrast_std = _mean_std(contrast)
+    # Tonnetz (mean + std) → 12
+    y_harm = librosa.effects.harmonic(y)
+    tonnetz = librosa.feature.tonnetz(y=y_harm, sr=sr).T
+    tonnetz_mean, tonnetz_std = _mean_std(tonnetz)
+    feats = np.concatenate([
+        mfcc_mean, mfcc_std,         # 80
+        chroma_mean, chroma_std,     # 24
+        mel_mean,                    # 64
+        contrast_mean, contrast_std, # 14
+        tonnetz_mean, tonnetz_std    # 12
+    ]).astype(np.float32)
+    # Güvenlik kontrolü
+    # print("feature_dim:", feats.shape[0])  # 194 olmalı
     return feats
 def predict_from_audio(audio):
     """
+    inputs=gr.Audio(type="numpy") → (sr, array)
+    Dilersen type="filepath" yapıp aşağıdaki string yol dalını kullanabilirsin.
     """
     try:
         load_artifacts()
         if audio is None:
             return "Lütfen bir ses dosyası yükleyin veya kaydedin."
+        # Gradio girdi varyantlarını karşıla
         if isinstance(audio, dict) and "sampling_rate" in audio and "array" in audio:
             sr = int(audio["sampling_rate"])
             y = np.array(audio["array"], dtype=np.float32)
             sr = int(sr)
             y = np.array(y, dtype=np.float32)
         elif isinstance(audio, str):
+            # inputs=gr.Audio(type="filepath") kullanırsan burası çalışır
             y, sr = librosa.load(audio, sr=SR)
         else:
             return "Beklenmedik ses girdisi formatı."
         feats = extract_features_from_array(y, sr)
+        X = feats.reshape(1, -1)  # (1, 194)
         pred = _model.predict(X)
         label = _label.inverse_transform(pred)[0]
         return f"Tahmin: {str(label)}"
     except Exception as e:
         tb = traceback.format_exc()
         return f"❌ Hata oluştu:\n{e}\n\nTraceback:\n{tb}"
 TITLE = "Baby Cry Classification (foduucom)"
+DESC = "Bebek ağlaması sesini yükleyin veya mikrofondan kaydedin; model sınıf tahmini yapsın."
 demo = gr.Interface(
     fn=predict_from_audio,
+    inputs=gr.Audio(sources=["upload", "microphone"], type="numpy"),
     outputs=gr.Textbox(lines=6),
     title=TITLE,
     description=DESC,