Spaces:

Djibi972
/

son

Sleeping

App Files Files Community

Djibi972 commited on Sep 7, 2025

Commit

091748b

verified ·

1 Parent(s): e3e476b

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -14

app.py CHANGED Viewed

@@ -1,8 +1,15 @@
-import gradio as gr, numpy as np, librosa, soundfile as sf
 from perch_hoplite.zoo import model_configs
-# Charge Perch v2 (télécharge depuis Kaggle via hoplite)
-MODEL = model_configs.load_model_by_name("perch_V2")
 SR = 32000
 WIN = 5 * SR
@@ -11,6 +18,8 @@ def _prep(wav, sr):
         wav = np.mean(wav, axis=1)
     if sr != SR:
         wav = librosa.resample(wav.astype(np.float32), orig_sr=sr, target_sr=SR)
     if len(wav) < WIN:
         wav = np.pad(wav, (0, WIN - len(wav)))
     else:
@@ -19,33 +28,50 @@ def _prep(wav, sr):
 def infer(audio):
     if audio is None:
-        return {"error": "no audio"}
-    wav, sr = audio
     wav = _prep(wav, sr)
     out = MODEL.embed(wav)
     logits = out.logits["label"]
-    labels = out.label_names["label"] if hasattr(out, "label_names") else None
     idx = np.argsort(logits)[::-1][:3]
     topk = []
-    for i in idx:
-        name = labels[i] if labels is not None else f"class_{int(i)}"
-        prob = float(np.exp(logits[i]) / np.sum(np.exp(logits[idx])))
         topk.append({"label": name, "score": round(prob, 4)})
     return {
         "topk": topk,
         "embedding_dim": int(out.embeddings.shape[-1]),
-        "note": "scores non calibrés; régler un seuil selon votre usage"
     }
 demo = gr.Interface(
     fn=infer,
-    inputs=gr.Audio(type="numpy", sources=["microphone", "upload"]),
-    outputs=gr.JSON(label="Perch v2"),
-    title="Perch 2.0 — Bioacoustics",
     allow_flagging="never"
 )
-demo.queue(api_open=True).launch()

+import gradio as gr
+import numpy as np
+import librosa
+# Pas besoin d'importer soundfile si non utilisé directement
+# import soundfile as sf
 from perch_hoplite.zoo import model_configs
+# CORRECTION: Utilisation du nom de modèle valide "perch" au lieu de "perch_V2"
+# Le commentaire peut rester car il s'agit bien conceptuellement de la v2 du modèle.
+MODEL = model_configs.load_model_by_name("perch")
 SR = 32000
 WIN = 5 * SR
         wav = np.mean(wav, axis=1)
     if sr != SR:
         wav = librosa.resample(wav.astype(np.float32), orig_sr=sr, target_sr=SR)
+    # S'assurer que le tableau a la bonne longueur (padding ou troncature)
     if len(wav) < WIN:
         wav = np.pad(wav, (0, WIN - len(wav)))
     else:
 def infer(audio):
     if audio is None:
+        # Retourner un dictionnaire vide ou un message d'erreur clair pour l'interface JSON
+        return {"erreur": "Aucun fichier audio fourni."}
+    # Gradio fournit les données audio sous forme de tuple (fréquence d'échantillonnage, données numpy)
+    sr, wav = audio
     wav = _prep(wav, sr)
     out = MODEL.embed(wav)
+    # Assurez-vous que la clé 'label' existe dans les logits
+    if "label" not in out.logits:
+        return {"erreur": "La sortie du modèle ne contient pas de logits 'label'."}
     logits = out.logits["label"]
+    labels = out.label_names.get("label")
+    # Calcul des 3 meilleures prédictions
     idx = np.argsort(logits)[::-1][:3]
     topk = []
+    # Normalisation Softmax sur les logits des 3 meilleures classes pour obtenir un score relatif
+    top_logits = logits[idx]
+    exp_logits = np.exp(top_logits - np.max(top_logits)) # Stabilité numérique
+    sum_exp_logits = np.sum(exp_logits)
+    for i in range(len(idx)):
+        class_index = idx[i]
+        name = labels[class_index] if labels is not None and class_index < len(labels) else f"classe_{int(class_index)}"
+        prob = float(exp_logits[i] / sum_exp_logits)
         topk.append({"label": name, "score": round(prob, 4)})
     return {
         "topk": topk,
         "embedding_dim": int(out.embeddings.shape[-1]),
+        "note": "Les scores sont des probabilités relatives aux 3 meilleurs résultats, pas des scores absolus."
     }
 demo = gr.Interface(
     fn=infer,
+    inputs=gr.Audio(type="numpy", label="Audio (5 secondes max)"),
+    outputs=gr.JSON(label="Résultats de l'inférence"),
+    title="Perch 2.0 — Identification Bioacoustique",
+    description="Téléchargez un fichier audio ou utilisez votre microphone pour identifier les sons (oiseaux, etc.). Le modèle analyse les 5 premières secondes.",
     allow_flagging="never"
 )
+# api_open=True permet d'appeler l'interface comme une API
+demo.queue().launch(debug=True)