freesound-popularity-interfaceTestMetadata

Sleeping

App Files Files Community

NIIHAAD commited on about 1 month ago

Commit

46adbb9

1 Parent(s): 5dad011

update app.py

Browse files

Files changed (3) hide show

app.py +38 -14
effectSound/ffect_onehot_tags.joblib +3 -0
music/music_onehot_tags.joblib +3 -0

app.py CHANGED Viewed

@@ -43,6 +43,9 @@ est_num_downloads_music = joblib.load("music/est_num_downloads_music.joblib")
 avg_rating_transformer_music = joblib.load("music/avg_rating_transformer_music.joblib")
 music_subcategory_cols = joblib.load("music/music_subcategory_cols.joblib")
 music_onehot_cols = joblib.load("music/music_onehot_cols.joblib")
 # EffectSound
 scaler_samplerate_effect = joblib.load("effectSound/scaler_effectSamplerate.joblib")
@@ -52,6 +55,7 @@ est_num_downloads_effect = joblib.load("effectSound/est_num_downloads_effectSoun
 avg_rating_transformer_effect = joblib.load("effectSound/avg_rating_transformer_effectSound.joblib")
 effect_subcategory_cols = joblib.load("effectSound/effectSound_subcategory_cols.joblib")
 effect_onehot_cols = joblib.load("effectSound/effectSound_onehot_cols.joblib")
 # GloVe pour description
 glove_model = api.load("glove-wiki-gigaword-100")
@@ -117,6 +121,7 @@ def preprocess_sound(df):
         avg_rating_transformer = avg_rating_transformer_effect
         subcat_cols = effect_subcategory_cols
         onehot_cols = effect_onehot_cols
     elif 10 <= dur <= 60:
         dataset_type = "music"
         scaler_samplerate = scaler_samplerate_music
@@ -126,6 +131,7 @@ def preprocess_sound(df):
         avg_rating_transformer = avg_rating_transformer_music
         subcat_cols = music_subcategory_cols
         onehot_cols = music_onehot_cols
     else:
         return f"❌ Son trop court ou trop long ({dur} sec)"
@@ -157,36 +163,54 @@ def preprocess_sound(df):
     # Subcategory
     for col in subcat_cols:
-        df[col] = 0  # pour gradio, on va juste créer les colonnes
-    # One-hot
     for col in onehot_cols:
-        df[col] = 0
     # Tags
     # Tags
     df["tags_list"] = df["tags"].fillna("").astype(str).str.lower().str.split(",")
-    # One-Hot Encoding tags à la volée
-    all_tags = [t.strip() for sub in df["tags_list"] for t in sub if t.strip() != ""]
-    frequent_tags = set(all_tags)  # simplifié, car threshold appliqué dans Colab déjà
-    for tag in frequent_tags:
-        df[f"tag_{tag.replace(' ','_')}"] = 1
-    df.drop(columns=["tags","tags_list"], inplace=True)
     # Name
-    df["name_clean"] = df["name"].astype(str).str.lower().str.rsplit(pat=".", n=1).str[0]
     vectorizer = HashingVectorizer(n_features=8, alternate_sign=False, norm=None)
     name_vec = vectorizer.transform(df["name_clean"])
     for i in range(8):
         df[f"name_vec_{i}"] = name_vec.toarray()[0][i]
     df.drop(columns=["name","name_clean"], inplace=True)
     # Description
     desc_vec = description_to_vec(df["description"].iloc[0], glove_model)
     for i in range(100):
         df[f"description_glove_{i}"] = desc_vec[i]
     df.drop(columns=["description"], inplace=True)
     return df
@@ -202,9 +226,9 @@ def predict_with_metadata(url):
     # 2️⃣ Vérifier la durée
     dur = df_raw["duration"].iloc[0]
     if dur < 0.5:
-        return raw_str + f"\n\n❌ Son trop court ({dur} sec , veuillez entrer un son qui est court (0.5 à 3 s) ou  un son long (10 à 60s)"
     elif 3 < dur < 10 or dur > 60:
-        return raw_str + f"\n\n❌ Son trop long ou hors plage acceptable ({dur} sec , , veuillez entrer un son qui est court (0.5 à 3 s) ou  un son long (10 à 60s))"
     # 3️⃣ Prétraitement seulement si durée ok
     df_processed = preprocess_sound(df_raw)

 avg_rating_transformer_music = joblib.load("music/avg_rating_transformer_music.joblib")
 music_subcategory_cols = joblib.load("music/music_subcategory_cols.joblib")
 music_onehot_cols = joblib.load("music/music_onehot_cols.joblib")
+music_onehot_tags = joblib.load("music_onehot_tags.joblib")
 # EffectSound
 scaler_samplerate_effect = joblib.load("effectSound/scaler_effectSamplerate.joblib")
 avg_rating_transformer_effect = joblib.load("effectSound/avg_rating_transformer_effectSound.joblib")
 effect_subcategory_cols = joblib.load("effectSound/effectSound_subcategory_cols.joblib")
 effect_onehot_cols = joblib.load("effectSound/effectSound_onehot_cols.joblib")
+effect_onehot_tags = joblib.load("effect_onehot_tags.joblib")
 # GloVe pour description
 glove_model = api.load("glove-wiki-gigaword-100")
         avg_rating_transformer = avg_rating_transformer_effect
         subcat_cols = effect_subcategory_cols
         onehot_cols = effect_onehot_cols
+        onehot_tags = effect_onehot_tags
     elif 10 <= dur <= 60:
         dataset_type = "music"
         scaler_samplerate = scaler_samplerate_music
         avg_rating_transformer = avg_rating_transformer_music
         subcat_cols = music_subcategory_cols
         onehot_cols = music_onehot_cols
+        onehot_tags = music_onehot_tags
     else:
         return f"❌ Son trop court ou trop long ({dur} sec)"
     # Subcategory
     for col in subcat_cols:
+        df[col] = 0  # toutes les colonnes initialisées à 0
+    # activer 1 pour la bonne subcategory
+    subcat_val = df["subcategory"].iloc[0]
+    for col in subcat_cols:
+        cat_name = col.replace("subcategory_", "")
+        if subcat_val == cat_name:
+            df[col] = 1
+    df.drop(columns=["subcategory"], inplace=True)
+        # One-hot
     for col in onehot_cols:
+        df[col] = 0  # initialiser à 0
+    # Activer la colonne correspondante pour license, category, type si existante
+    for col in onehot_cols:
+        val = df[col].iloc[0]
+        # Si la colonne 'val' existe parmi les colonnes du modèle
+        model_col = f"{col}_{val}"
+        if model_col in df.columns:
+            df[model_col] = 1
+    df.drop(columns=onehot_cols, inplace=True)
+    # Tags
     # Tags
     # Tags
     df["tags_list"] = df["tags"].fillna("").astype(str).str.lower().str.split(",")
+    for col in onehot_tags:
+            tag_name = col.replace("tag_", "").replace("_", " ")
+            df[col] = int(tag_name in df["tags_list"].iloc[0])
+    df.drop(columns=["tags_list","tags"], inplace=True)
     # Name
+    df["name_clean"] = df["name"].astype(str).str.lower().str.rsplit(".", n=1).str[0]
     vectorizer = HashingVectorizer(n_features=8, alternate_sign=False, norm=None)
     name_vec = vectorizer.transform(df["name_clean"])
     for i in range(8):
         df[f"name_vec_{i}"] = name_vec.toarray()[0][i]
     df.drop(columns=["name","name_clean"], inplace=True)
     # Description
     desc_vec = description_to_vec(df["description"].iloc[0], glove_model)
     for i in range(100):
         df[f"description_glove_{i}"] = desc_vec[i]
     df.drop(columns=["description"], inplace=True)
     return df
     # 2️⃣ Vérifier la durée
     dur = df_raw["duration"].iloc[0]
     if dur < 0.5:
+        return raw_str + f"\n\n❌ Son trop court ({dur} sec), veuillez entrer un son qui est court (0.5 à 3 s) ou  un son long (10 à 60s)"
     elif 3 < dur < 10 or dur > 60:
+        return raw_str + f"\n\n❌ Son trop long ou hors plage acceptable ({dur} sec) , veuillez entrer un son qui est court (0.5 à 3 s) ou  un son long (10 à 60s))"
     # 3️⃣ Prétraitement seulement si durée ok
     df_processed = preprocess_sound(df_raw)

effectSound/ffect_onehot_tags.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9504d82fd7b4691fdc61b00f2e8ae15e28665fce17c60cf44655ccd60cf09f36
+size 69808

music/music_onehot_tags.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8d510dc14604d2d69333e144cc3212ecb3b446d5192f15940347d65610e6eb1
+size 36877