Spaces:
Sleeping
Sleeping
File size: 17,689 Bytes
1cc6897 556eaf0 1cc6897 8387489 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 25f5b6f 556eaf0 25f5b6f 556eaf0 1cc6897 556eaf0 1cc6897 3c31915 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 ae39dfb 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 ae39dfb 556eaf0 1cc6897 556eaf0 1cc6897 556eaf0 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 |
import streamlit as st
import seaborn as sns
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
from scipy.stats import spearmanr
import plotly.graph_objects as go
from xgboost import XGBRegressor
# Configuration globale
RANDOM_STATE = 42
st.set_page_config(page_title="Analyse d'imputation", layout="wide")
# CSS personnalisé pour un rendu plus professionnel
st.markdown("""
<style>
.main {
background-color: #f8f9fa;
}
.stTabs [data-baseweb="tab-list"] {
gap: 8px;
background-color: white;
padding: 10px;
border-radius: 8px;
box-shadow: 0 1px 3px rgba(0,0,0,0.1);
}
.stTabs [data-baseweb="tab"] {
background-color: #f8f9fa;
border-radius: 6px;
padding: 10px 20px;
font-weight: 500;
}
.stTabs [aria-selected="true"] {
background-color: #0066cc;
color: white;
}
div[data-testid="stExpander"] {
background-color: white;
border: 1px solid #e0e0e0;
border-radius: 8px;
margin-bottom: 12px;
box-shadow: 0 1px 2px rgba(0,0,0,0.05);
}
div[data-testid="stExpander"] summary {
font-weight: 600;
color: #1a1a1a;
padding: 12px;
}
.stButton>button {
border-radius: 6px;
font-weight: 600;
box-shadow: 0 2px 4px rgba(0,0,0,0.1);
}
h1 {
color: #1a1a1a;
font-weight: 700;
}
h2, h3 {
color: #333333;
font-weight: 600;
}
</style>
""", unsafe_allow_html=True)
st.title("🔍 Analyse de fiabilité de l'imputation")
# st.markdown(
# """
# Cette application évalue la capacité à imputer chaque variable d'un dataset en utilisant les autres variables.
# **Méthodologie :** Standardisation des données • Suppression des variables jumelles (corrélation Spearman) • Modélisation au choix • Évaluation de la qualité d'imputation (R²)
# """
# )
st.markdown(
"""
Cette application évalue la capacité à imputer chaque variable d'un dataset en utilisant les autres variables.
"""
)
# Sidebar: Configuration
with st.sidebar:
run_analysis = st.button("🚀 Lancer l'analyse", type="primary", use_container_width=True)
st.header("⚙️ Configuration")
# Source de données
data_source = st.radio(
"Source des données",
["Jeu de données Seaborn", "Importer un fichier"],
label_visibility="visible"
)
df = None
if data_source == "Importer un fichier":
uploaded_file = st.file_uploader("Importer un fichier CSV", type=["csv"])
if uploaded_file is not None:
dataset_name = uploaded_file.name
try:
df = pd.read_csv(uploaded_file, sep=None, engine='python')
df = df.select_dtypes(include=[np.number])
df = df.dropna()
if len(df) == 0:
st.error("❌ Aucune donnée numérique après nettoyage.")
df = None
#else:
# st.success(f"✅ Fichier chargé ! ({len(df)} lignes, {len(df.columns)} colonnes)")
except Exception as e:
st.error(f"Erreur : {e}")
df = None
else:
excluded_datasets = ['anagrams', 'anscombe', 'attention', 'brain_networks',
'car_crashes', 'dowjones', 'exercise', 'fmri','flights', 'geyser',
'planets', 'seaice']
available_datasets = [d for d in sorted(sns.get_dataset_names()) if d not in excluded_datasets]
default_dataset = "iris"
default_index = available_datasets.index(default_dataset) if default_dataset in available_datasets else 0
dataset_name = st.selectbox(
"Dataset d'exemple",
available_datasets,
index=default_index
)
try:
df = sns.load_dataset(dataset_name)
df = df.select_dtypes(include=[np.number])
df = df.dropna()
#st.success(f"✅ Jeu '{dataset_name}' chargé")
except Exception as e:
st.error(f"Erreur : {e}")
df = None
if df is not None and len(df.columns) > 1:
st.subheader("Paramètres")
# Expander Modélisation
with st.expander("▶ Modélisation", expanded=True):
algo = st.selectbox(
"Algorithme de régression",
["Régression Linéaire", "Random Forest", "SVR", "KNN", "XGBoost"],
help="Algorithme utilisé pour prédire chaque variable"
)
test_size = st.slider(
"Taille de l'ensemble test (%)",
min_value=10,
max_value=50,
value=30,
step=5,
help="Pourcentage des données pour le test"
)
# Expander Nettoyage & Filtres
with st.expander("▶ Réglages", expanded=False):
corr_threshold = st.slider(
"Seuil de corrélation (Spearman)",
min_value=0.5,
max_value=0.99,
value=0.92,
step=0.01,
help="Variables avec corrélation > seuil seront considérées comme jumelles"
)
outlier_threshold = st.slider(
"Seuil de suppression des outliers (écart-types)",
min_value=1.0,
max_value=6.0,
value=6.0,
step=0.5,
help="Supprime les valeurs à plus de X écart-types de la moyenne"
)
sample_size = st.slider(
"Échantillon du dataset (%)",
min_value=10,
max_value=100,
value=100,
step=10,
help="Pourcentage du dataset à utiliser pour l'analyse"
)
#st.divider()
#run_analysis = st.button("🚀 Lancer l'analyse", type="primary", use_container_width=True)
else:
if df is not None:
st.warning("⚠️ Le dataset doit contenir au moins 2 variables numériques.")
else:
st.info("👈 Veuillez sélectionner ou importer un jeu de données.")
# Fonctions utilitaires
def get_model(algo_name):
"""Retourne le modèle selon l'algorithme sélectionné"""
if algo_name == "Régression Linéaire":
return LinearRegression()
elif algo_name == "Random Forest":
return RandomForestRegressor(n_estimators=100, random_state=RANDOM_STATE, n_jobs=-1)
elif algo_name == "SVR":
return SVR(kernel='rbf')
elif algo_name == "XGBoost":
return XGBRegressor(n_estimators=100, random_state=RANDOM_STATE, n_jobs=-1, verbosity=0)
else: # KNN
return KNeighborsRegressor(n_neighbors=5)
def remove_outliers(df, threshold):
"""Supprime les outliers à plus de X écart-types"""
df_clean = df.copy()
for col in df_clean.columns:
mean = df_clean[col].mean()
std = df_clean[col].std()
df_clean = df_clean[np.abs(df_clean[col] - mean) <= threshold * std]
return df_clean
def remove_twin_variables(X, threshold):
"""Supprime les variables jumelles basé sur corrélation Spearman"""
corr_matrix = X.corr(method='spearman').abs()
upper_tri = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))
to_drop = set()
for column in upper_tri.columns:
correlated = upper_tri.index[upper_tri[column] > threshold].tolist()
if correlated:
to_drop.update(correlated)
return X.drop(columns=list(to_drop)), list(to_drop)
def backward_elimination(X, y, p_threshold=0.05):
"""Backward elimination basé sur les p-values"""
import statsmodels.api as sm
X_with_const = sm.add_constant(X)
selected_features = list(X.columns)
while len(selected_features) > 0:
model = sm.OLS(y, X_with_const[['const'] + selected_features]).fit()
p_values = model.pvalues[1:]
max_p_value = p_values.max()
if max_p_value > p_threshold:
exclude_feature = p_values.idxmax()
selected_features.remove(exclude_feature)
else:
break
return selected_features
def evaluate_imputation(df, target_col, corr_threshold, test_size, algo):
"""Évalue la faisabilité d'imputation pour une variable"""
X = df.drop(columns=[target_col])
y = df[target_col]
# Vérification minimale de données
if len(X) < 10 or len(X.columns) == 0:
return None, [], []
# Standardisation
scaler = StandardScaler()
X_scaled = pd.DataFrame(scaler.fit_transform(X), columns=X.columns, index=X.index)
# Suppression des jumelles
X_filtered, dropped_twins = remove_twin_variables(X_scaled, corr_threshold)
if len(X_filtered.columns) == 0:
return 0.0, [], dropped_twins
# Split train/test
try:
X_train, X_test, y_train, y_test = train_test_split(
X_filtered, y, test_size=test_size/100, random_state=RANDOM_STATE
)
except:
return None, [], dropped_twins
# Backward elimination (seulement pour régression linéaire avec seuil fixe de 0.05)
selected_features = list(X_train.columns)
if algo == "Régression Linéaire" and len(X_train.columns) > 1:
try:
selected_features = backward_elimination(X_train, y_train, p_threshold=0.05)
except:
pass
if len(selected_features) == 0:
return 0.0, [], dropped_twins
# Entraînement du modèle
model = get_model(algo)
X_train_selected = X_train[selected_features]
X_test_selected = X_test[selected_features]
try:
model.fit(X_train_selected, y_train)
y_pred = model.predict(X_test_selected)
r2 = r2_score(y_test, y_pred)
return max(0, r2), selected_features, dropped_twins
except:
return 0.0, selected_features, dropped_twins
# Interface principale
if df is not None and len(df.columns) > 1:
tab1, tab2, tab3, tab4, tab5 = st.tabs(["📊 Analyse", "📋 Détails par variable", "📈 Statistiques", "💾 Données brutes", "ℹ️ Information"])
with tab4:
st.dataframe(df.head(20), use_container_width=True)
with tab5:
st.header("À propos de l'analyse")
st.markdown(f"""
**Nom du dataset :** {dataset_name}
**Dataset :** {len(df)} lignes × {len(df.columns)} colonnes
**Interprétation du R² :**
- **R² > 0.7** : Imputation très fiable ✅
- **0.5 < R² < 0.7** : Imputation acceptable ⚠️
- **R² < 0.5** : Imputation difficile ❌
**Méthodologie :**
1. Chaque variable est tour à tour considérée comme cible
2. Les autres variables servent de prédicteurs
3. Suppression des variables jumelles (corrélation > {corr_threshold})
4. Évaluation avec {algo}
""")
with tab1:
if 'run_analysis' in locals() and run_analysis:
# Préparation du dataset avec outliers et échantillonnage
df_processed = df.copy()
# Suppression des outliers
if outlier_threshold < 6.0:
df_before = len(df_processed)
df_processed = remove_outliers(df_processed, outlier_threshold)
df_after = len(df_processed)
st.info(f"🧹 Outliers supprimés : {df_before - df_after} lignes ({(df_before - df_after)/df_before*100:.1f}%)")
# Échantillonnage
if sample_size < 100:
df_processed = df_processed.sample(frac=sample_size/100, random_state=RANDOM_STATE)
st.info(f"📊 Échantillon utilisé : {len(df_processed)} lignes ({sample_size}% du dataset)")
results = []
progress_bar = st.progress(0)
status_text = st.empty()
for idx, col in enumerate(df_processed.columns):
status_text.text(f"Analyse de '{col}' ({idx+1}/{len(df_processed.columns)})...")
r2, selected_vars, dropped_twins = evaluate_imputation(
df_processed, col, corr_threshold, test_size, algo
)
if r2 is not None:
results.append({
'Variable': col,
'R²': r2,
'Prédicteurs': len(selected_vars),
'Jumelles': len(dropped_twins),
'Statut': '✅ Excellent' if r2 > 0.7 else ('⚠️ Moyen' if r2 > 0.5 else '❌ Difficile')
})
progress_bar.progress((idx + 1) / len(df_processed.columns))
status_text.empty()
progress_bar.empty()
if results:
results_df = pd.DataFrame(results).sort_values('R²', ascending=False)
# Stocker dans session_state
st.session_state['results_df'] = results_df
# Graphique interactif
st.subheader("📈 Résultats de l'analyse")
fig = go.Figure()
colors = ['#28a745' if r >= 0.7 else '#ffc107' if r >= 0.5 else '#dc3545'
for r in results_df['R²']]
fig.add_trace(go.Bar(
x=results_df['Variable'],
y=results_df['R²'],
marker_color=colors,
text=results_df['R²'].round(3),
textposition='outside',
hovertemplate='<b>%{x}</b><br>R²: %{y:.3f}<extra></extra>'
))
fig.add_hline(y=0.7, line_dash="dash", line_color="#28a745",
annotation_text="Excellent (0.7)", annotation_position="right")
fig.add_hline(y=0.5, line_dash="dash", line_color="#ffc107",
annotation_text="Acceptable (0.5)", annotation_position="right")
fig.update_layout(
title=f"Fiabilité de l'imputation par variable ({algo})",
xaxis_title="Variable",
yaxis_title="R² Score",
height=470,
showlegend=False,
hovermode='x',
plot_bgcolor='white',
paper_bgcolor='white',
font=dict(family="Arial, sans-serif", size=12, color="#333333")
)
fig.update_xaxes(showgrid=True, gridwidth=1, gridcolor='#f0f0f0')
fig.update_yaxes(showgrid=True, gridwidth=1, gridcolor='#f0f0f0')
st.plotly_chart(fig, use_container_width=True)
else:
st.error("❌ Aucun résultat. Vérifiez vos données.")
elif 'run_analysis' not in locals():
st.info("👈 Cliquez sur le bouton 'Lancer l'analyse' dans la sidebar")
else:
st.info("👈 Cliquez sur le bouton 'Lancer l'analyse' dans la sidebar")
with tab2:
if 'results_df' in st.session_state:
st.subheader("📋 Détails par variable")
# Tableau avec style personnalisé
results_display = st.session_state['results_df'].copy()
styled_df = results_display.style.format({
'R²': '{:.3f}'
}).background_gradient(subset=['R²'], cmap='RdYlGn', vmin=0, vmax=1)
st.dataframe(styled_df, use_container_width=True, hide_index=True, height=400)
else:
st.info("👈 Lancez d'abord une analyse pour voir les détails par variable")
with tab3:
if 'results_df' in st.session_state:
st.subheader("📈 Statistiques récapitulatives")
results_df = st.session_state['results_df']
# Statistiques récapitulatives
col1, col2, col3 = st.columns(3)
with col1:
excellent = len(results_df[results_df['R²'] > 0.7])
st.metric("Nombre d'imputations fiables", excellent,
delta=f"{excellent/len(results_df)*100:.1f}%")
with col2:
acceptable = len(results_df[(results_df['R²'] > 0.5) & (results_df['R²'] <= 0.7)])
st.metric("Nombre d'imputations acceptables", acceptable,
delta=f"{acceptable/len(results_df)*100:.1f}%")
with col3:
difficult = len(results_df[results_df['R²'] <= 0.5])
st.metric("Nombre d'imputations déconseillées", difficult,
delta=f"{difficult/len(results_df)*100:.1f}%")
else:
st.info("👈 Lancez d'abord une analyse pour voir les statistiques")
else:
st.info("👈 Veuillez sélectionner un jeu de données avec au moins 2 variables numériques.") |