Imputation_Wizard

Sleeping

App Files Files Community

Imputation_Wizard / app.py

Eric2mangel

Update app.py

556eaf0 verified 11 days ago

raw

history blame contribute delete

17.7 kB

	import streamlit as st
	import seaborn as sns
	import pandas as pd
	import numpy as np

	from sklearn.preprocessing import StandardScaler
	from sklearn.linear_model import LinearRegression
	from sklearn.ensemble import RandomForestRegressor
	from sklearn.svm import SVR
	from sklearn.neighbors import KNeighborsRegressor
	from sklearn.metrics import r2_score
	from sklearn.model_selection import train_test_split
	from scipy.stats import spearmanr
	import plotly.graph_objects as go
	from xgboost import XGBRegressor

	# Configuration globale
	RANDOM_STATE = 42

	st.set_page_config(page_title="Analyse d'imputation", layout="wide")

	# CSS personnalisé pour un rendu plus professionnel
	st.markdown("""
	<style>
	.main {
	background-color: #f8f9fa;
	}
	.stTabs [data-baseweb="tab-list"] {
	gap: 8px;
	background-color: white;
	padding: 10px;
	border-radius: 8px;
	box-shadow: 0 1px 3px rgba(0,0,0,0.1);
	}
	.stTabs [data-baseweb="tab"] {
	background-color: #f8f9fa;
	border-radius: 6px;
	padding: 10px 20px;
	font-weight: 500;
	}
	.stTabs [aria-selected="true"] {
	background-color: #0066cc;
	color: white;
	}
	div[data-testid="stExpander"] {
	background-color: white;
	border: 1px solid #e0e0e0;
	border-radius: 8px;
	margin-bottom: 12px;
	box-shadow: 0 1px 2px rgba(0,0,0,0.05);
	}
	div[data-testid="stExpander"] summary {
	font-weight: 600;
	color: #1a1a1a;
	padding: 12px;
	}
	.stButton>button {
	border-radius: 6px;
	font-weight: 600;
	box-shadow: 0 2px 4px rgba(0,0,0,0.1);
	}
	h1 {
	color: #1a1a1a;
	font-weight: 700;
	}
	h2, h3 {
	color: #333333;
	font-weight: 600;
	}
	</style>
	""", unsafe_allow_html=True)

	st.title("🔍 Analyse de fiabilité de l'imputation")
	# st.markdown(
	# """
	# Cette application évalue la capacité à imputer chaque variable d'un dataset en utilisant les autres variables.

	# Méthodologie : Standardisation des données • Suppression des variables jumelles (corrélation Spearman) • Modélisation au choix • Évaluation de la qualité d'imputation (R²)
	# """
	# )
	st.markdown(
	"""
	Cette application évalue la capacité à imputer chaque variable d'un dataset en utilisant les autres variables.
	"""
	)

	# Sidebar: Configuration
	with st.sidebar:
	run_analysis = st.button("🚀 Lancer l'analyse", type="primary", use_container_width=True)
	st.header("⚙️ Configuration")

	# Source de données
	data_source = st.radio(
	"Source des données",
	["Jeu de données Seaborn", "Importer un fichier"],
	label_visibility="visible"
	)

	df = None

	if data_source == "Importer un fichier":
	uploaded_file = st.file_uploader("Importer un fichier CSV", type=["csv"])

	if uploaded_file is not None:
	dataset_name = uploaded_file.name
	try:
	df = pd.read_csv(uploaded_file, sep=None, engine='python')
	df = df.select_dtypes(include=[np.number])
	df = df.dropna()

	if len(df) == 0:
	st.error("❌ Aucune donnée numérique après nettoyage.")
	df = None
	#else:
	# st.success(f"✅ Fichier chargé ! ({len(df)} lignes, {len(df.columns)} colonnes)")
	except Exception as e:
	st.error(f"Erreur : {e}")
	df = None
	else:
	excluded_datasets = ['anagrams', 'anscombe', 'attention', 'brain_networks',
	'car_crashes', 'dowjones', 'exercise', 'fmri','flights', 'geyser',
	'planets', 'seaice']
	available_datasets = [d for d in sorted(sns.get_dataset_names()) if d not in excluded_datasets]
	default_dataset = "iris"
	default_index = available_datasets.index(default_dataset) if default_dataset in available_datasets else 0
	dataset_name = st.selectbox(
	"Dataset d'exemple",
	available_datasets,
	index=default_index
	)
	try:
	df = sns.load_dataset(dataset_name)
	df = df.select_dtypes(include=[np.number])
	df = df.dropna()
	#st.success(f"✅ Jeu '{dataset_name}' chargé")
	except Exception as e:
	st.error(f"Erreur : {e}")
	df = None

	if df is not None and len(df.columns) > 1:
	st.subheader("Paramètres")

	# Expander Modélisation
	with st.expander("▶ Modélisation", expanded=True):
	algo = st.selectbox(
	"Algorithme de régression",
	["Régression Linéaire", "Random Forest", "SVR", "KNN", "XGBoost"],
	help="Algorithme utilisé pour prédire chaque variable"
	)

	test_size = st.slider(
	"Taille de l'ensemble test (%)",
	min_value=10,
	max_value=50,
	value=30,
	step=5,
	help="Pourcentage des données pour le test"
	)

	# Expander Nettoyage & Filtres
	with st.expander("▶ Réglages", expanded=False):
	corr_threshold = st.slider(
	"Seuil de corrélation (Spearman)",
	min_value=0.5,
	max_value=0.99,
	value=0.92,
	step=0.01,
	help="Variables avec corrélation > seuil seront considérées comme jumelles"
	)

	outlier_threshold = st.slider(
	"Seuil de suppression des outliers (écart-types)",
	min_value=1.0,
	max_value=6.0,
	value=6.0,
	step=0.5,
	help="Supprime les valeurs à plus de X écart-types de la moyenne"
	)

	sample_size = st.slider(
	"Échantillon du dataset (%)",
	min_value=10,
	max_value=100,
	value=100,
	step=10,
	help="Pourcentage du dataset à utiliser pour l'analyse"
	)

	#st.divider()
	#run_analysis = st.button("🚀 Lancer l'analyse", type="primary", use_container_width=True)
	else:
	if df is not None:
	st.warning("⚠️ Le dataset doit contenir au moins 2 variables numériques.")
	else:
	st.info("👈 Veuillez sélectionner ou importer un jeu de données.")

	# Fonctions utilitaires
	def get_model(algo_name):
	"""Retourne le modèle selon l'algorithme sélectionné"""
	if algo_name == "Régression Linéaire":
	return LinearRegression()
	elif algo_name == "Random Forest":
	return RandomForestRegressor(n_estimators=100, random_state=RANDOM_STATE, n_jobs=-1)
	elif algo_name == "SVR":
	return SVR(kernel='rbf')
	elif algo_name == "XGBoost":
	return XGBRegressor(n_estimators=100, random_state=RANDOM_STATE, n_jobs=-1, verbosity=0)
	else: # KNN
	return KNeighborsRegressor(n_neighbors=5)

	def remove_outliers(df, threshold):
	"""Supprime les outliers à plus de X écart-types"""
	df_clean = df.copy()
	for col in df_clean.columns:
	mean = df_clean[col].mean()
	std = df_clean[col].std()
	df_clean = df_clean[np.abs(df_clean[col] - mean) <= threshold * std]
	return df_clean

	def remove_twin_variables(X, threshold):
	"""Supprime les variables jumelles basé sur corrélation Spearman"""
	corr_matrix = X.corr(method='spearman').abs()
	upper_tri = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))

	to_drop = set()
	for column in upper_tri.columns:
	correlated = upper_tri.index[upper_tri[column] > threshold].tolist()
	if correlated:
	to_drop.update(correlated)

	return X.drop(columns=list(to_drop)), list(to_drop)

	def backward_elimination(X, y, p_threshold=0.05):
	"""Backward elimination basé sur les p-values"""
	import statsmodels.api as sm

	X_with_const = sm.add_constant(X)
	selected_features = list(X.columns)

	while len(selected_features) > 0:
	model = sm.OLS(y, X_with_const[['const'] + selected_features]).fit()
	p_values = model.pvalues[1:]

	max_p_value = p_values.max()
	if max_p_value > p_threshold:
	exclude_feature = p_values.idxmax()
	selected_features.remove(exclude_feature)
	else:
	break

	return selected_features

	def evaluate_imputation(df, target_col, corr_threshold, test_size, algo):
	"""Évalue la faisabilité d'imputation pour une variable"""
	X = df.drop(columns=[target_col])
	y = df[target_col]

	# Vérification minimale de données
	if len(X) < 10 or len(X.columns) == 0:
	return None, [], []

	# Standardisation
	scaler = StandardScaler()
	X_scaled = pd.DataFrame(scaler.fit_transform(X), columns=X.columns, index=X.index)

	# Suppression des jumelles
	X_filtered, dropped_twins = remove_twin_variables(X_scaled, corr_threshold)

	if len(X_filtered.columns) == 0:
	return 0.0, [], dropped_twins

	# Split train/test
	try:
	X_train, X_test, y_train, y_test = train_test_split(
	X_filtered, y, test_size=test_size/100, random_state=RANDOM_STATE
	)
	except:
	return None, [], dropped_twins

	# Backward elimination (seulement pour régression linéaire avec seuil fixe de 0.05)
	selected_features = list(X_train.columns)
	if algo == "Régression Linéaire" and len(X_train.columns) > 1:
	try:
	selected_features = backward_elimination(X_train, y_train, p_threshold=0.05)
	except:
	pass

	if len(selected_features) == 0:
	return 0.0, [], dropped_twins

	# Entraînement du modèle
	model = get_model(algo)
	X_train_selected = X_train[selected_features]
	X_test_selected = X_test[selected_features]

	try:
	model.fit(X_train_selected, y_train)
	y_pred = model.predict(X_test_selected)
	r2 = r2_score(y_test, y_pred)
	return max(0, r2), selected_features, dropped_twins
	except:
	return 0.0, selected_features, dropped_twins

	# Interface principale
	if df is not None and len(df.columns) > 1:
	tab1, tab2, tab3, tab4, tab5 = st.tabs(["📊 Analyse", "📋 Détails par variable", "📈 Statistiques", "💾 Données brutes", "ℹ️ Information"])

	with tab4:
	st.dataframe(df.head(20), use_container_width=True)

	with tab5:
	st.header("À propos de l'analyse")
	st.markdown(f"""
	Nom du dataset : {dataset_name}

	Dataset : {len(df)} lignes × {len(df.columns)} colonnes

	Interprétation du R² :
	- R² > 0.7 : Imputation très fiable ✅
	- 0.5 < R² < 0.7 : Imputation acceptable ⚠️
	- R² < 0.5 : Imputation difficile ❌

	Méthodologie :
	1. Chaque variable est tour à tour considérée comme cible
	2. Les autres variables servent de prédicteurs
	3. Suppression des variables jumelles (corrélation > {corr_threshold})
	4. Évaluation avec {algo}
	""")

	with tab1:
	if 'run_analysis' in locals() and run_analysis:
	# Préparation du dataset avec outliers et échantillonnage
	df_processed = df.copy()

	# Suppression des outliers
	if outlier_threshold < 6.0:
	df_before = len(df_processed)
	df_processed = remove_outliers(df_processed, outlier_threshold)
	df_after = len(df_processed)
	st.info(f"🧹 Outliers supprimés : {df_before - df_after} lignes ({(df_before - df_after)/df_before*100:.1f}%)")

	# Échantillonnage
	if sample_size < 100:
	df_processed = df_processed.sample(frac=sample_size/100, random_state=RANDOM_STATE)
	st.info(f"📊 Échantillon utilisé : {len(df_processed)} lignes ({sample_size}% du dataset)")

	results = []

	progress_bar = st.progress(0)
	status_text = st.empty()

	for idx, col in enumerate(df_processed.columns):
	status_text.text(f"Analyse de '{col}' ({idx+1}/{len(df_processed.columns)})...")

	r2, selected_vars, dropped_twins = evaluate_imputation(
	df_processed, col, corr_threshold, test_size, algo
	)

	if r2 is not None:
	results.append({
	'Variable': col,
	'R²': r2,
	'Prédicteurs': len(selected_vars),
	'Jumelles': len(dropped_twins),
	'Statut': '✅ Excellent' if r2 > 0.7 else ('⚠️ Moyen' if r2 > 0.5 else '❌ Difficile')
	})

	progress_bar.progress((idx + 1) / len(df_processed.columns))

	status_text.empty()
	progress_bar.empty()

	if results:
	results_df = pd.DataFrame(results).sort_values('R²', ascending=False)

	# Stocker dans session_state
	st.session_state['results_df'] = results_df

	# Graphique interactif
	st.subheader("📈 Résultats de l'analyse")

	fig = go.Figure()

	colors = ['#28a745' if r >= 0.7 else '#ffc107' if r >= 0.5 else '#dc3545'
	for r in results_df['R²']]

	fig.add_trace(go.Bar(
	x=results_df['Variable'],
	y=results_df['R²'],
	marker_color=colors,
	text=results_df['R²'].round(3),
	textposition='outside',
	hovertemplate='<b>%{x}</b><br>R²: %{y:.3f}<extra></extra>'
	))

	fig.add_hline(y=0.7, line_dash="dash", line_color="#28a745",
	annotation_text="Excellent (0.7)", annotation_position="right")
	fig.add_hline(y=0.5, line_dash="dash", line_color="#ffc107",
	annotation_text="Acceptable (0.5)", annotation_position="right")

	fig.update_layout(
	title=f"Fiabilité de l'imputation par variable ({algo})",
	xaxis_title="Variable",
	yaxis_title="R² Score",
	height=470,
	showlegend=False,
	hovermode='x',
	plot_bgcolor='white',
	paper_bgcolor='white',
	font=dict(family="Arial, sans-serif", size=12, color="#333333")
	)

	fig.update_xaxes(showgrid=True, gridwidth=1, gridcolor='#f0f0f0')
	fig.update_yaxes(showgrid=True, gridwidth=1, gridcolor='#f0f0f0')

	st.plotly_chart(fig, use_container_width=True)

	else:
	st.error("❌ Aucun résultat. Vérifiez vos données.")
	elif 'run_analysis' not in locals():
	st.info("👈 Cliquez sur le bouton 'Lancer l'analyse' dans la sidebar")
	else:
	st.info("👈 Cliquez sur le bouton 'Lancer l'analyse' dans la sidebar")

	with tab2:
	if 'results_df' in st.session_state:
	st.subheader("📋 Détails par variable")

	# Tableau avec style personnalisé
	results_display = st.session_state['results_df'].copy()

	styled_df = results_display.style.format({
	'R²': '{:.3f}'
	}).background_gradient(subset=['R²'], cmap='RdYlGn', vmin=0, vmax=1)

	st.dataframe(styled_df, use_container_width=True, hide_index=True, height=400)
	else:
	st.info("👈 Lancez d'abord une analyse pour voir les détails par variable")

	with tab3:
	if 'results_df' in st.session_state:
	st.subheader("📈 Statistiques récapitulatives")

	results_df = st.session_state['results_df']

	# Statistiques récapitulatives
	col1, col2, col3 = st.columns(3)
	with col1:
	excellent = len(results_df[results_df['R²'] > 0.7])
	st.metric("Nombre d'imputations fiables", excellent,
	delta=f"{excellent/len(results_df)*100:.1f}%")
	with col2:
	acceptable = len(results_df[(results_df['R²'] > 0.5) & (results_df['R²'] <= 0.7)])
	st.metric("Nombre d'imputations acceptables", acceptable,
	delta=f"{acceptable/len(results_df)*100:.1f}%")
	with col3:
	difficult = len(results_df[results_df['R²'] <= 0.5])
	st.metric("Nombre d'imputations déconseillées", difficult,
	delta=f"{difficult/len(results_df)*100:.1f}%")
	else:
	st.info("👈 Lancez d'abord une analyse pour voir les statistiques")
	else:
	st.info("👈 Veuillez sélectionner un jeu de données avec au moins 2 variables numériques.")