Spaces:

ericjedha
/

fraud-detection-streamlit

Sleeping

App Files Files Community

ericjedha commited on Oct 30, 2025

Commit

2a409ff

verified ·

1 Parent(s): dbb9f1a

Update app.py

Browse files

Files changed (1) hide show

app.py +231 -2

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import plotly.graph_objects as go
 from sqlalchemy import create_engine, text
 from datetime import datetime, timedelta
 import os
 # ========================== CONFIGURATION ==========================
 st.set_page_config(
@@ -45,6 +46,18 @@ def get_db_connection():
         st.stop()
 # ========================== REQUÊTES SQL OPTIMISÉES ==========================
 def load_all_data():
     """Charge toutes les transactions - APPELÉ SEULEMENT APRÈS CLIC SUR REFRESH"""
@@ -240,6 +253,217 @@ def page_dashboard():
     else:
         st.info("Pas encore de données sur 7 jours")
 # ========================== PAGE: FRAUDES (24h) ==========================
 def page_frauds():
     st.title("🚨 Fraudes Détectées (Dernières 24h)")
@@ -323,7 +547,7 @@ def main():
     st.sidebar.title("Navigation")
     page = st.sidebar.radio(
         "Go to",
-        ["🏠 Dashboard", "🚨 Fraudes (24h)", "✅ Non Fraudes (24h)"]
     )
     st.sidebar.markdown("---")
@@ -335,11 +559,16 @@ def main():
     **⚡ Optimisé** : Les données ne se chargent que sur demande pour économiser les ressources.
-    **📊 Données** : Dernières 24h pour les pages de détail.
     """)
     if page == "🏠 Dashboard":
         page_dashboard()
     elif page == "🚨 Fraudes (24h)":
         page_frauds()
     elif page == "✅ Non Fraudes (24h)":

 from sqlalchemy import create_engine, text
 from datetime import datetime, timedelta
 import os
+from skimpy import skim
 # ========================== CONFIGURATION ==========================
 st.set_page_config(
         st.stop()
+# ========================== CHARGEMENT DES DONNÉES ==========================
+@st.cache_data(ttl=3600)
+def load_csv_data():
+    """Charge le fichier CSV pour l'EDA"""
+    try:
+        df = pd.read_csv("fraudTest.csv")
+        return df
+    except Exception as e:
+        st.error(f"❌ Erreur lors du chargement du fichier CSV: {e}")
+        return pd.DataFrame()
 # ========================== REQUÊTES SQL OPTIMISÉES ==========================
 def load_all_data():
     """Charge toutes les transactions - APPELÉ SEULEMENT APRÈS CLIC SUR REFRESH"""
     else:
         st.info("Pas encore de données sur 7 jours")
+# ========================== PAGE: EDA ==========================
+def page_eda():
+    st.title("📊 Exploratory Data Analysis")
+    st.info("👇 Cliquez sur **Load Data** pour charger les données EDA")
+    if st.button("🔄 Load Data", type="primary", key="eda_refresh"):
+        st.session_state.eda_loaded = True
+    if not st.session_state.get('eda_loaded', False):
+        st.warning("⚠️ Cliquez sur 'Load Data' pour afficher l'analyse")
+        return
+    with st.spinner("Chargement des données..."):
+        df = load_csv_data()
+    if df.empty:
+        st.error("Impossible de charger les données")
+        return
+    # ========================== 1. RÉSUMÉ AVEC SKIMPY ==========================
+    st.markdown("## 📋 Résumé des données avec Skimpy")
+    # Capturer la sortie de skim dans un buffer
+    import io
+    from contextlib import redirect_stdout
+    buffer = io.StringIO()
+    with redirect_stdout(buffer):
+        skim(df)
+    skim_output = buffer.getvalue()
+    st.text(skim_output)
+    st.markdown("---")
+    # ========================== 2. DISTRIBUTION FRAUDE vs NON-FRAUDE ==========================
+    st.markdown("## 🥧 Distribution des transactions")
+    fraud_counts = df["is_fraud"].value_counts().reset_index()
+    fraud_counts.columns = ["is_fraud", "count"]
+    fraud_counts["label"] = fraud_counts["is_fraud"].map({0: "Non frauduleuse", 1: "Frauduleuse"})
+    fig_pie = px.pie(
+        fraud_counts,
+        values="count",
+        names="label",
+        title="Répartition des transactions : frauduleuses vs non frauduleuses",
+        color_discrete_sequence=["#636EFA", "#EF553B"],
+        hole=0.4
+    )
+    fig_pie.update_traces(textinfo="percent+label")
+    st.plotly_chart(fig_pie, use_container_width=True)
+    # Statistiques
+    col1, col2, col3 = st.columns(3)
+    with col1:
+        st.metric("Total transactions", f"{len(df):,}")
+    with col2:
+        st.metric("Fraudes", f"{fraud_counts[fraud_counts['is_fraud']==1]['count'].values[0]:,}")
+    with col3:
+        fraud_rate = (fraud_counts[fraud_counts['is_fraud']==1]['count'].values[0] / len(df)) * 100
+        st.metric("Taux de fraude", f"{fraud_rate:.2f}%")
+    st.markdown("---")
+    # ========================== 3. CARTE GÉOGRAPHIQUE ==========================
+    st.markdown("## 🗺️ Localisation géographique des transactions")
+    # Vérifier si les colonnes existent
+    if 'merch_lat' in df.columns and 'merch_long' in df.columns:
+        df_geo = df.dropna(subset=["merch_lat", "merch_long"])
+        # Option d'échantillonnage pour performance
+        sample_size = st.slider("Nombre de points à afficher", 1000, min(50000, len(df_geo)), 10000, step=1000)
+        df_sample = df_geo.sample(n=min(sample_size, len(df_geo)), random_state=42)
+        # Ajouter le label
+        df_sample["fraud_label"] = df_sample["is_fraud"].map({0: "Non frauduleuse", 1: "Frauduleuse"})
+        fig_map = px.scatter_mapbox(
+            df_sample,
+            lat="merch_lat",
+            lon="merch_long",
+            color="fraud_label",
+            color_discrete_map={"Non frauduleuse": "#636EFA", "Frauduleuse": "#EF553B"},
+            title=f"Localisation des transactions ({sample_size} points échantillonnés)",
+            mapbox_style="open-street-map",
+            zoom=3,
+            height=700,
+            hover_data=["amt", "category", "merchant"]
+        )
+        fig_map.update_layout(
+            legend_title_text="Type de transaction",
+            margin={"r":0,"t":50,"l":0,"b":0}
+        )
+        st.plotly_chart(fig_map, use_container_width=True)
+    else:
+        st.warning("⚠️ Les colonnes de géolocalisation (merch_lat, merch_long) ne sont pas disponibles dans le dataset")
+    st.markdown("---")
+    # ========================== 4. FRAUDES PAR GENRE ==========================
+    st.markdown("## ���� Analyse par genre")
+    if 'gender' in df.columns:
+        # Nombre de fraudes par genre
+        fraud_by_gender = df[df["is_fraud"] == 1]["gender"].value_counts().reset_index()
+        fraud_by_gender.columns = ["gender", "count"]
+        fraud_by_gender["gender_label"] = fraud_by_gender["gender"].map({"M": "Homme", "F": "Femme"})
+        col1, col2 = st.columns(2)
+        with col1:
+            fig_gender = px.bar(
+                fraud_by_gender,
+                x="gender_label",
+                y="count",
+                color="gender_label",
+                color_discrete_map={"Homme": "#1f77b4", "Femme": "#ff7f0e"},
+                title="Nombre de fraudes par genre",
+                labels={"count": "Nombre de fraudes", "gender_label": "Genre"},
+                text="count"
+            )
+            fig_gender.update_layout(showlegend=False)
+            st.plotly_chart(fig_gender, use_container_width=True)
+        with col2:
+            # Taux de fraude par genre
+            gender_stats = df.groupby('gender')['is_fraud'].agg(['sum', 'count']).reset_index()
+            gender_stats['fraud_rate'] = (gender_stats['sum'] / gender_stats['count']) * 100
+            gender_stats['gender_label'] = gender_stats['gender'].map({"M": "Homme", "F": "Femme"})
+            fig_rate = px.bar(
+                gender_stats,
+                x="gender_label",
+                y="fraud_rate",
+                color="gender_label",
+                color_discrete_map={"Homme": "#1f77b4", "Femme": "#ff7f0e"},
+                title="Taux de fraude par genre (%)",
+                labels={"fraud_rate": "Taux de fraude (%)", "gender_label": "Genre"},
+                text=gender_stats['fraud_rate'].apply(lambda x: f"{x:.2f}%")
+            )
+            fig_rate.update_layout(showlegend=False)
+            st.plotly_chart(fig_rate, use_container_width=True)
+    else:
+        st.warning("⚠️ La colonne 'gender' n'est pas disponible dans le dataset")
+    st.markdown("---")
+    # ========================== 5. PAIRPLOT INTERACTIF ==========================
+    st.markdown("## 🔍 Corrélations et distributions (Pairplot)")
+    st.info("📌 Sélectionnez les variables numériques à analyser (max 5 pour la performance)")
+    # Sélectionner les colonnes numériques
+    numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns.tolist()
+    # Retirer is_fraud de la liste
+    if 'is_fraud' in numeric_cols:
+        numeric_cols.remove('is_fraud')
+    # Limiter aux colonnes les plus pertinentes par défaut
+    default_cols = ['amt', 'city_pop', 'lat', 'long'][:4]
+    default_cols = [col for col in default_cols if col in numeric_cols]
+    selected_cols = st.multiselect(
+        "Choisissez les variables à analyser",
+        numeric_cols,
+        default=default_cols[:4],
+        max_selections=5
+    )
+    if selected_cols:
+        # Échantillonner pour la performance
+        sample_size_pair = min(1000, len(df))
+        df_pair = df[selected_cols + ['is_fraud']].sample(n=sample_size_pair, random_state=42)
+        df_pair['fraud_label'] = df_pair['is_fraud'].map({0: "Non frauduleuse", 1: "Frauduleuse"})
+        # Créer un scatter matrix
+        fig_pair = px.scatter_matrix(
+            df_pair,
+            dimensions=selected_cols,
+            color="fraud_label",
+            color_discrete_map={"Non frauduleuse": "#636EFA", "Frauduleuse": "#EF553B"},
+            title=f"Matrice de corrélation ({sample_size_pair} échantillons)",
+            height=800
+        )
+        fig_pair.update_traces(diagonal_visible=False, showupperhalf=False)
+        st.plotly_chart(fig_pair, use_container_width=True)
+        # Matrice de corrélation
+        st.markdown("### 📊 Matrice de corrélation")
+        corr_matrix = df[selected_cols].corr()
+        fig_corr = px.imshow(
+            corr_matrix,
+            text_auto='.2f',
+            color_continuous_scale='RdBu_r',
+            title="Matrice de corrélation",
+            aspect="auto"
+        )
+        st.plotly_chart(fig_corr, use_container_width=True)
+    else:
+        st.warning("⚠️ Veuillez sélectionner au moins une variable")
 # ========================== PAGE: FRAUDES (24h) ==========================
 def page_frauds():
     st.title("🚨 Fraudes Détectées (Dernières 24h)")
     st.sidebar.title("Navigation")
     page = st.sidebar.radio(
         "Go to",
+        ["🏠 Dashboard", "📊 EDA", "🚨 Fraudes (24h)", "✅ Non Fraudes (24h)"]
     )
     st.sidebar.markdown("---")
     **⚡ Optimisé** : Les données ne se chargent que sur demande pour économiser les ressources.
+    **📊 Données** :
+    - Dashboard: Stats temps r��el
+    - EDA: Analyse du dataset complet
+    - Détail: Dernières 24h
     """)
     if page == "🏠 Dashboard":
         page_dashboard()
+    elif page == "📊 EDA":
+        page_eda()
     elif page == "🚨 Fraudes (24h)":
         page_frauds()
     elif page == "✅ Non Fraudes (24h)":