Spaces:

mimo1972
/

We-Punket_redeem

Sleeping

App Files Files Community

mimo1972 commited on Jan 19

Commit

cf0cab6

verified ·

1 Parent(s): 39376cc

Update app.py

Browse files

Files changed (1) hide show

app.py +120 -74

app.py CHANGED Viewed

@@ -1,74 +1,120 @@
-import streamlit as st
-import pandas as pd
-import joblib
-# Konfiguration der Seite
-st.set_page_config(page_title="Customer Cluster Predictor", layout="centered")
-# Ressourcen laden
-@st.cache_resource
-def load_resources():
-    # Laden des Modells aus Ihrer Datei kmeans_model.pkl [cite: 3, 4]
-    model = joblib.load('kmeans_model.pkl')
-    return model
-model = load_resources()
-# Definition der Cluster-Namen und Marketing-Strategien basierend auf der Analyse
-cluster_info = {
-    0: {
-        "Name": "Inaktive Kleinnutzer",
-        "Beschreibung": "Niedrige Einlösewerte und sehr lange inaktiv.",
-        "Strategie": "Reaktivierungskampagne: Senden Sie einen attraktiven Willkommens-Gutschein."
-    },
-    1: {
-        "Name": "Regelmäßige Gelegenheitsnutzer",
-        "Beschreibung": "Moderate Werte, regelmäßig aktiv.",
-        "Strategie": "Kundenbindung: Bieten Sie kleine Belohnungen für die nächste Einlösung an."
-    },
-    2: {
-        "Name": "VIP-Kunden (Top-Segment)",
-        "Beschreibung": "Höchste Werte, sehr hohe Punktzahl und sehr aktiv.",
-        "Strategie": "Exklusivität: Einladungen zu VIP-Events oder exklusive Angebote."
-    },
-    3: {
-        "Name": "Treue Bestandskunden",
-        "Beschreibung": "Hohe Werte und konstante Aktivität.",
-        "Strategie": "Upselling: Empfehlen Sie höherwertige Prämien-Kategorien."
-    },
-    4: {
-        "Name": "Gefährdete Kunden (At-Risk)",
-        "Beschreibung": "Moderate Werte, aber die letzte Einlösung liegt lange zurück.",
-        "Strategie": "Dringlichkeit: Senden Sie eine 'Wir vermissen Sie'-Aktion mit Bonus."
-    }
-}
-st.title("👤 Strategische Kunden-Segmentierung")
-st.markdown("Ermitteln Sie das Segment und die passende Marketing-Strategie.")
-# Eingabefelder für die 2 vom Nutzer geforderten Werte
-latest_days = st.number_input("Tage seit letzter Einlösung (latest_redeem_days)", min_value=0, value=1)
-redeem_value = st.number_input("Einlösewert (total_redeem_value)", min_value=0.0, value=1.0)
-# Automatische Berechnung der Punkte (Wert * 10)
-redeem_points = redeem_value * 10
-st.write(f"Berechnete Punkte: **{redeem_points}**")
-# Verarbeitung
-if st.button("Cluster berechnen"):
-    try:
-        # Vorbereitung der Rohdaten (Reihenfolge wie im Training: Value, Points, Days)
-        input_data = [[float(redeem_value), float(redeem_points), float(latest_days)]]
-        # Vorhersage ohne Scaler (da das Modell auf Rohdaten trainiert wurde)
-        cluster_pred = model.predict(input_data)[0]
-        info = cluster_info[cluster_pred]
-        # Ergebnis-Anzeige
-        st.divider()
-        st.header(f"Ergebnis: {info['Name']} (Cluster {cluster_pred})")
-        st.write(f"**Profil:** {info['Beschreibung']}")
-        st.success(f"💡 **Marketing-Strategie:** {info['Strategie']}")
-    except Exception as e:
-        st.error(f"Fehler bei der Vorhersage: {e}")

+import streamlit as st  # Import steht ganz oben
+import pandas as pd
+import joblib
+import matplotlib.pyplot as plt
+import seaborn as sns
+from sklearn.decomposition import PCA
+# 1. Seite konfigurieren
+st.set_page_config(page_title="Customer Segment Analysis", layout="wide")
+# 2. Ressourcen laden & Reinigung (exakt wie in Ihrem Notebook)
+@st.cache_resource
+def load_and_clean_data():
+    model = joblib.load('kmeans_model.pkl')
+    try:
+        df = pd.read_parquet('featrures.parquet')
+        # Tippfehler-Korrektur
+        df.rename(columns={'latest_redeem_dayes': 'latest_redeem_days'}, inplace=True)
+        # IQR Reinigung laut Notebook Cell 17
+        cols = ['total_redeem_value', 'total_redeem_points', 'latest_redeem_days']
+        Q1, Q3 = df[cols].quantile(0.25), df[cols].quantile(0.75)
+        IQR = Q3 - Q1
+        df_cleaned = df[~((df[cols] < (Q1 - 1.5 * IQR)) | (df[cols] > (Q3 + 1.5 * IQR))).any(axis=1)].copy()
+        # Duplikate entfernen laut Cell 20
+        df_final = df_cleaned.drop_duplicates().reset_index(drop=True)
+        return model, df_final
+    except:
+        return model, pd.DataFrame()
+model, features = load_and_clean_data()
+# Cluster-Definitionen
+cluster_info = {
+    0: {"Name": "Inaktive Kleinnutzer", "Strategie": "Reaktivierung: Gutschein senden."},
+    1: {"Name": "Regelmäßige Gelegenheitsnutzer", "Strategie": "Treue-Bonus anbieten."},
+    2: {"Name": "VIP-Kunden (Top-Segment)", "Strategie": "Exklusive VIP-Events."},
+    3: {"Name": "Treue Bestandskunden", "Strategie": "Upselling-Angebote."},
+    4: {"Name": "Gefährdete Kunden", "Strategie": "Dringlichkeits-Aktion."}
+}
+st.title("👤 Kunden-Segmentierung & Visualisierung")
+col1, col2 = st.columns([1, 2])
+with col1:
+    st.header("Eingabe")
+    # NEU: Maximale Grenzwerte gesetzt
+    latest_days = st.number_input(
+        "Tage seit letzter Einlösung",
+        min_value=0,
+        max_value=590,  # Limit auf 590 Tage
+        value=50
+    )
+    redeem_value = st.number_input(
+        "Einlösewert (Value)",
+        min_value=0.0,
+        max_value=950.0, # Limit auf 950
+        value=200.0
+    )
+    # Punkte-Berechnung
+    redeem_points = redeem_value * 10
+    st.info(f"Berechnete Punkte: **{redeem_points}**")
+    if st.button("Analyse starten"):
+        input_data = [[float(redeem_value), float(redeem_points), float(latest_days)]]
+        prediction = model.predict(input_data)[0]
+        st.session_state['pred'] = prediction
+        st.session_state['input'] = input_data
+# 3. Ergebnis & Grafik-Logik
+if 'pred' in st.session_state:
+    prediction = st.session_state['pred']
+    info = cluster_info[prediction]
+    with col2:
+        st.subheader(f"Ergebnis: {info['Name']} (Cluster {prediction})")
+        st.success(f"💡 **Marketing-Strategie:** {info['Strategie']}")
+        if not features.empty:
+            st.divider()
+            with st.spinner("Grafik wird generiert..."):
+                cols = ['total_redeem_value', 'total_redeem_points', 'latest_redeem_days']
+                X = features[cols]
+                # PCA Logik wie im Notebook
+                pca = PCA(n_components=2)
+                pca_data = pca.fit_transform(X)
+                # Neuen Punkt transformieren
+                new_point_pca = pca.transform(pd.DataFrame(st.session_state['input'], columns=cols))
+                # Plotting
+                fig, ax = plt.subplots(figsize=(10, 7))
+                sns.scatterplot(
+                    x=pca_data[:, 0], y=pca_data[:, 1],
+                    hue=model.predict(X),
+                    palette='tab10', alpha=0.5, s=60, ax=ax
+                )
+                # Das rote X für den neuen Kunden
+                ax.scatter(
+                    new_point_pca[0, 0], new_point_pca[0, 1],
+                    c='red', marker='X', s=350,
+                    label='Dieser Kunde', edgecolor='black', zorder=15
+                )
+                # Dynamische Achsenanpassung für Sichtbarkeit
+                all_x = list(pca_data[:, 0]) + [new_point_pca[0, 0]]
+                all_y = list(pca_data[:, 1]) + [new_point_pca[0, 1]]
+                ax.set_xlim(min(all_x) - 50, max(all_x) + 50)
+                ax.set_ylim(min(all_y) - 50, max(all_y) + 50)
+                ax.set_title("Kundenposition im Vergleich zu den Clustern")
+                ax.legend(title="Cluster-ID", bbox_to_anchor=(1.05, 1), loc='upper left')
+                st.pyplot(fig)