Spaces:

Marcel0123
/

TITANIC-RAMP

Sleeping

App Files Files Community

Marcel0123 commited on Oct 26, 2025

Commit

03df781

verified ·

1 Parent(s): c2933ad

Update app.py

Browse files

Files changed (1) hide show

app.py +90 -75

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
-# app.py — Titanic Data Adventure (fix: stabiele 2D-plot + lange intro)
 import gradio as gr
 import pandas as pd
 import numpy as np
@@ -11,12 +12,10 @@ from sklearn.compose import ColumnTransformer
 from sklearn.pipeline import Pipeline
 from sklearn.ensemble import RandomForestClassifier
 from sklearn.decomposition import PCA
-try:
-    from sklearn.manifold import TSNE
-    HAS_TSNE = True
-except Exception:
-    HAS_TSNE = False
 REQUIRED = {"survived","pclass","sex","age","sibsp","parch","fare","embarked"}
 def load_data(path="Titanic-Dataset.csv"):
@@ -24,9 +23,9 @@ def load_data(path="Titanic-Dataset.csv"):
         raise FileNotFoundError("❌ Titanic-Dataset.csv niet gevonden in de rootmap.")
     df = pd.read_csv(path)
     df.columns = [c.lower().strip() for c in df.columns]
-    miss = REQUIRED - set(df.columns)
-    if miss:
-        raise ValueError(f"Ontbrekende kolommen: {', '.join(sorted(miss))}")
     for c in df.columns:
         if df[c].isna().any():
             df[c] = df[c].fillna(df[c].mode()[0] if df[c].dtype=='O' else df[c].median())
@@ -40,36 +39,15 @@ df = load_data()
 MODEL = None
 MODEL_ACC = None
 def hero_path():
     for n in ["titanic_bg.png","titanic_bg.jpg","titanic_bg.jpeg"]:
-        if os.path.exists(n): return n
     return None
-INTRO_MD = """
-# 🛳️ Titanic Data Adventure
-### Een datagedreven reis door hoop, hiërarchie en toeval
-**April 1912.**
-De RMS *Titanic* vertrekt richting New York: een drijvend paleis, gevuld met verwachtingen. Aan boord: industriëlen in avondkleding, jonge gezinnen met één koffer, bemanningsleden die elke dag routine tot ritueel verheffen. De zee is kalm; de toekomst lijkt maakbaar.
-Meer dan een eeuw later kijken wij mee — niet met verrekijkers of logboeken, maar met **data**. Elk record in deze dataset is een menselijk verhaal: iemand met een plek aan tafel, een ticket, een familie, een keuze. Door de gegevens te verkennen, begrijpen we beter **wie overleefde — en waarom**.
----
-## Wat je in dit dashboard gaat zien
-- **2D-Passagierskaart** — elk bolletje is één passagier. We projecteren alle kenmerken naar 2 dimensies (PCA; t-SNE indien beschikbaar).
-  Beweeg met je muis over de punten voor **details** (klasse, leeftijd, geslacht, familie, prijs, enz.).
-- **Leeftijdsverdeling**, **Geslachtsverdeling**, **Fare per klasse**.
-- **Jouw scenario** — stel je kenmerken in, bereken je kans en lees een korte scène uit die nacht.
----
-## Wat een model wél en niet doet
-- ✅ Herkent patronen (*geslacht + klasse + leeftijd*).
-- ✅ Geeft **kansen**, geen zekerheden.
-- ❌ Velt geen moreel oordeel; context buiten de data blijft onzichtbaar.
-"""
 def make_plot(fig, title):
     fig.update_layout(
         title=title,
@@ -82,43 +60,43 @@ def make_plot(fig, title):
     )
     return fig
-def train_and_embed(progress=gr.Progress(track_tqdm=True)):
     global MODEL, MODEL_ACC
-    progress(0.05, desc="📦 Data laden…")
-    status = f"📦 Data geladen: **{len(df)}** passagiers."
-    yield status, make_plot(px.scatter(x=[], y=[]), "Initialiseren…")
-    # Voorbewerking + model
-    feats = ["pclass","sex","age","sibsp","parch","fare","embarked","family_size"]
-    X = df[feats].copy()
     y = df["survived"].astype(int)
-    cat = ["sex","embarked"]; num = [c for c in feats if c not in cat]
     pre = ColumnTransformer([
-        ("num", StandardScaler(), num),
-        ("cat", OneHotEncoder(handle_unknown="ignore"), cat)
     ])
-    progress(0.35, desc="🤖 Model trainen…")
-    pipe = Pipeline([("prep", pre), ("clf", RandomForestClassifier(n_estimators=300, random_state=42))])
     Xtr, Xte, ytr, yte = train_test_split(X, y, test_size=0.25, random_state=42, stratify=y)
     pipe.fit(Xtr, ytr)
-    MODEL = pipe; MODEL_ACC = pipe.score(Xte, yte)
-    status = f"✅ Model getraind (RandomForest), nauwkeurigheid: **{MODEL_ACC:.2%}**."
-    yield status, make_plot(px.scatter(x=[], y=[]), "Model klaar — projectie opbouwen…")
-    # Embedding: stabiel met PCA, optioneel TSNE erop
-    progress(0.65, desc="🗺️ 2D-projectie (PCA)…")
     Z = pre.fit_transform(X)
     Z = Z.toarray() if hasattr(Z, "toarray") else Z
     emb = PCA(n_components=2, random_state=42).fit_transform(Z)
-    method = "PCA"
-    if HAS_TSNE:
-        try:
-            progress(0.85, desc="✨ t-SNE verfijning…")
-            emb = TSNE(n_components=2, perplexity=30, learning_rate="auto", init="pca",
-                       n_iter=600, random_state=42).fit_transform(Z)
-            method = "t-SNE"
-        except Exception:
-            pass
     dvis = pd.DataFrame({"x": emb[:,0], "y": emb[:,1]})
     dvis["Overleving"] = df["status"].values
@@ -128,22 +106,25 @@ def train_and_embed(progress=gr.Progress(track_tqdm=True)):
     dvis["Fare (£)"] = df["fare"].values
     dvis["Familie"] = df["family_size"].values
     for c in ["name","ticket","cabin"]:
-        if c in df.columns: dvis[c.capitalize()] = df[c].values
     fig = px.scatter(
         dvis, x="x", y="y",
         color="Overleving", symbol="Klasse",
         hover_data=[col for col in dvis.columns if col not in ["x","y"]],
         color_discrete_map={"Overleefd":"#1B4B91","Niet overleefd":"#A3B1C6"},
-        opacity=0.78
     )
     fig.update_traces(marker=dict(symbol="circle", size=8, line=dict(width=0.6, color="white")))
-    fig = make_plot(fig, f"2D-projectie ({method}) — elk bolletje is een passagier")
-    progress(1.0, desc="Klaar ✅")
-    status = f"✅ Model klaar (**{MODEL_ACC:.2%}**). 2D-projectie ({method}) gereed — hover voor details."
-    yield status, fig
 def plot_age_hist(dfx):
     f = px.histogram(dfx, x="age", color="status", nbins=30, barmode="overlay", opacity=0.75,
                      color_discrete_map={"Overleefd":"#1B4B91","Niet overleefd":"#A3B1C6"})
@@ -159,6 +140,9 @@ def plot_fare_box(dfx):
                color_discrete_map={"Overleefd":"#1B4B91","Niet overleefd":"#A3B1C6"})
     return make_plot(f, "Ticketprijs per klasse (met overleving)")
 def predict_and_story(pclass, sex, age, sibsp, parch, fare, embarked):
     if MODEL is None:
         return "⏳ Het model initialiseert nog. Probeer het zo nog eens."
@@ -192,6 +176,40 @@ def predict_and_story(pclass, sex, age, sibsp, parch, fare, embarked):
 **Avontuur:** De nacht is stil; fluiten, geroep, voetstappen. {ending}
 """
 CUSTOM_CSS = """
 body { background:#FFFFFF; color:#0B1C3F; }
 .gradio-container { background:#FFFFFF; }
@@ -215,7 +233,7 @@ with gr.Blocks(css=CUSTOM_CSS, theme=gr.themes.Default(primary_hue="blue")) as d
     with gr.Column(elem_classes=["panel"]):
         gr.Markdown("## 🔧 Initialisatie & Modeltraining")
-        status_md = gr.Markdown("⏳ Start…")
         train_plot = gr.Plot(label="2D-projectie — elk bolletje is een passagier")
     with gr.Row():
@@ -245,15 +263,12 @@ with gr.Blocks(css=CUSTOM_CSS, theme=gr.themes.Default(primary_hue="blue")) as d
         btn = gr.Button("🎲 Bereken én vertel mijn verhaal", variant="primary")
         story_out = gr.Markdown()
-    # streamende training + embedding
-    demo.load(fn=train_and_embed, inputs=[], outputs=[status_md, train_plot])
-    # overige grafieken
-    demo.load(lambda: (plot_age_hist(df), plot_gender(df), plot_fare_box(df)),
-              inputs=[], outputs=[g2, g3, g4])
     btn.click(predict_and_story,
               inputs=[ui_pclass, ui_sex, ui_age, ui_sibsp, ui_parch, ui_fare, ui_emb],
               outputs=story_out)
 demo.launch()

+# app.py — Titanic Data Adventure (stabiele versie met PCA-visualisatie en uitgebreide introductie)
 import gradio as gr
 import pandas as pd
 import numpy as np
 from sklearn.pipeline import Pipeline
 from sklearn.ensemble import RandomForestClassifier
 from sklearn.decomposition import PCA
+# ======================================================
+#  DATA LADEN
+# ======================================================
 REQUIRED = {"survived","pclass","sex","age","sibsp","parch","fare","embarked"}
 def load_data(path="Titanic-Dataset.csv"):
         raise FileNotFoundError("❌ Titanic-Dataset.csv niet gevonden in de rootmap.")
     df = pd.read_csv(path)
     df.columns = [c.lower().strip() for c in df.columns]
+    missing = REQUIRED - set(df.columns)
+    if missing:
+        raise ValueError(f"Ontbrekende kolommen: {', '.join(sorted(missing))}")
     for c in df.columns:
         if df[c].isna().any():
             df[c] = df[c].fillna(df[c].mode()[0] if df[c].dtype=='O' else df[c].median())
 MODEL = None
 MODEL_ACC = None
+# ======================================================
+#  HULPFUNCTIES
+# ======================================================
 def hero_path():
     for n in ["titanic_bg.png","titanic_bg.jpg","titanic_bg.jpeg"]:
+        if os.path.exists(n):
+            return n
     return None
 def make_plot(fig, title):
     fig.update_layout(
         title=title,
     )
     return fig
+# ======================================================
+#  MODELTRAINING + 2D VISUALISATIE
+# ======================================================
+def train_and_embed_solid():
+    """
+    Robuuste initialisatie:
+    - traint het model
+    - maakt stabiele 2D-projectie (PCA)
+    """
     global MODEL, MODEL_ACC
+    features = ["pclass","sex","age","sibsp","parch","fare","embarked","family_size"]
+    X = df[features].copy()
     y = df["survived"].astype(int)
+    cat_cols = ["sex","embarked"]
+    num_cols = [c for c in features if c not in cat_cols]
     pre = ColumnTransformer([
+        ("num", StandardScaler(), num_cols),
+        ("cat", OneHotEncoder(handle_unknown="ignore"), cat_cols),
+    ])
+    pipe = Pipeline([
+        ("prep", pre),
+        ("clf", RandomForestClassifier(n_estimators=300, random_state=42))
     ])
     Xtr, Xte, ytr, yte = train_test_split(X, y, test_size=0.25, random_state=42, stratify=y)
     pipe.fit(Xtr, ytr)
+    MODEL = pipe
+    MODEL_ACC = pipe.score(Xte, yte)
+    # 2D embedding met PCA (altijd stabiel)
     Z = pre.fit_transform(X)
     Z = Z.toarray() if hasattr(Z, "toarray") else Z
     emb = PCA(n_components=2, random_state=42).fit_transform(Z)
     dvis = pd.DataFrame({"x": emb[:,0], "y": emb[:,1]})
     dvis["Overleving"] = df["status"].values
     dvis["Fare (£)"] = df["fare"].values
     dvis["Familie"] = df["family_size"].values
     for c in ["name","ticket","cabin"]:
+        if c in df.columns:
+            dvis[c.capitalize()] = df[c].values
     fig = px.scatter(
         dvis, x="x", y="y",
         color="Overleving", symbol="Klasse",
         hover_data=[col for col in dvis.columns if col not in ["x","y"]],
         color_discrete_map={"Overleefd":"#1B4B91","Niet overleefd":"#A3B1C6"},
+        opacity=0.8
     )
     fig.update_traces(marker=dict(symbol="circle", size=8, line=dict(width=0.6, color="white")))
+    fig = make_plot(fig, "2D-projectie (PCA) — elk bolletje is een passagier")
+    status = f"✅ Model getraind (RandomForest) — nauwkeurigheid: **{MODEL_ACC:.2%}**. 2D-projectie gereed; hover voor details."
+    return status, fig
+# ======================================================
+#  OVERIGE GRAFIEKEN
+# ======================================================
 def plot_age_hist(dfx):
     f = px.histogram(dfx, x="age", color="status", nbins=30, barmode="overlay", opacity=0.75,
                      color_discrete_map={"Overleefd":"#1B4B91","Niet overleefd":"#A3B1C6"})
                color_discrete_map={"Overleefd":"#1B4B91","Niet overleefd":"#A3B1C6"})
     return make_plot(f, "Ticketprijs per klasse (met overleving)")
+# ======================================================
+#  INTERACTIEVE VOORSPELLING
+# ======================================================
 def predict_and_story(pclass, sex, age, sibsp, parch, fare, embarked):
     if MODEL is None:
         return "⏳ Het model initialiseert nog. Probeer het zo nog eens."
 **Avontuur:** De nacht is stil; fluiten, geroep, voetstappen. {ending}
 """
+# ======================================================
+#  LANGE INTRODUCTIETEKST
+# ======================================================
+INTRO_MD = """
+# 🛳️ Titanic Data Adventure
+### Een datagedreven reis door hoop, hiërarchie en toeval
+**April 1912.**
+De RMS *Titanic* vertrekt richting New York: een drijvend paleis, gevuld met verwachtingen.
+Aan boord: industriëlen in avondkleding, jonge gezinnen met één koffer, bemanningsleden met routine.
+De zee is kalm; de toekomst lijkt maakbaar.
+Meer dan een eeuw later kijken wij mee — niet met verrekijkers of logboeken, maar met **data**.
+Elk record in deze dataset is een menselijk verhaal: iemand met een plek aan tafel, een ticket, een familie, een keuze.
+Door de gegevens te verkennen, begrijpen we beter **wie overleefde — en waarom**.
+---
+## Wat je in dit dashboard ziet
+- **2D-Passagierskaart** — elk bolletje is één passagier (hover voor details).
+- **Leeftijdsverdeling**, **Geslachtsverdeling**, **Fare per klasse**.
+- **Jouw scenario** — stel je kenmerken in, bereken je kans en lees je scène uit die nacht.
+---
+## Wat het model wél en niet doet
+- ✅ Herkent patronen (*geslacht + klasse + leeftijd*).
+- ✅ Geeft **kansen**, geen zekerheden.
+- ❌ Kent geen context buiten de data: emotie, paniek, toeval.
+"""
+# ======================================================
+#  UI + LAYOUT
+# ======================================================
 CUSTOM_CSS = """
 body { background:#FFFFFF; color:#0B1C3F; }
 .gradio-container { background:#FFFFFF; }
     with gr.Column(elem_classes=["panel"]):
         gr.Markdown("## 🔧 Initialisatie & Modeltraining")
+        status_md = gr.Markdown("⏳ Initialiseren…")
         train_plot = gr.Plot(label="2D-projectie — elk bolletje is een passagier")
     with gr.Row():
         btn = gr.Button("🎲 Bereken én vertel mijn verhaal", variant="primary")
         story_out = gr.Markdown()
+    # Laden van data en plots
+    demo.load(fn=train_and_embed_solid, inputs=[], outputs=[status_md, train_plot])
+    demo.load(lambda: (plot_age_hist(df), plot_gender(df), plot_fare_box(df)), inputs=[], outputs=[g2, g3, g4])
     btn.click(predict_and_story,
               inputs=[ui_pclass, ui_sex, ui_age, ui_sibsp, ui_parch, ui_fare, ui_emb],
               outputs=story_out)
 demo.launch()