Spaces:

Marcel0123
/

supervised-training-Machine-learning-GGZ-Depressie

Sleeping

App Files Files Community

supervised-training-Machine-learning-GGZ-Depressie / app.py

Marcel0123

Update app.py

47c408d verified 4 months ago

raw

history blame contribute delete

60.5 kB

	import time
	import json
	import os
	import numpy as np
	import pandas as pd
	import plotly.graph_objects as go

	import gradio as gr
	from sklearn.preprocessing import StandardScaler
	from sklearn.decomposition import PCA
	from sklearn.linear_model import SGDClassifier, LogisticRegression, LinearRegression
	from sklearn.ensemble import RandomForestClassifier
	from sklearn.svm import SVC
	from sklearn.model_selection import train_test_split
	from sklearn.metrics import (
	accuracy_score, f1_score, roc_auc_score,
	confusion_matrix, roc_curve, auc,
	precision_recall_curve, precision_score, recall_score
	)

	# =========================
	# Ingebouwde dataset
	# =========================
	def load_builtin_dataset(n=1000, seed=42):
	rng = np.random.default_rng(seed)
	age = rng.integers(18, 75, size=n)
	gender = rng.choice([0, 1], size=n) # dummy
	sleep_quality = np.clip(rng.normal(6.5, 1.5, size=n), 1, 10)
	energy = np.clip(rng.normal(6.0, 1.7, size=n), 1, 10)
	anhedonia = np.clip(rng.normal(3.5, 1.8, size=n), 1, 10)
	stress = np.clip(rng.normal(4.5, 2.0, size=n), 1, 10)
	social_support = np.clip(rng.normal(6.0, 1.8, size=n), 1, 10)
	activity = np.clip(rng.normal(3.0 + 0.4energy - 0.2stress, 1.5, size=n), 0, 10)
	phq9 = np.clip(
	0.8anhedonia + 0.7stress - 0.5sleep_quality - 0.4energy
	+ rng.normal(0, 1.2, size=n) + 5, 0, 27
	)
	# label
	logit = (
	+ 0.65anhedonia + 0.55stress
	- 0.45sleep_quality - 0.40energy
	- 0.30social_support - 0.20activity
	+ 0.01(age - 40) + 0.05gender
	+ rng.normal(0, 0.6, size=n)
	)
	logit -= np.median(logit)
	prob = 1 / (1 + np.exp(-logit))
	depressed = (prob > 0.5).astype(int)

	df = pd.DataFrame({
	"age": age, "gender": gender, "sleep_quality": sleep_quality, "energy": energy,
	"anhedonia": anhedonia, "stress": stress, "social_support": social_support,
	"activity": activity, "phq9": phq9, "depressed": depressed
	})
	return df, "depressed"

	# =========================
	# NL-weergave helpers
	# =========================
	COLMAP_NL = {
	"age": "Leeftijd",
	"gender": "Geslacht",
	"sleep_quality": "Slaapkwaliteit",
	"energy": "Energie",
	"anhedonia": "Anhedonie",
	"stress": "Stress",
	"social_support": "Sociale steun",
	"activity": "Activiteit",
	"phq9": "PHQ-9",
	"depressed": "Depressie",
	"prediction": "Voorspelling",
	"confidence": "Zekerheid (%)",
	}
	GENDER_MAP = {0: "Vrouw", 1: "Man"}
	DEPRESSED_MAP = {0: "Nee", 1: "Ja"}

	def df_to_nl_display(df: pd.DataFrame, include_percent_confidence: bool = False) -> pd.DataFrame:
	disp = df.copy()
	if "gender" in disp.columns:
	disp["gender"] = disp["gender"].map(GENDER_MAP).fillna("Onbekend")
	if "depressed" in disp.columns:
	disp["depressed"] = disp["depressed"].map(DEPRESSED_MAP).fillna("Onbekend")
	if include_percent_confidence and "confidence" in disp.columns:
	disp["confidence"] = (pd.to_numeric(disp["confidence"], errors="coerce") * 100.0).round(1).map(
	lambda x: f"{x:.1f}%" if pd.notnull(x) else "—"
	)
	return disp.rename(columns={k: v for k, v in COLMAP_NL.items() if k in disp.columns})

	# =========================
	# Helpers – PCA/DB
	# =========================
	def ensure_min_classes(y):
	if len(np.unique(y)) < 2:
	raise gr.Error("Label heeft minder dan 2 unieke klassen.")

	def make_base_fig(coords, y, title):
	palette = ["#2563eb", "#ef4444", "#10b981", "#f59e0b", "#a855f7", "#06b6d4", "#f97316", "#22c55e"]
	fig = go.Figure()
	fig.update_layout(
	title=title, xaxis_title="PC1", yaxis_title="PC2",
	legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1),
	margin=dict(l=10, r=10, t=60, b=10),
	template=None, plot_bgcolor="#ffffff", paper_bgcolor="#ffffff", height=520
	)
	labels = pd.Series(y).astype(str).values
	uniq = list(np.unique(labels))
	for i, lbl in enumerate(uniq):
	mask = labels == lbl
	color = palette[i % len(palette)]
	fig.add_trace(go.Scatter(
	x=coords[mask, 0], y=coords[mask, 1],
	mode="markers", name=f"Klasse {lbl}",
	marker=dict(size=10, opacity=0.95, color=color, line=dict(width=1, color="#111")),
	hovertemplate="PC1: %{x:.2f}<br>PC2: %{y:.2f}<extra>" + f"Klasse {lbl}</extra>"
	))
	return fig

	def draw_decision_boundary(fig, clf2d, scaler2d, pca2d, X_scaled):
	coords = pca2d.transform(X_scaled)
	x_min, x_max = coords[:, 0].min() - 0.5, coords[:, 0].max() + 0.5
	y_min, y_max = coords[:, 1].min() - 0.5, coords[:, 1].max() + 0.5
	xx, yy = np.meshgrid(np.linspace(x_min, x_max, 200), np.linspace(y_min, y_max, 200))
	grid_2d = np.c_[xx.ravel(), yy.ravel()]
	coords_grid_s = scaler2d.transform(grid_2d)
	if hasattr(clf2d, "predict_proba"):
	Z = clf2d.predict_proba(coords_grid_s)[:, -1]
	else:
	dec = clf2d.decision_function(coords_grid_s)
	Z = (dec - np.nanmin(dec)) / (np.nanmax(dec) - np.nanmin(dec) + 1e-9)
	Z = np.nan_to_num(Z, nan=0.5, posinf=1.0, neginf=0.0).reshape(xx.shape)
	fig.add_trace(go.Contour(
	x=np.linspace(x_min, x_max, 200),
	y=np.linspace(y_min, y_max, 200),
	z=Z,
	showscale=False,
	contours=dict(coloring="lines", showlines=True),
	line=dict(width=1),
	opacity=0.8,
	name="Beslissingslijnen"
	))
	return fig

	def get_model(model_name, params):
	if model_name == "SGDClassifier (realtime)":
	return SGDClassifier(
	loss=params.get("sgd_loss", "log_loss"),
	alpha=params.get("sgd_alpha", 1e-4),
	learning_rate=params.get("sgd_lr", "optimal"),
	max_iter=1, random_state=42
	)
	elif model_name == "Logistic Regression":
	return LogisticRegression(max_iter=300)
	elif model_name == "Random Forest":
	return RandomForestClassifier(
	n_estimators=int(params.get("rf_n", 250)),
	max_depth=int(params.get("rf_depth", 8)) if params.get("rf_depth", None) else None,
	random_state=42
	)
	elif model_name == "SVM (RBF)":
	return SVC(probability=True, gamma="scale", C=params.get("svm_c", 1.0), random_state=42)
	return LogisticRegression(max_iter=300)

	# =========================
	# Regressievisual (robust)
	# =========================
	def _safe_split_masks(n, stratify_y=None, test_size=0.25, seed=42):
	try:
	idx = np.arange(n)
	idx_tr, idx_te = train_test_split(idx, test_size=test_size, random_state=seed, stratify=stratify_y)
	except Exception:
	idx = np.arange(n)
	idx_tr, idx_te = train_test_split(idx, test_size=test_size, random_state=seed)
	train_mask = np.zeros(n, dtype=bool); train_mask[idx_tr] = True
	test_mask = np.zeros(n, dtype=bool); test_mask[idx_te] = True
	return train_mask, test_mask

	def make_activity_regression_fig(df, train_mask, test_mask, epoch_title=""):
	n = len(df)
	if (train_mask is None) or (test_mask is None) or (len(train_mask) != n) or (len(test_mask) != n):
	strat = df["depressed"].values if "depressed" in df.columns else None
	train_mask, test_mask = _safe_split_masks(n, stratify_y=strat)

	rng = np.random.default_rng(0)
	minutes = (
	df["activity"].to_numpy(dtype=float) * 100.0
	+ df["energy"].to_numpy(dtype=float) * 20.0
	- df["stress"].to_numpy(dtype=float) * 10.0
	+ rng.normal(0.0, 30.0, n)
	)
	minutes = np.clip(minutes, 0.0, 1200.0).astype(float)

	functioning = (
	20.0
	+ 6.0*df["energy"].to_numpy(dtype=float)
	+ 5.0*df["sleep_quality"].to_numpy(dtype=float)
	- 4.0*df["stress"].to_numpy(dtype=float)
	+ 3.0*df["social_support"].to_numpy(dtype=float)
	+ 5.0*df["activity"].to_numpy(dtype=float)
	+ rng.normal(0.0, 5.0, n)
	)
	functioning = np.clip(functioning, 0.0, 100.0).astype(float)

	have_line = False
	try:
	X = minutes.reshape(-1, 1)
	y = functioning
	if X[train_mask].shape[0] < 2:
	train_mask, test_mask = _safe_split_masks(n, stratify_y=None)
	reg = LinearRegression().fit(X[train_mask], y[train_mask])
	x_line = np.linspace(minutes.min(), minutes.max(), 200).reshape(-1, 1)
	y_line = reg.predict(x_line)
	have_line = True
	except Exception:
	have_line = False

	def hover_for(idx):
	row = df.iloc[idx]
	return f"id={idx} • leeftijd={int(row['age'])} • steun={row['social_support']:.1f} • stress={row['stress']:.1f}"

	train_idx = np.where(train_mask)[0]
	test_idx = np.where(test_mask)[0]
	train_hover = np.array([hover_for(i) for i in train_idx], dtype=object)
	test_hover = np.array([hover_for(i) for i in test_idx], dtype=object)

	fig = go.Figure()
	fig.add_trace(go.Scatter(
	x=minutes[train_mask], y=functioning[train_mask],
	mode="markers", name="train",
	marker=dict(size=8, opacity=0.9),
	hovertemplate="Min/wk: %{x:.0f}<br>Score: %{y:.0f}<br>%{customdata}<extra></extra>",
	customdata=train_hover
	))
	fig.add_trace(go.Scatter(
	x=minutes[test_mask], y=functioning[test_mask],
	mode="markers", name="test",
	marker=dict(size=9, symbol="x", line=dict(width=2)),
	hovertemplate="Min/wk: %{x:.0f}<br>Score: %{y:.0f}<br>%{customdata}<extra></extra>",
	customdata=test_hover
	))
	if have_line:
	fig.add_trace(go.Scatter(
	x=x_line.ravel(), y=y_line,
	mode="lines", name="model", line=dict(width=3)
	))

	fig.update_layout(
	title=f"Bewegen (min/week) → Functioneringsscore — {epoch_title}",
	xaxis_title="Minuten bewegen per week",
	yaxis_title="Functioneringsscore (0–100)",
	template=None, plot_bgcolor="#ffffff", paper_bgcolor="#ffffff",
	height=460, margin=dict(l=10, r=10, t=60, b=10),
	legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1)
	)
	return fig

	# =========================
	# Visuals (testset)
	# =========================
	def fig_confusion_matrix(y_true, y_pred, title="Confusion matrix (testset)"):
	cm = confusion_matrix(y_true, y_pred, labels=[0, 1]).astype(int)
	fig = go.Figure(data=go.Heatmap(
	z=cm, x=["Pred 0", "Pred 1"], y=["True 0", "True 1"],
	colorscale="Blues", showscale=False
	))
	N = len(y_true)
	for i_y, row in enumerate(["True 0", "True 1"]):
	for i_x, col in enumerate(["Pred 0", "Pred 1"]):
	val = cm[i_y, i_x]; pct = 100.0 * val / max(1, N)
	fig.add_annotation(x=col, y=row, text=f"{val}<br>{pct:.1f}%", showarrow=False)
	fig.update_layout(title=title, plot_bgcolor="#fff", paper_bgcolor="#fff",
	height=360, margin=dict(l=10, r=10, t=60, b=10))
	return fig

	def fig_roc(y_true, proba, thr=None, title="ROC-curve (testset)"):
	fpr, tpr, thresholds = roc_curve(y_true, proba)
	roc_auc = auc(fpr, tpr)
	fig = go.Figure()
	fig.add_trace(go.Scatter(x=fpr, y=tpr, mode="lines", name=f"ROC (AUC={roc_auc:.3f})"))
	fig.add_trace(go.Scatter(x=[0,1], y=[0,1], mode="lines", name="Random", line=dict(dash="dash")))
	if thr is not None and thresholds is not None:
	idx = int(np.argmin(np.abs(thresholds - thr)))
	fig.add_trace(go.Scatter(x=[fpr[idx]], y=[tpr[idx]], mode="markers", name=f"Threshold={thr:.2f}",
	marker=dict(size=12, symbol="diamond-open")))
	fig.update_layout(title=title, xaxis_title="False Positive Rate", yaxis_title="True Positive Rate",
	plot_bgcolor="#fff", paper_bgcolor="#fff",
	height=360, margin=dict(l=10, r=10, t=60, b=10))
	return fig

	def fig_pr(y_true, proba, thr=None, title="Precision–Recall (testset)"):
	prec, rec, thr_pr = precision_recall_curve(y_true, proba)
	fig = go.Figure()
	fig.add_trace(go.Scatter(x=rec, y=prec, mode="lines", name="PR-curve"))
	if thr is not None and thr_pr is not None and len(thr_pr) > 0:
	idx = int(np.argmin(np.abs(thr_pr - thr)))
	fig.add_trace(go.Scatter(x=[rec[idx]], y=[prec[idx]], mode="markers", name=f"Threshold={thr:.2f}",
	marker=dict(size=12, symbol="diamond-open")))
	fig.update_layout(title=title, xaxis_title="Recall", yaxis_title="Precision",
	plot_bgcolor="#fff", paper_bgcolor="#fff",
	height=360, margin=dict(l=10, r=10, t=60, b=10))
	return fig

	def fig_threshold_sweep(y_true, proba, title="Drempel-sweep (testset)"):
	thr = np.linspace(0, 1, 101)
	P, R, F1 = [], [], []
	for t in thr:
	y_pred = (proba >= t).astype(int)
	P.append(precision_score(y_true, y_pred, zero_division=0))
	R.append(recall_score(y_true, y_pred, zero_division=0))
	F1.append(f1_score(y_true, y_pred))
	fig = go.Figure()
	fig.add_trace(go.Scatter(x=thr, y=P, mode="lines", name="Precision"))
	fig.add_trace(go.Scatter(x=thr, y=R, mode="lines", name="Recall"))
	fig.add_trace(go.Scatter(x=thr, y=F1, mode="lines", name="F1"))
	fig.update_layout(title=title, xaxis_title="Drempel", yaxis_title="Score (0–1)",
	plot_bgcolor="#fff", paper_bgcolor="#fff",
	height=360, margin=dict(l=10, r=10, t=60, b=10))
	return fig

	def fig_prob_hist(y_true, proba, thr=None, title="Verdeling voorspelde kansen P(y=1) – testset"):
	fig = go.Figure()
	fig.add_trace(go.Histogram(x=proba[y_true == 0], name="Ware klasse 0", opacity=0.7, nbinsx=30))
	fig.add_trace(go.Histogram(x=proba[y_true == 1], name="Ware klasse 1", opacity=0.7, nbinsx=30))
	shapes = []
	if thr is not None:
	shapes.append(dict(type="line", x0=thr, x1=thr, y0=0, y1=1, xref="x", yref="paper",
	line=dict(width=2, dash="dash")))
	fig.update_layout(barmode="overlay", title=title, xaxis_title="P(y=1)", yaxis_title="Frequentie",
	plot_bgcolor="#fff", paper_bgcolor="#fff",
	height=360, margin=dict(l=10, r=10, t=60, b=10),
	legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1),
	shapes=shapes)
	return fig

	def testset_visuals(model_name_v, sgd_loss_v, sgd_alpha_v, sgd_lr_v, rf_n_v, rf_depth_v, svm_c_v, test_size_v, threshold_v):
	df, ycol = load_builtin_dataset()
	X = df.drop(columns=[ycol]).values
	y = df[ycol].values

	X_train, X_test, y_train, y_test, idx_tr, idx_te = _split_with_indices(X, y, float(test_size_v))
	scaler = StandardScaler().fit(X_train)
	X_train_s = scaler.transform(X_train)
	X_test_s = scaler.transform(X_test)

	base = get_model(model_name_v, dict(
	sgd_loss=sgd_loss_v, sgd_alpha=float(sgd_alpha_v), sgd_lr=sgd_lr_v,
	rf_n=int(rf_n_v), rf_depth=None if int(rf_depth_v) == 0 else int(rf_depth_v),
	svm_c=float(svm_c_v)
	))
	clf = LogisticRegression(max_iter=300) if isinstance(base, SGDClassifier) else base
	clf.fit(X_train_s, y_train)

	if hasattr(clf, "predict_proba"):
	proba = clf.predict_proba(X_test_s)[:, 1]
	elif hasattr(clf, "decision_function"):
	dec = clf.decision_function(X_test_s)
	proba = (dec - dec.min()) / (dec.max() - dec.min() + 1e-9)
	else:
	proba = clf.predict(X_test_s).astype(float)

	thr = float(threshold_v)
	y_pred_thr = (proba >= thr).astype(int)

	cm_fig = fig_confusion_matrix(y_test, y_pred_thr)
	roc_fig = fig_roc(y_test, proba, thr=thr)
	pr_fig = fig_pr(y_test, proba, thr=thr)
	sweep_fig = fig_threshold_sweep(y_test, proba)
	hist_fig = fig_prob_hist(y_test, proba, thr=thr)
	return cm_fig, roc_fig, pr_fig, sweep_fig, hist_fig

	# =========================
	# Één rij & Batch & Segmenten — helpers
	# =========================
	def _fmt_pct(x, max_val):
	try:
	return f"{(float(x) / float(max_val) * 100):.1f}%"
	except Exception:
	return "—"

	def _gender_to_text(g):
	return {0: "Vrouw", 1: "Man"}.get(int(g), "Onbekend")

	def _bool01_to_text(b):
	return {0: "Nee", 1: "Ja"}.get(int(b), "Onbekend")

	# Norm, delta, oordeel
	def _norm_spec(key):
	if key in {"sleep_quality", "energy", "social_support", "activity"}:
	return 7.0, 10.0, +1
	if key in {"anhedonia", "stress"}:
	return 3.0, 10.0, -1
	if key == "phq9":
	return 4.0, 27.0, -1
	return None, None, None

	def _format_delta(delta):
	if delta is None or pd.isna(delta):
	return "—"
	if abs(delta) < 0.05:
	return f"<span style='color:#6b7280'>{delta:+.2f}</span>"
	if delta >= 0:
	return f"<span style='color:#16a34a'>{delta:+.2f}</span>"
	return f"<span style='color:#dc2626'>{delta:+.2f}</span>"

	def _deviation_vs_norm(key, val):
	norm, _, direction = _norm_spec(key)
	try:
	x = float(val)
	except Exception:
	x = None
	if norm is None or x is None:
	return "—"
	raw_delta = (x - norm) if direction == +1 else (norm - x)
	return _format_delta(raw_delta)

	def _judge_feature(key, val):
	try:
	x = float(val)
	except Exception:
	x = None

	higher_better = {"sleep_quality", "energy", "social_support", "activity"}
	lower_better = {"anhedonia", "stress"}

	if key in higher_better and x is not None:
	if x >= 7: return "Goed"
	if x >= 4: return "Gemiddeld"
	return "Slecht"

	if key in lower_better and x is not None:
	if x <= 3: return "Goed"
	if x <= 6: return "Gemiddeld"
	return "Slecht"

	if key == "phq9" and x is not None:
	pct = (x / 27.0) * 100.0
	if pct <= 15: return "Goed"
	if pct <= 40: return "Gemiddeld"
	return "Slecht"

	return "—"

	def _row_markdown(record: dict, pred=None, proba=None):
	labels = {
	"age": "Leeftijd (jaar)",
	"gender": "Geslacht",
	"sleep_quality": "Slaapkwaliteit",
	"energy": "Energie",
	"anhedonia": "Anhedonie",
	"stress": "Stress",
	"social_support": "Sociale steun",
	"activity": "Activiteit",
	"phq9": "PHQ-9 (0–27)",
	"depressed": "Depressie (waar label)"
	}

	rows = []
	rows.append([labels["age"], f"{int(record['age'])} jaar", "—", "—", "—"])
	rows.append([labels["gender"], _gender_to_text(record["gender"]), "—", "—", "—"])

	for k in ["sleep_quality", "energy", "anhedonia", "stress", "social_support", "activity"]:
	val = float(record[k])
	rows.append([
	labels[k],
	f"{val:.2f} / 10",
	_fmt_pct(val, 10),
	_deviation_vs_norm(k, val),
	_judge_feature(k, val),
	])

	phq = float(record["phq9"])
	rows.append([
	labels["phq9"],
	f"{phq:.2f} / 27",
	_fmt_pct(phq, 27),
	_deviation_vs_norm("phq9", phq),
	_judge_feature("phq9", phq),
	])

	dep = int(record["depressed"])
	rows.append([labels["depressed"], _bool01_to_text(dep), "—", "—", "—"])

	md = ["### Gekozen patiënt — overzicht (NL & %)\n",
	"\| Kenmerk \| Waarde \| Percentage \| Afwijking t.o.v. norm \| Oordeel \|",
	"\|---\|---:\|:---:\|:---:\|:---:\|"]
	for r in rows:
	md.append(f"\| {r[0]} \| {r[1]} \| {r[2]} \| {r[3]} \| {r[4]} \|")

	if pred is not None:
	md.append("\nModelvoorspelling: " + ("Positief (depressie=1)" if int(pred)==1 else "Negatief (depressie=0)"))
	if proba is not None:
	md.append(f"\nZekerheid (max. klasse-prob): {proba:.3f} ({proba*100:.1f}%)")

	return "\n".join(md)

	# ---------- predict_row / predict_batch / population_segments ----------
	def predict_row(model_name_v, sgd_loss_v, sgd_alpha_v, sgd_lr_v, rf_n_v, rf_depth_v, svm_c_v, row_idx):
	df, ycol = load_builtin_dataset()
	Xdf = df.drop(columns=[ycol])
	y = df[ycol]
	idx = int(row_idx)
	if idx < 0 or idx >= len(df):
	raise gr.Error("Ongeldige rij-index.")
	scaler = StandardScaler().fit(Xdf.values)
	Xs = scaler.transform(Xdf.values)

	base = get_model(model_name_v, dict(
	sgd_loss=sgd_loss_v, sgd_alpha=float(sgd_alpha_v), sgd_lr=sgd_lr_v,
	rf_n=int(rf_n_v), rf_depth=None if int(rf_depth_v) == 0 else int(rf_depth_v),
	svm_c=float(svm_c_v)
	))
	clf = LogisticRegression(max_iter=300) if isinstance(base, SGDClassifier) else base
	clf.fit(Xs, y.values)
	x_row = Xs[idx].reshape(1, -1)
	pred = clf.predict(x_row)[0]
	proba = clf.predict_proba(x_row)[0].max() if hasattr(clf, "predict_proba") else None

	record = df.iloc[idx].to_dict()
	return _row_markdown(record, pred=pred, proba=proba)

	def predict_batch(model_name_v, sgd_loss_v, sgd_alpha_v, sgd_lr_v, rf_n_v, rf_depth_v, svm_c_v, scope, n_rows):
	df, ycol = load_builtin_dataset()
	Xdf = df.drop(columns=[ycol]); y = df[ycol]
	scaler = StandardScaler().fit(Xdf.values); Xs = scaler.transform(Xdf.values)

	base = get_model(model_name_v, dict(
	sgd_loss=sgd_loss_v, sgd_alpha=float(sgd_alpha_v), sgd_lr=sgd_lr_v,
	rf_n=int(rf_n_v), rf_depth=None if int(rf_depth_v) == 0 else int(rf_depth_v),
	svm_c=float(svm_c_v)
	))
	clf = LogisticRegression(max_iter=300) if isinstance(base, SGDClassifier) else base
	clf.fit(Xs, y.values)

	if scope == "Eerste N rijen":
	k = max(1, min(int(n_rows), len(df)))
	Xb = Xs[:k]; batch_df = df.iloc[:k].copy()
	else:
	Xb = Xs; batch_df = df.copy()

	preds = clf.predict(Xb)
	probas = clf.predict_proba(Xb).max(axis=1) if hasattr(clf, "predict_proba") else np.full(len(preds), np.nan)

	out = batch_df.copy()
	out["prediction"] = preds
	out["confidence"] = np.round(probas, 4)

	display_out = df_to_nl_display(out, include_percent_confidence=True)
	os.makedirs("/tmp", exist_ok=True)
	out_path = "/tmp/batch_voorspellingen_nl.csv"
	display_out.to_csv(out_path, index=False)

	return display_out, out_path

	def population_segments(model_name_v, sgd_loss_v, sgd_alpha_v, sgd_lr_v, rf_n_v, rf_depth_v, svm_c_v,
	thr_pred=0.50, thr_more_treat=0.70, high_support_cut=6.0, high_activity_cut=5.0):
	df, ycol = load_builtin_dataset()
	Xdf = df.drop(columns=[ycol]); y = df[ycol].values
	scaler = StandardScaler().fit(Xdf.values); Xs = scaler.transform(Xdf.values)

	base = get_model(model_name_v, dict(
	sgd_loss=sgd_loss_v, sgd_alpha=float(sgd_alpha_v), sgd_lr=sgd_lr_v,
	rf_n=int(rf_n_v), rf_depth=None if int(rf_depth_v) == 0 else int(rf_depth_v),
	svm_c=float(svm_c_v)
	))
	clf = LogisticRegression(max_iter=300) if isinstance(base, SGDClassifier) else base
	clf.fit(Xs, y)

	if hasattr(clf, "predict_proba"):
	proba = clf.predict_proba(Xs)[:, 1]
	elif hasattr(clf, "decision_function"):
	dec = clf.decision_function(Xs)
	proba = (dec - dec.min()) / (dec.max() - dec.min() + 1e-9)
	else:
	proba = clf.predict(Xs).astype(float)

	thr_pred = float(thr_pred); thr_more_treat = float(thr_more_treat)
	pred_dep = (proba >= thr_pred).astype(int)
	need_more_treat = (proba >= thr_more_treat).astype(int)
	high_risk_cut = np.quantile(proba, 0.80)
	high_risk = (proba >= high_risk_cut).astype(int)

	segs = {
	"Totaal": np.ones(len(df), dtype=bool),
	"Hoge sociale steun (≥ {:.1f})".format(high_support_cut): (df["social_support"] >= high_support_cut).values,
	"Lage sociale steun (< {:.1f})".format(high_support_cut): (df["social_support"] < high_support_cut).values,
	"Hoge activiteit (≥ {:.1f})".format(high_activity_cut): (df["activity"] >= high_activity_cut).values,
	"Lage activiteit (< {:.1f})".format(high_activity_cut): (df["activity"] < high_activity_cut).values,
	}

	rows = []
	for name, m in segs.items():
	N = int(m.sum())
	if N == 0:
	rows.append([name, 0, 0, 0, 0, 0.0, 0.0, 0.0]); continue
	pct_pred_dep = 100.0 * pred_dep[m].mean()
	pct_more_treat = 100.0 * need_more_treat[m].mean()
	pct_high_risk = 100.0 * high_risk[m].mean()
	prevalence = 100.0 * y[m].mean()
	rows.append([
	name, N, prevalence, pct_pred_dep, pct_more_treat,
	pct_high_risk, float(proba[m].mean()), float(np.median(proba[m]))
	])

	out = pd.DataFrame(rows, columns=[
	"Segment", "N", "Ware prevalentie (%)",
	f"Voorspeld depressed ≥ {thr_pred:.2f} (%)",
	f"Meer behandeling nodig ≥ {thr_more_treat:.2f} (%)",
	"Hoog-risico (top 20%) (%)",
	"Gem. voorspelde kans", "Mediaan voorspelde kans"
	])

	fig_bar = go.Figure(go.Bar(
	x=out["Segment"],
	y=out[f"Voorspeld depressed ≥ {thr_pred:.2f} (%)"],
	text=[f"{v:.1f}%" for v in out[f"Voorspeld depressed ≥ {thr_pred:.2f} (%)"]],
	textposition="outside"
	))
	fig_bar.update_layout(
	title="Percentage voorspeld depressed per segment",
	yaxis_title="%", xaxis_tickangle=20,
	template=None, plot_bgcolor="#fff", paper_bgcolor="#fff",
	height=420, margin=dict(l=10, r=10, t=60, b=120)
	)

	fig_stack = go.Figure()
	fig_stack.add_trace(go.Bar(
	x=out["Segment"], y=out[f"Meer behandeling nodig ≥ {thr_more_treat:.2f} (%)"],
	name="Meer behandeling nodig (%)"
	))
	fig_stack.add_trace(go.Bar(
	x=out["Segment"], y=out["Hoog-risico (top 20%) (%)"],
	name="Hoog-risico (proxy) (%)"
	))
	fig_stack.update_layout(
	barmode="group",
	title="Andere indicatoren per segment",
	yaxis_title="%", xaxis_tickangle=20,
	template=None, plot_bgcolor="#fff", paper_bgcolor="#fff",
	height=420, margin=dict(l=10, r=10, t=60, b=120)
	)

	# Uitleg in twee kolommen (HTML)
	md_html = """
	<style>
	.seg-grid {
	display: grid;
	grid-template-columns: 1fr 1fr;
	gap: 16px;
	width: 100%;
	}
	@media (max-width: 900px) { .seg-grid { grid-template-columns: 1fr; } }
	.seg-col h3 { margin: 0 0 8px 0; }
	.seg-col p { margin: 0 0 12px 0; }
	.seg-col ul { margin: 0 0 12px 18px; }
	.seg-note {
	margin-top: 8px; padding: 8px 12px;
	border-left: 4px solid #e5e7eb; background: #f9fafb;
	}
	</style>
	<div class="seg-grid">
	<div class="seg-col">
	<h3>Wat zien we hier</h3>
	<p>In dit onderdeel splitsen we de (synthetische) populatie in logische groepen en vergelijken we hun modeluitkomsten. Zo zie je snel <strong>waar</strong> de voorspelde risico’s hoger of lager liggen en <strong>hoeveel</strong> mensen dat betreft.</p>
	<h3>Hoe het werkt</h3>
	<ul>
	<li><strong>Segmenten</strong>: we verdelen de populatie o.a. op <strong>sociale steun</strong> (hoog/laag) en <strong>activiteit</strong> (hoog/laag). Je kunt de grenzen zelf instellen met de schuifjes.</li>
	<li><strong>Drempels</strong>:
	<ul>
	<li><em>Voorspeld depressie</em>: aandeel personen met P(y=1) ≥ ingestelde drempel.</li>
	<li><em>Meer behandeling nodig</em>: strengere drempel (hogere P(y=1)) als proxy voor zwaardere zorgbehoefte.</li>
	<li><em>Hoog-risico</em>: top 20% hoogste kansen in de populatie (proxy-indicator).</li>
	</ul>
	</li>
	<li><strong>Tabel</strong>: per segment zie je omvang (N), <strong>ware prevalentie</strong> (labels) en de drie indicatoren, plus gemiddelde/mediaan van de voorspelde kans.</li>
	<li><strong>Grafieken</strong>: percentage voorspeld depressie per segment, en daarnaast “meer behandeling nodig” en “hoog-risico”.</li>
	</ul>
	</div>
	<div class="seg-col">
	<h3>Zo lees je dit</h3>
	<ul>
	<li>Kijk eerst naar <strong>N</strong>: zijn de segmenten voldoende groot voor zinnige uitspraken?</li>
	<li>Vergelijk <strong>ware prevalentie</strong> met <strong>voorspeld depressie</strong>: onderschat of overschat het model binnen een segment?</li>
	<li>Let op <strong>verschillen tussen segmenten</strong>: waar is het aandeel hoog (signaal) of laag (kans op minder intensieve interventie)?</li>
	<li>Speel met de <strong>drempels</strong> om te zien hoe strenger/soepeler instellen de percentages beïnvloedt (trade-off precisie vs. recall).</li>
	<li>Gebruik <strong>gemiddelde/mediaan kans</strong> als context: brede, hoge kansen kunnen op risico-concentraties wijzen.</li>
	</ul>
	<div class="seg-note">
	<strong>Let op:</strong> dit zijn didactische analyses op synthetische data met proxy-indicatoren. Niet bedoeld voor klinische besluitvorming.
	</div>
	</div>
	</div>
	"""
	return md_html, out, fig_bar, fig_stack

	# =========================
	# What-if panel
	# =========================
	def whatif_update(model_name_v, sgd_loss_v, sgd_alpha_v, sgd_lr_v, rf_n_v, rf_depth_v, svm_c_v,
	age_v, gender_v, sleep_v, energy_v, anhedonia_v, stress_v, support_v, activity_v, phq9_v):
	df, ycol = load_builtin_dataset()
	Xdf = df.drop(columns=[ycol]); y = df[ycol].values

	scaler = StandardScaler().fit(Xdf.values)
	Xs = scaler.transform(Xdf.values)

	base = get_model(model_name_v, dict(
	sgd_loss=sgd_loss_v, sgd_alpha=float(sgd_alpha_v), sgd_lr=sgd_lr_v,
	rf_n=int(rf_n_v), rf_depth=None if int(rf_depth_v) == 0 else int(rf_depth_v),
	svm_c=float(svm_c_v)
	))
	clf = LogisticRegression(max_iter=300) if isinstance(base, SGDClassifier) else base
	clf.fit(Xs, y)

	x_new = np.array([[age_v, gender_v, sleep_v, energy_v, anhedonia_v, stress_v, support_v, activity_v, phq9_v]], dtype=float)
	x_new_s = scaler.transform(x_new)
	if hasattr(clf, "predict_proba"):
	p1 = float(clf.predict_proba(x_new_s)[0,1])
	elif hasattr(clf, "decision_function"):
	dec = clf.decision_function(x_new_s)
	p1 = float((dec - dec.min()) / (dec.max() - dec.min() + 1e-9))
	else:
	p1 = float(clf.predict(x_new_s))
	pred = int(p1 >= 0.5)

	gauge = go.Figure(go.Indicator(
	mode="gauge+number",
	value=p1*100.0,
	number={'suffix': '%'},
	gauge={'axis': {'range': [0, 100]},
	'bar': {'thickness': 0.3},
	'steps': [
	{'range': [0, 25], 'color': '#e5e7eb'},
	{'range': [25, 50], 'color': '#d1d5db'},
	{'range': [50, 75], 'color': '#fecaca'},
	{'range': [75, 100], 'color': '#fca5a5'},
	]},
	title={'text': "P(y=1) kansmeter"}
	))
	gauge.update_layout(height=240, margin=dict(l=10, r=10, t=40, b=10), paper_bgcolor="#fff")

	badge = f"Voorspelling: {'Depressie (1)' if pred==1 else 'Geen depressie (0)'} — *{p1100:.1f}%**"

	pca = PCA(n_components=2, random_state=42).fit(Xs)
	coords = pca.transform(Xs)
	base_fig = make_base_fig(coords, y, title="PCA – populatie + jouw punt")
	coord_new = pca.transform(x_new_s)[0]
	base_fig.add_trace(go.Scatter(
	x=[coord_new[0]], y=[coord_new[1]],
	mode="markers", name="What-if punt",
	marker=dict(size=16, symbol="star", line=dict(width=2, color="#111")),
	hovertemplate="PC1: %{x:.2f}<br>PC2: %{y:.2f}<extra>What-if</extra>"
	))
	return gauge, badge, base_fig

	# =========================
	# Threshold theater
	# =========================
	def threshold_theater_update(model_name_v, sgd_loss_v, sgd_alpha_v, sgd_lr_v, rf_n_v, rf_depth_v, svm_c_v, test_size_v, thr_v):
	df, ycol = load_builtin_dataset()
	X = df.drop(columns=[ycol]).values
	y = df[ycol].values

	X_train, X_test, y_train, y_test, _, _ = _split_with_indices(X, y, float(test_size_v))
	scaler = StandardScaler().fit(X_train)
	X_train_s = scaler.transform(X_train)
	X_test_s = scaler.transform(X_test)

	base = get_model(model_name_v, dict(
	sgd_loss=sgd_loss_v, sgd_alpha=float(sgd_alpha_v), sgd_lr=sgd_lr_v,
	rf_n=int(rf_n_v), rf_depth=None if int(rf_depth_v) == 0 else int(rf_depth_v),
	svm_c=float(svm_c_v)
	))
	clf = LogisticRegression(max_iter=300) if isinstance(base, SGDClassifier) else base
	clf.fit(X_train_s, y_train)

	if hasattr(clf, "predict_proba"):
	proba = clf.predict_proba(X_test_s)[:, 1]
	elif hasattr(clf, "decision_function"):
	dec = clf.decision_function(X_test_s)
	proba = (dec - dec.min()) / (dec.max() - dec.min() + 1e-9)
	else:
	proba = clf.predict(X_test_s).astype(float)

	thr = float(thr_v)
	y_pred = (proba >= thr).astype(int)

	cm = fig_confusion_matrix(y_test, y_pred, title=f"Confusion matrix @ thr={thr:.2f}")
	roc = fig_roc(y_test, proba, thr=thr, title="ROC met drempel-marker")
	prc = fig_pr(y_test, proba, thr=thr, title="PR met drempel-marker")
	hist = fig_prob_hist(y_test, proba, thr=thr, title="Histogram P(y=1) met drempel")

	acc = accuracy_score(y_test, y_pred)
	f1 = f1_score(y_test, y_pred)
	prec = precision_score(y_test, y_pred, zero_division=0)
	rec = recall_score(y_test, y_pred, zero_division=0)
	try:
	auc_val = roc_auc_score(y_test, proba)
	except Exception:
	auc_val = np.nan
	md = (
	f"Metrics @ drempel {thr:.2f} \n"
	f"- Accuracy: {acc:.3f} \n"
	f"- Precision: {prec:.3f} \n"
	f"- Recall: {rec:.3f} \n"
	f"- F1: {f1:.3f} \n"
	f"- ROC-AUC (threshold-onafhankelijk): {auc_val:.3f}"
	)

	return cm, roc, prc, hist, md

	# =========================
	# Train & Stream
	# =========================
	def _split_with_indices(X, y, test_size):
	indices = np.arange(len(X))
	idx_tr, idx_te = train_test_split(indices, test_size=test_size, random_state=42, stratify=y)
	return X[idx_tr], X[idx_te], y[idx_tr], y[idx_te], idx_tr, idx_te

	def _init_plot():
	df, ycol = load_builtin_dataset()
	X = df.drop(columns=[ycol]).values
	y = df[ycol].values
	Xs = StandardScaler().fit_transform(X)
	coords = PCA(n_components=2, random_state=42).fit_transform(Xs)
	fig = make_base_fig(coords, y, title="Init – wacht op training…")
	return fig

	def train_and_stream(test_size, model_name, params, epochs, pause_s, visual_mode):
	df_all, ycol = load_builtin_dataset()
	X = df_all.drop(columns=[ycol]).values
	y = df_all[ycol].values
	ensure_min_classes(y)

	X_train, X_test, y_train, y_test, idx_tr, idx_te = _split_with_indices(X, y, float(test_size))
	train_mask = np.zeros(len(X), dtype=bool); train_mask[idx_tr] = True
	test_mask = np.zeros(len(X), dtype=bool); test_mask[idx_te] = True

	scaler = StandardScaler().fit(X_train)
	X_train_s = scaler.transform(X_train)
	X_test_s = scaler.transform(X_test)

	pca = PCA(n_components=2, random_state=42).fit(X_train_s)
	coords_train = pca.transform(X_train_s)
	coords_test = pca.transform(X_test_s)

	clf = get_model(model_name, params)

	if model_name == "SGDClassifier (realtime)":
	classes = np.unique(y_train)
	for e in range(1, int(epochs) + 1):
	clf.partial_fit(X_train_s, y_train, classes=classes)

	y_pred = clf.predict(X_test_s)
	acc = accuracy_score(y_test, y_pred)
	f1 = f1_score(y_test, y_pred, average="weighted")
	title = f"Epoch {e}/{epochs} • Acc {acc:.2f} • F1 {f1:.2f}"

	if visual_mode == "Bewegen→Functioneren (regressie)":
	fig_epoch = make_activity_regression_fig(df_all, train_mask, test_mask, epoch_title=title)
	else:
	scaler2d = StandardScaler().fit(coords_train)
	coords_train_s = scaler2d.transform(coords_train)
	clf2d = LogisticRegression(max_iter=200).fit(coords_train_s, y_train)
	fig_epoch = make_base_fig(coords_train, y_train, title=title)
	fig_epoch = draw_decision_boundary(fig_epoch, clf2d, scaler2d, pca, X_train_s)
	fig_epoch.add_trace(go.Scatter(
	x=coords_test[:, 0], y=coords_test[:, 1],
	mode="markers", name="Test set",
	marker=dict(size=10, symbol="circle-open", line=dict(width=2, color="#111")),
	hovertemplate="PC1: %{x:.2f}<br>PC2: %{y:.2f}<extra>Test set</extra>"
	))

	yield fig_epoch

	if pause_s and float(pause_s) > 0:
	time.sleep(float(pause_s))
	return
	else:
	clf.fit(X_train_s, y_train)
	if visual_mode == "Bewegen→Functioneren (regressie)":
	fig = make_activity_regression_fig(df_all, train_mask, test_mask, epoch_title=f"Model: {model_name}")
	else:
	fig = make_base_fig(coords_train, y_train, title=f"Model: {model_name}")
	scaler2d = StandardScaler().fit(coords_train)
	coords_train_s = scaler2d.transform(coords_train)
	clf2d = LogisticRegression(max_iter=200).fit(coords_train_s, y_train)
	fig = draw_decision_boundary(fig, clf2d, scaler2d, pca, X_train_s)
	fig.add_trace(go.Scatter(
	x=coords_test[:, 0], y=coords_test[:, 1],
	mode="markers", name="Test set",
	))
	yield fig
	return

	# =========================
	# UI – één pagina
	# =========================
	DESCRIPTION = """
	# Machinelearning Supervised learning – Depressie - predictions (synthetisch 1000 patiënten) by Marcel Ooms 2025
	"""

	# ========= Uitleg voor ROC (Markdown + LaTeX) =========
	ROC_INFO_MD = r"""
	### ROC-curve — uitleg

	Een ROC-curve (Receiver Operating Characteristic-curve) is een grafiek die gebruikt wordt om de prestaties van een classificatiemodel te evalueren. Het wordt vooral toegepast bij binaire classificatie (bijvoorbeeld: ziek vs. niet ziek, fraude vs. geen fraude).

	### Wat staat er op de ROC-curve?

	* X-as (False Positive Rate, FPR): het aandeel negatieve gevallen dat ten onrechte als positief wordt voorspeld.
	$$\mathrm{FPR} \;=\; \frac{\text{False Positives}}{\text{False Positives} + \text{True Negatives}}$$

	* Y-as (True Positive Rate, TPR): ook wel gevoeligheid of recall. Het aandeel positieve gevallen dat correct als positief wordt voorspeld.
	$$\mathrm{TPR} \;=\; \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}}$$

	Door voor verschillende drempelwaarden (thresholds) de TPR en FPR te berekenen, krijg je een curve die laat zien hoe het model presteert bij strengere of lossere beslissingsgrenzen.

	### Belangrijke inzichten

	* De diagonaal (45°-lijn): stelt willekeurige gokjes voor. Een model dat hierop ligt heeft geen voorspellende kracht.
	* Hoe meer de curve naar linksboven buigt, hoe beter het model: dit betekent hoge TPR bij een lage FPR.
	* AUC (Area Under the Curve): de oppervlakte onder de ROC-curve. Deze waarde ligt tussen 0 en 1:
	* 0,5 = willekeurig model (geen voorspellende waarde)
	* 1,0 = perfect model
	* Hoe hoger, hoe beter.

	### Voorbeeld

	* Stel je hebt een medisch testmodel:
	* Een hoge TPR betekent dat bijna alle zieke patiënten worden herkend.
	* Een lage FPR betekent dat gezonde mensen zelden ten onrechte als ziek worden bestempeld.
	De ROC-curve helpt om te kiezen welke balans tussen TPR en FPR passend is.
	"""

	# ========= Uitleg voor PCA (Markdown) =========
	PCA_INFO_MD = r"""
	### PCA

	Principal Component Analysis (PCA) is een slimme manier om gegevens met veel variabelen overzichtelijker te maken.
	Het zoekt nieuwe “assen” die zoveel mogelijk van de verschillen in de data uitleggen.
	Vaak kun je met maar 2 of 3 van die assen (de hoofdcomponenten) al een groot deel van de informatie behouden.
	Zo kun je data beter tekenen en patronen sneller zien.

	#### Het “What if”-punt
	In deze demo kun je een extra punt verplaatsen:
	- Sleep het punt rond om te zien waar het terechtkomt in de PCA-weergave.
	- Zo ontdek je hoe PCA data “samenknijpt” tot minder dimensies, en toch de belangrijkste patronen behoudt.
	"""

	# ========= NIEUW: Uitlegtekst voor Segmentgrafiek (Markdown) =========
	SEGMENT_INFO_MD = r"""
	### Percentage voorspeld “depressief” per segment

	Dit overzicht laat zien welk deel van de mensen binnen elk segment door het model als depressief wordt voorspeld.
	Elk segment staat voor een groep met een gemeenschappelijke eigenschap (bijv. leeftijdsgroep, geslacht, regio of andere categorie).
	Het percentage geeft aan hoeveel procent van de mensen in dat segment volgens het model een verhoogde kans heeft op depressie.
	Door de segmenten te vergelijken zie je verschillen tussen groepen, bijvoorbeeld welke segmenten een hoger of lager risico laten zien.

	> ⚠️ Let op: dit gaat om voorspellingen van het model, niet om een medische diagnose. De cijfers laten trends en patronen zien, geen definitieve uitspraken over individuen.
	"""

	# ========= NIEUW: Precision & Drempels (onder PCA) =========
	PRECISION_INFO_MD = r"""
	### Precision (Pr) & drempels

	Goede vraag! Ik neem aan dat je met Pr doelt op Precision (positieve voorspellende waarde) en met drempels/marker op het verschuiven van de beslissingsdrempel (threshold) in een model, bijvoorbeeld bij een classificatie zoals depressief vs. niet depressief.

	#### Precision en drempels
	Precision (Pr) vertelt je: van alle voorspellingen die het model “positief” noemt, hoeveel zijn er echt positief?

	$$
	\mathrm{Precision} \;=\; \frac{\mathrm{True\ Positives}}{\mathrm{True\ Positives} + \mathrm{False\ Positives}}
	$$

	- Een hoge precision betekent weinig vals positieven (bijna alle voorspelde positieven zijn correct).
	- Een lage precision betekent dat het model vaak onterecht “positief” roept.

	#### Drempels en markers
	Een model voorspelt vaak eerst een kans (bijv. 0,8 kans op depressief). Pas daarna leg je een drempel (threshold) vast:

	- Als de kans boven de drempel ligt → het model zegt positief.
	- Ligt de kans eronder → het model zegt negatief.

	Met een drempelmarker (bijvoorbeeld een schuif in een grafiek) kun je verkennen:

	- Hogere drempel → model is strenger, minder vals positieven → precision stijgt, maar je mist meer echte positieven (recall daalt).
	- Lagere drempel → model is soepeler, je vangt meer positieven (recall stijgt), maar er sluipen meer vals positieven in → precision daalt.

	#### Wat je ermee ziet
	Door een drempelmarker interactief te verschuiven kun je balans zoeken tussen precision en recall, afhankelijk van wat belangrijker is in jouw toepassing:

	- Liever weinig vals positieven (hoge precision)
	- of liever zoveel mogelijk echte positieven vinden (hoge recall).
	"""

	with gr.Blocks(theme=gr.themes.Soft(primary_hue="orange", neutral_hue="slate")) as demo:
	gr.Markdown(DESCRIPTION)

	# Video + tekst naast elkaar: video links 25%, tekst rechts 75%
	gr.Markdown("## Video")
	with gr.Row():
	with gr.Column(scale=1, min_width=260):
	gr.HTML("""
	<div style="position:relative;padding-bottom:56.25%;height:0;overflow:hidden;border-radius:8px;box-shadow:0 1px 3px rgba(0,0,0,.08);">
	<iframe
	src="https://www.youtube-nocookie.com/embed/wK8cc5Cp5kc"
	title="YouTube video"
	frameborder="0"
	allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share"
	allowfullscreen
	style="position:absolute;top:0;left:0;width:100%;height:100%;"
	></iframe>
	</div>
	""")
	with gr.Column(scale=3, min_width=360):
	# Uitleg-tekst naast de video
	gr.Markdown("""### Wat zien we hier
	Ontdek de kracht van AI in de GGZ – bekijk de video

	In slechts vijf minuten krijg je in deze video een rondleiding door de Space. Op het eerste gezicht lijkt het misschien wat ingewikkeld, maar geloof me: dat is het absoluut niet.

	Een korte inleiding
	Stel je voor: je hebt de beschikking over gelabelde data van 1000 GGZ-patiënten. Daarmee kun je een krachtig onderdeel van kunstmatige intelligentie inzetten: machine learning.
	Nog specifieker gaat het hier om supervised learning. Wat houdt dat in? Je gebruikt bestaande gegevens (data met labels, bijvoorbeeld uitslagen van een depressietest of behandeluitkomsten) om een model te trainen. Dat model leert hierdoor alles over deze specifieke cliëntengroep.
	Het mooie: een AI-model kan patronen ontdekken die voor mensen niet zichtbaar zijn. Na de training kan dit model vervolgens voorspellingen doen voor een nieuwe groep patiënten. Zo wordt het een slimme assistent die professionals kan ondersteunen met inzichten en voorspellingen.

	Klaar om te kijken?
	De video start niet automatisch. Klik op Play wanneer jij er klaar voor bent. Wil je de rondleiding groter in beeld zien? Rechtsboven kun je eenvoudig naar fullscreen schakelen.

	👉 Bekijk de video en ontdek hoe AI een waardevolle rol kan spelen in de GGZ.
	""")

	# Sectie: Model & Visualisatie (2 kolommen)
	gr.Markdown("## Dashboard")
	with gr.Row():
	with gr.Column(scale=1, min_width=360):
	gr.Markdown("### Instellingen")
	model_choice = gr.Radio(
	label="Model",
	choices=["SGDClassifier (realtime)", "Logistic Regression", "Random Forest", "SVM (RBF)"],
	value="SGDClassifier (realtime)"
	)
	visual_mode = gr.Radio(
	label="Visualisatie",
	choices=["PCA classificatie", "Bewegen→Functioneren (regressie)"],
	value="PCA classificatie"
	)
	gr.Markdown("#### Hyperparameters")
	sgd_loss = gr.Radio(["log_loss", "hinge", "modified_huber"], value="log_loss", label="SGD loss")
	sgd_alpha = gr.Slider(1e-6, 1e-2, value=1e-4, step=1e-6, label="SGD alpha (L2)")
	sgd_lr = gr.Radio(["optimal", "invscaling", "constant", "adaptive"], value="optimal", label="SGD learning rate")
	rf_n = gr.Slider(50, 500, value=250, step=10, label="RandomForest n_estimators")
	rf_depth = gr.Slider(0, 20, value=8, step=1, label="RandomForest max_depth (0 = None)")
	svm_c = gr.Slider(0.1, 5.0, value=1.0, step=0.1, label="SVM C")
	test_size = gr.Slider(0.1, 0.5, value=0.25, step=0.05, label="Testset proportie")
	with gr.Row():
	epochs = gr.Slider(1, 30, value=12, step=1, label="Epochs (alleen realtime SGD)")
	pause_s = gr.Slider(0.0, 1.0, value=0.15, step=0.05, label="Pauze per epoch (s)")
	btn_train = gr.Button("Train & Visualiseer", variant="primary")
	with gr.Column(scale=2):
	gr.Markdown("### Visualisatie")
	main_plot = gr.Plot(label="Visualisatie")
	gr.Markdown("""Wat zien we hier

	Deze Space laat stap voor stap zien hoe een (didactisch) machine-learning-model werkt op een synthetische dataset van 1.000 “patiënten”. Je kunt een model kiezen, parameters aanpassen en direct zien wat dat doet met de grafieken.

	- Model & instellingen – kies tussen SGD (realtime), Logistic Regression, Random Forest of SVM.
	- Visualisatie –
	- PCA classificatie: elke stip is een persoon; kleuren geven de klasse weer (depressie: ja/nee). Lijnen zijn beslissingsgrenzen.
	- Bewegen → Functioneren: x-as = minuten bewegen per week; y-as = functioneringsscore (0–100). De lijn geeft de trend.
	Let op: dit is synthetische oefendata; geen medisch advies.
	- Één-rij voorspelling – compacte samenvatting met voorspelling en (indien beschikbaar) zekerheid.
	- Histogram (P(y=1)) – kansverdeling van de testset: hoe vaak hoge of lage kansen?
	- Dataset – preview van de ruwe features (leeftijd, energie, slaapkwaliteit, stress, sociale steun, activiteit, PHQ-9, label).
	- Batch voorspellen – meerdere rijen tegelijk scoren en downloaden als CSV.
	- Populatie & Segmenten – vergelijk groepen en speel met drempels en cut-offs om verschillen te zien.""")

	# Downloadknop NA de bedoelde tekst in de Visualisatie-kolom
	pdf_path = "Gebruikershandleiding-ML-Space.pdf"
	if os.path.exists(pdf_path):
	gr.DownloadButton(
	label="📄 Download de gebruikershandleiding (PDF)",
	value=pdf_path
	)
	else:
	gr.Markdown("> ⚠️ Handleiding niet gevonden. Voeg Gebruikershandleiding-ML-Space.pdf toe aan de repo.")

	# Voorspellen & Histogram
	with gr.Row():
	with gr.Column(scale=1, min_width=360):
	gr.Markdown("## Voorspellen (één rij)")
	row_index = gr.Slider(0, 999, value=0, step=1, label="Kies rij-index")
	btn_predict = gr.Button("Voorspel voor gekozen rij", variant="primary")
	pred_md = gr.Markdown(label="Uitkomst", show_label=False)
	with gr.Column(scale=1):
	gr.Markdown("## Histogram testset (P(y=1))")
	btn_hist = gr.Button("Genereer histogram", variant="primary")
	hist_plot = gr.Plot(label="", show_label=False)
	gr.Markdown("""Wat laat het histogram zien?
	Het histogram toont voor de testset de verdeling van de voorspelde kansen P(y=1). Je ziet twee overlappende balkensets:
	Ware klasse 0 (geen depressie in de labels) en Ware klasse 1 (wel depressie in de labels).
	Zo lees je het:
	- X-as = P(y=1): 0 (laag) tot 1 (hoog).
	- Y-as = frequentie: hoeveel personen vallen in die kans-bucket.
	Overlap toont twijfel; weinig overlap betekent betere scheiding.
	Waarom nuttig?
	- Zie of voorspellingen scherp (pieken bij 0/1) of onzeker (heuvel rond 0.5) zijn.
	- Begrijp drempelkeuze: hoger = vaak hogere precisie, lager = vaak hogere recall.
	- Helpt bij risico-stratificatie: waar zitten hoge-kans gevallen en hoeveel zijn dat er?""")

	# What-if & Threshold theater
	gr.Markdown("---")
	gr.Markdown("## Experimenteer: What-if & Threshold theater")
	with gr.Row():
	with gr.Column(scale=1, min_width=360):
	gr.Markdown("""What-if & Threshold theater – wat is het en wat heb je eraan?

	What-if panel (links)
	- Nabootsen van één persoon met schuifjes (leeftijd, slaap, energie, stress, etc.).
	- Live feedback:
	- Kansmeter P(y=1)
	- Voorspelling (wel/geen depressie)
	- PCA-positie t.o.v. de populatie
	- Handig om te zien hoe het aanpassen van eigenschappen de kans beïnvloedt.""")
	with gr.Column(scale=1, min_width=360):
	gr.Markdown("""Threshold theater (rechts)
	- Met een drempel-slider kies je vanaf welke kans het model “positief” zegt.
	- Je ziet live:
	- Confusion matrix,
	- ROC- en PR-curve met marker,
	- Histogram met drempel-lijn.
	- Handig om de trade-off te begrijpen: hogere drempel → minder positieven (vaak hogere precisie); lagere drempel → meer positieven (vaak hogere recall).""")

	with gr.Row():
	# What-if panel
	with gr.Column(scale=1, min_width=360):
	gr.Markdown("### What-if panel")
	wi_age = gr.Slider(18, 75, value=40, step=1, label="Leeftijd")
	wi_gender = gr.Radio([0,1], value=0, label="Geslacht (0=Vrouw, 1=Man)")
	wi_sleep = gr.Slider(0.0, 10.0, value=6.5, step=0.1, label="Slaapkwaliteit")
	wi_energy = gr.Slider(0.0, 10.0, value=6.0, step=0.1, label="Energie")
	wi_anhedonia = gr.Slider(0.0, 10.0, value=3.5, step=0.1, label="Anhedonie")
	wi_stress = gr.Slider(0.0, 10.0, value=4.5, step=0.1, label="Stress")
	wi_support = gr.Slider(0.0, 10.0, value=6.0, step=0.1, label="Sociale steun")
	wi_activity = gr.Slider(0.0, 10.0, value=5.0, step=0.1, label="Activiteit")
	wi_phq9 = gr.Slider(0.0, 27.0, value=7.0, step=0.1, label="PHQ-9")
	wi_btn = gr.Button("Bereken What-if", variant="primary")

	# >>> Toegevoegde uitlegtekst boven de kansmeter <<<
	gr.Markdown("""Kansmeter (P(y=1))
	Deze meter visualiseert de voorspelde kans dat het label 1 is voor jouw ingevoerde kenmerken.
	- 0–25%: laag signaal — model verwacht meestal geen depressie.
	- 25–50%: twijfelgebied — kleine wijzigingen in input of drempel tellen.
	- 50–75%: verhoogd signaal — model neigt naar positief.
	- 75–100%: sterk signaal — model verwacht vaak positief.
	De drempel bepaalt alleen de binaire uitspraak (positief/negatief); de kans is continu en geeft nuance. Gebruik dit om trade-offs te begrijpen en scenario’s te vergelijken.""")

	wi_gauge = gr.Plot(label="Kansmeter")
	wi_badge = gr.Markdown()

	# >>> Uitleg boven de PCA-plot <<<
	gr.Markdown(PCA_INFO_MD)

	wi_pca = gr.Plot(label="PCA met What-if punt")

	# >>> NIEUW: jouw tekst als Markdown onder de PCA-plot <<<
	gr.Markdown(PRECISION_INFO_MD)

	# Threshold theater
	with gr.Column(scale=1, min_width=360):
	gr.Markdown("### Threshold theater")
	thr_slider = gr.Slider(0.0, 1.0, value=0.50, step=0.01, label="Drempel (thr)")
	thr_btn = gr.Button("Update drempel-metrics", variant="primary")
	thr_metrics = gr.Markdown()

	# Uitleg bij de Confusion Matrix (toegevoegd)
	gr.Markdown("""Confusion matrix (uitleg, kort):
	De confusion matrix geeft een overzicht van de juiste en foutieve voorspellingen van het model. De matrix bestaat uit vier vakken:
	- True Positives (TP): correcte voorspellingen van de positieve klasse.
	- False Positives (FP): onterecht als positief voorspeld (vals alarm).
	- True Negatives (TN): correcte voorspellingen van de negatieve klasse.
	- False Negatives (FN): onterecht als negatief voorspeld (gemist geval).

	Samen laat dit zien waar het model goed presteert en waar fouten ontstaan.""")

	thr_cm = gr.Plot(label="Confusion matrix")

	# Uitleg boven de ROC-plot
	gr.Markdown(ROC_INFO_MD)

	thr_roc = gr.Plot(label="ROC")
	thr_pr = gr.Plot(label="Precision–Recall")
	thr_hist = gr.Plot(label="Histogram P(y=1)")

	# Dataset
	gr.Markdown("---")
	gr.Markdown("## Dataset")
	with gr.Row():
	ds_preview = gr.Dataframe(label="Voorbeeld van de data (eerste 10 rijen)")
	with gr.Row():
	btn_preview = gr.Button("Ververs dataset-preview", variant="primary")

	# Batch
	gr.Markdown("---")
	gr.Markdown("## Batch voorspellen")
	with gr.Row():
	batch_scope = gr.Radio(["Eerste N rijen", "Volledige dataset"], value="Eerste N rijen", label="Bereik")
	batch_n = gr.Slider(10, 1000, value=100, step=10, label="N (bij 'Eerste N rijen')")
	btn_predict_batch = gr.Button("Voorspel batch", variant="primary")
	with gr.Row():
	batch_df = gr.Dataframe(label="Voorspellingen (voorbeeld/weergave)")
	with gr.Row():
	batch_file = gr.File(label="Download voorspellingen (CSV)")

	# Segmenten
	gr.Markdown("---")
	gr.Markdown("## Populatie & Segmenten")
	with gr.Row():
	seg_thr_pred = gr.Slider(0.0, 1.0, value=0.50, step=0.01, label="Drempel: voorspeld depressed (prob ≥ drempel)")
	seg_thr_more = gr.Slider(0.0, 1.0, value=0.70, step=0.01, label="Drempel: 'meer behandeling nodig' (prob ≥ drempel)")
	seg_support_cut = gr.Slider(1.0, 10.0, value=6.0, step=0.5, label="Cut-off: hoge sociale steun (≥)")
	seg_activity_cut = gr.Slider(0.0, 10.0, value=5.0, step=0.5, label="Cut-off: hoge activiteit (≥)")
	btn_segments = gr.Button("Bereken segmentpercentages", variant="primary")
	with gr.Row():
	seg_md = gr.HTML()
	with gr.Row():
	seg_table = gr.Dataframe(label="Segmentoverzicht")
	with gr.Row():
	# >>> Uitleg boven de eerste segmentgrafiek <<<
	gr.Markdown(SEGMENT_INFO_MD)

	seg_chart1 = gr.Plot(label="Voorspeld depressed per segment")
	seg_chart2 = gr.Plot(label="Andere indicatoren per segment")

	# =========================
	# Preloads (auto-laden)
	# =========================
	demo.load(lambda: _init_plot(), inputs=None, outputs=[main_plot])
	demo.load(lambda: df_to_nl_display(load_builtin_dataset()[0].head(10)), inputs=None, outputs=[ds_preview])

	def _proxy_train(test_size_v, model_name_v,
	sgd_loss_v, sgd_alpha_v, sgd_lr_v, rf_n_v, rf_depth_v, svm_c_v,
	epochs_v, pause_v, visual_mode_v):
	params = dict(
	sgd_loss=sgd_loss_v, sgd_alpha=float(sgd_alpha_v), sgd_lr=sgd_lr_v,
	rf_n=int(rf_n_v), rf_depth=None if int(rf_depth_v) == 0 else int(rf_depth_v),
	svm_c=float(svm_c_v),
	)
	for fig_epoch in train_and_stream(test_size_v, model_name_v, params, epochs_v, pause_v, visual_mode_v):
	yield fig_epoch

	# Hoofdvisualisatie
	demo.load(
	_proxy_train,
	inputs=[test_size, model_choice, sgd_loss, sgd_alpha, sgd_lr, rf_n, rf_depth, svm_c, epochs, pause_s, visual_mode],
	outputs=[main_plot]
	)
	# Histogram
	demo.load(
	lambda args: testset_visuals(args, threshold_v=float(0.50))[-1],
	inputs=[model_choice, sgd_loss, sgd_alpha, sgd_lr, rf_n, rf_depth, svm_c, test_size],
	outputs=[hist_plot]
	)
	# Een-rij voorspelling
	demo.load(
	predict_row,
	inputs=[model_choice, sgd_loss, sgd_alpha, sgd_lr, rf_n, rf_depth, svm_c, row_index],
	outputs=[pred_md]
	)
	# Batch voorspellen
	demo.load(
	predict_batch,
	inputs=[model_choice, sgd_loss, sgd_alpha, sgd_lr, rf_n, rf_depth, svm_c, batch_scope, batch_n],
	outputs=[batch_df, batch_file]
	)
	# Populatie & Segmenten
	demo.load(
	population_segments,
	inputs=[model_choice, sgd_loss, sgd_alpha, sgd_lr, rf_n, rf_depth, svm_c,
	seg_thr_pred, seg_thr_more, seg_support_cut, seg_activity_cut],
	outputs=[seg_md, seg_table, seg_chart1, seg_chart2]
	)
	# What-if panel auto-load
	wi_inputs = [model_choice, sgd_loss, sgd_alpha, sgd_lr, rf_n, rf_depth, svm_c,
	wi_age, wi_gender, wi_sleep, wi_energy, wi_anhedonia, wi_stress, wi_support, wi_activity, wi_phq9]
	demo.load(whatif_update, inputs=wi_inputs, outputs=[wi_gauge, wi_badge, wi_pca])
	# Threshold theater auto-load
	thr_inputs = [model_choice, sgd_loss, sgd_alpha, sgd_lr, rf_n, rf_depth, svm_c, test_size, thr_slider]
	demo.load(threshold_theater_update, inputs=thr_inputs, outputs=[thr_cm, thr_roc, thr_pr, thr_hist, thr_metrics])

	# =========================
	# Buttons & live interactie
	# =========================
	btn_train.click(
	_proxy_train,
	inputs=[test_size, model_choice, sgd_loss, sgd_alpha, sgd_lr, rf_n, rf_depth, svm_c, epochs, pause_s, visual_mode],
	outputs=[main_plot]
	)
	btn_preview.click(lambda: df_to_nl_display(load_builtin_dataset()[0].head(10)), inputs=None, outputs=[ds_preview])
	btn_predict.click(
	predict_row,
	inputs=[model_choice, sgd_loss, sgd_alpha, sgd_lr, rf_n, rf_depth, svm_c, row_index],
	outputs=[pred_md]
	)
	btn_predict_batch.click(
	predict_batch,
	inputs=[model_choice, sgd_loss, sgd_alpha, sgd_lr, rf_n, rf_depth, svm_c, batch_scope, batch_n],
	outputs=[batch_df, batch_file]
	)
	btn_segments.click(
	population_segments,
	inputs=[model_choice, sgd_loss, sgd_alpha, sgd_lr, rf_n, rf_depth, svm_c,
	seg_thr_pred, seg_thr_more, seg_support_cut, seg_activity_cut],
	outputs=[seg_md, seg_table, seg_chart1, seg_chart2]
	)
	btn_hist.click(
	lambda args: testset_visuals(args, threshold_v=float(0.50))[-1],
	inputs=[model_choice, sgd_loss, sgd_alpha, sgd_lr, rf_n, rf_depth, svm_c, test_size],
	outputs=[hist_plot]
	)

	# What-if: op knop en live sliders
	wi_btn.click(whatif_update, inputs=wi_inputs, outputs=[wi_gauge, wi_badge, wi_pca])
	for c in [wi_age, wi_gender, wi_sleep, wi_energy, wi_anhedonia, wi_stress, wi_support, wi_activity, wi_phq9]:
	c.change(whatif_update, inputs=wi_inputs, outputs=[wi_gauge, wi_badge, wi_pca])

	# Threshold theater: op knop en live slider
	thr_btn.click(threshold_theater_update, inputs=thr_inputs, outputs=[thr_cm, thr_roc, thr_pr, thr_hist, thr_metrics])
	thr_slider.change(threshold_theater_update, inputs=thr_inputs, outputs=[thr_cm, thr_roc, thr_pr, thr_hist, thr_metrics])

	if __name__ == "__main__":
	demo.launch()