Add publication-ready ML project structure with full source code

e2b220f verified 10 days ago

12.5 kB

	"""
	Main experiment runner.

	Orchestrates the complete ML pipeline:
	1. Load and preprocess data
	2. Feature engineering
	3. Train models (XGBoost, NN, Ensemble)
	4. Cross-validation with statistical testing
	5. Ablation studies
	6. Per-material evaluation
	7. Generate publication figures
	8. Save all results

	Usage:
	python scripts/run_experiment.py --config configs/experiment.yaml
	"""

	from __future__ import annotations

	import argparse
	import json
	import logging
	import sys
	import time
	from pathlib import Path

	import numpy as np
	import pandas as pd
	import yaml

	# Add project root to path
	PROJECT_ROOT = Path(__file__).resolve().parent.parent
	sys.path.insert(0, str(PROJECT_ROOT))

	from src.data.dataset import (
	clean_dataset,
	get_feature_target_arrays,
	load_dataset,
	split_dataset,
	)
	from src.features.engineering import compute_all_derived_features, get_feature_groups
	from src.models.models import (
	NeuralNetworkRegressor,
	WeightedEnsemble,
	XGBoostMultiOutput,
	cross_validate_model,
	)
	from src.evaluation.metrics import (
	compare_models_statistical,
	compute_cv_summary,
	compute_metrics,
	per_material_evaluation,
	run_ablation_study,
	)
	from src.visualization.plots import (
	plot_feature_importance,
	plot_model_comparison,
	plot_per_material_performance,
	plot_predicted_vs_actual,
	plot_residual_analysis,
	plot_training_curves,
	)

	logging.basicConfig(
	level=logging.INFO,
	format="%(asctime)s [%(levelname)s] %(name)s: %(message)s",
	datefmt="%Y-%m-%d %H:%M:%S",
	)
	logger = logging.getLogger(__name__)


	def load_config(config_path: str) -> dict:
	"""Load YAML configuration file."""
	with open(config_path) as f:
	config = yaml.safe_load(f)
	logger.info(f"Loaded config: {config_path}")
	return config


	def main(config_path: str):
	"""Run complete experiment pipeline."""
	start_time = time.time()
	config = load_config(config_path)

	# Setup paths
	output_dir = Path(config["paths"]["figures"])
	output_dir.mkdir(parents=True, exist_ok=True)
	results_dir = Path(config["paths"]["results"])
	results_dir.mkdir(parents=True, exist_ok=True)
	models_dir = Path(config["paths"]["models"])
	models_dir.mkdir(parents=True, exist_ok=True)

	seed = config["experiment"]["random_seed"]
	np.random.seed(seed)

	# =========================================================================
	# Step 1: Load and preprocess data
	# =========================================================================
	logger.info("=" * 60)
	logger.info("STEP 1: DATA LOADING & PREPROCESSING")
	logger.info("=" * 60)

	df = load_dataset(
	source=config["data"]["source"],
	local_path=config["data"].get("local_path"),
	random_state=seed,
	)
	df = clean_dataset(df)
	df = compute_all_derived_features(df)

	# Feature and target columns
	all_features = (
	config["data"]["laser_features"]
	+ config["data"]["material_features"]
	+ config["data"]["derived_features"]
	)
	target_cols = config["data"]["target_columns"]

	# Verify columns exist
	missing = [c for c in all_features + target_cols if c not in df.columns]
	if missing:
	logger.error(f"Missing columns: {missing}")
	raise ValueError(f"Missing columns in dataset: {missing}")

	# Split data
	train_df, val_df, test_df = split_dataset(
	df,
	test_size=config["experiment"]["test_size"],
	val_size=config["experiment"]["validation_size"],
	group_column=config["data"].get("group_column", "material_type"),
	random_state=seed,
	)

	X_train, y_train = get_feature_target_arrays(train_df, all_features, target_cols)
	X_val, y_val = get_feature_target_arrays(val_df, all_features, target_cols)
	X_test, y_test = get_feature_target_arrays(test_df, all_features, target_cols)

	logger.info(f"Features: {len(all_features)}, Targets: {len(target_cols)}")
	logger.info(f"Shapes - Train: {X_train.shape}, Val: {X_val.shape}, Test: {X_test.shape}")

	# =========================================================================
	# Step 2: Train Models
	# =========================================================================
	logger.info("=" * 60)
	logger.info("STEP 2: MODEL TRAINING")
	logger.info("=" * 60)

	# XGBoost
	logger.info("Training XGBoost...")
	xgb_params = config["models"]["xgboost"].copy()
	xgb_params["random_state"] = seed
	xgb_model = XGBoostMultiOutput(xgb_params, target_cols)
	xgb_model.fit(X_train, y_train, X_val, y_val)

	# Neural Network
	logger.info("Training Neural Network...")
	nn_config = config["models"]["neural_network"]
	nn_model = NeuralNetworkRegressor(
	n_features=len(all_features),
	n_outputs=len(target_cols),
	hidden_layers=nn_config["hidden_layers"],
	dropout=nn_config["dropout"],
	learning_rate=nn_config["learning_rate"],
	weight_decay=nn_config["weight_decay"],
	batch_size=nn_config["batch_size"],
	max_epochs=nn_config["max_epochs"],
	patience=nn_config["patience"],
	)
	nn_model.fit(X_train, y_train, X_val, y_val)

	# Ensemble
	ens_config = config["models"]["ensemble"]
	ensemble = WeightedEnsemble(
	xgb_model, nn_model,
	xgb_weight=ens_config["xgboost_weight"],
	nn_weight=ens_config["nn_weight"],
	)

	# =========================================================================
	# Step 3: Evaluate on Test Set
	# =========================================================================
	logger.info("=" * 60)
	logger.info("STEP 3: TEST SET EVALUATION")
	logger.info("=" * 60)

	predictions = {
	"XGBoost": xgb_model.predict(X_test),
	"Neural Network": nn_model.predict(X_test),
	"Ensemble": ensemble.predict(X_test),
	}

	metrics_all = {}
	for model_name, y_pred in predictions.items():
	metrics = compute_metrics(y_test, y_pred, target_cols)
	metrics_all[model_name] = metrics
	logger.info(f"\n{model_name} Test Metrics:\n{metrics.to_string()}")

	# Save metrics
	for model_name, metrics_df in metrics_all.items():
	metrics_df.to_csv(results_dir / f"metrics_{model_name.lower().replace(' ', '_')}.csv")

	# =========================================================================
	# Step 4: Cross-Validation
	# =========================================================================
	logger.info("=" * 60)
	logger.info("STEP 4: CROSS-VALIDATION")
	logger.info("=" * 60)

	n_folds = config["experiment"]["n_cv_folds"]
	X_full = np.vstack([X_train, X_val])
	y_full = np.vstack([y_train, y_val])
	groups_full = pd.concat([train_df, val_df])["material_type"].values if "material_type" in train_df.columns else None

	# XGBoost CV
	logger.info("XGBoost cross-validation...")
	xgb_cv = cross_validate_model(
	model_factory=lambda: XGBoostMultiOutput(xgb_params, target_cols),
	X=X_full, y=y_full, n_folds=n_folds, groups=groups_full, random_state=seed,
	)

	# NN CV
	logger.info("Neural Network cross-validation...")
	nn_cv = cross_validate_model(
	model_factory=lambda: NeuralNetworkRegressor(
	n_features=len(all_features), n_outputs=len(target_cols),
	hidden_layers=nn_config["hidden_layers"], dropout=nn_config["dropout"],
	learning_rate=nn_config["learning_rate"], max_epochs=nn_config["max_epochs"],
	patience=nn_config["patience"],
	),
	X=X_full, y=y_full, n_folds=n_folds, groups=groups_full, random_state=seed,
	)

	# CV summaries
	xgb_summary = compute_cv_summary(xgb_cv, target_cols)
	nn_summary = compute_cv_summary(nn_cv, target_cols)
	logger.info(f"\nXGBoost CV Summary:\n{xgb_summary.to_string()}")
	logger.info(f"\nNeural Network CV Summary:\n{nn_summary.to_string()}")

	xgb_summary.to_csv(results_dir / "cv_xgboost.csv")
	nn_summary.to_csv(results_dir / "cv_neural_network.csv")

	# =========================================================================
	# Step 5: Statistical Comparison
	# =========================================================================
	logger.info("=" * 60)
	logger.info("STEP 5: STATISTICAL SIGNIFICANCE TESTING")
	logger.info("=" * 60)

	stat_test = config["evaluation"]["statistical_tests"]
	comparison = compare_models_statistical(
	xgb_cv, nn_cv,
	model_name_a="XGBoost",
	model_name_b="Neural Network",
	target_names=target_cols,
	metric="r2",
	test=stat_test["method"],
	significance_level=stat_test["significance_level"],
	)
	logger.info(f"\nStatistical Comparison (R²):\n{comparison.to_string()}")
	comparison.to_csv(results_dir / "statistical_comparison.csv")

	# =========================================================================
	# Step 6: Per-Material Evaluation
	# =========================================================================
	logger.info("=" * 60)
	logger.info("STEP 6: PER-MATERIAL EVALUATION")
	logger.info("=" * 60)

	if "material_type" in test_df.columns:
	mat_labels = test_df["material_type"].values
	mat_results = per_material_evaluation(
	y_test, predictions["Ensemble"], mat_labels, target_cols
	)
	logger.info(f"\nPer-Material (Ensemble):\n{mat_results.to_string()}")
	mat_results.to_csv(results_dir / "per_material_evaluation.csv")

	# =========================================================================
	# Step 7: Generate Figures
	# =========================================================================
	logger.info("=" * 60)
	logger.info("STEP 7: GENERATING PUBLICATION FIGURES")
	logger.info("=" * 60)

	fig_dir = Path(config["paths"]["figures"])
	fig_format = config["visualization"].get("figure_format", "png")

	# Predicted vs Actual
	plot_predicted_vs_actual(
	y_test, predictions["Ensemble"], target_cols,
	model_name="Ensemble (XGBoost 60% + NN 40%)",
	save_path=fig_dir / f"predicted_vs_actual.{fig_format}",
	)

	# Residual analysis
	plot_residual_analysis(
	y_test, predictions["Ensemble"], target_cols,
	save_path=fig_dir / f"residual_analysis.{fig_format}",
	)

	# Feature importance
	importances = xgb_model.get_feature_importance(all_features)
	plot_feature_importance(
	importances, top_n=12,
	save_path=fig_dir / f"feature_importance.{fig_format}",
	)

	# Model comparison
	plot_model_comparison(
	metrics_all, metric="R²", target_names=target_cols,
	save_path=fig_dir / f"model_comparison_r2.{fig_format}",
	)

	# Training curves
	plot_training_curves(
	nn_model.train_losses, nn_model.val_losses,
	save_path=fig_dir / f"training_curves.{fig_format}",
	)

	# Per-material
	if "material_type" in test_df.columns:
	plot_per_material_performance(
	mat_results, target_names=target_cols,
	save_path=fig_dir / f"per_material_performance.{fig_format}",
	)

	# =========================================================================
	# Step 8: Save Final Summary
	# =========================================================================
	elapsed = time.time() - start_time
	summary = {
	"experiment_name": config["experiment"]["name"],
	"dataset_size": len(df),
	"n_features": len(all_features),
	"n_targets": len(target_cols),
	"n_cv_folds": n_folds,
	"random_seed": seed,
	"best_model": "Ensemble",
	"test_metrics": {
	model: metrics_all[model].to_dict() for model in metrics_all
	},
	"elapsed_seconds": elapsed,
	}

	with open(results_dir / "experiment_summary.json", "w") as f:
	json.dump(summary, f, indent=2, default=str)

	logger.info("=" * 60)
	logger.info(f"EXPERIMENT COMPLETE ({elapsed:.1f}s)")
	logger.info(f"Results saved to: {results_dir}")
	logger.info(f"Figures saved to: {fig_dir}")
	logger.info("=" * 60)


	if __name__ == "__main__":
	parser = argparse.ArgumentParser(description="Run fs-laser hydrogel etching ML experiment")
	parser.add_argument("--config", type=str, default="configs/experiment.yaml",
	help="Path to experiment configuration YAML")
	args = parser.parse_args()
	main(args.config)