copd-model-h / training /cross_val_final_models.py

Inital Upload

000de75 3 days ago

37.5 kB

	import os
	import sys
	import numpy as np
	import pandas as pd
	import model_h
	import shutil
	import pickle
	import yaml

	# Plotting
	import matplotlib.pyplot as plt

	# Model training and evaluation
	from sklearn.ensemble import RandomForestClassifier
	from sklearn.model_selection import cross_validate, cross_val_predict
	from sklearn.metrics import precision_recall_curve, auc
	from sklearn.calibration import CalibratedClassifierCV
	from imblearn.ensemble import BalancedRandomForestClassifier
	import xgboost as xgb
	import ml_insights as mli
	import mlflow

	# Explainability
	from sklearn.inspection import permutation_importance

	with open("./training/config.yaml", "r") as config:
	config = yaml.safe_load(config)

	model_type = config['model_settings']['model_type']

	##############################################################
	# Load data
	##############################################################
	# Setup log file
	log = open(
	os.path.join(config['outputs']['logging_dir'], "modelling_" + model_type + ".log"), "w")
	sys.stdout = log

	# Load CV folds
	fold_patients = np.load(os.path.join(config['outputs']['cohort_info_dir'],
	'fold_patients_' + model_type + '.npy'), allow_pickle=True)

	# Load imputed crossval data
	train_data_imp = model_h.load_data_for_modelling(os.path.join(
	config["outputs"]["model_input_data_dir"],
	"train_imputed_cv_{}.pkl".format(model_type),
	))

	# Load not imputed crossval data
	train_data_no_imp = model_h.load_data_for_modelling(os.path.join(
	config["outputs"]["model_input_data_dir"],
	"train_not_imputed_cv_{}.pkl".format(model_type),
	))

	# Load imputed test data
	test_data_imp = model_h.load_data_for_modelling(os.path.join(
	config["outputs"]["model_input_data_dir"],
	"test_imputed_{}.pkl".format(model_type),
	))

	# Load not imputed test data
	test_data_no_imp = model_h.load_data_for_modelling(os.path.join(
	config["outputs"]["model_input_data_dir"],
	"test_not_imputed_{}.pkl".format(model_type),
	))

	# Load exac data
	#train_exac_data = pd.read_pickle('./data/train_exac_data_' + model_type + '.pkl')
	#test_exac_data = pd.read_pickle('./data/test_exac_data_' + model_type + '.pkl')

	# Print date ranges for train and test set
	print('Train date range',
	train_data_imp['IndexDate'].min(), train_data_imp['IndexDate'].max())
	print('Test date range',
	test_data_imp['IndexDate'].min(), test_data_imp['IndexDate'].max())

	# Set tags
	tags = {"prediction_window": config['model_settings']['prediction_window'],
	"lookback_period": config['model_settings']['lookback_period'],
	"min_index_date": train_data_imp['IndexDate'].min(),
	"max_index_date": train_data_imp['IndexDate'].max(),
	"1_row_per_length_in_service_days": config['model_settings']['one_row_per_days_in_service'],
	}

	# Create a tuple with training and validation indicies for each fold. Can be done with
	# either imputed or not imputed data as both have same patients
	cross_val_fold_indices = []
	for fold in fold_patients:
	fold_val_ids = train_data_no_imp[train_data_no_imp.StudyId.isin(fold)]
	fold_train_ids = train_data_no_imp[~(
	train_data_no_imp.StudyId.isin(fold_val_ids.StudyId))]

	# Get index of rows in val and train
	fold_val_index = fold_val_ids.index
	fold_train_index = fold_train_ids.index

	# Append tuple of training and val indices
	cross_val_fold_indices.append((fold_train_index, fold_val_index))

	# Create list of model features
	cols_to_drop = ['StudyId', 'ExacWithin3Months', 'IndexDate', 'HospExacWithin3Months',
	'CommExacWithin3Months']
	features_list = [col for col in train_data_no_imp.columns if col not in cols_to_drop]

	### Train data ###
	# Separate features from target for data with no imputation performed
	train_features_no_imp = train_data_no_imp[features_list].astype('float')
	train_target_no_imp = train_data_no_imp.ExacWithin3Months.astype('float')
	# Separate features from target for data with no imputation performed
	train_features_imp = train_data_imp[features_list].astype('float')
	train_target_imp = train_data_imp.ExacWithin3Months.astype('float')

	### Test data ###
	# Separate features from target for data with no imputation performed
	test_features_no_imp = test_data_no_imp[features_list].astype('float')
	test_target_no_imp = test_data_no_imp.ExacWithin3Months.astype('float')
	# Separate features from target for data with no imputation performed
	test_features_imp = test_data_imp[features_list].astype('float')
	test_target_imp = test_data_imp.ExacWithin3Months.astype('float')

	# Check that the target in imputed and not imputed datasets are the same. If not,
	# raise an error
	if not train_target_no_imp.equals(train_target_imp):
	raise ValueError(
	'Target variable is not the same in imputed and non imputed datasets in the train set.')
	if not test_target_no_imp.equals(test_target_imp):
	raise ValueError(
	'Target variable is not the same in imputed and non imputed datasets in the test set.')
	train_target = train_target_no_imp
	test_target = test_target_no_imp

	# Make sure all features are numeric
	for features in [train_features_no_imp, train_features_imp,
	test_features_no_imp, test_features_imp]:
	for col in features:
	features[col] = pd.to_numeric(features[col], errors='coerce')

	##############################################################
	# Specify which models to evaluate
	##############################################################
	# Set up MLflow
	mlflow.set_tracking_uri("sqlite:///mlruns.db")
	mlflow.set_experiment('model_h_drop_1_' + model_type)

	# Set CV scoring strategies and any model parameters
	scoring = ['f1', 'balanced_accuracy', 'accuracy', 'precision', 'recall', 'roc_auc',
	'average_precision', 'neg_brier_score']

	# Set up models, each tuple contains 4 elements: model, model name, imputation status,
	# type of model
	models = []
	# These models are run for both hospital exac model and hospital and community exac model
	models.append((BalancedRandomForestClassifier(random_state=0),
	'balanced_random_forest', 'imputed', 'tree'))
	models.append((xgb.XGBClassifier(random_state=0, use_label_encoder=False,
	eval_metric='logloss'),
	'xgb', 'not_imputed', 'tree'))
	models.append((RandomForestClassifier(),
	'random_forest', 'imputed', 'tree'))

	# Get the parent run where hyperparameter tuning was done
	if model_type == 'only_hosp':
	parent_run_id = 'ba2d7244654c4b84a815932a3167648f'
	if model_type == 'hosp_comm':
	parent_run_id = 'f71edd4c72f14c0692431dca297ec131'

	##############################################################
	# Run models
	##############################################################
	#In MLflow run, perform K-fold cross validation and capture mean score across folds.
	with mlflow.start_run(run_name='hyperparameter_optimised_models_12'):
	for model in models:
	# Get parameters of best scoring models
	best_params = model_h.get_mlflow_run_params(
	model[1], parent_run_id, 'sqlite:///mlruns.db', model_type)
	# Each model will have multiple best scores for different scoring metrics.
	for n, scorer in enumerate(best_params):
	params = best_params[scorer]
	model[0].set_params(**params)
	with mlflow.start_run(run_name=model[1] + '_tuning_scorer_' + scorer, nested=True):
	print(model[1], scorer)
	# Create the artifacts directory if it doesn't exist
	os.makedirs(config['outputs']['artifact_dir'], exist_ok=True)
	# Remove existing directory contents to not mix files between different runs
	shutil.rmtree(config['outputs']['artifact_dir'])

	# Select correct data based on whether model is using imputed or not imputed
	# dataset
	if model[2] == 'imputed':
	train_features = train_features_imp
	test_features = test_features_imp
	train_data = train_data_imp
	test_data = test_data_imp
	else:
	train_features = train_features_no_imp
	test_features = test_features_no_imp
	train_data = train_data_no_imp
	test_data = test_data_no_imp


	mlflow.set_tags(tags=tags)

	# Perform K-fold cross validation with custom folds
	crossval = cross_validate(model[0], train_features, train_target,
	cv=cross_val_fold_indices,
	return_estimator=True, scoring=scoring,
	return_indices=True)

	# Get the predicted probabilities from each models
	probabilities_cv = cross_val_predict(model[0], train_features,
	train_target,
	cv=cross_val_fold_indices,
	method='predict_proba')[:, 1]

	# Evaluation for uncalibrated model - test set
	for iter_num, estimator in enumerate(crossval['estimator']):
	probs_test = estimator.predict_proba(test_features)[:,1]
	preds_test = estimator.predict(test_features)
	uncalib_metrics_test = model_h.calc_eval_metrics_for_model(
	test_target, preds_test, probs_test, 'uncalib_test')
	if iter_num == 0:
	uncalib_metrics_test_df = pd.DataFrame(
	uncalib_metrics_test, index=[iter_num])
	else:
	uncalib_metrics_test_df_iter = pd.DataFrame(
	uncalib_metrics_test, index=[iter_num])
	uncalib_metrics_test_df = pd.concat(
	[uncalib_metrics_test_df, uncalib_metrics_test_df_iter])
	uncalib_metrics_test_mean = uncalib_metrics_test_df.mean()
	uncalib_metrics_test_mean = uncalib_metrics_test_mean.to_dict()

	# Get threshold that gives best F1 score for uncalibrated model
	best_thres_uncal, f1_bt, prec_bt, rec_bt = model_h.get_threshold_with_best_f1_score(
	train_target, probabilities_cv)
	# Save f1 score, precision and recall for the best threshold
	mlflow.log_metric('best_thres_uncal', best_thres_uncal)
	mlflow.log_metric('f1_best_thres', f1_bt)
	mlflow.log_metric('precision_best_thres', prec_bt)
	mlflow.log_metric('recall_best_thres', rec_bt)

	#### Plot confusion matrix at different thresholds ####
	model_h.plot_confusion_matrix(
	[0.1, 0.2, 0.3, 0.4, 0.5, 0.6, best_thres_uncal], probabilities_cv,
	train_target, model[1], model_type, 'uncalib')

	#### Calculate AUC-PR score ####
	precision, recall, thresholds = precision_recall_curve(
	train_target, probabilities_cv)
	auc_pr = auc(recall, precision)
	mlflow.log_metric('auc_pr', auc_pr)

	#### Generate calibration curves ####
	if model[1] != 'dummy_classifier':
	### Sigmoid calibration ###
	# Perform calibration
	model_sig = CalibratedClassifierCV(
	model[0], method='sigmoid',cv=cross_val_fold_indices)
	model_sig.fit(train_features, train_target)
	probs_sig = model_sig.predict_proba(test_features)[:, 1]
	probs_sig_2 = model_sig.predict_proba(test_features)
	preds_sig = model_sig.predict(test_features)
	# Generate metrics for calibrated model
	calib_metrics_sig = model_h.calc_eval_metrics_for_model(
	test_target, preds_sig, probs_sig, 'sig')
	# Get threshold with best f1 score for calibrated model
	best_thres_sig, _, _, _ = model_h.get_threshold_with_best_f1_score(
	test_target, probs_sig)
	mlflow.log_metric('best_thres_sig', best_thres_sig)
	# Plot confusion matrices for calibrated model
	model_h.plot_confusion_matrix(
	[0.1, 0.2, 0.3, 0.4, 0.5, 0.6, best_thres_sig], probs_sig,
	test_target, model[1], model_type, "sig")
	# Plot score distribution for calibrated model
	model_h.plot_score_distribution(
	test_target, probs_sig, config['outputs']['artifact_dir'], model[1], model_type, 'sig')
	# Calculate std of auc-pr between CV folds
	model_h.calc_std_for_calibrated_classifiers(
	model_sig, 'sig', test_features, test_target)

	### Isotonic calibration ###
	# Perform calibration
	model_iso = CalibratedClassifierCV(
	model[0], method='isotonic', cv=cross_val_fold_indices)
	model_iso.fit(train_features, train_target)
	probs_iso = model_iso.predict_proba(test_features)[:, 1]
	preds_iso = model_iso.predict(test_features)
	# Generate metrics for calibrated model
	calib_metrics_iso = model_h.calc_eval_metrics_for_model(
	test_target, preds_iso, probs_iso, 'iso')
	# Get threshold with best f1 score for calibrated model
	best_thres_iso, _, _, _ = model_h.get_threshold_with_best_f1_score(
	test_target, probs_iso)
	mlflow.log_metric('best_thres_iso', best_thres_iso)
	# Plot confusion matrices for calibrated model
	model_h.plot_confusion_matrix(
	[0.1, 0.2, 0.3, 0.4, 0.5, 0.6, best_thres_iso], probs_iso,
	test_target, model[1], model_type, "iso")
	# Plot score distribution for calibrated model
	model_h.plot_score_distribution(
	test_target, probs_iso, config['outputs']['artifact_dir'], model[1], model_type, 'iso')
	# Calculate std of auc-pr between CV folds
	model_h.calc_std_for_calibrated_classifiers(
	model_iso, 'iso', test_features, test_target)

	### Spline calibration ###
	# Perform calibration
	spline_calib = mli.SplineCalib()
	spline_calib.fit(probabilities_cv, train_target)
	model[0].fit(train_features, train_target)
	preds_test_uncalib = model[0].predict_proba(test_features)[:,1]
	probs_spline = spline_calib.calibrate(preds_test_uncalib)
	preds_spline = probs_spline > 0.5
	preds_spline = preds_spline.astype(int)
	# Generate metrics for calibrated model
	calib_metrics_spline = model_h.calc_eval_metrics_for_model(
	test_target, preds_spline, probs_spline, 'spline')
	# Get threshold with best f1 score for calibrated model
	best_thres_spline, _, _, _ = model_h.get_threshold_with_best_f1_score(
	test_target, probs_spline)
	mlflow.log_metric('best_thres_spline', best_thres_spline)
	# Plot confusion matrices for calibrated model
	model_h.plot_confusion_matrix(
	[0.1, 0.2, 0.3, 0.4, 0.5, 0.6, best_thres_spline], probs_spline,
	test_target, model[1], model_type, "spline")
	# Plot score distribution for calibrated model
	model_h.plot_score_distribution(
	test_target, probs_spline, config['outputs']['artifact_dir'], model[1], model_type, 'spline')

	### Plot calibration curves ###
	# Plot calibration curves for equal width bins (each bin has same width)
	# and equal frequency bins (each bin has same number of observations)
	for strategy in ['uniform', 'quantile']:
	for bins in [5, 6, 10]:
	plt.figure(figsize=(8,8))
	plt.plot([0, 1], [0, 1], linestyle='--')
	model_h.plot_calibration_curve(
	train_target, probabilities_cv, bins, strategy, 'Uncalibrated')
	model_h.plot_calibration_curve(
	test_target, probs_sig, bins, strategy,'Sigmoid')
	model_h.plot_calibration_curve(
	test_target, probs_iso, bins, strategy, 'Isotonic')
	model_h.plot_calibration_curve(
	test_target, probs_spline, bins, strategy, 'Spline')
	plt.legend(bbox_to_anchor=(1.05, 1.0), loc='upper left')
	plt.title(model[1])
	plt.tight_layout()
	plt.savefig(
	os.path.join(config['outputs']['artifact_dir'], model[1] +
	'_' + strategy + '_bins' + str(bins) + '_' +
	model_type + '.png'))
	plt.close()

	# Plot uncalibrated model calibration curve at different bins and
	# strategies
	fig, (ax1,ax2) = plt.subplots(ncols=2, sharex=True, figsize=(15,10))
	#plt.figure(figsize=(8,8))
	for ax in [ax1, ax2]:
	ax.plot([0, 1], [0, 1], linestyle='--')
	for bins in [5, 6, 7, 8, 9]:
	model_h.plot_calibration_curve(
	train_target, probabilities_cv, bins, 'quantile', 'Bins=' +
	str(bins), ax1)
	for bins in [5, 6, 7, 8, 9]:
	model_h.plot_calibration_curve(
	train_target, probabilities_cv, bins, 'uniform', 'Bins=' +
	str(bins), ax2)
	ax1.title.set_text(model[1] + ' uncalibrated model quantile bins')
	ax2.title.set_text(model[1] + ' uncalibrated model uniform bins')
	plt.legend(bbox_to_anchor=(1.05, 1.0), loc='upper left')
	plt.tight_layout()
	plt.savefig(
	os.path.join(config['outputs']['artifact_dir'], model[1] + '_uncal_'
	+ model_type + '.png'))
	plt.close()

	# Plot calibration curves with error bars
	model_h.plot_calibration_plot_with_error_bars(
	probabilities_cv, probs_sig, probs_iso, probs_spline, train_target,
	test_target, model[1])
	plt.close()

	#### Get total gain and total cover for boosting machine models ####
	if model[1].startswith("xgb"):
	feat_importance_tot_gain_df = model_h.plot_feat_importance_model(
	model[0], model[1], model_type)
	# Save feature importance by total gain
	if model[1].startswith("xgb"):
	feat_importance_tot_gain_df.to_csv(
	'./data/feature_importance_tot_gain_' + model_type + '.csv', index=False)

	#### Calculate model performance by event type ####
	if model[1] not in ['dummy_classifier']:
	# Create df to contain prediction data and event type data
	preds_event_df_uncalib = model_h.create_df_probabilities_and_predictions(
	probabilities_cv, best_thres_uncal,
	train_data['StudyId'].tolist(),
	train_target,
	train_data[['ExacWithin3Months','HospExacWithin3Months','CommExacWithin3Months']],
	model[1], model_type, output_dir='./data/prediction_and_events/')
	preds_events_df_sig = model_h.create_df_probabilities_and_predictions(
	probs_sig, best_thres_sig, test_data['StudyId'].tolist(),
	test_target,
	test_data[['ExacWithin3Months', 'HospExacWithin3Months','CommExacWithin3Months']],
	model[1], model_type, output_dir='./data/prediction_and_events/',
	calib_type='sig')
	preds_events_df_iso = model_h.create_df_probabilities_and_predictions(
	probs_iso, best_thres_iso, test_data['StudyId'].tolist(),
	test_target,
	test_data[['ExacWithin3Months', 'HospExacWithin3Months','CommExacWithin3Months']],
	model[1], model_type, output_dir='./data/prediction_and_events/',
	calib_type='iso')
	preds_events_df_spline = model_h.create_df_probabilities_and_predictions(
	probs_spline, best_thres_spline, test_data['StudyId'].tolist(),
	test_target,
	test_data[['ExacWithin3Months', 'HospExacWithin3Months','CommExacWithin3Months']],
	model[1], model_type, output_dir='./data/prediction_and_events/',
	calib_type='spline')
	# Subset to each event type and calculate metrics
	metrics_by_event_type_uncalib = model_h.calc_metrics_by_event_type(
	preds_event_df_uncalib, calib_type="uncalib")
	metrics_by_event_type_sig = model_h.calc_metrics_by_event_type(
	preds_events_df_sig, calib_type='sig')
	metrics_by_event_type_iso = model_h.calc_metrics_by_event_type(
	preds_events_df_iso, calib_type='iso')
	metrics_by_event_type_spline = model_h.calc_metrics_by_event_type(
	preds_events_df_spline, calib_type='spline')
	# Subset to each event type and plot ROC curve
	model_h.plot_roc_curve_by_event_type(
	preds_event_df_uncalib, model[1], 'uncalib')
	model_h.plot_roc_curve_by_event_type(
	preds_events_df_sig, model[1], 'sig')
	model_h.plot_roc_curve_by_event_type(
	preds_events_df_iso, model[1], 'iso')
	model_h.plot_roc_curve_by_event_type(
	preds_events_df_spline, model[1], 'spline')
	# Subset to each event type and plot PR curve
	model_h.plot_prec_recall_by_event_type(
	preds_event_df_uncalib, model[1], 'uncalib')
	model_h.plot_prec_recall_by_event_type(
	preds_events_df_sig, model[1], 'sig')
	model_h.plot_prec_recall_by_event_type(
	preds_events_df_iso, model[1], 'iso')
	model_h.plot_prec_recall_by_event_type(
	preds_events_df_spline, model[1], 'spline')


	#### SHAP ####
	if model[1] not in ['dummy_classifier']:
	### Uncalibrated model ###
	# Get the average SHAP values from CV folds for uncalibrated model
	shap_values_v_uncal, shap_values_t_uncal = model_h.get_uncalibrated_shap(
	crossval['estimator'], test_features, train_features,
	train_data[features_list].columns,
	model[1], model_type)

	## Plot SHAP summary plots ##
	model_h.plot_averaged_summary_plot(
	shap_values_t_uncal,
	train_data[features_list],
	model[1], 'uncalib', model_type)

	## Plot SHAP interaction heatmap ##
	model_h.plot_shap_interaction_value_heatmap(
	crossval['estimator'], train_features,
	train_data[features_list].columns,
	model[1], model_type)

	### Calibrated models ###
	calib_models = {'sig':model_sig, 'iso':model_iso}
	for calib_model_name in calib_models:
	# Get the average SHAP values from CV folds for calibrated model
	shap_values_v, shap_values_t = model_h.get_calibrated_shap_by_classifier(
	calib_models[calib_model_name], test_features, train_features,
	train_data.drop(
	columns=['StudyId', 'ExacWithin3Months', 'IndexDate',
	'HospExacWithin3Months',
	'CommExacWithin3Months']).columns,
	calib_model_name, model[1], model_type)

	## Plot SHAP summary plots ##
	model_h.plot_averaged_summary_plot(
	shap_values_t,
	train_data.drop(
	columns=['StudyId', 'ExacWithin3Months', 'IndexDate',
	'HospExacWithin3Months','CommExacWithin3Months']),
	model[1], calib_model_name, model_type)

	## Get feature importance for local SHAP values ##
	feature_imp_df = model_h.get_local_shap_values(
	model[1], model_type, shap_values_v, test_features,
	calib_model_name,shap_ids_dir='./data/prediction_and_events/')
	feature_imp_df.to_csv(
	'./data/prediction_and_events/local_feature_imp_df' + model[1] +
	'_' + calib_model_name + '.csv')

	## Plot local SHAP plots ##
	test_feat_enc_conv = model_h.plot_local_shap(
	model[1], model_type, shap_values_v, test_features, train_features,
	calib_model_name,
	row_ids_to_plot=['missed', 'incorrect', 'correct'],
	artifact_dir=config['outputs']['artifact_dir'],
	shap_ids_dir='./data/prediction_and_events/',
	reverse_scaling_flag=False,
	convert_target_encodings=True, imputation=model[2],
	target_enc_path="./data/artifacts/target_encodings_" + model_type + ".json",
	return_enc_converted_df=False)


	"""
	### Plot SHAP dependency plots ###
	os.makedirs( "./tmp/dependence_plots", exist_ok=True)
	categorical_cols = [
	"DaysSinceLastExac_te", "FEV1PercentPredicted_te"]
	for categorical_col in categorical_cols:
	shap.dependence_plot(
	categorical_col, shap_values_v, test_feat_enc_conv,
	interaction_index=None, show=False)
	plt.tight_layout()
	plt.savefig(
	"./tmp/dependence_plots/dependence_plot_" + categorical_col
	+ "_" + model[1] + "_" + calib_model_name + file_suffix + ".png")
	plt.close()
	"""
	### Plot distribution of model scores for uncalibrated model ###
	model_h.plot_score_distribution(
	train_target, probabilities_cv, config['outputs']['artifact_dir'],
	model[1], model_type)

	"""
	### Permutation feature importance ###
	def calc_permutation_importance(model, features, target, scoring, n_repeats):
	permutation_imp = permutation_importance(model, features, target, random_state=0, scoring=scoring, n_repeats=n_repeats)
	for n, score in enumerate(permutation_imp):
	if n == 0:
	df = pd.DataFrame(data=permutation_imp[score]['importances_mean'], index=features.columns)
	df = df.rename(columns={0:score})
	else:
	df[score] = permutation_imp[score]['importances_mean']
	return df, permutation_imp
	def plot_permutation_feature_importance(permutation_imp_full, metric, col_names, n_repeats, train_or_test):
	os.makedirs("./tmp/permutation_feat_imp", exist_ok=True)
	sorted_importances_idx = permutation_imp_full[metric].importances_mean.argsort()
	importances = pd.DataFrame(
	permutation_imp_full[metric].importances[sorted_importances_idx].T,
	columns=col_names[sorted_importances_idx],
	)
	ax = importances.plot.box(vert=False, whis=10)
	ax.set_title("Permutation Importances(" + train_or_test + ")")
	ax.axvline(x=0, color="k", linestyle="--")
	ax.set_xlabel("Decrease in accuracy score")
	ax.figure.tight_layout()
	plt.savefig('./tmp/permutation_feat_imp/' + train_or_test + '_' + metric + '_repeats' + str(n_repeats) +'.png')

	from scipy.cluster import hierarchy
	from scipy.spatial.distance import squareform
	from scipy.stats import spearmanr
	full_dataset_feat = pd.concat([train_features, test_features], axis=0)
	print(train_features)
	print(full_dataset_feat)
	fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 8))
	corr = spearmanr(full_dataset_feat).correlation

	# Ensure the correlation matrix is symmetric
	corr = (corr + corr.T) / 2
	np.fill_diagonal(corr, 1)

	# We convert the correlation matrix to a distance matrix before performing
	# hierarchical clustering using Ward's linkage.
	distance_matrix = 1 - np.abs(corr)
	dist_linkage = hierarchy.ward(squareform(distance_matrix))
	dendro = hierarchy.dendrogram(
	dist_linkage, labels=full_dataset_feat.columns.to_list(), ax=ax1, leaf_rotation=90
	)
	dendro_idx = np.arange(0, len(dendro["ivl"]))

	ax2.imshow(corr[dendro["leaves"], :][:, dendro["leaves"]])
	ax2.set_xticks(dendro_idx)
	ax2.set_yticks(dendro_idx)
	ax2.set_xticklabels(dendro["ivl"], rotation="vertical")
	ax2.set_yticklabels(dendro["ivl"])
	_ = fig.tight_layout()
	plt.show()
	plt.close()

	#features_to_drop = ["TotalEngagementMRC", "NumCommExacPrior6mo", "WeekAvgCATQ2", "WeekAvgCATQ4"]

	#X_train_sel = train_features.drop(columns=features_to_drop)
	#X_test_sel = test_features.drop(columns=features_to_drop)

	from collections import defaultdict

	cluster_ids = hierarchy.fcluster(dist_linkage, 0.5, criterion="distance")
	cluster_id_to_feature_ids = defaultdict(list)
	for idx, cluster_id in enumerate(cluster_ids):
	cluster_id_to_feature_ids[cluster_id].append(idx)
	selected_features = [v[0] for v in cluster_id_to_feature_ids.values()]
	selected_features_names = full_dataset_feat.columns[selected_features]

	X_train_sel = train_features[selected_features_names]
	X_test_sel = test_features[selected_features_names]
	print(selected_features_names)
	# retrain
	# Perform calibration
	model_sig_perm = CalibratedClassifierCV(
	model[0], method='sigmoid',cv=cross_val_fold_indices)
	model_sig_perm.fit(X_train_sel, train_target)
	probs_sig = model_sig_perm.predict_proba(X_test_sel)[:, 1]
	probs_sig_2 = model_sig_perm.predict_proba(X_test_sel)
	preds_sig = model_sig_perm.predict(X_test_sel)
	print('before')
	print(calib_metrics_sig)
	# Generate metrics for calibrated model
	calib_metrics_sig = copd.calc_eval_metrics_for_model(
	test_target, preds_sig, probs_sig, 'sig')
	print(calib_metrics_sig)

	def plot_permutation_importance(clf, X, y, ax):
	result = permutation_importance(clf, X, y, n_repeats=10, random_state=42, n_jobs=2,scoring='average_precision')
	perm_sorted_idx = result.importances_mean.argsort()

	ax.boxplot(
	result.importances[perm_sorted_idx].T,
	vert=False,
	labels=X.columns[perm_sorted_idx],
	)
	ax.axvline(x=0, color="k", linestyle="--")
	return ax
	fig, ax = plt.subplots(figsize=(7, 6))
	plot_permutation_importance(model_sig_perm, X_test_sel, test_target, ax)
	ax.set_title("Permutation Importances on selected subset of features\n(test set)")
	ax.set_xlabel("Decrease in accuracy score")
	ax.figure.tight_layout()
	plt.savefig('./tmp/permutation_feat_imp.png')

	#for metric in ['f1', 'average_precision', 'roc_auc']:
	# for n_repeats in [5,10, 50]:
	# permutation_imp_train_df, permutation_imp_train_dict = calc_permutation_importance(model_sig, train_features, train_target, scoring=scoring, n_repeats=n_repeats)
	# plot_permutation_feature_importance(permutation_imp_train_dict, metric, train_features.columns, n_repeats, 'train')
	# for n_repeats in [5,10, 50]:
	# permutation_imp_test_df, permutation_imp_test_dict = calc_permutation_importance(model_sig, test_features, test_target, scoring=scoring, n_repeats=n_repeats)
	# plot_permutation_feature_importance(permutation_imp_test_dict, metric, test_features.columns, n_repeats, 'test')
	"""
	### Log metrics, parameters, and artifacts ###
	# Log metrics averaged across folds
	for score in scoring:
	mlflow.log_metric(score, crossval['test_' + score].mean())
	mlflow.log_metric(score + '_std', crossval['test_' + score].std())
	# Log metrics for calibrated models
	if model[1] != 'dummy_classifier':
	mlflow.log_metrics(uncalib_metrics_test_mean)
	mlflow.log_metrics(calib_metrics_sig)
	mlflow.log_metrics(calib_metrics_iso)
	mlflow.log_metrics(calib_metrics_spline)
	mlflow.log_metrics(metrics_by_event_type_uncalib)
	mlflow.log_metrics(metrics_by_event_type_sig)
	mlflow.log_metrics(metrics_by_event_type_iso)
	mlflow.log_metrics(metrics_by_event_type_spline)
	# Log model parameters
	params = model[0].get_params()
	for param in params:
	mlflow.log_param(param, params[param])
	# Log artifacts
	mlflow.log_artifacts(config['outputs']['artifact_dir'])

	# Save sig model
	with open('./data/model/trained_sig_' + model[1] + '_pkl', 'wb') as files:
	pickle.dump(model_sig, files)
	with open('./data/model/trained_iso_' + model[1] + '_pkl', 'wb') as files:
	pickle.dump(model_iso, files)
	with open('./data/model/trained_spline_' + model[1] + '_pkl', 'wb') as files:
	pickle.dump(spline_calib, files)

	mlflow.end_run()