Upload folder using huggingface_hub

714cf46 verified 21 days ago

26.5 kB

	import json
	from pathlib import Path

	import matplotlib.pyplot as plt
	import numpy as np
	import pandas as pd
	from tqdm import tqdm

	METRICS = ["lddt", "bb_lddt", "tm_score", "rmsd"]


	def compute_af3_metrics(preds, evals, name):
	metrics = {}

	top_model = None
	top_confidence = -1000
	for model_id in range(5):
	# Load confidence file
	confidence_file = (
	Path(preds) / f"seed-1_sample-{model_id}" / "summary_confidences.json"
	)
	with confidence_file.open("r") as f:
	confidence_data = json.load(f)
	confidence = confidence_data["ranking_score"]
	if confidence > top_confidence:
	top_model = model_id
	top_confidence = confidence

	# Load eval file
	eval_file = Path(evals) / f"{name}_model_{model_id}.json"
	with eval_file.open("r") as f:
	eval_data = json.load(f)
	for metric_name in METRICS:
	if metric_name in eval_data:
	metrics.setdefault(metric_name, []).append(eval_data[metric_name])

	if "dockq" in eval_data and eval_data["dockq"] is not None:
	metrics.setdefault("dockq_>0.23", []).append(
	np.mean(
	[float(v > 0.23) for v in eval_data["dockq"] if v is not None]
	)
	)
	metrics.setdefault("dockq_>0.49", []).append(
	np.mean(
	[float(v > 0.49) for v in eval_data["dockq"] if v is not None]
	)
	)
	metrics.setdefault("len_dockq_", []).append(
	len([v for v in eval_data["dockq"] if v is not None])
	)

	eval_file = Path(evals) / f"{name}_model_{model_id}_ligand.json"
	with eval_file.open("r") as f:
	eval_data = json.load(f)
	if "lddt_pli" in eval_data:
	lddt_plis = [
	x["score"] for x in eval_data["lddt_pli"]["assigned_scores"]
	]
	for _ in eval_data["lddt_pli"][
	"model_ligand_unassigned_reason"
	].items():
	lddt_plis.append(0)
	if not lddt_plis:
	continue
	lddt_pli = np.mean([x for x in lddt_plis])
	metrics.setdefault("lddt_pli", []).append(lddt_pli)
	metrics.setdefault("len_lddt_pli", []).append(len(lddt_plis))

	if "rmsd" in eval_data:
	rmsds = [x["score"] for x in eval_data["rmsd"]["assigned_scores"]]
	for _ in eval_data["rmsd"]["model_ligand_unassigned_reason"].items():
	rmsds.append(100)
	if not rmsds:
	continue
	rmsd2 = np.mean([x < 2.0 for x in rmsds])
	rmsd5 = np.mean([x < 5.0 for x in rmsds])
	metrics.setdefault("rmsd<2", []).append(rmsd2)
	metrics.setdefault("rmsd<5", []).append(rmsd5)
	metrics.setdefault("len_rmsd", []).append(len(rmsds))

	# Get oracle
	oracle = {k: min(v) if k == "rmsd" else max(v) for k, v in metrics.items()}
	avg = {k: sum(v) / len(v) for k, v in metrics.items()}
	top1 = {k: v[top_model] for k, v in metrics.items()}

	results = {}
	for metric_name in metrics:
	if metric_name.startswith("len_"):
	continue
	if metric_name == "lddt_pli":
	l = metrics["len_lddt_pli"][0]
	elif metric_name == "rmsd<2" or metric_name == "rmsd<5":
	l = metrics["len_rmsd"][0]
	elif metric_name == "dockq_>0.23" or metric_name == "dockq_>0.49":
	l = metrics["len_dockq_"][0]
	else:
	l = 1
	results[metric_name] = {
	"oracle": oracle[metric_name],
	"average": avg[metric_name],
	"top1": top1[metric_name],
	"len": l,
	}

	return results


	def compute_chai_metrics(preds, evals, name):
	metrics = {}

	top_model = None
	top_confidence = 0
	for model_id in range(5):
	# Load confidence file
	confidence_file = Path(preds) / f"scores.model_idx_{model_id}.npz"
	confidence_data = np.load(confidence_file)
	confidence = confidence_data["aggregate_score"].item()
	if confidence > top_confidence:
	top_model = model_id
	top_confidence = confidence

	# Load eval file
	eval_file = Path(evals) / f"{name}_model_{model_id}.json"
	with eval_file.open("r") as f:
	eval_data = json.load(f)
	for metric_name in METRICS:
	if metric_name in eval_data:
	metrics.setdefault(metric_name, []).append(eval_data[metric_name])

	if "dockq" in eval_data and eval_data["dockq"] is not None:
	metrics.setdefault("dockq_>0.23", []).append(
	np.mean(
	[float(v > 0.23) for v in eval_data["dockq"] if v is not None]
	)
	)
	metrics.setdefault("dockq_>0.49", []).append(
	np.mean(
	[float(v > 0.49) for v in eval_data["dockq"] if v is not None]
	)
	)
	metrics.setdefault("len_dockq_", []).append(
	len([v for v in eval_data["dockq"] if v is not None])
	)

	eval_file = Path(evals) / f"{name}_model_{model_id}_ligand.json"
	with eval_file.open("r") as f:
	eval_data = json.load(f)
	if "lddt_pli" in eval_data:
	lddt_plis = [
	x["score"] for x in eval_data["lddt_pli"]["assigned_scores"]
	]
	for _ in eval_data["lddt_pli"][
	"model_ligand_unassigned_reason"
	].items():
	lddt_plis.append(0)
	if not lddt_plis:
	continue
	lddt_pli = np.mean([x for x in lddt_plis])
	metrics.setdefault("lddt_pli", []).append(lddt_pli)
	metrics.setdefault("len_lddt_pli", []).append(len(lddt_plis))

	if "rmsd" in eval_data:
	rmsds = [x["score"] for x in eval_data["rmsd"]["assigned_scores"]]
	for _ in eval_data["rmsd"]["model_ligand_unassigned_reason"].items():
	rmsds.append(100)
	if not rmsds:
	continue
	rmsd2 = np.mean([x < 2.0 for x in rmsds])
	rmsd5 = np.mean([x < 5.0 for x in rmsds])
	metrics.setdefault("rmsd<2", []).append(rmsd2)
	metrics.setdefault("rmsd<5", []).append(rmsd5)
	metrics.setdefault("len_rmsd", []).append(len(rmsds))

	# Get oracle
	oracle = {k: min(v) if k == "rmsd" else max(v) for k, v in metrics.items()}
	avg = {k: sum(v) / len(v) for k, v in metrics.items()}
	top1 = {k: v[top_model] for k, v in metrics.items()}

	results = {}
	for metric_name in metrics:
	if metric_name.startswith("len_"):
	continue
	if metric_name == "lddt_pli":
	l = metrics["len_lddt_pli"][0]
	elif metric_name == "rmsd<2" or metric_name == "rmsd<5":
	l = metrics["len_rmsd"][0]
	elif metric_name == "dockq_>0.23" or metric_name == "dockq_>0.49":
	l = metrics["len_dockq_"][0]
	else:
	l = 1
	results[metric_name] = {
	"oracle": oracle[metric_name],
	"average": avg[metric_name],
	"top1": top1[metric_name],
	"len": l,
	}

	return results


	def compute_boltz_metrics(preds, evals, name):
	metrics = {}

	top_model = None
	top_confidence = 0
	for model_id in range(5):
	# Load confidence file
	confidence_file = (
	Path(preds) / f"confidence_{Path(preds).name}_model_{model_id}.json"
	)
	with confidence_file.open("r") as f:
	confidence_data = json.load(f)
	confidence = confidence_data["confidence_score"]
	if confidence > top_confidence:
	top_model = model_id
	top_confidence = confidence

	# Load eval file
	eval_file = Path(evals) / f"{name}_model_{model_id}.json"
	with eval_file.open("r") as f:
	eval_data = json.load(f)
	for metric_name in METRICS:
	if metric_name in eval_data:
	metrics.setdefault(metric_name, []).append(eval_data[metric_name])

	if "dockq" in eval_data and eval_data["dockq"] is not None:
	metrics.setdefault("dockq_>0.23", []).append(
	np.mean(
	[float(v > 0.23) for v in eval_data["dockq"] if v is not None]
	)
	)
	metrics.setdefault("dockq_>0.49", []).append(
	np.mean(
	[float(v > 0.49) for v in eval_data["dockq"] if v is not None]
	)
	)
	metrics.setdefault("len_dockq_", []).append(
	len([v for v in eval_data["dockq"] if v is not None])
	)

	eval_file = Path(evals) / f"{name}_model_{model_id}_ligand.json"
	with eval_file.open("r") as f:
	eval_data = json.load(f)
	if "lddt_pli" in eval_data:
	lddt_plis = [
	x["score"] for x in eval_data["lddt_pli"]["assigned_scores"]
	]
	for _ in eval_data["lddt_pli"][
	"model_ligand_unassigned_reason"
	].items():
	lddt_plis.append(0)
	if not lddt_plis:
	continue
	lddt_pli = np.mean([x for x in lddt_plis])
	metrics.setdefault("lddt_pli", []).append(lddt_pli)
	metrics.setdefault("len_lddt_pli", []).append(len(lddt_plis))

	if "rmsd" in eval_data:
	rmsds = [x["score"] for x in eval_data["rmsd"]["assigned_scores"]]
	for _ in eval_data["rmsd"]["model_ligand_unassigned_reason"].items():
	rmsds.append(100)
	if not rmsds:
	continue
	rmsd2 = np.mean([x < 2.0 for x in rmsds])
	rmsd5 = np.mean([x < 5.0 for x in rmsds])
	metrics.setdefault("rmsd<2", []).append(rmsd2)
	metrics.setdefault("rmsd<5", []).append(rmsd5)
	metrics.setdefault("len_rmsd", []).append(len(rmsds))

	# Get oracle
	oracle = {k: min(v) if k == "rmsd" else max(v) for k, v in metrics.items()}
	avg = {k: sum(v) / len(v) for k, v in metrics.items()}
	top1 = {k: v[top_model] for k, v in metrics.items()}

	results = {}
	for metric_name in metrics:
	if metric_name.startswith("len_"):
	continue
	if metric_name == "lddt_pli":
	l = metrics["len_lddt_pli"][0]
	elif metric_name == "rmsd<2" or metric_name == "rmsd<5":
	l = metrics["len_rmsd"][0]
	elif metric_name == "dockq_>0.23" or metric_name == "dockq_>0.49":
	l = metrics["len_dockq_"][0]
	else:
	l = 1
	results[metric_name] = {
	"oracle": oracle[metric_name],
	"average": avg[metric_name],
	"top1": top1[metric_name],
	"len": l,
	}

	return results


	def eval_models(
	chai_preds,
	chai_evals,
	af3_preds,
	af3_evals,
	boltz_preds,
	boltz_evals,
	boltz_preds_x,
	boltz_evals_x,
	):
	# Load preds and make sure we have predictions for all models
	chai_preds_names = {
	x.name.lower(): x
	for x in Path(chai_preds).iterdir()
	if not x.name.lower().startswith(".")
	}
	af3_preds_names = {
	x.name.lower(): x
	for x in Path(af3_preds).iterdir()
	if not x.name.lower().startswith(".")
	}
	boltz_preds_names = {
	x.name.lower(): x
	for x in Path(boltz_preds).iterdir()
	if not x.name.lower().startswith(".")
	}
	boltz_preds_names_x = {
	x.name.lower(): x
	for x in Path(boltz_preds_x).iterdir()
	if not x.name.lower().startswith(".")
	}

	print("Chai preds", len(chai_preds_names))
	print("Af3 preds", len(af3_preds_names))
	print("Boltz preds", len(boltz_preds_names))
	print("Boltzx preds", len(boltz_preds_names_x))

	common = (
	set(chai_preds_names.keys())
	& set(af3_preds_names.keys())
	& set(boltz_preds_names.keys())
	& set(boltz_preds_names_x.keys())
	)

	# Remove examples in the validation set
	keys_to_remove = ["t1133", "h1134", "r1134s1", "t1134s2", "t1121", "t1123", "t1159"]
	for key in keys_to_remove:
	if key in common:
	common.remove(key)
	print("Common", len(common))

	# Create a dataframe with the following schema:
	# tool, name, metric, oracle, average, top1
	results = []
	for name in tqdm(common):
	try:
	af3_results = compute_af3_metrics(
	af3_preds_names[name],
	af3_evals,
	name,
	)

	except Exception as e:
	import traceback

	traceback.print_exc()
	print(f"Error evaluating AF3 {name}: {e}")
	continue
	try:
	chai_results = compute_chai_metrics(
	chai_preds_names[name],
	chai_evals,
	name,
	)
	except Exception as e:
	import traceback

	traceback.print_exc()
	print(f"Error evaluating Chai {name}: {e}")
	continue
	try:
	boltz_results = compute_boltz_metrics(
	boltz_preds_names[name],
	boltz_evals,
	name,
	)
	except Exception as e:
	import traceback

	traceback.print_exc()
	print(f"Error evaluating Boltz {name}: {e}")
	continue

	try:
	boltz_results_x = compute_boltz_metrics(
	boltz_preds_names_x[name],
	boltz_evals_x,
	name,
	)
	except Exception as e:
	import traceback

	traceback.print_exc()
	print(f"Error evaluating Boltzx {name}: {e}")
	continue

	for metric_name in af3_results:
	if metric_name in chai_results and metric_name in boltz_results:
	if (
	(
	af3_results[metric_name]["len"]
	== chai_results[metric_name]["len"]
	)
	and (
	af3_results[metric_name]["len"]
	== boltz_results[metric_name]["len"]
	)
	and (
	af3_results[metric_name]["len"]
	== boltz_results_x[metric_name]["len"]
	)
	):
	results.append(
	{
	"tool": "AF3 oracle",
	"target": name,
	"metric": metric_name,
	"value": af3_results[metric_name]["oracle"],
	}
	)
	results.append(
	{
	"tool": "AF3 top-1",
	"target": name,
	"metric": metric_name,
	"value": af3_results[metric_name]["top1"],
	}
	)
	results.append(
	{
	"tool": "Chai-1 oracle",
	"target": name,
	"metric": metric_name,
	"value": chai_results[metric_name]["oracle"],
	}
	)
	results.append(
	{
	"tool": "Chai-1 top-1",
	"target": name,
	"metric": metric_name,
	"value": chai_results[metric_name]["top1"],
	}
	)
	results.append(
	{
	"tool": "Boltz-1 oracle",
	"target": name,
	"metric": metric_name,
	"value": boltz_results[metric_name]["oracle"],
	}
	)
	results.append(
	{
	"tool": "Boltz-1 top-1",
	"target": name,
	"metric": metric_name,
	"value": boltz_results[metric_name]["top1"],
	}
	)
	results.append(
	{
	"tool": "Boltz-1x oracle",
	"target": name,
	"metric": metric_name,
	"value": boltz_results_x[metric_name]["oracle"],
	}
	)
	results.append(
	{
	"tool": "Boltz-1x top-1",
	"target": name,
	"metric": metric_name,
	"value": boltz_results_x[metric_name]["top1"],
	}
	)
	else:
	print(
	"Different lengths",
	name,
	metric_name,
	af3_results[metric_name]["len"],
	chai_results[metric_name]["len"],
	boltz_results[metric_name]["len"],
	boltz_results_x[metric_name]["len"],
	)
	else:
	print(
	"Missing metric",
	name,
	metric_name,
	metric_name in chai_results,
	metric_name in boltz_results,
	metric_name in boltz_results_x,
	)

	# Write the results to a file, ensure we only keep the target & metrics where we have all tools
	df = pd.DataFrame(results)
	return df


	def eval_validity_checks(df):
	# Filter the dataframe to only include the targets in the validity checks
	name_mapping = {
	"af3": "AF3 top-1",
	"chai": "Chai-1 top-1",
	"boltz1": "Boltz-1 top-1",
	"boltz1x": "Boltz-1x top-1",
	}
	top1 = df[df["model_idx"] == 0]
	top1 = top1[["tool", "pdb_id", "valid"]]
	top1["tool"] = top1["tool"].apply(lambda x: name_mapping[x])
	top1 = top1.rename(columns={"tool": "tool", "pdb_id": "target", "valid": "value"})
	top1["metric"] = "physical validity"
	top1["target"] = top1["target"].apply(lambda x: x.lower())
	top1 = top1[["tool", "target", "metric", "value"]]

	name_mapping = {
	"af3": "AF3 oracle",
	"chai": "Chai-1 oracle",
	"boltz1": "Boltz-1 oracle",
	"boltz1x": "Boltz-1x oracle",
	}
	oracle = df[["tool", "model_idx", "pdb_id", "valid"]]
	oracle = oracle.groupby(["tool", "pdb_id"])["valid"].max().reset_index()
	oracle = oracle.rename(
	columns={"tool": "tool", "pdb_id": "target", "valid": "value"}
	)
	oracle["tool"] = oracle["tool"].apply(lambda x: name_mapping[x])
	oracle["metric"] = "physical validity"
	oracle = oracle[["tool", "target", "metric", "value"]]
	oracle["target"] = oracle["target"].apply(lambda x: x.lower())
	out = pd.concat([top1, oracle])
	return out


	def bootstrap_ci(series, n_boot=1000, alpha=0.05):
	"""
	Compute 95% bootstrap confidence intervals for the mean of 'series'.
	"""
	n = len(series)
	boot_means = []
	# Perform bootstrap resampling
	for _ in range(n_boot):
	sample = series.sample(n, replace=True)
	boot_means.append(sample.mean())

	boot_means = np.array(boot_means)
	mean_val = np.mean(series)
	lower = np.percentile(boot_means, 100 * alpha / 2)
	upper = np.percentile(boot_means, 100 * (1 - alpha / 2))
	return mean_val, lower, upper


	def plot_data(desired_tools, desired_metrics, df, dataset, filename):
	filtered_df = df[
	df["tool"].isin(desired_tools) & df["metric"].isin(desired_metrics)
	]

	# Apply bootstrap to each (tool, metric) group
	boot_stats = filtered_df.groupby(["tool", "metric"])["value"].apply(bootstrap_ci)

	# boot_stats is a Series of tuples (mean, lower, upper). Convert to DataFrame:
	boot_stats = boot_stats.apply(pd.Series)
	boot_stats.columns = ["mean", "lower", "upper"]

	# Unstack to get a DataFrame suitable for plotting
	plot_data = boot_stats["mean"].unstack("tool")
	plot_data = plot_data.reindex(desired_metrics)

	lower_data = boot_stats["lower"].unstack("tool")
	lower_data = lower_data.reindex(desired_metrics)

	upper_data = boot_stats["upper"].unstack("tool")
	upper_data = upper_data.reindex(desired_metrics)

	# If you need a specific order of tools:
	tool_order = [
	"AF3 oracle",
	"AF3 top-1",
	"Chai-1 oracle",
	"Chai-1 top-1",
	"Boltz-1 oracle",
	"Boltz-1 top-1",
	"Boltz-1x oracle",
	"Boltz-1x top-1",
	]
	plot_data = plot_data[tool_order]
	lower_data = lower_data[tool_order]
	upper_data = upper_data[tool_order]

	# Rename metrics
	renaming = {
	"lddt_pli": "Mean LDDT-PLI",
	"rmsd<2": "L-RMSD < 2A",
	"lddt": "Mean LDDT",
	"dockq_>0.23": "DockQ > 0.23",
	"physical validity": "Physical Validity",
	}
	plot_data = plot_data.rename(index=renaming)
	lower_data = lower_data.rename(index=renaming)
	upper_data = upper_data.rename(index=renaming)
	mean_vals = plot_data.values

	# Colors
	tool_colors = [
	"#994C00", # AF3 oracle
	"#FFB55A", # AF3 top-1
	"#931652", # Chai-1 oracle
	"#FC8AD9", # Chai-1 top-1
	"#188F52", # Boltz-1 oracle
	"#86E935", # Boltz-1 top-1
	"#004D80", # Boltz-1x oracle
	"#55C2FF", # Boltz-1x top-1
	]

	fig, ax = plt.subplots(figsize=(10, 5))

	x = np.arange(len(plot_data.index))
	bar_spacing = 0.015
	total_width = 0.7
	# Adjust width to account for the spacing
	width = (total_width - (len(tool_order) - 1) * bar_spacing) / len(tool_order)

	for i, tool in enumerate(tool_order):
	# Each subsequent bar moves over by width + bar_spacing
	offsets = x - (total_width - width) / 2 + i * (width + bar_spacing)
	# Extract the means and errors for this tool
	tool_means = plot_data[tool].values
	tool_yerr_lower = mean_vals[:, i] - lower_data.values[:, i]
	tool_yerr_upper = upper_data.values[:, i] - mean_vals[:, i]
	# Construct yerr array specifically for this tool
	tool_yerr = np.vstack([tool_yerr_lower, tool_yerr_upper])

	ax.bar(
	offsets,
	tool_means,
	width=width,
	color=tool_colors[i],
	label=tool,
	yerr=tool_yerr,
	capsize=2,
	error_kw={"elinewidth": 0.75},
	)

	ax.set_xticks(x)
	ax.set_xticklabels(plot_data.index, rotation=0)
	ax.set_ylabel("Value")
	ax.set_title(f"Performances on {dataset} with 95% CI (Bootstrap)")

	plt.tight_layout()
	ax.legend(loc="lower center", bbox_to_anchor=(0.5, 0.85), ncols=4, frameon=False)

	plt.savefig(filename)
	plt.show()


	def main():
	eval_folder = "../../boltz_results_final/"
	output_folder = "../../boltz_results_final/"

	# Eval the test set
	chai_preds = eval_folder + "outputs/test/chai"
	chai_evals = eval_folder + "evals/test/chai"

	af3_preds = eval_folder + "outputs/test/af3"
	af3_evals = eval_folder + "evals/test/af3"

	boltz_preds = eval_folder + "outputs/test/boltz/predictions"
	boltz_evals = eval_folder + "evals/test/boltz"

	boltz_preds_x = eval_folder + "outputs/test/boltzx/predictions"
	boltz_evals_x = eval_folder + "evals/test/boltzx"

	validity_checks = eval_folder + "physical_checks_test.csv"

	df_validity_checks = pd.read_csv(validity_checks)
	df_validity_checks = eval_validity_checks(df_validity_checks)

	df = eval_models(
	chai_preds,
	chai_evals,
	af3_preds,
	af3_evals,
	boltz_preds,
	boltz_evals,
	boltz_preds_x,
	boltz_evals_x,
	)

	df = pd.concat([df, df_validity_checks]).reset_index(drop=True)
	df.to_csv(output_folder + "results_test.csv", index=False)

	desired_tools = [
	"AF3 oracle",
	"AF3 top-1",
	"Chai-1 oracle",
	"Chai-1 top-1",
	"Boltz-1 oracle",
	"Boltz-1 top-1",
	"Boltz-1x oracle",
	"Boltz-1x top-1",
	]
	desired_metrics = ["lddt", "dockq_>0.23", "lddt_pli", "rmsd<2", "physical validity"]
	plot_data(
	desired_tools, desired_metrics, df, "PDB Test", output_folder + "plot_test.pdf"
	)

	# Eval CASP
	chai_preds = eval_folder + "outputs/casp15/chai"
	chai_evals = eval_folder + "evals/casp15/chai"

	af3_preds = eval_folder + "outputs/casp15/af3"
	af3_evals = eval_folder + "evals/casp15/af3"

	boltz_preds = eval_folder + "outputs/casp15/boltz/predictions"
	boltz_evals = eval_folder + "evals/casp15/boltz"

	boltz_preds_x = eval_folder + "outputs/casp15/boltzx/predictions"
	boltz_evals_x = eval_folder + "evals/casp15/boltzx"

	validity_checks = eval_folder + "physical_checks_casp.csv"

	df_validity_checks = pd.read_csv(validity_checks)
	df_validity_checks = eval_validity_checks(df_validity_checks)

	df = eval_models(
	chai_preds,
	chai_evals,
	af3_preds,
	af3_evals,
	boltz_preds,
	boltz_evals,
	boltz_preds_x,
	boltz_evals_x,
	)

	df = pd.concat([df, df_validity_checks]).reset_index(drop=True)
	df.to_csv(output_folder + "results_casp.csv", index=False)

	plot_data(
	desired_tools, desired_metrics, df, "CASP15", output_folder + "plot_casp.pdf"
	)


	if __name__ == "__main__":
	main()