Spaces:

alibtsd
/

FlowProt

Running

App Files Files Community

FlowProt / self_consistency.py

alibtsd

Deploy FlowProt Docker Space

f34af6f verified 20 days ago

Raw

History Blame Contribute Delete

17.9 kB

	"""Self-consistency evaluation using ProteinMPNN and ESMFold."""

	from __future__ import annotations

	import csv
	import json
	import logging
	import os
	import shutil
	import subprocess
	import sys
	from dataclasses import dataclass
	from datetime import datetime
	from pathlib import Path
	from typing import Dict, List, Optional, Tuple

	import numpy as np

	from model_loader import REPO_ROOT

	LOGGER = logging.getLogger(__name__)
	SKIP_REFERENCE_SEQUENCE = True


	class SelfConsistencyError(RuntimeError):
	"""Raised when self-consistency evaluation fails."""


	@dataclass
	class SelfConsistencyResult:
	sample_path: str
	run_dir: str
	parsed_pdbs_jsonl: str
	mpnn_fasta_path: str
	run_folding: bool
	metrics_csv_path: Optional[str]
	folded_pdb_paths: List[str]
	per_sequence_metrics: List[Dict[str, object]]
	summary: Dict[str, object]


	def _as_path(path_value: str) -> Path:
	raw = Path(path_value).expanduser()
	return raw if raw.is_absolute() else (REPO_ROOT / raw).resolve()


	def _safe_mean(values: List[float]) -> Optional[float]:
	return float(np.mean(values)) if values else None


	def _mean_bfactor_from_pdb(pdb_path: Path) -> Optional[float]:
	values: List[float] = []
	for line in pdb_path.read_text(encoding="utf-8", errors="replace").splitlines():
	if not (line.startswith("ATOM") or line.startswith("HETATM")):
	continue
	field = line[60:66].strip()
	if not field:
	continue
	try:
	values.append(float(field))
	except ValueError:
	continue
	return _safe_mean(values)


	def _read_fasta(path: Path) -> List[Tuple[str, str]]:
	if not path.exists():
	raise SelfConsistencyError(f"ProteinMPNN FASTA output not found: {path}")

	entries: List[Tuple[str, str]] = []
	header: Optional[str] = None
	seq_lines: List[str] = []
	for raw_line in path.read_text(encoding="utf-8", errors="replace").splitlines():
	line = raw_line.strip()
	if not line:
	continue
	if line.startswith(">"):
	if header is not None:
	entries.append((header, "".join(seq_lines)))
	header = line[1:].strip()
	seq_lines = []
	continue
	seq_lines.append(line)

	if header is not None:
	entries.append((header, "".join(seq_lines)))

	if not entries:
	raise SelfConsistencyError(f"ProteinMPNN FASTA output had no sequences: {path}")
	return entries


	def _calc_tm_score(pos_1, pos_2, seq_1: str, seq_2: str) -> Tuple[float, float]:
	try:
	from tmtools import tm_align
	except ImportError as exc: # pragma: no cover
	raise SelfConsistencyError(
	"tmtools is required for scTM calculation. Install `tmtools`."
	) from exc
	tm_results = tm_align(pos_1, pos_2, seq_1, seq_2)
	return float(tm_results.tm_norm_chain1), float(tm_results.tm_norm_chain2)


	def _calc_aligned_rmsd(pos_1, pos_2) -> float:
	try:
	from utils import new_pdbUtils as du
	except ModuleNotFoundError as exc: # pragma: no cover
	raise SelfConsistencyError(
	"Missing dependency for structure parsing/alignment. "
	"Install `biopython` (module `Bio`) and re-run self-consistency."
	) from exc

	aligned = du.rigid_transform_3D(pos_1, pos_2)[0]
	return float(np.mean(np.linalg.norm(aligned - pos_2, axis=-1)))


	class FlowProtSelfConsistencyService:
	"""Runs self-consistency metrics for generated structures."""

	def __init__(self) -> None:
	self._pmpnn_dir = _as_path(os.getenv("FLOWPROT_PMPNN_DIR", "model/ProteinMPNN"))
	self._pmpnn_weights_dir = _as_path(
	os.getenv(
	"FLOWPROT_PMPNN_WEIGHTS_DIR",
	str(self._pmpnn_dir / "vanilla_model_weights"),
	)
	)
	self._pmpnn_model_name = os.getenv("FLOWPROT_PMPNN_MODEL_NAME", "v_48_020")
	self._esmfold_model_id = os.getenv("FLOWPROT_ESMFOLD_MODEL_ID", "facebook/esmfold_v1")
	self._requested_device = os.getenv("FLOWPROT_SC_DEVICE", "auto").strip().lower()
	self._seed = int(os.getenv("FLOWPROT_SC_SEED", "123"))
	self._folding_model = None
	self._tokenizer = None
	self._folding_device = None

	def health_check(self) -> Dict[str, object]:
	return {
	"pmpnn_dir": str(self._pmpnn_dir),
	"pmpnn_available": self._pmpnn_dir.exists(),
	"pmpnn_weights_dir": str(self._pmpnn_weights_dir),
	"pmpnn_weights_available": self._pmpnn_weights_dir.exists(),
	"pmpnn_model_name": self._pmpnn_model_name,
	"esmfold_model_id": self._esmfold_model_id,
	"sc_device": self._requested_device,
	"folding_model_loaded": self._folding_model is not None,
	"folding_device": self._folding_device,
	}

	def run(
	self,
	sample_path: str,
	num_seq_per_target: int = 4,
	run_folding: bool = True,
	progress_callback=None,
	) -> SelfConsistencyResult:
	sample_file = Path(sample_path).expanduser().resolve()
	if not sample_file.exists() or not sample_file.is_file():
	raise SelfConsistencyError(f"Sample PDB does not exist: {sample_file}")
	if num_seq_per_target < 1 or num_seq_per_target > 64:
	raise SelfConsistencyError("num_seq_per_target must be in [1, 64].")

	parse_script = self._pmpnn_dir / "helper_scripts" / "parse_multiple_chains.py"
	pmpnn_script = self._pmpnn_dir / "protein_mpnn_run.py"
	if not parse_script.exists() or not pmpnn_script.exists():
	raise SelfConsistencyError(
	"ProteinMPNN scripts not found. Set FLOWPROT_PMPNN_DIR to a valid directory."
	)
	if not self._pmpnn_weights_dir.exists():
	raise SelfConsistencyError(
	"ProteinMPNN weights directory not found. "
	"Set FLOWPROT_PMPNN_WEIGHTS_DIR to a valid model weights directory."
	)

	run_stamp = datetime.utcnow().strftime("%Y%m%d_%H%M%S")
	run_dir = sample_file.parent / "self_consistency" / run_stamp
	run_dir.mkdir(parents=True, exist_ok=True)
	(run_dir / "seqs").mkdir(parents=True, exist_ok=True)
	copied_sample = run_dir / sample_file.name
	shutil.copy2(sample_file, copied_sample)

	parsed_pdbs_jsonl = run_dir / "parsed_pdbs.jsonl"
	self._run_command(
	[
	sys.executable,
	str(parse_script),
	f"--input_path={run_dir.as_posix()}",
	f"--output_path={parsed_pdbs_jsonl.as_posix()}",
	]
	)
	self._sanitize_parsed_jsonl(parsed_pdbs_jsonl)

	pmpnn_args = [
	sys.executable,
	str(pmpnn_script),
	"--out_folder",
	run_dir.as_posix(),
	"--jsonl_path",
	parsed_pdbs_jsonl.as_posix(),
	"--num_seq_per_target",
	str(num_seq_per_target),
	"--sampling_temp",
	"0.1",
	"--seed",
	str(self._seed),
	"--batch_size",
	"1",
	"--path_to_model_weights",
	self._pmpnn_weights_dir.as_posix(),
	"--model_name",
	self._pmpnn_model_name,
	]
	device_for_mpnn = self._resolve_device()
	if device_for_mpnn.startswith("cuda"):
	gpu_id = device_for_mpnn.split(":")[1] if ":" in device_for_mpnn else "0"
	pmpnn_args.extend(["--device", gpu_id])
	self._run_command(pmpnn_args)

	mpnn_fasta_path = run_dir / "seqs" / sample_file.name.replace(".pdb", ".fa")
	sequences = _read_fasta(mpnn_fasta_path)

	folded_pdb_paths: List[str] = []
	per_sequence_metrics: List[Dict[str, object]] = []
	metrics_csv_path: Optional[str] = None

	if run_folding:
	try:
	from utils import new_pdbUtils as du
	except ModuleNotFoundError as exc:
	raise SelfConsistencyError(
	"Missing dependency for ESMFold metric computation: module `Bio` not found. "
	"Install requirements in your runtime environment (e.g. `pip install -r requirements.txt`)."
	) from exc

	esmf_dir = run_dir / "esmf"
	esmf_dir.mkdir(parents=True, exist_ok=True)
	reference_feats = du.parse_pdb_feats("sample", str(copied_sample))
	reference_bb = reference_feats["bb_positions"]
	reference_seq = du.aatype_to_seq(reference_feats["aatype"])

	fold_total = max(
	len(sequences) - (1 if SKIP_REFERENCE_SEQUENCE and sequences else 0), 0
	)
	fold_done = 0
	for idx, (header, sequence) in enumerate(sequences):
	if SKIP_REFERENCE_SEQUENCE and idx == 0:
	continue
	if progress_callback is not None:
	progress_callback(fold_done, fold_total)
	folded_path = esmf_dir / f"sample_{idx}.pdb"
	self._run_folding(sequence=sequence, save_path=folded_path)
	folded_feats = du.parse_pdb_feats("folded_sample", str(folded_path))
	_, tm_score = _calc_tm_score(
	reference_bb,
	folded_feats["bb_positions"],
	reference_seq,
	reference_seq,
	)
	rmsd = _calc_aligned_rmsd(reference_bb, folded_feats["bb_positions"])
	mean_plddt = _mean_bfactor_from_pdb(folded_path)
	folded_pdb_paths.append(str(folded_path))
	per_sequence_metrics.append(
	{
	"index": idx,
	"header": header,
	"sequence": sequence,
	"scTM": float(tm_score),
	"scRMSD": float(rmsd),
	"esmfold_mean_plddt": mean_plddt,
	"folded_sample_path": str(folded_path),
	}
	)
	fold_done += 1
	if progress_callback is not None:
	progress_callback(fold_done, fold_total)

	metrics_csv_path = str(run_dir / "sc_results.csv")
	with Path(metrics_csv_path).open("w", encoding="utf-8", newline="") as handle:
	writer = csv.DictWriter(
	handle,
	fieldnames=[
	"index",
	"header",
	"sequence",
	"scTM",
	"scRMSD",
	"esmfold_mean_plddt",
	"folded_sample_path",
	],
	)
	writer.writeheader()
	writer.writerows(per_sequence_metrics)

	skipped_sequences = 1 if (SKIP_REFERENCE_SEQUENCE and len(sequences) > 0) else 0
	target_sequences = max(len(sequences) - skipped_sequences, 0)
	summary: Dict[str, object] = {
	"sample_path": str(sample_file),
	"run_dir": str(run_dir),
	"num_sequences_total": len(sequences),
	"num_sequences_targeted": target_sequences,
	"num_sequences_evaluated": len(per_sequence_metrics) if run_folding else target_sequences,
	"skipped_reference_sequence": bool(SKIP_REFERENCE_SEQUENCE),
	"run_folding": bool(run_folding),
	}
	if per_sequence_metrics:
	tm_values = [float(item["scTM"]) for item in per_sequence_metrics]
	rmsd_values = [float(item["scRMSD"]) for item in per_sequence_metrics]
	plddt_values = [
	float(item["esmfold_mean_plddt"])
	for item in per_sequence_metrics
	if item.get("esmfold_mean_plddt") is not None
	]
	summary.update(
	{
	"mean_scTM": _safe_mean(tm_values),
	"max_scTM": max(tm_values),
	"min_scTM": min(tm_values),
	"mean_scRMSD": _safe_mean(rmsd_values),
	"min_scRMSD": min(rmsd_values),
	"max_scRMSD": max(rmsd_values),
	"mean_esmfold_plddt": _safe_mean(plddt_values),
	}
	)

	return SelfConsistencyResult(
	sample_path=str(sample_file),
	run_dir=str(run_dir),
	parsed_pdbs_jsonl=str(parsed_pdbs_jsonl),
	mpnn_fasta_path=str(mpnn_fasta_path),
	run_folding=bool(run_folding),
	metrics_csv_path=metrics_csv_path,
	folded_pdb_paths=folded_pdb_paths,
	per_sequence_metrics=per_sequence_metrics,
	summary=summary,
	)

	def _run_command(self, args: List[str]) -> None:
	LOGGER.info("Running command: %s", " ".join(args))
	process = subprocess.Popen(args, stdout=subprocess.PIPE, stderr=subprocess.STDOUT, text=True)
	stdout, _ = process.communicate()
	if process.returncode != 0:
	LOGGER.error("Command failed (%s): %s", process.returncode, " ".join(args))
	raise SelfConsistencyError(
	f"Command failed ({process.returncode}): {' '.join(args)}\n{stdout}"
	)

	def _sanitize_parsed_jsonl(self, jsonl_path: Path) -> None:
	if not jsonl_path.exists():
	raise SelfConsistencyError(f"Parsed PDB JSONL not found: {jsonl_path}")

	sanitized_lines: List[str] = []
	for raw_line in jsonl_path.read_text(encoding="utf-8", errors="replace").splitlines():
	if not raw_line.strip():
	continue
	payload = json.loads(raw_line)
	raw_name = str(payload.get("name", "sample"))
	payload["name"] = Path(raw_name.replace("\\", "/")).name
	sanitized_lines.append(json.dumps(payload))

	if not sanitized_lines:
	raise SelfConsistencyError(f"No parsed structures found in {jsonl_path}")
	jsonl_path.write_text("\n".join(sanitized_lines) + "\n", encoding="utf-8")

	def _resolve_device(self) -> str:
	import torch

	if self._requested_device in {"", "auto"}:
	return "cuda:0" if torch.cuda.is_available() else "cpu"
	if self._requested_device.startswith("cuda") and not torch.cuda.is_available():
	raise SelfConsistencyError(
	f"FLOWPROT_SC_DEVICE={self._requested_device} requested, but CUDA is unavailable."
	)
	return self._requested_device

	def _ensure_folding_model(self) -> None:
	if self._folding_model is not None and self._tokenizer is not None:
	return

	try:
	from transformers import AutoTokenizer, EsmForProteinFolding
	except ImportError as exc: # pragma: no cover
	raise SelfConsistencyError(
	"transformers is required for ESMFold. Install `transformers`."
	) from exc

	import torch

	device = self._resolve_device()
	LOGGER.info("Loading ESMFold model '%s' on %s", self._esmfold_model_id, device)
	tokenizer = AutoTokenizer.from_pretrained(self._esmfold_model_id)
	folding_model = EsmForProteinFolding.from_pretrained(
	self._esmfold_model_id,
	low_cpu_mem_usage=True,
	)
	if device.startswith("cuda"):
	folding_model.esm = folding_model.esm.half()
	folding_model = folding_model.to(device)
	folding_model.eval()

	self._tokenizer = tokenizer
	self._folding_model = folding_model
	self._folding_device = device

	def _run_folding(self, sequence: str, save_path: Path) -> None:
	self._ensure_folding_model()

	import torch
	from transformers.models.esm.openfold_utils.feats import atom14_to_atom37
	from transformers.models.esm.openfold_utils.protein import Protein as OFProtein
	from transformers.models.esm.openfold_utils.protein import to_pdb

	assert self._tokenizer is not None
	assert self._folding_model is not None
	assert self._folding_device is not None

	tokenized_input = self._tokenizer(
	[sequence],
	return_tensors="pt",
	add_special_tokens=False,
	)["input_ids"].to(self._folding_device)

	with torch.no_grad():
	output = self._folding_model(tokenized_input)

	final_atom_positions = atom14_to_atom37(output["positions"][-1], output)
	output_np = {k: v.to("cpu").numpy() for k, v in output.items()}
	final_atom_positions_np = final_atom_positions.cpu().numpy()
	final_atom_mask = output_np["atom37_atom_exists"]

	pdb_chunks: List[str] = []
	for i in range(output_np["aatype"].shape[0]):
	pred = OFProtein(
	aatype=output_np["aatype"][i],
	atom_positions=final_atom_positions_np[i],
	atom_mask=final_atom_mask[i],
	residue_index=output_np["residue_index"][i] + 1,
	b_factors=output_np["plddt"][i],
	chain_index=output_np["chain_index"][i] if "chain_index" in output_np else None,
	)
	pdb_chunks.append(to_pdb(pred))

	save_path.parent.mkdir(parents=True, exist_ok=True)
	save_path.write_text("".join(pdb_chunks), encoding="utf-8")