Upload mulgit/perturb/data.py

5bc61e0 verified 10 days ago

10.8 kB

	"""
	Perturbation Data Loader for MuLGIT-Perturb.

	Loads perturbation data from Tahoe-100M and converts it to the format
	required by MuLGITPerturb: (baseline omics, perturbation descriptor, delta expression).

	Tahoe-100M schema:
	expression_data split:
	- genes: int64[] — gene indices
	- expressions: float32[] — post-perturbation expression values
	- drug: str — drug name
	- cell_line_id: str
	- canonical_smiles: str — drug SMILES
	- pubchem_cid: int64
	- moa-fine: str — mechanism of action (fine-grained)
	- sample: str — sample/cell-line identifier

	For paired baseline data, use the vehicle control (DMSO) samples per cell line.
	"""

	import torch
	from torch.utils.data import Dataset, DataLoader, IterableDataset
	from typing import Optional, Dict, List, Tuple, Iterator
	import numpy as np
	from collections import defaultdict


	class TahoePerturbationDataset(IterableDataset):
	"""
	Streaming IterableDataset for Tahoe-100M perturbation data.

	Since Tahoe-100M is 320GB (95.6M rows), we stream it and apply
	in-memory grouping to create (baseline, post-perturbation) pairs.

	Design:
	1. Stream through all rows
	2. Group by (cell_line_id, sample) to collect baseline expressions
	3. Match drug-perturbed samples to their corresponding baseline
	4. Yield (baseline_expression, drug_smiles, delta_expression) tuples

	Args:
	dataset_path: HF dataset path (e.g., "tahoebio/Tahoe-100M")
	config: dataset config name
	split: dataset split
	max_samples: cap for testing (None = unlimited)
	n_genes: number of genes to return (None = all)
	gene_list: specific gene indices to filter (None = all)
	"""

	def __init__(
	self,
	dataset_path: str = "tahoebio/Tahoe-100M",
	config: str = "expression_data",
	split: str = "train",
	max_samples: Optional[int] = None,
	n_genes: Optional[int] = 978, # L1000 landmark size
	gene_list: Optional[List[int]] = None,
	cache_baselines: bool = True,
	):
	self.dataset_path = dataset_path
	self.config = config
	self.split = split
	self.max_samples = max_samples
	self.n_genes = n_genes
	self.gene_list = gene_list
	self.cache_baselines = cache_baselines
	self._baselines = {} # (cell_line_id, sample) -> baseline expression vector

	def _load_dataset(self):
	"""Lazy-load the HF dataset."""
	if not hasattr(self, "_ds"):
	from datasets import load_dataset

	self._ds = load_dataset(
	self.dataset_path,
	self.config,
	split=self.split,
	streaming=True,
	)

	# Pre-load drug metadata for SMILES lookup
	try:
	self._drug_meta = load_dataset(
	self.dataset_path,
	"drug_metadata",
	split="train",
	)
	# Build SMILES lookup: drug_name → canonical_smiles
	self._smiles_lookup = {}
	for row in self._drug_meta:
	if "drug" in row and "canonical_smiles" in row:
	self._smiles_lookup[row["drug"]] = row["canonical_smiles"]
	except Exception:
	self._smiles_lookup = {}

	def _build_baseline_cache(self, n_prefetch: int = 10000):
	"""
	Build baseline expression cache by sampling vehicle controls.

	In Tahoe-100M, vehicle control samples (DMSO) serve as baseline.
	We identify them by drug name = "DMSO" or "Vehicle".
	"""
	self._load_dataset()

	baselines = defaultdict(list)
	count = 0

	for row in self._ds:
	drug = row.get("drug", "").lower()
	is_vehicle = drug in ("dmso", "vehicle", "control", "untreated")

	if is_vehicle and "expressions" in row:
	expr = np.array(row["expressions"], dtype=np.float32)
	key = (row.get("cell_line_id", "unknown"), row.get("sample", "default"))
	baselines[key].append(expr)
	count += 1

	if count >= n_prefetch:
	break

	# Average multiple baseline measurements per (cell_line, sample)
	self._baselines = {}
	for key, expr_list in baselines.items():
	self._baselines[key] = np.mean(expr_list, axis=0)

	def __iter__(self) -> Iterator[Dict]:
	"""Yield perturbation samples with matched baseline."""
	self._load_dataset()

	# Build baseline cache if needed
	if self.cache_baselines and not self._baselines:
	self._build_baseline_cache()

	count = 0
	for row in self._ds:
	if self.max_samples and count >= self.max_samples:
	break

	# Skip vehicle controls
	drug = row.get("drug", "").lower()
	is_vehicle = drug in ("dmso", "vehicle", "control", "untreated")
	if is_vehicle:
	continue

	# Get expression values
	if "expressions" not in row:
	continue

	expr_post = np.array(row["expressions"], dtype=np.float32)
	cell_line = row.get("cell_line_id", "unknown")
	sample = row.get("sample", "default")
	smiles = row.get("canonical_smiles", self._smiles_lookup.get(row.get("drug", ""), ""))

	if not smiles:
	continue

	# Get baseline expression
	key = (cell_line, sample)
	if key in self._baselines:
	expr_baseline = self._baselines[key]
	else:
	# Fallback: use the first baseline for this cell line
	cl_key = (cell_line, "default")
	if cl_key in self._baselines:
	expr_baseline = self._baselines[cl_key]
	else:
	# No baseline available, skip
	continue

	# Compute delta
	delta = expr_post - expr_baseline

	# Subset genes if requested
	if self.n_genes is not None and self.n_genes < len(expr_post):
	if self.gene_list is not None:
	indices = self.gene_list[:self.n_genes]
	else:
	indices = np.arange(self.n_genes)
	expr_post = expr_post[indices]
	expr_baseline = expr_baseline[indices]
	delta = delta[indices]

	yield {
	"baseline_expression": torch.tensor(expr_baseline),
	"post_expression": torch.tensor(expr_post),
	"delta_expression": torch.tensor(delta),
	"drug": row.get("drug", ""),
	"smiles": smiles,
	"cell_line_id": cell_line,
	"moa": row.get("moa-fine", ""),
	"pubchem_cid": row.get("pubchem_cid", None),
	}

	count += 1


	class SyntheticPerturbationDataset(Dataset):
	"""
	Synthetic perturbation dataset for testing and development.

	Generates random baseline expression + drug-induced expression changes
	with known ground truth for validation.
	"""

	def __init__(
	self,
	n_samples: int = 1000,
	n_genes: int = 978,
	n_drugs: int = 50,
	noise_std: float = 0.1,
	seed: int = 42,
	):
	np.random.seed(seed)
	torch.manual_seed(seed)

	self.n_samples = n_samples
	self.n_genes = n_genes

	# Generate baseline expression (log-normal)
	baseline = np.random.lognormal(mean=0.0, sigma=0.5, size=(n_samples, n_genes))

	# Generate drug effects: each drug affects a sparse set of genes
	drug_effects = np.random.randn(n_drugs, n_genes) * 0.5
	sparsity_mask = np.random.random((n_drugs, n_genes)) < 0.1 # 10% of genes affected
	drug_effects = drug_effects * sparsity_mask

	# Generate drug assignments
	drug_ids = np.random.randint(0, n_drugs, size=n_samples)

	# Generate deltas
	deltas = np.array([drug_effects[d] for d in drug_ids]) + \
	np.random.randn(n_samples, n_genes) * noise_std

	post_expression = baseline + deltas

	self.baseline = torch.tensor(baseline, dtype=torch.float32)
	self.post = torch.tensor(post_expression, dtype=torch.float32)
	self.delta = torch.tensor(deltas, dtype=torch.float32)
	self.drug_ids = torch.tensor(drug_ids, dtype=torch.long)
	self.smiles = [f"CN1C(=O)CN=C(C2CCCCC2)c3ccccc3{str(i)}" for i in range(n_drugs)]

	def __len__(self):
	return self.n_samples

	def __getitem__(self, idx):
	return {
	"baseline_expression": self.baseline[idx],
	"post_expression": self.post[idx],
	"delta_expression": self.delta[idx],
	"drug": f"Drug_{self.drug_ids[idx].item()}",
	"smiles": self.smiles[self.drug_ids[idx].item() % len(self.smiles)],
	"cell_line_id": "synthetic",
	"moa": "synthetic",
	}


	class PerturbationCollator:
	"""
	Collates perturbation data into model-ready batches.

	Pads expression vectors to uniform length and handles missing fields.
	"""

	def __init__(self, n_genes: int = 978):
	self.n_genes = n_genes

	def __call__(self, batch: List[Dict]) -> Dict[str, torch.Tensor]:
	# Stack expression tensors
	baseline = torch.stack([item["baseline_expression"] for item in batch])
	post = torch.stack([item["post_expression"] for item in batch])
	delta_true = torch.stack([item["delta_expression"] for item in batch])

	# Collect non-tensor fields
	smiles_list = [item.get("smiles", "") for item in batch]
	drugs = [item.get("drug", "") for item in batch]
	cell_lines = [item.get("cell_line_id", "") for item in batch]

	return {
	"baseline_expression": baseline,
	"post_expression": post,
	"delta_expression": delta_true,
	"smiles": smiles_list,
	"drugs": drugs,
	"cell_lines": cell_lines,
	}


	def create_perturbation_dataloader(
	dataset: Dataset,
	batch_size: int = 256,
	shuffle: bool = True,
	num_workers: int = 4,
	n_genes: int = 978,
	) -> DataLoader:
	"""
	Create a DataLoader for perturbation data.

	Uses PerturbationCollator for correct batching.
	"""
	return DataLoader(
	dataset,
	batch_size=batch_size,
	shuffle=shuffle and not isinstance(dataset, IterableDataset),
	num_workers=num_workers,
	collate_fn=PerturbationCollator(n_genes=n_genes),
	pin_memory=True,
	drop_last=True,
	)