Yuto2007

Upload folder using huggingface_hub

3147616 verified about 1 month ago

4.94 kB

	"""
	Inference utilities for Tahoe cell type classifier.
	"""

	import numpy as np
	import scanpy as sc
	import torch
	import json
	from pathlib import Path
	from safetensors.torch import load_file
	from tqdm.auto import tqdm

	from src.tahoe_classifier.models.encoder import CellEncoder, CellEncoderConfig
	from src.tahoe_classifier.models.classifier import CellTypeClassifier, CellTypeClassifierConfig


	def load_model(model_path=".", device="cuda"):
	"""Load trained model from directory."""
	model_path = Path(model_path)

	# Load config
	with open(model_path / "config.json") as f:
	config = json.load(f)

	# Create encoder config
	encoder_config = CellEncoderConfig(
	vocab_size=60697,
	d_model=config["d_model"],
	n_layers=config["n_layers"],
	n_heads=config["n_heads"],
	expansion_ratio=config["expansion_ratio"],
	)

	# Load base model components (vocab, collator_cfg)
	from src.tahoe_classifier.models.encoder import CellEncoder
	_, vocab, collator_cfg = CellEncoder.from_pretrained_tahoe(
	model_size=config["model_size"],
	device="cpu"
	)

	# Create classifier
	classifier_config = CellTypeClassifierConfig(
	num_labels=config["num_labels"],
	encoder_config=encoder_config.to_dict(),
	classifier_dropout=config["classifier_dropout"],
	)

	from src.tahoe_classifier.models.encoder import CellEncoder as Encoder
	encoder = Encoder(encoder_config)
	model = CellTypeClassifier(classifier_config, encoder=encoder)

	# Load merged weights
	state_dict = load_file(model_path / "model.safetensors")
	model.load_state_dict(state_dict)

	model.to(device)
	model.eval()

	return model, vocab, collator_cfg


	def prepare_data(adata, vocab, collator_cfg, gene_id_key="ensembl_id", max_length=2048):
	"""Preprocess h5ad for inference."""
	gene_col = gene_id_key if gene_id_key in adata.var.columns else "gene_id"
	gene_names = adata.var[gene_col].tolist()

	gene2idx = vocab.get_stoi()
	gene_ids_map = np.array([gene2idx.get(g, -1) for g in gene_names], dtype=np.int64)
	valid_mask = gene_ids_map >= 0
	valid_indices = np.where(valid_mask)[0]
	gene_ids = gene_ids_map[valid_mask]

	n_cells = adata.n_obs
	seq_len = min(len(gene_ids), max_length)

	gene_ids_batch = np.zeros((n_cells, seq_len), dtype=np.int64)
	expr_batch = np.zeros((n_cells, seq_len), dtype=np.float32)

	for i in tqdm(range(n_cells), desc="Processing cells"):
	x = adata.X[i, valid_indices]
	x = x.toarray().flatten() if hasattr(x, "toarray") else np.array(x).flatten()
	indices = np.argsort(-x)[:seq_len]
	gene_ids_batch[i] = gene_ids[indices]
	expr_batch[i] = x[indices]

	# Binning
	num_bins = collator_cfg.get("num_bins", 51)
	expr_max = np.clip(np.max(expr_batch, axis=1, keepdims=True), 1e-6, None)
	expr_batch = np.clip(np.floor(expr_batch / expr_max * (num_bins - 1)), 0, num_bins - 1)

	return gene_ids_batch, expr_batch


	def predict_cell_types(
	model, vocab, collator_cfg,
	h5ad_path, label_key=None, gene_id_key="ensembl_id",
	batch_size=32, device="cuda"
	):
	"""Predict cell types for h5ad file."""

	# Load config for label mapping
	with open(Path(model.config._name_or_path if hasattr(model.config, '_name_or_path') else '.') / "config.json") as f:
	config = json.load(f)

	id_to_label = config["id2label"]

	# Load data
	adata = sc.read_h5ad(h5ad_path)
	gene_ids, expr_values = prepare_data(adata, vocab, collator_cfg, gene_id_key)

	# Run inference
	all_preds = []
	model.to(device)

	with torch.no_grad():
	for i in tqdm(range(0, len(gene_ids), batch_size), desc="Predicting"):
	batch_genes = torch.tensor(gene_ids[i:i+batch_size], device=device)
	batch_expr = torch.tensor(expr_values[i:i+batch_size], device=device)

	outputs = model(gene_ids=batch_genes, expression_values=batch_expr)
	preds = torch.argmax(outputs.logits, dim=-1)
	all_preds.extend(preds.cpu().numpy())

	# Decode predictions
	predicted_labels = [id_to_label[str(p)] for p in all_preds]

	# Add to adata
	adata.obs["predicted_cell_type"] = predicted_labels

	# Compute metrics if ground truth available
	if label_key and label_key in adata.obs.columns:
	from sklearn.metrics import accuracy_score, f1_score, classification_report

	true_labels = adata.obs[label_key].values
	accuracy = accuracy_score(true_labels, predicted_labels)
	f1_macro = f1_score(true_labels, predicted_labels, average="macro")

	print(f"\nAccuracy: {accuracy:.4f}")
	print(f"F1 Macro: {f1_macro:.4f}")
	print("\n" + classification_report(true_labels, predicted_labels))

	return adata