File size: 4,940 Bytes
"""
Inference utilities for Tahoe cell type classifier.
"""

import numpy as np
import scanpy as sc
import torch
import json
from pathlib import Path
from safetensors.torch import load_file
from tqdm.auto import tqdm

from src.tahoe_classifier.models.encoder import CellEncoder, CellEncoderConfig
from src.tahoe_classifier.models.classifier import CellTypeClassifier, CellTypeClassifierConfig


def load_model(model_path=".", device="cuda"):
    """Load trained model from directory."""
    model_path = Path(model_path)
    
    # Load config
    with open(model_path / "config.json") as f:
        config = json.load(f)
    
    # Create encoder config
    encoder_config = CellEncoderConfig(
        vocab_size=60697,
        d_model=config["d_model"],
        n_layers=config["n_layers"],
        n_heads=config["n_heads"],
        expansion_ratio=config["expansion_ratio"],
    )
    
    # Load base model components (vocab, collator_cfg)
    from src.tahoe_classifier.models.encoder import CellEncoder
    _, vocab, collator_cfg = CellEncoder.from_pretrained_tahoe(
        model_size=config["model_size"],
        device="cpu"
    )
    
    # Create classifier
    classifier_config = CellTypeClassifierConfig(
        num_labels=config["num_labels"],
        encoder_config=encoder_config.to_dict(),
        classifier_dropout=config["classifier_dropout"],
    )
    
    from src.tahoe_classifier.models.encoder import CellEncoder as Encoder
    encoder = Encoder(encoder_config)
    model = CellTypeClassifier(classifier_config, encoder=encoder)
    
    # Load merged weights
    state_dict = load_file(model_path / "model.safetensors")
    model.load_state_dict(state_dict)
    
    model.to(device)
    model.eval()
    
    return model, vocab, collator_cfg


def prepare_data(adata, vocab, collator_cfg, gene_id_key="ensembl_id", max_length=2048):
    """Preprocess h5ad for inference."""
    gene_col = gene_id_key if gene_id_key in adata.var.columns else "gene_id"
    gene_names = adata.var[gene_col].tolist()
    
    gene2idx = vocab.get_stoi()
    gene_ids_map = np.array([gene2idx.get(g, -1) for g in gene_names], dtype=np.int64)
    valid_mask = gene_ids_map >= 0
    valid_indices = np.where(valid_mask)[0]
    gene_ids = gene_ids_map[valid_mask]
    
    n_cells = adata.n_obs
    seq_len = min(len(gene_ids), max_length)
    
    gene_ids_batch = np.zeros((n_cells, seq_len), dtype=np.int64)
    expr_batch = np.zeros((n_cells, seq_len), dtype=np.float32)
    
    for i in tqdm(range(n_cells), desc="Processing cells"):
        x = adata.X[i, valid_indices]
        x = x.toarray().flatten() if hasattr(x, "toarray") else np.array(x).flatten()
        indices = np.argsort(-x)[:seq_len]
        gene_ids_batch[i] = gene_ids[indices]
        expr_batch[i] = x[indices]
    
    # Binning
    num_bins = collator_cfg.get("num_bins", 51)
    expr_max = np.clip(np.max(expr_batch, axis=1, keepdims=True), 1e-6, None)
    expr_batch = np.clip(np.floor(expr_batch / expr_max * (num_bins - 1)), 0, num_bins - 1)
    
    return gene_ids_batch, expr_batch


def predict_cell_types(
    model, vocab, collator_cfg,
    h5ad_path, label_key=None, gene_id_key="ensembl_id",
    batch_size=32, device="cuda"
):
    """Predict cell types for h5ad file."""
    
    # Load config for label mapping
    with open(Path(model.config._name_or_path if hasattr(model.config, '_name_or_path') else '.') / "config.json") as f:
        config = json.load(f)
    
    id_to_label = config["id2label"]
    
    # Load data
    adata = sc.read_h5ad(h5ad_path)
    gene_ids, expr_values = prepare_data(adata, vocab, collator_cfg, gene_id_key)
    
    # Run inference
    all_preds = []
    model.to(device)
    
    with torch.no_grad():
        for i in tqdm(range(0, len(gene_ids), batch_size), desc="Predicting"):
            batch_genes = torch.tensor(gene_ids[i:i+batch_size], device=device)
            batch_expr = torch.tensor(expr_values[i:i+batch_size], device=device)
            
            outputs = model(gene_ids=batch_genes, expression_values=batch_expr)
            preds = torch.argmax(outputs.logits, dim=-1)
            all_preds.extend(preds.cpu().numpy())
    
    # Decode predictions
    predicted_labels = [id_to_label[str(p)] for p in all_preds]
    
    # Add to adata
    adata.obs["predicted_cell_type"] = predicted_labels
    
    # Compute metrics if ground truth available
    if label_key and label_key in adata.obs.columns:
        from sklearn.metrics import accuracy_score, f1_score, classification_report
        
        true_labels = adata.obs[label_key].values
        accuracy = accuracy_score(true_labels, predicted_labels)
        f1_macro = f1_score(true_labels, predicted_labels, average="macro")
        
        print(f"\nAccuracy: {accuracy:.4f}")
        print(f"F1 Macro: {f1_macro:.4f}")
        print("\n" + classification_report(true_labels, predicted_labels))
    
    return adata