AliSaadatV
/

bio-acdc

Model card Files Files and versions

xet

Community

AliSaadatV commited on Apr 26

Commit

2b88f43

verified ·

1 Parent(s): a0d03b2

Upload evaluator.py

Browse files

Files changed (1) hide show

evaluator.py +409 -0

evaluator.py ADDED Viewed

	@@ -0,0 +1,409 @@

+"""
+Evaluator for biological language models on synthetic sequence tasks.
+Supports masked language models (ESM-2, NT) and autoregressive models.
+"""
+import re
+import logging
+from typing import List, Dict, Optional
+import numpy as np
+from transformers import AutoModelForMaskedLM, AutoTokenizer, EsmTokenizer
+import torch
+from difflib import SequenceMatcher
+from .tasks import BioTask
+logger = logging.getLogger(__name__)
+class BioEvaluator:
+    """Evaluates biological language models on sequence tasks."""
+    def __init__(self, device: str = "auto", max_length: int = 1024):
+        self.device = device if device != "auto" else ("cuda" if torch.cuda.is_available() else "cpu")
+        self.max_length = max_length
+        self._model_cache = {}
+        self._tokenizer_cache = {}
+    def _load_model(self, model_path: str):
+        """Load model with caching."""
+        if model_path not in self._model_cache:
+            logger.info(f"Loading model from {model_path}")
+            try:
+                model = AutoModelForMaskedLM.from_pretrained(
+                    model_path,
+                    torch_dtype=torch.bfloat16,
+                    trust_remote_code=True,
+                )
+            except:
+                # Fallback if not standard masked LM
+                from transformers import AutoModel
+                model = AutoModel.from_pretrained(
+                    model_path,
+                    torch_dtype=torch.bfloat16,
+                    trust_remote_code=True,
+                )
+            model = model.to(self.device)
+            model.eval()
+            self._model_cache[model_path] = model
+        return self._model_cache[model_path]
+    def _load_tokenizer(self, model_path: str):
+        """Load tokenizer with caching."""
+        if model_path not in self._tokenizer_cache:
+            logger.info(f"Loading tokenizer from {model_path}")
+            tokenizer = AutoTokenizer.from_pretrained(
+                model_path,
+                trust_remote_code=True,
+            )
+            self._tokenizer_cache[model_path] = tokenizer
+        return self._tokenizer_cache[model_path]
+    def evaluate_model(
+        self,
+        model_path: str,
+        tasks: List[BioTask],
+    ) -> Dict[str, float]:
+        """Evaluate a model on a list of tasks. Returns task_id -> score mapping."""
+        model = self._load_model(model_path)
+        tokenizer = self._load_tokenizer(model_path)
+        results = {}
+        for task in tasks:
+            try:
+                score = self._evaluate_single_task(model, tokenizer, task)
+                results[task.task_id] = score
+            except Exception as e:
+                logger.error(f"Error evaluating task {task.task_id}: {e}")
+                results[task.task_id] = 0.0
+        return results
+    def _evaluate_single_task(
+        self,
+        model: torch.nn.Module,
+        tokenizer,
+        task: BioTask,
+    ) -> float:
+        """Evaluate a single task."""
+        if task.evaluation_metric == "sequence_identity":
+            return self._eval_sequence_identity(model, tokenizer, task)
+        elif task.evaluation_metric == "sequence_similarity":
+            return self._eval_sequence_similarity(model, tokenizer, task)
+        elif task.evaluation_metric == "contains_substring":
+            return self._eval_contains_substring(model, tokenizer, task)
+        elif task.evaluation_metric == "exact_match":
+            return self._eval_exact_match(model, tokenizer, task)
+        elif task.evaluation_metric == "perplexity":
+            return self._eval_perplexity(model, tokenizer, task)
+        elif task.evaluation_metric == "rna_structure_similarity":
+            return self._eval_rna_structure(model, tokenizer, task)
+        else:
+            logger.warning(f"Unknown metric: {task.evaluation_metric}, defaulting to sequence similarity")
+            return self._eval_sequence_similarity(model, tokenizer, task)
+    def _get_model_output(self, model, tokenizer, prompt: str) -> str:
+        """Get model output for a prompt."""
+        # For masked LMs, we use the masked prediction approach
+        # For autoregressive models, we'd use generation
+        if task_has_mask := "<mask>" in prompt or "[MASK]" in prompt:
+            # Masked prediction task
+            return self._predict_masked(model, tokenizer, prompt)
+        else:
+            # For sequence continuation, try autoregressive generation if model supports it
+            return self._generate_sequence(model, tokenizer, prompt)
+    def _predict_masked(self, model, tokenizer, prompt: str) -> str:
+        """Predict masked tokens in a sequence."""
+        # Tokenize
+        tokens = tokenizer.tokenize(prompt)
+        # Find mask positions
+        mask_token = tokenizer.mask_token or "<mask>"
+        mask_positions = [i for i, t in enumerate(tokens) if t == mask_token or t == "[MASK]"]
+        if not mask_positions:
+            # No mask found, just return prompt
+            return prompt
+        # Convert to IDs
+        input_ids = tokenizer.encode(prompt, return_tensors="pt", max_length=self.max_length, truncation=True)
+        input_ids = input_ids.to(self.device)
+        # Get predictions
+        with torch.no_grad():
+            outputs = model(input_ids)
+            logits = outputs.logits
+        # Fill in masks
+        predicted_tokens = tokens.copy()
+        for pos in mask_positions:
+            mask_logits = logits[0, pos + 1]  # +1 for CLS if present
+            predicted_id = torch.argmax(mask_logits).item()
+            predicted_token = tokenizer.convert_ids_to_tokens([predicted_id])[0]
+            predicted_tokens[pos] = predicted_token
+        # Reconstruct
+        return tokenizer.convert_tokens_to_string(predicted_tokens)
+    def _generate_sequence(self, model, tokenizer, prompt: str, max_new_tokens: int = 50) -> str:
+        """Generate a sequence continuation."""
+        # Simple greedy generation for masked LM models
+        # For true autoregressive models, this would use generate()
+        input_ids = tokenizer.encode(prompt, return_tensors="pt", max_length=self.max_length, truncation=True)
+        input_ids = input_ids.to(self.device)
+        generated = input_ids.clone()
+        # Greedy token-by-token generation
+        for _ in range(max_new_tokens):
+            with torch.no_grad():
+                outputs = model(generated)
+                logits = outputs.logits
+            # Get next token prediction
+            next_token_logits = logits[0, -1, :]
+            next_token_id = torch.argmax(next_token_logits).item()
+            # Append
+            next_token = torch.tensor([[next_token_id]], device=self.device)
+            generated = torch.cat([generated, next_token], dim=1)
+            # Check for EOS
+            if next_token_id == tokenizer.eos_token_id:
+                break
+        return tokenizer.decode(generated[0], skip_special_tokens=True)
+    def _eval_sequence_identity(self, model, tokenizer, task: BioTask) -> float:
+        """Evaluate exact sequence identity."""
+        prompt = task.prompt
+        if task.context:
+            prompt += f" {task.context}"
+        output = self._get_model_output(model, tokenizer, prompt)
+        if task.expected_answer is None:
+            return 0.5  # Default if no expected answer
+        # Extract sequence from output
+        output_seq = self._extract_sequence(output, task.task_type)
+        expected = task.expected_answer.strip().upper()
+        if not output_seq or not expected:
+            return 0.0
+        # Compute identity
+        matches = sum(1 for a, b in zip(output_seq, expected) if a == b)
+        length = max(len(output_seq), len(expected))
+        return matches / length if length > 0 else 0.0
+    def _eval_sequence_similarity(self, model, tokenizer, task: BioTask) -> float:
+        """Evaluate sequence similarity using multiple metrics."""
+        prompt = task.prompt
+        if task.context:
+            prompt += f" {task.context}"
+        output = self._get_model_output(model, tokenizer, prompt)
+        if task.expected_answer is None:
+            return 0.5
+        output_seq = self._extract_sequence(output, task.task_type)
+        expected = task.expected_answer.strip().upper()
+        if not output_seq or not expected:
+            return 0.0
+        # SequenceMatcher ratio
+        sm = SequenceMatcher(None, output_seq, expected)
+        similarity = sm.ratio()
+        # Also compute local alignment score (simplified)
+        # Could use Bio.pairwise2 or biopython for full alignment
+        return similarity
+    def _eval_contains_substring(self, model, tokenizer, task: BioTask) -> float:
+        """Check if output contains expected motif."""
+        prompt = task.prompt
+        if task.context:
+            prompt += f" {task.context}"
+        output = self._get_model_output(model, tokenizer, prompt)
+        if task.expected_answer is None:
+            return 0.5
+        expected = task.expected_answer.strip().upper()
+        output_seq = self._extract_sequence(output, task.task_type)
+        if expected in output_seq:
+            return 1.0
+        # Partial match
+        for i in range(len(expected) - 2):
+            sub = expected[i:i+3]
+            if sub in output_seq:
+                return 0.3
+        return 0.0
+    def _eval_exact_match(self, model, tokenizer, task: BioTask) -> float:
+        """Exact match evaluation."""
+        prompt = task.prompt
+        if task.context:
+            prompt += f" {task.context}"
+        output = self._get_model_output(model, tokenizer, prompt)
+        if task.expected_answer is None:
+            return 0.5
+        # Extract answer from output
+        output_answer = self._extract_answer(output)
+        expected = task.expected_answer.strip()
+        if output_answer == expected:
+            return 1.0
+        # Numeric approximate match
+        try:
+            output_num = float(output_answer)
+            expected_num = float(expected)
+            if abs(output_num - expected_num) < 1:
+                return 0.5
+        except (ValueError, TypeError):
+            pass
+        return 0.0
+    def _eval_perplexity(self, model, tokenizer, task: BioTask) -> float:
+        """Evaluate perplexity on a sequence."""
+        if task.target is None:
+            return 0.5
+        text = task.target
+        input_ids = tokenizer.encode(text, return_tensors="pt", max_length=self.max_length, truncation=True)
+        input_ids = input_ids.to(self.device)
+        with torch.no_grad():
+            outputs = model(input_ids, labels=input_ids)
+            loss = outputs.loss
+        perplexity = torch.exp(loss).item()
+        # Convert to score (lower perplexity = higher score)
+        # Typical perplexity for protein LMs is 5-20
+        score = 1.0 / (1.0 + perplexity / 10.0)
+        return score
+    def _eval_rna_structure(self, model, tokenizer, task: BioTask) -> float:
+        """
+        Evaluate RNA structure prediction.
+        Uses simplified dot-bracket notation comparison.
+        """
+        prompt = task.prompt
+        if task.context:
+            prompt += f" {task.context}"
+        output = self._get_model_output(model, tokenizer, prompt)
+        # Extract predicted structure (dot-bracket notation)
+        predicted = self._extract_structure(output)
+        if not predicted:
+            return 0.0
+        # For generated tasks without expected structure, just check validity
+        if task.expected_answer is None:
+            # Check if dot-bracket is balanced
+            balance = 0
+            valid = True
+            for c in predicted:
+                if c == '(':
+                    balance += 1
+                elif c == ')':
+                    balance -= 1
+                    if balance < 0:
+                        valid = False
+            if valid and balance == 0:
+                return 0.5
+            return 0.0
+        expected = task.expected_answer
+        # Compare structures
+        matches = sum(1 for a, b in zip(predicted, expected) if a == b)
+        return matches / max(len(predicted), len(expected))
+    def _extract_sequence(self, text: str, seq_type: str) -> str:
+        """Extract biological sequence from model output."""
+        # Remove special tokens and whitespace
+        text = text.replace("<mask>", "").replace("[MASK]", "")
+        text = text.replace("<s>", "").replace("</s>", "")
+        text = text.replace("[CLS]", "").replace("[SEP]", "")
+        # For proteins, look for uppercase amino acid sequences
+        if seq_type == "protein":
+            pattern = re.compile(r'[ACDEFGHIKLMNPQRSTVWY]+')
+            matches = pattern.findall(text.upper())
+            if matches:
+                return max(matches, key=len)
+            return text.upper()
+        # For DNA
+        elif seq_type == "dna":
+            pattern = re.compile(r'[ACGT]+')
+            matches = pattern.findall(text.upper())
+            if matches:
+                return max(matches, key=len)
+            return text.upper().replace('U', 'T')
+        # For RNA
+        elif seq_type == "rna":
+            pattern = re.compile(r'[ACGU]+')
+            matches = pattern.findall(text.upper())
+            if matches:
+                return max(matches, key=len)
+            return text.upper().replace('T', 'U')
+        return text.upper().strip()
+    def _extract_answer(self, text: str) -> str:
+        """Extract a short answer from model output."""
+        # Try to find a number
+        numbers = re.findall(r'-?\d+', text)
+        if numbers:
+            return numbers[-1]  # Last number is often the answer
+        # Or take the last non-empty line
+        lines = [l.strip() for l in text.split('\n') if l.strip()]
+        if lines:
+            return lines[-1]
+        return text.strip()
+    def _extract_structure(self, text: str) -> str:
+        """Extract dot-bracket RNA structure notation."""
+        pattern = re.compile(r'[\(\)\.]+')
+        matches = pattern.findall(text)
+        if matches:
+            return max(matches, key=len)
+        return ""