Spaces:

HemanM
/

EvoTransformer-v2.1

Runtime error

App Files Files Community

HemanM commited on Jul 22, 2025

Commit

cdd7a15

verified ·

1 Parent(s): 896bcee

Update evo_model.py

Browse files

Files changed (1) hide show

evo_model.py +20 -13

evo_model.py CHANGED Viewed

@@ -1,8 +1,9 @@
 import torch
 import torch.nn as nn
 from transformers import PreTrainedModel, PretrainedConfig
 class EvoTransformerConfig(PretrainedConfig):
     def __init__(
         self,
@@ -30,7 +31,7 @@ class EvoTransformerForClassification(PreTrainedModel):
         super().__init__(config)
         self.config = config
-        # Expose architecture traits for dashboard or mutation
         self.num_layers = config.num_layers
         self.num_heads = config.num_heads
         self.ffn_dim = config.ffn_dim
@@ -42,7 +43,8 @@ class EvoTransformerForClassification(PreTrainedModel):
             nn.TransformerEncoderLayer(
                 d_model=config.hidden_size,
                 nhead=config.num_heads,
-                dim_feedforward=config.ffn_dim
             )
             for _ in range(config.num_layers)
         ])
@@ -56,32 +58,37 @@ class EvoTransformerForClassification(PreTrainedModel):
         self.init_weights()
     def forward(self, input_ids, attention_mask=None, labels=None):
-        x = self.embedding(input_ids)  # [batch, seq_len, hidden_size]
-        x = x.transpose(0, 1)  # Transformer expects [seq_len, batch, hidden_size]
         for layer in self.layers:
-            x = layer(x, src_key_padding_mask=(attention_mask == 0) if attention_mask is not None else None)
-        x = x.mean(dim=0)  # mean pooling
         logits = self.classifier(x)
         if labels is not None:
             loss = nn.functional.cross_entropy(logits, labels)
             return loss, logits
         return logits
     def save_pretrained(self, save_directory):
-        import os, json
         os.makedirs(save_directory, exist_ok=True)
-        torch.save(self.state_dict(), f"{save_directory}/pytorch_model.bin")
-        with open(f"{save_directory}/config.json", "w") as f:
             f.write(self.config.to_json_string())
     @classmethod
     def from_pretrained(cls, load_directory):
-        config_path = f"{load_directory}/config.json"
-        model_path = f"{load_directory}/pytorch_model.bin"
         config = EvoTransformerConfig.from_json_file(config_path)
         model = cls(config)
-        model.load_state_dict(torch.load(model_path, map_location="cpu"))
         return model

+import os
+import json
 import torch
 import torch.nn as nn
 from transformers import PreTrainedModel, PretrainedConfig
 class EvoTransformerConfig(PretrainedConfig):
     def __init__(
         self,
         super().__init__(config)
         self.config = config
+        # === Architecture traits for UI, mutation, etc.
         self.num_layers = config.num_layers
         self.num_heads = config.num_heads
         self.ffn_dim = config.ffn_dim
             nn.TransformerEncoderLayer(
                 d_model=config.hidden_size,
                 nhead=config.num_heads,
+                dim_feedforward=config.ffn_dim,
+                batch_first=False  # Required for transpose trick
             )
             for _ in range(config.num_layers)
         ])
         self.init_weights()
     def forward(self, input_ids, attention_mask=None, labels=None):
+        # Embedding and prep for transformer
+        x = self.embedding(input_ids)  # [batch, seq_len, hidden]
+        x = x.transpose(0, 1)          # [seq_len, batch, hidden]
+        key_padding_mask = (attention_mask == 0) if attention_mask is not None else None
         for layer in self.layers:
+            x = layer(x, src_key_padding_mask=key_padding_mask)
+        x = x.mean(dim=0)  # [batch, hidden] — mean pooling
         logits = self.classifier(x)
         if labels is not None:
             loss = nn.functional.cross_entropy(logits, labels)
             return loss, logits
         return logits
     def save_pretrained(self, save_directory):
         os.makedirs(save_directory, exist_ok=True)
+        torch.save(self.state_dict(), os.path.join(save_directory, "pytorch_model.bin"))
+        with open(os.path.join(save_directory, "config.json"), "w") as f:
             f.write(self.config.to_json_string())
     @classmethod
     def from_pretrained(cls, load_directory):
+        config_path = os.path.join(load_directory, "config.json")
+        model_path = os.path.join(load_directory, "pytorch_model.bin")
         config = EvoTransformerConfig.from_json_file(config_path)
         model = cls(config)
+        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        model.load_state_dict(torch.load(model_path, map_location=device))
+        model.to(device)
         return model