Add config, wrapper, weights for transformers loading

Files changed (7) hide show

README.md CHANGED Viewed

@@ -2,4 +2,5 @@
 license: apache-2.0
 base_model:
 - arcinstitute/evo2_7b_base
----

 license: apache-2.0
 base_model:
 - arcinstitute/evo2_7b_base
+---
+Lightweight exon/intron classifier built on Evo-2 embeddings.

__pycache__/configuration_exon_classifier.cpython-311.pyc ADDED Viewed

Binary file (1.1 kB). View file

__pycache__/wrapper_exon_classifier.cpython-311.pyc ADDED Viewed

Binary file (2.66 kB). View file

config.json ADDED Viewed

+{
+  "architectures": [
+    "Evo2ExonModel"
+  ],
+  "auto_map": {
+    "AutoConfig": "configuration_exon_classifier.Evo2ExonConfig",
+    "AutoModel": "wrapper_exon_classifier.Evo2ExonModel"
+  },
+  "embedding_dim": 8192,
+  "hidden_dim": 1024,
+  "model_type": "evo2_exon_classifier",
+  "num_hidden_layers": 1,
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.2"
+}

configuration_exon_classifier.py ADDED Viewed

+from transformers import PretrainedConfig
+class Evo2ExonConfig(PretrainedConfig):
+    model_type = "evo2_exon_classifier"
+    def __init__(self,
+                 embedding_dim: int = 8192,   # match your input width
+                 hidden_dim:    int = 1024,   # width of hidden layers
+                 num_hidden_layers: int = 1,  # depth ≥1
+                 **kwargs):
+        super().__init__(**kwargs)
+        self.embedding_dim      = embedding_dim
+        self.hidden_dim         = hidden_dim
+        self.num_hidden_layers  = num_hidden_layers

evo2_7b_gen-blocks_26-proteinCoding.pth → model.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:463ffbcf24b8e439b6c82a90cdf50f346ea26e36c474ab21d1431352fc14d03c
-size 33564896

 version https://git-lfs.github.com/spec/v1
+oid sha256:0394fdbf4f533a280a41357d795df29a53a9d26444cfa2ab1bb670b8161ae191
+size 33563004

wrapper_exon_classifier.py ADDED Viewed

+import torch.nn as nn
+from transformers import PreTrainedModel
+from configuration_exon_classifier import Evo2ExonConfig
+class Evo2ExonModel(PreTrainedModel):
+    config_class      = Evo2ExonConfig
+    base_model_prefix = "evo2_exon_classifier"
+    def __init__(self, config: Evo2ExonConfig):
+        super().__init__(config)
+        # ▸ build (Linear + ReLU) * n  + final Linear(…, 1)
+        layers = [nn.Linear(config.embedding_dim, config.hidden_dim), nn.ReLU()]
+        for _ in range(config.num_hidden_layers - 1):
+            layers += [nn.Linear(config.hidden_dim, config.hidden_dim), nn.ReLU()]
+        layers += [nn.Linear(config.hidden_dim, 1)]
+        self.fc_layers = nn.Sequential(*layers)
+        self.sigmoid    = nn.Sigmoid()      # convert logits → probability
+    def forward(self, inputs_embeds, labels=None, **kwargs):
+        """
+        inputs_embeds : (batch, seq_len, embedding_dim)
+        labels        : (batch, seq_len) optional, 0/1 floats or ints
+        """
+        bsz, seq_len, _ = inputs_embeds.shape
+        # flatten → run FC layers → reshape back
+        logits = self.fc_layers(inputs_embeds.view(-1, inputs_embeds.size(-1)))
+        logits = logits.view(bsz, seq_len)
+        probs  = self.sigmoid(logits)
+        if labels is not None:
+            loss = nn.BCELoss()(probs, labels.float())
+            return {"loss": loss, "logits": probs}
+        return {"logits": probs}