Synthyra
/

DPLM-3B

@@ -797,46 +797,24 @@ class ModifiedEsmEncoder(EsmEncoder):
         )
-class DPLMModel(DPLMPreTrainedModel, EmbeddingMixin):
-    config_class = DPLMConfig
-    def get_input_embeddings(self) -> nn.Module:
-        return self.embeddings.word_embeddings
-    def __init__(self, config, add_pooling_layer=True):
-        DPLMPreTrainedModel.__init__(self, config)
         self.config = config
         self.embeddings = EsmEmbeddings(config)
         self.encoder = ModifiedEsmEncoder(config)
-        self.pooler = EsmPooler(config) if add_pooling_layer else None
         self.contact_head = EsmContactPredictionHead(
             in_features=config.num_hidden_layers * config.num_attention_heads,
             bias=True,
         )
         self.post_init()
-    def _convert_head_mask_to_5d(self, head_mask: torch.Tensor, num_hidden_layers: int) -> torch.Tensor:
-        if head_mask.dim() == 1:
-            head_mask = head_mask.unsqueeze(0).unsqueeze(0).unsqueeze(-1).unsqueeze(-1)
-            head_mask = head_mask.expand(num_hidden_layers, -1, -1, -1, -1)
-        elif head_mask.dim() == 2:
-            head_mask = head_mask.unsqueeze(1).unsqueeze(-1).unsqueeze(-1)
-        assert head_mask.dim() == 5, f"head_mask.dim != 5, got {head_mask.dim()}"
-        head_mask = head_mask.to(dtype=self.dtype)
-        return head_mask
-    def get_head_mask(
-        self,
-        head_mask: Optional[torch.Tensor],
-        num_hidden_layers: int,
-        is_attention_chunked: bool = False,
-    ) -> Union[torch.Tensor, List[None]]:
-        if head_mask is None:
-            return [None] * num_hidden_layers
-        head_mask = self._convert_head_mask_to_5d(head_mask, num_hidden_layers)
-        if is_attention_chunked:
-            head_mask = head_mask.unsqueeze(-1)
-        return head_mask
     def set_input_embeddings(self, value):
         self.embeddings.word_embeddings = value
@@ -860,6 +838,29 @@ class DPLMModel(DPLMPreTrainedModel, EmbeddingMixin):
         attns *= attention_mask.unsqueeze(1).unsqueeze(2).unsqueeze(4)
         return self.contact_head(input_ids, attns)
     def forward(
         self,
         input_ids: Optional[torch.Tensor] = None,
@@ -953,14 +954,12 @@ class DPLMModel(DPLMPreTrainedModel, EmbeddingMixin):
             flex_block_mask=flex_block_mask,
         )
         sequence_output = encoder_outputs[0]
-        pooled_output = self.pooler(sequence_output) if self.pooler is not None else None
         if return_dict is False:
-            return (sequence_output, pooled_output) + encoder_outputs[1:]
         return BaseModelOutputWithPoolingAndCrossAttentions(
             last_hidden_state=sequence_output,
-            pooler_output=pooled_output,
             past_key_values=None,
             hidden_states=encoder_outputs.hidden_states,
             attentions=encoder_outputs.attentions,
@@ -968,6 +967,74 @@ class DPLMModel(DPLMPreTrainedModel, EmbeddingMixin):
         )
 class DPLMForMaskedLM(DPLMPreTrainedModel, EmbeddingMixin):
     config_class = DPLMConfig
@@ -994,7 +1061,7 @@ class DPLMForMaskedLM(DPLMPreTrainedModel, EmbeddingMixin):
         self.contact_head = None
     def get_input_embeddings(self) -> nn.Module:
-        return self.esm.embeddings.word_embeddings
     def get_output_embeddings(self):
         return self.lm_head.decoder
@@ -1064,7 +1131,7 @@ class DPLMForSequenceClassification(DPLMPreTrainedModel, EmbeddingMixin):
     config_class = DPLMConfig
     def get_input_embeddings(self) -> nn.Module:
-        return self.esm.embeddings.word_embeddings
     def __init__(self, config):
         DPLMPreTrainedModel.__init__(self, config)
@@ -1134,7 +1201,7 @@ class DPLMForTokenClassification(DPLMPreTrainedModel, EmbeddingMixin):
     config_class = DPLMConfig
     def get_input_embeddings(self) -> nn.Module:
-        return self.esm.embeddings.word_embeddings
     def __init__(self, config):
         DPLMPreTrainedModel.__init__(self, config)

         )
+class FAST_DPLM_ENCODER(DPLMPreTrainedModel, EmbeddingMixin):
+    """Inner encoder class that holds the actual ESM-style weights (embeddings, encoder,
+    contact_head) so that the weight keys are prefixed with 'esm.' in the outer DPLMModel,
+    matching pretrained DPLM checkpoints."""
+    def __init__(self, config, **kwargs):
+        DPLMPreTrainedModel.__init__(self, config, **kwargs)
         self.config = config
         self.embeddings = EsmEmbeddings(config)
         self.encoder = ModifiedEsmEncoder(config)
         self.contact_head = EsmContactPredictionHead(
             in_features=config.num_hidden_layers * config.num_attention_heads,
             bias=True,
         )
         self.post_init()
+    def get_input_embeddings(self) -> nn.Module:
+        return self.embeddings.word_embeddings
     def set_input_embeddings(self, value):
         self.embeddings.word_embeddings = value
         attns *= attention_mask.unsqueeze(1).unsqueeze(2).unsqueeze(4)
         return self.contact_head(input_ids, attns)
+    def _convert_head_mask_to_5d(self, head_mask: torch.Tensor, num_hidden_layers: int) -> torch.Tensor:
+        if head_mask.dim() == 1:
+            head_mask = head_mask.unsqueeze(0).unsqueeze(0).unsqueeze(-1).unsqueeze(-1)
+            head_mask = head_mask.expand(num_hidden_layers, -1, -1, -1, -1)
+        elif head_mask.dim() == 2:
+            head_mask = head_mask.unsqueeze(1).unsqueeze(-1).unsqueeze(-1)
+        assert head_mask.dim() == 5, f"head_mask.dim != 5, got {head_mask.dim()}"
+        head_mask = head_mask.to(dtype=self.dtype)
+        return head_mask
+    def get_head_mask(
+        self,
+        head_mask: Optional[torch.Tensor],
+        num_hidden_layers: int,
+        is_attention_chunked: bool = False,
+    ) -> Union[torch.Tensor, List[None]]:
+        if head_mask is None:
+            return [None] * num_hidden_layers
+        head_mask = self._convert_head_mask_to_5d(head_mask, num_hidden_layers)
+        if is_attention_chunked:
+            head_mask = head_mask.unsqueeze(-1)
+        return head_mask
     def forward(
         self,
         input_ids: Optional[torch.Tensor] = None,
             flex_block_mask=flex_block_mask,
         )
         sequence_output = encoder_outputs[0]
         if return_dict is False:
+            return (sequence_output,) + encoder_outputs[1:]
         return BaseModelOutputWithPoolingAndCrossAttentions(
             last_hidden_state=sequence_output,
             past_key_values=None,
             hidden_states=encoder_outputs.hidden_states,
             attentions=encoder_outputs.attentions,
         )
+class DPLMModel(DPLMPreTrainedModel, EmbeddingMixin):
+    config_class = DPLMConfig
+    def __init__(self, config, add_pooling_layer=True):
+        DPLMPreTrainedModel.__init__(self, config)
+        self.config = config
+        self.esm = FAST_DPLM_ENCODER(config)
+        self.pooler = EsmPooler(config) if add_pooling_layer else None
+        self.post_init()
+    def get_input_embeddings(self) -> nn.Module:
+        return self.esm.embeddings.word_embeddings
+    def set_input_embeddings(self, value):
+        self.esm.embeddings.word_embeddings = value
+    def _embed(self, input_ids: torch.Tensor, attention_mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        return self.esm._embed(input_ids, attention_mask)
+    def predict_contacts(self, input_ids: torch.Tensor, attention_mask: torch.Tensor) -> torch.Tensor:
+        return self.esm.predict_contacts(input_ids, attention_mask)
+    def forward(
+        self,
+        input_ids: Optional[torch.Tensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.Tensor] = None,
+        head_mask: Optional[torch.Tensor] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        encoder_hidden_states: Optional[torch.Tensor] = None,
+        encoder_attention_mask: Optional[torch.Tensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple[torch.Tensor], BaseModelOutputWithPoolingAndCrossAttentions]:
+        outputs = self.esm(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            head_mask=head_mask,
+            inputs_embeds=inputs_embeds,
+            encoder_hidden_states=encoder_hidden_states,
+            encoder_attention_mask=encoder_attention_mask,
+            past_key_values=past_key_values,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        sequence_output = outputs[0]
+        pooled_output = self.pooler(sequence_output) if self.pooler is not None else None
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        if return_dict is False:
+            return (sequence_output, pooled_output) + outputs[1:]
+        return BaseModelOutputWithPoolingAndCrossAttentions(
+            last_hidden_state=sequence_output,
+            pooler_output=pooled_output,
+            past_key_values=None,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+            cross_attentions=outputs.cross_attentions,
+        )
 class DPLMForMaskedLM(DPLMPreTrainedModel, EmbeddingMixin):
     config_class = DPLMConfig
         self.contact_head = None
     def get_input_embeddings(self) -> nn.Module:
+        return self.esm.get_input_embeddings()
     def get_output_embeddings(self):
         return self.lm_head.decoder
     config_class = DPLMConfig
     def get_input_embeddings(self) -> nn.Module:
+        return self.esm.get_input_embeddings()
     def __init__(self, config):
         DPLMPreTrainedModel.__init__(self, config)
     config_class = DPLMConfig
     def get_input_embeddings(self) -> nn.Module:
+        return self.esm.get_input_embeddings()
     def __init__(self, config):
         DPLMPreTrainedModel.__init__(self, config)