Synthyra
/

DPLM2-3B

@@ -890,17 +890,38 @@ class ModifiedEsmEncoder(EsmEncoder):
         )
-class DPLM2Model(DPLM2PreTrainedModel, EmbeddingMixin):
-    config_class = DPLM2Config
-    def __init__(self, config, add_pooling_layer=True):
-        DPLM2PreTrainedModel.__init__(self, config)
         self.config = config
         self.embeddings = EsmEmbeddings(config)
         self.encoder = ModifiedEsmEncoder(config)
-        self.pooler = EsmPooler(config) if add_pooling_layer else None
         self.post_init()
     def _convert_head_mask_to_5d(self, head_mask: torch.Tensor, num_hidden_layers: int) -> torch.Tensor:
         if head_mask.dim() == 1:
             head_mask = head_mask.unsqueeze(0).unsqueeze(0).unsqueeze(-1).unsqueeze(-1)
@@ -924,26 +945,6 @@ class DPLM2Model(DPLM2PreTrainedModel, EmbeddingMixin):
             head_mask = head_mask.unsqueeze(-1)
         return head_mask
-    def get_input_embeddings(self) -> nn.Module:
-        return self.embeddings.word_embeddings
-    def set_input_embeddings(self, value):
-        self.embeddings.word_embeddings = value
-    def _embed(self, input_ids: torch.Tensor, attention_mask: Optional[torch.Tensor] = None) -> torch.Tensor:
-        if attention_mask is None:
-            attention_mask = input_ids.ne(self.config.pad_token_id)
-        type_ids = _infer_modality_type(input_ids, attention_mask)
-        outputs = self(
-            input_ids=input_ids,
-            attention_mask=attention_mask,
-            type_ids=type_ids,
-            output_hidden_states=False,
-            output_attentions=False,
-            return_dict=True,
-        )
-        return outputs.last_hidden_state
     def forward(
         self,
         input_ids: Optional[torch.Tensor] = None,
@@ -1039,14 +1040,12 @@ class DPLM2Model(DPLM2PreTrainedModel, EmbeddingMixin):
             flex_block_mask=flex_block_mask,
         )
         sequence_output = encoder_outputs[0]
-        pooled_output = self.pooler(sequence_output) if self.pooler is not None else None
         if return_dict is False:
-            return (sequence_output, pooled_output) + encoder_outputs[1:]
         return BaseModelOutputWithPoolingAndCrossAttentions(
             last_hidden_state=sequence_output,
-            pooler_output=pooled_output,
             past_key_values=None,
             hidden_states=encoder_outputs.hidden_states,
             attentions=encoder_outputs.attentions,
@@ -1054,6 +1053,73 @@ class DPLM2Model(DPLM2PreTrainedModel, EmbeddingMixin):
         )
 class DPLM2ForMaskedLM(DPLM2PreTrainedModel, EmbeddingMixin):
     config_class = DPLM2Config

         )
+class FAST_DPLM2_ENCODER(DPLM2PreTrainedModel, EmbeddingMixin):
+    """Inner encoder class that holds the actual ESM-style weights (embeddings, encoder)
+    so that the weight keys are prefixed with 'esm.' in the outer DPLM2Model,
+    matching pretrained DPLM2 checkpoints."""
+    def __init__(self, config, **kwargs):
+        DPLM2PreTrainedModel.__init__(self, config, **kwargs)
         self.config = config
         self.embeddings = EsmEmbeddings(config)
         self.encoder = ModifiedEsmEncoder(config)
         self.post_init()
+    def get_input_embeddings(self) -> nn.Module:
+        return self.embeddings.word_embeddings
+    def set_input_embeddings(self, value):
+        self.embeddings.word_embeddings = value
+    def _embed(self, input_ids: torch.Tensor, attention_mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        if attention_mask is None:
+            attention_mask = input_ids.ne(self.config.pad_token_id)
+        type_ids = _infer_modality_type(input_ids, attention_mask)
+        outputs = self(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            type_ids=type_ids,
+            output_hidden_states=False,
+            output_attentions=False,
+            return_dict=True,
+        )
+        return outputs.last_hidden_state
     def _convert_head_mask_to_5d(self, head_mask: torch.Tensor, num_hidden_layers: int) -> torch.Tensor:
         if head_mask.dim() == 1:
             head_mask = head_mask.unsqueeze(0).unsqueeze(0).unsqueeze(-1).unsqueeze(-1)
             head_mask = head_mask.unsqueeze(-1)
         return head_mask
     def forward(
         self,
         input_ids: Optional[torch.Tensor] = None,
             flex_block_mask=flex_block_mask,
         )
         sequence_output = encoder_outputs[0]
         if return_dict is False:
+            return (sequence_output,) + encoder_outputs[1:]
         return BaseModelOutputWithPoolingAndCrossAttentions(
             last_hidden_state=sequence_output,
             past_key_values=None,
             hidden_states=encoder_outputs.hidden_states,
             attentions=encoder_outputs.attentions,
         )
+class DPLM2Model(DPLM2PreTrainedModel, EmbeddingMixin):
+    config_class = DPLM2Config
+    def __init__(self, config, add_pooling_layer=True):
+        DPLM2PreTrainedModel.__init__(self, config)
+        self.config = config
+        self.esm = FAST_DPLM2_ENCODER(config)
+        self.pooler = EsmPooler(config) if add_pooling_layer else None
+        self.post_init()
+    def get_input_embeddings(self) -> nn.Module:
+        return self.esm.embeddings.word_embeddings
+    def set_input_embeddings(self, value):
+        self.esm.embeddings.word_embeddings = value
+    def _embed(self, input_ids: torch.Tensor, attention_mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        return self.esm._embed(input_ids, attention_mask)
+    def forward(
+        self,
+        input_ids: Optional[torch.Tensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.Tensor] = None,
+        head_mask: Optional[torch.Tensor] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        encoder_hidden_states: Optional[torch.Tensor] = None,
+        encoder_attention_mask: Optional[torch.Tensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        type_ids: Optional[torch.Tensor] = None,
+    ) -> Union[Tuple[torch.Tensor], BaseModelOutputWithPoolingAndCrossAttentions]:
+        outputs = self.esm(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            head_mask=head_mask,
+            inputs_embeds=inputs_embeds,
+            encoder_hidden_states=encoder_hidden_states,
+            encoder_attention_mask=encoder_attention_mask,
+            past_key_values=past_key_values,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+            type_ids=type_ids,
+        )
+        sequence_output = outputs[0]
+        pooled_output = self.pooler(sequence_output) if self.pooler is not None else None
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        if return_dict is False:
+            return (sequence_output, pooled_output) + outputs[1:]
+        return BaseModelOutputWithPoolingAndCrossAttentions(
+            last_hidden_state=sequence_output,
+            pooler_output=pooled_output,
+            past_key_values=None,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+            cross_attentions=outputs.cross_attentions,
+        )
 class DPLM2ForMaskedLM(DPLM2PreTrainedModel, EmbeddingMixin):
     config_class = DPLM2Config