ltg
/

norbert3-base

@@ -222,7 +222,7 @@ class NorbertPreTrainedModel(PreTrainedModel):
     config_class = NorbertConfig
     base_model_prefix = "norbert3"
     supports_gradient_checkpointing = True
-    _tied_weights_keys = []
     def _set_gradient_checkpointing(self, module, value=False):
         if isinstance(module, Encoder):
@@ -252,6 +252,8 @@ class NorbertModel(NorbertPreTrainedModel):
         self.transformer = Encoder(config, activation_checkpointing=gradient_checkpointing)
         self.classifier = MaskClassifier(config, self.embedding.word_embedding.weight) if add_mlm_layer else None
     def get_input_embeddings(self):
         return self.embedding.word_embedding
@@ -317,10 +319,11 @@ class NorbertModel(NorbertPreTrainedModel):
 class NorbertForMaskedLM(NorbertModel):
     _keys_to_ignore_on_load_unexpected = ["head"]
-    _tied_weights_keys = ["classifier.nonlinearity.5.weight"]
     def __init__(self, config, **kwargs):
         super().__init__(config, add_mlm_layer=True, **kwargs)
     def get_output_embeddings(self):
         return self.classifier.nonlinearity[-1].weight
@@ -395,6 +398,7 @@ class NorbertForSequenceClassification(NorbertModel):
         self.num_labels = config.num_labels
         self.head = Classifier(config, self.num_labels)
     def forward(
         self,
@@ -460,6 +464,7 @@ class NorbertForTokenClassification(NorbertModel):
         self.num_labels = config.num_labels
         self.head = Classifier(config, self.num_labels)
     def forward(
         self,
@@ -507,6 +512,7 @@ class NorbertForQuestionAnswering(NorbertModel):
         self.num_labels = config.num_labels
         self.head = Classifier(config, self.num_labels)
     def forward(
         self,
@@ -574,6 +580,7 @@ class NorbertForMultipleChoice(NorbertModel):
         self.num_labels = getattr(config, "num_labels", 2)
         self.head = Classifier(config, self.num_labels)
     def forward(
         self,

     config_class = NorbertConfig
     base_model_prefix = "norbert3"
     supports_gradient_checkpointing = True
+    _tied_weights_keys = {}
     def _set_gradient_checkpointing(self, module, value=False):
         if isinstance(module, Encoder):
         self.transformer = Encoder(config, activation_checkpointing=gradient_checkpointing)
         self.classifier = MaskClassifier(config, self.embedding.word_embedding.weight) if add_mlm_layer else None
+        self.post_init()
     def get_input_embeddings(self):
         return self.embedding.word_embedding
 class NorbertForMaskedLM(NorbertModel):
     _keys_to_ignore_on_load_unexpected = ["head"]
+    _tied_weights_keys = {"classifier.nonlinearity.5.weight": "embedding.word_embedding.weight"}
     def __init__(self, config, **kwargs):
         super().__init__(config, add_mlm_layer=True, **kwargs)
+        self.post_init()
     def get_output_embeddings(self):
         return self.classifier.nonlinearity[-1].weight
         self.num_labels = config.num_labels
         self.head = Classifier(config, self.num_labels)
+        self.post_init()
     def forward(
         self,
         self.num_labels = config.num_labels
         self.head = Classifier(config, self.num_labels)
+        self.post_init()
     def forward(
         self,
         self.num_labels = config.num_labels
         self.head = Classifier(config, self.num_labels)
+        self.post_init()
     def forward(
         self,
         self.num_labels = getattr(config, "num_labels", 2)
         self.head = Classifier(config, self.num_labels)
+        self.post_init()
     def forward(
         self,