Upload 7 files

Browse files

Files changed (3) hide show

config.json +2 -2
configuration_ltgbert.py +26 -2
modeling_ltgbert.py +44 -15

config.json CHANGED Viewed

@@ -5,8 +5,8 @@
   ],
   "attention_probs_dropout_prob": 0.1,
   "auto_map": {
-    "AutoConfig": "ltg/ltg-bert-babylm--configuration_ltgbert.LtgBertConfig",
-    "AutoModelForMaskedLM": "ltg/ltg-bert-babylm--modeling_ltgbert.LtgBertForMaskedLM",
     "AutoModelForSequenceClassification": "modeling_ltgbert.LtgBertForSequenceClassification"
   },
   "classifier_dropout": 0.2,

   ],
   "attention_probs_dropout_prob": 0.1,
   "auto_map": {
+    "AutoConfig": "configuration_ltgbert.LtgBertConfig",
+    "AutoModelForMaskedLM": "modeling_ltgbert.LtgBertForMaskedLM",
     "AutoModelForSequenceClassification": "modeling_ltgbert.LtgBertForSequenceClassification"
   },
   "classifier_dropout": 0.2,

configuration_ltgbert.py CHANGED Viewed

@@ -19,6 +19,30 @@
 from transformers.configuration_utils import PretrainedConfig
 class LtgBertConfig(PretrainedConfig):
     r"""
     This is the configuration class to store the configuration of a [`LtgBertModel`]. It is used to
@@ -49,7 +73,7 @@ class LtgBertConfig(PretrainedConfig):
         classifier_dropout (`float`, *optional*):
             The dropout ratio for the classification head.
     """
-    model_type = "bert"
     def __init__(
         self,
         vocab_size=16384,
@@ -80,4 +104,4 @@ class LtgBertConfig(PretrainedConfig):
         self.output_all_encoded_layers = output_all_encoded_layers
         self.position_bucket_size = position_bucket_size
         self.layer_norm_eps = layer_norm_eps
-        self.classifier_dropout = classifier_dropout

 from transformers.configuration_utils import PretrainedConfig
+LTG_BERT_PRETRAINED_CONFIG_ARCHIVE_MAP = {
+    "bnc-bert-span": "https://huggingface.co/ltg/bnc-bert-span",
+    "bnc-bert-span-2x": "https://huggingface.co/ltg/bnc-bert-span-2x",
+    "bnc-bert-span-0.5x": "https://huggingface.co/ltg/bnc-bert-span-0.5x",
+    "bnc-bert-span-0.25x": "https://huggingface.co/ltg/bnc-bert-span-0.25x",
+    "bnc-bert-span-order": "https://huggingface.co/ltg/bnc-bert-span-order",
+    "bnc-bert-span-document": "https://huggingface.co/ltg/bnc-bert-span-document",
+    "bnc-bert-span-word": "https://huggingface.co/ltg/bnc-bert-span-word",
+    "bnc-bert-span-subword": "https://huggingface.co/ltg/bnc-bert-span-subword",
+    "norbert3-xs": "https://huggingface.co/ltg/norbert3-xs/config.json",
+    "norbert3-small": "https://huggingface.co/ltg/norbert3-small/config.json",
+    "norbert3-base": "https://huggingface.co/ltg/norbert3-base/config.json",
+    "norbert3-large": "https://huggingface.co/ltg/norbert3-large/config.json",
+    "norbert3-oversampled-base": "https://huggingface.co/ltg/norbert3-oversampled-base/config.json",
+    "norbert3-ncc-base": "https://huggingface.co/ltg/norbert3-ncc-base/config.json",
+    "norbert3-nak-base": "https://huggingface.co/ltg/norbert3-nak-base/config.json",
+    "norbert3-nb-base": "https://huggingface.co/ltg/norbert3-nb-base/config.json",
+    "norbert3-wiki-base": "https://huggingface.co/ltg/norbert3-wiki-base/config.json",
+    "norbert3-c4-base": "https://huggingface.co/ltg/norbert3-c4-base/config.json"
+}
 class LtgBertConfig(PretrainedConfig):
     r"""
     This is the configuration class to store the configuration of a [`LtgBertModel`]. It is used to
         classifier_dropout (`float`, *optional*):
             The dropout ratio for the classification head.
     """
+    model_type = "ltgbert"
     def __init__(
         self,
         vocab_size=16384,
         self.output_all_encoded_layers = output_all_encoded_layers
         self.position_bucket_size = position_bucket_size
         self.layer_norm_eps = layer_norm_eps
+        self.classifier_dropout = classifier_dropout

modeling_ltgbert.py CHANGED Viewed

@@ -39,10 +39,34 @@ from transformers.pytorch_utils import softmax_backward_data
 from transformers.utils import add_start_docstrings, add_start_docstrings_to_model_forward
-_CHECKPOINT_FOR_DOC = "ltg/ltg-bert-bnc"
 _CONFIG_FOR_DOC = "LtgBertConfig"
 class Encoder(nn.Module):
     def __init__(self, config, activation_checkpointing=False):
         super().__init__()
@@ -224,8 +248,10 @@ class Attention(nn.Module):
         attention_scores = torch.bmm(query, key.transpose(1, 2) * self.scale)
-        pos = self.in_proj_qk(self.dropout(relative_embedding))  # shape: [2T-1, 2D]
-        query_pos, key_pos = pos.view(-1, self.num_heads, 2*self.head_size).chunk(2, dim=2)
         query = query.view(batch_size, self.num_heads, query_len, self.head_size)
         key = key.view(batch_size, self.num_heads, query_len, self.head_size)
@@ -367,8 +393,6 @@ class LtgBertModel(LtgBertPreTrainedModel):
     ) -> List[torch.Tensor]:
         if input_ids is not None:
             input_shape = input_ids.size()
-        # elif inputs_embeds is not None:
-        #     input_shape = inputs_embeds.size()[:-1]
         else:
             raise ValueError("You have to specify input_ids")
@@ -380,9 +404,7 @@ class LtgBertModel(LtgBertPreTrainedModel):
         else:
             attention_mask = ~attention_mask.bool()
         attention_mask = attention_mask.unsqueeze(1).unsqueeze(2)
-        # if inputs_embeds is None:
-        #     static_embeddings, relative_embedding = self.embedding(input_ids.t())
         static_embeddings, relative_embedding = self.embedding(input_ids.t())
         contextualized_embeddings, attention_probs = self.transformer(static_embeddings, attention_mask, relative_embedding)
         contextualized_embeddings = [e.transpose(0, 1) for e in contextualized_embeddings]
@@ -409,7 +431,8 @@ class LtgBertModel(LtgBertPreTrainedModel):
         )
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
-        sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids, attention_mask)
         if not return_dict:
             return (
@@ -456,7 +479,8 @@ class LtgBertForMaskedLM(LtgBertModel):
         """
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
-        sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids, attention_mask)
         subword_prediction = self.classifier(sequence_output)
         masked_lm_loss = None
@@ -554,8 +578,9 @@ class LtgBertForSequenceClassification(LtgBertModel):
         """
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
-        sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids, inputs_embeds,
-                                                                                                         ~attention_mask)
         logits = self.head(sequence_output[:, 0, :])
         loss = None
@@ -628,7 +653,8 @@ class LtgBertForTokenClassification(LtgBertModel):
     ) -> Union[Tuple[torch.Tensor], TokenClassifierOutput]:
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
-        sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids, attention_mask)
         logits = self.head(sequence_output)
         loss = None
@@ -684,7 +710,8 @@ class LtgBertForQuestionAnswering(LtgBertModel):
     ) -> Union[Tuple[torch.Tensor], QuestionAnsweringModelOutput]:
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
-        sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids, attention_mask)
         logits = self.head(sequence_output)
         start_logits, end_logits = logits.split(1, dim=-1)
@@ -762,7 +789,8 @@ class LtgBertForMultipleChoice(LtgBertModel):
         flat_input_ids = input_ids.view(-1, input_ids.size(-1))
         flat_attention_mask = attention_mask.view(-1, attention_mask.size(-1)) if attention_mask is not None else None
-        sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(flat_input_ids, flat_attention_mask)
         logits = self.head(sequence_output)
         reshaped_logits = logits.view(-1, num_choices)
@@ -785,3 +813,4 @@ class LtgBertForMultipleChoice(LtgBertModel):
             hidden_states=contextualized_embeddings if output_hidden_states else None,
             attentions=attention_probs if output_attentions else None
         )

 from transformers.utils import add_start_docstrings, add_start_docstrings_to_model_forward
+_CHECKPOINT_FOR_DOC = "ltg/bnc-bert-span"
 _CONFIG_FOR_DOC = "LtgBertConfig"
+LTG_BERT_PRETRAINED_MODEL_ARCHIVE_LIST = [
+    "bnc-bert-span",
+    "bnc-bert-span-2x",
+    "bnc-bert-span-0.5x",
+    "bnc-bert-span-0.25x",
+    "bnc-bert-span-order",
+    "bnc-bert-span-document",
+    "bnc-bert-span-word",
+    "bnc-bert-span-subword",
+    "norbert3-xs",
+    "norbert3-small",
+    "norbert3-base",
+    "norbert3-large",
+    "norbert3-oversampled-base",
+    "norbert3-ncc-base",
+    "norbert3-nak-base",
+    "norbert3-nb-base",
+    "norbert3-wiki-base",
+    "norbert3-c4-base"
+]
 class Encoder(nn.Module):
     def __init__(self, config, activation_checkpointing=False):
         super().__init__()
         attention_scores = torch.bmm(query, key.transpose(1, 2) * self.scale)
+        query_pos, key_pos = self.in_proj_qk(self.dropout(relative_embedding)).chunk(2, dim=-1)  # shape: [2T-1, D]
+        query_pos = query_pos.view(-1, self.num_heads, self.head_size)  # shape: [2T-1, H, D]
+        key_pos = key_pos.view(-1, self.num_heads, self.head_size)  # shape: [2T-1, H, D]
         query = query.view(batch_size, self.num_heads, query_len, self.head_size)
         key = key.view(batch_size, self.num_heads, query_len, self.head_size)
     ) -> List[torch.Tensor]:
         if input_ids is not None:
             input_shape = input_ids.size()
         else:
             raise ValueError("You have to specify input_ids")
         else:
             attention_mask = ~attention_mask.bool()
         attention_mask = attention_mask.unsqueeze(1).unsqueeze(2)
         static_embeddings, relative_embedding = self.embedding(input_ids.t())
         contextualized_embeddings, attention_probs = self.transformer(static_embeddings, attention_mask, relative_embedding)
         contextualized_embeddings = [e.transpose(0, 1) for e in contextualized_embeddings]
         )
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids=input_ids,
+                                                                                                         attention_mask=attention_mask)
         if not return_dict:
             return (
         """
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids=input_ids,
+                                                                                                         attention_mask=attention_mask)
         subword_prediction = self.classifier(sequence_output)
         masked_lm_loss = None
         """
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids=input_ids,
+                                                                                                         inputs_embeds=inputs_embeds,
+                                                                                                         attention_mask=attention_mask)
         logits = self.head(sequence_output[:, 0, :])
         loss = None
     ) -> Union[Tuple[torch.Tensor], TokenClassifierOutput]:
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids=input_ids,
+                                                                                                         attention_mask=attention_mask)
         logits = self.head(sequence_output)
         loss = None
     ) -> Union[Tuple[torch.Tensor], QuestionAnsweringModelOutput]:
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids=input_ids,
+                                                                                                         attention_mask=attention_mask)
         logits = self.head(sequence_output)
         start_logits, end_logits = logits.split(1, dim=-1)
         flat_input_ids = input_ids.view(-1, input_ids.size(-1))
         flat_attention_mask = attention_mask.view(-1, attention_mask.size(-1)) if attention_mask is not None else None
+        sequence_output, contextualized_embeddings, attention_probs = self.get_contextualized_embeddings(input_ids=flat_input_ids,
+                                                                                                         attention_mask=flat_attention_mask)
         logits = self.head(sequence_output)
         reshaped_logits = logits.view(-1, num_choices)
             hidden_states=contextualized_embeddings if output_hidden_states else None,
             attentions=attention_probs if output_attentions else None
         )