aframson
/

RDPD-mini

Text Generation

feature-extraction

Model card Files Files and versions

aframson commited on Sep 23, 2023

Commit

8d90985

·

1 Parent(s): 1a401cc

asas

Files changed (1) hide show

modelLM.py +12 -8

modelLM.py CHANGED Viewed

@@ -29,16 +29,20 @@ class OBILanguageModel(PreTrainedModel):
-    def forward(self, idx, attention_mask=None, targets=None):
         tok_emb = self.token_embedding_table(idx)
-        pos_emb = self.position_embedding_table(torch.arange(idx.size(1), device='cpu'))
-        x = tok_emb + pos_emb
-        # Create an attention mask for padding tokens
-        if attention_mask is not None:
-            attention_mask = attention_mask.to(x.device)
-        x = self.transformer(x, attn_mask=attention_mask)  # Pass attention_mask to the transformer
         x = self.ln1(x)
         x = self.ln2(x)
         logits = self.lm_head(x)

+    def forward(self, idx, targets=None):
         tok_emb = self.token_embedding_table(idx)
+        pos_emb = None  # Initialize pos_emb to None
+        try:
+            pos_emb = self.position_embedding_table(torch.arange(idx.size(1), device='cpu'))
+        except IndexError as e:
+            # Handle the IndexError by initializing pos_emb with zeros
+            print(f"IndexError: {e}")
+            print(f"idx.size(1): {idx.size(1)}")
+            print(f"Positional embedding table shape: {self.position_embedding_table.weight.shape}")
+            pos_emb = torch.zeros((idx.size(1), self.config.hidden_size), device=device)
+        x = tok_emb + pos_emb
+        x = self.transformer(x, x)
         x = self.ln1(x)
         x = self.ln2(x)
         logits = self.lm_head(x)