ltg
/

norbert4-large

Model card Files Files and versions

davda54 commited on Jun 5, 2025

Commit

16b2b5e

·

verified ·

1 Parent(s): 6cbbc37

fix attention mask

Files changed (1) hide show

modeling_gptbert.py +2 -2

modeling_gptbert.py CHANGED Viewed

@@ -615,9 +615,9 @@ class GptBertModel(GptBertPreTrainedModel):
             padding_info = (indices, cu_seqlens, max_seqlen_in_batch)
         else:
             if len(attention_mask.size()) == 2:
-                attention_mask = attention_mask.unsqueeze(1).unsqueeze(2)
-            elif len(attention_mask.size()) == 3:
                 attention_mask = attention_mask.unsqueeze(1)
             padding_info = attention_mask
         static_embeddings = self.embedding(input_ids)

             padding_info = (indices, cu_seqlens, max_seqlen_in_batch)
         else:
             if len(attention_mask.size()) == 2:
                 attention_mask = attention_mask.unsqueeze(1)
+            if len(attention_mask.size()) != 3:
+                raise ValueError("Bare `attention_mask` med to eller tre dimensjoner støttes nå for SDPA.")
             padding_info = attention_mask
         static_embeddings = self.embedding(input_ids)