ltg
/

norbert4-large

Model card Files Files and versions

davda54 commited on Jun 5, 2025

Commit

39265fc

·

verified ·

1 Parent(s): 87e0acb

fix

Files changed (1) hide show

modeling_gptbert.py +1 -2

modeling_gptbert.py CHANGED Viewed

@@ -345,7 +345,6 @@ class SelfAttention(nn.Module):
     def set_window_length(self, window_length: int):
         self.window_length = window_length
-    @lru_cache(maxsize=32)
     def _get_window_mask(self, query_length: int, key_length: int, device: torch.device):
         """Create and cache window attention mask."""
         if self.is_causal:
@@ -532,7 +531,7 @@ class Encoder(nn.Module):
         for layer in self.layers:
             if checkpoint_activations:
-                hidden_layer, v1 = torch.utils.checkpoint.checkpoint(layers, hidden_layer, embeddings, v1, padding_info, use_reentrant=True)
             else:
                 hidden_layer, v1 = layer(hidden_layer, embeddings, v1, padding_info)

     def set_window_length(self, window_length: int):
         self.window_length = window_length
     def _get_window_mask(self, query_length: int, key_length: int, device: torch.device):
         """Create and cache window attention mask."""
         if self.is_causal:
         for layer in self.layers:
             if checkpoint_activations:
+                hidden_layer, v1 = torch.utils.checkpoint.checkpoint(layer, hidden_layer, embeddings, v1, padding_info, use_reentrant=True)
             else:
                 hidden_layer, v1 = layer(hidden_layer, embeddings, v1, padding_info)