ikaganacar
/

ismail

ikaganacar commited on Nov 12, 2025

Commit

e38bdfb

1 Parent(s): 5db5e42

Fixes

Files changed (2) hide show

Model_Architecture/model.py CHANGED Viewed

@@ -484,6 +484,10 @@ class Block(nn.Module):
         x = x + ffn_out
         return x, lb_loss
 #####################################
@@ -491,11 +495,12 @@ class Block(nn.Module):
 #####################################
 class ismail(nn.Module):
-    def __init__(self, args: ModelArgs):
         super().__init__()
         self.args = args
         self.vocab_size = args.vocab_size
         self.n_layers = args.n_layers
         self.tok_embeddings = nn.Embedding(args.vocab_size, args.dim)
         self.layers = nn.ModuleList([Block(i, args) for i in range(args.n_layers)])
@@ -523,8 +528,18 @@ class ismail(nn.Module):
             mask = torch.hstack([torch.zeros((seqlen, start_pos), device=tokens.device), mask]).type_as(h)
         total_lb_loss = 0.0
         for layer in self.layers:
-            h, lb_loss = layer(h, start_pos, freqs_cis, mask)
             if lb_loss is not None:
                 total_lb_loss += lb_loss

         x = x + ffn_out
         return x, lb_loss
+    def checkpoint_forward(self, x: torch.Tensor) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
+        """Wrapper for gradient checkpointing that captures other args"""
+        return self.forward(x, self.start_pos, self.freqs_cis, self.mask)
 #####################################
 #####################################
 class ismail(nn.Module):
+    def __init__(self, args: ModelArgs, use_checkpointing: bool = False):
         super().__init__()
         self.args = args
         self.vocab_size = args.vocab_size
         self.n_layers = args.n_layers
+        self.use_checkpointing = use_checkpointing
         self.tok_embeddings = nn.Embedding(args.vocab_size, args.dim)
         self.layers = nn.ModuleList([Block(i, args) for i in range(args.n_layers)])
             mask = torch.hstack([torch.zeros((seqlen, start_pos), device=tokens.device), mask]).type_as(h)
         total_lb_loss = 0.0
         for layer in self.layers:
+            layer.start_pos = start_pos
+            layer.freqs_cis = freqs_cis
+            layer.mask = mask
+            if self.training and self.use_checkpointing:
+                from torch.utils.checkpoint import checkpoint
+                h, lb_loss = checkpoint(layer.checkpoint_forward, h)
+            else:
+                h, lb_loss = layer(h, start_pos, freqs_cis, mask)
             if lb_loss is not None:
                 total_lb_loss += lb_loss

Model_Architecture/train.py CHANGED Viewed

@@ -145,12 +145,11 @@ def setup_model(config, device):
     # Estimate size
     #size_info = estimate_model_size(args)
-    model = ismail(args).to(device)
-    if config["training"].get("use_checkpointing", True):
-        for layer in model.layers:
-            layer.forward = lambda *args, layer=layer: checkpoint(layer._forward, *args)
         print("✅ Gradient checkpointing enabled")
     # Compile for speed (PyTorch 2.0+)

     # Estimate size
     #size_info = estimate_model_size(args)
+    use_checkpointing = config["training"].get("use_checkpointing", False)
+    model = ismail(args, use_checkpointing=use_checkpointing).to(device)
+    if use_checkpointing:
         print("✅ Gradient checkpointing enabled")
     # Compile for speed (PyTorch 2.0+)