flopml
/

mamba

flpelerin commited on Aug 28, 2024

Commit

0049910

1 Parent(s): 1582608

Update 2 files

- /model.py
- /trainer.py

Files changed (2) hide show

model.py CHANGED Viewed

@@ -34,7 +34,6 @@ class Model:
         shift_logits = lm_logits[:, :-1, :].contiguous()
         labels = labels[:, 1:].contiguous()
         loss_fct = criterion or torch.nn.CrossEntropyLoss()
         lm_loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), labels.view(-1))

         shift_logits = lm_logits[:, :-1, :].contiguous()
         labels = labels[:, 1:].contiguous()
         loss_fct = criterion or torch.nn.CrossEntropyLoss()
         lm_loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), labels.view(-1))

trainer.py CHANGED Viewed

@@ -3,6 +3,17 @@ import torch
 from util import Config
 class Trainer:
     def __init__(self, config: Config):
         self.__dict__ = dict(config.__dict__)
@@ -21,7 +32,9 @@ class Trainer:
     def train(self, batches):
-        self.optimizer = torch.optim.Adam(self.model.parameters(), lr=self.learning_rate)
         self.model.unfreeze()
         for self.epoch in range(self.num_epochs):

 from util import Config
+class NoOptimizer(torch.optim.Optimizer):
+    def __init__(self, params, lr=0):
+        defaults = dict(lr=lr)
+        super(NoOptimizer, self).__init__(params, defaults)
+    def step(self, closure=None):
+        pass
 class Trainer:
     def __init__(self, config: Config):
         self.__dict__ = dict(config.__dict__)
     def train(self, batches):
+        #self.optimizer = torch.optim.Adam(self.model.parameters(), lr=self.learning_rate)
+        self.optimizer = NoOptimizer(self.model.parameters(), lr=self.learning_rate)
         self.model.unfreeze()
         for self.epoch in range(self.num_epochs):