Xsmos
/

ml21cm

@@ -601,8 +601,8 @@ class DDPM21CM:
                     self.config.logger.add_scalar("learning_rate", logs["lr"], global_step = global_step)
                 global_step += 1
-            if (i+i) % self.config.gradient_accumulation_steps != 0:
-                print(f"(i+1)%self.config.gradient_accumulation_steps = {(i+1)%self.config.gradient_accumulation_steps}, i = {i}, scg = {self.config.gradient_accumulation_steps}".center(240,'-'))
                 torch.nn.utils.clip_grad_norm_(self.nn_model.parameters(), max_norm=1.0)
                 self.optimizer.step()
                 self.lr_scheduler.step()

                     self.config.logger.add_scalar("learning_rate", logs["lr"], global_step = global_step)
                 global_step += 1
+            if (i+1) % self.config.gradient_accumulation_steps != 0:
+                print(f"(i+1)%self.config.gradient_accumulation_steps = {(i+1)%self.config.gradient_accumulation_steps}, i = {i}, scg = {self.config.gradient_accumulation_steps}".center(120,'-'))
                 torch.nn.utils.clip_grad_norm_(self.nn_model.parameters(), max_norm=1.0)
                 self.optimizer.step()
                 self.lr_scheduler.step()