Charlie81
/

LoRE

Charlie81 commited on Jul 14, 2025

Commit

3ed7a55

1 Parent(s): 8fc755e

changes to training script

Files changed (1) hide show

scripts/train.py CHANGED Viewed

@@ -102,7 +102,6 @@ def main():
         ):
             param.requires_grad = True
             trainable_params.append(name)
-            print(f"Unfreezing parameter: {name}")
     print(f"Total trainable parameters: {len(trainable_params)}")
@@ -192,13 +191,21 @@ def main():
     model.zero_grad()
     # Check for existing checkpoint
     checkpoint_dir = None
     if os.path.isdir(training_args.output_dir):
-        checkpoints = [os.path.join(training_args.output_dir, d) for d in os.listdir(training_args.output_dir) if d.startswith("checkpoint-")]
         if checkpoints:
-            checkpoint_dir = max(checkpoints, key=os.path.getmtime)
             print(f"Resuming from checkpoint: {checkpoint_dir}")
     # Train
     print("Starting training...")
     trainer.train(resume_from_checkpoint=checkpoint_dir)

         ):
             param.requires_grad = True
             trainable_params.append(name)
     print(f"Total trainable parameters: {len(trainable_params)}")
     model.zero_grad()
     # Check for existing checkpoint
+    import re
     checkpoint_dir = None
     if os.path.isdir(training_args.output_dir):
+        checkpoints = [
+            os.path.join(training_args.output_dir, d)
+            for d in os.listdir(training_args.output_dir)
+            if re.match(r"checkpoint-\d+", d)
+        ]
         if checkpoints:
+            # Extract step numbers and find the highest
+            checkpoint_dir = max(checkpoints, key=lambda x: int(x.split('-')[-1]))
             print(f"Resuming from checkpoint: {checkpoint_dir}")
     # Train
     print("Starting training...")
     trainer.train(resume_from_checkpoint=checkpoint_dir)