barneystinson
/

sn21-2

@@ -19,7 +19,7 @@ checkpointer:
   - meta_model_1.pt
   adapter_checkpoint: null
   recipe_checkpoint: null
-  output_dir: output_checkpoints/experiment_7
   model_type: LLAMA3
 resume_from_checkpoint: false
 interim_checkpoint_steps: 15000
@@ -50,13 +50,13 @@ batch_size: 6
 optimizer:
   _component_: torch.optim.AdamW
   weight_decay: 0.99
-  lr: 2.0e-06
 lr_scheduler:
   _component_: torchtune.modules.get_cosine_schedule_with_warmup
-  num_warmup_steps: 100
 loss:
   _component_: torch.nn.CrossEntropyLoss
-epochs: 6
 max_steps_per_epoch: null
 gradient_accumulation_steps: 16
 compile: false

   - meta_model_1.pt
   adapter_checkpoint: null
   recipe_checkpoint: null
+  output_dir: output_checkpoints/experiment_1
   model_type: LLAMA3
 resume_from_checkpoint: false
 interim_checkpoint_steps: 15000
 optimizer:
   _component_: torch.optim.AdamW
   weight_decay: 0.99
+  lr: 1.0e-05
 lr_scheduler:
   _component_: torchtune.modules.get_cosine_schedule_with_warmup
+  num_warmup_steps: 4
 loss:
   _component_: torch.nn.CrossEntropyLoss
+epochs: 60
 max_steps_per_epoch: null
 gradient_accumulation_steps: 16
 compile: false