dimasik87
/

s21s

@@ -24,12 +24,12 @@ checkpointer:
 resume_from_checkpoint: false
 interim_checkpoint_steps: 5000
 interim_gen_steps: null
-max_new_tokens: 200
 temperature: 0.8
 top_k: 200
 dataset:
   _component_: ds.EvenBatcher
-  buffer_size: 72
   dataset:
     _component_: ds.RoundRobinDataset
     datasets:
@@ -50,13 +50,13 @@ batch_size: 16
 optimizer:
   _component_: torch.optim.AdamW
   weight_decay: 0.001
-  lr: 0.0003
 lr_scheduler:
   _component_: torchtune.modules.get_cosine_schedule_with_warmup
   num_warmup_steps: 150
 loss:
   _component_: torch.nn.CrossEntropyLoss
-epochs: 6
 max_steps_per_epoch: null
 gradient_accumulation_steps: 16
 compile: false

 resume_from_checkpoint: false
 interim_checkpoint_steps: 5000
 interim_gen_steps: null
+max_new_tokens: 210
 temperature: 0.8
 top_k: 200
 dataset:
   _component_: ds.EvenBatcher
+  buffer_size: 90
   dataset:
     _component_: ds.RoundRobinDataset
     datasets:
 optimizer:
   _component_: torch.optim.AdamW
   weight_decay: 0.001
+  lr: 0.0002
 lr_scheduler:
   _component_: torchtune.modules.get_cosine_schedule_with_warmup
   num_warmup_steps: 150
 loss:
   _component_: torch.nn.CrossEntropyLoss
+epochs: 7
 max_steps_per_epoch: null
 gradient_accumulation_steps: 16
 compile: false