irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 16, 2025

Commit

e1e3a52

verified ·

1 Parent(s): 99276fc

Training checkpoint at step 25000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 24000,
-  "best_metric": 2.3842599391937256,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-24000",
-  "epoch": 0.48,
   "eval_steps": 100,
-  "global_step": 24000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8648,6 +8648,366 @@
       "eval_samples_per_second": 3.216,
       "eval_steps_per_second": 1.608,
       "step": 24000
     }
   ],
   "logging_steps": 25,
@@ -8667,7 +9027,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.63968551598529e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 25000,
+  "best_metric": 2.3832170963287354,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-25000",
+  "epoch": 0.5,
   "eval_steps": 100,
+  "global_step": 25000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.216,
       "eval_steps_per_second": 1.608,
       "step": 24000
+    },
+    {
+      "epoch": 0.4805,
+      "grad_norm": 0.5640470742370431,
+      "learning_rate": 5.772444444444445e-06,
+      "loss": 2.3622,
+      "step": 24025
+    },
+    {
+      "epoch": 0.481,
+      "grad_norm": 0.5463055265939479,
+      "learning_rate": 5.76688888888889e-06,
+      "loss": 2.3609,
+      "step": 24050
+    },
+    {
+      "epoch": 0.4815,
+      "grad_norm": 0.566766243472923,
+      "learning_rate": 5.7613333333333345e-06,
+      "loss": 2.3824,
+      "step": 24075
+    },
+    {
+      "epoch": 0.482,
+      "grad_norm": 0.5584478304684121,
+      "learning_rate": 5.755777777777778e-06,
+      "loss": 2.3744,
+      "step": 24100
+    },
+    {
+      "epoch": 0.482,
+      "eval_loss": 2.384092330932617,
+      "eval_runtime": 31.7835,
+      "eval_samples_per_second": 3.209,
+      "eval_steps_per_second": 1.605,
+      "step": 24100
+    },
+    {
+      "epoch": 0.4825,
+      "grad_norm": 0.5731740442874064,
+      "learning_rate": 5.7502222222222224e-06,
+      "loss": 2.3733,
+      "step": 24125
+    },
+    {
+      "epoch": 0.483,
+      "grad_norm": 0.5552901331066319,
+      "learning_rate": 5.744666666666668e-06,
+      "loss": 2.3755,
+      "step": 24150
+    },
+    {
+      "epoch": 0.4835,
+      "grad_norm": 0.5535450397337369,
+      "learning_rate": 5.739111111111112e-06,
+      "loss": 2.3777,
+      "step": 24175
+    },
+    {
+      "epoch": 0.484,
+      "grad_norm": 0.5622658531288893,
+      "learning_rate": 5.733555555555556e-06,
+      "loss": 2.3671,
+      "step": 24200
+    },
+    {
+      "epoch": 0.484,
+      "eval_loss": 2.3840036392211914,
+      "eval_runtime": 31.7615,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 1.606,
+      "step": 24200
+    },
+    {
+      "epoch": 0.4845,
+      "grad_norm": 0.5526779804173192,
+      "learning_rate": 5.728e-06,
+      "loss": 2.374,
+      "step": 24225
+    },
+    {
+      "epoch": 0.485,
+      "grad_norm": 0.5383978006357063,
+      "learning_rate": 5.722444444444445e-06,
+      "loss": 2.3664,
+      "step": 24250
+    },
+    {
+      "epoch": 0.4855,
+      "grad_norm": 0.5542389650019858,
+      "learning_rate": 5.71688888888889e-06,
+      "loss": 2.3692,
+      "step": 24275
+    },
+    {
+      "epoch": 0.486,
+      "grad_norm": 0.5542459781042757,
+      "learning_rate": 5.711333333333334e-06,
+      "loss": 2.379,
+      "step": 24300
+    },
+    {
+      "epoch": 0.486,
+      "eval_loss": 2.3838605880737305,
+      "eval_runtime": 31.8313,
+      "eval_samples_per_second": 3.204,
+      "eval_steps_per_second": 1.602,
+      "step": 24300
+    },
+    {
+      "epoch": 0.4865,
+      "grad_norm": 0.5371257785961498,
+      "learning_rate": 5.705777777777778e-06,
+      "loss": 2.3759,
+      "step": 24325
+    },
+    {
+      "epoch": 0.487,
+      "grad_norm": 0.5334074315105899,
+      "learning_rate": 5.700222222222223e-06,
+      "loss": 2.3842,
+      "step": 24350
+    },
+    {
+      "epoch": 0.4875,
+      "grad_norm": 0.5712028005119992,
+      "learning_rate": 5.694666666666667e-06,
+      "loss": 2.373,
+      "step": 24375
+    },
+    {
+      "epoch": 0.488,
+      "grad_norm": 0.5527635817323101,
+      "learning_rate": 5.689111111111112e-06,
+      "loss": 2.3632,
+      "step": 24400
+    },
+    {
+      "epoch": 0.488,
+      "eval_loss": 2.383908987045288,
+      "eval_runtime": 31.8006,
+      "eval_samples_per_second": 3.207,
+      "eval_steps_per_second": 1.604,
+      "step": 24400
+    },
+    {
+      "epoch": 0.4885,
+      "grad_norm": 0.5497988709199122,
+      "learning_rate": 5.683555555555555e-06,
+      "loss": 2.3674,
+      "step": 24425
+    },
+    {
+      "epoch": 0.489,
+      "grad_norm": 0.5478963614360626,
+      "learning_rate": 5.6780000000000005e-06,
+      "loss": 2.3795,
+      "step": 24450
+    },
+    {
+      "epoch": 0.4895,
+      "grad_norm": 0.5418443665589167,
+      "learning_rate": 5.672444444444445e-06,
+      "loss": 2.3769,
+      "step": 24475
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 0.5637739038034214,
+      "learning_rate": 5.666888888888889e-06,
+      "loss": 2.3754,
+      "step": 24500
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 2.3835647106170654,
+      "eval_runtime": 31.695,
+      "eval_samples_per_second": 3.218,
+      "eval_steps_per_second": 1.609,
+      "step": 24500
+    },
+    {
+      "epoch": 0.4905,
+      "grad_norm": 0.5352738455560374,
+      "learning_rate": 5.661333333333335e-06,
+      "loss": 2.3665,
+      "step": 24525
+    },
+    {
+      "epoch": 0.491,
+      "grad_norm": 0.5593898219847685,
+      "learning_rate": 5.655777777777778e-06,
+      "loss": 2.3621,
+      "step": 24550
+    },
+    {
+      "epoch": 0.4915,
+      "grad_norm": 0.5340153226573613,
+      "learning_rate": 5.6502222222222225e-06,
+      "loss": 2.3704,
+      "step": 24575
+    },
+    {
+      "epoch": 0.492,
+      "grad_norm": 0.5434269177198789,
+      "learning_rate": 5.644666666666667e-06,
+      "loss": 2.3707,
+      "step": 24600
+    },
+    {
+      "epoch": 0.492,
+      "eval_loss": 2.38376522064209,
+      "eval_runtime": 31.8117,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 24600
+    },
+    {
+      "epoch": 0.4925,
+      "grad_norm": 0.5555073289213541,
+      "learning_rate": 5.639111111111112e-06,
+      "loss": 2.3702,
+      "step": 24625
+    },
+    {
+      "epoch": 0.493,
+      "grad_norm": 0.5608796205061338,
+      "learning_rate": 5.633555555555557e-06,
+      "loss": 2.373,
+      "step": 24650
+    },
+    {
+      "epoch": 0.4935,
+      "grad_norm": 0.5639681025688454,
+      "learning_rate": 5.628e-06,
+      "loss": 2.3641,
+      "step": 24675
+    },
+    {
+      "epoch": 0.494,
+      "grad_norm": 0.5610119210421548,
+      "learning_rate": 5.6224444444444446e-06,
+      "loss": 2.372,
+      "step": 24700
+    },
+    {
+      "epoch": 0.494,
+      "eval_loss": 2.383573293685913,
+      "eval_runtime": 31.6948,
+      "eval_samples_per_second": 3.218,
+      "eval_steps_per_second": 1.609,
+      "step": 24700
+    },
+    {
+      "epoch": 0.4945,
+      "grad_norm": 0.5442392815853518,
+      "learning_rate": 5.61688888888889e-06,
+      "loss": 2.3651,
+      "step": 24725
+    },
+    {
+      "epoch": 0.495,
+      "grad_norm": 0.5562532962787945,
+      "learning_rate": 5.611333333333334e-06,
+      "loss": 2.3705,
+      "step": 24750
+    },
+    {
+      "epoch": 0.4955,
+      "grad_norm": 0.5488206873990799,
+      "learning_rate": 5.605777777777778e-06,
+      "loss": 2.3623,
+      "step": 24775
+    },
+    {
+      "epoch": 0.496,
+      "grad_norm": 0.5653453728755813,
+      "learning_rate": 5.600222222222222e-06,
+      "loss": 2.3746,
+      "step": 24800
+    },
+    {
+      "epoch": 0.496,
+      "eval_loss": 2.383600950241089,
+      "eval_runtime": 31.8215,
+      "eval_samples_per_second": 3.205,
+      "eval_steps_per_second": 1.603,
+      "step": 24800
+    },
+    {
+      "epoch": 0.4965,
+      "grad_norm": 0.5714575887868236,
+      "learning_rate": 5.5946666666666674e-06,
+      "loss": 2.3698,
+      "step": 24825
+    },
+    {
+      "epoch": 0.497,
+      "grad_norm": 0.5479503311373944,
+      "learning_rate": 5.589111111111112e-06,
+      "loss": 2.3753,
+      "step": 24850
+    },
+    {
+      "epoch": 0.4975,
+      "grad_norm": 0.5465196721627547,
+      "learning_rate": 5.583555555555556e-06,
+      "loss": 2.3627,
+      "step": 24875
+    },
+    {
+      "epoch": 0.498,
+      "grad_norm": 0.5545182382115218,
+      "learning_rate": 5.578e-06,
+      "loss": 2.3623,
+      "step": 24900
+    },
+    {
+      "epoch": 0.498,
+      "eval_loss": 2.383317470550537,
+      "eval_runtime": 31.8409,
+      "eval_samples_per_second": 3.203,
+      "eval_steps_per_second": 1.602,
+      "step": 24900
+    },
+    {
+      "epoch": 0.4985,
+      "grad_norm": 0.5624766646317664,
+      "learning_rate": 5.572444444444445e-06,
+      "loss": 2.3659,
+      "step": 24925
+    },
+    {
+      "epoch": 0.499,
+      "grad_norm": 0.5642199082921324,
+      "learning_rate": 5.5668888888888894e-06,
+      "loss": 2.3684,
+      "step": 24950
+    },
+    {
+      "epoch": 0.4995,
+      "grad_norm": 0.5917431910025611,
+      "learning_rate": 5.561333333333334e-06,
+      "loss": 2.3723,
+      "step": 24975
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.5530201275821488,
+      "learning_rate": 5.555777777777777e-06,
+      "loss": 2.3685,
+      "step": 25000
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 2.3832170963287354,
+      "eval_runtime": 31.7959,
+      "eval_samples_per_second": 3.208,
+      "eval_steps_per_second": 1.604,
+      "step": 25000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 7.95800574581801e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null