irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 10, 2025

Commit

fed1305

verified ·

1 Parent(s): a9f463c

Training checkpoint at step 14000

Browse files

Files changed (1) hide show

trainer_state.json +365 -5

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 13000,
-  "best_metric": 2.4009385108947754,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-13000",
-  "epoch": 0.26,
   "eval_steps": 100,
-  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4688,6 +4688,366 @@
       "eval_samples_per_second": 3.207,
       "eval_steps_per_second": 1.603,
       "step": 13000
     }
   ],
   "logging_steps": 25,
@@ -4707,7 +5067,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.138162987825365e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 13900,
+  "best_metric": 2.3990118503570557,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-13000",
+  "epoch": 0.28,
   "eval_steps": 100,
+  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.207,
       "eval_steps_per_second": 1.603,
       "step": 13000
+    },
+    {
+      "epoch": 0.2605,
+      "grad_norm": 0.5758550911461594,
+      "learning_rate": 8.21688888888889e-06,
+      "loss": 2.39,
+      "step": 13025
+    },
+    {
+      "epoch": 0.261,
+      "grad_norm": 0.5506335078390368,
+      "learning_rate": 8.211333333333334e-06,
+      "loss": 2.3879,
+      "step": 13050
+    },
+    {
+      "epoch": 0.2615,
+      "grad_norm": 0.578047700560021,
+      "learning_rate": 8.205777777777777e-06,
+      "loss": 2.3772,
+      "step": 13075
+    },
+    {
+      "epoch": 0.262,
+      "grad_norm": 0.5517825098879646,
+      "learning_rate": 8.200222222222223e-06,
+      "loss": 2.3751,
+      "step": 13100
+    },
+    {
+      "epoch": 0.262,
+      "eval_loss": 2.4008378982543945,
+      "eval_runtime": 31.8219,
+      "eval_samples_per_second": 3.205,
+      "eval_steps_per_second": 1.603,
+      "step": 13100
+    },
+    {
+      "epoch": 0.2625,
+      "grad_norm": 0.6060142395322289,
+      "learning_rate": 8.194666666666668e-06,
+      "loss": 2.3859,
+      "step": 13125
+    },
+    {
+      "epoch": 0.263,
+      "grad_norm": 0.6151379264003006,
+      "learning_rate": 8.189111111111111e-06,
+      "loss": 2.3906,
+      "step": 13150
+    },
+    {
+      "epoch": 0.2635,
+      "grad_norm": 0.5889091981712471,
+      "learning_rate": 8.183555555555555e-06,
+      "loss": 2.3813,
+      "step": 13175
+    },
+    {
+      "epoch": 0.264,
+      "grad_norm": 0.7021686085407579,
+      "learning_rate": 8.178e-06,
+      "loss": 2.3844,
+      "step": 13200
+    },
+    {
+      "epoch": 0.264,
+      "eval_loss": 2.400826930999756,
+      "eval_runtime": 31.7255,
+      "eval_samples_per_second": 3.215,
+      "eval_steps_per_second": 1.608,
+      "step": 13200
+    },
+    {
+      "epoch": 0.2645,
+      "grad_norm": 0.5738899506070113,
+      "learning_rate": 8.172444444444446e-06,
+      "loss": 2.3974,
+      "step": 13225
+    },
+    {
+      "epoch": 0.265,
+      "grad_norm": 0.618543215020873,
+      "learning_rate": 8.166888888888889e-06,
+      "loss": 2.3846,
+      "step": 13250
+    },
+    {
+      "epoch": 0.2655,
+      "grad_norm": 0.5529480549821216,
+      "learning_rate": 8.161333333333334e-06,
+      "loss": 2.3816,
+      "step": 13275
+    },
+    {
+      "epoch": 0.266,
+      "grad_norm": 0.569904631452621,
+      "learning_rate": 8.155777777777778e-06,
+      "loss": 2.3809,
+      "step": 13300
+    },
+    {
+      "epoch": 0.266,
+      "eval_loss": 2.4002933502197266,
+      "eval_runtime": 31.6983,
+      "eval_samples_per_second": 3.218,
+      "eval_steps_per_second": 1.609,
+      "step": 13300
+    },
+    {
+      "epoch": 0.2665,
+      "grad_norm": 0.5743878084278218,
+      "learning_rate": 8.150222222222223e-06,
+      "loss": 2.3941,
+      "step": 13325
+    },
+    {
+      "epoch": 0.267,
+      "grad_norm": 0.5594243149898632,
+      "learning_rate": 8.144666666666667e-06,
+      "loss": 2.3878,
+      "step": 13350
+    },
+    {
+      "epoch": 0.2675,
+      "grad_norm": 0.5810666087448406,
+      "learning_rate": 8.139111111111112e-06,
+      "loss": 2.381,
+      "step": 13375
+    },
+    {
+      "epoch": 0.268,
+      "grad_norm": 0.5595852108101106,
+      "learning_rate": 8.133555555555557e-06,
+      "loss": 2.3792,
+      "step": 13400
+    },
+    {
+      "epoch": 0.268,
+      "eval_loss": 2.400261878967285,
+      "eval_runtime": 31.6975,
+      "eval_samples_per_second": 3.218,
+      "eval_steps_per_second": 1.609,
+      "step": 13400
+    },
+    {
+      "epoch": 0.2685,
+      "grad_norm": 0.5789530002361615,
+      "learning_rate": 8.128e-06,
+      "loss": 2.3759,
+      "step": 13425
+    },
+    {
+      "epoch": 0.269,
+      "grad_norm": 0.5662301407639397,
+      "learning_rate": 8.122444444444444e-06,
+      "loss": 2.3791,
+      "step": 13450
+    },
+    {
+      "epoch": 0.2695,
+      "grad_norm": 0.6131145841315326,
+      "learning_rate": 8.11688888888889e-06,
+      "loss": 2.3833,
+      "step": 13475
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 0.5607318024001929,
+      "learning_rate": 8.111333333333335e-06,
+      "loss": 2.3724,
+      "step": 13500
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 2.4000020027160645,
+      "eval_runtime": 31.71,
+      "eval_samples_per_second": 3.217,
+      "eval_steps_per_second": 1.608,
+      "step": 13500
+    },
+    {
+      "epoch": 0.2705,
+      "grad_norm": 0.5692755244185855,
+      "learning_rate": 8.105777777777778e-06,
+      "loss": 2.3788,
+      "step": 13525
+    },
+    {
+      "epoch": 0.271,
+      "grad_norm": 0.5647342769538716,
+      "learning_rate": 8.100222222222222e-06,
+      "loss": 2.3799,
+      "step": 13550
+    },
+    {
+      "epoch": 0.2715,
+      "grad_norm": 0.5976773519089553,
+      "learning_rate": 8.094666666666667e-06,
+      "loss": 2.3828,
+      "step": 13575
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 0.5642506953063758,
+      "learning_rate": 8.089111111111112e-06,
+      "loss": 2.3835,
+      "step": 13600
+    },
+    {
+      "epoch": 0.272,
+      "eval_loss": 2.400066614151001,
+      "eval_runtime": 31.8128,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 13600
+    },
+    {
+      "epoch": 0.2725,
+      "grad_norm": 0.5616659241704035,
+      "learning_rate": 8.083555555555556e-06,
+      "loss": 2.3801,
+      "step": 13625
+    },
+    {
+      "epoch": 0.273,
+      "grad_norm": 0.5878315825498157,
+      "learning_rate": 8.078e-06,
+      "loss": 2.3781,
+      "step": 13650
+    },
+    {
+      "epoch": 0.2735,
+      "grad_norm": 0.5716337786191225,
+      "learning_rate": 8.072444444444445e-06,
+      "loss": 2.3932,
+      "step": 13675
+    },
+    {
+      "epoch": 0.274,
+      "grad_norm": 0.5636757577555458,
+      "learning_rate": 8.06688888888889e-06,
+      "loss": 2.4041,
+      "step": 13700
+    },
+    {
+      "epoch": 0.274,
+      "eval_loss": 2.3997650146484375,
+      "eval_runtime": 31.4871,
+      "eval_samples_per_second": 3.239,
+      "eval_steps_per_second": 1.62,
+      "step": 13700
+    },
+    {
+      "epoch": 0.2745,
+      "grad_norm": 0.5564992808480433,
+      "learning_rate": 8.061333333333334e-06,
+      "loss": 2.3971,
+      "step": 13725
+    },
+    {
+      "epoch": 0.275,
+      "grad_norm": 0.5736246457745038,
+      "learning_rate": 8.055777777777777e-06,
+      "loss": 2.3847,
+      "step": 13750
+    },
+    {
+      "epoch": 0.2755,
+      "grad_norm": 0.5423430973262378,
+      "learning_rate": 8.050222222222222e-06,
+      "loss": 2.3786,
+      "step": 13775
+    },
+    {
+      "epoch": 0.276,
+      "grad_norm": 0.5672815850751382,
+      "learning_rate": 8.044666666666668e-06,
+      "loss": 2.3945,
+      "step": 13800
+    },
+    {
+      "epoch": 0.276,
+      "eval_loss": 2.399338483810425,
+      "eval_runtime": 31.3741,
+      "eval_samples_per_second": 3.251,
+      "eval_steps_per_second": 1.626,
+      "step": 13800
+    },
+    {
+      "epoch": 0.2765,
+      "grad_norm": 0.5919813611615313,
+      "learning_rate": 8.039111111111111e-06,
+      "loss": 2.3738,
+      "step": 13825
+    },
+    {
+      "epoch": 0.277,
+      "grad_norm": 0.5679311638374708,
+      "learning_rate": 8.033555555555556e-06,
+      "loss": 2.3771,
+      "step": 13850
+    },
+    {
+      "epoch": 0.2775,
+      "grad_norm": 0.5533203763453908,
+      "learning_rate": 8.028e-06,
+      "loss": 2.3831,
+      "step": 13875
+    },
+    {
+      "epoch": 0.278,
+      "grad_norm": 0.5674818164725537,
+      "learning_rate": 8.022444444444445e-06,
+      "loss": 2.3811,
+      "step": 13900
+    },
+    {
+      "epoch": 0.278,
+      "eval_loss": 2.3990118503570557,
+      "eval_runtime": 31.47,
+      "eval_samples_per_second": 3.241,
+      "eval_steps_per_second": 1.621,
+      "step": 13900
+    },
+    {
+      "epoch": 0.2785,
+      "grad_norm": 0.5664699981127816,
+      "learning_rate": 8.016888888888889e-06,
+      "loss": 2.3848,
+      "step": 13925
+    },
+    {
+      "epoch": 0.279,
+      "grad_norm": 0.6085875103795902,
+      "learning_rate": 8.011333333333334e-06,
+      "loss": 2.3822,
+      "step": 13950
+    },
+    {
+      "epoch": 0.2795,
+      "grad_norm": 0.561160479481643,
+      "learning_rate": 8.00577777777778e-06,
+      "loss": 2.3722,
+      "step": 13975
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.566395855978902,
+      "learning_rate": 8.000222222222223e-06,
+      "loss": 2.3922,
+      "step": 14000
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 2.3991119861602783,
+      "eval_runtime": 31.6591,
+      "eval_samples_per_second": 3.222,
+      "eval_steps_per_second": 1.611,
+      "step": 14000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 4.456483217658085e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null