irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 11, 2025

Commit

aa46eb8

verified ·

1 Parent(s): 5d6a324

Training checkpoint at step 16000

Browse files

Files changed (1) hide show

trainer_state.json +365 -5

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 15000,
-  "best_metric": 2.397136688232422,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-15000",
-  "epoch": 0.3,
   "eval_steps": 100,
-  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5408,6 +5408,366 @@
       "eval_samples_per_second": 3.216,
       "eval_steps_per_second": 1.608,
       "step": 15000
     }
   ],
   "logging_steps": 25,
@@ -5427,7 +5787,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.774803447490806e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 15900,
+  "best_metric": 2.3957200050354004,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-15000",
+  "epoch": 0.32,
   "eval_steps": 100,
+  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.216,
       "eval_steps_per_second": 1.608,
       "step": 15000
+    },
+    {
+      "epoch": 0.3005,
+      "grad_norm": 0.5657448746286691,
+      "learning_rate": 7.772444444444444e-06,
+      "loss": 2.3897,
+      "step": 15025
+    },
+    {
+      "epoch": 0.301,
+      "grad_norm": 0.5523525627604269,
+      "learning_rate": 7.76688888888889e-06,
+      "loss": 2.3795,
+      "step": 15050
+    },
+    {
+      "epoch": 0.3015,
+      "grad_norm": 0.5950789860717867,
+      "learning_rate": 7.761333333333335e-06,
+      "loss": 2.3914,
+      "step": 15075
+    },
+    {
+      "epoch": 0.302,
+      "grad_norm": 0.5999400034143391,
+      "learning_rate": 7.755777777777778e-06,
+      "loss": 2.3769,
+      "step": 15100
+    },
+    {
+      "epoch": 0.302,
+      "eval_loss": 2.396873950958252,
+      "eval_runtime": 31.7696,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 1.605,
+      "step": 15100
+    },
+    {
+      "epoch": 0.3025,
+      "grad_norm": 0.558834977842146,
+      "learning_rate": 7.750222222222222e-06,
+      "loss": 2.3854,
+      "step": 15125
+    },
+    {
+      "epoch": 0.303,
+      "grad_norm": 0.5582295283472423,
+      "learning_rate": 7.744666666666667e-06,
+      "loss": 2.3821,
+      "step": 15150
+    },
+    {
+      "epoch": 0.3035,
+      "grad_norm": 0.5632905015995245,
+      "learning_rate": 7.739111111111112e-06,
+      "loss": 2.3798,
+      "step": 15175
+    },
+    {
+      "epoch": 0.304,
+      "grad_norm": 0.5514118333084079,
+      "learning_rate": 7.733555555555556e-06,
+      "loss": 2.3788,
+      "step": 15200
+    },
+    {
+      "epoch": 0.304,
+      "eval_loss": 2.3965888023376465,
+      "eval_runtime": 31.7152,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 1.608,
+      "step": 15200
+    },
+    {
+      "epoch": 0.3045,
+      "grad_norm": 0.5649018768322466,
+      "learning_rate": 7.728000000000001e-06,
+      "loss": 2.3912,
+      "step": 15225
+    },
+    {
+      "epoch": 0.305,
+      "grad_norm": 0.581561230195339,
+      "learning_rate": 7.722444444444445e-06,
+      "loss": 2.3766,
+      "step": 15250
+    },
+    {
+      "epoch": 0.3055,
+      "grad_norm": 0.5604985750115082,
+      "learning_rate": 7.71688888888889e-06,
+      "loss": 2.3852,
+      "step": 15275
+    },
+    {
+      "epoch": 0.306,
+      "grad_norm": 0.5602736035393524,
+      "learning_rate": 7.711333333333334e-06,
+      "loss": 2.3867,
+      "step": 15300
+    },
+    {
+      "epoch": 0.306,
+      "eval_loss": 2.3968026638031006,
+      "eval_runtime": 31.8105,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 15300
+    },
+    {
+      "epoch": 0.3065,
+      "grad_norm": 0.5404472339052024,
+      "learning_rate": 7.705777777777779e-06,
+      "loss": 2.3835,
+      "step": 15325
+    },
+    {
+      "epoch": 0.307,
+      "grad_norm": 0.5732167481475767,
+      "learning_rate": 7.700222222222224e-06,
+      "loss": 2.386,
+      "step": 15350
+    },
+    {
+      "epoch": 0.3075,
+      "grad_norm": 0.5668975128857069,
+      "learning_rate": 7.694666666666668e-06,
+      "loss": 2.3838,
+      "step": 15375
+    },
+    {
+      "epoch": 0.308,
+      "grad_norm": 0.5478312505357384,
+      "learning_rate": 7.689111111111111e-06,
+      "loss": 2.4068,
+      "step": 15400
+    },
+    {
+      "epoch": 0.308,
+      "eval_loss": 2.39662766456604,
+      "eval_runtime": 31.4625,
+      "eval_samples_per_second": 3.242,
+      "eval_steps_per_second": 1.621,
+      "step": 15400
+    },
+    {
+      "epoch": 0.3085,
+      "grad_norm": 0.5853236703412803,
+      "learning_rate": 7.683555555555556e-06,
+      "loss": 2.3781,
+      "step": 15425
+    },
+    {
+      "epoch": 0.309,
+      "grad_norm": 0.566498029803985,
+      "learning_rate": 7.678000000000002e-06,
+      "loss": 2.3825,
+      "step": 15450
+    },
+    {
+      "epoch": 0.3095,
+      "grad_norm": 0.5876295223419085,
+      "learning_rate": 7.672444444444445e-06,
+      "loss": 2.3821,
+      "step": 15475
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.5308633915785282,
+      "learning_rate": 7.666888888888889e-06,
+      "loss": 2.3762,
+      "step": 15500
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 2.39650559425354,
+      "eval_runtime": 31.6255,
+      "eval_samples_per_second": 3.225,
+      "eval_steps_per_second": 1.613,
+      "step": 15500
+    },
+    {
+      "epoch": 0.3105,
+      "grad_norm": 1.090575647217174,
+      "learning_rate": 7.661333333333334e-06,
+      "loss": 2.3854,
+      "step": 15525
+    },
+    {
+      "epoch": 0.311,
+      "grad_norm": 0.5608565584872227,
+      "learning_rate": 7.65577777777778e-06,
+      "loss": 2.3909,
+      "step": 15550
+    },
+    {
+      "epoch": 0.3115,
+      "grad_norm": 0.5664910219445479,
+      "learning_rate": 7.650222222222223e-06,
+      "loss": 2.3876,
+      "step": 15575
+    },
+    {
+      "epoch": 0.312,
+      "grad_norm": 0.5743138998726522,
+      "learning_rate": 7.644666666666666e-06,
+      "loss": 2.3891,
+      "step": 15600
+    },
+    {
+      "epoch": 0.312,
+      "eval_loss": 2.395846128463745,
+      "eval_runtime": 31.422,
+      "eval_samples_per_second": 3.246,
+      "eval_steps_per_second": 1.623,
+      "step": 15600
+    },
+    {
+      "epoch": 0.3125,
+      "grad_norm": 0.5838966503811626,
+      "learning_rate": 7.639111111111112e-06,
+      "loss": 2.3744,
+      "step": 15625
+    },
+    {
+      "epoch": 0.313,
+      "grad_norm": 0.5861982665217826,
+      "learning_rate": 7.633555555555557e-06,
+      "loss": 2.386,
+      "step": 15650
+    },
+    {
+      "epoch": 0.3135,
+      "grad_norm": 0.5623110973377239,
+      "learning_rate": 7.628000000000001e-06,
+      "loss": 2.3729,
+      "step": 15675
+    },
+    {
+      "epoch": 0.314,
+      "grad_norm": 0.5546807091447383,
+      "learning_rate": 7.622444444444445e-06,
+      "loss": 2.3758,
+      "step": 15700
+    },
+    {
+      "epoch": 0.314,
+      "eval_loss": 2.396050453186035,
+      "eval_runtime": 31.4839,
+      "eval_samples_per_second": 3.24,
+      "eval_steps_per_second": 1.62,
+      "step": 15700
+    },
+    {
+      "epoch": 0.3145,
+      "grad_norm": 0.566357543453858,
+      "learning_rate": 7.616888888888889e-06,
+      "loss": 2.3814,
+      "step": 15725
+    },
+    {
+      "epoch": 0.315,
+      "grad_norm": 0.5863021742964364,
+      "learning_rate": 7.611333333333334e-06,
+      "loss": 2.3912,
+      "step": 15750
+    },
+    {
+      "epoch": 0.3155,
+      "grad_norm": 0.5448091994015362,
+      "learning_rate": 7.605777777777779e-06,
+      "loss": 2.3949,
+      "step": 15775
+    },
+    {
+      "epoch": 0.316,
+      "grad_norm": 0.5571622234957405,
+      "learning_rate": 7.600222222222223e-06,
+      "loss": 2.3893,
+      "step": 15800
+    },
+    {
+      "epoch": 0.316,
+      "eval_loss": 2.3957884311676025,
+      "eval_runtime": 31.4676,
+      "eval_samples_per_second": 3.241,
+      "eval_steps_per_second": 1.621,
+      "step": 15800
+    },
+    {
+      "epoch": 0.3165,
+      "grad_norm": 0.6175149611764096,
+      "learning_rate": 7.594666666666667e-06,
+      "loss": 2.3858,
+      "step": 15825
+    },
+    {
+      "epoch": 0.317,
+      "grad_norm": 0.5811416818392343,
+      "learning_rate": 7.589111111111111e-06,
+      "loss": 2.3893,
+      "step": 15850
+    },
+    {
+      "epoch": 0.3175,
+      "grad_norm": 0.5685262674194088,
+      "learning_rate": 7.5835555555555566e-06,
+      "loss": 2.3895,
+      "step": 15875
+    },
+    {
+      "epoch": 0.318,
+      "grad_norm": 0.5726231388910242,
+      "learning_rate": 7.578000000000001e-06,
+      "loss": 2.3924,
+      "step": 15900
+    },
+    {
+      "epoch": 0.318,
+      "eval_loss": 2.3957200050354004,
+      "eval_runtime": 31.6833,
+      "eval_samples_per_second": 3.219,
+      "eval_steps_per_second": 1.61,
+      "step": 15900
+    },
+    {
+      "epoch": 0.3185,
+      "grad_norm": 0.5881014617899262,
+      "learning_rate": 7.572444444444445e-06,
+      "loss": 2.3719,
+      "step": 15925
+    },
+    {
+      "epoch": 0.319,
+      "grad_norm": 0.5635459036409981,
+      "learning_rate": 7.566888888888889e-06,
+      "loss": 2.378,
+      "step": 15950
+    },
+    {
+      "epoch": 0.3195,
+      "grad_norm": 0.5604907919572244,
+      "learning_rate": 7.561333333333334e-06,
+      "loss": 2.3744,
+      "step": 15975
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.5743956921241223,
+      "learning_rate": 7.555777777777779e-06,
+      "loss": 2.3872,
+      "step": 16000
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 2.3958442211151123,
+      "eval_runtime": 31.9703,
+      "eval_samples_per_second": 3.19,
+      "eval_steps_per_second": 1.595,
+      "step": 16000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 5.093123677323526e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null