irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 8, 2025

Commit

dd4fc56

verified ·

1 Parent(s): 765f857

Training checkpoint at step 11000

Browse files

Files changed (1) hide show

trainer_state.json +365 -5

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 9800,
-  "best_metric": 2.4076178073883057,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-9000",
-  "epoch": 0.2,
   "eval_steps": 100,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3608,6 +3608,366 @@
       "eval_samples_per_second": 3.215,
       "eval_steps_per_second": 1.607,
       "step": 10000
     }
   ],
   "logging_steps": 25,
@@ -3627,7 +3987,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.183202298327204e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 10900,
+  "best_metric": 2.4055566787719727,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-9000",
+  "epoch": 0.22,
   "eval_steps": 100,
+  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.215,
       "eval_steps_per_second": 1.607,
       "step": 10000
+    },
+    {
+      "epoch": 0.2005,
+      "grad_norm": 0.5959223333719136,
+      "learning_rate": 8.883555555555557e-06,
+      "loss": 2.387,
+      "step": 10025
+    },
+    {
+      "epoch": 0.201,
+      "grad_norm": 0.604008744038432,
+      "learning_rate": 8.878e-06,
+      "loss": 2.4016,
+      "step": 10050
+    },
+    {
+      "epoch": 0.2015,
+      "grad_norm": 0.5721419521050413,
+      "learning_rate": 8.872444444444444e-06,
+      "loss": 2.3884,
+      "step": 10075
+    },
+    {
+      "epoch": 0.202,
+      "grad_norm": 0.5986167284289824,
+      "learning_rate": 8.86688888888889e-06,
+      "loss": 2.3945,
+      "step": 10100
+    },
+    {
+      "epoch": 0.202,
+      "eval_loss": 2.4074654579162598,
+      "eval_runtime": 31.8658,
+      "eval_samples_per_second": 3.201,
+      "eval_steps_per_second": 1.6,
+      "step": 10100
+    },
+    {
+      "epoch": 0.2025,
+      "grad_norm": 0.6046479507995179,
+      "learning_rate": 8.861333333333334e-06,
+      "loss": 2.3858,
+      "step": 10125
+    },
+    {
+      "epoch": 0.203,
+      "grad_norm": 0.5633013817443194,
+      "learning_rate": 8.855777777777778e-06,
+      "loss": 2.3879,
+      "step": 10150
+    },
+    {
+      "epoch": 0.2035,
+      "grad_norm": 0.5953174401982892,
+      "learning_rate": 8.850222222222223e-06,
+      "loss": 2.3967,
+      "step": 10175
+    },
+    {
+      "epoch": 0.204,
+      "grad_norm": 0.6306212647705982,
+      "learning_rate": 8.844666666666667e-06,
+      "loss": 2.3927,
+      "step": 10200
+    },
+    {
+      "epoch": 0.204,
+      "eval_loss": 2.407031297683716,
+      "eval_runtime": 31.7801,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 10200
+    },
+    {
+      "epoch": 0.2045,
+      "grad_norm": 0.5605617492602121,
+      "learning_rate": 8.839111111111112e-06,
+      "loss": 2.4081,
+      "step": 10225
+    },
+    {
+      "epoch": 0.205,
+      "grad_norm": 0.5739246143474902,
+      "learning_rate": 8.833555555555556e-06,
+      "loss": 2.3841,
+      "step": 10250
+    },
+    {
+      "epoch": 0.2055,
+      "grad_norm": 0.5938549959471341,
+      "learning_rate": 8.828000000000001e-06,
+      "loss": 2.3902,
+      "step": 10275
+    },
+    {
+      "epoch": 0.206,
+      "grad_norm": 0.5902936931354175,
+      "learning_rate": 8.822444444444446e-06,
+      "loss": 2.3905,
+      "step": 10300
+    },
+    {
+      "epoch": 0.206,
+      "eval_loss": 2.4066004753112793,
+      "eval_runtime": 31.7707,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 1.605,
+      "step": 10300
+    },
+    {
+      "epoch": 0.2065,
+      "grad_norm": 0.5697435057211838,
+      "learning_rate": 8.81688888888889e-06,
+      "loss": 2.3854,
+      "step": 10325
+    },
+    {
+      "epoch": 0.207,
+      "grad_norm": 0.5879126074250441,
+      "learning_rate": 8.811333333333333e-06,
+      "loss": 2.3917,
+      "step": 10350
+    },
+    {
+      "epoch": 0.2075,
+      "grad_norm": 0.5800642153182343,
+      "learning_rate": 8.805777777777778e-06,
+      "loss": 2.3929,
+      "step": 10375
+    },
+    {
+      "epoch": 0.208,
+      "grad_norm": 0.5794546973922929,
+      "learning_rate": 8.800222222222224e-06,
+      "loss": 2.3912,
+      "step": 10400
+    },
+    {
+      "epoch": 0.208,
+      "eval_loss": 2.4065024852752686,
+      "eval_runtime": 31.7191,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 1.608,
+      "step": 10400
+    },
+    {
+      "epoch": 0.2085,
+      "grad_norm": 0.5776454190712899,
+      "learning_rate": 8.794666666666667e-06,
+      "loss": 2.386,
+      "step": 10425
+    },
+    {
+      "epoch": 0.209,
+      "grad_norm": 0.5578455228918948,
+      "learning_rate": 8.78911111111111e-06,
+      "loss": 2.3869,
+      "step": 10450
+    },
+    {
+      "epoch": 0.2095,
+      "grad_norm": 0.5721674793656858,
+      "learning_rate": 8.783555555555556e-06,
+      "loss": 2.3779,
+      "step": 10475
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.5950633442730316,
+      "learning_rate": 8.778000000000001e-06,
+      "loss": 2.3845,
+      "step": 10500
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 2.4065566062927246,
+      "eval_runtime": 31.8091,
+      "eval_samples_per_second": 3.207,
+      "eval_steps_per_second": 1.603,
+      "step": 10500
+    },
+    {
+      "epoch": 0.2105,
+      "grad_norm": 0.605078293663896,
+      "learning_rate": 8.772444444444445e-06,
+      "loss": 2.3913,
+      "step": 10525
+    },
+    {
+      "epoch": 0.211,
+      "grad_norm": 0.567849892850204,
+      "learning_rate": 8.766888888888888e-06,
+      "loss": 2.3966,
+      "step": 10550
+    },
+    {
+      "epoch": 0.2115,
+      "grad_norm": 0.6876645024191659,
+      "learning_rate": 8.761333333333334e-06,
+      "loss": 2.3993,
+      "step": 10575
+    },
+    {
+      "epoch": 0.212,
+      "grad_norm": 0.5841938304908528,
+      "learning_rate": 8.755777777777779e-06,
+      "loss": 2.3916,
+      "step": 10600
+    },
+    {
+      "epoch": 0.212,
+      "eval_loss": 2.4061877727508545,
+      "eval_runtime": 31.8484,
+      "eval_samples_per_second": 3.203,
+      "eval_steps_per_second": 1.601,
+      "step": 10600
+    },
+    {
+      "epoch": 0.2125,
+      "grad_norm": 0.5649004204666818,
+      "learning_rate": 8.750222222222223e-06,
+      "loss": 2.381,
+      "step": 10625
+    },
+    {
+      "epoch": 0.213,
+      "grad_norm": 0.5678489376050115,
+      "learning_rate": 8.744666666666666e-06,
+      "loss": 2.3995,
+      "step": 10650
+    },
+    {
+      "epoch": 0.2135,
+      "grad_norm": 0.5712733595317334,
+      "learning_rate": 8.739111111111111e-06,
+      "loss": 2.3954,
+      "step": 10675
+    },
+    {
+      "epoch": 0.214,
+      "grad_norm": 0.573353636066434,
+      "learning_rate": 8.733555555555557e-06,
+      "loss": 2.379,
+      "step": 10700
+    },
+    {
+      "epoch": 0.214,
+      "eval_loss": 2.4055771827697754,
+      "eval_runtime": 31.8192,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 10700
+    },
+    {
+      "epoch": 0.2145,
+      "grad_norm": 0.6133309651928519,
+      "learning_rate": 8.728e-06,
+      "loss": 2.3946,
+      "step": 10725
+    },
+    {
+      "epoch": 0.215,
+      "grad_norm": 0.6033931866035528,
+      "learning_rate": 8.722444444444445e-06,
+      "loss": 2.3935,
+      "step": 10750
+    },
+    {
+      "epoch": 0.2155,
+      "grad_norm": 0.6008672136487845,
+      "learning_rate": 8.716888888888889e-06,
+      "loss": 2.3872,
+      "step": 10775
+    },
+    {
+      "epoch": 0.216,
+      "grad_norm": 0.5728704483928734,
+      "learning_rate": 8.711333333333334e-06,
+      "loss": 2.3917,
+      "step": 10800
+    },
+    {
+      "epoch": 0.216,
+      "eval_loss": 2.4059016704559326,
+      "eval_runtime": 31.7995,
+      "eval_samples_per_second": 3.208,
+      "eval_steps_per_second": 1.604,
+      "step": 10800
+    },
+    {
+      "epoch": 0.2165,
+      "grad_norm": 0.5888944153423502,
+      "learning_rate": 8.705777777777778e-06,
+      "loss": 2.3946,
+      "step": 10825
+    },
+    {
+      "epoch": 0.217,
+      "grad_norm": 0.5947880979306366,
+      "learning_rate": 8.700222222222223e-06,
+      "loss": 2.3736,
+      "step": 10850
+    },
+    {
+      "epoch": 0.2175,
+      "grad_norm": 0.6163696606959644,
+      "learning_rate": 8.694666666666668e-06,
+      "loss": 2.3838,
+      "step": 10875
+    },
+    {
+      "epoch": 0.218,
+      "grad_norm": 0.6004092938812543,
+      "learning_rate": 8.689111111111112e-06,
+      "loss": 2.3942,
+      "step": 10900
+    },
+    {
+      "epoch": 0.218,
+      "eval_loss": 2.4055566787719727,
+      "eval_runtime": 31.7386,
+      "eval_samples_per_second": 3.214,
+      "eval_steps_per_second": 1.607,
+      "step": 10900
+    },
+    {
+      "epoch": 0.2185,
+      "grad_norm": 0.5786273641598245,
+      "learning_rate": 8.683555555555555e-06,
+      "loss": 2.3938,
+      "step": 10925
+    },
+    {
+      "epoch": 0.219,
+      "grad_norm": 0.5764162885826465,
+      "learning_rate": 8.678e-06,
+      "loss": 2.3939,
+      "step": 10950
+    },
+    {
+      "epoch": 0.2195,
+      "grad_norm": 0.5923291223123188,
+      "learning_rate": 8.672444444444446e-06,
+      "loss": 2.3847,
+      "step": 10975
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 0.6102815146568634,
+      "learning_rate": 8.66688888888889e-06,
+      "loss": 2.3901,
+      "step": 11000
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 2.405616044998169,
+      "eval_runtime": 31.7048,
+      "eval_samples_per_second": 3.217,
+      "eval_steps_per_second": 1.609,
+      "step": 11000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 3.5015225281599242e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null