irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 17, 2025

Commit

1028f30

verified ·

1 Parent(s): 40f0eb0

Training checkpoint at step 26000

Browse files

Files changed (1) hide show

trainer_state.json +365 -5

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 25000,
-  "best_metric": 2.3832170963287354,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-25000",
-  "epoch": 0.5,
   "eval_steps": 100,
-  "global_step": 25000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9008,6 +9008,366 @@
       "eval_samples_per_second": 3.208,
       "eval_steps_per_second": 1.604,
       "step": 25000
     }
   ],
   "logging_steps": 25,
@@ -9027,7 +9387,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.95800574581801e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 25900,
+  "best_metric": 2.3824901580810547,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-25000",
+  "epoch": 0.52,
   "eval_steps": 100,
+  "global_step": 26000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.208,
       "eval_steps_per_second": 1.604,
       "step": 25000
+    },
+    {
+      "epoch": 0.5005,
+      "grad_norm": 0.5509816083841773,
+      "learning_rate": 5.550222222222223e-06,
+      "loss": 2.3559,
+      "step": 25025
+    },
+    {
+      "epoch": 0.501,
+      "grad_norm": 0.5547472529206742,
+      "learning_rate": 5.544666666666667e-06,
+      "loss": 2.3648,
+      "step": 25050
+    },
+    {
+      "epoch": 0.5015,
+      "grad_norm": 0.546260980184131,
+      "learning_rate": 5.5391111111111115e-06,
+      "loss": 2.3701,
+      "step": 25075
+    },
+    {
+      "epoch": 0.502,
+      "grad_norm": 0.5481216862316385,
+      "learning_rate": 5.533555555555557e-06,
+      "loss": 2.3798,
+      "step": 25100
+    },
+    {
+      "epoch": 0.502,
+      "eval_loss": 2.38305926322937,
+      "eval_runtime": 32.0473,
+      "eval_samples_per_second": 3.183,
+      "eval_steps_per_second": 1.591,
+      "step": 25100
+    },
+    {
+      "epoch": 0.5025,
+      "grad_norm": 0.5670640165543723,
+      "learning_rate": 5.528e-06,
+      "loss": 2.3622,
+      "step": 25125
+    },
+    {
+      "epoch": 0.503,
+      "grad_norm": 0.5463137917421312,
+      "learning_rate": 5.522444444444445e-06,
+      "loss": 2.3719,
+      "step": 25150
+    },
+    {
+      "epoch": 0.5035,
+      "grad_norm": 0.5400999701410277,
+      "learning_rate": 5.516888888888889e-06,
+      "loss": 2.3616,
+      "step": 25175
+    },
+    {
+      "epoch": 0.504,
+      "grad_norm": 0.5802126499364532,
+      "learning_rate": 5.511333333333334e-06,
+      "loss": 2.3721,
+      "step": 25200
+    },
+    {
+      "epoch": 0.504,
+      "eval_loss": 2.3829147815704346,
+      "eval_runtime": 31.7438,
+      "eval_samples_per_second": 3.213,
+      "eval_steps_per_second": 1.607,
+      "step": 25200
+    },
+    {
+      "epoch": 0.5045,
+      "grad_norm": 0.5435607747773122,
+      "learning_rate": 5.505777777777779e-06,
+      "loss": 2.3603,
+      "step": 25225
+    },
+    {
+      "epoch": 0.505,
+      "grad_norm": 0.5453890322127348,
+      "learning_rate": 5.500222222222222e-06,
+      "loss": 2.3636,
+      "step": 25250
+    },
+    {
+      "epoch": 0.5055,
+      "grad_norm": 0.5477131217196112,
+      "learning_rate": 5.494666666666667e-06,
+      "loss": 2.3697,
+      "step": 25275
+    },
+    {
+      "epoch": 0.506,
+      "grad_norm": 0.5621665226631756,
+      "learning_rate": 5.489111111111112e-06,
+      "loss": 2.3687,
+      "step": 25300
+    },
+    {
+      "epoch": 0.506,
+      "eval_loss": 2.3831355571746826,
+      "eval_runtime": 31.7979,
+      "eval_samples_per_second": 3.208,
+      "eval_steps_per_second": 1.604,
+      "step": 25300
+    },
+    {
+      "epoch": 0.5065,
+      "grad_norm": 0.5622191727496813,
+      "learning_rate": 5.483555555555556e-06,
+      "loss": 2.368,
+      "step": 25325
+    },
+    {
+      "epoch": 0.507,
+      "grad_norm": 0.5375310388584507,
+      "learning_rate": 5.478e-06,
+      "loss": 2.3617,
+      "step": 25350
+    },
+    {
+      "epoch": 0.5075,
+      "grad_norm": 0.5421092937376346,
+      "learning_rate": 5.472444444444444e-06,
+      "loss": 2.3759,
+      "step": 25375
+    },
+    {
+      "epoch": 0.508,
+      "grad_norm": 0.5726686989658507,
+      "learning_rate": 5.4668888888888896e-06,
+      "loss": 2.37,
+      "step": 25400
+    },
+    {
+      "epoch": 0.508,
+      "eval_loss": 2.383046865463257,
+      "eval_runtime": 31.8165,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 25400
+    },
+    {
+      "epoch": 0.5085,
+      "grad_norm": 0.536904504012326,
+      "learning_rate": 5.461333333333334e-06,
+      "loss": 2.3683,
+      "step": 25425
+    },
+    {
+      "epoch": 0.509,
+      "grad_norm": 0.5792290465322086,
+      "learning_rate": 5.455777777777778e-06,
+      "loss": 2.3641,
+      "step": 25450
+    },
+    {
+      "epoch": 0.5095,
+      "grad_norm": 0.5667490944788528,
+      "learning_rate": 5.450222222222222e-06,
+      "loss": 2.3673,
+      "step": 25475
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.5581091402617585,
+      "learning_rate": 5.444666666666667e-06,
+      "loss": 2.374,
+      "step": 25500
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 2.3831074237823486,
+      "eval_runtime": 31.8462,
+      "eval_samples_per_second": 3.203,
+      "eval_steps_per_second": 1.601,
+      "step": 25500
+    },
+    {
+      "epoch": 0.5105,
+      "grad_norm": 0.5629059983127724,
+      "learning_rate": 5.4391111111111116e-06,
+      "loss": 2.376,
+      "step": 25525
+    },
+    {
+      "epoch": 0.511,
+      "grad_norm": 0.5600711744363054,
+      "learning_rate": 5.433555555555556e-06,
+      "loss": 2.3702,
+      "step": 25550
+    },
+    {
+      "epoch": 0.5115,
+      "grad_norm": 0.5500784026204207,
+      "learning_rate": 5.4279999999999995e-06,
+      "loss": 2.3704,
+      "step": 25575
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.553377338742942,
+      "learning_rate": 5.422444444444445e-06,
+      "loss": 2.3644,
+      "step": 25600
+    },
+    {
+      "epoch": 0.512,
+      "eval_loss": 2.3826544284820557,
+      "eval_runtime": 31.7739,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 25600
+    },
+    {
+      "epoch": 0.5125,
+      "grad_norm": 0.5861763037221558,
+      "learning_rate": 5.416888888888889e-06,
+      "loss": 2.3658,
+      "step": 25625
+    },
+    {
+      "epoch": 0.513,
+      "grad_norm": 0.5538084648071333,
+      "learning_rate": 5.411333333333334e-06,
+      "loss": 2.3693,
+      "step": 25650
+    },
+    {
+      "epoch": 0.5135,
+      "grad_norm": 0.5699472071254841,
+      "learning_rate": 5.405777777777779e-06,
+      "loss": 2.3707,
+      "step": 25675
+    },
+    {
+      "epoch": 0.514,
+      "grad_norm": 0.5440880568370218,
+      "learning_rate": 5.400222222222222e-06,
+      "loss": 2.3664,
+      "step": 25700
+    },
+    {
+      "epoch": 0.514,
+      "eval_loss": 2.382906675338745,
+      "eval_runtime": 31.7874,
+      "eval_samples_per_second": 3.209,
+      "eval_steps_per_second": 1.604,
+      "step": 25700
+    },
+    {
+      "epoch": 0.5145,
+      "grad_norm": 0.551256815387497,
+      "learning_rate": 5.394666666666667e-06,
+      "loss": 2.3608,
+      "step": 25725
+    },
+    {
+      "epoch": 0.515,
+      "grad_norm": 0.552653919875225,
+      "learning_rate": 5.389111111111112e-06,
+      "loss": 2.3648,
+      "step": 25750
+    },
+    {
+      "epoch": 0.5155,
+      "grad_norm": 0.5489775829628063,
+      "learning_rate": 5.3835555555555565e-06,
+      "loss": 2.368,
+      "step": 25775
+    },
+    {
+      "epoch": 0.516,
+      "grad_norm": 0.545224524462321,
+      "learning_rate": 5.378e-06,
+      "loss": 2.37,
+      "step": 25800
+    },
+    {
+      "epoch": 0.516,
+      "eval_loss": 2.382946491241455,
+      "eval_runtime": 31.8142,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 25800
+    },
+    {
+      "epoch": 0.5165,
+      "grad_norm": 0.6177434912819645,
+      "learning_rate": 5.372444444444444e-06,
+      "loss": 2.3576,
+      "step": 25825
+    },
+    {
+      "epoch": 0.517,
+      "grad_norm": 0.5731672053410489,
+      "learning_rate": 5.36688888888889e-06,
+      "loss": 2.3641,
+      "step": 25850
+    },
+    {
+      "epoch": 0.5175,
+      "grad_norm": 0.547417736306074,
+      "learning_rate": 5.361333333333334e-06,
+      "loss": 2.3669,
+      "step": 25875
+    },
+    {
+      "epoch": 0.518,
+      "grad_norm": 0.5666721324439973,
+      "learning_rate": 5.3557777777777785e-06,
+      "loss": 2.3633,
+      "step": 25900
+    },
+    {
+      "epoch": 0.518,
+      "eval_loss": 2.3824901580810547,
+      "eval_runtime": 31.8236,
+      "eval_samples_per_second": 3.205,
+      "eval_steps_per_second": 1.603,
+      "step": 25900
+    },
+    {
+      "epoch": 0.5185,
+      "grad_norm": 0.5493694553264233,
+      "learning_rate": 5.350222222222222e-06,
+      "loss": 2.3676,
+      "step": 25925
+    },
+    {
+      "epoch": 0.519,
+      "grad_norm": 0.5581911332398992,
+      "learning_rate": 5.344666666666667e-06,
+      "loss": 2.3665,
+      "step": 25950
+    },
+    {
+      "epoch": 0.5195,
+      "grad_norm": 0.5523156791576098,
+      "learning_rate": 5.339111111111112e-06,
+      "loss": 2.3634,
+      "step": 25975
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.5394984851015033,
+      "learning_rate": 5.333555555555556e-06,
+      "loss": 2.3693,
+      "step": 26000
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 2.3825063705444336,
+      "eval_runtime": 31.7579,
+      "eval_samples_per_second": 3.212,
+      "eval_steps_per_second": 1.606,
+      "step": 26000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 8.27632597565073e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null