irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 15, 2025

Commit

f3877b3

verified ·

1 Parent(s): 06065d5

Training checkpoint at step 23000

Browse files

Files changed (1) hide show

trainer_state.json +365 -5

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 22000,
-  "best_metric": 2.3865110874176025,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-22000",
-  "epoch": 0.44,
   "eval_steps": 100,
-  "global_step": 22000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7928,6 +7928,366 @@
       "eval_samples_per_second": 3.206,
       "eval_steps_per_second": 1.603,
       "step": 22000
     }
   ],
   "logging_steps": 25,
@@ -7947,7 +8307,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.0030450563198484e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 22700,
+  "best_metric": 2.3853445053100586,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-22000",
+  "epoch": 0.46,
   "eval_steps": 100,
+  "global_step": 23000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.206,
       "eval_steps_per_second": 1.603,
       "step": 22000
+    },
+    {
+      "epoch": 0.4405,
+      "grad_norm": 0.5533397760322247,
+      "learning_rate": 6.216888888888889e-06,
+      "loss": 2.371,
+      "step": 22025
+    },
+    {
+      "epoch": 0.441,
+      "grad_norm": 0.5551275205002794,
+      "learning_rate": 6.2113333333333336e-06,
+      "loss": 2.3684,
+      "step": 22050
+    },
+    {
+      "epoch": 0.4415,
+      "grad_norm": 0.5520948023453888,
+      "learning_rate": 6.205777777777778e-06,
+      "loss": 2.3602,
+      "step": 22075
+    },
+    {
+      "epoch": 0.442,
+      "grad_norm": 0.5679529169964138,
+      "learning_rate": 6.200222222222223e-06,
+      "loss": 2.3867,
+      "step": 22100
+    },
+    {
+      "epoch": 0.442,
+      "eval_loss": 2.3863022327423096,
+      "eval_runtime": 32.0036,
+      "eval_samples_per_second": 3.187,
+      "eval_steps_per_second": 1.594,
+      "step": 22100
+    },
+    {
+      "epoch": 0.4425,
+      "grad_norm": 0.5619895216629556,
+      "learning_rate": 6.194666666666668e-06,
+      "loss": 2.3701,
+      "step": 22125
+    },
+    {
+      "epoch": 0.443,
+      "grad_norm": 0.5515875809771505,
+      "learning_rate": 6.189111111111111e-06,
+      "loss": 2.3734,
+      "step": 22150
+    },
+    {
+      "epoch": 0.4435,
+      "grad_norm": 0.5686425996531567,
+      "learning_rate": 6.1835555555555556e-06,
+      "loss": 2.3698,
+      "step": 22175
+    },
+    {
+      "epoch": 0.444,
+      "grad_norm": 0.5580871882801617,
+      "learning_rate": 6.178000000000001e-06,
+      "loss": 2.3676,
+      "step": 22200
+    },
+    {
+      "epoch": 0.444,
+      "eval_loss": 2.3865246772766113,
+      "eval_runtime": 31.7174,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 1.608,
+      "step": 22200
+    },
+    {
+      "epoch": 0.4445,
+      "grad_norm": 0.5784261034385078,
+      "learning_rate": 6.172444444444445e-06,
+      "loss": 2.3723,
+      "step": 22225
+    },
+    {
+      "epoch": 0.445,
+      "grad_norm": 0.5570688655308026,
+      "learning_rate": 6.166888888888889e-06,
+      "loss": 2.3709,
+      "step": 22250
+    },
+    {
+      "epoch": 0.4455,
+      "grad_norm": 0.5716930839552549,
+      "learning_rate": 6.161333333333334e-06,
+      "loss": 2.3734,
+      "step": 22275
+    },
+    {
+      "epoch": 0.446,
+      "grad_norm": 0.5550340902020618,
+      "learning_rate": 6.1557777777777784e-06,
+      "loss": 2.3648,
+      "step": 22300
+    },
+    {
+      "epoch": 0.446,
+      "eval_loss": 2.38633131980896,
+      "eval_runtime": 31.7943,
+      "eval_samples_per_second": 3.208,
+      "eval_steps_per_second": 1.604,
+      "step": 22300
+    },
+    {
+      "epoch": 0.4465,
+      "grad_norm": 0.5719936248106342,
+      "learning_rate": 6.150222222222223e-06,
+      "loss": 2.3751,
+      "step": 22325
+    },
+    {
+      "epoch": 0.447,
+      "grad_norm": 0.5616671760742846,
+      "learning_rate": 6.144666666666668e-06,
+      "loss": 2.3748,
+      "step": 22350
+    },
+    {
+      "epoch": 0.4475,
+      "grad_norm": 0.5785985644213604,
+      "learning_rate": 6.139111111111112e-06,
+      "loss": 2.3837,
+      "step": 22375
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.5645620599147937,
+      "learning_rate": 6.133555555555556e-06,
+      "loss": 2.3745,
+      "step": 22400
+    },
+    {
+      "epoch": 0.448,
+      "eval_loss": 2.3862569332122803,
+      "eval_runtime": 31.9593,
+      "eval_samples_per_second": 3.192,
+      "eval_steps_per_second": 1.596,
+      "step": 22400
+    },
+    {
+      "epoch": 0.4485,
+      "grad_norm": 0.5469950240628229,
+      "learning_rate": 6.1280000000000005e-06,
+      "loss": 2.3642,
+      "step": 22425
+    },
+    {
+      "epoch": 0.449,
+      "grad_norm": 0.5324393599981698,
+      "learning_rate": 6.122444444444446e-06,
+      "loss": 2.379,
+      "step": 22450
+    },
+    {
+      "epoch": 0.4495,
+      "grad_norm": 0.5519962387254249,
+      "learning_rate": 6.116888888888889e-06,
+      "loss": 2.3635,
+      "step": 22475
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.5588336399127953,
+      "learning_rate": 6.111333333333334e-06,
+      "loss": 2.3718,
+      "step": 22500
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 2.385950803756714,
+      "eval_runtime": 31.7208,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 1.608,
+      "step": 22500
+    },
+    {
+      "epoch": 0.4505,
+      "grad_norm": 0.5923640418917652,
+      "learning_rate": 6.105777777777778e-06,
+      "loss": 2.3719,
+      "step": 22525
+    },
+    {
+      "epoch": 0.451,
+      "grad_norm": 0.5653562982992056,
+      "learning_rate": 6.100222222222223e-06,
+      "loss": 2.3808,
+      "step": 22550
+    },
+    {
+      "epoch": 0.4515,
+      "grad_norm": 0.5636846873459127,
+      "learning_rate": 6.094666666666668e-06,
+      "loss": 2.3641,
+      "step": 22575
+    },
+    {
+      "epoch": 0.452,
+      "grad_norm": 0.5850003926588586,
+      "learning_rate": 6.089111111111111e-06,
+      "loss": 2.3572,
+      "step": 22600
+    },
+    {
+      "epoch": 0.452,
+      "eval_loss": 2.386296033859253,
+      "eval_runtime": 31.8709,
+      "eval_samples_per_second": 3.2,
+      "eval_steps_per_second": 1.6,
+      "step": 22600
+    },
+    {
+      "epoch": 0.4525,
+      "grad_norm": 0.5334735362781007,
+      "learning_rate": 6.083555555555556e-06,
+      "loss": 2.3732,
+      "step": 22625
+    },
+    {
+      "epoch": 0.453,
+      "grad_norm": 0.5809776122118506,
+      "learning_rate": 6.078000000000001e-06,
+      "loss": 2.3842,
+      "step": 22650
+    },
+    {
+      "epoch": 0.4535,
+      "grad_norm": 0.5438625993671827,
+      "learning_rate": 6.072444444444445e-06,
+      "loss": 2.3802,
+      "step": 22675
+    },
+    {
+      "epoch": 0.454,
+      "grad_norm": 0.5581266930595516,
+      "learning_rate": 6.06688888888889e-06,
+      "loss": 2.3757,
+      "step": 22700
+    },
+    {
+      "epoch": 0.454,
+      "eval_loss": 2.3853445053100586,
+      "eval_runtime": 31.9465,
+      "eval_samples_per_second": 3.193,
+      "eval_steps_per_second": 1.596,
+      "step": 22700
+    },
+    {
+      "epoch": 0.4545,
+      "grad_norm": 0.5665471911134969,
+      "learning_rate": 6.061333333333333e-06,
+      "loss": 2.3632,
+      "step": 22725
+    },
+    {
+      "epoch": 0.455,
+      "grad_norm": 0.5602817372745607,
+      "learning_rate": 6.0557777777777785e-06,
+      "loss": 2.3759,
+      "step": 22750
+    },
+    {
+      "epoch": 0.4555,
+      "grad_norm": 0.5546395592927382,
+      "learning_rate": 6.050222222222223e-06,
+      "loss": 2.3654,
+      "step": 22775
+    },
+    {
+      "epoch": 0.456,
+      "grad_norm": 0.5466059675730089,
+      "learning_rate": 6.044666666666667e-06,
+      "loss": 2.3747,
+      "step": 22800
+    },
+    {
+      "epoch": 0.456,
+      "eval_loss": 2.3854382038116455,
+      "eval_runtime": 31.8135,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 22800
+    },
+    {
+      "epoch": 0.4565,
+      "grad_norm": 0.556576922176953,
+      "learning_rate": 6.039111111111111e-06,
+      "loss": 2.3752,
+      "step": 22825
+    },
+    {
+      "epoch": 0.457,
+      "grad_norm": 0.5587160453347744,
+      "learning_rate": 6.033555555555556e-06,
+      "loss": 2.3753,
+      "step": 22850
+    },
+    {
+      "epoch": 0.4575,
+      "grad_norm": 0.5581750567947692,
+      "learning_rate": 6.0280000000000006e-06,
+      "loss": 2.3744,
+      "step": 22875
+    },
+    {
+      "epoch": 0.458,
+      "grad_norm": 0.5665211201226871,
+      "learning_rate": 6.022444444444445e-06,
+      "loss": 2.3707,
+      "step": 22900
+    },
+    {
+      "epoch": 0.458,
+      "eval_loss": 2.3854050636291504,
+      "eval_runtime": 31.8453,
+      "eval_samples_per_second": 3.203,
+      "eval_steps_per_second": 1.601,
+      "step": 22900
+    },
+    {
+      "epoch": 0.4585,
+      "grad_norm": 0.559138638343371,
+      "learning_rate": 6.01688888888889e-06,
+      "loss": 2.3771,
+      "step": 22925
+    },
+    {
+      "epoch": 0.459,
+      "grad_norm": 0.5765629867304476,
+      "learning_rate": 6.011333333333334e-06,
+      "loss": 2.3751,
+      "step": 22950
+    },
+    {
+      "epoch": 0.4595,
+      "grad_norm": 0.5697804508664757,
+      "learning_rate": 6.005777777777778e-06,
+      "loss": 2.3837,
+      "step": 22975
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 0.5813773268685459,
+      "learning_rate": 6.000222222222223e-06,
+      "loss": 2.37,
+      "step": 23000
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 2.385390520095825,
+      "eval_runtime": 31.767,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 1.605,
+      "step": 23000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 7.321365286152569e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null