irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 14, 2025

Commit

8ac23f9

verified ·

1 Parent(s): 55a3e35

Training checkpoint at step 21000

Browse files

Files changed (1) hide show

trainer_state.json +365 -5

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 19900,
-  "best_metric": 2.388927698135376,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-19000",
-  "epoch": 0.4,
   "eval_steps": 100,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7208,6 +7208,366 @@
       "eval_samples_per_second": 3.208,
       "eval_steps_per_second": 1.604,
       "step": 20000
     }
   ],
   "logging_steps": 25,
@@ -7227,7 +7587,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.366404596654408e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 20900,
+  "best_metric": 2.388044595718384,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-19000",
+  "epoch": 0.42,
   "eval_steps": 100,
+  "global_step": 21000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.208,
       "eval_steps_per_second": 1.604,
       "step": 20000
+    },
+    {
+      "epoch": 0.4005,
+      "grad_norm": 0.5697829378233469,
+      "learning_rate": 6.661333333333334e-06,
+      "loss": 2.3675,
+      "step": 20025
+    },
+    {
+      "epoch": 0.401,
+      "grad_norm": 0.5582897347067457,
+      "learning_rate": 6.655777777777779e-06,
+      "loss": 2.3672,
+      "step": 20050
+    },
+    {
+      "epoch": 0.4015,
+      "grad_norm": 0.5926925535950422,
+      "learning_rate": 6.650222222222222e-06,
+      "loss": 2.3733,
+      "step": 20075
+    },
+    {
+      "epoch": 0.402,
+      "grad_norm": 0.544270592824537,
+      "learning_rate": 6.644666666666667e-06,
+      "loss": 2.3803,
+      "step": 20100
+    },
+    {
+      "epoch": 0.402,
+      "eval_loss": 2.389204502105713,
+      "eval_runtime": 31.8367,
+      "eval_samples_per_second": 3.204,
+      "eval_steps_per_second": 1.602,
+      "step": 20100
+    },
+    {
+      "epoch": 0.4025,
+      "grad_norm": 0.5530370407597024,
+      "learning_rate": 6.639111111111112e-06,
+      "loss": 2.3633,
+      "step": 20125
+    },
+    {
+      "epoch": 0.403,
+      "grad_norm": 0.5731039592674091,
+      "learning_rate": 6.633555555555556e-06,
+      "loss": 2.3642,
+      "step": 20150
+    },
+    {
+      "epoch": 0.4035,
+      "grad_norm": 0.5599029138977244,
+      "learning_rate": 6.628e-06,
+      "loss": 2.378,
+      "step": 20175
+    },
+    {
+      "epoch": 0.404,
+      "grad_norm": 0.5833746985921849,
+      "learning_rate": 6.622444444444444e-06,
+      "loss": 2.3797,
+      "step": 20200
+    },
+    {
+      "epoch": 0.404,
+      "eval_loss": 2.388874053955078,
+      "eval_runtime": 31.8821,
+      "eval_samples_per_second": 3.199,
+      "eval_steps_per_second": 1.6,
+      "step": 20200
+    },
+    {
+      "epoch": 0.4045,
+      "grad_norm": 0.5758811776953918,
+      "learning_rate": 6.6168888888888896e-06,
+      "loss": 2.3759,
+      "step": 20225
+    },
+    {
+      "epoch": 0.405,
+      "grad_norm": 0.559073322750905,
+      "learning_rate": 6.611333333333334e-06,
+      "loss": 2.3743,
+      "step": 20250
+    },
+    {
+      "epoch": 0.4055,
+      "grad_norm": 0.5638862668814341,
+      "learning_rate": 6.605777777777778e-06,
+      "loss": 2.3726,
+      "step": 20275
+    },
+    {
+      "epoch": 0.406,
+      "grad_norm": 0.5611977328077278,
+      "learning_rate": 6.600222222222222e-06,
+      "loss": 2.3704,
+      "step": 20300
+    },
+    {
+      "epoch": 0.406,
+      "eval_loss": 2.3888099193573,
+      "eval_runtime": 31.7076,
+      "eval_samples_per_second": 3.217,
+      "eval_steps_per_second": 1.608,
+      "step": 20300
+    },
+    {
+      "epoch": 0.4065,
+      "grad_norm": 0.5664333139784736,
+      "learning_rate": 6.594666666666667e-06,
+      "loss": 2.3644,
+      "step": 20325
+    },
+    {
+      "epoch": 0.407,
+      "grad_norm": 0.5549238936705829,
+      "learning_rate": 6.5891111111111116e-06,
+      "loss": 2.3594,
+      "step": 20350
+    },
+    {
+      "epoch": 0.4075,
+      "grad_norm": 0.56940110218198,
+      "learning_rate": 6.583555555555556e-06,
+      "loss": 2.3743,
+      "step": 20375
+    },
+    {
+      "epoch": 0.408,
+      "grad_norm": 0.5757908141952881,
+      "learning_rate": 6.578000000000001e-06,
+      "loss": 2.3774,
+      "step": 20400
+    },
+    {
+      "epoch": 0.408,
+      "eval_loss": 2.3890221118927,
+      "eval_runtime": 31.8193,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 20400
+    },
+    {
+      "epoch": 0.4085,
+      "grad_norm": 0.6023338293027314,
+      "learning_rate": 6.572444444444445e-06,
+      "loss": 2.3774,
+      "step": 20425
+    },
+    {
+      "epoch": 0.409,
+      "grad_norm": 0.5398042018053211,
+      "learning_rate": 6.566888888888889e-06,
+      "loss": 2.3785,
+      "step": 20450
+    },
+    {
+      "epoch": 0.4095,
+      "grad_norm": 0.5961544515028506,
+      "learning_rate": 6.561333333333334e-06,
+      "loss": 2.3867,
+      "step": 20475
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.5517605161130648,
+      "learning_rate": 6.555777777777779e-06,
+      "loss": 2.3713,
+      "step": 20500
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 2.38859224319458,
+      "eval_runtime": 31.8577,
+      "eval_samples_per_second": 3.202,
+      "eval_steps_per_second": 1.601,
+      "step": 20500
+    },
+    {
+      "epoch": 0.4105,
+      "grad_norm": 0.5753260144360031,
+      "learning_rate": 6.550222222222222e-06,
+      "loss": 2.3653,
+      "step": 20525
+    },
+    {
+      "epoch": 0.411,
+      "grad_norm": 0.6404542212883029,
+      "learning_rate": 6.544666666666667e-06,
+      "loss": 2.3869,
+      "step": 20550
+    },
+    {
+      "epoch": 0.4115,
+      "grad_norm": 0.5777253920326619,
+      "learning_rate": 6.539111111111112e-06,
+      "loss": 2.3813,
+      "step": 20575
+    },
+    {
+      "epoch": 0.412,
+      "grad_norm": 0.5698546516216307,
+      "learning_rate": 6.5335555555555565e-06,
+      "loss": 2.3775,
+      "step": 20600
+    },
+    {
+      "epoch": 0.412,
+      "eval_loss": 2.388434648513794,
+      "eval_runtime": 31.8295,
+      "eval_samples_per_second": 3.205,
+      "eval_steps_per_second": 1.602,
+      "step": 20600
+    },
+    {
+      "epoch": 0.4125,
+      "grad_norm": 0.5842535685269022,
+      "learning_rate": 6.528000000000001e-06,
+      "loss": 2.3896,
+      "step": 20625
+    },
+    {
+      "epoch": 0.413,
+      "grad_norm": 0.5595088265556925,
+      "learning_rate": 6.522444444444444e-06,
+      "loss": 2.3878,
+      "step": 20650
+    },
+    {
+      "epoch": 0.4135,
+      "grad_norm": 0.5751254243123975,
+      "learning_rate": 6.51688888888889e-06,
+      "loss": 2.367,
+      "step": 20675
+    },
+    {
+      "epoch": 0.414,
+      "grad_norm": 0.5394876201865446,
+      "learning_rate": 6.511333333333334e-06,
+      "loss": 2.3776,
+      "step": 20700
+    },
+    {
+      "epoch": 0.414,
+      "eval_loss": 2.3883957862854004,
+      "eval_runtime": 31.8095,
+      "eval_samples_per_second": 3.207,
+      "eval_steps_per_second": 1.603,
+      "step": 20700
+    },
+    {
+      "epoch": 0.4145,
+      "grad_norm": 0.5601399673585632,
+      "learning_rate": 6.5057777777777785e-06,
+      "loss": 2.3679,
+      "step": 20725
+    },
+    {
+      "epoch": 0.415,
+      "grad_norm": 0.5715098373270459,
+      "learning_rate": 6.500222222222222e-06,
+      "loss": 2.3811,
+      "step": 20750
+    },
+    {
+      "epoch": 0.4155,
+      "grad_norm": 0.5517830411358287,
+      "learning_rate": 6.494666666666667e-06,
+      "loss": 2.3723,
+      "step": 20775
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 0.5736440167807991,
+      "learning_rate": 6.489111111111112e-06,
+      "loss": 2.3804,
+      "step": 20800
+    },
+    {
+      "epoch": 0.416,
+      "eval_loss": 2.388143539428711,
+      "eval_runtime": 31.9362,
+      "eval_samples_per_second": 3.194,
+      "eval_steps_per_second": 1.597,
+      "step": 20800
+    },
+    {
+      "epoch": 0.4165,
+      "grad_norm": 0.5772877970336647,
+      "learning_rate": 6.483555555555556e-06,
+      "loss": 2.3721,
+      "step": 20825
+    },
+    {
+      "epoch": 0.417,
+      "grad_norm": 0.5746556720939705,
+      "learning_rate": 6.478000000000001e-06,
+      "loss": 2.3662,
+      "step": 20850
+    },
+    {
+      "epoch": 0.4175,
+      "grad_norm": 0.5605696940354651,
+      "learning_rate": 6.472444444444445e-06,
+      "loss": 2.3783,
+      "step": 20875
+    },
+    {
+      "epoch": 0.418,
+      "grad_norm": 0.5474840165552274,
+      "learning_rate": 6.466888888888889e-06,
+      "loss": 2.3799,
+      "step": 20900
+    },
+    {
+      "epoch": 0.418,
+      "eval_loss": 2.388044595718384,
+      "eval_runtime": 31.8313,
+      "eval_samples_per_second": 3.204,
+      "eval_steps_per_second": 1.602,
+      "step": 20900
+    },
+    {
+      "epoch": 0.4185,
+      "grad_norm": 0.5663680125421368,
+      "learning_rate": 6.461333333333334e-06,
+      "loss": 2.3843,
+      "step": 20925
+    },
+    {
+      "epoch": 0.419,
+      "grad_norm": 0.5531423851896319,
+      "learning_rate": 6.455777777777779e-06,
+      "loss": 2.3661,
+      "step": 20950
+    },
+    {
+      "epoch": 0.4195,
+      "grad_norm": 0.5644562314935403,
+      "learning_rate": 6.450222222222223e-06,
+      "loss": 2.3762,
+      "step": 20975
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.5653831391780122,
+      "learning_rate": 6.444666666666667e-06,
+      "loss": 2.3588,
+      "step": 21000
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 2.388213872909546,
+      "eval_runtime": 31.7864,
+      "eval_samples_per_second": 3.209,
+      "eval_steps_per_second": 1.604,
+      "step": 21000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 6.684724826487128e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null