irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 12, 2025

Commit

59283bd

verified ·

1 Parent(s): a411d34

Training checkpoint at step 18000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 17000,
-  "best_metric": 2.394216775894165,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-17000",
-  "epoch": 0.34,
   "eval_steps": 100,
-  "global_step": 17000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6128,6 +6128,366 @@
       "eval_samples_per_second": 3.215,
       "eval_steps_per_second": 1.607,
       "step": 17000
     }
   ],
   "logging_steps": 25,
@@ -6147,7 +6507,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.4114439071562465e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 18000,
+  "best_metric": 2.3920133113861084,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-18000",
+  "epoch": 0.36,
   "eval_steps": 100,
+  "global_step": 18000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.215,
       "eval_steps_per_second": 1.607,
       "step": 17000
+    },
+    {
+      "epoch": 0.3405,
+      "grad_norm": 0.5625979440161315,
+      "learning_rate": 7.328000000000001e-06,
+      "loss": 2.3706,
+      "step": 17025
+    },
+    {
+      "epoch": 0.341,
+      "grad_norm": 0.5578934058534382,
+      "learning_rate": 7.322444444444445e-06,
+      "loss": 2.3717,
+      "step": 17050
+    },
+    {
+      "epoch": 0.3415,
+      "grad_norm": 0.5600783145650656,
+      "learning_rate": 7.31688888888889e-06,
+      "loss": 2.3549,
+      "step": 17075
+    },
+    {
+      "epoch": 0.342,
+      "grad_norm": 0.5443562716925451,
+      "learning_rate": 7.311333333333334e-06,
+      "loss": 2.3818,
+      "step": 17100
+    },
+    {
+      "epoch": 0.342,
+      "eval_loss": 2.3939199447631836,
+      "eval_runtime": 31.7183,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 1.608,
+      "step": 17100
+    },
+    {
+      "epoch": 0.3425,
+      "grad_norm": 0.6040551095214175,
+      "learning_rate": 7.3057777777777784e-06,
+      "loss": 2.3856,
+      "step": 17125
+    },
+    {
+      "epoch": 0.343,
+      "grad_norm": 0.5800600768624563,
+      "learning_rate": 7.300222222222223e-06,
+      "loss": 2.3812,
+      "step": 17150
+    },
+    {
+      "epoch": 0.3435,
+      "grad_norm": 0.606456873691792,
+      "learning_rate": 7.294666666666668e-06,
+      "loss": 2.3823,
+      "step": 17175
+    },
+    {
+      "epoch": 0.344,
+      "grad_norm": 0.5820033666001653,
+      "learning_rate": 7.289111111111112e-06,
+      "loss": 2.3772,
+      "step": 17200
+    },
+    {
+      "epoch": 0.344,
+      "eval_loss": 2.39414644241333,
+      "eval_runtime": 31.4591,
+      "eval_samples_per_second": 3.242,
+      "eval_steps_per_second": 1.621,
+      "step": 17200
+    },
+    {
+      "epoch": 0.3445,
+      "grad_norm": 0.592691728166079,
+      "learning_rate": 7.283555555555556e-06,
+      "loss": 2.3757,
+      "step": 17225
+    },
+    {
+      "epoch": 0.345,
+      "grad_norm": 0.5475066044517582,
+      "learning_rate": 7.2780000000000005e-06,
+      "loss": 2.393,
+      "step": 17250
+    },
+    {
+      "epoch": 0.3455,
+      "grad_norm": 0.5412153350606916,
+      "learning_rate": 7.272444444444446e-06,
+      "loss": 2.3775,
+      "step": 17275
+    },
+    {
+      "epoch": 0.346,
+      "grad_norm": 0.5703055910606494,
+      "learning_rate": 7.26688888888889e-06,
+      "loss": 2.3919,
+      "step": 17300
+    },
+    {
+      "epoch": 0.346,
+      "eval_loss": 2.393954277038574,
+      "eval_runtime": 31.4832,
+      "eval_samples_per_second": 3.24,
+      "eval_steps_per_second": 1.62,
+      "step": 17300
+    },
+    {
+      "epoch": 0.3465,
+      "grad_norm": 0.5720004911842855,
+      "learning_rate": 7.261333333333334e-06,
+      "loss": 2.3744,
+      "step": 17325
+    },
+    {
+      "epoch": 0.347,
+      "grad_norm": 0.5651936652229611,
+      "learning_rate": 7.255777777777778e-06,
+      "loss": 2.3766,
+      "step": 17350
+    },
+    {
+      "epoch": 0.3475,
+      "grad_norm": 0.552954097582646,
+      "learning_rate": 7.250222222222223e-06,
+      "loss": 2.38,
+      "step": 17375
+    },
+    {
+      "epoch": 0.348,
+      "grad_norm": 0.5753937605402671,
+      "learning_rate": 7.244666666666668e-06,
+      "loss": 2.3825,
+      "step": 17400
+    },
+    {
+      "epoch": 0.348,
+      "eval_loss": 2.3936057090759277,
+      "eval_runtime": 31.5155,
+      "eval_samples_per_second": 3.237,
+      "eval_steps_per_second": 1.618,
+      "step": 17400
+    },
+    {
+      "epoch": 0.3485,
+      "grad_norm": 0.5982429265702776,
+      "learning_rate": 7.239111111111111e-06,
+      "loss": 2.3748,
+      "step": 17425
+    },
+    {
+      "epoch": 0.349,
+      "grad_norm": 0.5707105076014326,
+      "learning_rate": 7.233555555555556e-06,
+      "loss": 2.3871,
+      "step": 17450
+    },
+    {
+      "epoch": 0.3495,
+      "grad_norm": 0.5749982454192974,
+      "learning_rate": 7.228000000000001e-06,
+      "loss": 2.3722,
+      "step": 17475
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 0.5667678087541999,
+      "learning_rate": 7.222444444444445e-06,
+      "loss": 2.3897,
+      "step": 17500
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 2.3934316635131836,
+      "eval_runtime": 31.5133,
+      "eval_samples_per_second": 3.237,
+      "eval_steps_per_second": 1.618,
+      "step": 17500
+    },
+    {
+      "epoch": 0.3505,
+      "grad_norm": 0.551269238238286,
+      "learning_rate": 7.21688888888889e-06,
+      "loss": 2.3759,
+      "step": 17525
+    },
+    {
+      "epoch": 0.351,
+      "grad_norm": 0.5683477126287287,
+      "learning_rate": 7.211333333333333e-06,
+      "loss": 2.3751,
+      "step": 17550
+    },
+    {
+      "epoch": 0.3515,
+      "grad_norm": 0.5534527601932518,
+      "learning_rate": 7.2057777777777785e-06,
+      "loss": 2.3749,
+      "step": 17575
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 0.5444580304379504,
+      "learning_rate": 7.200222222222223e-06,
+      "loss": 2.3839,
+      "step": 17600
+    },
+    {
+      "epoch": 0.352,
+      "eval_loss": 2.3928964138031006,
+      "eval_runtime": 31.79,
+      "eval_samples_per_second": 3.209,
+      "eval_steps_per_second": 1.604,
+      "step": 17600
+    },
+    {
+      "epoch": 0.3525,
+      "grad_norm": 0.5683011717419817,
+      "learning_rate": 7.194666666666667e-06,
+      "loss": 2.3697,
+      "step": 17625
+    },
+    {
+      "epoch": 0.353,
+      "grad_norm": 0.5597200154635523,
+      "learning_rate": 7.189111111111111e-06,
+      "loss": 2.3758,
+      "step": 17650
+    },
+    {
+      "epoch": 0.3535,
+      "grad_norm": 0.5389975543023572,
+      "learning_rate": 7.183555555555556e-06,
+      "loss": 2.3748,
+      "step": 17675
+    },
+    {
+      "epoch": 0.354,
+      "grad_norm": 0.5766556300730846,
+      "learning_rate": 7.1780000000000006e-06,
+      "loss": 2.3863,
+      "step": 17700
+    },
+    {
+      "epoch": 0.354,
+      "eval_loss": 2.3929381370544434,
+      "eval_runtime": 31.4662,
+      "eval_samples_per_second": 3.242,
+      "eval_steps_per_second": 1.621,
+      "step": 17700
+    },
+    {
+      "epoch": 0.3545,
+      "grad_norm": 0.5422601731930108,
+      "learning_rate": 7.172444444444445e-06,
+      "loss": 2.3795,
+      "step": 17725
+    },
+    {
+      "epoch": 0.355,
+      "grad_norm": 0.587749563771833,
+      "learning_rate": 7.16688888888889e-06,
+      "loss": 2.3741,
+      "step": 17750
+    },
+    {
+      "epoch": 0.3555,
+      "grad_norm": 0.5448174780243932,
+      "learning_rate": 7.161333333333334e-06,
+      "loss": 2.374,
+      "step": 17775
+    },
+    {
+      "epoch": 0.356,
+      "grad_norm": 0.5487711297157323,
+      "learning_rate": 7.155777777777778e-06,
+      "loss": 2.3872,
+      "step": 17800
+    },
+    {
+      "epoch": 0.356,
+      "eval_loss": 2.3928709030151367,
+      "eval_runtime": 31.7364,
+      "eval_samples_per_second": 3.214,
+      "eval_steps_per_second": 1.607,
+      "step": 17800
+    },
+    {
+      "epoch": 0.3565,
+      "grad_norm": 0.5749112760792647,
+      "learning_rate": 7.150222222222223e-06,
+      "loss": 2.375,
+      "step": 17825
+    },
+    {
+      "epoch": 0.357,
+      "grad_norm": 0.5657127084376901,
+      "learning_rate": 7.144666666666668e-06,
+      "loss": 2.3635,
+      "step": 17850
+    },
+    {
+      "epoch": 0.3575,
+      "grad_norm": 0.5552559911086609,
+      "learning_rate": 7.139111111111112e-06,
+      "loss": 2.3791,
+      "step": 17875
+    },
+    {
+      "epoch": 0.358,
+      "grad_norm": 0.5587079571658956,
+      "learning_rate": 7.133555555555556e-06,
+      "loss": 2.3792,
+      "step": 17900
+    },
+    {
+      "epoch": 0.358,
+      "eval_loss": 2.39250111579895,
+      "eval_runtime": 31.8377,
+      "eval_samples_per_second": 3.204,
+      "eval_steps_per_second": 1.602,
+      "step": 17900
+    },
+    {
+      "epoch": 0.3585,
+      "grad_norm": 0.5476769108414363,
+      "learning_rate": 7.128e-06,
+      "loss": 2.3796,
+      "step": 17925
+    },
+    {
+      "epoch": 0.359,
+      "grad_norm": 0.5519286017800472,
+      "learning_rate": 7.1224444444444454e-06,
+      "loss": 2.3689,
+      "step": 17950
+    },
+    {
+      "epoch": 0.3595,
+      "grad_norm": 0.5690523665272621,
+      "learning_rate": 7.11688888888889e-06,
+      "loss": 2.3758,
+      "step": 17975
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.575484852893059,
+      "learning_rate": 7.111333333333333e-06,
+      "loss": 2.3723,
+      "step": 18000
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 2.3920133113861084,
+      "eval_runtime": 31.9286,
+      "eval_samples_per_second": 3.195,
+      "eval_steps_per_second": 1.597,
+      "step": 18000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 5.729764136988967e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null