irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 13, 2025

Commit

6707e05

verified ·

1 Parent(s): 1a3be17

Training checkpoint at step 20000

Browse files

Files changed (1) hide show

trainer_state.json +365 -5

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 19000,
-  "best_metric": 2.390749454498291,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-19000",
-  "epoch": 0.38,
   "eval_steps": 100,
-  "global_step": 19000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6848,6 +6848,366 @@
       "eval_samples_per_second": 3.207,
       "eval_steps_per_second": 1.603,
       "step": 19000
     }
   ],
   "logging_steps": 25,
@@ -6867,7 +7227,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.048084366821687e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 19900,
+  "best_metric": 2.388927698135376,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-19000",
+  "epoch": 0.4,
   "eval_steps": 100,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.207,
       "eval_steps_per_second": 1.603,
       "step": 19000
+    },
+    {
+      "epoch": 0.3805,
+      "grad_norm": 0.5526396554433541,
+      "learning_rate": 6.8835555555555565e-06,
+      "loss": 2.3779,
+      "step": 19025
+    },
+    {
+      "epoch": 0.381,
+      "grad_norm": 0.574490460414078,
+      "learning_rate": 6.878e-06,
+      "loss": 2.3727,
+      "step": 19050
+    },
+    {
+      "epoch": 0.3815,
+      "grad_norm": 0.5611671894801677,
+      "learning_rate": 6.872444444444445e-06,
+      "loss": 2.379,
+      "step": 19075
+    },
+    {
+      "epoch": 0.382,
+      "grad_norm": 0.5434475778092571,
+      "learning_rate": 6.86688888888889e-06,
+      "loss": 2.3788,
+      "step": 19100
+    },
+    {
+      "epoch": 0.382,
+      "eval_loss": 2.390854597091675,
+      "eval_runtime": 31.4727,
+      "eval_samples_per_second": 3.241,
+      "eval_steps_per_second": 1.62,
+      "step": 19100
+    },
+    {
+      "epoch": 0.3825,
+      "grad_norm": 0.5438441040943751,
+      "learning_rate": 6.861333333333334e-06,
+      "loss": 2.3849,
+      "step": 19125
+    },
+    {
+      "epoch": 0.383,
+      "grad_norm": 0.5617582167520553,
+      "learning_rate": 6.855777777777778e-06,
+      "loss": 2.3778,
+      "step": 19150
+    },
+    {
+      "epoch": 0.3835,
+      "grad_norm": 0.5734148354957039,
+      "learning_rate": 6.850222222222223e-06,
+      "loss": 2.3749,
+      "step": 19175
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.5567016447555824,
+      "learning_rate": 6.844666666666667e-06,
+      "loss": 2.3786,
+      "step": 19200
+    },
+    {
+      "epoch": 0.384,
+      "eval_loss": 2.390947103500366,
+      "eval_runtime": 31.472,
+      "eval_samples_per_second": 3.241,
+      "eval_steps_per_second": 1.62,
+      "step": 19200
+    },
+    {
+      "epoch": 0.3845,
+      "grad_norm": 0.5630941651558155,
+      "learning_rate": 6.839111111111112e-06,
+      "loss": 2.371,
+      "step": 19225
+    },
+    {
+      "epoch": 0.385,
+      "grad_norm": 0.5472891744821744,
+      "learning_rate": 6.833555555555557e-06,
+      "loss": 2.371,
+      "step": 19250
+    },
+    {
+      "epoch": 0.3855,
+      "grad_norm": 0.563854124925733,
+      "learning_rate": 6.8280000000000005e-06,
+      "loss": 2.3802,
+      "step": 19275
+    },
+    {
+      "epoch": 0.386,
+      "grad_norm": 0.5535188682099162,
+      "learning_rate": 6.822444444444445e-06,
+      "loss": 2.3668,
+      "step": 19300
+    },
+    {
+      "epoch": 0.386,
+      "eval_loss": 2.3904383182525635,
+      "eval_runtime": 31.5109,
+      "eval_samples_per_second": 3.237,
+      "eval_steps_per_second": 1.618,
+      "step": 19300
+    },
+    {
+      "epoch": 0.3865,
+      "grad_norm": 0.5847689751509554,
+      "learning_rate": 6.816888888888889e-06,
+      "loss": 2.3723,
+      "step": 19325
+    },
+    {
+      "epoch": 0.387,
+      "grad_norm": 0.5477508463021717,
+      "learning_rate": 6.811333333333335e-06,
+      "loss": 2.3748,
+      "step": 19350
+    },
+    {
+      "epoch": 0.3875,
+      "grad_norm": 0.5530662776524751,
+      "learning_rate": 6.805777777777778e-06,
+      "loss": 2.372,
+      "step": 19375
+    },
+    {
+      "epoch": 0.388,
+      "grad_norm": 0.5627088332087185,
+      "learning_rate": 6.8002222222222225e-06,
+      "loss": 2.3649,
+      "step": 19400
+    },
+    {
+      "epoch": 0.388,
+      "eval_loss": 2.3902432918548584,
+      "eval_runtime": 31.5016,
+      "eval_samples_per_second": 3.238,
+      "eval_steps_per_second": 1.619,
+      "step": 19400
+    },
+    {
+      "epoch": 0.3885,
+      "grad_norm": 0.5917805991329846,
+      "learning_rate": 6.794666666666667e-06,
+      "loss": 2.389,
+      "step": 19425
+    },
+    {
+      "epoch": 0.389,
+      "grad_norm": 0.5637153841856668,
+      "learning_rate": 6.789111111111112e-06,
+      "loss": 2.381,
+      "step": 19450
+    },
+    {
+      "epoch": 0.3895,
+      "grad_norm": 0.5638546592221216,
+      "learning_rate": 6.783555555555557e-06,
+      "loss": 2.3674,
+      "step": 19475
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 0.5442599823902955,
+      "learning_rate": 6.778e-06,
+      "loss": 2.3684,
+      "step": 19500
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 2.3898606300354004,
+      "eval_runtime": 31.4637,
+      "eval_samples_per_second": 3.242,
+      "eval_steps_per_second": 1.621,
+      "step": 19500
+    },
+    {
+      "epoch": 0.3905,
+      "grad_norm": 0.582280869057288,
+      "learning_rate": 6.7724444444444446e-06,
+      "loss": 2.3691,
+      "step": 19525
+    },
+    {
+      "epoch": 0.391,
+      "grad_norm": 0.5427829071455205,
+      "learning_rate": 6.76688888888889e-06,
+      "loss": 2.372,
+      "step": 19550
+    },
+    {
+      "epoch": 0.3915,
+      "grad_norm": 0.5690660297920415,
+      "learning_rate": 6.761333333333334e-06,
+      "loss": 2.3696,
+      "step": 19575
+    },
+    {
+      "epoch": 0.392,
+      "grad_norm": 0.5887280660795969,
+      "learning_rate": 6.755777777777779e-06,
+      "loss": 2.3647,
+      "step": 19600
+    },
+    {
+      "epoch": 0.392,
+      "eval_loss": 2.389928102493286,
+      "eval_runtime": 31.425,
+      "eval_samples_per_second": 3.246,
+      "eval_steps_per_second": 1.623,
+      "step": 19600
+    },
+    {
+      "epoch": 0.3925,
+      "grad_norm": 0.5706193677763675,
+      "learning_rate": 6.750222222222222e-06,
+      "loss": 2.3693,
+      "step": 19625
+    },
+    {
+      "epoch": 0.393,
+      "grad_norm": 0.5446782496969111,
+      "learning_rate": 6.7446666666666674e-06,
+      "loss": 2.3808,
+      "step": 19650
+    },
+    {
+      "epoch": 0.3935,
+      "grad_norm": 0.5571942248079983,
+      "learning_rate": 6.739111111111112e-06,
+      "loss": 2.3825,
+      "step": 19675
+    },
+    {
+      "epoch": 0.394,
+      "grad_norm": 0.5452923856402259,
+      "learning_rate": 6.733555555555556e-06,
+      "loss": 2.3689,
+      "step": 19700
+    },
+    {
+      "epoch": 0.394,
+      "eval_loss": 2.3896048069000244,
+      "eval_runtime": 31.5836,
+      "eval_samples_per_second": 3.23,
+      "eval_steps_per_second": 1.615,
+      "step": 19700
+    },
+    {
+      "epoch": 0.3945,
+      "grad_norm": 0.5828792681612529,
+      "learning_rate": 6.728e-06,
+      "loss": 2.3733,
+      "step": 19725
+    },
+    {
+      "epoch": 0.395,
+      "grad_norm": 0.5615201455315739,
+      "learning_rate": 6.722444444444445e-06,
+      "loss": 2.3689,
+      "step": 19750
+    },
+    {
+      "epoch": 0.3955,
+      "grad_norm": 0.5585669738111114,
+      "learning_rate": 6.7168888888888894e-06,
+      "loss": 2.3873,
+      "step": 19775
+    },
+    {
+      "epoch": 0.396,
+      "grad_norm": 0.5412795214285975,
+      "learning_rate": 6.711333333333334e-06,
+      "loss": 2.3786,
+      "step": 19800
+    },
+    {
+      "epoch": 0.396,
+      "eval_loss": 2.3894851207733154,
+      "eval_runtime": 31.4877,
+      "eval_samples_per_second": 3.239,
+      "eval_steps_per_second": 1.62,
+      "step": 19800
+    },
+    {
+      "epoch": 0.3965,
+      "grad_norm": 0.5778930227780084,
+      "learning_rate": 6.705777777777779e-06,
+      "loss": 2.3766,
+      "step": 19825
+    },
+    {
+      "epoch": 0.397,
+      "grad_norm": 0.5682987690385847,
+      "learning_rate": 6.700222222222223e-06,
+      "loss": 2.3783,
+      "step": 19850
+    },
+    {
+      "epoch": 0.3975,
+      "grad_norm": 0.5763865594632764,
+      "learning_rate": 6.694666666666667e-06,
+      "loss": 2.3738,
+      "step": 19875
+    },
+    {
+      "epoch": 0.398,
+      "grad_norm": 0.5514756259491804,
+      "learning_rate": 6.6891111111111115e-06,
+      "loss": 2.3764,
+      "step": 19900
+    },
+    {
+      "epoch": 0.398,
+      "eval_loss": 2.388927698135376,
+      "eval_runtime": 31.7775,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 19900
+    },
+    {
+      "epoch": 0.3985,
+      "grad_norm": 0.5577240438533453,
+      "learning_rate": 6.683555555555557e-06,
+      "loss": 2.374,
+      "step": 19925
+    },
+    {
+      "epoch": 0.399,
+      "grad_norm": 0.553314104963858,
+      "learning_rate": 6.678e-06,
+      "loss": 2.3726,
+      "step": 19950
+    },
+    {
+      "epoch": 0.3995,
+      "grad_norm": 0.5615070159418603,
+      "learning_rate": 6.672444444444445e-06,
+      "loss": 2.3683,
+      "step": 19975
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.5595654854755111,
+      "learning_rate": 6.666888888888889e-06,
+      "loss": 2.3632,
+      "step": 20000
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 2.389249801635742,
+      "eval_runtime": 31.7934,
+      "eval_samples_per_second": 3.208,
+      "eval_steps_per_second": 1.604,
+      "step": 20000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 6.366404596654408e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null