irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 8, 2025

Commit

f24d4d2

verified ·

1 Parent(s): 7d9a4bb

Training checkpoint at step 10000

Browse files

Files changed (1) hide show

trainer_state.json +365 -5

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 9000,
-  "best_metric": 2.410008430480957,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-9000",
-  "epoch": 0.18,
   "eval_steps": 100,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3248,6 +3248,366 @@
       "eval_samples_per_second": 3.168,
       "eval_steps_per_second": 1.584,
       "step": 9000
     }
   ],
   "logging_steps": 25,
@@ -3267,7 +3627,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.8648820684944835e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 9800,
+  "best_metric": 2.4076178073883057,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-9000",
+  "epoch": 0.2,
   "eval_steps": 100,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.168,
       "eval_steps_per_second": 1.584,
       "step": 9000
+    },
+    {
+      "epoch": 0.1805,
+      "grad_norm": 0.5908878679870805,
+      "learning_rate": 9.105777777777779e-06,
+      "loss": 2.3938,
+      "step": 9025
+    },
+    {
+      "epoch": 0.181,
+      "grad_norm": 0.5496267273049,
+      "learning_rate": 9.100222222222223e-06,
+      "loss": 2.3961,
+      "step": 9050
+    },
+    {
+      "epoch": 0.1815,
+      "grad_norm": 0.5979695738071065,
+      "learning_rate": 9.094666666666668e-06,
+      "loss": 2.3858,
+      "step": 9075
+    },
+    {
+      "epoch": 0.182,
+      "grad_norm": 0.5938166893318079,
+      "learning_rate": 9.089111111111111e-06,
+      "loss": 2.3862,
+      "step": 9100
+    },
+    {
+      "epoch": 0.182,
+      "eval_loss": 2.410053253173828,
+      "eval_runtime": 32.2577,
+      "eval_samples_per_second": 3.162,
+      "eval_steps_per_second": 1.581,
+      "step": 9100
+    },
+    {
+      "epoch": 0.1825,
+      "grad_norm": 0.5958942390294701,
+      "learning_rate": 9.083555555555557e-06,
+      "loss": 2.3928,
+      "step": 9125
+    },
+    {
+      "epoch": 0.183,
+      "grad_norm": 0.5859164810125311,
+      "learning_rate": 9.078000000000002e-06,
+      "loss": 2.4022,
+      "step": 9150
+    },
+    {
+      "epoch": 0.1835,
+      "grad_norm": 0.5798241289951321,
+      "learning_rate": 9.072444444444445e-06,
+      "loss": 2.3928,
+      "step": 9175
+    },
+    {
+      "epoch": 0.184,
+      "grad_norm": 0.5882407091400851,
+      "learning_rate": 9.066888888888889e-06,
+      "loss": 2.3973,
+      "step": 9200
+    },
+    {
+      "epoch": 0.184,
+      "eval_loss": 2.409634590148926,
+      "eval_runtime": 32.249,
+      "eval_samples_per_second": 3.163,
+      "eval_steps_per_second": 1.581,
+      "step": 9200
+    },
+    {
+      "epoch": 0.1845,
+      "grad_norm": 0.5903772748051019,
+      "learning_rate": 9.061333333333334e-06,
+      "loss": 2.3831,
+      "step": 9225
+    },
+    {
+      "epoch": 0.185,
+      "grad_norm": 0.6211646089814673,
+      "learning_rate": 9.05577777777778e-06,
+      "loss": 2.3983,
+      "step": 9250
+    },
+    {
+      "epoch": 0.1855,
+      "grad_norm": 0.6172378815389531,
+      "learning_rate": 9.050222222222223e-06,
+      "loss": 2.3961,
+      "step": 9275
+    },
+    {
+      "epoch": 0.186,
+      "grad_norm": 0.6117693503941964,
+      "learning_rate": 9.044666666666667e-06,
+      "loss": 2.3991,
+      "step": 9300
+    },
+    {
+      "epoch": 0.186,
+      "eval_loss": 2.4100780487060547,
+      "eval_runtime": 31.6698,
+      "eval_samples_per_second": 3.221,
+      "eval_steps_per_second": 1.61,
+      "step": 9300
+    },
+    {
+      "epoch": 0.1865,
+      "grad_norm": 0.5955035334939845,
+      "learning_rate": 9.039111111111112e-06,
+      "loss": 2.4013,
+      "step": 9325
+    },
+    {
+      "epoch": 0.187,
+      "grad_norm": 0.6304889803867978,
+      "learning_rate": 9.033555555555557e-06,
+      "loss": 2.4045,
+      "step": 9350
+    },
+    {
+      "epoch": 0.1875,
+      "grad_norm": 0.5650857479280212,
+      "learning_rate": 9.028e-06,
+      "loss": 2.3993,
+      "step": 9375
+    },
+    {
+      "epoch": 0.188,
+      "grad_norm": 0.6102368092141387,
+      "learning_rate": 9.022444444444444e-06,
+      "loss": 2.3969,
+      "step": 9400
+    },
+    {
+      "epoch": 0.188,
+      "eval_loss": 2.4091312885284424,
+      "eval_runtime": 31.7427,
+      "eval_samples_per_second": 3.213,
+      "eval_steps_per_second": 1.607,
+      "step": 9400
+    },
+    {
+      "epoch": 0.1885,
+      "grad_norm": 0.5647006274355659,
+      "learning_rate": 9.01688888888889e-06,
+      "loss": 2.3962,
+      "step": 9425
+    },
+    {
+      "epoch": 0.189,
+      "grad_norm": 0.639478683787589,
+      "learning_rate": 9.011333333333335e-06,
+      "loss": 2.3957,
+      "step": 9450
+    },
+    {
+      "epoch": 0.1895,
+      "grad_norm": 0.5788568545073746,
+      "learning_rate": 9.005777777777778e-06,
+      "loss": 2.3914,
+      "step": 9475
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 0.7290164754099147,
+      "learning_rate": 9.000222222222222e-06,
+      "loss": 2.386,
+      "step": 9500
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.4086694717407227,
+      "eval_runtime": 31.8061,
+      "eval_samples_per_second": 3.207,
+      "eval_steps_per_second": 1.603,
+      "step": 9500
+    },
+    {
+      "epoch": 0.1905,
+      "grad_norm": 0.5817637514180484,
+      "learning_rate": 8.994666666666667e-06,
+      "loss": 2.4006,
+      "step": 9525
+    },
+    {
+      "epoch": 0.191,
+      "grad_norm": 0.5697879107784812,
+      "learning_rate": 8.989111111111112e-06,
+      "loss": 2.3899,
+      "step": 9550
+    },
+    {
+      "epoch": 0.1915,
+      "grad_norm": 0.584610269954786,
+      "learning_rate": 8.983555555555556e-06,
+      "loss": 2.3944,
+      "step": 9575
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.608795413325502,
+      "learning_rate": 8.978000000000001e-06,
+      "loss": 2.398,
+      "step": 9600
+    },
+    {
+      "epoch": 0.192,
+      "eval_loss": 2.408263683319092,
+      "eval_runtime": 31.6859,
+      "eval_samples_per_second": 3.219,
+      "eval_steps_per_second": 1.61,
+      "step": 9600
+    },
+    {
+      "epoch": 0.1925,
+      "grad_norm": 0.5915130204472873,
+      "learning_rate": 8.972444444444445e-06,
+      "loss": 2.407,
+      "step": 9625
+    },
+    {
+      "epoch": 0.193,
+      "grad_norm": 0.59521034646126,
+      "learning_rate": 8.96688888888889e-06,
+      "loss": 2.3924,
+      "step": 9650
+    },
+    {
+      "epoch": 0.1935,
+      "grad_norm": 0.6050238690396914,
+      "learning_rate": 8.961333333333333e-06,
+      "loss": 2.3869,
+      "step": 9675
+    },
+    {
+      "epoch": 0.194,
+      "grad_norm": 0.5691067223521449,
+      "learning_rate": 8.955777777777779e-06,
+      "loss": 2.3874,
+      "step": 9700
+    },
+    {
+      "epoch": 0.194,
+      "eval_loss": 2.408264398574829,
+      "eval_runtime": 31.8579,
+      "eval_samples_per_second": 3.202,
+      "eval_steps_per_second": 1.601,
+      "step": 9700
+    },
+    {
+      "epoch": 0.1945,
+      "grad_norm": 0.5753054034666798,
+      "learning_rate": 8.950222222222224e-06,
+      "loss": 2.4027,
+      "step": 9725
+    },
+    {
+      "epoch": 0.195,
+      "grad_norm": 0.5864767839913545,
+      "learning_rate": 8.944666666666668e-06,
+      "loss": 2.3924,
+      "step": 9750
+    },
+    {
+      "epoch": 0.1955,
+      "grad_norm": 0.6642807256080032,
+      "learning_rate": 8.939111111111111e-06,
+      "loss": 2.3709,
+      "step": 9775
+    },
+    {
+      "epoch": 0.196,
+      "grad_norm": 0.6084139101409156,
+      "learning_rate": 8.933555555555556e-06,
+      "loss": 2.3958,
+      "step": 9800
+    },
+    {
+      "epoch": 0.196,
+      "eval_loss": 2.4076178073883057,
+      "eval_runtime": 31.7733,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 9800
+    },
+    {
+      "epoch": 0.1965,
+      "grad_norm": 0.592206064244208,
+      "learning_rate": 8.928000000000002e-06,
+      "loss": 2.3922,
+      "step": 9825
+    },
+    {
+      "epoch": 0.197,
+      "grad_norm": 0.5685236067589632,
+      "learning_rate": 8.922444444444445e-06,
+      "loss": 2.3908,
+      "step": 9850
+    },
+    {
+      "epoch": 0.1975,
+      "grad_norm": 0.6034821273699428,
+      "learning_rate": 8.916888888888889e-06,
+      "loss": 2.3903,
+      "step": 9875
+    },
+    {
+      "epoch": 0.198,
+      "grad_norm": 0.5910198540350765,
+      "learning_rate": 8.911333333333334e-06,
+      "loss": 2.3767,
+      "step": 9900
+    },
+    {
+      "epoch": 0.198,
+      "eval_loss": 2.407928705215454,
+      "eval_runtime": 31.7033,
+      "eval_samples_per_second": 3.217,
+      "eval_steps_per_second": 1.609,
+      "step": 9900
+    },
+    {
+      "epoch": 0.1985,
+      "grad_norm": 0.5849079897115376,
+      "learning_rate": 8.90577777777778e-06,
+      "loss": 2.3956,
+      "step": 9925
+    },
+    {
+      "epoch": 0.199,
+      "grad_norm": 0.5683901924605945,
+      "learning_rate": 8.900222222222223e-06,
+      "loss": 2.3884,
+      "step": 9950
+    },
+    {
+      "epoch": 0.1995,
+      "grad_norm": 0.6037241225699064,
+      "learning_rate": 8.894666666666666e-06,
+      "loss": 2.3934,
+      "step": 9975
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.5807810374364664,
+      "learning_rate": 8.889111111111112e-06,
+      "loss": 2.3999,
+      "step": 10000
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.40779447555542,
+      "eval_runtime": 31.7288,
+      "eval_samples_per_second": 3.215,
+      "eval_steps_per_second": 1.607,
+      "step": 10000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 3.183202298327204e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null