irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 9, 2025

Commit

89e5626

verified ·

1 Parent(s): 73e384d

Training checkpoint at step 12000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 10900,
-  "best_metric": 2.4055566787719727,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-9000",
-  "epoch": 0.22,
   "eval_steps": 100,
-  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3968,6 +3968,366 @@
       "eval_samples_per_second": 3.217,
       "eval_steps_per_second": 1.609,
       "step": 11000
     }
   ],
   "logging_steps": 25,
@@ -3987,7 +4347,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.5015225281599242e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 12000,
+  "best_metric": 2.4031572341918945,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-12000",
+  "epoch": 0.24,
   "eval_steps": 100,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.217,
       "eval_steps_per_second": 1.609,
       "step": 11000
+    },
+    {
+      "epoch": 0.2205,
+      "grad_norm": 0.619520274382602,
+      "learning_rate": 8.661333333333335e-06,
+      "loss": 2.3868,
+      "step": 11025
+    },
+    {
+      "epoch": 0.221,
+      "grad_norm": 0.5973378822756289,
+      "learning_rate": 8.655777777777778e-06,
+      "loss": 2.398,
+      "step": 11050
+    },
+    {
+      "epoch": 0.2215,
+      "grad_norm": 0.6143187669490118,
+      "learning_rate": 8.650222222222223e-06,
+      "loss": 2.387,
+      "step": 11075
+    },
+    {
+      "epoch": 0.222,
+      "grad_norm": 0.5804040103557917,
+      "learning_rate": 8.644666666666669e-06,
+      "loss": 2.3951,
+      "step": 11100
+    },
+    {
+      "epoch": 0.222,
+      "eval_loss": 2.4050545692443848,
+      "eval_runtime": 31.7713,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 11100
+    },
+    {
+      "epoch": 0.2225,
+      "grad_norm": 0.5833158956225722,
+      "learning_rate": 8.639111111111112e-06,
+      "loss": 2.3854,
+      "step": 11125
+    },
+    {
+      "epoch": 0.223,
+      "grad_norm": 0.5741811771851818,
+      "learning_rate": 8.633555555555556e-06,
+      "loss": 2.3866,
+      "step": 11150
+    },
+    {
+      "epoch": 0.2235,
+      "grad_norm": 0.5856955103294486,
+      "learning_rate": 8.628000000000001e-06,
+      "loss": 2.4058,
+      "step": 11175
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 0.5685596699989746,
+      "learning_rate": 8.622444444444446e-06,
+      "loss": 2.3953,
+      "step": 11200
+    },
+    {
+      "epoch": 0.224,
+      "eval_loss": 2.4051928520202637,
+      "eval_runtime": 35.481,
+      "eval_samples_per_second": 2.875,
+      "eval_steps_per_second": 1.437,
+      "step": 11200
+    },
+    {
+      "epoch": 0.2245,
+      "grad_norm": 0.5854297741723825,
+      "learning_rate": 8.61688888888889e-06,
+      "loss": 2.3977,
+      "step": 11225
+    },
+    {
+      "epoch": 0.225,
+      "grad_norm": 0.582929503102295,
+      "learning_rate": 8.611333333333333e-06,
+      "loss": 2.3948,
+      "step": 11250
+    },
+    {
+      "epoch": 0.2255,
+      "grad_norm": 0.5839207937169353,
+      "learning_rate": 8.605777777777779e-06,
+      "loss": 2.4104,
+      "step": 11275
+    },
+    {
+      "epoch": 0.226,
+      "grad_norm": 0.5568849917729087,
+      "learning_rate": 8.600222222222224e-06,
+      "loss": 2.4011,
+      "step": 11300
+    },
+    {
+      "epoch": 0.226,
+      "eval_loss": 2.404717445373535,
+      "eval_runtime": 31.9835,
+      "eval_samples_per_second": 3.189,
+      "eval_steps_per_second": 1.595,
+      "step": 11300
+    },
+    {
+      "epoch": 0.2265,
+      "grad_norm": 0.5549969270675909,
+      "learning_rate": 8.594666666666668e-06,
+      "loss": 2.3965,
+      "step": 11325
+    },
+    {
+      "epoch": 0.227,
+      "grad_norm": 0.5606539732290856,
+      "learning_rate": 8.589111111111111e-06,
+      "loss": 2.3921,
+      "step": 11350
+    },
+    {
+      "epoch": 0.2275,
+      "grad_norm": 0.5626929771754517,
+      "learning_rate": 8.583555555555556e-06,
+      "loss": 2.3912,
+      "step": 11375
+    },
+    {
+      "epoch": 0.228,
+      "grad_norm": 0.5731631708828652,
+      "learning_rate": 8.578000000000002e-06,
+      "loss": 2.3926,
+      "step": 11400
+    },
+    {
+      "epoch": 0.228,
+      "eval_loss": 2.4047322273254395,
+      "eval_runtime": 31.8245,
+      "eval_samples_per_second": 3.205,
+      "eval_steps_per_second": 1.603,
+      "step": 11400
+    },
+    {
+      "epoch": 0.2285,
+      "grad_norm": 0.5661654100374769,
+      "learning_rate": 8.572444444444445e-06,
+      "loss": 2.3951,
+      "step": 11425
+    },
+    {
+      "epoch": 0.229,
+      "grad_norm": 0.5602181256620924,
+      "learning_rate": 8.56688888888889e-06,
+      "loss": 2.3812,
+      "step": 11450
+    },
+    {
+      "epoch": 0.2295,
+      "grad_norm": 0.5950733473289397,
+      "learning_rate": 8.561333333333334e-06,
+      "loss": 2.3963,
+      "step": 11475
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 0.5733938863696743,
+      "learning_rate": 8.55577777777778e-06,
+      "loss": 2.3932,
+      "step": 11500
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 2.403830051422119,
+      "eval_runtime": 31.7862,
+      "eval_samples_per_second": 3.209,
+      "eval_steps_per_second": 1.604,
+      "step": 11500
+    },
+    {
+      "epoch": 0.2305,
+      "grad_norm": 0.5702512759518216,
+      "learning_rate": 8.550222222222223e-06,
+      "loss": 2.3824,
+      "step": 11525
+    },
+    {
+      "epoch": 0.231,
+      "grad_norm": 0.5749933738625221,
+      "learning_rate": 8.544666666666668e-06,
+      "loss": 2.3674,
+      "step": 11550
+    },
+    {
+      "epoch": 0.2315,
+      "grad_norm": 0.563814842108926,
+      "learning_rate": 8.539111111111112e-06,
+      "loss": 2.3866,
+      "step": 11575
+    },
+    {
+      "epoch": 0.232,
+      "grad_norm": 0.601764608458657,
+      "learning_rate": 8.533555555555557e-06,
+      "loss": 2.3949,
+      "step": 11600
+    },
+    {
+      "epoch": 0.232,
+      "eval_loss": 2.4035561084747314,
+      "eval_runtime": 31.7077,
+      "eval_samples_per_second": 3.217,
+      "eval_steps_per_second": 1.608,
+      "step": 11600
+    },
+    {
+      "epoch": 0.2325,
+      "grad_norm": 0.5674229084100237,
+      "learning_rate": 8.528e-06,
+      "loss": 2.3782,
+      "step": 11625
+    },
+    {
+      "epoch": 0.233,
+      "grad_norm": 0.5660025767055805,
+      "learning_rate": 8.522444444444446e-06,
+      "loss": 2.3811,
+      "step": 11650
+    },
+    {
+      "epoch": 0.2335,
+      "grad_norm": 0.5776196117388842,
+      "learning_rate": 8.51688888888889e-06,
+      "loss": 2.3964,
+      "step": 11675
+    },
+    {
+      "epoch": 0.234,
+      "grad_norm": 0.5815076886720436,
+      "learning_rate": 8.511333333333334e-06,
+      "loss": 2.3907,
+      "step": 11700
+    },
+    {
+      "epoch": 0.234,
+      "eval_loss": 2.4035725593566895,
+      "eval_runtime": 31.7541,
+      "eval_samples_per_second": 3.212,
+      "eval_steps_per_second": 1.606,
+      "step": 11700
+    },
+    {
+      "epoch": 0.2345,
+      "grad_norm": 0.5810635532925048,
+      "learning_rate": 8.505777777777778e-06,
+      "loss": 2.3921,
+      "step": 11725
+    },
+    {
+      "epoch": 0.235,
+      "grad_norm": 0.5635380257098753,
+      "learning_rate": 8.500222222222223e-06,
+      "loss": 2.4062,
+      "step": 11750
+    },
+    {
+      "epoch": 0.2355,
+      "grad_norm": 0.5985004911332629,
+      "learning_rate": 8.494666666666668e-06,
+      "loss": 2.3853,
+      "step": 11775
+    },
+    {
+      "epoch": 0.236,
+      "grad_norm": 0.580078413647693,
+      "learning_rate": 8.489111111111112e-06,
+      "loss": 2.3826,
+      "step": 11800
+    },
+    {
+      "epoch": 0.236,
+      "eval_loss": 2.403505325317383,
+      "eval_runtime": 31.7265,
+      "eval_samples_per_second": 3.215,
+      "eval_steps_per_second": 1.607,
+      "step": 11800
+    },
+    {
+      "epoch": 0.2365,
+      "grad_norm": 0.5560334145179444,
+      "learning_rate": 8.483555555555556e-06,
+      "loss": 2.3829,
+      "step": 11825
+    },
+    {
+      "epoch": 0.237,
+      "grad_norm": 0.5870934042209253,
+      "learning_rate": 8.478e-06,
+      "loss": 2.374,
+      "step": 11850
+    },
+    {
+      "epoch": 0.2375,
+      "grad_norm": 0.5745342448568999,
+      "learning_rate": 8.472444444444446e-06,
+      "loss": 2.3797,
+      "step": 11875
+    },
+    {
+      "epoch": 0.238,
+      "grad_norm": 0.5676573173578097,
+      "learning_rate": 8.46688888888889e-06,
+      "loss": 2.3867,
+      "step": 11900
+    },
+    {
+      "epoch": 0.238,
+      "eval_loss": 2.403400421142578,
+      "eval_runtime": 31.8105,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 11900
+    },
+    {
+      "epoch": 0.2385,
+      "grad_norm": 0.5701256243606029,
+      "learning_rate": 8.461333333333333e-06,
+      "loss": 2.3832,
+      "step": 11925
+    },
+    {
+      "epoch": 0.239,
+      "grad_norm": 0.5839965205220576,
+      "learning_rate": 8.455777777777778e-06,
+      "loss": 2.3939,
+      "step": 11950
+    },
+    {
+      "epoch": 0.2395,
+      "grad_norm": 0.581600775004578,
+      "learning_rate": 8.450222222222224e-06,
+      "loss": 2.382,
+      "step": 11975
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.5945113931788275,
+      "learning_rate": 8.444666666666667e-06,
+      "loss": 2.3947,
+      "step": 12000
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 2.4031572341918945,
+      "eval_runtime": 31.7154,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 1.608,
+      "step": 12000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 3.819842757992645e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null