irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 16, 2025

Commit

3d951fb

verified ·

1 Parent(s): ad48a90

Training checkpoint at step 24000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 22700,
-  "best_metric": 2.3853445053100586,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-22000",
-  "epoch": 0.46,
   "eval_steps": 100,
-  "global_step": 23000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8288,6 +8288,366 @@
       "eval_samples_per_second": 3.211,
       "eval_steps_per_second": 1.605,
       "step": 23000
     }
   ],
   "logging_steps": 25,
@@ -8307,7 +8667,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.321365286152569e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 24000,
+  "best_metric": 2.3842599391937256,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-24000",
+  "epoch": 0.48,
   "eval_steps": 100,
+  "global_step": 24000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.211,
       "eval_steps_per_second": 1.605,
       "step": 23000
+    },
+    {
+      "epoch": 0.4605,
+      "grad_norm": 0.5644614073323889,
+      "learning_rate": 5.994666666666668e-06,
+      "loss": 2.3627,
+      "step": 23025
+    },
+    {
+      "epoch": 0.461,
+      "grad_norm": 0.561196100799294,
+      "learning_rate": 5.989111111111111e-06,
+      "loss": 2.373,
+      "step": 23050
+    },
+    {
+      "epoch": 0.4615,
+      "grad_norm": 0.5988172465498709,
+      "learning_rate": 5.983555555555556e-06,
+      "loss": 2.3625,
+      "step": 23075
+    },
+    {
+      "epoch": 0.462,
+      "grad_norm": 0.5561927981892911,
+      "learning_rate": 5.978e-06,
+      "loss": 2.366,
+      "step": 23100
+    },
+    {
+      "epoch": 0.462,
+      "eval_loss": 2.3851592540740967,
+      "eval_runtime": 31.9972,
+      "eval_samples_per_second": 3.188,
+      "eval_steps_per_second": 1.594,
+      "step": 23100
+    },
+    {
+      "epoch": 0.4625,
+      "grad_norm": 0.5473375939412587,
+      "learning_rate": 5.9724444444444454e-06,
+      "loss": 2.3577,
+      "step": 23125
+    },
+    {
+      "epoch": 0.463,
+      "grad_norm": 0.5422432723666715,
+      "learning_rate": 5.96688888888889e-06,
+      "loss": 2.3724,
+      "step": 23150
+    },
+    {
+      "epoch": 0.4635,
+      "grad_norm": 0.5459369802725026,
+      "learning_rate": 5.961333333333333e-06,
+      "loss": 2.3693,
+      "step": 23175
+    },
+    {
+      "epoch": 0.464,
+      "grad_norm": 0.5602391995824985,
+      "learning_rate": 5.955777777777778e-06,
+      "loss": 2.3662,
+      "step": 23200
+    },
+    {
+      "epoch": 0.464,
+      "eval_loss": 2.384812593460083,
+      "eval_runtime": 31.7736,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 23200
+    },
+    {
+      "epoch": 0.4645,
+      "grad_norm": 0.5382771454200044,
+      "learning_rate": 5.950222222222223e-06,
+      "loss": 2.373,
+      "step": 23225
+    },
+    {
+      "epoch": 0.465,
+      "grad_norm": 0.5616408548500356,
+      "learning_rate": 5.9446666666666675e-06,
+      "loss": 2.3744,
+      "step": 23250
+    },
+    {
+      "epoch": 0.4655,
+      "grad_norm": 0.5626270768454595,
+      "learning_rate": 5.939111111111111e-06,
+      "loss": 2.3745,
+      "step": 23275
+    },
+    {
+      "epoch": 0.466,
+      "grad_norm": 0.5771198592247021,
+      "learning_rate": 5.933555555555555e-06,
+      "loss": 2.3712,
+      "step": 23300
+    },
+    {
+      "epoch": 0.466,
+      "eval_loss": 2.385037660598755,
+      "eval_runtime": 31.6688,
+      "eval_samples_per_second": 3.221,
+      "eval_steps_per_second": 1.61,
+      "step": 23300
+    },
+    {
+      "epoch": 0.4665,
+      "grad_norm": 0.553677767303205,
+      "learning_rate": 5.928000000000001e-06,
+      "loss": 2.3688,
+      "step": 23325
+    },
+    {
+      "epoch": 0.467,
+      "grad_norm": 0.5761122434148291,
+      "learning_rate": 5.922444444444445e-06,
+      "loss": 2.3697,
+      "step": 23350
+    },
+    {
+      "epoch": 0.4675,
+      "grad_norm": 0.5776134096430138,
+      "learning_rate": 5.9168888888888895e-06,
+      "loss": 2.3696,
+      "step": 23375
+    },
+    {
+      "epoch": 0.468,
+      "grad_norm": 0.5410943763458229,
+      "learning_rate": 5.911333333333333e-06,
+      "loss": 2.3748,
+      "step": 23400
+    },
+    {
+      "epoch": 0.468,
+      "eval_loss": 2.3850579261779785,
+      "eval_runtime": 31.7506,
+      "eval_samples_per_second": 3.213,
+      "eval_steps_per_second": 1.606,
+      "step": 23400
+    },
+    {
+      "epoch": 0.4685,
+      "grad_norm": 0.5496846088073756,
+      "learning_rate": 5.905777777777778e-06,
+      "loss": 2.3631,
+      "step": 23425
+    },
+    {
+      "epoch": 0.469,
+      "grad_norm": 0.5489837887647091,
+      "learning_rate": 5.900222222222223e-06,
+      "loss": 2.3752,
+      "step": 23450
+    },
+    {
+      "epoch": 0.4695,
+      "grad_norm": 0.5595321821458019,
+      "learning_rate": 5.894666666666667e-06,
+      "loss": 2.3681,
+      "step": 23475
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 0.5441176871533538,
+      "learning_rate": 5.889111111111112e-06,
+      "loss": 2.3689,
+      "step": 23500
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 2.3847615718841553,
+      "eval_runtime": 31.7515,
+      "eval_samples_per_second": 3.212,
+      "eval_steps_per_second": 1.606,
+      "step": 23500
+    },
+    {
+      "epoch": 0.4705,
+      "grad_norm": 0.5591005943894303,
+      "learning_rate": 5.883555555555556e-06,
+      "loss": 2.3687,
+      "step": 23525
+    },
+    {
+      "epoch": 0.471,
+      "grad_norm": 0.5569068986313633,
+      "learning_rate": 5.878e-06,
+      "loss": 2.3579,
+      "step": 23550
+    },
+    {
+      "epoch": 0.4715,
+      "grad_norm": 0.5544550604142251,
+      "learning_rate": 5.872444444444445e-06,
+      "loss": 2.3654,
+      "step": 23575
+    },
+    {
+      "epoch": 0.472,
+      "grad_norm": 0.5682698532685105,
+      "learning_rate": 5.86688888888889e-06,
+      "loss": 2.3686,
+      "step": 23600
+    },
+    {
+      "epoch": 0.472,
+      "eval_loss": 2.384906053543091,
+      "eval_runtime": 31.7623,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 1.606,
+      "step": 23600
+    },
+    {
+      "epoch": 0.4725,
+      "grad_norm": 0.5754081011772445,
+      "learning_rate": 5.8613333333333335e-06,
+      "loss": 2.3629,
+      "step": 23625
+    },
+    {
+      "epoch": 0.473,
+      "grad_norm": 0.605492062724259,
+      "learning_rate": 5.855777777777778e-06,
+      "loss": 2.3702,
+      "step": 23650
+    },
+    {
+      "epoch": 0.4735,
+      "grad_norm": 0.5407520724247802,
+      "learning_rate": 5.850222222222222e-06,
+      "loss": 2.3652,
+      "step": 23675
+    },
+    {
+      "epoch": 0.474,
+      "grad_norm": 0.5531865604429913,
+      "learning_rate": 5.8446666666666676e-06,
+      "loss": 2.3724,
+      "step": 23700
+    },
+    {
+      "epoch": 0.474,
+      "eval_loss": 2.3844547271728516,
+      "eval_runtime": 31.833,
+      "eval_samples_per_second": 3.204,
+      "eval_steps_per_second": 1.602,
+      "step": 23700
+    },
+    {
+      "epoch": 0.4745,
+      "grad_norm": 0.573840223481603,
+      "learning_rate": 5.839111111111112e-06,
+      "loss": 2.365,
+      "step": 23725
+    },
+    {
+      "epoch": 0.475,
+      "grad_norm": 0.545580569851831,
+      "learning_rate": 5.8335555555555555e-06,
+      "loss": 2.3813,
+      "step": 23750
+    },
+    {
+      "epoch": 0.4755,
+      "grad_norm": 0.551471960312376,
+      "learning_rate": 5.828e-06,
+      "loss": 2.3617,
+      "step": 23775
+    },
+    {
+      "epoch": 0.476,
+      "grad_norm": 0.5953130526303944,
+      "learning_rate": 5.822444444444445e-06,
+      "loss": 2.3781,
+      "step": 23800
+    },
+    {
+      "epoch": 0.476,
+      "eval_loss": 2.38433575630188,
+      "eval_runtime": 31.8506,
+      "eval_samples_per_second": 3.202,
+      "eval_steps_per_second": 1.601,
+      "step": 23800
+    },
+    {
+      "epoch": 0.4765,
+      "grad_norm": 0.5604797565202618,
+      "learning_rate": 5.81688888888889e-06,
+      "loss": 2.3716,
+      "step": 23825
+    },
+    {
+      "epoch": 0.477,
+      "grad_norm": 0.554661200228578,
+      "learning_rate": 5.811333333333333e-06,
+      "loss": 2.3724,
+      "step": 23850
+    },
+    {
+      "epoch": 0.4775,
+      "grad_norm": 0.5534736868914567,
+      "learning_rate": 5.8057777777777775e-06,
+      "loss": 2.3754,
+      "step": 23875
+    },
+    {
+      "epoch": 0.478,
+      "grad_norm": 0.541434243018937,
+      "learning_rate": 5.800222222222223e-06,
+      "loss": 2.3612,
+      "step": 23900
+    },
+    {
+      "epoch": 0.478,
+      "eval_loss": 2.3843014240264893,
+      "eval_runtime": 31.7803,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 23900
+    },
+    {
+      "epoch": 0.4785,
+      "grad_norm": 0.5557683143124796,
+      "learning_rate": 5.794666666666667e-06,
+      "loss": 2.3639,
+      "step": 23925
+    },
+    {
+      "epoch": 0.479,
+      "grad_norm": 0.5799527873689908,
+      "learning_rate": 5.789111111111112e-06,
+      "loss": 2.373,
+      "step": 23950
+    },
+    {
+      "epoch": 0.4795,
+      "grad_norm": 0.590904770982699,
+      "learning_rate": 5.783555555555556e-06,
+      "loss": 2.3778,
+      "step": 23975
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.5561040991296016,
+      "learning_rate": 5.778e-06,
+      "loss": 2.3552,
+      "step": 24000
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 2.3842599391937256,
+      "eval_runtime": 31.7209,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 1.608,
+      "step": 24000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 7.63968551598529e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null