irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 14, 2025

Commit

c766656

verified ·

1 Parent(s): 4816e4d

Training checkpoint at step 22000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 20900,
-  "best_metric": 2.388044595718384,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-19000",
-  "epoch": 0.42,
   "eval_steps": 100,
-  "global_step": 21000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7568,6 +7568,366 @@
       "eval_samples_per_second": 3.209,
       "eval_steps_per_second": 1.604,
       "step": 21000
     }
   ],
   "logging_steps": 25,
@@ -7587,7 +7947,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.684724826487128e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 22000,
+  "best_metric": 2.3865110874176025,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-22000",
+  "epoch": 0.44,
   "eval_steps": 100,
+  "global_step": 22000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.209,
       "eval_steps_per_second": 1.604,
       "step": 21000
+    },
+    {
+      "epoch": 0.4205,
+      "grad_norm": 0.5447308357523696,
+      "learning_rate": 6.439111111111111e-06,
+      "loss": 2.3803,
+      "step": 21025
+    },
+    {
+      "epoch": 0.421,
+      "grad_norm": 0.5426314550064573,
+      "learning_rate": 6.4335555555555566e-06,
+      "loss": 2.3798,
+      "step": 21050
+    },
+    {
+      "epoch": 0.4215,
+      "grad_norm": 0.5623213994558643,
+      "learning_rate": 6.428000000000001e-06,
+      "loss": 2.3855,
+      "step": 21075
+    },
+    {
+      "epoch": 0.422,
+      "grad_norm": 0.551782200199429,
+      "learning_rate": 6.4224444444444445e-06,
+      "loss": 2.3744,
+      "step": 21100
+    },
+    {
+      "epoch": 0.422,
+      "eval_loss": 2.3879234790802,
+      "eval_runtime": 31.7247,
+      "eval_samples_per_second": 3.215,
+      "eval_steps_per_second": 1.608,
+      "step": 21100
+    },
+    {
+      "epoch": 0.4225,
+      "grad_norm": 0.527718965025146,
+      "learning_rate": 6.416888888888889e-06,
+      "loss": 2.3629,
+      "step": 21125
+    },
+    {
+      "epoch": 0.423,
+      "grad_norm": 0.5608708238117702,
+      "learning_rate": 6.411333333333334e-06,
+      "loss": 2.3775,
+      "step": 21150
+    },
+    {
+      "epoch": 0.4235,
+      "grad_norm": 0.5448339479028284,
+      "learning_rate": 6.405777777777779e-06,
+      "loss": 2.379,
+      "step": 21175
+    },
+    {
+      "epoch": 0.424,
+      "grad_norm": 0.5418336159854089,
+      "learning_rate": 6.400222222222223e-06,
+      "loss": 2.3771,
+      "step": 21200
+    },
+    {
+      "epoch": 0.424,
+      "eval_loss": 2.3878672122955322,
+      "eval_runtime": 31.8891,
+      "eval_samples_per_second": 3.199,
+      "eval_steps_per_second": 1.599,
+      "step": 21200
+    },
+    {
+      "epoch": 0.4245,
+      "grad_norm": 0.5765916975285049,
+      "learning_rate": 6.3946666666666665e-06,
+      "loss": 2.3838,
+      "step": 21225
+    },
+    {
+      "epoch": 0.425,
+      "grad_norm": 0.5482787584221817,
+      "learning_rate": 6.389111111111112e-06,
+      "loss": 2.3751,
+      "step": 21250
+    },
+    {
+      "epoch": 0.4255,
+      "grad_norm": 0.5592623692636863,
+      "learning_rate": 6.383555555555556e-06,
+      "loss": 2.3714,
+      "step": 21275
+    },
+    {
+      "epoch": 0.426,
+      "grad_norm": 0.5502456266750644,
+      "learning_rate": 6.378000000000001e-06,
+      "loss": 2.3687,
+      "step": 21300
+    },
+    {
+      "epoch": 0.426,
+      "eval_loss": 2.387702226638794,
+      "eval_runtime": 31.8474,
+      "eval_samples_per_second": 3.203,
+      "eval_steps_per_second": 1.601,
+      "step": 21300
+    },
+    {
+      "epoch": 0.4265,
+      "grad_norm": 0.5508844144432443,
+      "learning_rate": 6.372444444444444e-06,
+      "loss": 2.3705,
+      "step": 21325
+    },
+    {
+      "epoch": 0.427,
+      "grad_norm": 0.5551955771008479,
+      "learning_rate": 6.366888888888889e-06,
+      "loss": 2.3616,
+      "step": 21350
+    },
+    {
+      "epoch": 0.4275,
+      "grad_norm": 0.5482174863813819,
+      "learning_rate": 6.361333333333334e-06,
+      "loss": 2.3679,
+      "step": 21375
+    },
+    {
+      "epoch": 0.428,
+      "grad_norm": 0.540793837360148,
+      "learning_rate": 6.355777777777778e-06,
+      "loss": 2.3724,
+      "step": 21400
+    },
+    {
+      "epoch": 0.428,
+      "eval_loss": 2.3876450061798096,
+      "eval_runtime": 32.2051,
+      "eval_samples_per_second": 3.167,
+      "eval_steps_per_second": 1.584,
+      "step": 21400
+    },
+    {
+      "epoch": 0.4285,
+      "grad_norm": 0.5478812262209652,
+      "learning_rate": 6.3502222222222235e-06,
+      "loss": 2.3639,
+      "step": 21425
+    },
+    {
+      "epoch": 0.429,
+      "grad_norm": 0.5598419449976438,
+      "learning_rate": 6.344666666666667e-06,
+      "loss": 2.3686,
+      "step": 21450
+    },
+    {
+      "epoch": 0.4295,
+      "grad_norm": 0.5650989625187698,
+      "learning_rate": 6.339111111111111e-06,
+      "loss": 2.3755,
+      "step": 21475
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 0.5521104434834965,
+      "learning_rate": 6.333555555555556e-06,
+      "loss": 2.3819,
+      "step": 21500
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 2.386732578277588,
+      "eval_runtime": 32.423,
+      "eval_samples_per_second": 3.146,
+      "eval_steps_per_second": 1.573,
+      "step": 21500
+    },
+    {
+      "epoch": 0.4305,
+      "grad_norm": 0.5718504697288973,
+      "learning_rate": 6.328000000000001e-06,
+      "loss": 2.3768,
+      "step": 21525
+    },
+    {
+      "epoch": 0.431,
+      "grad_norm": 0.5647383482527034,
+      "learning_rate": 6.3224444444444455e-06,
+      "loss": 2.3634,
+      "step": 21550
+    },
+    {
+      "epoch": 0.4315,
+      "grad_norm": 0.5740444089490578,
+      "learning_rate": 6.316888888888889e-06,
+      "loss": 2.3683,
+      "step": 21575
+    },
+    {
+      "epoch": 0.432,
+      "grad_norm": 0.5468815860778439,
+      "learning_rate": 6.3113333333333334e-06,
+      "loss": 2.3775,
+      "step": 21600
+    },
+    {
+      "epoch": 0.432,
+      "eval_loss": 2.386624813079834,
+      "eval_runtime": 32.2361,
+      "eval_samples_per_second": 3.164,
+      "eval_steps_per_second": 1.582,
+      "step": 21600
+    },
+    {
+      "epoch": 0.4325,
+      "grad_norm": 0.5491782166979611,
+      "learning_rate": 6.305777777777779e-06,
+      "loss": 2.3678,
+      "step": 21625
+    },
+    {
+      "epoch": 0.433,
+      "grad_norm": 0.5493956319744467,
+      "learning_rate": 6.300222222222223e-06,
+      "loss": 2.3632,
+      "step": 21650
+    },
+    {
+      "epoch": 0.4335,
+      "grad_norm": 0.5517199994093782,
+      "learning_rate": 6.294666666666667e-06,
+      "loss": 2.3719,
+      "step": 21675
+    },
+    {
+      "epoch": 0.434,
+      "grad_norm": 0.5480082798934808,
+      "learning_rate": 6.289111111111111e-06,
+      "loss": 2.3705,
+      "step": 21700
+    },
+    {
+      "epoch": 0.434,
+      "eval_loss": 2.386605978012085,
+      "eval_runtime": 31.811,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 21700
+    },
+    {
+      "epoch": 0.4345,
+      "grad_norm": 0.5988374708555845,
+      "learning_rate": 6.283555555555556e-06,
+      "loss": 2.3736,
+      "step": 21725
+    },
+    {
+      "epoch": 0.435,
+      "grad_norm": 0.5394989364015422,
+      "learning_rate": 6.278000000000001e-06,
+      "loss": 2.38,
+      "step": 21750
+    },
+    {
+      "epoch": 0.4355,
+      "grad_norm": 0.5660475248416822,
+      "learning_rate": 6.272444444444445e-06,
+      "loss": 2.3712,
+      "step": 21775
+    },
+    {
+      "epoch": 0.436,
+      "grad_norm": 0.5824076374736812,
+      "learning_rate": 6.266888888888889e-06,
+      "loss": 2.3781,
+      "step": 21800
+    },
+    {
+      "epoch": 0.436,
+      "eval_loss": 2.3868014812469482,
+      "eval_runtime": 32.0011,
+      "eval_samples_per_second": 3.187,
+      "eval_steps_per_second": 1.594,
+      "step": 21800
+    },
+    {
+      "epoch": 0.4365,
+      "grad_norm": 0.5604649354431509,
+      "learning_rate": 6.261333333333334e-06,
+      "loss": 2.3673,
+      "step": 21825
+    },
+    {
+      "epoch": 0.437,
+      "grad_norm": 0.5581917280058185,
+      "learning_rate": 6.255777777777778e-06,
+      "loss": 2.3575,
+      "step": 21850
+    },
+    {
+      "epoch": 0.4375,
+      "grad_norm": 0.5682187519985219,
+      "learning_rate": 6.250222222222223e-06,
+      "loss": 2.3752,
+      "step": 21875
+    },
+    {
+      "epoch": 0.438,
+      "grad_norm": 0.5343819916754123,
+      "learning_rate": 6.244666666666666e-06,
+      "loss": 2.3688,
+      "step": 21900
+    },
+    {
+      "epoch": 0.438,
+      "eval_loss": 2.3865694999694824,
+      "eval_runtime": 31.8681,
+      "eval_samples_per_second": 3.201,
+      "eval_steps_per_second": 1.6,
+      "step": 21900
+    },
+    {
+      "epoch": 0.4385,
+      "grad_norm": 0.6084740129821103,
+      "learning_rate": 6.2391111111111115e-06,
+      "loss": 2.3611,
+      "step": 21925
+    },
+    {
+      "epoch": 0.439,
+      "grad_norm": 0.5550908983577711,
+      "learning_rate": 6.233555555555556e-06,
+      "loss": 2.364,
+      "step": 21950
+    },
+    {
+      "epoch": 0.4395,
+      "grad_norm": 0.5605896822575689,
+      "learning_rate": 6.228e-06,
+      "loss": 2.3875,
+      "step": 21975
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.5679795530728957,
+      "learning_rate": 6.222444444444446e-06,
+      "loss": 2.3637,
+      "step": 22000
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 2.3865110874176025,
+      "eval_runtime": 31.8116,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 22000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 7.0030450563198484e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null