irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 13, 2025

Commit

787b8f8

verified ·

1 Parent(s): e61b665

Training checkpoint at step 19000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 18000,
-  "best_metric": 2.3920133113861084,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-18000",
-  "epoch": 0.36,
   "eval_steps": 100,
-  "global_step": 18000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6488,6 +6488,366 @@
       "eval_samples_per_second": 3.195,
       "eval_steps_per_second": 1.597,
       "step": 18000
     }
   ],
   "logging_steps": 25,
@@ -6507,7 +6867,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.729764136988967e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 19000,
+  "best_metric": 2.390749454498291,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-19000",
+  "epoch": 0.38,
   "eval_steps": 100,
+  "global_step": 19000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.195,
       "eval_steps_per_second": 1.597,
       "step": 18000
+    },
+    {
+      "epoch": 0.3605,
+      "grad_norm": 0.5779120077378331,
+      "learning_rate": 7.105777777777778e-06,
+      "loss": 2.3798,
+      "step": 18025
+    },
+    {
+      "epoch": 0.361,
+      "grad_norm": 0.575309417070187,
+      "learning_rate": 7.100222222222223e-06,
+      "loss": 2.3875,
+      "step": 18050
+    },
+    {
+      "epoch": 0.3615,
+      "grad_norm": 0.6000430306182747,
+      "learning_rate": 7.0946666666666675e-06,
+      "loss": 2.3727,
+      "step": 18075
+    },
+    {
+      "epoch": 0.362,
+      "grad_norm": 0.5701734522791184,
+      "learning_rate": 7.089111111111112e-06,
+      "loss": 2.3793,
+      "step": 18100
+    },
+    {
+      "epoch": 0.362,
+      "eval_loss": 2.392152786254883,
+      "eval_runtime": 31.8363,
+      "eval_samples_per_second": 3.204,
+      "eval_steps_per_second": 1.602,
+      "step": 18100
+    },
+    {
+      "epoch": 0.3625,
+      "grad_norm": 0.5731611332750656,
+      "learning_rate": 7.083555555555555e-06,
+      "loss": 2.3715,
+      "step": 18125
+    },
+    {
+      "epoch": 0.363,
+      "grad_norm": 0.6114229583074544,
+      "learning_rate": 7.078000000000001e-06,
+      "loss": 2.383,
+      "step": 18150
+    },
+    {
+      "epoch": 0.3635,
+      "grad_norm": 0.541007634609165,
+      "learning_rate": 7.072444444444445e-06,
+      "loss": 2.3686,
+      "step": 18175
+    },
+    {
+      "epoch": 0.364,
+      "grad_norm": 0.5725748950012406,
+      "learning_rate": 7.0668888888888895e-06,
+      "loss": 2.3873,
+      "step": 18200
+    },
+    {
+      "epoch": 0.364,
+      "eval_loss": 2.392261505126953,
+      "eval_runtime": 31.7706,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 1.605,
+      "step": 18200
+    },
+    {
+      "epoch": 0.3645,
+      "grad_norm": 0.5593670656564304,
+      "learning_rate": 7.061333333333333e-06,
+      "loss": 2.3804,
+      "step": 18225
+    },
+    {
+      "epoch": 0.365,
+      "grad_norm": 0.6009795583649221,
+      "learning_rate": 7.055777777777778e-06,
+      "loss": 2.3795,
+      "step": 18250
+    },
+    {
+      "epoch": 0.3655,
+      "grad_norm": 0.5664495345544722,
+      "learning_rate": 7.050222222222223e-06,
+      "loss": 2.3631,
+      "step": 18275
+    },
+    {
+      "epoch": 0.366,
+      "grad_norm": 0.6104006309418994,
+      "learning_rate": 7.044666666666667e-06,
+      "loss": 2.3748,
+      "step": 18300
+    },
+    {
+      "epoch": 0.366,
+      "eval_loss": 2.392148971557617,
+      "eval_runtime": 31.734,
+      "eval_samples_per_second": 3.214,
+      "eval_steps_per_second": 1.607,
+      "step": 18300
+    },
+    {
+      "epoch": 0.3665,
+      "grad_norm": 0.5506059883330837,
+      "learning_rate": 7.039111111111112e-06,
+      "loss": 2.3714,
+      "step": 18325
+    },
+    {
+      "epoch": 0.367,
+      "grad_norm": 0.5621509156408089,
+      "learning_rate": 7.033555555555556e-06,
+      "loss": 2.368,
+      "step": 18350
+    },
+    {
+      "epoch": 0.3675,
+      "grad_norm": 0.5587181787810226,
+      "learning_rate": 7.028e-06,
+      "loss": 2.3791,
+      "step": 18375
+    },
+    {
+      "epoch": 0.368,
+      "grad_norm": 0.5677798724220077,
+      "learning_rate": 7.022444444444445e-06,
+      "loss": 2.384,
+      "step": 18400
+    },
+    {
+      "epoch": 0.368,
+      "eval_loss": 2.391704559326172,
+      "eval_runtime": 31.7798,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 18400
+    },
+    {
+      "epoch": 0.3685,
+      "grad_norm": 0.5905061339542746,
+      "learning_rate": 7.01688888888889e-06,
+      "loss": 2.3881,
+      "step": 18425
+    },
+    {
+      "epoch": 0.369,
+      "grad_norm": 0.554978244766298,
+      "learning_rate": 7.011333333333334e-06,
+      "loss": 2.3683,
+      "step": 18450
+    },
+    {
+      "epoch": 0.3695,
+      "grad_norm": 0.5517801842410981,
+      "learning_rate": 7.005777777777778e-06,
+      "loss": 2.3835,
+      "step": 18475
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 0.5501181046318251,
+      "learning_rate": 7.000222222222222e-06,
+      "loss": 2.374,
+      "step": 18500
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 2.3915836811065674,
+      "eval_runtime": 31.7662,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 1.605,
+      "step": 18500
+    },
+    {
+      "epoch": 0.3705,
+      "grad_norm": 0.576826996404141,
+      "learning_rate": 6.9946666666666676e-06,
+      "loss": 2.3819,
+      "step": 18525
+    },
+    {
+      "epoch": 0.371,
+      "grad_norm": 0.5739797151959755,
+      "learning_rate": 6.989111111111112e-06,
+      "loss": 2.3794,
+      "step": 18550
+    },
+    {
+      "epoch": 0.3715,
+      "grad_norm": 0.5511012262440002,
+      "learning_rate": 6.9835555555555555e-06,
+      "loss": 2.3894,
+      "step": 18575
+    },
+    {
+      "epoch": 0.372,
+      "grad_norm": 0.5958849979817049,
+      "learning_rate": 6.978e-06,
+      "loss": 2.3674,
+      "step": 18600
+    },
+    {
+      "epoch": 0.372,
+      "eval_loss": 2.391352415084839,
+      "eval_runtime": 31.7756,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 18600
+    },
+    {
+      "epoch": 0.3725,
+      "grad_norm": 0.5595892595435197,
+      "learning_rate": 6.972444444444445e-06,
+      "loss": 2.3835,
+      "step": 18625
+    },
+    {
+      "epoch": 0.373,
+      "grad_norm": 0.5946746403488841,
+      "learning_rate": 6.96688888888889e-06,
+      "loss": 2.3716,
+      "step": 18650
+    },
+    {
+      "epoch": 0.3735,
+      "grad_norm": 0.5613740876716816,
+      "learning_rate": 6.961333333333334e-06,
+      "loss": 2.3843,
+      "step": 18675
+    },
+    {
+      "epoch": 0.374,
+      "grad_norm": 0.58419422677193,
+      "learning_rate": 6.9557777777777776e-06,
+      "loss": 2.3883,
+      "step": 18700
+    },
+    {
+      "epoch": 0.374,
+      "eval_loss": 2.391383409500122,
+      "eval_runtime": 31.7182,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 1.608,
+      "step": 18700
+    },
+    {
+      "epoch": 0.3745,
+      "grad_norm": 0.5508427755524951,
+      "learning_rate": 6.950222222222223e-06,
+      "loss": 2.3749,
+      "step": 18725
+    },
+    {
+      "epoch": 0.375,
+      "grad_norm": 0.5686856026931271,
+      "learning_rate": 6.944666666666667e-06,
+      "loss": 2.38,
+      "step": 18750
+    },
+    {
+      "epoch": 0.3755,
+      "grad_norm": 0.5531747783480245,
+      "learning_rate": 6.939111111111112e-06,
+      "loss": 2.3718,
+      "step": 18775
+    },
+    {
+      "epoch": 0.376,
+      "grad_norm": 0.5800045444885175,
+      "learning_rate": 6.933555555555556e-06,
+      "loss": 2.3703,
+      "step": 18800
+    },
+    {
+      "epoch": 0.376,
+      "eval_loss": 2.391113042831421,
+      "eval_runtime": 31.7446,
+      "eval_samples_per_second": 3.213,
+      "eval_steps_per_second": 1.607,
+      "step": 18800
+    },
+    {
+      "epoch": 0.3765,
+      "grad_norm": 0.5451395919825731,
+      "learning_rate": 6.928e-06,
+      "loss": 2.3746,
+      "step": 18825
+    },
+    {
+      "epoch": 0.377,
+      "grad_norm": 0.5619738492106079,
+      "learning_rate": 6.922444444444445e-06,
+      "loss": 2.3815,
+      "step": 18850
+    },
+    {
+      "epoch": 0.3775,
+      "grad_norm": 0.5811440137998495,
+      "learning_rate": 6.91688888888889e-06,
+      "loss": 2.3655,
+      "step": 18875
+    },
+    {
+      "epoch": 0.378,
+      "grad_norm": 0.5528301840539304,
+      "learning_rate": 6.9113333333333345e-06,
+      "loss": 2.3721,
+      "step": 18900
+    },
+    {
+      "epoch": 0.378,
+      "eval_loss": 2.3908257484436035,
+      "eval_runtime": 31.6268,
+      "eval_samples_per_second": 3.225,
+      "eval_steps_per_second": 1.613,
+      "step": 18900
+    },
+    {
+      "epoch": 0.3785,
+      "grad_norm": 0.5791069800351532,
+      "learning_rate": 6.905777777777778e-06,
+      "loss": 2.3798,
+      "step": 18925
+    },
+    {
+      "epoch": 0.379,
+      "grad_norm": 0.5692008495737035,
+      "learning_rate": 6.9002222222222224e-06,
+      "loss": 2.3723,
+      "step": 18950
+    },
+    {
+      "epoch": 0.3795,
+      "grad_norm": 0.5614405054433378,
+      "learning_rate": 6.894666666666668e-06,
+      "loss": 2.3739,
+      "step": 18975
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.5641420025760586,
+      "learning_rate": 6.889111111111112e-06,
+      "loss": 2.3728,
+      "step": 19000
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 2.390749454498291,
+      "eval_runtime": 31.8098,
+      "eval_samples_per_second": 3.207,
+      "eval_steps_per_second": 1.603,
+      "step": 19000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 6.048084366821687e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null