irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 7, 2025

Commit

ec50f69

verified ·

1 Parent(s): 5469f05

Training checkpoint at step 8000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 7000,
-  "best_metric": 2.415269374847412,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-7000",
-  "epoch": 0.14,
   "eval_steps": 100,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2528,6 +2528,366 @@
       "eval_samples_per_second": 3.212,
       "eval_steps_per_second": 1.606,
       "step": 7000
     }
   ],
   "logging_steps": 25,
@@ -2547,7 +2907,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.2282416088290427e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 8000,
+  "best_metric": 2.4125914573669434,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-8000",
+  "epoch": 0.16,
   "eval_steps": 100,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.212,
       "eval_steps_per_second": 1.606,
       "step": 7000
+    },
+    {
+      "epoch": 0.1405,
+      "grad_norm": 0.5975652527083385,
+      "learning_rate": 9.550222222222223e-06,
+      "loss": 2.398,
+      "step": 7025
+    },
+    {
+      "epoch": 0.141,
+      "grad_norm": 0.5642285559875744,
+      "learning_rate": 9.544666666666667e-06,
+      "loss": 2.3907,
+      "step": 7050
+    },
+    {
+      "epoch": 0.1415,
+      "grad_norm": 0.5977243463765347,
+      "learning_rate": 9.539111111111112e-06,
+      "loss": 2.4063,
+      "step": 7075
+    },
+    {
+      "epoch": 0.142,
+      "grad_norm": 0.5938091922766982,
+      "learning_rate": 9.533555555555556e-06,
+      "loss": 2.4064,
+      "step": 7100
+    },
+    {
+      "epoch": 0.142,
+      "eval_loss": 2.4153244495391846,
+      "eval_runtime": 31.6856,
+      "eval_samples_per_second": 3.219,
+      "eval_steps_per_second": 1.61,
+      "step": 7100
+    },
+    {
+      "epoch": 0.1425,
+      "grad_norm": 0.6203811817044198,
+      "learning_rate": 9.528000000000001e-06,
+      "loss": 2.3995,
+      "step": 7125
+    },
+    {
+      "epoch": 0.143,
+      "grad_norm": 0.5748373728564159,
+      "learning_rate": 9.522444444444444e-06,
+      "loss": 2.4052,
+      "step": 7150
+    },
+    {
+      "epoch": 0.1435,
+      "grad_norm": 0.6318360721408016,
+      "learning_rate": 9.51688888888889e-06,
+      "loss": 2.396,
+      "step": 7175
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 0.5777480191110791,
+      "learning_rate": 9.511333333333335e-06,
+      "loss": 2.3966,
+      "step": 7200
+    },
+    {
+      "epoch": 0.144,
+      "eval_loss": 2.414691209793091,
+      "eval_runtime": 31.5495,
+      "eval_samples_per_second": 3.233,
+      "eval_steps_per_second": 1.617,
+      "step": 7200
+    },
+    {
+      "epoch": 0.1445,
+      "grad_norm": 0.5896122820881663,
+      "learning_rate": 9.505777777777779e-06,
+      "loss": 2.4018,
+      "step": 7225
+    },
+    {
+      "epoch": 0.145,
+      "grad_norm": 0.6081675838061575,
+      "learning_rate": 9.500222222222222e-06,
+      "loss": 2.4036,
+      "step": 7250
+    },
+    {
+      "epoch": 0.1455,
+      "grad_norm": 0.6032973832585987,
+      "learning_rate": 9.494666666666667e-06,
+      "loss": 2.4025,
+      "step": 7275
+    },
+    {
+      "epoch": 0.146,
+      "grad_norm": 0.6283775464354142,
+      "learning_rate": 9.489111111111113e-06,
+      "loss": 2.4078,
+      "step": 7300
+    },
+    {
+      "epoch": 0.146,
+      "eval_loss": 2.4143505096435547,
+      "eval_runtime": 31.4643,
+      "eval_samples_per_second": 3.242,
+      "eval_steps_per_second": 1.621,
+      "step": 7300
+    },
+    {
+      "epoch": 0.1465,
+      "grad_norm": 0.5969038728051346,
+      "learning_rate": 9.483555555555556e-06,
+      "loss": 2.4066,
+      "step": 7325
+    },
+    {
+      "epoch": 0.147,
+      "grad_norm": 0.6048317665387537,
+      "learning_rate": 9.478e-06,
+      "loss": 2.4007,
+      "step": 7350
+    },
+    {
+      "epoch": 0.1475,
+      "grad_norm": 0.5721050600021237,
+      "learning_rate": 9.472444444444445e-06,
+      "loss": 2.4146,
+      "step": 7375
+    },
+    {
+      "epoch": 0.148,
+      "grad_norm": 0.6019256818391423,
+      "learning_rate": 9.46688888888889e-06,
+      "loss": 2.399,
+      "step": 7400
+    },
+    {
+      "epoch": 0.148,
+      "eval_loss": 2.414281129837036,
+      "eval_runtime": 31.7034,
+      "eval_samples_per_second": 3.217,
+      "eval_steps_per_second": 1.609,
+      "step": 7400
+    },
+    {
+      "epoch": 0.1485,
+      "grad_norm": 0.6386043502919573,
+      "learning_rate": 9.461333333333334e-06,
+      "loss": 2.3957,
+      "step": 7425
+    },
+    {
+      "epoch": 0.149,
+      "grad_norm": 0.5819226766027404,
+      "learning_rate": 9.455777777777777e-06,
+      "loss": 2.4001,
+      "step": 7450
+    },
+    {
+      "epoch": 0.1495,
+      "grad_norm": 0.6372396676223023,
+      "learning_rate": 9.450222222222223e-06,
+      "loss": 2.3976,
+      "step": 7475
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 0.5888017578283452,
+      "learning_rate": 9.444666666666668e-06,
+      "loss": 2.4008,
+      "step": 7500
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.414154291152954,
+      "eval_runtime": 31.8152,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 7500
+    },
+    {
+      "epoch": 0.1505,
+      "grad_norm": 0.6132781564549638,
+      "learning_rate": 9.439111111111111e-06,
+      "loss": 2.4077,
+      "step": 7525
+    },
+    {
+      "epoch": 0.151,
+      "grad_norm": 0.6063002641957036,
+      "learning_rate": 9.433555555555557e-06,
+      "loss": 2.3889,
+      "step": 7550
+    },
+    {
+      "epoch": 0.1515,
+      "grad_norm": 0.614169638364484,
+      "learning_rate": 9.428e-06,
+      "loss": 2.4121,
+      "step": 7575
+    },
+    {
+      "epoch": 0.152,
+      "grad_norm": 0.5826866596297434,
+      "learning_rate": 9.422444444444445e-06,
+      "loss": 2.4075,
+      "step": 7600
+    },
+    {
+      "epoch": 0.152,
+      "eval_loss": 2.414039134979248,
+      "eval_runtime": 31.7985,
+      "eval_samples_per_second": 3.208,
+      "eval_steps_per_second": 1.604,
+      "step": 7600
+    },
+    {
+      "epoch": 0.1525,
+      "grad_norm": 0.5964985955677213,
+      "learning_rate": 9.41688888888889e-06,
+      "loss": 2.3976,
+      "step": 7625
+    },
+    {
+      "epoch": 0.153,
+      "grad_norm": 0.5946671745059025,
+      "learning_rate": 9.411333333333334e-06,
+      "loss": 2.3947,
+      "step": 7650
+    },
+    {
+      "epoch": 0.1535,
+      "grad_norm": 0.5894909865358033,
+      "learning_rate": 9.405777777777778e-06,
+      "loss": 2.4079,
+      "step": 7675
+    },
+    {
+      "epoch": 0.154,
+      "grad_norm": 0.6048420481174572,
+      "learning_rate": 9.400222222222223e-06,
+      "loss": 2.4015,
+      "step": 7700
+    },
+    {
+      "epoch": 0.154,
+      "eval_loss": 2.413475275039673,
+      "eval_runtime": 31.9136,
+      "eval_samples_per_second": 3.196,
+      "eval_steps_per_second": 1.598,
+      "step": 7700
+    },
+    {
+      "epoch": 0.1545,
+      "grad_norm": 0.617559481688582,
+      "learning_rate": 9.394666666666668e-06,
+      "loss": 2.4036,
+      "step": 7725
+    },
+    {
+      "epoch": 0.155,
+      "grad_norm": 0.6350332331451685,
+      "learning_rate": 9.389111111111112e-06,
+      "loss": 2.3989,
+      "step": 7750
+    },
+    {
+      "epoch": 0.1555,
+      "grad_norm": 0.6034892604414784,
+      "learning_rate": 9.383555555555557e-06,
+      "loss": 2.398,
+      "step": 7775
+    },
+    {
+      "epoch": 0.156,
+      "grad_norm": 0.5879016941841427,
+      "learning_rate": 9.378e-06,
+      "loss": 2.3989,
+      "step": 7800
+    },
+    {
+      "epoch": 0.156,
+      "eval_loss": 2.4134128093719482,
+      "eval_runtime": 31.7809,
+      "eval_samples_per_second": 3.209,
+      "eval_steps_per_second": 1.605,
+      "step": 7800
+    },
+    {
+      "epoch": 0.1565,
+      "grad_norm": 0.5957060592966067,
+      "learning_rate": 9.372444444444446e-06,
+      "loss": 2.3951,
+      "step": 7825
+    },
+    {
+      "epoch": 0.157,
+      "grad_norm": 0.6127788552445546,
+      "learning_rate": 9.36688888888889e-06,
+      "loss": 2.3966,
+      "step": 7850
+    },
+    {
+      "epoch": 0.1575,
+      "grad_norm": 0.6103495429829666,
+      "learning_rate": 9.361333333333335e-06,
+      "loss": 2.3974,
+      "step": 7875
+    },
+    {
+      "epoch": 0.158,
+      "grad_norm": 0.5940303847498369,
+      "learning_rate": 9.355777777777778e-06,
+      "loss": 2.3982,
+      "step": 7900
+    },
+    {
+      "epoch": 0.158,
+      "eval_loss": 2.4130520820617676,
+      "eval_runtime": 31.8718,
+      "eval_samples_per_second": 3.2,
+      "eval_steps_per_second": 1.6,
+      "step": 7900
+    },
+    {
+      "epoch": 0.1585,
+      "grad_norm": 0.5967208318826438,
+      "learning_rate": 9.350222222222224e-06,
+      "loss": 2.3963,
+      "step": 7925
+    },
+    {
+      "epoch": 0.159,
+      "grad_norm": 0.6074697420049116,
+      "learning_rate": 9.344666666666667e-06,
+      "loss": 2.4004,
+      "step": 7950
+    },
+    {
+      "epoch": 0.1595,
+      "grad_norm": 0.6007548308453654,
+      "learning_rate": 9.339111111111112e-06,
+      "loss": 2.3972,
+      "step": 7975
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.6058573477149505,
+      "learning_rate": 9.333555555555558e-06,
+      "loss": 2.4,
+      "step": 8000
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.4125914573669434,
+      "eval_runtime": 31.8819,
+      "eval_samples_per_second": 3.199,
+      "eval_steps_per_second": 1.6,
+      "step": 8000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 2.546561838661763e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null