irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 9, 2025

Commit

7a5cca5

verified ·

1 Parent(s): ac4a648

Training checkpoint at step 13000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 12000,
-  "best_metric": 2.4031572341918945,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-12000",
-  "epoch": 0.24,
   "eval_steps": 100,
-  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4328,6 +4328,366 @@
       "eval_samples_per_second": 3.216,
       "eval_steps_per_second": 1.608,
       "step": 12000
     }
   ],
   "logging_steps": 25,
@@ -4347,7 +4707,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.819842757992645e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 13000,
+  "best_metric": 2.4009385108947754,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-13000",
+  "epoch": 0.26,
   "eval_steps": 100,
+  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.216,
       "eval_steps_per_second": 1.608,
       "step": 12000
+    },
+    {
+      "epoch": 0.2405,
+      "grad_norm": 0.5687487747515707,
+      "learning_rate": 8.43911111111111e-06,
+      "loss": 2.3859,
+      "step": 12025
+    },
+    {
+      "epoch": 0.241,
+      "grad_norm": 0.6156971193882954,
+      "learning_rate": 8.433555555555556e-06,
+      "loss": 2.3936,
+      "step": 12050
+    },
+    {
+      "epoch": 0.2415,
+      "grad_norm": 0.5735725917481376,
+      "learning_rate": 8.428000000000001e-06,
+      "loss": 2.3867,
+      "step": 12075
+    },
+    {
+      "epoch": 0.242,
+      "grad_norm": 0.5900311312717111,
+      "learning_rate": 8.422444444444445e-06,
+      "loss": 2.381,
+      "step": 12100
+    },
+    {
+      "epoch": 0.242,
+      "eval_loss": 2.402616262435913,
+      "eval_runtime": 31.728,
+      "eval_samples_per_second": 3.215,
+      "eval_steps_per_second": 1.607,
+      "step": 12100
+    },
+    {
+      "epoch": 0.2425,
+      "grad_norm": 0.6210456413331185,
+      "learning_rate": 8.41688888888889e-06,
+      "loss": 2.3897,
+      "step": 12125
+    },
+    {
+      "epoch": 0.243,
+      "grad_norm": 0.564076844370536,
+      "learning_rate": 8.411333333333334e-06,
+      "loss": 2.3789,
+      "step": 12150
+    },
+    {
+      "epoch": 0.2435,
+      "grad_norm": 0.5787670607206897,
+      "learning_rate": 8.405777777777779e-06,
+      "loss": 2.3927,
+      "step": 12175
+    },
+    {
+      "epoch": 0.244,
+      "grad_norm": 0.557686861390105,
+      "learning_rate": 8.400222222222222e-06,
+      "loss": 2.3761,
+      "step": 12200
+    },
+    {
+      "epoch": 0.244,
+      "eval_loss": 2.4025542736053467,
+      "eval_runtime": 31.8116,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 12200
+    },
+    {
+      "epoch": 0.2445,
+      "grad_norm": 0.5642621664909974,
+      "learning_rate": 8.394666666666668e-06,
+      "loss": 2.3787,
+      "step": 12225
+    },
+    {
+      "epoch": 0.245,
+      "grad_norm": 0.5812642245692796,
+      "learning_rate": 8.389111111111113e-06,
+      "loss": 2.3888,
+      "step": 12250
+    },
+    {
+      "epoch": 0.2455,
+      "grad_norm": 0.5903665572148793,
+      "learning_rate": 8.383555555555557e-06,
+      "loss": 2.3874,
+      "step": 12275
+    },
+    {
+      "epoch": 0.246,
+      "grad_norm": 0.5752826274496151,
+      "learning_rate": 8.378e-06,
+      "loss": 2.3851,
+      "step": 12300
+    },
+    {
+      "epoch": 0.246,
+      "eval_loss": 2.4024178981781006,
+      "eval_runtime": 31.9538,
+      "eval_samples_per_second": 3.192,
+      "eval_steps_per_second": 1.596,
+      "step": 12300
+    },
+    {
+      "epoch": 0.2465,
+      "grad_norm": 0.5625780105871633,
+      "learning_rate": 8.372444444444445e-06,
+      "loss": 2.3857,
+      "step": 12325
+    },
+    {
+      "epoch": 0.247,
+      "grad_norm": 0.5516059110433715,
+      "learning_rate": 8.36688888888889e-06,
+      "loss": 2.387,
+      "step": 12350
+    },
+    {
+      "epoch": 0.2475,
+      "grad_norm": 0.5743651124710031,
+      "learning_rate": 8.361333333333334e-06,
+      "loss": 2.3899,
+      "step": 12375
+    },
+    {
+      "epoch": 0.248,
+      "grad_norm": 0.6065509345211424,
+      "learning_rate": 8.355777777777778e-06,
+      "loss": 2.3811,
+      "step": 12400
+    },
+    {
+      "epoch": 0.248,
+      "eval_loss": 2.402189254760742,
+      "eval_runtime": 31.7357,
+      "eval_samples_per_second": 3.214,
+      "eval_steps_per_second": 1.607,
+      "step": 12400
+    },
+    {
+      "epoch": 0.2485,
+      "grad_norm": 0.569411806780091,
+      "learning_rate": 8.350222222222223e-06,
+      "loss": 2.3891,
+      "step": 12425
+    },
+    {
+      "epoch": 0.249,
+      "grad_norm": 0.5781227404353481,
+      "learning_rate": 8.344666666666668e-06,
+      "loss": 2.3799,
+      "step": 12450
+    },
+    {
+      "epoch": 0.2495,
+      "grad_norm": 0.5882770416548074,
+      "learning_rate": 8.339111111111112e-06,
+      "loss": 2.3921,
+      "step": 12475
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.6053137792053689,
+      "learning_rate": 8.333555555555555e-06,
+      "loss": 2.3923,
+      "step": 12500
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 2.401906967163086,
+      "eval_runtime": 31.7052,
+      "eval_samples_per_second": 3.217,
+      "eval_steps_per_second": 1.609,
+      "step": 12500
+    },
+    {
+      "epoch": 0.2505,
+      "grad_norm": 0.5493940361276148,
+      "learning_rate": 8.328e-06,
+      "loss": 2.3872,
+      "step": 12525
+    },
+    {
+      "epoch": 0.251,
+      "grad_norm": 0.5844453837465953,
+      "learning_rate": 8.322444444444446e-06,
+      "loss": 2.3859,
+      "step": 12550
+    },
+    {
+      "epoch": 0.2515,
+      "grad_norm": 0.589694030674745,
+      "learning_rate": 8.31688888888889e-06,
+      "loss": 2.3852,
+      "step": 12575
+    },
+    {
+      "epoch": 0.252,
+      "grad_norm": 0.5985872367130171,
+      "learning_rate": 8.311333333333333e-06,
+      "loss": 2.378,
+      "step": 12600
+    },
+    {
+      "epoch": 0.252,
+      "eval_loss": 2.4017632007598877,
+      "eval_runtime": 31.8059,
+      "eval_samples_per_second": 3.207,
+      "eval_steps_per_second": 1.603,
+      "step": 12600
+    },
+    {
+      "epoch": 0.2525,
+      "grad_norm": 0.6246560097732429,
+      "learning_rate": 8.305777777777778e-06,
+      "loss": 2.3891,
+      "step": 12625
+    },
+    {
+      "epoch": 0.253,
+      "grad_norm": 0.5977851115835912,
+      "learning_rate": 8.300222222222223e-06,
+      "loss": 2.3884,
+      "step": 12650
+    },
+    {
+      "epoch": 0.2535,
+      "grad_norm": 0.5535634109353079,
+      "learning_rate": 8.294666666666667e-06,
+      "loss": 2.3894,
+      "step": 12675
+    },
+    {
+      "epoch": 0.254,
+      "grad_norm": 0.5647542662126371,
+      "learning_rate": 8.289111111111112e-06,
+      "loss": 2.3889,
+      "step": 12700
+    },
+    {
+      "epoch": 0.254,
+      "eval_loss": 2.4015073776245117,
+      "eval_runtime": 31.6682,
+      "eval_samples_per_second": 3.221,
+      "eval_steps_per_second": 1.61,
+      "step": 12700
+    },
+    {
+      "epoch": 0.2545,
+      "grad_norm": 0.5689860381748764,
+      "learning_rate": 8.283555555555556e-06,
+      "loss": 2.391,
+      "step": 12725
+    },
+    {
+      "epoch": 0.255,
+      "grad_norm": 0.5788815220722723,
+      "learning_rate": 8.278000000000001e-06,
+      "loss": 2.3746,
+      "step": 12750
+    },
+    {
+      "epoch": 0.2555,
+      "grad_norm": 0.5746385277305921,
+      "learning_rate": 8.272444444444445e-06,
+      "loss": 2.3884,
+      "step": 12775
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 0.5952261074381101,
+      "learning_rate": 8.26688888888889e-06,
+      "loss": 2.387,
+      "step": 12800
+    },
+    {
+      "epoch": 0.256,
+      "eval_loss": 2.401090383529663,
+      "eval_runtime": 31.7518,
+      "eval_samples_per_second": 3.212,
+      "eval_steps_per_second": 1.606,
+      "step": 12800
+    },
+    {
+      "epoch": 0.2565,
+      "grad_norm": 0.581914246490724,
+      "learning_rate": 8.261333333333335e-06,
+      "loss": 2.3879,
+      "step": 12825
+    },
+    {
+      "epoch": 0.257,
+      "grad_norm": 0.5582195018164189,
+      "learning_rate": 8.255777777777779e-06,
+      "loss": 2.3783,
+      "step": 12850
+    },
+    {
+      "epoch": 0.2575,
+      "grad_norm": 0.5633036552978725,
+      "learning_rate": 8.250222222222222e-06,
+      "loss": 2.3845,
+      "step": 12875
+    },
+    {
+      "epoch": 0.258,
+      "grad_norm": 0.5613155523789654,
+      "learning_rate": 8.244666666666667e-06,
+      "loss": 2.3942,
+      "step": 12900
+    },
+    {
+      "epoch": 0.258,
+      "eval_loss": 2.4014108180999756,
+      "eval_runtime": 31.8052,
+      "eval_samples_per_second": 3.207,
+      "eval_steps_per_second": 1.604,
+      "step": 12900
+    },
+    {
+      "epoch": 0.2585,
+      "grad_norm": 0.5906307979751212,
+      "learning_rate": 8.239111111111113e-06,
+      "loss": 2.3807,
+      "step": 12925
+    },
+    {
+      "epoch": 0.259,
+      "grad_norm": 0.5786593603781868,
+      "learning_rate": 8.233555555555556e-06,
+      "loss": 2.3848,
+      "step": 12950
+    },
+    {
+      "epoch": 0.2595,
+      "grad_norm": 0.5739057988147651,
+      "learning_rate": 8.228e-06,
+      "loss": 2.3841,
+      "step": 12975
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 0.5727067411665359,
+      "learning_rate": 8.222444444444445e-06,
+      "loss": 2.3771,
+      "step": 13000
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 2.4009385108947754,
+      "eval_runtime": 31.8075,
+      "eval_samples_per_second": 3.207,
+      "eval_steps_per_second": 1.603,
+      "step": 13000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 4.138162987825365e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null