irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 17, 2025

Commit

e12c15e

verified ·

1 Parent(s): da0f1ec

Training checkpoint at step 27000

Browse files

Files changed (1) hide show

trainer_state.json +365 -5

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 25900,
-  "best_metric": 2.3824901580810547,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-25000",
-  "epoch": 0.52,
   "eval_steps": 100,
-  "global_step": 26000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9368,6 +9368,366 @@
       "eval_samples_per_second": 3.212,
       "eval_steps_per_second": 1.606,
       "step": 26000
     }
   ],
   "logging_steps": 25,
@@ -9387,7 +9747,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.27632597565073e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 26800,
+  "best_metric": 2.381396532058716,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-25000",
+  "epoch": 0.54,
   "eval_steps": 100,
+  "global_step": 27000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.212,
       "eval_steps_per_second": 1.606,
       "step": 26000
+    },
+    {
+      "epoch": 0.5205,
+      "grad_norm": 0.5425846904290578,
+      "learning_rate": 5.328000000000001e-06,
+      "loss": 2.3675,
+      "step": 26025
+    },
+    {
+      "epoch": 0.521,
+      "grad_norm": 0.5621800567569987,
+      "learning_rate": 5.322444444444445e-06,
+      "loss": 2.3759,
+      "step": 26050
+    },
+    {
+      "epoch": 0.5215,
+      "grad_norm": 0.5544103291449336,
+      "learning_rate": 5.316888888888889e-06,
+      "loss": 2.3576,
+      "step": 26075
+    },
+    {
+      "epoch": 0.522,
+      "grad_norm": 0.550125457461572,
+      "learning_rate": 5.311333333333334e-06,
+      "loss": 2.3567,
+      "step": 26100
+    },
+    {
+      "epoch": 0.522,
+      "eval_loss": 2.382749319076538,
+      "eval_runtime": 31.8184,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 26100
+    },
+    {
+      "epoch": 0.5225,
+      "grad_norm": 0.5441956885780074,
+      "learning_rate": 5.305777777777779e-06,
+      "loss": 2.3562,
+      "step": 26125
+    },
+    {
+      "epoch": 0.523,
+      "grad_norm": 0.5677266247403775,
+      "learning_rate": 5.3002222222222225e-06,
+      "loss": 2.3666,
+      "step": 26150
+    },
+    {
+      "epoch": 0.5235,
+      "grad_norm": 0.5396975563673215,
+      "learning_rate": 5.294666666666667e-06,
+      "loss": 2.351,
+      "step": 26175
+    },
+    {
+      "epoch": 0.524,
+      "grad_norm": 0.5374437057610971,
+      "learning_rate": 5.289111111111111e-06,
+      "loss": 2.3625,
+      "step": 26200
+    },
+    {
+      "epoch": 0.524,
+      "eval_loss": 2.3822991847991943,
+      "eval_runtime": 31.8822,
+      "eval_samples_per_second": 3.199,
+      "eval_steps_per_second": 1.6,
+      "step": 26200
+    },
+    {
+      "epoch": 0.5245,
+      "grad_norm": 0.5627076715491244,
+      "learning_rate": 5.2835555555555566e-06,
+      "loss": 2.3699,
+      "step": 26225
+    },
+    {
+      "epoch": 0.525,
+      "grad_norm": 0.5430691314388109,
+      "learning_rate": 5.278000000000001e-06,
+      "loss": 2.3648,
+      "step": 26250
+    },
+    {
+      "epoch": 0.5255,
+      "grad_norm": 0.5319128139639624,
+      "learning_rate": 5.2724444444444445e-06,
+      "loss": 2.3722,
+      "step": 26275
+    },
+    {
+      "epoch": 0.526,
+      "grad_norm": 0.5560009569047116,
+      "learning_rate": 5.266888888888889e-06,
+      "loss": 2.3763,
+      "step": 26300
+    },
+    {
+      "epoch": 0.526,
+      "eval_loss": 2.3822247982025146,
+      "eval_runtime": 31.7558,
+      "eval_samples_per_second": 3.212,
+      "eval_steps_per_second": 1.606,
+      "step": 26300
+    },
+    {
+      "epoch": 0.5265,
+      "grad_norm": 0.5586923319248112,
+      "learning_rate": 5.261333333333334e-06,
+      "loss": 2.366,
+      "step": 26325
+    },
+    {
+      "epoch": 0.527,
+      "grad_norm": 0.5621950392943218,
+      "learning_rate": 5.255777777777779e-06,
+      "loss": 2.3713,
+      "step": 26350
+    },
+    {
+      "epoch": 0.5275,
+      "grad_norm": 0.5630783729958978,
+      "learning_rate": 5.250222222222222e-06,
+      "loss": 2.3508,
+      "step": 26375
+    },
+    {
+      "epoch": 0.528,
+      "grad_norm": 0.5543463911581646,
+      "learning_rate": 5.2446666666666665e-06,
+      "loss": 2.3588,
+      "step": 26400
+    },
+    {
+      "epoch": 0.528,
+      "eval_loss": 2.3820412158966064,
+      "eval_runtime": 31.7735,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 26400
+    },
+    {
+      "epoch": 0.5285,
+      "grad_norm": 0.5521701819516005,
+      "learning_rate": 5.239111111111112e-06,
+      "loss": 2.3798,
+      "step": 26425
+    },
+    {
+      "epoch": 0.529,
+      "grad_norm": 0.5697290541696707,
+      "learning_rate": 5.233555555555556e-06,
+      "loss": 2.3705,
+      "step": 26450
+    },
+    {
+      "epoch": 0.5295,
+      "grad_norm": 0.5456656767494042,
+      "learning_rate": 5.228000000000001e-06,
+      "loss": 2.3603,
+      "step": 26475
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.544157308823069,
+      "learning_rate": 5.222444444444444e-06,
+      "loss": 2.3598,
+      "step": 26500
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 2.3819408416748047,
+      "eval_runtime": 31.804,
+      "eval_samples_per_second": 3.207,
+      "eval_steps_per_second": 1.604,
+      "step": 26500
+    },
+    {
+      "epoch": 0.5305,
+      "grad_norm": 0.5399718074412095,
+      "learning_rate": 5.216888888888889e-06,
+      "loss": 2.3765,
+      "step": 26525
+    },
+    {
+      "epoch": 0.531,
+      "grad_norm": 0.542440216852853,
+      "learning_rate": 5.211333333333334e-06,
+      "loss": 2.3758,
+      "step": 26550
+    },
+    {
+      "epoch": 0.5315,
+      "grad_norm": 0.5648571300651365,
+      "learning_rate": 5.205777777777778e-06,
+      "loss": 2.3685,
+      "step": 26575
+    },
+    {
+      "epoch": 0.532,
+      "grad_norm": 0.573442767423831,
+      "learning_rate": 5.2002222222222235e-06,
+      "loss": 2.3556,
+      "step": 26600
+    },
+    {
+      "epoch": 0.532,
+      "eval_loss": 2.382056951522827,
+      "eval_runtime": 31.8038,
+      "eval_samples_per_second": 3.207,
+      "eval_steps_per_second": 1.604,
+      "step": 26600
+    },
+    {
+      "epoch": 0.5325,
+      "grad_norm": 0.6056414806190663,
+      "learning_rate": 5.194666666666667e-06,
+      "loss": 2.3595,
+      "step": 26625
+    },
+    {
+      "epoch": 0.533,
+      "grad_norm": 0.5481757619700885,
+      "learning_rate": 5.189111111111111e-06,
+      "loss": 2.3727,
+      "step": 26650
+    },
+    {
+      "epoch": 0.5335,
+      "grad_norm": 0.5610562792027696,
+      "learning_rate": 5.183555555555556e-06,
+      "loss": 2.3673,
+      "step": 26675
+    },
+    {
+      "epoch": 0.534,
+      "grad_norm": 0.5702347426339772,
+      "learning_rate": 5.178000000000001e-06,
+      "loss": 2.3622,
+      "step": 26700
+    },
+    {
+      "epoch": 0.534,
+      "eval_loss": 2.381828546524048,
+      "eval_runtime": 31.992,
+      "eval_samples_per_second": 3.188,
+      "eval_steps_per_second": 1.594,
+      "step": 26700
+    },
+    {
+      "epoch": 0.5345,
+      "grad_norm": 0.5565593579595437,
+      "learning_rate": 5.172444444444445e-06,
+      "loss": 2.3651,
+      "step": 26725
+    },
+    {
+      "epoch": 0.535,
+      "grad_norm": 0.5398272748687973,
+      "learning_rate": 5.166888888888889e-06,
+      "loss": 2.3703,
+      "step": 26750
+    },
+    {
+      "epoch": 0.5355,
+      "grad_norm": 0.5611538131409728,
+      "learning_rate": 5.1613333333333334e-06,
+      "loss": 2.3778,
+      "step": 26775
+    },
+    {
+      "epoch": 0.536,
+      "grad_norm": 0.5436520053621182,
+      "learning_rate": 5.155777777777779e-06,
+      "loss": 2.3561,
+      "step": 26800
+    },
+    {
+      "epoch": 0.536,
+      "eval_loss": 2.381396532058716,
+      "eval_runtime": 31.772,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 26800
+    },
+    {
+      "epoch": 0.5365,
+      "grad_norm": 0.5574841239488896,
+      "learning_rate": 5.150222222222223e-06,
+      "loss": 2.3607,
+      "step": 26825
+    },
+    {
+      "epoch": 0.537,
+      "grad_norm": 0.5459267231396281,
+      "learning_rate": 5.144666666666667e-06,
+      "loss": 2.3652,
+      "step": 26850
+    },
+    {
+      "epoch": 0.5375,
+      "grad_norm": 0.5764624554311072,
+      "learning_rate": 5.139111111111111e-06,
+      "loss": 2.3748,
+      "step": 26875
+    },
+    {
+      "epoch": 0.538,
+      "grad_norm": 0.5452582655691465,
+      "learning_rate": 5.133555555555556e-06,
+      "loss": 2.3751,
+      "step": 26900
+    },
+    {
+      "epoch": 0.538,
+      "eval_loss": 2.3815813064575195,
+      "eval_runtime": 31.833,
+      "eval_samples_per_second": 3.204,
+      "eval_steps_per_second": 1.602,
+      "step": 26900
+    },
+    {
+      "epoch": 0.5385,
+      "grad_norm": 0.5591974032204698,
+      "learning_rate": 5.128000000000001e-06,
+      "loss": 2.3595,
+      "step": 26925
+    },
+    {
+      "epoch": 0.539,
+      "grad_norm": 0.5910956937930101,
+      "learning_rate": 5.122444444444444e-06,
+      "loss": 2.3712,
+      "step": 26950
+    },
+    {
+      "epoch": 0.5395,
+      "grad_norm": 0.5532516136915937,
+      "learning_rate": 5.116888888888889e-06,
+      "loss": 2.3673,
+      "step": 26975
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 0.5654498740726267,
+      "learning_rate": 5.111333333333334e-06,
+      "loss": 2.3667,
+      "step": 27000
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 2.3814122676849365,
+      "eval_runtime": 31.7588,
+      "eval_samples_per_second": 3.212,
+      "eval_steps_per_second": 1.606,
+      "step": 27000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 8.59464620548345e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null