irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 18, 2025

Commit

cb684df

verified ·

1 Parent(s): cc0c8c5

Training checkpoint at step 28000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 26800,
-  "best_metric": 2.381396532058716,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-25000",
-  "epoch": 0.54,
   "eval_steps": 100,
-  "global_step": 27000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9728,6 +9728,366 @@
       "eval_samples_per_second": 3.212,
       "eval_steps_per_second": 1.606,
       "step": 27000
     }
   ],
   "logging_steps": 25,
@@ -9747,7 +10107,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.59464620548345e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 28000,
+  "best_metric": 2.380680799484253,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-28000",
+  "epoch": 0.56,
   "eval_steps": 100,
+  "global_step": 28000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.212,
       "eval_steps_per_second": 1.606,
       "step": 27000
+    },
+    {
+      "epoch": 0.5405,
+      "grad_norm": 0.5639894142193489,
+      "learning_rate": 5.105777777777778e-06,
+      "loss": 2.3604,
+      "step": 27025
+    },
+    {
+      "epoch": 0.541,
+      "grad_norm": 0.5650474829629732,
+      "learning_rate": 5.100222222222223e-06,
+      "loss": 2.3615,
+      "step": 27050
+    },
+    {
+      "epoch": 0.5415,
+      "grad_norm": 0.5549449402784257,
+      "learning_rate": 5.094666666666666e-06,
+      "loss": 2.3679,
+      "step": 27075
+    },
+    {
+      "epoch": 0.542,
+      "grad_norm": 0.5615002192664388,
+      "learning_rate": 5.0891111111111115e-06,
+      "loss": 2.3634,
+      "step": 27100
+    },
+    {
+      "epoch": 0.542,
+      "eval_loss": 2.381121873855591,
+      "eval_runtime": 31.7586,
+      "eval_samples_per_second": 3.212,
+      "eval_steps_per_second": 1.606,
+      "step": 27100
+    },
+    {
+      "epoch": 0.5425,
+      "grad_norm": 0.5403095468370492,
+      "learning_rate": 5.083555555555556e-06,
+      "loss": 2.3665,
+      "step": 27125
+    },
+    {
+      "epoch": 0.543,
+      "grad_norm": 0.5421716749680758,
+      "learning_rate": 5.078e-06,
+      "loss": 2.369,
+      "step": 27150
+    },
+    {
+      "epoch": 0.5435,
+      "grad_norm": 0.5590064616229682,
+      "learning_rate": 5.072444444444446e-06,
+      "loss": 2.3594,
+      "step": 27175
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 0.5444799207706167,
+      "learning_rate": 5.066888888888889e-06,
+      "loss": 2.3582,
+      "step": 27200
+    },
+    {
+      "epoch": 0.544,
+      "eval_loss": 2.3811404705047607,
+      "eval_runtime": 31.8368,
+      "eval_samples_per_second": 3.204,
+      "eval_steps_per_second": 1.602,
+      "step": 27200
+    },
+    {
+      "epoch": 0.5445,
+      "grad_norm": 0.5694522608963828,
+      "learning_rate": 5.0613333333333336e-06,
+      "loss": 2.3651,
+      "step": 27225
+    },
+    {
+      "epoch": 0.545,
+      "grad_norm": 0.5357232316900923,
+      "learning_rate": 5.055777777777778e-06,
+      "loss": 2.3595,
+      "step": 27250
+    },
+    {
+      "epoch": 0.5455,
+      "grad_norm": 0.5449200504756736,
+      "learning_rate": 5.050222222222223e-06,
+      "loss": 2.3563,
+      "step": 27275
+    },
+    {
+      "epoch": 0.546,
+      "grad_norm": 0.5669179572699722,
+      "learning_rate": 5.044666666666667e-06,
+      "loss": 2.3705,
+      "step": 27300
+    },
+    {
+      "epoch": 0.546,
+      "eval_loss": 2.3810057640075684,
+      "eval_runtime": 31.7869,
+      "eval_samples_per_second": 3.209,
+      "eval_steps_per_second": 1.604,
+      "step": 27300
+    },
+    {
+      "epoch": 0.5465,
+      "grad_norm": 0.5536644347581473,
+      "learning_rate": 5.039111111111111e-06,
+      "loss": 2.3658,
+      "step": 27325
+    },
+    {
+      "epoch": 0.547,
+      "grad_norm": 0.5774297317851765,
+      "learning_rate": 5.0335555555555556e-06,
+      "loss": 2.3553,
+      "step": 27350
+    },
+    {
+      "epoch": 0.5475,
+      "grad_norm": 0.567395549600367,
+      "learning_rate": 5.028000000000001e-06,
+      "loss": 2.3694,
+      "step": 27375
+    },
+    {
+      "epoch": 0.548,
+      "grad_norm": 0.5501789999743681,
+      "learning_rate": 5.022444444444445e-06,
+      "loss": 2.3643,
+      "step": 27400
+    },
+    {
+      "epoch": 0.548,
+      "eval_loss": 2.3811025619506836,
+      "eval_runtime": 31.9197,
+      "eval_samples_per_second": 3.196,
+      "eval_steps_per_second": 1.598,
+      "step": 27400
+    },
+    {
+      "epoch": 0.5485,
+      "grad_norm": 0.5719215133111718,
+      "learning_rate": 5.016888888888889e-06,
+      "loss": 2.365,
+      "step": 27425
+    },
+    {
+      "epoch": 0.549,
+      "grad_norm": 0.5899241097551456,
+      "learning_rate": 5.011333333333333e-06,
+      "loss": 2.3774,
+      "step": 27450
+    },
+    {
+      "epoch": 0.5495,
+      "grad_norm": 0.5731413292155066,
+      "learning_rate": 5.0057777777777784e-06,
+      "loss": 2.3706,
+      "step": 27475
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 0.5425656065958468,
+      "learning_rate": 5.000222222222223e-06,
+      "loss": 2.3566,
+      "step": 27500
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 2.380763292312622,
+      "eval_runtime": 31.8162,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 27500
+    },
+    {
+      "epoch": 0.5505,
+      "grad_norm": 0.5601626399029922,
+      "learning_rate": 4.994666666666667e-06,
+      "loss": 2.3762,
+      "step": 27525
+    },
+    {
+      "epoch": 0.551,
+      "grad_norm": 0.5715204135637444,
+      "learning_rate": 4.989111111111112e-06,
+      "loss": 2.363,
+      "step": 27550
+    },
+    {
+      "epoch": 0.5515,
+      "grad_norm": 0.547533853702179,
+      "learning_rate": 4.983555555555556e-06,
+      "loss": 2.3659,
+      "step": 27575
+    },
+    {
+      "epoch": 0.552,
+      "grad_norm": 0.5817399132816639,
+      "learning_rate": 4.9780000000000005e-06,
+      "loss": 2.3693,
+      "step": 27600
+    },
+    {
+      "epoch": 0.552,
+      "eval_loss": 2.3807787895202637,
+      "eval_runtime": 31.8396,
+      "eval_samples_per_second": 3.204,
+      "eval_steps_per_second": 1.602,
+      "step": 27600
+    },
+    {
+      "epoch": 0.5525,
+      "grad_norm": 0.544660595894246,
+      "learning_rate": 4.972444444444445e-06,
+      "loss": 2.3661,
+      "step": 27625
+    },
+    {
+      "epoch": 0.553,
+      "grad_norm": 0.5813863819688693,
+      "learning_rate": 4.966888888888889e-06,
+      "loss": 2.365,
+      "step": 27650
+    },
+    {
+      "epoch": 0.5535,
+      "grad_norm": 0.555794514365692,
+      "learning_rate": 4.961333333333334e-06,
+      "loss": 2.3724,
+      "step": 27675
+    },
+    {
+      "epoch": 0.554,
+      "grad_norm": 0.5549771654031,
+      "learning_rate": 4.955777777777778e-06,
+      "loss": 2.3712,
+      "step": 27700
+    },
+    {
+      "epoch": 0.554,
+      "eval_loss": 2.380859613418579,
+      "eval_runtime": 32.035,
+      "eval_samples_per_second": 3.184,
+      "eval_steps_per_second": 1.592,
+      "step": 27700
+    },
+    {
+      "epoch": 0.5545,
+      "grad_norm": 0.5660580874490311,
+      "learning_rate": 4.9502222222222225e-06,
+      "loss": 2.3626,
+      "step": 27725
+    },
+    {
+      "epoch": 0.555,
+      "grad_norm": 0.5408935222204184,
+      "learning_rate": 4.944666666666667e-06,
+      "loss": 2.3546,
+      "step": 27750
+    },
+    {
+      "epoch": 0.5555,
+      "grad_norm": 0.5574539497290301,
+      "learning_rate": 4.939111111111112e-06,
+      "loss": 2.3503,
+      "step": 27775
+    },
+    {
+      "epoch": 0.556,
+      "grad_norm": 0.5733587459238179,
+      "learning_rate": 4.933555555555556e-06,
+      "loss": 2.3787,
+      "step": 27800
+    },
+    {
+      "epoch": 0.556,
+      "eval_loss": 2.380819082260132,
+      "eval_runtime": 31.8731,
+      "eval_samples_per_second": 3.2,
+      "eval_steps_per_second": 1.6,
+      "step": 27800
+    },
+    {
+      "epoch": 0.5565,
+      "grad_norm": 0.5469010479471977,
+      "learning_rate": 4.928000000000001e-06,
+      "loss": 2.3728,
+      "step": 27825
+    },
+    {
+      "epoch": 0.557,
+      "grad_norm": 0.5575923461377743,
+      "learning_rate": 4.9224444444444445e-06,
+      "loss": 2.3587,
+      "step": 27850
+    },
+    {
+      "epoch": 0.5575,
+      "grad_norm": 0.5484615569385746,
+      "learning_rate": 4.91688888888889e-06,
+      "loss": 2.3554,
+      "step": 27875
+    },
+    {
+      "epoch": 0.558,
+      "grad_norm": 0.5700580906470195,
+      "learning_rate": 4.911333333333333e-06,
+      "loss": 2.3591,
+      "step": 27900
+    },
+    {
+      "epoch": 0.558,
+      "eval_loss": 2.380748748779297,
+      "eval_runtime": 31.8799,
+      "eval_samples_per_second": 3.2,
+      "eval_steps_per_second": 1.6,
+      "step": 27900
+    },
+    {
+      "epoch": 0.5585,
+      "grad_norm": 0.5644741625244013,
+      "learning_rate": 4.9057777777777785e-06,
+      "loss": 2.3573,
+      "step": 27925
+    },
+    {
+      "epoch": 0.559,
+      "grad_norm": 0.5518750142742082,
+      "learning_rate": 4.900222222222223e-06,
+      "loss": 2.3722,
+      "step": 27950
+    },
+    {
+      "epoch": 0.5595,
+      "grad_norm": 0.5570570164343176,
+      "learning_rate": 4.894666666666667e-06,
+      "loss": 2.3644,
+      "step": 27975
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.5454507656456767,
+      "learning_rate": 4.889111111111112e-06,
+      "loss": 2.3545,
+      "step": 28000
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 2.380680799484253,
+      "eval_runtime": 31.8506,
+      "eval_samples_per_second": 3.202,
+      "eval_steps_per_second": 1.601,
+      "step": 28000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 8.91296643531617e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null