irodkin
/

InnerLoopARMTForCausalLM_run_30

PyTorch

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Dec 25, 2025

Commit

6eaa560

verified ·

1 Parent(s): 6e8c494

Training checkpoint at step 5000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 4000,
-  "best_metric": 2.430954933166504,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_30/checkpoint-4000",
-  "epoch": 0.08,
   "eval_steps": 100,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1448,6 +1448,366 @@
       "eval_samples_per_second": 3.532,
       "eval_steps_per_second": 1.781,
       "step": 4000
     }
   ],
   "logging_steps": 25,
@@ -1467,7 +1827,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.114120770054783e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 5000,
+  "best_metric": 2.426590919494629,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_30/checkpoint-5000",
+  "epoch": 0.1,
   "eval_steps": 100,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.532,
       "eval_steps_per_second": 1.781,
       "step": 4000
+    },
+    {
+      "epoch": 0.0805,
+      "grad_norm": 0.021865944897834468,
+      "learning_rate": 8.048e-06,
+      "loss": 2.4283,
+      "step": 4025
+    },
+    {
+      "epoch": 0.081,
+      "grad_norm": 0.020393010409248808,
+      "learning_rate": 8.098000000000001e-06,
+      "loss": 2.4142,
+      "step": 4050
+    },
+    {
+      "epoch": 0.0815,
+      "grad_norm": 0.02279155824698799,
+      "learning_rate": 8.148e-06,
+      "loss": 2.4208,
+      "step": 4075
+    },
+    {
+      "epoch": 0.082,
+      "grad_norm": 0.021110562493101104,
+      "learning_rate": 8.198e-06,
+      "loss": 2.4093,
+      "step": 4100
+    },
+    {
+      "epoch": 0.082,
+      "eval_loss": 2.4299628734588623,
+      "eval_runtime": 33.2215,
+      "eval_samples_per_second": 3.522,
+      "eval_steps_per_second": 1.776,
+      "step": 4100
+    },
+    {
+      "epoch": 0.0825,
+      "grad_norm": 0.019752507861163327,
+      "learning_rate": 8.248e-06,
+      "loss": 2.4073,
+      "step": 4125
+    },
+    {
+      "epoch": 0.083,
+      "grad_norm": 0.019897433088879975,
+      "learning_rate": 8.298000000000001e-06,
+      "loss": 2.4129,
+      "step": 4150
+    },
+    {
+      "epoch": 0.0835,
+      "grad_norm": 0.02275241957806373,
+      "learning_rate": 8.348e-06,
+      "loss": 2.4243,
+      "step": 4175
+    },
+    {
+      "epoch": 0.084,
+      "grad_norm": 0.02009113389579191,
+      "learning_rate": 8.398e-06,
+      "loss": 2.4138,
+      "step": 4200
+    },
+    {
+      "epoch": 0.084,
+      "eval_loss": 2.4301230907440186,
+      "eval_runtime": 33.0641,
+      "eval_samples_per_second": 3.539,
+      "eval_steps_per_second": 1.784,
+      "step": 4200
+    },
+    {
+      "epoch": 0.0845,
+      "grad_norm": 0.021259070586902896,
+      "learning_rate": 8.448000000000001e-06,
+      "loss": 2.4212,
+      "step": 4225
+    },
+    {
+      "epoch": 0.085,
+      "grad_norm": 0.021461643865178466,
+      "learning_rate": 8.498e-06,
+      "loss": 2.4242,
+      "step": 4250
+    },
+    {
+      "epoch": 0.0855,
+      "grad_norm": 0.02129278617109427,
+      "learning_rate": 8.548e-06,
+      "loss": 2.4153,
+      "step": 4275
+    },
+    {
+      "epoch": 0.086,
+      "grad_norm": 0.019884381961586706,
+      "learning_rate": 8.598000000000001e-06,
+      "loss": 2.4107,
+      "step": 4300
+    },
+    {
+      "epoch": 0.086,
+      "eval_loss": 2.429638385772705,
+      "eval_runtime": 33.1452,
+      "eval_samples_per_second": 3.53,
+      "eval_steps_per_second": 1.78,
+      "step": 4300
+    },
+    {
+      "epoch": 0.0865,
+      "grad_norm": 0.02127578557225418,
+      "learning_rate": 8.648000000000001e-06,
+      "loss": 2.4202,
+      "step": 4325
+    },
+    {
+      "epoch": 0.087,
+      "grad_norm": 0.021749788475476855,
+      "learning_rate": 8.698e-06,
+      "loss": 2.4274,
+      "step": 4350
+    },
+    {
+      "epoch": 0.0875,
+      "grad_norm": 0.021521494708913836,
+      "learning_rate": 8.748000000000002e-06,
+      "loss": 2.4189,
+      "step": 4375
+    },
+    {
+      "epoch": 0.088,
+      "grad_norm": 0.021276426458537334,
+      "learning_rate": 8.798000000000001e-06,
+      "loss": 2.4152,
+      "step": 4400
+    },
+    {
+      "epoch": 0.088,
+      "eval_loss": 2.4292917251586914,
+      "eval_runtime": 33.1057,
+      "eval_samples_per_second": 3.534,
+      "eval_steps_per_second": 1.782,
+      "step": 4400
+    },
+    {
+      "epoch": 0.0885,
+      "grad_norm": 0.019843371943772815,
+      "learning_rate": 8.848e-06,
+      "loss": 2.421,
+      "step": 4425
+    },
+    {
+      "epoch": 0.089,
+      "grad_norm": 0.02031045171970109,
+      "learning_rate": 8.898000000000002e-06,
+      "loss": 2.4201,
+      "step": 4450
+    },
+    {
+      "epoch": 0.0895,
+      "grad_norm": 0.018642717079241176,
+      "learning_rate": 8.948000000000001e-06,
+      "loss": 2.4171,
+      "step": 4475
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.021016901396559935,
+      "learning_rate": 8.998000000000001e-06,
+      "loss": 2.4257,
+      "step": 4500
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.4288113117218018,
+      "eval_runtime": 33.1217,
+      "eval_samples_per_second": 3.532,
+      "eval_steps_per_second": 1.781,
+      "step": 4500
+    },
+    {
+      "epoch": 0.0905,
+      "grad_norm": 0.021595090834222327,
+      "learning_rate": 9.048e-06,
+      "loss": 2.4209,
+      "step": 4525
+    },
+    {
+      "epoch": 0.091,
+      "grad_norm": 0.020500341653961213,
+      "learning_rate": 9.098000000000002e-06,
+      "loss": 2.4093,
+      "step": 4550
+    },
+    {
+      "epoch": 0.0915,
+      "grad_norm": 0.021134665935359346,
+      "learning_rate": 9.148e-06,
+      "loss": 2.4238,
+      "step": 4575
+    },
+    {
+      "epoch": 0.092,
+      "grad_norm": 0.018064298488706988,
+      "learning_rate": 9.198e-06,
+      "loss": 2.4163,
+      "step": 4600
+    },
+    {
+      "epoch": 0.092,
+      "eval_loss": 2.428257465362549,
+      "eval_runtime": 33.451,
+      "eval_samples_per_second": 3.498,
+      "eval_steps_per_second": 1.764,
+      "step": 4600
+    },
+    {
+      "epoch": 0.0925,
+      "grad_norm": 0.019704962175624032,
+      "learning_rate": 9.248e-06,
+      "loss": 2.4082,
+      "step": 4625
+    },
+    {
+      "epoch": 0.093,
+      "grad_norm": 0.019712333508134283,
+      "learning_rate": 9.298e-06,
+      "loss": 2.4089,
+      "step": 4650
+    },
+    {
+      "epoch": 0.0935,
+      "grad_norm": 0.021269463834833153,
+      "learning_rate": 9.348000000000001e-06,
+      "loss": 2.408,
+      "step": 4675
+    },
+    {
+      "epoch": 0.094,
+      "grad_norm": 0.021278662940784676,
+      "learning_rate": 9.398e-06,
+      "loss": 2.4189,
+      "step": 4700
+    },
+    {
+      "epoch": 0.094,
+      "eval_loss": 2.4279165267944336,
+      "eval_runtime": 33.1606,
+      "eval_samples_per_second": 3.528,
+      "eval_steps_per_second": 1.779,
+      "step": 4700
+    },
+    {
+      "epoch": 0.0945,
+      "grad_norm": 0.018504564797986272,
+      "learning_rate": 9.448e-06,
+      "loss": 2.4254,
+      "step": 4725
+    },
+    {
+      "epoch": 0.095,
+      "grad_norm": 0.01917099113509997,
+      "learning_rate": 9.498000000000001e-06,
+      "loss": 2.411,
+      "step": 4750
+    },
+    {
+      "epoch": 0.0955,
+      "grad_norm": 0.019097394482211122,
+      "learning_rate": 9.548e-06,
+      "loss": 2.4209,
+      "step": 4775
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 0.020220692469392707,
+      "learning_rate": 9.598e-06,
+      "loss": 2.4066,
+      "step": 4800
+    },
+    {
+      "epoch": 0.096,
+      "eval_loss": 2.4273650646209717,
+      "eval_runtime": 33.1079,
+      "eval_samples_per_second": 3.534,
+      "eval_steps_per_second": 1.782,
+      "step": 4800
+    },
+    {
+      "epoch": 0.0965,
+      "grad_norm": 0.019607148490934756,
+      "learning_rate": 9.648000000000001e-06,
+      "loss": 2.4132,
+      "step": 4825
+    },
+    {
+      "epoch": 0.097,
+      "grad_norm": 0.019388710503851023,
+      "learning_rate": 9.698000000000001e-06,
+      "loss": 2.4096,
+      "step": 4850
+    },
+    {
+      "epoch": 0.0975,
+      "grad_norm": 0.019593746411763164,
+      "learning_rate": 9.748e-06,
+      "loss": 2.4064,
+      "step": 4875
+    },
+    {
+      "epoch": 0.098,
+      "grad_norm": 0.018761734791343965,
+      "learning_rate": 9.798e-06,
+      "loss": 2.4033,
+      "step": 4900
+    },
+    {
+      "epoch": 0.098,
+      "eval_loss": 2.4270286560058594,
+      "eval_runtime": 33.0269,
+      "eval_samples_per_second": 3.543,
+      "eval_steps_per_second": 1.786,
+      "step": 4900
+    },
+    {
+      "epoch": 0.0985,
+      "grad_norm": 0.018964507342139367,
+      "learning_rate": 9.848000000000001e-06,
+      "loss": 2.4211,
+      "step": 4925
+    },
+    {
+      "epoch": 0.099,
+      "grad_norm": 0.01858861943184826,
+      "learning_rate": 9.898e-06,
+      "loss": 2.4032,
+      "step": 4950
+    },
+    {
+      "epoch": 0.0995,
+      "grad_norm": 0.01821023564956819,
+      "learning_rate": 9.948e-06,
+      "loss": 2.4031,
+      "step": 4975
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.018839474555921314,
+      "learning_rate": 9.998000000000002e-06,
+      "loss": 2.4112,
+      "step": 5000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.426590919494629,
+      "eval_runtime": 33.0133,
+      "eval_samples_per_second": 3.544,
+      "eval_steps_per_second": 1.787,
+      "step": 5000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 1.3926509625684787e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null