irodkin
/

InnerLoopARMTForCausalLM_run_30

PyTorch

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Dec 25, 2025

Commit

121a14d

verified ·

1 Parent(s): 5003633

Training checkpoint at step 6000

Browse files

Files changed (1) hide show

trainer_state.json +365 -5

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 5000,
-  "best_metric": 2.426590919494629,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_30/checkpoint-5000",
-  "epoch": 0.1,
   "eval_steps": 100,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1808,6 +1808,366 @@
       "eval_samples_per_second": 3.544,
       "eval_steps_per_second": 1.787,
       "step": 5000
     }
   ],
   "logging_steps": 25,
@@ -1827,7 +2187,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3926509625684787e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 5900,
+  "best_metric": 2.4210917949676514,
   "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_30/checkpoint-5000",
+  "epoch": 0.12,
   "eval_steps": 100,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.544,
       "eval_steps_per_second": 1.787,
       "step": 5000
+    },
+    {
+      "epoch": 0.1005,
+      "grad_norm": 0.0187590945164155,
+      "learning_rate": 9.994666666666668e-06,
+      "loss": 2.4164,
+      "step": 5025
+    },
+    {
+      "epoch": 0.101,
+      "grad_norm": 0.018683158146542603,
+      "learning_rate": 9.989111111111111e-06,
+      "loss": 2.4082,
+      "step": 5050
+    },
+    {
+      "epoch": 0.1015,
+      "grad_norm": 0.017610949419625762,
+      "learning_rate": 9.983555555555556e-06,
+      "loss": 2.4124,
+      "step": 5075
+    },
+    {
+      "epoch": 0.102,
+      "grad_norm": 0.01862298073358942,
+      "learning_rate": 9.978000000000002e-06,
+      "loss": 2.409,
+      "step": 5100
+    },
+    {
+      "epoch": 0.102,
+      "eval_loss": 2.425841808319092,
+      "eval_runtime": 33.063,
+      "eval_samples_per_second": 3.539,
+      "eval_steps_per_second": 1.784,
+      "step": 5100
+    },
+    {
+      "epoch": 0.1025,
+      "grad_norm": 0.025407800531065724,
+      "learning_rate": 9.972444444444445e-06,
+      "loss": 2.4051,
+      "step": 5125
+    },
+    {
+      "epoch": 0.103,
+      "grad_norm": 0.01838713779514561,
+      "learning_rate": 9.966888888888889e-06,
+      "loss": 2.4105,
+      "step": 5150
+    },
+    {
+      "epoch": 0.1035,
+      "grad_norm": 0.018921321521659856,
+      "learning_rate": 9.961333333333334e-06,
+      "loss": 2.4191,
+      "step": 5175
+    },
+    {
+      "epoch": 0.104,
+      "grad_norm": 0.01824666535901335,
+      "learning_rate": 9.95577777777778e-06,
+      "loss": 2.4115,
+      "step": 5200
+    },
+    {
+      "epoch": 0.104,
+      "eval_loss": 2.4254310131073,
+      "eval_runtime": 33.141,
+      "eval_samples_per_second": 3.53,
+      "eval_steps_per_second": 1.78,
+      "step": 5200
+    },
+    {
+      "epoch": 0.1045,
+      "grad_norm": 0.018794067362196056,
+      "learning_rate": 9.950222222222223e-06,
+      "loss": 2.4062,
+      "step": 5225
+    },
+    {
+      "epoch": 0.105,
+      "grad_norm": 0.01825837669653065,
+      "learning_rate": 9.944666666666668e-06,
+      "loss": 2.4154,
+      "step": 5250
+    },
+    {
+      "epoch": 0.1055,
+      "grad_norm": 0.01843310767671649,
+      "learning_rate": 9.939111111111112e-06,
+      "loss": 2.4201,
+      "step": 5275
+    },
+    {
+      "epoch": 0.106,
+      "grad_norm": 0.018304681522005508,
+      "learning_rate": 9.933555555555557e-06,
+      "loss": 2.4089,
+      "step": 5300
+    },
+    {
+      "epoch": 0.106,
+      "eval_loss": 2.424731492996216,
+      "eval_runtime": 33.0325,
+      "eval_samples_per_second": 3.542,
+      "eval_steps_per_second": 1.786,
+      "step": 5300
+    },
+    {
+      "epoch": 0.1065,
+      "grad_norm": 0.01846362790517963,
+      "learning_rate": 9.928e-06,
+      "loss": 2.4118,
+      "step": 5325
+    },
+    {
+      "epoch": 0.107,
+      "grad_norm": 0.01872825463357926,
+      "learning_rate": 9.922444444444446e-06,
+      "loss": 2.4045,
+      "step": 5350
+    },
+    {
+      "epoch": 0.1075,
+      "grad_norm": 0.017781011104963246,
+      "learning_rate": 9.91688888888889e-06,
+      "loss": 2.4145,
+      "step": 5375
+    },
+    {
+      "epoch": 0.108,
+      "grad_norm": 0.018840752543683545,
+      "learning_rate": 9.911333333333335e-06,
+      "loss": 2.416,
+      "step": 5400
+    },
+    {
+      "epoch": 0.108,
+      "eval_loss": 2.423886775970459,
+      "eval_runtime": 33.1239,
+      "eval_samples_per_second": 3.532,
+      "eval_steps_per_second": 1.781,
+      "step": 5400
+    },
+    {
+      "epoch": 0.1085,
+      "grad_norm": 0.019278786947294697,
+      "learning_rate": 9.905777777777778e-06,
+      "loss": 2.4117,
+      "step": 5425
+    },
+    {
+      "epoch": 0.109,
+      "grad_norm": 0.018430470806705172,
+      "learning_rate": 9.900222222222223e-06,
+      "loss": 2.4114,
+      "step": 5450
+    },
+    {
+      "epoch": 0.1095,
+      "grad_norm": 0.018464088455141334,
+      "learning_rate": 9.894666666666669e-06,
+      "loss": 2.4185,
+      "step": 5475
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 0.01866239126789079,
+      "learning_rate": 9.889111111111112e-06,
+      "loss": 2.4099,
+      "step": 5500
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.423039197921753,
+      "eval_runtime": 35.4471,
+      "eval_samples_per_second": 3.301,
+      "eval_steps_per_second": 1.664,
+      "step": 5500
+    },
+    {
+      "epoch": 0.1105,
+      "grad_norm": 0.01827370320895024,
+      "learning_rate": 9.883555555555556e-06,
+      "loss": 2.4078,
+      "step": 5525
+    },
+    {
+      "epoch": 0.111,
+      "grad_norm": 0.01863057836209491,
+      "learning_rate": 9.878000000000001e-06,
+      "loss": 2.4044,
+      "step": 5550
+    },
+    {
+      "epoch": 0.1115,
+      "grad_norm": 0.018262835671926946,
+      "learning_rate": 9.872444444444446e-06,
+      "loss": 2.4123,
+      "step": 5575
+    },
+    {
+      "epoch": 0.112,
+      "grad_norm": 0.017655227692766756,
+      "learning_rate": 9.86688888888889e-06,
+      "loss": 2.4118,
+      "step": 5600
+    },
+    {
+      "epoch": 0.112,
+      "eval_loss": 2.4225943088531494,
+      "eval_runtime": 33.2709,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.773,
+      "step": 5600
+    },
+    {
+      "epoch": 0.1125,
+      "grad_norm": 0.01812962067528887,
+      "learning_rate": 9.861333333333333e-06,
+      "loss": 2.4017,
+      "step": 5625
+    },
+    {
+      "epoch": 0.113,
+      "grad_norm": 0.018265397582930686,
+      "learning_rate": 9.855777777777779e-06,
+      "loss": 2.4166,
+      "step": 5650
+    },
+    {
+      "epoch": 0.1135,
+      "grad_norm": 0.018207114017877214,
+      "learning_rate": 9.850222222222224e-06,
+      "loss": 2.413,
+      "step": 5675
+    },
+    {
+      "epoch": 0.114,
+      "grad_norm": 0.01952225079171619,
+      "learning_rate": 9.844666666666667e-06,
+      "loss": 2.4022,
+      "step": 5700
+    },
+    {
+      "epoch": 0.114,
+      "eval_loss": 2.42179274559021,
+      "eval_runtime": 33.0648,
+      "eval_samples_per_second": 3.539,
+      "eval_steps_per_second": 1.784,
+      "step": 5700
+    },
+    {
+      "epoch": 0.1145,
+      "grad_norm": 0.01780836124763766,
+      "learning_rate": 9.839111111111111e-06,
+      "loss": 2.4128,
+      "step": 5725
+    },
+    {
+      "epoch": 0.115,
+      "grad_norm": 0.018290904429709265,
+      "learning_rate": 9.833555555555556e-06,
+      "loss": 2.4119,
+      "step": 5750
+    },
+    {
+      "epoch": 0.1155,
+      "grad_norm": 0.019359740861514655,
+      "learning_rate": 9.828000000000001e-06,
+      "loss": 2.4019,
+      "step": 5775
+    },
+    {
+      "epoch": 0.116,
+      "grad_norm": 0.018278231474623628,
+      "learning_rate": 9.822444444444445e-06,
+      "loss": 2.4072,
+      "step": 5800
+    },
+    {
+      "epoch": 0.116,
+      "eval_loss": 2.4214675426483154,
+      "eval_runtime": 33.0642,
+      "eval_samples_per_second": 3.539,
+      "eval_steps_per_second": 1.784,
+      "step": 5800
+    },
+    {
+      "epoch": 0.1165,
+      "grad_norm": 0.017493007146383306,
+      "learning_rate": 9.81688888888889e-06,
+      "loss": 2.4134,
+      "step": 5825
+    },
+    {
+      "epoch": 0.117,
+      "grad_norm": 0.018399348008473985,
+      "learning_rate": 9.811333333333334e-06,
+      "loss": 2.4082,
+      "step": 5850
+    },
+    {
+      "epoch": 0.1175,
+      "grad_norm": 0.0186494867742927,
+      "learning_rate": 9.805777777777779e-06,
+      "loss": 2.4131,
+      "step": 5875
+    },
+    {
+      "epoch": 0.118,
+      "grad_norm": 0.017842605036949514,
+      "learning_rate": 9.800222222222223e-06,
+      "loss": 2.4134,
+      "step": 5900
+    },
+    {
+      "epoch": 0.118,
+      "eval_loss": 2.4210917949676514,
+      "eval_runtime": 33.1318,
+      "eval_samples_per_second": 3.531,
+      "eval_steps_per_second": 1.781,
+      "step": 5900
+    },
+    {
+      "epoch": 0.1185,
+      "grad_norm": 0.01835138877842204,
+      "learning_rate": 9.794666666666668e-06,
+      "loss": 2.4017,
+      "step": 5925
+    },
+    {
+      "epoch": 0.119,
+      "grad_norm": 0.018202303746487493,
+      "learning_rate": 9.789111111111111e-06,
+      "loss": 2.4103,
+      "step": 5950
+    },
+    {
+      "epoch": 0.1195,
+      "grad_norm": 0.0176777777086958,
+      "learning_rate": 9.783555555555557e-06,
+      "loss": 2.4023,
+      "step": 5975
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.019351209333625233,
+      "learning_rate": 9.778e-06,
+      "loss": 2.4053,
+      "step": 6000
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.421157121658325,
+      "eval_runtime": 33.0891,
+      "eval_samples_per_second": 3.536,
+      "eval_steps_per_second": 1.783,
+      "step": 6000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 1.6711811550821745e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null