irodkin
/

InnerLoopARMTForCausalLM_run_30

PyTorch

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Dec 24, 2025

Commit

ea53886

verified ·

1 Parent(s): 57f5c21

Training checkpoint at step 4000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 3000,
-  "best_metric": 2.436969041824341,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_30/checkpoint-3000",
-  "epoch": 0.06,
   "eval_steps": 100,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1088,6 +1088,366 @@
       "eval_samples_per_second": 3.517,
       "eval_steps_per_second": 1.773,
       "step": 3000
     }
   ],
   "logging_steps": 25,
@@ -1107,7 +1467,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.355905775410872e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 4000,
+  "best_metric": 2.430954933166504,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_30/checkpoint-4000",
+  "epoch": 0.08,
   "eval_steps": 100,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.517,
       "eval_steps_per_second": 1.773,
       "step": 3000
+    },
+    {
+      "epoch": 0.0605,
+      "grad_norm": 0.025507916252978883,
+      "learning_rate": 6.048e-06,
+      "loss": 2.4192,
+      "step": 3025
+    },
+    {
+      "epoch": 0.061,
+      "grad_norm": 0.02126046028834697,
+      "learning_rate": 6.098000000000001e-06,
+      "loss": 2.4233,
+      "step": 3050
+    },
+    {
+      "epoch": 0.0615,
+      "grad_norm": 0.026235681014214807,
+      "learning_rate": 6.148e-06,
+      "loss": 2.4215,
+      "step": 3075
+    },
+    {
+      "epoch": 0.062,
+      "grad_norm": 0.026243691288249413,
+      "learning_rate": 6.198000000000001e-06,
+      "loss": 2.4134,
+      "step": 3100
+    },
+    {
+      "epoch": 0.062,
+      "eval_loss": 2.435988664627075,
+      "eval_runtime": 33.0276,
+      "eval_samples_per_second": 3.542,
+      "eval_steps_per_second": 1.786,
+      "step": 3100
+    },
+    {
+      "epoch": 0.0625,
+      "grad_norm": 0.02496599291141367,
+      "learning_rate": 6.248000000000001e-06,
+      "loss": 2.4241,
+      "step": 3125
+    },
+    {
+      "epoch": 0.063,
+      "grad_norm": 0.0236951365360608,
+      "learning_rate": 6.2980000000000005e-06,
+      "loss": 2.4252,
+      "step": 3150
+    },
+    {
+      "epoch": 0.0635,
+      "grad_norm": 0.022752035914773892,
+      "learning_rate": 6.348000000000001e-06,
+      "loss": 2.4244,
+      "step": 3175
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 0.021656953860252137,
+      "learning_rate": 6.398000000000001e-06,
+      "loss": 2.4227,
+      "step": 3200
+    },
+    {
+      "epoch": 0.064,
+      "eval_loss": 2.43520450592041,
+      "eval_runtime": 33.136,
+      "eval_samples_per_second": 3.531,
+      "eval_steps_per_second": 1.781,
+      "step": 3200
+    },
+    {
+      "epoch": 0.0645,
+      "grad_norm": 0.021188520683488872,
+      "learning_rate": 6.448000000000001e-06,
+      "loss": 2.4248,
+      "step": 3225
+    },
+    {
+      "epoch": 0.065,
+      "grad_norm": 0.02274972468402099,
+      "learning_rate": 6.498000000000001e-06,
+      "loss": 2.4215,
+      "step": 3250
+    },
+    {
+      "epoch": 0.0655,
+      "grad_norm": 0.024046700552500286,
+      "learning_rate": 6.548000000000001e-06,
+      "loss": 2.4169,
+      "step": 3275
+    },
+    {
+      "epoch": 0.066,
+      "grad_norm": 0.022071385618052216,
+      "learning_rate": 6.598000000000001e-06,
+      "loss": 2.4199,
+      "step": 3300
+    },
+    {
+      "epoch": 0.066,
+      "eval_loss": 2.4344840049743652,
+      "eval_runtime": 33.1729,
+      "eval_samples_per_second": 3.527,
+      "eval_steps_per_second": 1.779,
+      "step": 3300
+    },
+    {
+      "epoch": 0.0665,
+      "grad_norm": 0.02931021842271797,
+      "learning_rate": 6.648e-06,
+      "loss": 2.4253,
+      "step": 3325
+    },
+    {
+      "epoch": 0.067,
+      "grad_norm": 0.021754527434557868,
+      "learning_rate": 6.698e-06,
+      "loss": 2.4281,
+      "step": 3350
+    },
+    {
+      "epoch": 0.0675,
+      "grad_norm": 0.022651522972508432,
+      "learning_rate": 6.7480000000000004e-06,
+      "loss": 2.4208,
+      "step": 3375
+    },
+    {
+      "epoch": 0.068,
+      "grad_norm": 0.022676405563792287,
+      "learning_rate": 6.798e-06,
+      "loss": 2.4222,
+      "step": 3400
+    },
+    {
+      "epoch": 0.068,
+      "eval_loss": 2.43371844291687,
+      "eval_runtime": 33.1293,
+      "eval_samples_per_second": 3.532,
+      "eval_steps_per_second": 1.781,
+      "step": 3400
+    },
+    {
+      "epoch": 0.0685,
+      "grad_norm": 0.021100680573628707,
+      "learning_rate": 6.848e-06,
+      "loss": 2.4243,
+      "step": 3425
+    },
+    {
+      "epoch": 0.069,
+      "grad_norm": 0.02101417038408147,
+      "learning_rate": 6.898e-06,
+      "loss": 2.4242,
+      "step": 3450
+    },
+    {
+      "epoch": 0.0695,
+      "grad_norm": 0.022432735157488455,
+      "learning_rate": 6.948e-06,
+      "loss": 2.4224,
+      "step": 3475
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 0.02164716008760555,
+      "learning_rate": 6.998000000000001e-06,
+      "loss": 2.4202,
+      "step": 3500
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.433281898498535,
+      "eval_runtime": 33.0783,
+      "eval_samples_per_second": 3.537,
+      "eval_steps_per_second": 1.784,
+      "step": 3500
+    },
+    {
+      "epoch": 0.0705,
+      "grad_norm": 0.022412840176404082,
+      "learning_rate": 7.048e-06,
+      "loss": 2.4184,
+      "step": 3525
+    },
+    {
+      "epoch": 0.071,
+      "grad_norm": 0.025300113537910857,
+      "learning_rate": 7.0980000000000005e-06,
+      "loss": 2.421,
+      "step": 3550
+    },
+    {
+      "epoch": 0.0715,
+      "grad_norm": 0.022085711512698558,
+      "learning_rate": 7.148000000000001e-06,
+      "loss": 2.415,
+      "step": 3575
+    },
+    {
+      "epoch": 0.072,
+      "grad_norm": 0.021041258769866313,
+      "learning_rate": 7.198e-06,
+      "loss": 2.4157,
+      "step": 3600
+    },
+    {
+      "epoch": 0.072,
+      "eval_loss": 2.4324123859405518,
+      "eval_runtime": 34.1633,
+      "eval_samples_per_second": 3.425,
+      "eval_steps_per_second": 1.727,
+      "step": 3600
+    },
+    {
+      "epoch": 0.0725,
+      "grad_norm": 0.021694681795354324,
+      "learning_rate": 7.248000000000001e-06,
+      "loss": 2.4152,
+      "step": 3625
+    },
+    {
+      "epoch": 0.073,
+      "grad_norm": 0.03056130171104773,
+      "learning_rate": 7.298e-06,
+      "loss": 2.4151,
+      "step": 3650
+    },
+    {
+      "epoch": 0.0735,
+      "grad_norm": 0.02112814663770162,
+      "learning_rate": 7.348000000000001e-06,
+      "loss": 2.4163,
+      "step": 3675
+    },
+    {
+      "epoch": 0.074,
+      "grad_norm": 0.024883267721069864,
+      "learning_rate": 7.398000000000001e-06,
+      "loss": 2.4258,
+      "step": 3700
+    },
+    {
+      "epoch": 0.074,
+      "eval_loss": 2.4319984912872314,
+      "eval_runtime": 33.2699,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.773,
+      "step": 3700
+    },
+    {
+      "epoch": 0.0745,
+      "grad_norm": 0.02062910451612879,
+      "learning_rate": 7.4480000000000005e-06,
+      "loss": 2.4263,
+      "step": 3725
+    },
+    {
+      "epoch": 0.075,
+      "grad_norm": 0.021068085012478772,
+      "learning_rate": 7.498000000000001e-06,
+      "loss": 2.4216,
+      "step": 3750
+    },
+    {
+      "epoch": 0.0755,
+      "grad_norm": 0.020665118516629687,
+      "learning_rate": 7.548000000000001e-06,
+      "loss": 2.4285,
+      "step": 3775
+    },
+    {
+      "epoch": 0.076,
+      "grad_norm": 0.02425992757924128,
+      "learning_rate": 7.598000000000001e-06,
+      "loss": 2.4174,
+      "step": 3800
+    },
+    {
+      "epoch": 0.076,
+      "eval_loss": 2.4310436248779297,
+      "eval_runtime": 35.0728,
+      "eval_samples_per_second": 3.336,
+      "eval_steps_per_second": 1.682,
+      "step": 3800
+    },
+    {
+      "epoch": 0.0765,
+      "grad_norm": 0.021337004595007786,
+      "learning_rate": 7.648e-06,
+      "loss": 2.4303,
+      "step": 3825
+    },
+    {
+      "epoch": 0.077,
+      "grad_norm": 0.020168500131750186,
+      "learning_rate": 7.698000000000002e-06,
+      "loss": 2.4298,
+      "step": 3850
+    },
+    {
+      "epoch": 0.0775,
+      "grad_norm": 0.020089032493824672,
+      "learning_rate": 7.748000000000001e-06,
+      "loss": 2.4151,
+      "step": 3875
+    },
+    {
+      "epoch": 0.078,
+      "grad_norm": 0.02462630071931115,
+      "learning_rate": 7.798e-06,
+      "loss": 2.4235,
+      "step": 3900
+    },
+    {
+      "epoch": 0.078,
+      "eval_loss": 2.431330442428589,
+      "eval_runtime": 33.093,
+      "eval_samples_per_second": 3.535,
+      "eval_steps_per_second": 1.783,
+      "step": 3900
+    },
+    {
+      "epoch": 0.0785,
+      "grad_norm": 0.0226705620922379,
+      "learning_rate": 7.848000000000002e-06,
+      "loss": 2.4185,
+      "step": 3925
+    },
+    {
+      "epoch": 0.079,
+      "grad_norm": 0.022075041269811142,
+      "learning_rate": 7.898e-06,
+      "loss": 2.4344,
+      "step": 3950
+    },
+    {
+      "epoch": 0.0795,
+      "grad_norm": 0.03932607113814955,
+      "learning_rate": 7.948e-06,
+      "loss": 2.4228,
+      "step": 3975
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.020604342831921824,
+      "learning_rate": 7.998e-06,
+      "loss": 2.4289,
+      "step": 4000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.430954933166504,
+      "eval_runtime": 33.1216,
+      "eval_samples_per_second": 3.532,
+      "eval_steps_per_second": 1.781,
+      "step": 4000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 1.114120770054783e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null