irodkin
/

InnerLoopARMTForCausalLM_run_30

PyTorch

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Dec 24, 2025

Commit

b26eec1

verified ·

1 Parent(s): 08eb02b

Training checkpoint at step 3000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 2000,
-  "best_metric": 2.450512647628784,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_30/checkpoint-2000",
-  "epoch": 0.04,
   "eval_steps": 100,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -728,6 +728,366 @@
       "eval_samples_per_second": 3.516,
       "eval_steps_per_second": 1.773,
       "step": 2000
     }
   ],
   "logging_steps": 25,
@@ -747,7 +1107,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.570603850273915e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 3000,
+  "best_metric": 2.436969041824341,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_30/checkpoint-3000",
+  "epoch": 0.06,
   "eval_steps": 100,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.516,
       "eval_steps_per_second": 1.773,
       "step": 2000
+    },
+    {
+      "epoch": 0.0405,
+      "grad_norm": 0.034945541932647324,
+      "learning_rate": 4.048e-06,
+      "loss": 2.4357,
+      "step": 2025
+    },
+    {
+      "epoch": 0.041,
+      "grad_norm": 0.029322959861707003,
+      "learning_rate": 4.098e-06,
+      "loss": 2.4373,
+      "step": 2050
+    },
+    {
+      "epoch": 0.0415,
+      "grad_norm": 0.027365033479394632,
+      "learning_rate": 4.148000000000001e-06,
+      "loss": 2.442,
+      "step": 2075
+    },
+    {
+      "epoch": 0.042,
+      "grad_norm": 0.042214130565513416,
+      "learning_rate": 4.198e-06,
+      "loss": 2.4362,
+      "step": 2100
+    },
+    {
+      "epoch": 0.042,
+      "eval_loss": 2.448322296142578,
+      "eval_runtime": 33.466,
+      "eval_samples_per_second": 3.496,
+      "eval_steps_per_second": 1.763,
+      "step": 2100
+    },
+    {
+      "epoch": 0.0425,
+      "grad_norm": 0.028874346576168566,
+      "learning_rate": 4.248000000000001e-06,
+      "loss": 2.4428,
+      "step": 2125
+    },
+    {
+      "epoch": 0.043,
+      "grad_norm": 0.029771861998040296,
+      "learning_rate": 4.298e-06,
+      "loss": 2.4298,
+      "step": 2150
+    },
+    {
+      "epoch": 0.0435,
+      "grad_norm": 0.029668415484575914,
+      "learning_rate": 4.3480000000000006e-06,
+      "loss": 2.4352,
+      "step": 2175
+    },
+    {
+      "epoch": 0.044,
+      "grad_norm": 0.02564927582570633,
+      "learning_rate": 4.398000000000001e-06,
+      "loss": 2.4349,
+      "step": 2200
+    },
+    {
+      "epoch": 0.044,
+      "eval_loss": 2.4465889930725098,
+      "eval_runtime": 33.3555,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 1.769,
+      "step": 2200
+    },
+    {
+      "epoch": 0.0445,
+      "grad_norm": 0.024797235968250814,
+      "learning_rate": 4.4480000000000004e-06,
+      "loss": 2.4409,
+      "step": 2225
+    },
+    {
+      "epoch": 0.045,
+      "grad_norm": 0.02813189377877088,
+      "learning_rate": 4.498e-06,
+      "loss": 2.4367,
+      "step": 2250
+    },
+    {
+      "epoch": 0.0455,
+      "grad_norm": 0.02750903211389184,
+      "learning_rate": 4.548e-06,
+      "loss": 2.4326,
+      "step": 2275
+    },
+    {
+      "epoch": 0.046,
+      "grad_norm": 0.027737559952553607,
+      "learning_rate": 4.598e-06,
+      "loss": 2.4375,
+      "step": 2300
+    },
+    {
+      "epoch": 0.046,
+      "eval_loss": 2.4448626041412354,
+      "eval_runtime": 33.2658,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.774,
+      "step": 2300
+    },
+    {
+      "epoch": 0.0465,
+      "grad_norm": 0.02630663299301831,
+      "learning_rate": 4.648e-06,
+      "loss": 2.4392,
+      "step": 2325
+    },
+    {
+      "epoch": 0.047,
+      "grad_norm": 0.027929449055597393,
+      "learning_rate": 4.698000000000001e-06,
+      "loss": 2.4256,
+      "step": 2350
+    },
+    {
+      "epoch": 0.0475,
+      "grad_norm": 0.0283193243102273,
+      "learning_rate": 4.748e-06,
+      "loss": 2.429,
+      "step": 2375
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 0.029295313451333963,
+      "learning_rate": 4.7980000000000005e-06,
+      "loss": 2.4393,
+      "step": 2400
+    },
+    {
+      "epoch": 0.048,
+      "eval_loss": 2.4432175159454346,
+      "eval_runtime": 33.3067,
+      "eval_samples_per_second": 3.513,
+      "eval_steps_per_second": 1.771,
+      "step": 2400
+    },
+    {
+      "epoch": 0.0485,
+      "grad_norm": 0.025382897552394503,
+      "learning_rate": 4.848000000000001e-06,
+      "loss": 2.4322,
+      "step": 2425
+    },
+    {
+      "epoch": 0.049,
+      "grad_norm": 0.02450548193909556,
+      "learning_rate": 4.898e-06,
+      "loss": 2.4314,
+      "step": 2450
+    },
+    {
+      "epoch": 0.0495,
+      "grad_norm": 0.033065483070063684,
+      "learning_rate": 4.948000000000001e-06,
+      "loss": 2.4338,
+      "step": 2475
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.027543894857825314,
+      "learning_rate": 4.998e-06,
+      "loss": 2.4333,
+      "step": 2500
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.441807985305786,
+      "eval_runtime": 33.0379,
+      "eval_samples_per_second": 3.541,
+      "eval_steps_per_second": 1.786,
+      "step": 2500
+    },
+    {
+      "epoch": 0.0505,
+      "grad_norm": 0.027354239436717945,
+      "learning_rate": 5.048000000000001e-06,
+      "loss": 2.439,
+      "step": 2525
+    },
+    {
+      "epoch": 0.051,
+      "grad_norm": 0.022458884368301627,
+      "learning_rate": 5.098000000000001e-06,
+      "loss": 2.427,
+      "step": 2550
+    },
+    {
+      "epoch": 0.0515,
+      "grad_norm": 0.033350881745701555,
+      "learning_rate": 5.1480000000000005e-06,
+      "loss": 2.4275,
+      "step": 2575
+    },
+    {
+      "epoch": 0.052,
+      "grad_norm": 0.025032545530163004,
+      "learning_rate": 5.198000000000001e-06,
+      "loss": 2.4275,
+      "step": 2600
+    },
+    {
+      "epoch": 0.052,
+      "eval_loss": 2.440882444381714,
+      "eval_runtime": 33.1835,
+      "eval_samples_per_second": 3.526,
+      "eval_steps_per_second": 1.778,
+      "step": 2600
+    },
+    {
+      "epoch": 0.0525,
+      "grad_norm": 0.026294170044068685,
+      "learning_rate": 5.248000000000001e-06,
+      "loss": 2.4312,
+      "step": 2625
+    },
+    {
+      "epoch": 0.053,
+      "grad_norm": 0.03301155351988982,
+      "learning_rate": 5.298000000000001e-06,
+      "loss": 2.4203,
+      "step": 2650
+    },
+    {
+      "epoch": 0.0535,
+      "grad_norm": 0.02389586194961339,
+      "learning_rate": 5.348000000000001e-06,
+      "loss": 2.4332,
+      "step": 2675
+    },
+    {
+      "epoch": 0.054,
+      "grad_norm": 0.056862279743176244,
+      "learning_rate": 5.398e-06,
+      "loss": 2.4313,
+      "step": 2700
+    },
+    {
+      "epoch": 0.054,
+      "eval_loss": 2.4402644634246826,
+      "eval_runtime": 33.2071,
+      "eval_samples_per_second": 3.523,
+      "eval_steps_per_second": 1.777,
+      "step": 2700
+    },
+    {
+      "epoch": 0.0545,
+      "grad_norm": 0.025636671246445756,
+      "learning_rate": 5.448e-06,
+      "loss": 2.4311,
+      "step": 2725
+    },
+    {
+      "epoch": 0.055,
+      "grad_norm": 0.022083605910153424,
+      "learning_rate": 5.498e-06,
+      "loss": 2.4357,
+      "step": 2750
+    },
+    {
+      "epoch": 0.0555,
+      "grad_norm": 0.024223735712298522,
+      "learning_rate": 5.548e-06,
+      "loss": 2.4294,
+      "step": 2775
+    },
+    {
+      "epoch": 0.056,
+      "grad_norm": 0.029847698463432104,
+      "learning_rate": 5.5980000000000004e-06,
+      "loss": 2.4344,
+      "step": 2800
+    },
+    {
+      "epoch": 0.056,
+      "eval_loss": 2.4389007091522217,
+      "eval_runtime": 33.2705,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.773,
+      "step": 2800
+    },
+    {
+      "epoch": 0.0565,
+      "grad_norm": 0.032144633236930065,
+      "learning_rate": 5.648e-06,
+      "loss": 2.4282,
+      "step": 2825
+    },
+    {
+      "epoch": 0.057,
+      "grad_norm": 0.02355863809037046,
+      "learning_rate": 5.698e-06,
+      "loss": 2.4322,
+      "step": 2850
+    },
+    {
+      "epoch": 0.0575,
+      "grad_norm": 0.023728744427970416,
+      "learning_rate": 5.748e-06,
+      "loss": 2.4286,
+      "step": 2875
+    },
+    {
+      "epoch": 0.058,
+      "grad_norm": 0.025539915034515293,
+      "learning_rate": 5.798e-06,
+      "loss": 2.4287,
+      "step": 2900
+    },
+    {
+      "epoch": 0.058,
+      "eval_loss": 2.4376914501190186,
+      "eval_runtime": 33.3179,
+      "eval_samples_per_second": 3.512,
+      "eval_steps_per_second": 1.771,
+      "step": 2900
+    },
+    {
+      "epoch": 0.0585,
+      "grad_norm": 0.023457547558388747,
+      "learning_rate": 5.848000000000001e-06,
+      "loss": 2.4289,
+      "step": 2925
+    },
+    {
+      "epoch": 0.059,
+      "grad_norm": 0.025297710201421797,
+      "learning_rate": 5.898e-06,
+      "loss": 2.4274,
+      "step": 2950
+    },
+    {
+      "epoch": 0.0595,
+      "grad_norm": 0.024155176530161276,
+      "learning_rate": 5.9480000000000005e-06,
+      "loss": 2.4169,
+      "step": 2975
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.023954841726960448,
+      "learning_rate": 5.998000000000001e-06,
+      "loss": 2.4244,
+      "step": 3000
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.436969041824341,
+      "eval_runtime": 33.2713,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.773,
+      "step": 3000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 8.355905775410872e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null