irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 6, 2025

Commit

35bf3f2

verified ·

1 Parent(s): aa93063

Training checkpoint at step 7000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 6000,
-  "best_metric": 2.4190170764923096,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-6000",
-  "epoch": 0.12,
   "eval_steps": 100,
-  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2168,6 +2168,366 @@
       "eval_samples_per_second": 3.19,
       "eval_steps_per_second": 1.595,
       "step": 6000
     }
   ],
   "logging_steps": 25,
@@ -2187,7 +2547,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9099213789963223e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 7000,
+  "best_metric": 2.415269374847412,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-7000",
+  "epoch": 0.14,
   "eval_steps": 100,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.19,
       "eval_steps_per_second": 1.595,
       "step": 6000
+    },
+    {
+      "epoch": 0.1205,
+      "grad_norm": 0.5979904516506753,
+      "learning_rate": 9.772444444444445e-06,
+      "loss": 2.4044,
+      "step": 6025
+    },
+    {
+      "epoch": 0.121,
+      "grad_norm": 0.5980588594331456,
+      "learning_rate": 9.76688888888889e-06,
+      "loss": 2.41,
+      "step": 6050
+    },
+    {
+      "epoch": 0.1215,
+      "grad_norm": 0.6344150039672136,
+      "learning_rate": 9.761333333333334e-06,
+      "loss": 2.4,
+      "step": 6075
+    },
+    {
+      "epoch": 0.122,
+      "grad_norm": 0.6035110768502723,
+      "learning_rate": 9.755777777777778e-06,
+      "loss": 2.4148,
+      "step": 6100
+    },
+    {
+      "epoch": 0.122,
+      "eval_loss": 2.418259382247925,
+      "eval_runtime": 31.784,
+      "eval_samples_per_second": 3.209,
+      "eval_steps_per_second": 1.605,
+      "step": 6100
+    },
+    {
+      "epoch": 0.1225,
+      "grad_norm": 0.5792932239951794,
+      "learning_rate": 9.750222222222223e-06,
+      "loss": 2.4061,
+      "step": 6125
+    },
+    {
+      "epoch": 0.123,
+      "grad_norm": 0.6529554995007899,
+      "learning_rate": 9.744666666666668e-06,
+      "loss": 2.4036,
+      "step": 6150
+    },
+    {
+      "epoch": 0.1235,
+      "grad_norm": 0.5946064726146467,
+      "learning_rate": 9.739111111111112e-06,
+      "loss": 2.4014,
+      "step": 6175
+    },
+    {
+      "epoch": 0.124,
+      "grad_norm": 0.5739473618849045,
+      "learning_rate": 9.733555555555555e-06,
+      "loss": 2.4057,
+      "step": 6200
+    },
+    {
+      "epoch": 0.124,
+      "eval_loss": 2.4179208278656006,
+      "eval_runtime": 31.6981,
+      "eval_samples_per_second": 3.218,
+      "eval_steps_per_second": 1.609,
+      "step": 6200
+    },
+    {
+      "epoch": 0.1245,
+      "grad_norm": 0.6907211114020956,
+      "learning_rate": 9.728e-06,
+      "loss": 2.393,
+      "step": 6225
+    },
+    {
+      "epoch": 0.125,
+      "grad_norm": 0.6225931887903327,
+      "learning_rate": 9.722444444444446e-06,
+      "loss": 2.4147,
+      "step": 6250
+    },
+    {
+      "epoch": 0.1255,
+      "grad_norm": 0.568397246680531,
+      "learning_rate": 9.71688888888889e-06,
+      "loss": 2.4024,
+      "step": 6275
+    },
+    {
+      "epoch": 0.126,
+      "grad_norm": 0.5842879344272728,
+      "learning_rate": 9.711333333333333e-06,
+      "loss": 2.404,
+      "step": 6300
+    },
+    {
+      "epoch": 0.126,
+      "eval_loss": 2.4178576469421387,
+      "eval_runtime": 31.7994,
+      "eval_samples_per_second": 3.208,
+      "eval_steps_per_second": 1.604,
+      "step": 6300
+    },
+    {
+      "epoch": 0.1265,
+      "grad_norm": 0.5805192382099048,
+      "learning_rate": 9.705777777777778e-06,
+      "loss": 2.4063,
+      "step": 6325
+    },
+    {
+      "epoch": 0.127,
+      "grad_norm": 0.6600294122711824,
+      "learning_rate": 9.700222222222224e-06,
+      "loss": 2.4078,
+      "step": 6350
+    },
+    {
+      "epoch": 0.1275,
+      "grad_norm": 0.6263098682936462,
+      "learning_rate": 9.694666666666667e-06,
+      "loss": 2.3961,
+      "step": 6375
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.6961912679129473,
+      "learning_rate": 9.68911111111111e-06,
+      "loss": 2.4127,
+      "step": 6400
+    },
+    {
+      "epoch": 0.128,
+      "eval_loss": 2.417247772216797,
+      "eval_runtime": 31.7325,
+      "eval_samples_per_second": 3.214,
+      "eval_steps_per_second": 1.607,
+      "step": 6400
+    },
+    {
+      "epoch": 0.1285,
+      "grad_norm": 0.6396950069271417,
+      "learning_rate": 9.683555555555556e-06,
+      "loss": 2.4041,
+      "step": 6425
+    },
+    {
+      "epoch": 0.129,
+      "grad_norm": 0.6164180606933177,
+      "learning_rate": 9.678000000000001e-06,
+      "loss": 2.4,
+      "step": 6450
+    },
+    {
+      "epoch": 0.1295,
+      "grad_norm": 0.6120640198257105,
+      "learning_rate": 9.672444444444445e-06,
+      "loss": 2.3966,
+      "step": 6475
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 0.6013045247718226,
+      "learning_rate": 9.66688888888889e-06,
+      "loss": 2.3991,
+      "step": 6500
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.417280673980713,
+      "eval_runtime": 31.8112,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 6500
+    },
+    {
+      "epoch": 0.1305,
+      "grad_norm": 0.6061836537875764,
+      "learning_rate": 9.661333333333334e-06,
+      "loss": 2.4161,
+      "step": 6525
+    },
+    {
+      "epoch": 0.131,
+      "grad_norm": 0.6100864625060891,
+      "learning_rate": 9.655777777777779e-06,
+      "loss": 2.4052,
+      "step": 6550
+    },
+    {
+      "epoch": 0.1315,
+      "grad_norm": 0.6932893052541476,
+      "learning_rate": 9.650222222222222e-06,
+      "loss": 2.4036,
+      "step": 6575
+    },
+    {
+      "epoch": 0.132,
+      "grad_norm": 0.5859072202807338,
+      "learning_rate": 9.644666666666668e-06,
+      "loss": 2.4045,
+      "step": 6600
+    },
+    {
+      "epoch": 0.132,
+      "eval_loss": 2.416877031326294,
+      "eval_runtime": 31.5203,
+      "eval_samples_per_second": 3.236,
+      "eval_steps_per_second": 1.618,
+      "step": 6600
+    },
+    {
+      "epoch": 0.1325,
+      "grad_norm": 0.579002436095642,
+      "learning_rate": 9.639111111111113e-06,
+      "loss": 2.4015,
+      "step": 6625
+    },
+    {
+      "epoch": 0.133,
+      "grad_norm": 0.5968858601649685,
+      "learning_rate": 9.633555555555556e-06,
+      "loss": 2.3986,
+      "step": 6650
+    },
+    {
+      "epoch": 0.1335,
+      "grad_norm": 0.5964714549861985,
+      "learning_rate": 9.628e-06,
+      "loss": 2.4062,
+      "step": 6675
+    },
+    {
+      "epoch": 0.134,
+      "grad_norm": 0.6126102944808797,
+      "learning_rate": 9.622444444444445e-06,
+      "loss": 2.4033,
+      "step": 6700
+    },
+    {
+      "epoch": 0.134,
+      "eval_loss": 2.4164350032806396,
+      "eval_runtime": 31.4543,
+      "eval_samples_per_second": 3.243,
+      "eval_steps_per_second": 1.621,
+      "step": 6700
+    },
+    {
+      "epoch": 0.1345,
+      "grad_norm": 0.5774452345333466,
+      "learning_rate": 9.61688888888889e-06,
+      "loss": 2.3997,
+      "step": 6725
+    },
+    {
+      "epoch": 0.135,
+      "grad_norm": 0.6227260743975279,
+      "learning_rate": 9.611333333333334e-06,
+      "loss": 2.4018,
+      "step": 6750
+    },
+    {
+      "epoch": 0.1355,
+      "grad_norm": 0.5846707991616706,
+      "learning_rate": 9.605777777777778e-06,
+      "loss": 2.3985,
+      "step": 6775
+    },
+    {
+      "epoch": 0.136,
+      "grad_norm": 0.6172483484063671,
+      "learning_rate": 9.600222222222223e-06,
+      "loss": 2.4213,
+      "step": 6800
+    },
+    {
+      "epoch": 0.136,
+      "eval_loss": 2.41625714302063,
+      "eval_runtime": 31.5517,
+      "eval_samples_per_second": 3.233,
+      "eval_steps_per_second": 1.616,
+      "step": 6800
+    },
+    {
+      "epoch": 0.1365,
+      "grad_norm": 0.5965299711032601,
+      "learning_rate": 9.594666666666668e-06,
+      "loss": 2.3976,
+      "step": 6825
+    },
+    {
+      "epoch": 0.137,
+      "grad_norm": 0.5884739304234496,
+      "learning_rate": 9.589111111111112e-06,
+      "loss": 2.3947,
+      "step": 6850
+    },
+    {
+      "epoch": 0.1375,
+      "grad_norm": 0.5737065693146471,
+      "learning_rate": 9.583555555555555e-06,
+      "loss": 2.3983,
+      "step": 6875
+    },
+    {
+      "epoch": 0.138,
+      "grad_norm": 0.6249698819825935,
+      "learning_rate": 9.578e-06,
+      "loss": 2.4008,
+      "step": 6900
+    },
+    {
+      "epoch": 0.138,
+      "eval_loss": 2.4156551361083984,
+      "eval_runtime": 31.5071,
+      "eval_samples_per_second": 3.237,
+      "eval_steps_per_second": 1.619,
+      "step": 6900
+    },
+    {
+      "epoch": 0.1385,
+      "grad_norm": 0.5930008566650997,
+      "learning_rate": 9.572444444444446e-06,
+      "loss": 2.3951,
+      "step": 6925
+    },
+    {
+      "epoch": 0.139,
+      "grad_norm": 0.6564746022716046,
+      "learning_rate": 9.56688888888889e-06,
+      "loss": 2.4083,
+      "step": 6950
+    },
+    {
+      "epoch": 0.1395,
+      "grad_norm": 0.611311960098376,
+      "learning_rate": 9.561333333333333e-06,
+      "loss": 2.4032,
+      "step": 6975
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.594692534551516,
+      "learning_rate": 9.555777777777778e-06,
+      "loss": 2.41,
+      "step": 7000
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.415269374847412,
+      "eval_runtime": 31.7535,
+      "eval_samples_per_second": 3.212,
+      "eval_steps_per_second": 1.606,
+      "step": 7000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 2.2282416088290427e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null