irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 12, 2025

Commit

81cbc68

verified ·

1 Parent(s): dc00825

Training checkpoint at step 17000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 15900,
-  "best_metric": 2.3957200050354004,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-15000",
-  "epoch": 0.32,
   "eval_steps": 100,
-  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5768,6 +5768,366 @@
       "eval_samples_per_second": 3.19,
       "eval_steps_per_second": 1.595,
       "step": 16000
     }
   ],
   "logging_steps": 25,
@@ -5787,7 +6147,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.093123677323526e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 17000,
+  "best_metric": 2.394216775894165,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-17000",
+  "epoch": 0.34,
   "eval_steps": 100,
+  "global_step": 17000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.19,
       "eval_steps_per_second": 1.595,
       "step": 16000
+    },
+    {
+      "epoch": 0.3205,
+      "grad_norm": 0.5490540509150809,
+      "learning_rate": 7.550222222222223e-06,
+      "loss": 2.3908,
+      "step": 16025
+    },
+    {
+      "epoch": 0.321,
+      "grad_norm": 0.5604566538327537,
+      "learning_rate": 7.5446666666666665e-06,
+      "loss": 2.3816,
+      "step": 16050
+    },
+    {
+      "epoch": 0.3215,
+      "grad_norm": 0.5482351645184266,
+      "learning_rate": 7.539111111111112e-06,
+      "loss": 2.3783,
+      "step": 16075
+    },
+    {
+      "epoch": 0.322,
+      "grad_norm": 0.5738611670880387,
+      "learning_rate": 7.533555555555556e-06,
+      "loss": 2.3807,
+      "step": 16100
+    },
+    {
+      "epoch": 0.322,
+      "eval_loss": 2.3955187797546387,
+      "eval_runtime": 31.7782,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 16100
+    },
+    {
+      "epoch": 0.3225,
+      "grad_norm": 0.6007459037823811,
+      "learning_rate": 7.528000000000001e-06,
+      "loss": 2.3908,
+      "step": 16125
+    },
+    {
+      "epoch": 0.323,
+      "grad_norm": 0.5719140015142068,
+      "learning_rate": 7.522444444444446e-06,
+      "loss": 2.379,
+      "step": 16150
+    },
+    {
+      "epoch": 0.3235,
+      "grad_norm": 0.5722843141001409,
+      "learning_rate": 7.516888888888889e-06,
+      "loss": 2.3831,
+      "step": 16175
+    },
+    {
+      "epoch": 0.324,
+      "grad_norm": 0.5500359198684006,
+      "learning_rate": 7.511333333333334e-06,
+      "loss": 2.3899,
+      "step": 16200
+    },
+    {
+      "epoch": 0.324,
+      "eval_loss": 2.3954145908355713,
+      "eval_runtime": 31.9265,
+      "eval_samples_per_second": 3.195,
+      "eval_steps_per_second": 1.597,
+      "step": 16200
+    },
+    {
+      "epoch": 0.3245,
+      "grad_norm": 0.5988197648020003,
+      "learning_rate": 7.505777777777778e-06,
+      "loss": 2.3768,
+      "step": 16225
+    },
+    {
+      "epoch": 0.325,
+      "grad_norm": 0.566314534087209,
+      "learning_rate": 7.5002222222222235e-06,
+      "loss": 2.3731,
+      "step": 16250
+    },
+    {
+      "epoch": 0.3255,
+      "grad_norm": 0.5462158611596983,
+      "learning_rate": 7.494666666666667e-06,
+      "loss": 2.3821,
+      "step": 16275
+    },
+    {
+      "epoch": 0.326,
+      "grad_norm": 0.5546038414202229,
+      "learning_rate": 7.4891111111111114e-06,
+      "loss": 2.3725,
+      "step": 16300
+    },
+    {
+      "epoch": 0.326,
+      "eval_loss": 2.395524501800537,
+      "eval_runtime": 31.8126,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 16300
+    },
+    {
+      "epoch": 0.3265,
+      "grad_norm": 0.5596467845027929,
+      "learning_rate": 7.483555555555556e-06,
+      "loss": 2.3843,
+      "step": 16325
+    },
+    {
+      "epoch": 0.327,
+      "grad_norm": 0.5815120805791782,
+      "learning_rate": 7.478000000000001e-06,
+      "loss": 2.3815,
+      "step": 16350
+    },
+    {
+      "epoch": 0.3275,
+      "grad_norm": 0.5597449596999192,
+      "learning_rate": 7.4724444444444455e-06,
+      "loss": 2.3732,
+      "step": 16375
+    },
+    {
+      "epoch": 0.328,
+      "grad_norm": 0.5818958282150155,
+      "learning_rate": 7.466888888888889e-06,
+      "loss": 2.3793,
+      "step": 16400
+    },
+    {
+      "epoch": 0.328,
+      "eval_loss": 2.3949294090270996,
+      "eval_runtime": 31.7738,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 16400
+    },
+    {
+      "epoch": 0.3285,
+      "grad_norm": 0.5662000485734395,
+      "learning_rate": 7.4613333333333334e-06,
+      "loss": 2.3812,
+      "step": 16425
+    },
+    {
+      "epoch": 0.329,
+      "grad_norm": 0.5563577533028059,
+      "learning_rate": 7.455777777777779e-06,
+      "loss": 2.3761,
+      "step": 16450
+    },
+    {
+      "epoch": 0.3295,
+      "grad_norm": 0.5687992956190129,
+      "learning_rate": 7.450222222222223e-06,
+      "loss": 2.381,
+      "step": 16475
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 0.5487444076942639,
+      "learning_rate": 7.4446666666666675e-06,
+      "loss": 2.3883,
+      "step": 16500
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 2.395174026489258,
+      "eval_runtime": 31.7762,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 16500
+    },
+    {
+      "epoch": 0.3305,
+      "grad_norm": 0.5469101598299175,
+      "learning_rate": 7.439111111111111e-06,
+      "loss": 2.3766,
+      "step": 16525
+    },
+    {
+      "epoch": 0.331,
+      "grad_norm": 0.5567200858341991,
+      "learning_rate": 7.433555555555556e-06,
+      "loss": 2.3939,
+      "step": 16550
+    },
+    {
+      "epoch": 0.3315,
+      "grad_norm": 0.600536691861987,
+      "learning_rate": 7.428000000000001e-06,
+      "loss": 2.3822,
+      "step": 16575
+    },
+    {
+      "epoch": 0.332,
+      "grad_norm": 0.5505048207350117,
+      "learning_rate": 7.422444444444445e-06,
+      "loss": 2.378,
+      "step": 16600
+    },
+    {
+      "epoch": 0.332,
+      "eval_loss": 2.39481520652771,
+      "eval_runtime": 31.8394,
+      "eval_samples_per_second": 3.204,
+      "eval_steps_per_second": 1.602,
+      "step": 16600
+    },
+    {
+      "epoch": 0.3325,
+      "grad_norm": 0.5492676702406505,
+      "learning_rate": 7.416888888888889e-06,
+      "loss": 2.3769,
+      "step": 16625
+    },
+    {
+      "epoch": 0.333,
+      "grad_norm": 0.5492443037384863,
+      "learning_rate": 7.411333333333334e-06,
+      "loss": 2.3701,
+      "step": 16650
+    },
+    {
+      "epoch": 0.3335,
+      "grad_norm": 0.5857568383624908,
+      "learning_rate": 7.405777777777778e-06,
+      "loss": 2.381,
+      "step": 16675
+    },
+    {
+      "epoch": 0.334,
+      "grad_norm": 0.5647204860919086,
+      "learning_rate": 7.400222222222223e-06,
+      "loss": 2.3819,
+      "step": 16700
+    },
+    {
+      "epoch": 0.334,
+      "eval_loss": 2.394426107406616,
+      "eval_runtime": 31.892,
+      "eval_samples_per_second": 3.198,
+      "eval_steps_per_second": 1.599,
+      "step": 16700
+    },
+    {
+      "epoch": 0.3345,
+      "grad_norm": 0.5730702201176824,
+      "learning_rate": 7.394666666666668e-06,
+      "loss": 2.3857,
+      "step": 16725
+    },
+    {
+      "epoch": 0.335,
+      "grad_norm": 0.5521969424083262,
+      "learning_rate": 7.3891111111111115e-06,
+      "loss": 2.363,
+      "step": 16750
+    },
+    {
+      "epoch": 0.3355,
+      "grad_norm": 0.6057695700506919,
+      "learning_rate": 7.383555555555556e-06,
+      "loss": 2.3848,
+      "step": 16775
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 0.5749986280132275,
+      "learning_rate": 7.378e-06,
+      "loss": 2.389,
+      "step": 16800
+    },
+    {
+      "epoch": 0.336,
+      "eval_loss": 2.3945508003234863,
+      "eval_runtime": 31.7463,
+      "eval_samples_per_second": 3.213,
+      "eval_steps_per_second": 1.606,
+      "step": 16800
+    },
+    {
+      "epoch": 0.3365,
+      "grad_norm": 0.5947076066210849,
+      "learning_rate": 7.372444444444446e-06,
+      "loss": 2.3865,
+      "step": 16825
+    },
+    {
+      "epoch": 0.337,
+      "grad_norm": 0.564221658006085,
+      "learning_rate": 7.366888888888889e-06,
+      "loss": 2.3696,
+      "step": 16850
+    },
+    {
+      "epoch": 0.3375,
+      "grad_norm": 0.5702041520098122,
+      "learning_rate": 7.3613333333333336e-06,
+      "loss": 2.3872,
+      "step": 16875
+    },
+    {
+      "epoch": 0.338,
+      "grad_norm": 0.5538661614565709,
+      "learning_rate": 7.355777777777778e-06,
+      "loss": 2.3828,
+      "step": 16900
+    },
+    {
+      "epoch": 0.338,
+      "eval_loss": 2.3942644596099854,
+      "eval_runtime": 31.8144,
+      "eval_samples_per_second": 3.206,
+      "eval_steps_per_second": 1.603,
+      "step": 16900
+    },
+    {
+      "epoch": 0.3385,
+      "grad_norm": 0.5614412730199092,
+      "learning_rate": 7.350222222222223e-06,
+      "loss": 2.3898,
+      "step": 16925
+    },
+    {
+      "epoch": 0.339,
+      "grad_norm": 0.5656638849693418,
+      "learning_rate": 7.344666666666668e-06,
+      "loss": 2.3639,
+      "step": 16950
+    },
+    {
+      "epoch": 0.3395,
+      "grad_norm": 0.5587793192894792,
+      "learning_rate": 7.339111111111111e-06,
+      "loss": 2.3761,
+      "step": 16975
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 0.5537041511919,
+      "learning_rate": 7.3335555555555556e-06,
+      "loss": 2.3785,
+      "step": 17000
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 2.394216775894165,
+      "eval_runtime": 31.7287,
+      "eval_samples_per_second": 3.215,
+      "eval_steps_per_second": 1.607,
+      "step": 17000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 5.4114439071562465e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null