irodkin
/

run_20

PyTorch

Safetensors

armt

Model card Files Files and versions

xet

Community

irodkin commited on Oct 27, 2025

Commit

77505e6

verified ·

1 Parent(s): fcfa7e3

Training checkpoint at step 1000

Browse files

Files changed (1) hide show

trainer_state.json +369 -8

trainer_state.json CHANGED Viewed

@@ -1,19 +1,380 @@
 {
-  "best_global_step": null,
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 4e-05,
   "eval_steps": 100,
-  "global_step": 2,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
-  "log_history": [],
   "logging_steps": 25,
   "max_steps": 50000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
-  "save_steps": 1,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -26,7 +387,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6366403984621568.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1000,
+  "best_metric": 2.463880777359009,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_20/checkpoint-1000",
+  "epoch": 0.02,
   "eval_steps": 100,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0005,
+      "grad_norm": 39.75564521032967,
+      "learning_rate": 4.8e-08,
+      "loss": 3.6517,
+      "step": 25
+    },
+    {
+      "epoch": 0.001,
+      "grad_norm": 28.937531835097435,
+      "learning_rate": 9.8e-08,
+      "loss": 3.5931,
+      "step": 50
+    },
+    {
+      "epoch": 0.0015,
+      "grad_norm": 21.922720332659644,
+      "learning_rate": 1.4800000000000003e-07,
+      "loss": 3.3397,
+      "step": 75
+    },
+    {
+      "epoch": 0.002,
+      "grad_norm": 8.739610199908325,
+      "learning_rate": 1.9800000000000003e-07,
+      "loss": 3.1289,
+      "step": 100
+    },
+    {
+      "epoch": 0.002,
+      "eval_loss": 2.9243295192718506,
+      "eval_runtime": 264.3302,
+      "eval_samples_per_second": 3.11,
+      "eval_steps_per_second": 1.555,
+      "step": 100
+    },
+    {
+      "epoch": 0.0025,
+      "grad_norm": 4.433912600039677,
+      "learning_rate": 2.48e-07,
+      "loss": 2.8957,
+      "step": 125
+    },
+    {
+      "epoch": 0.003,
+      "grad_norm": 3.2874790066620303,
+      "learning_rate": 2.9800000000000005e-07,
+      "loss": 2.763,
+      "step": 150
+    },
+    {
+      "epoch": 0.0035,
+      "grad_norm": 1.5203472215469231,
+      "learning_rate": 3.48e-07,
+      "loss": 2.676,
+      "step": 175
+    },
+    {
+      "epoch": 0.004,
+      "grad_norm": 1.1945541683905954,
+      "learning_rate": 3.9800000000000004e-07,
+      "loss": 2.635,
+      "step": 200
+    },
+    {
+      "epoch": 0.004,
+      "eval_loss": 2.6094932556152344,
+      "eval_runtime": 265.7702,
+      "eval_samples_per_second": 3.093,
+      "eval_steps_per_second": 1.546,
+      "step": 200
+    },
+    {
+      "epoch": 0.0045,
+      "grad_norm": 1.0852713304633745,
+      "learning_rate": 4.4800000000000004e-07,
+      "loss": 2.6016,
+      "step": 225
+    },
+    {
+      "epoch": 0.005,
+      "grad_norm": 1.0733940346699529,
+      "learning_rate": 4.98e-07,
+      "loss": 2.5797,
+      "step": 250
+    },
+    {
+      "epoch": 0.0055,
+      "grad_norm": 0.9273949035031271,
+      "learning_rate": 5.480000000000001e-07,
+      "loss": 2.5607,
+      "step": 275
+    },
+    {
+      "epoch": 0.006,
+      "grad_norm": 0.9289300678591714,
+      "learning_rate": 5.98e-07,
+      "loss": 2.552,
+      "step": 300
+    },
+    {
+      "epoch": 0.006,
+      "eval_loss": 2.541522264480591,
+      "eval_runtime": 266.7478,
+      "eval_samples_per_second": 3.082,
+      "eval_steps_per_second": 1.541,
+      "step": 300
+    },
+    {
+      "epoch": 0.0065,
+      "grad_norm": 1.1328584507449984,
+      "learning_rate": 6.48e-07,
+      "loss": 2.5402,
+      "step": 325
+    },
+    {
+      "epoch": 0.007,
+      "grad_norm": 0.8593307029257858,
+      "learning_rate": 6.98e-07,
+      "loss": 2.5286,
+      "step": 350
+    },
+    {
+      "epoch": 0.0075,
+      "grad_norm": 0.895615604067586,
+      "learning_rate": 7.480000000000001e-07,
+      "loss": 2.5311,
+      "step": 375
+    },
+    {
+      "epoch": 0.008,
+      "grad_norm": 0.912306580242149,
+      "learning_rate": 7.98e-07,
+      "loss": 2.5037,
+      "step": 400
+    },
+    {
+      "epoch": 0.008,
+      "eval_loss": 2.514389991760254,
+      "eval_runtime": 266.4899,
+      "eval_samples_per_second": 3.085,
+      "eval_steps_per_second": 1.542,
+      "step": 400
+    },
+    {
+      "epoch": 0.0085,
+      "grad_norm": 1.1866535514670034,
+      "learning_rate": 8.480000000000001e-07,
+      "loss": 2.5011,
+      "step": 425
+    },
+    {
+      "epoch": 0.009,
+      "grad_norm": 1.211342504193914,
+      "learning_rate": 8.980000000000001e-07,
+      "loss": 2.503,
+      "step": 450
+    },
+    {
+      "epoch": 0.0095,
+      "grad_norm": 1.113763817383069,
+      "learning_rate": 9.480000000000001e-07,
+      "loss": 2.4999,
+      "step": 475
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 1.2585585589647226,
+      "learning_rate": 9.98e-07,
+      "loss": 2.4872,
+      "step": 500
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.497868061065674,
+      "eval_runtime": 265.7962,
+      "eval_samples_per_second": 3.093,
+      "eval_steps_per_second": 1.546,
+      "step": 500
+    },
+    {
+      "epoch": 0.0105,
+      "grad_norm": 1.2585825718084245,
+      "learning_rate": 1.0480000000000002e-06,
+      "loss": 2.4852,
+      "step": 525
+    },
+    {
+      "epoch": 0.011,
+      "grad_norm": 1.4101257437846046,
+      "learning_rate": 1.0980000000000001e-06,
+      "loss": 2.4892,
+      "step": 550
+    },
+    {
+      "epoch": 0.0115,
+      "grad_norm": 1.1975234150707363,
+      "learning_rate": 1.148e-06,
+      "loss": 2.4861,
+      "step": 575
+    },
+    {
+      "epoch": 0.012,
+      "grad_norm": 1.3662769225582332,
+      "learning_rate": 1.1980000000000002e-06,
+      "loss": 2.4882,
+      "step": 600
+    },
+    {
+      "epoch": 0.012,
+      "eval_loss": 2.4879231452941895,
+      "eval_runtime": 267.0005,
+      "eval_samples_per_second": 3.079,
+      "eval_steps_per_second": 1.539,
+      "step": 600
+    },
+    {
+      "epoch": 0.0125,
+      "grad_norm": 1.3086724275194024,
+      "learning_rate": 1.248e-06,
+      "loss": 2.4745,
+      "step": 625
+    },
+    {
+      "epoch": 0.013,
+      "grad_norm": 1.317023206802888,
+      "learning_rate": 1.2980000000000001e-06,
+      "loss": 2.4727,
+      "step": 650
+    },
+    {
+      "epoch": 0.0135,
+      "grad_norm": 1.5284967544483212,
+      "learning_rate": 1.348e-06,
+      "loss": 2.469,
+      "step": 675
+    },
+    {
+      "epoch": 0.014,
+      "grad_norm": 1.1047595217316941,
+      "learning_rate": 1.3980000000000002e-06,
+      "loss": 2.4695,
+      "step": 700
+    },
+    {
+      "epoch": 0.014,
+      "eval_loss": 2.480103015899658,
+      "eval_runtime": 263.5022,
+      "eval_samples_per_second": 3.12,
+      "eval_steps_per_second": 1.56,
+      "step": 700
+    },
+    {
+      "epoch": 0.0145,
+      "grad_norm": 1.2077328209863791,
+      "learning_rate": 1.4480000000000002e-06,
+      "loss": 2.4654,
+      "step": 725
+    },
+    {
+      "epoch": 0.015,
+      "grad_norm": 1.209220841771836,
+      "learning_rate": 1.498e-06,
+      "loss": 2.4663,
+      "step": 750
+    },
+    {
+      "epoch": 0.0155,
+      "grad_norm": 1.3063169829879686,
+      "learning_rate": 1.548e-06,
+      "loss": 2.4704,
+      "step": 775
+    },
+    {
+      "epoch": 0.016,
+      "grad_norm": 1.3180183352683195,
+      "learning_rate": 1.5980000000000002e-06,
+      "loss": 2.4583,
+      "step": 800
+    },
+    {
+      "epoch": 0.016,
+      "eval_loss": 2.473590850830078,
+      "eval_runtime": 305.9875,
+      "eval_samples_per_second": 2.686,
+      "eval_steps_per_second": 1.343,
+      "step": 800
+    },
+    {
+      "epoch": 0.0165,
+      "grad_norm": 1.1674852380778837,
+      "learning_rate": 1.6480000000000001e-06,
+      "loss": 2.467,
+      "step": 825
+    },
+    {
+      "epoch": 0.017,
+      "grad_norm": 1.2497656349941002,
+      "learning_rate": 1.6980000000000003e-06,
+      "loss": 2.4612,
+      "step": 850
+    },
+    {
+      "epoch": 0.0175,
+      "grad_norm": 1.3358614980967494,
+      "learning_rate": 1.7480000000000002e-06,
+      "loss": 2.4636,
+      "step": 875
+    },
+    {
+      "epoch": 0.018,
+      "grad_norm": 1.252489857653356,
+      "learning_rate": 1.798e-06,
+      "loss": 2.454,
+      "step": 900
+    },
+    {
+      "epoch": 0.018,
+      "eval_loss": 2.4681763648986816,
+      "eval_runtime": 264.702,
+      "eval_samples_per_second": 3.105,
+      "eval_steps_per_second": 1.553,
+      "step": 900
+    },
+    {
+      "epoch": 0.0185,
+      "grad_norm": 1.2815437998994337,
+      "learning_rate": 1.8480000000000001e-06,
+      "loss": 2.4571,
+      "step": 925
+    },
+    {
+      "epoch": 0.019,
+      "grad_norm": 1.0902475329451575,
+      "learning_rate": 1.898e-06,
+      "loss": 2.451,
+      "step": 950
+    },
+    {
+      "epoch": 0.0195,
+      "grad_norm": 1.1502696024965324,
+      "learning_rate": 1.9480000000000002e-06,
+      "loss": 2.4527,
+      "step": 975
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.2336661855806117,
+      "learning_rate": 1.998e-06,
+      "loss": 2.4496,
+      "step": 1000
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.463880777359009,
+      "eval_runtime": 275.7426,
+      "eval_samples_per_second": 2.981,
+      "eval_steps_per_second": 1.491,
+      "step": 1000
+    }
+  ],
   "logging_steps": 25,
   "max_steps": 50000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
+  "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 3.183202298327204e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null