irodkin
/

InnerLoopARMTForCausalLM_run_30

+{
+  "best_global_step": 1000,
+  "best_metric": 2.493894577026367,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_7x1024_mem32_bs64_hf_armt_dmem64/run_30/checkpoint-1000",
+  "epoch": 0.02,
+  "eval_steps": 100,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0005,
+      "grad_norm": 1.374199618670654,
+      "learning_rate": 4.8e-08,
+      "loss": 3.8192,
+      "step": 25
+    },
+    {
+      "epoch": 0.001,
+      "grad_norm": 1.0626796430084513,
+      "learning_rate": 9.8e-08,
+      "loss": 3.7481,
+      "step": 50
+    },
+    {
+      "epoch": 0.0015,
+      "grad_norm": 0.554900729210382,
+      "learning_rate": 1.4800000000000003e-07,
+      "loss": 3.5249,
+      "step": 75
+    },
+    {
+      "epoch": 0.002,
+      "grad_norm": 0.407340177021375,
+      "learning_rate": 1.9800000000000003e-07,
+      "loss": 3.3424,
+      "step": 100
+    },
+    {
+      "epoch": 0.002,
+      "eval_loss": 3.072638988494873,
+      "eval_runtime": 33.0855,
+      "eval_samples_per_second": 3.536,
+      "eval_steps_per_second": 1.783,
+      "step": 100
+    },
+    {
+      "epoch": 0.0025,
+      "grad_norm": 0.22554288925827917,
+      "learning_rate": 2.48e-07,
+      "loss": 3.1284,
+      "step": 125
+    },
+    {
+      "epoch": 0.003,
+      "grad_norm": 0.14377524138618566,
+      "learning_rate": 2.9800000000000005e-07,
+      "loss": 2.9699,
+      "step": 150
+    },
+    {
+      "epoch": 0.0035,
+      "grad_norm": 0.1273100096023732,
+      "learning_rate": 3.48e-07,
+      "loss": 2.8784,
+      "step": 175
+    },
+    {
+      "epoch": 0.004,
+      "grad_norm": 0.08052145135761532,
+      "learning_rate": 3.9800000000000004e-07,
+      "loss": 2.808,
+      "step": 200
+    },
+    {
+      "epoch": 0.004,
+      "eval_loss": 2.7464711666107178,
+      "eval_runtime": 33.2528,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 1.774,
+      "step": 200
+    },
+    {
+      "epoch": 0.0045,
+      "grad_norm": 0.09601426553193865,
+      "learning_rate": 4.4800000000000004e-07,
+      "loss": 2.7735,
+      "step": 225
+    },
+    {
+      "epoch": 0.005,
+      "grad_norm": 0.06772677130883735,
+      "learning_rate": 4.98e-07,
+      "loss": 2.7358,
+      "step": 250
+    },
+    {
+      "epoch": 0.0055,
+      "grad_norm": 0.0617749171010752,
+      "learning_rate": 5.480000000000001e-07,
+      "loss": 2.7143,
+      "step": 275
+    },
+    {
+      "epoch": 0.006,
+      "grad_norm": 0.06081364438555446,
+      "learning_rate": 5.98e-07,
+      "loss": 2.695,
+      "step": 300
+    },
+    {
+      "epoch": 0.006,
+      "eval_loss": 2.658987045288086,
+      "eval_runtime": 33.098,
+      "eval_samples_per_second": 3.535,
+      "eval_steps_per_second": 1.783,
+      "step": 300
+    },
+    {
+      "epoch": 0.0065,
+      "grad_norm": 0.055229056926588416,
+      "learning_rate": 6.48e-07,
+      "loss": 2.6775,
+      "step": 325
+    },
+    {
+      "epoch": 0.007,
+      "grad_norm": 0.05285547880508365,
+      "learning_rate": 6.98e-07,
+      "loss": 2.6498,
+      "step": 350
+    },
+    {
+      "epoch": 0.0075,
+      "grad_norm": 0.05321418646538081,
+      "learning_rate": 7.480000000000001e-07,
+      "loss": 2.6375,
+      "step": 375
+    },
+    {
+      "epoch": 0.008,
+      "grad_norm": 0.046163922554101317,
+      "learning_rate": 7.98e-07,
+      "loss": 2.6273,
+      "step": 400
+    },
+    {
+      "epoch": 0.008,
+      "eval_loss": 2.5985612869262695,
+      "eval_runtime": 33.8223,
+      "eval_samples_per_second": 3.459,
+      "eval_steps_per_second": 1.744,
+      "step": 400
+    },
+    {
+      "epoch": 0.0085,
+      "grad_norm": 0.05184119325112733,
+      "learning_rate": 8.480000000000001e-07,
+      "loss": 2.6037,
+      "step": 425
+    },
+    {
+      "epoch": 0.009,
+      "grad_norm": 0.036013105129600216,
+      "learning_rate": 8.980000000000001e-07,
+      "loss": 2.594,
+      "step": 450
+    },
+    {
+      "epoch": 0.0095,
+      "grad_norm": 0.03061363860030697,
+      "learning_rate": 9.480000000000001e-07,
+      "loss": 2.5746,
+      "step": 475
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 0.036970324693471876,
+      "learning_rate": 9.98e-07,
+      "loss": 2.5827,
+      "step": 500
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.56477952003479,
+      "eval_runtime": 33.0671,
+      "eval_samples_per_second": 3.538,
+      "eval_steps_per_second": 1.784,
+      "step": 500
+    },
+    {
+      "epoch": 0.0105,
+      "grad_norm": 0.03044033343054017,
+      "learning_rate": 1.0480000000000002e-06,
+      "loss": 2.5717,
+      "step": 525
+    },
+    {
+      "epoch": 0.011,
+      "grad_norm": 0.03340669717167394,
+      "learning_rate": 1.0980000000000001e-06,
+      "loss": 2.5613,
+      "step": 550
+    },
+    {
+      "epoch": 0.0115,
+      "grad_norm": 0.029909971322257495,
+      "learning_rate": 1.148e-06,
+      "loss": 2.5661,
+      "step": 575
+    },
+    {
+      "epoch": 0.012,
+      "grad_norm": 0.028901093383770705,
+      "learning_rate": 1.1980000000000002e-06,
+      "loss": 2.561,
+      "step": 600
+    },
+    {
+      "epoch": 0.012,
+      "eval_loss": 2.5446865558624268,
+      "eval_runtime": 33.1445,
+      "eval_samples_per_second": 3.53,
+      "eval_steps_per_second": 1.78,
+      "step": 600
+    },
+    {
+      "epoch": 0.0125,
+      "grad_norm": 0.0338582199400455,
+      "learning_rate": 1.248e-06,
+      "loss": 2.5392,
+      "step": 625
+    },
+    {
+      "epoch": 0.013,
+      "grad_norm": 0.031107046362937877,
+      "learning_rate": 1.2980000000000001e-06,
+      "loss": 2.5378,
+      "step": 650
+    },
+    {
+      "epoch": 0.0135,
+      "grad_norm": 0.027777474622611625,
+      "learning_rate": 1.348e-06,
+      "loss": 2.5421,
+      "step": 675
+    },
+    {
+      "epoch": 0.014,
+      "grad_norm": 0.032848272502404616,
+      "learning_rate": 1.3980000000000002e-06,
+      "loss": 2.5345,
+      "step": 700
+    },
+    {
+      "epoch": 0.014,
+      "eval_loss": 2.5294137001037598,
+      "eval_runtime": 33.222,
+      "eval_samples_per_second": 3.522,
+      "eval_steps_per_second": 1.776,
+      "step": 700
+    },
+    {
+      "epoch": 0.0145,
+      "grad_norm": 0.028260965292318807,
+      "learning_rate": 1.4480000000000002e-06,
+      "loss": 2.5342,
+      "step": 725
+    },
+    {
+      "epoch": 0.015,
+      "grad_norm": 0.02748431921263886,
+      "learning_rate": 1.498e-06,
+      "loss": 2.5188,
+      "step": 750
+    },
+    {
+      "epoch": 0.0155,
+      "grad_norm": 0.02859453618814513,
+      "learning_rate": 1.548e-06,
+      "loss": 2.5245,
+      "step": 775
+    },
+    {
+      "epoch": 0.016,
+      "grad_norm": 0.03906649589898274,
+      "learning_rate": 1.5980000000000002e-06,
+      "loss": 2.5142,
+      "step": 800
+    },
+    {
+      "epoch": 0.016,
+      "eval_loss": 2.5156726837158203,
+      "eval_runtime": 33.2465,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 1.775,
+      "step": 800
+    },
+    {
+      "epoch": 0.0165,
+      "grad_norm": 0.03055728445213633,
+      "learning_rate": 1.6480000000000001e-06,
+      "loss": 2.504,
+      "step": 825
+    },
+    {
+      "epoch": 0.017,
+      "grad_norm": 0.03831919004049627,
+      "learning_rate": 1.6980000000000003e-06,
+      "loss": 2.5096,
+      "step": 850
+    },
+    {
+      "epoch": 0.0175,
+      "grad_norm": 0.04714764947462498,
+      "learning_rate": 1.7480000000000002e-06,
+      "loss": 2.5057,
+      "step": 875
+    },
+    {
+      "epoch": 0.018,
+      "grad_norm": 0.04480333925801958,
+      "learning_rate": 1.798e-06,
+      "loss": 2.4949,
+      "step": 900
+    },
+    {
+      "epoch": 0.018,
+      "eval_loss": 2.503145456314087,
+      "eval_runtime": 33.3398,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 1.77,
+      "step": 900
+    },
+    {
+      "epoch": 0.0185,
+      "grad_norm": 0.04514734300904146,
+      "learning_rate": 1.8480000000000001e-06,
+      "loss": 2.5044,
+      "step": 925
+    },
+    {
+      "epoch": 0.019,
+      "grad_norm": 0.03664477032679196,
+      "learning_rate": 1.898e-06,
+      "loss": 2.4857,
+      "step": 950
+    },
+    {
+      "epoch": 0.0195,
+      "grad_norm": 0.03891788038244039,
+      "learning_rate": 1.9480000000000002e-06,
+      "loss": 2.4954,
+      "step": 975
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 0.041701680819843504,
+      "learning_rate": 1.998e-06,
+      "loss": 2.4935,
+      "step": 1000
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.493894577026367,
+      "eval_runtime": 33.4036,
+      "eval_samples_per_second": 3.503,
+      "eval_steps_per_second": 1.766,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 50000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.7853019251369574e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}