irodkin
/

run_21

+{
+  "best_global_step": 6000,
+  "best_metric": 2.4190170764923096,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-6000",
+  "epoch": 0.12,
+  "eval_steps": 100,
+  "global_step": 6000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0005,
+      "grad_norm": 27.027176292677446,
+      "learning_rate": 4.8e-08,
+      "loss": 3.52,
+      "step": 25
+    },
+    {
+      "epoch": 0.001,
+      "grad_norm": 22.883614597253285,
+      "learning_rate": 9.8e-08,
+      "loss": 3.4361,
+      "step": 50
+    },
+    {
+      "epoch": 0.0015,
+      "grad_norm": 14.88008652186332,
+      "learning_rate": 1.4800000000000003e-07,
+      "loss": 3.2752,
+      "step": 75
+    },
+    {
+      "epoch": 0.002,
+      "grad_norm": 8.829920836438578,
+      "learning_rate": 1.9800000000000003e-07,
+      "loss": 3.073,
+      "step": 100
+    },
+    {
+      "epoch": 0.002,
+      "eval_loss": 2.8928089141845703,
+      "eval_runtime": 31.5789,
+      "eval_samples_per_second": 3.23,
+      "eval_steps_per_second": 1.615,
+      "step": 100
+    },
+    {
+      "epoch": 0.0025,
+      "grad_norm": 6.672581323543055,
+      "learning_rate": 2.48e-07,
+      "loss": 2.8787,
+      "step": 125
+    },
+    {
+      "epoch": 0.003,
+      "grad_norm": 3.485187933164644,
+      "learning_rate": 2.9800000000000005e-07,
+      "loss": 2.7569,
+      "step": 150
+    },
+    {
+      "epoch": 0.0035,
+      "grad_norm": 1.6514027733962566,
+      "learning_rate": 3.48e-07,
+      "loss": 2.683,
+      "step": 175
+    },
+    {
+      "epoch": 0.004,
+      "grad_norm": 1.714322054077562,
+      "learning_rate": 3.9800000000000004e-07,
+      "loss": 2.6417,
+      "step": 200
+    },
+    {
+      "epoch": 0.004,
+      "eval_loss": 2.608551263809204,
+      "eval_runtime": 31.7434,
+      "eval_samples_per_second": 3.213,
+      "eval_steps_per_second": 1.607,
+      "step": 200
+    },
+    {
+      "epoch": 0.0045,
+      "grad_norm": 1.1166252829937406,
+      "learning_rate": 4.4800000000000004e-07,
+      "loss": 2.6075,
+      "step": 225
+    },
+    {
+      "epoch": 0.005,
+      "grad_norm": 1.2360541139925998,
+      "learning_rate": 4.98e-07,
+      "loss": 2.5833,
+      "step": 250
+    },
+    {
+      "epoch": 0.0055,
+      "grad_norm": 1.1186934925325145,
+      "learning_rate": 5.480000000000001e-07,
+      "loss": 2.568,
+      "step": 275
+    },
+    {
+      "epoch": 0.006,
+      "grad_norm": 2.2165517261683907,
+      "learning_rate": 5.98e-07,
+      "loss": 2.5488,
+      "step": 300
+    },
+    {
+      "epoch": 0.006,
+      "eval_loss": 2.532663345336914,
+      "eval_runtime": 31.7717,
+      "eval_samples_per_second": 3.21,
+      "eval_steps_per_second": 1.605,
+      "step": 300
+    },
+    {
+      "epoch": 0.0065,
+      "grad_norm": 1.9955553189401838,
+      "learning_rate": 6.48e-07,
+      "loss": 2.5186,
+      "step": 325
+    },
+    {
+      "epoch": 0.007,
+      "grad_norm": 1.7134269827298882,
+      "learning_rate": 6.98e-07,
+      "loss": 2.5133,
+      "step": 350
+    },
+    {
+      "epoch": 0.0075,
+      "grad_norm": 4.086994695184575,
+      "learning_rate": 7.480000000000001e-07,
+      "loss": 2.4979,
+      "step": 375
+    },
+    {
+      "epoch": 0.008,
+      "grad_norm": 2.2539165526987732,
+      "learning_rate": 7.98e-07,
+      "loss": 2.49,
+      "step": 400
+    },
+    {
+      "epoch": 0.008,
+      "eval_loss": 2.4952430725097656,
+      "eval_runtime": 31.9652,
+      "eval_samples_per_second": 3.191,
+      "eval_steps_per_second": 1.595,
+      "step": 400
+    },
+    {
+      "epoch": 0.0085,
+      "grad_norm": 1.138897058010547,
+      "learning_rate": 8.480000000000001e-07,
+      "loss": 2.4748,
+      "step": 425
+    },
+    {
+      "epoch": 0.009,
+      "grad_norm": 1.0112216946364496,
+      "learning_rate": 8.980000000000001e-07,
+      "loss": 2.4801,
+      "step": 450
+    },
+    {
+      "epoch": 0.0095,
+      "grad_norm": 1.3243191157122005,
+      "learning_rate": 9.480000000000001e-07,
+      "loss": 2.4699,
+      "step": 475
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 1.2276747327077127,
+      "learning_rate": 9.98e-07,
+      "loss": 2.468,
+      "step": 500
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.4748668670654297,
+      "eval_runtime": 31.7813,
+      "eval_samples_per_second": 3.209,
+      "eval_steps_per_second": 1.605,
+      "step": 500
+    },
+    {
+      "epoch": 0.0105,
+      "grad_norm": 0.845856364918703,
+      "learning_rate": 1.0480000000000002e-06,
+      "loss": 2.4738,
+      "step": 525
+    },
+    {
+      "epoch": 0.011,
+      "grad_norm": 1.3677643157822397,
+      "learning_rate": 1.0980000000000001e-06,
+      "loss": 2.4535,
+      "step": 550
+    },
+    {
+      "epoch": 0.0115,
+      "grad_norm": 2.919464896391848,
+      "learning_rate": 1.148e-06,
+      "loss": 2.4558,
+      "step": 575
+    },
+    {
+      "epoch": 0.012,
+      "grad_norm": 0.9435018771336037,
+      "learning_rate": 1.1980000000000002e-06,
+      "loss": 2.4568,
+      "step": 600
+    },
+    {
+      "epoch": 0.012,
+      "eval_loss": 2.4655494689941406,
+      "eval_runtime": 31.7457,
+      "eval_samples_per_second": 3.213,
+      "eval_steps_per_second": 1.607,
+      "step": 600
+    },
+    {
+      "epoch": 0.0125,
+      "grad_norm": 0.844314601352543,
+      "learning_rate": 1.248e-06,
+      "loss": 2.4493,
+      "step": 625
+    },
+    {
+      "epoch": 0.013,
+      "grad_norm": 0.8266693044311944,
+      "learning_rate": 1.2980000000000001e-06,
+      "loss": 2.4491,
+      "step": 650
+    },
+    {
+      "epoch": 0.0135,
+      "grad_norm": 0.9456226537014805,
+      "learning_rate": 1.348e-06,
+      "loss": 2.4538,
+      "step": 675
+    },
+    {
+      "epoch": 0.014,
+      "grad_norm": 1.241067240172021,
+      "learning_rate": 1.3980000000000002e-06,
+      "loss": 2.441,
+      "step": 700
+    },
+    {
+      "epoch": 0.014,
+      "eval_loss": 2.459726572036743,
+      "eval_runtime": 31.7996,
+      "eval_samples_per_second": 3.208,
+      "eval_steps_per_second": 1.604,
+      "step": 700
+    },
+    {
+      "epoch": 0.0145,
+      "grad_norm": 0.8214981637560076,
+      "learning_rate": 1.4480000000000002e-06,
+      "loss": 2.4375,
+      "step": 725
+    },
+    {
+      "epoch": 0.015,
+      "grad_norm": 0.8463041725741063,
+      "learning_rate": 1.498e-06,
+      "loss": 2.4476,
+      "step": 750
+    },
+    {
+      "epoch": 0.0155,
+      "grad_norm": 1.0459233803315569,
+      "learning_rate": 1.548e-06,
+      "loss": 2.4388,
+      "step": 775
+    },
+    {
+      "epoch": 0.016,
+      "grad_norm": 0.7899668512736558,
+      "learning_rate": 1.5980000000000002e-06,
+      "loss": 2.4376,
+      "step": 800
+    },
+    {
+      "epoch": 0.016,
+      "eval_loss": 2.4541866779327393,
+      "eval_runtime": 31.8537,
+      "eval_samples_per_second": 3.202,
+      "eval_steps_per_second": 1.601,
+      "step": 800
+    },
+    {
+      "epoch": 0.0165,
+      "grad_norm": 0.8397014905084252,
+      "learning_rate": 1.6480000000000001e-06,
+      "loss": 2.436,
+      "step": 825
+    },
+    {
+      "epoch": 0.017,
+      "grad_norm": 0.7623848831497283,
+      "learning_rate": 1.6980000000000003e-06,
+      "loss": 2.4384,
+      "step": 850
+    },
+    {
+      "epoch": 0.0175,
+      "grad_norm": 0.7990535915346776,
+      "learning_rate": 1.7480000000000002e-06,
+      "loss": 2.4388,
+      "step": 875
+    },
+    {
+      "epoch": 0.018,
+      "grad_norm": 1.1027343926443682,
+      "learning_rate": 1.798e-06,
+      "loss": 2.4195,
+      "step": 900
+    },
+    {
+      "epoch": 0.018,
+      "eval_loss": 2.4497900009155273,
+      "eval_runtime": 32.04,
+      "eval_samples_per_second": 3.184,
+      "eval_steps_per_second": 1.592,
+      "step": 900
+    },
+    {
+      "epoch": 0.0185,
+      "grad_norm": 1.0518607606934676,
+      "learning_rate": 1.8480000000000001e-06,
+      "loss": 2.441,
+      "step": 925
+    },
+    {
+      "epoch": 0.019,
+      "grad_norm": 0.7969899064558551,
+      "learning_rate": 1.898e-06,
+      "loss": 2.4416,
+      "step": 950
+    },
+    {
+      "epoch": 0.0195,
+      "grad_norm": 0.6779464500616844,
+      "learning_rate": 1.9480000000000002e-06,
+      "loss": 2.4397,
+      "step": 975
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 0.8662904314628106,
+      "learning_rate": 1.998e-06,
+      "loss": 2.4316,
+      "step": 1000
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.4468765258789062,
+      "eval_runtime": 31.891,
+      "eval_samples_per_second": 3.198,
+      "eval_steps_per_second": 1.599,
+      "step": 1000
+    },
+    {
+      "epoch": 0.0205,
+      "grad_norm": 0.6931713924838875,
+      "learning_rate": 2.048e-06,
+      "loss": 2.4456,
+      "step": 1025
+    },
+    {
+      "epoch": 0.021,
+      "grad_norm": 0.6887441871643851,
+      "learning_rate": 2.098e-06,
+      "loss": 2.4253,
+      "step": 1050
+    },
+    {
+      "epoch": 0.0215,
+      "grad_norm": 0.7500338911423412,
+      "learning_rate": 2.148e-06,
+      "loss": 2.431,
+      "step": 1075
+    },
+    {
+      "epoch": 0.022,
+      "grad_norm": 0.7458051760406093,
+      "learning_rate": 2.198e-06,
+      "loss": 2.4164,
+      "step": 1100
+    },
+    {
+      "epoch": 0.022,
+      "eval_loss": 2.4442293643951416,
+      "eval_runtime": 31.8697,
+      "eval_samples_per_second": 3.201,
+      "eval_steps_per_second": 1.6,
+      "step": 1100
+    },
+    {
+      "epoch": 0.0225,
+      "grad_norm": 0.8345425864188605,
+      "learning_rate": 2.2480000000000003e-06,
+      "loss": 2.4241,
+      "step": 1125
+    },
+    {
+      "epoch": 0.023,
+      "grad_norm": 0.6997049438769294,
+      "learning_rate": 2.2980000000000003e-06,
+      "loss": 2.43,
+      "step": 1150
+    },
+    {
+      "epoch": 0.0235,
+      "grad_norm": 0.7476759709197881,
+      "learning_rate": 2.3480000000000002e-06,
+      "loss": 2.4342,
+      "step": 1175
+    },
+    {
+      "epoch": 0.024,
+      "grad_norm": 0.6735584083816767,
+      "learning_rate": 2.398e-06,
+      "loss": 2.4274,
+      "step": 1200
+    },
+    {
+      "epoch": 0.024,
+      "eval_loss": 2.4423961639404297,
+      "eval_runtime": 31.6272,
+      "eval_samples_per_second": 3.225,
+      "eval_steps_per_second": 1.613,
+      "step": 1200
+    },
+    {
+      "epoch": 0.0245,
+      "grad_norm": 0.7414830106555006,
+      "learning_rate": 2.448e-06,
+      "loss": 2.4363,
+      "step": 1225
+    },
+    {
+      "epoch": 0.025,
+      "grad_norm": 0.7852755880662065,
+      "learning_rate": 2.498e-06,
+      "loss": 2.4356,
+      "step": 1250
+    },
+    {
+      "epoch": 0.0255,
+      "grad_norm": 0.6550676975591231,
+      "learning_rate": 2.5480000000000004e-06,
+      "loss": 2.4219,
+      "step": 1275
+    },
+    {
+      "epoch": 0.026,
+      "grad_norm": 0.6708503716821785,
+      "learning_rate": 2.598e-06,
+      "loss": 2.4442,
+      "step": 1300
+    },
+    {
+      "epoch": 0.026,
+      "eval_loss": 2.440678358078003,
+      "eval_runtime": 31.7661,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 1.605,
+      "step": 1300
+    },
+    {
+      "epoch": 0.0265,
+      "grad_norm": 0.6923805904104993,
+      "learning_rate": 2.648e-06,
+      "loss": 2.4317,
+      "step": 1325
+    },
+    {
+      "epoch": 0.027,
+      "grad_norm": 0.6600109660858106,
+      "learning_rate": 2.6980000000000003e-06,
+      "loss": 2.432,
+      "step": 1350
+    },
+    {
+      "epoch": 0.0275,
+      "grad_norm": 0.841715383150229,
+      "learning_rate": 2.748e-06,
+      "loss": 2.4196,
+      "step": 1375
+    },
+    {
+      "epoch": 0.028,
+      "grad_norm": 0.6392005959511108,
+      "learning_rate": 2.798e-06,
+      "loss": 2.4274,
+      "step": 1400
+    },
+    {
+      "epoch": 0.028,
+      "eval_loss": 2.439229726791382,
+      "eval_runtime": 32.0465,
+      "eval_samples_per_second": 3.183,
+      "eval_steps_per_second": 1.591,
+      "step": 1400
+    },
+    {
+      "epoch": 0.0285,
+      "grad_norm": 0.6653339947473879,
+      "learning_rate": 2.848e-06,
+      "loss": 2.4209,
+      "step": 1425
+    },
+    {
+      "epoch": 0.029,
+      "grad_norm": 0.6607591145573396,
+      "learning_rate": 2.8980000000000005e-06,
+      "loss": 2.4111,
+      "step": 1450
+    },
+    {
+      "epoch": 0.0295,
+      "grad_norm": 0.6492342012137399,
+      "learning_rate": 2.9480000000000004e-06,
+      "loss": 2.4319,
+      "step": 1475
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 0.6418256237639189,
+      "learning_rate": 2.9980000000000003e-06,
+      "loss": 2.4257,
+      "step": 1500
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.4380884170532227,
+      "eval_runtime": 32.1017,
+      "eval_samples_per_second": 3.177,
+      "eval_steps_per_second": 1.589,
+      "step": 1500
+    },
+    {
+      "epoch": 0.0305,
+      "grad_norm": 0.719808061901716,
+      "learning_rate": 3.0480000000000003e-06,
+      "loss": 2.4305,
+      "step": 1525
+    },
+    {
+      "epoch": 0.031,
+      "grad_norm": 0.6138892760464039,
+      "learning_rate": 3.0980000000000007e-06,
+      "loss": 2.4253,
+      "step": 1550
+    },
+    {
+      "epoch": 0.0315,
+      "grad_norm": 0.7179717159222389,
+      "learning_rate": 3.1480000000000006e-06,
+      "loss": 2.4286,
+      "step": 1575
+    },
+    {
+      "epoch": 0.032,
+      "grad_norm": 0.6337699388954209,
+      "learning_rate": 3.198e-06,
+      "loss": 2.4281,
+      "step": 1600
+    },
+    {
+      "epoch": 0.032,
+      "eval_loss": 2.4367759227752686,
+      "eval_runtime": 32.1865,
+      "eval_samples_per_second": 3.169,
+      "eval_steps_per_second": 1.585,
+      "step": 1600
+    },
+    {
+      "epoch": 0.0325,
+      "grad_norm": 0.6399383081078225,
+      "learning_rate": 3.248e-06,
+      "loss": 2.4127,
+      "step": 1625
+    },
+    {
+      "epoch": 0.033,
+      "grad_norm": 0.6239480160142674,
+      "learning_rate": 3.298e-06,
+      "loss": 2.4271,
+      "step": 1650
+    },
+    {
+      "epoch": 0.0335,
+      "grad_norm": 0.6964721038747086,
+      "learning_rate": 3.348e-06,
+      "loss": 2.4168,
+      "step": 1675
+    },
+    {
+      "epoch": 0.034,
+      "grad_norm": 0.6246300346633158,
+      "learning_rate": 3.3980000000000003e-06,
+      "loss": 2.4312,
+      "step": 1700
+    },
+    {
+      "epoch": 0.034,
+      "eval_loss": 2.43576717376709,
+      "eval_runtime": 32.35,
+      "eval_samples_per_second": 3.153,
+      "eval_steps_per_second": 1.577,
+      "step": 1700
+    },
+    {
+      "epoch": 0.0345,
+      "grad_norm": 0.6609046760569887,
+      "learning_rate": 3.4480000000000003e-06,
+      "loss": 2.4201,
+      "step": 1725
+    },
+    {
+      "epoch": 0.035,
+      "grad_norm": 0.611833218468793,
+      "learning_rate": 3.4980000000000002e-06,
+      "loss": 2.4248,
+      "step": 1750
+    },
+    {
+      "epoch": 0.0355,
+      "grad_norm": 0.6374610168215615,
+      "learning_rate": 3.548e-06,
+      "loss": 2.4195,
+      "step": 1775
+    },
+    {
+      "epoch": 0.036,
+      "grad_norm": 0.608911757784224,
+      "learning_rate": 3.5980000000000005e-06,
+      "loss": 2.4207,
+      "step": 1800
+    },
+    {
+      "epoch": 0.036,
+      "eval_loss": 2.4352190494537354,
+      "eval_runtime": 32.4107,
+      "eval_samples_per_second": 3.147,
+      "eval_steps_per_second": 1.574,
+      "step": 1800
+    },
+    {
+      "epoch": 0.0365,
+      "grad_norm": 0.7277576842118675,
+      "learning_rate": 3.6480000000000005e-06,
+      "loss": 2.429,
+      "step": 1825
+    },
+    {
+      "epoch": 0.037,
+      "grad_norm": 0.6177267450079238,
+      "learning_rate": 3.6980000000000004e-06,
+      "loss": 2.4216,
+      "step": 1850
+    },
+    {
+      "epoch": 0.0375,
+      "grad_norm": 0.6909621222715888,
+      "learning_rate": 3.7480000000000004e-06,
+      "loss": 2.4141,
+      "step": 1875
+    },
+    {
+      "epoch": 0.038,
+      "grad_norm": 0.6271064789808471,
+      "learning_rate": 3.7980000000000007e-06,
+      "loss": 2.4204,
+      "step": 1900
+    },
+    {
+      "epoch": 0.038,
+      "eval_loss": 2.434185743331909,
+      "eval_runtime": 32.1923,
+      "eval_samples_per_second": 3.168,
+      "eval_steps_per_second": 1.584,
+      "step": 1900
+    },
+    {
+      "epoch": 0.0385,
+      "grad_norm": 4.465543129416645,
+      "learning_rate": 3.848e-06,
+      "loss": 2.4278,
+      "step": 1925
+    },
+    {
+      "epoch": 0.039,
+      "grad_norm": 0.59428248175071,
+      "learning_rate": 3.898e-06,
+      "loss": 2.4231,
+      "step": 1950
+    },
+    {
+      "epoch": 0.0395,
+      "grad_norm": 0.6300066797920092,
+      "learning_rate": 3.948e-06,
+      "loss": 2.4163,
+      "step": 1975
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.5995770487766363,
+      "learning_rate": 3.9980000000000005e-06,
+      "loss": 2.4236,
+      "step": 2000
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.433772563934326,
+      "eval_runtime": 32.062,
+      "eval_samples_per_second": 3.181,
+      "eval_steps_per_second": 1.591,
+      "step": 2000
+    },
+    {
+      "epoch": 0.0405,
+      "grad_norm": 0.595289417756029,
+      "learning_rate": 4.048e-06,
+      "loss": 2.424,
+      "step": 2025
+    },
+    {
+      "epoch": 0.041,
+      "grad_norm": 0.6134282240517589,
+      "learning_rate": 4.098e-06,
+      "loss": 2.4255,
+      "step": 2050
+    },
+    {
+      "epoch": 0.0415,
+      "grad_norm": 0.6629564791128602,
+      "learning_rate": 4.148000000000001e-06,
+      "loss": 2.4097,
+      "step": 2075
+    },
+    {
+      "epoch": 0.042,
+      "grad_norm": 0.621927005205136,
+      "learning_rate": 4.198e-06,
+      "loss": 2.4268,
+      "step": 2100
+    },
+    {
+      "epoch": 0.042,
+      "eval_loss": 2.433004379272461,
+      "eval_runtime": 32.0064,
+      "eval_samples_per_second": 3.187,
+      "eval_steps_per_second": 1.593,
+      "step": 2100
+    },
+    {
+      "epoch": 0.0425,
+      "grad_norm": 0.5955395744872489,
+      "learning_rate": 4.248000000000001e-06,
+      "loss": 2.4134,
+      "step": 2125
+    },
+    {
+      "epoch": 0.043,
+      "grad_norm": 0.630503522814338,
+      "learning_rate": 4.298e-06,
+      "loss": 2.4195,
+      "step": 2150
+    },
+    {
+      "epoch": 0.0435,
+      "grad_norm": 0.6187515125513555,
+      "learning_rate": 4.3480000000000006e-06,
+      "loss": 2.4258,
+      "step": 2175
+    },
+    {
+      "epoch": 0.044,
+      "grad_norm": 0.7454395191545767,
+      "learning_rate": 4.398000000000001e-06,
+      "loss": 2.4226,
+      "step": 2200
+    },
+    {
+      "epoch": 0.044,
+      "eval_loss": 2.4322543144226074,
+      "eval_runtime": 31.9813,
+      "eval_samples_per_second": 3.189,
+      "eval_steps_per_second": 1.595,
+      "step": 2200
+    },
+    {
+      "epoch": 0.0445,
+      "grad_norm": 0.6347211303495337,
+      "learning_rate": 4.4480000000000004e-06,
+      "loss": 2.4191,
+      "step": 2225
+    },
+    {
+      "epoch": 0.045,
+      "grad_norm": 0.6135245446733344,
+      "learning_rate": 4.498e-06,
+      "loss": 2.4229,
+      "step": 2250
+    },
+    {
+      "epoch": 0.0455,
+      "grad_norm": 0.6009500019971098,
+      "learning_rate": 4.548e-06,
+      "loss": 2.42,
+      "step": 2275
+    },
+    {
+      "epoch": 0.046,
+      "grad_norm": 0.661258489557284,
+      "learning_rate": 4.598e-06,
+      "loss": 2.4129,
+      "step": 2300
+    },
+    {
+      "epoch": 0.046,
+      "eval_loss": 2.432189464569092,
+      "eval_runtime": 31.9429,
+      "eval_samples_per_second": 3.193,
+      "eval_steps_per_second": 1.597,
+      "step": 2300
+    },
+    {
+      "epoch": 0.0465,
+      "grad_norm": 0.6139592783182132,
+      "learning_rate": 4.648e-06,
+      "loss": 2.4104,
+      "step": 2325
+    },
+    {
+      "epoch": 0.047,
+      "grad_norm": 0.583220993400474,
+      "learning_rate": 4.698000000000001e-06,
+      "loss": 2.4244,
+      "step": 2350
+    },
+    {
+      "epoch": 0.0475,
+      "grad_norm": 0.6293186545915876,
+      "learning_rate": 4.748e-06,
+      "loss": 2.4225,
+      "step": 2375
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 0.5798657043139257,
+      "learning_rate": 4.7980000000000005e-06,
+      "loss": 2.4283,
+      "step": 2400
+    },
+    {
+      "epoch": 0.048,
+      "eval_loss": 2.4312729835510254,
+      "eval_runtime": 31.7379,
+      "eval_samples_per_second": 3.214,
+      "eval_steps_per_second": 1.607,
+      "step": 2400
+    },
+    {
+      "epoch": 0.0485,
+      "grad_norm": 0.6301056488676946,
+      "learning_rate": 4.848000000000001e-06,
+      "loss": 2.4238,
+      "step": 2425
+    },
+    {
+      "epoch": 0.049,
+      "grad_norm": 0.6050753634716797,
+      "learning_rate": 4.898e-06,
+      "loss": 2.4209,
+      "step": 2450
+    },
+    {
+      "epoch": 0.0495,
+      "grad_norm": 0.5954330421177886,
+      "learning_rate": 4.948000000000001e-06,
+      "loss": 2.4208,
+      "step": 2475
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.6115913011006808,
+      "learning_rate": 4.998e-06,
+      "loss": 2.4199,
+      "step": 2500
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.430593490600586,
+      "eval_runtime": 31.7859,
+      "eval_samples_per_second": 3.209,
+      "eval_steps_per_second": 1.604,
+      "step": 2500
+    },
+    {
+      "epoch": 0.0505,
+      "grad_norm": 0.6088167798442012,
+      "learning_rate": 5.048000000000001e-06,
+      "loss": 2.4204,
+      "step": 2525
+    },
+    {
+      "epoch": 0.051,
+      "grad_norm": 0.5886456022713933,
+      "learning_rate": 5.098000000000001e-06,
+      "loss": 2.4233,
+      "step": 2550
+    },
+    {
+      "epoch": 0.0515,
+      "grad_norm": 0.5755814876588983,
+      "learning_rate": 5.1480000000000005e-06,
+      "loss": 2.414,
+      "step": 2575
+    },
+    {
+      "epoch": 0.052,
+      "grad_norm": 0.6101796511458513,
+      "learning_rate": 5.198000000000001e-06,
+      "loss": 2.4134,
+      "step": 2600
+    },
+    {
+      "epoch": 0.052,
+      "eval_loss": 2.430147886276245,
+      "eval_runtime": 31.667,
+      "eval_samples_per_second": 3.221,
+      "eval_steps_per_second": 1.611,
+      "step": 2600
+    },
+    {
+      "epoch": 0.0525,
+      "grad_norm": 0.5829483894700689,
+      "learning_rate": 5.248000000000001e-06,
+      "loss": 2.4176,
+      "step": 2625
+    },
+    {
+      "epoch": 0.053,
+      "grad_norm": 0.5756679405925968,
+      "learning_rate": 5.298000000000001e-06,
+      "loss": 2.4196,
+      "step": 2650
+    },
+    {
+      "epoch": 0.0535,
+      "grad_norm": 0.6203149656143291,
+      "learning_rate": 5.348000000000001e-06,
+      "loss": 2.4128,
+      "step": 2675
+    },
+    {
+      "epoch": 0.054,
+      "grad_norm": 0.6107431848759605,
+      "learning_rate": 5.398e-06,
+      "loss": 2.4066,
+      "step": 2700
+    },
+    {
+      "epoch": 0.054,
+      "eval_loss": 2.4298744201660156,
+      "eval_runtime": 31.8888,
+      "eval_samples_per_second": 3.199,
+      "eval_steps_per_second": 1.599,
+      "step": 2700
+    },
+    {
+      "epoch": 0.0545,
+      "grad_norm": 0.6313360362618398,
+      "learning_rate": 5.448e-06,
+      "loss": 2.4116,
+      "step": 2725
+    },
+    {
+      "epoch": 0.055,
+      "grad_norm": 0.7567581764202255,
+      "learning_rate": 5.498e-06,
+      "loss": 2.4137,
+      "step": 2750
+    },
+    {
+      "epoch": 0.0555,
+      "grad_norm": 0.5808819096916863,
+      "learning_rate": 5.548e-06,
+      "loss": 2.4261,
+      "step": 2775
+    },
+    {
+      "epoch": 0.056,
+      "grad_norm": 0.7401050453151701,
+      "learning_rate": 5.5980000000000004e-06,
+      "loss": 2.4102,
+      "step": 2800
+    },
+    {
+      "epoch": 0.056,
+      "eval_loss": 2.429075002670288,
+      "eval_runtime": 31.9187,
+      "eval_samples_per_second": 3.196,
+      "eval_steps_per_second": 1.598,
+      "step": 2800
+    },
+    {
+      "epoch": 0.0565,
+      "grad_norm": 0.6100412128745759,
+      "learning_rate": 5.648e-06,
+      "loss": 2.4205,
+      "step": 2825
+    },
+    {
+      "epoch": 0.057,
+      "grad_norm": 0.6038298357908357,
+      "learning_rate": 5.698e-06,
+      "loss": 2.4104,
+      "step": 2850
+    },
+    {
+      "epoch": 0.0575,
+      "grad_norm": 0.6294303689076208,
+      "learning_rate": 5.748e-06,
+      "loss": 2.4101,
+      "step": 2875
+    },
+    {
+      "epoch": 0.058,
+      "grad_norm": 0.6000316496044382,
+      "learning_rate": 5.798e-06,
+      "loss": 2.4116,
+      "step": 2900
+    },
+    {
+      "epoch": 0.058,
+      "eval_loss": 2.428636074066162,
+      "eval_runtime": 31.9776,
+      "eval_samples_per_second": 3.19,
+      "eval_steps_per_second": 1.595,
+      "step": 2900
+    },
+    {
+      "epoch": 0.0585,
+      "grad_norm": 0.6662370599985865,
+      "learning_rate": 5.848000000000001e-06,
+      "loss": 2.4271,
+      "step": 2925
+    },
+    {
+      "epoch": 0.059,
+      "grad_norm": 0.6065686333783092,
+      "learning_rate": 5.898e-06,
+      "loss": 2.4141,
+      "step": 2950
+    },
+    {
+      "epoch": 0.0595,
+      "grad_norm": 0.5896191268179571,
+      "learning_rate": 5.9480000000000005e-06,
+      "loss": 2.4194,
+      "step": 2975
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.5984986372167933,
+      "learning_rate": 5.998000000000001e-06,
+      "loss": 2.4107,
+      "step": 3000
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.428344488143921,
+      "eval_runtime": 31.827,
+      "eval_samples_per_second": 3.205,
+      "eval_steps_per_second": 1.602,
+      "step": 3000
+    },
+    {
+      "epoch": 0.0605,
+      "grad_norm": 0.6057904687423932,
+      "learning_rate": 6.048e-06,
+      "loss": 2.4231,
+      "step": 3025
+    },
+    {
+      "epoch": 0.061,
+      "grad_norm": 0.5775023699888965,
+      "learning_rate": 6.098000000000001e-06,
+      "loss": 2.4193,
+      "step": 3050
+    },
+    {
+      "epoch": 0.0615,
+      "grad_norm": 0.5945486563983137,
+      "learning_rate": 6.148e-06,
+      "loss": 2.4101,
+      "step": 3075
+    },
+    {
+      "epoch": 0.062,
+      "grad_norm": 0.5893073406656858,
+      "learning_rate": 6.198000000000001e-06,
+      "loss": 2.41,
+      "step": 3100
+    },
+    {
+      "epoch": 0.062,
+      "eval_loss": 2.4278364181518555,
+      "eval_runtime": 31.4582,
+      "eval_samples_per_second": 3.242,
+      "eval_steps_per_second": 1.621,
+      "step": 3100
+    },
+    {
+      "epoch": 0.0625,
+      "grad_norm": 0.6413551002827471,
+      "learning_rate": 6.248000000000001e-06,
+      "loss": 2.4155,
+      "step": 3125
+    },
+    {
+      "epoch": 0.063,
+      "grad_norm": 0.5799664342522566,
+      "learning_rate": 6.2980000000000005e-06,
+      "loss": 2.409,
+      "step": 3150
+    },
+    {
+      "epoch": 0.0635,
+      "grad_norm": 0.5811811320062699,
+      "learning_rate": 6.348000000000001e-06,
+      "loss": 2.4103,
+      "step": 3175
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 1.7009375984265656,
+      "learning_rate": 6.398000000000001e-06,
+      "loss": 2.4063,
+      "step": 3200
+    },
+    {
+      "epoch": 0.064,
+      "eval_loss": 2.4270801544189453,
+      "eval_runtime": 31.5638,
+      "eval_samples_per_second": 3.232,
+      "eval_steps_per_second": 1.616,
+      "step": 3200
+    },
+    {
+      "epoch": 0.0645,
+      "grad_norm": 0.5922661228031734,
+      "learning_rate": 6.448000000000001e-06,
+      "loss": 2.4146,
+      "step": 3225
+    },
+    {
+      "epoch": 0.065,
+      "grad_norm": 0.6108654698148237,
+      "learning_rate": 6.498000000000001e-06,
+      "loss": 2.4202,
+      "step": 3250
+    },
+    {
+      "epoch": 0.0655,
+      "grad_norm": 0.5882408729466215,
+      "learning_rate": 6.548000000000001e-06,
+      "loss": 2.4226,
+      "step": 3275
+    },
+    {
+      "epoch": 0.066,
+      "grad_norm": 0.6095634937429834,
+      "learning_rate": 6.598000000000001e-06,
+      "loss": 2.4175,
+      "step": 3300
+    },
+    {
+      "epoch": 0.066,
+      "eval_loss": 2.4271743297576904,
+      "eval_runtime": 31.605,
+      "eval_samples_per_second": 3.227,
+      "eval_steps_per_second": 1.614,
+      "step": 3300
+    },
+    {
+      "epoch": 0.0665,
+      "grad_norm": 0.584006486469731,
+      "learning_rate": 6.648e-06,
+      "loss": 2.4183,
+      "step": 3325
+    },
+    {
+      "epoch": 0.067,
+      "grad_norm": 0.6183114977641251,
+      "learning_rate": 6.698e-06,
+      "loss": 2.4074,
+      "step": 3350
+    },
+    {
+      "epoch": 0.0675,
+      "grad_norm": 0.6102359150325862,
+      "learning_rate": 6.7480000000000004e-06,
+      "loss": 2.4168,
+      "step": 3375
+    },
+    {
+      "epoch": 0.068,
+      "grad_norm": 0.6988080460632056,
+      "learning_rate": 6.798e-06,
+      "loss": 2.433,
+      "step": 3400
+    },
+    {
+      "epoch": 0.068,
+      "eval_loss": 2.4267990589141846,
+      "eval_runtime": 31.5337,
+      "eval_samples_per_second": 3.235,
+      "eval_steps_per_second": 1.617,
+      "step": 3400
+    },
+    {
+      "epoch": 0.0685,
+      "grad_norm": 0.5923385092093629,
+      "learning_rate": 6.848e-06,
+      "loss": 2.4137,
+      "step": 3425
+    },
+    {
+      "epoch": 0.069,
+      "grad_norm": 0.5873912274008383,
+      "learning_rate": 6.898e-06,
+      "loss": 2.4183,
+      "step": 3450
+    },
+    {
+      "epoch": 0.0695,
+      "grad_norm": 0.5885684717655756,
+      "learning_rate": 6.948e-06,
+      "loss": 2.4282,
+      "step": 3475
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 0.6026217656458652,
+      "learning_rate": 6.998000000000001e-06,
+      "loss": 2.4234,
+      "step": 3500
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.4262564182281494,
+      "eval_runtime": 31.7503,
+      "eval_samples_per_second": 3.213,
+      "eval_steps_per_second": 1.606,
+      "step": 3500
+    },
+    {
+      "epoch": 0.0705,
+      "grad_norm": 0.5820881270462898,
+      "learning_rate": 7.048e-06,
+      "loss": 2.413,
+      "step": 3525
+    },
+    {
+      "epoch": 0.071,
+      "grad_norm": 0.6178510668793894,
+      "learning_rate": 7.0980000000000005e-06,
+      "loss": 2.3954,
+      "step": 3550
+    },
+    {
+      "epoch": 0.0715,
+      "grad_norm": 0.6186160369787075,
+      "learning_rate": 7.148000000000001e-06,
+      "loss": 2.4153,
+      "step": 3575
+    },
+    {
+      "epoch": 0.072,
+      "grad_norm": 0.6053079331192983,
+      "learning_rate": 7.198e-06,
+      "loss": 2.4061,
+      "step": 3600
+    },
+    {
+      "epoch": 0.072,
+      "eval_loss": 2.4260003566741943,
+      "eval_runtime": 31.4103,
+      "eval_samples_per_second": 3.247,
+      "eval_steps_per_second": 1.624,
+      "step": 3600
+    },
+    {
+      "epoch": 0.0725,
+      "grad_norm": 0.6002224672812325,
+      "learning_rate": 7.248000000000001e-06,
+      "loss": 2.4062,
+      "step": 3625
+    },
+    {
+      "epoch": 0.073,
+      "grad_norm": 0.616881726200715,
+      "learning_rate": 7.298e-06,
+      "loss": 2.4167,
+      "step": 3650
+    },
+    {
+      "epoch": 0.0735,
+      "grad_norm": 0.6148731575970318,
+      "learning_rate": 7.348000000000001e-06,
+      "loss": 2.4123,
+      "step": 3675
+    },
+    {
+      "epoch": 0.074,
+      "grad_norm": 0.6221338587681139,
+      "learning_rate": 7.398000000000001e-06,
+      "loss": 2.4199,
+      "step": 3700
+    },
+    {
+      "epoch": 0.074,
+      "eval_loss": 2.4258594512939453,
+      "eval_runtime": 31.717,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 1.608,
+      "step": 3700
+    },
+    {
+      "epoch": 0.0745,
+      "grad_norm": 0.6024880998969679,
+      "learning_rate": 7.4480000000000005e-06,
+      "loss": 2.4187,
+      "step": 3725
+    },
+    {
+      "epoch": 0.075,
+      "grad_norm": 0.5998431875234804,
+      "learning_rate": 7.498000000000001e-06,
+      "loss": 2.4045,
+      "step": 3750
+    },
+    {
+      "epoch": 0.0755,
+      "grad_norm": 0.5963168253580089,
+      "learning_rate": 7.548000000000001e-06,
+      "loss": 2.4161,
+      "step": 3775
+    },
+    {
+      "epoch": 0.076,
+      "grad_norm": 0.5891194096424622,
+      "learning_rate": 7.598000000000001e-06,
+      "loss": 2.4217,
+      "step": 3800
+    },
+    {
+      "epoch": 0.076,
+      "eval_loss": 2.425435781478882,
+      "eval_runtime": 32.0333,
+      "eval_samples_per_second": 3.184,
+      "eval_steps_per_second": 1.592,
+      "step": 3800
+    },
+    {
+      "epoch": 0.0765,
+      "grad_norm": 0.6220515512248757,
+      "learning_rate": 7.648e-06,
+      "loss": 2.4115,
+      "step": 3825
+    },
+    {
+      "epoch": 0.077,
+      "grad_norm": 0.592208980582776,
+      "learning_rate": 7.698000000000002e-06,
+      "loss": 2.4123,
+      "step": 3850
+    },
+    {
+      "epoch": 0.0775,
+      "grad_norm": 0.6050688229723428,
+      "learning_rate": 7.748000000000001e-06,
+      "loss": 2.4124,
+      "step": 3875
+    },
+    {
+      "epoch": 0.078,
+      "grad_norm": 0.6128946719272819,
+      "learning_rate": 7.798e-06,
+      "loss": 2.4167,
+      "step": 3900
+    },
+    {
+      "epoch": 0.078,
+      "eval_loss": 2.4252073764801025,
+      "eval_runtime": 31.7629,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 1.606,
+      "step": 3900
+    },
+    {
+      "epoch": 0.0785,
+      "grad_norm": 0.6300203936594084,
+      "learning_rate": 7.848000000000002e-06,
+      "loss": 2.4253,
+      "step": 3925
+    },
+    {
+      "epoch": 0.079,
+      "grad_norm": 0.622492494084331,
+      "learning_rate": 7.898e-06,
+      "loss": 2.4126,
+      "step": 3950
+    },
+    {
+      "epoch": 0.0795,
+      "grad_norm": 0.6054040520886763,
+      "learning_rate": 7.948e-06,
+      "loss": 2.4082,
+      "step": 3975
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.5997365393444213,
+      "learning_rate": 7.998e-06,
+      "loss": 2.4187,
+      "step": 4000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.4248712062835693,
+      "eval_runtime": 31.7678,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 1.605,
+      "step": 4000
+    },
+    {
+      "epoch": 0.0805,
+      "grad_norm": 0.5914805613039377,
+      "learning_rate": 8.048e-06,
+      "loss": 2.4136,
+      "step": 4025
+    },
+    {
+      "epoch": 0.081,
+      "grad_norm": 0.6868999656119101,
+      "learning_rate": 8.098000000000001e-06,
+      "loss": 2.4071,
+      "step": 4050
+    },
+    {
+      "epoch": 0.0815,
+      "grad_norm": 0.6116238023737347,
+      "learning_rate": 8.148e-06,
+      "loss": 2.399,
+      "step": 4075
+    },
+    {
+      "epoch": 0.082,
+      "grad_norm": 0.6278682082032867,
+      "learning_rate": 8.198e-06,
+      "loss": 2.4147,
+      "step": 4100
+    },
+    {
+      "epoch": 0.082,
+      "eval_loss": 2.424673318862915,
+      "eval_runtime": 31.702,
+      "eval_samples_per_second": 3.217,
+      "eval_steps_per_second": 1.609,
+      "step": 4100
+    },
+    {
+      "epoch": 0.0825,
+      "grad_norm": 0.652529340562497,
+      "learning_rate": 8.248e-06,
+      "loss": 2.4122,
+      "step": 4125
+    },
+    {
+      "epoch": 0.083,
+      "grad_norm": 0.6241764244719189,
+      "learning_rate": 8.298000000000001e-06,
+      "loss": 2.4034,
+      "step": 4150
+    },
+    {
+      "epoch": 0.0835,
+      "grad_norm": 0.6093599459247064,
+      "learning_rate": 8.348e-06,
+      "loss": 2.4184,
+      "step": 4175
+    },
+    {
+      "epoch": 0.084,
+      "grad_norm": 0.6145457262520279,
+      "learning_rate": 8.398e-06,
+      "loss": 2.4099,
+      "step": 4200
+    },
+    {
+      "epoch": 0.084,
+      "eval_loss": 2.424262046813965,
+      "eval_runtime": 31.7126,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 1.608,
+      "step": 4200
+    },
+    {
+      "epoch": 0.0845,
+      "grad_norm": 0.6094287468338311,
+      "learning_rate": 8.448000000000001e-06,
+      "loss": 2.413,
+      "step": 4225
+    },
+    {
+      "epoch": 0.085,
+      "grad_norm": 0.6138052906293812,
+      "learning_rate": 8.498e-06,
+      "loss": 2.3935,
+      "step": 4250
+    },
+    {
+      "epoch": 0.0855,
+      "grad_norm": 0.6122465571930669,
+      "learning_rate": 8.548e-06,
+      "loss": 2.4061,
+      "step": 4275
+    },
+    {
+      "epoch": 0.086,
+      "grad_norm": 0.612830490698143,
+      "learning_rate": 8.598000000000001e-06,
+      "loss": 2.4112,
+      "step": 4300
+    },
+    {
+      "epoch": 0.086,
+      "eval_loss": 2.4238767623901367,
+      "eval_runtime": 31.7292,
+      "eval_samples_per_second": 3.215,
+      "eval_steps_per_second": 1.607,
+      "step": 4300
+    },
+    {
+      "epoch": 0.0865,
+      "grad_norm": 0.628133619898939,
+      "learning_rate": 8.648000000000001e-06,
+      "loss": 2.4046,
+      "step": 4325
+    },
+    {
+      "epoch": 0.087,
+      "grad_norm": 0.6496528950628708,
+      "learning_rate": 8.698e-06,
+      "loss": 2.4068,
+      "step": 4350
+    },
+    {
+      "epoch": 0.0875,
+      "grad_norm": 0.5799286999894695,
+      "learning_rate": 8.748000000000002e-06,
+      "loss": 2.4072,
+      "step": 4375
+    },
+    {
+      "epoch": 0.088,
+      "grad_norm": 0.5910425054287555,
+      "learning_rate": 8.798000000000001e-06,
+      "loss": 2.3926,
+      "step": 4400
+    },
+    {
+      "epoch": 0.088,
+      "eval_loss": 2.4238674640655518,
+      "eval_runtime": 31.7606,
+      "eval_samples_per_second": 3.212,
+      "eval_steps_per_second": 1.606,
+      "step": 4400
+    },
+    {
+      "epoch": 0.0885,
+      "grad_norm": 0.6159620367072861,
+      "learning_rate": 8.848e-06,
+      "loss": 2.4115,
+      "step": 4425
+    },
+    {
+      "epoch": 0.089,
+      "grad_norm": 0.6972746637095123,
+      "learning_rate": 8.898000000000002e-06,
+      "loss": 2.4105,
+      "step": 4450
+    },
+    {
+      "epoch": 0.0895,
+      "grad_norm": 0.585353172093314,
+      "learning_rate": 8.948000000000001e-06,
+      "loss": 2.4198,
+      "step": 4475
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.6059468344943013,
+      "learning_rate": 8.998000000000001e-06,
+      "loss": 2.4069,
+      "step": 4500
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.42350435256958,
+      "eval_runtime": 31.6869,
+      "eval_samples_per_second": 3.219,
+      "eval_steps_per_second": 1.609,
+      "step": 4500
+    },
+    {
+      "epoch": 0.0905,
+      "grad_norm": 0.6015924987371338,
+      "learning_rate": 9.048e-06,
+      "loss": 2.4081,
+      "step": 4525
+    },
+    {
+      "epoch": 0.091,
+      "grad_norm": 0.6006000726208087,
+      "learning_rate": 9.098000000000002e-06,
+      "loss": 2.4079,
+      "step": 4550
+    },
+    {
+      "epoch": 0.0915,
+      "grad_norm": 0.6334216081429662,
+      "learning_rate": 9.148e-06,
+      "loss": 2.4021,
+      "step": 4575
+    },
+    {
+      "epoch": 0.092,
+      "grad_norm": 0.618758486975248,
+      "learning_rate": 9.198e-06,
+      "loss": 2.4191,
+      "step": 4600
+    },
+    {
+      "epoch": 0.092,
+      "eval_loss": 2.42366361618042,
+      "eval_runtime": 31.7351,
+      "eval_samples_per_second": 3.214,
+      "eval_steps_per_second": 1.607,
+      "step": 4600
+    },
+    {
+      "epoch": 0.0925,
+      "grad_norm": 0.5982185393268022,
+      "learning_rate": 9.248e-06,
+      "loss": 2.4131,
+      "step": 4625
+    },
+    {
+      "epoch": 0.093,
+      "grad_norm": 0.5778256378393931,
+      "learning_rate": 9.298e-06,
+      "loss": 2.4105,
+      "step": 4650
+    },
+    {
+      "epoch": 0.0935,
+      "grad_norm": 0.5892823966497687,
+      "learning_rate": 9.348000000000001e-06,
+      "loss": 2.4146,
+      "step": 4675
+    },
+    {
+      "epoch": 0.094,
+      "grad_norm": 0.6000897787974973,
+      "learning_rate": 9.398e-06,
+      "loss": 2.4141,
+      "step": 4700
+    },
+    {
+      "epoch": 0.094,
+      "eval_loss": 2.4225125312805176,
+      "eval_runtime": 31.7008,
+      "eval_samples_per_second": 3.218,
+      "eval_steps_per_second": 1.609,
+      "step": 4700
+    },
+    {
+      "epoch": 0.0945,
+      "grad_norm": 0.6317324097500899,
+      "learning_rate": 9.448e-06,
+      "loss": 2.4157,
+      "step": 4725
+    },
+    {
+      "epoch": 0.095,
+      "grad_norm": 0.6157270042215848,
+      "learning_rate": 9.498000000000001e-06,
+      "loss": 2.4091,
+      "step": 4750
+    },
+    {
+      "epoch": 0.0955,
+      "grad_norm": 0.5753740107095965,
+      "learning_rate": 9.548e-06,
+      "loss": 2.4142,
+      "step": 4775
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 0.6173977503240126,
+      "learning_rate": 9.598e-06,
+      "loss": 2.4083,
+      "step": 4800
+    },
+    {
+      "epoch": 0.096,
+      "eval_loss": 2.422691583633423,
+      "eval_runtime": 31.4709,
+      "eval_samples_per_second": 3.241,
+      "eval_steps_per_second": 1.621,
+      "step": 4800
+    },
+    {
+      "epoch": 0.0965,
+      "grad_norm": 0.5942953368600239,
+      "learning_rate": 9.648000000000001e-06,
+      "loss": 2.4087,
+      "step": 4825
+    },
+    {
+      "epoch": 0.097,
+      "grad_norm": 0.6555799317672051,
+      "learning_rate": 9.698000000000001e-06,
+      "loss": 2.4014,
+      "step": 4850
+    },
+    {
+      "epoch": 0.0975,
+      "grad_norm": 0.5757950367748221,
+      "learning_rate": 9.748e-06,
+      "loss": 2.4068,
+      "step": 4875
+    },
+    {
+      "epoch": 0.098,
+      "grad_norm": 0.632774385045014,
+      "learning_rate": 9.798e-06,
+      "loss": 2.4087,
+      "step": 4900
+    },
+    {
+      "epoch": 0.098,
+      "eval_loss": 2.4220755100250244,
+      "eval_runtime": 31.4352,
+      "eval_samples_per_second": 3.245,
+      "eval_steps_per_second": 1.622,
+      "step": 4900
+    },
+    {
+      "epoch": 0.0985,
+      "grad_norm": 0.5781361622989438,
+      "learning_rate": 9.848000000000001e-06,
+      "loss": 2.4143,
+      "step": 4925
+    },
+    {
+      "epoch": 0.099,
+      "grad_norm": 0.6262568188074606,
+      "learning_rate": 9.898e-06,
+      "loss": 2.4142,
+      "step": 4950
+    },
+    {
+      "epoch": 0.0995,
+      "grad_norm": 0.6349024994263993,
+      "learning_rate": 9.948e-06,
+      "loss": 2.4086,
+      "step": 4975
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.5902257687086163,
+      "learning_rate": 9.998000000000002e-06,
+      "loss": 2.4075,
+      "step": 5000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.4221627712249756,
+      "eval_runtime": 31.4547,
+      "eval_samples_per_second": 3.243,
+      "eval_steps_per_second": 1.621,
+      "step": 5000
+    },
+    {
+      "epoch": 0.1005,
+      "grad_norm": 0.6096554216132576,
+      "learning_rate": 9.994666666666668e-06,
+      "loss": 2.4056,
+      "step": 5025
+    },
+    {
+      "epoch": 0.101,
+      "grad_norm": 0.6157713116203616,
+      "learning_rate": 9.989111111111111e-06,
+      "loss": 2.4104,
+      "step": 5050
+    },
+    {
+      "epoch": 0.1015,
+      "grad_norm": 0.6100961136574927,
+      "learning_rate": 9.983555555555556e-06,
+      "loss": 2.4041,
+      "step": 5075
+    },
+    {
+      "epoch": 0.102,
+      "grad_norm": 0.5965243725355741,
+      "learning_rate": 9.978000000000002e-06,
+      "loss": 2.406,
+      "step": 5100
+    },
+    {
+      "epoch": 0.102,
+      "eval_loss": 2.4214208126068115,
+      "eval_runtime": 31.4633,
+      "eval_samples_per_second": 3.242,
+      "eval_steps_per_second": 1.621,
+      "step": 5100
+    },
+    {
+      "epoch": 0.1025,
+      "grad_norm": 0.7288147495415569,
+      "learning_rate": 9.972444444444445e-06,
+      "loss": 2.419,
+      "step": 5125
+    },
+    {
+      "epoch": 0.103,
+      "grad_norm": 0.6027052437896476,
+      "learning_rate": 9.966888888888889e-06,
+      "loss": 2.4149,
+      "step": 5150
+    },
+    {
+      "epoch": 0.1035,
+      "grad_norm": 0.6351514057651396,
+      "learning_rate": 9.961333333333334e-06,
+      "loss": 2.4053,
+      "step": 5175
+    },
+    {
+      "epoch": 0.104,
+      "grad_norm": 0.5912339833990681,
+      "learning_rate": 9.95577777777778e-06,
+      "loss": 2.4099,
+      "step": 5200
+    },
+    {
+      "epoch": 0.104,
+      "eval_loss": 2.4213571548461914,
+      "eval_runtime": 31.7689,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 1.605,
+      "step": 5200
+    },
+    {
+      "epoch": 0.1045,
+      "grad_norm": 0.6252419519280321,
+      "learning_rate": 9.950222222222223e-06,
+      "loss": 2.4044,
+      "step": 5225
+    },
+    {
+      "epoch": 0.105,
+      "grad_norm": 0.5932871252062307,
+      "learning_rate": 9.944666666666668e-06,
+      "loss": 2.4041,
+      "step": 5250
+    },
+    {
+      "epoch": 0.1055,
+      "grad_norm": 0.6265014889786313,
+      "learning_rate": 9.939111111111112e-06,
+      "loss": 2.4121,
+      "step": 5275
+    },
+    {
+      "epoch": 0.106,
+      "grad_norm": 0.5586876350334784,
+      "learning_rate": 9.933555555555557e-06,
+      "loss": 2.4005,
+      "step": 5300
+    },
+    {
+      "epoch": 0.106,
+      "eval_loss": 2.4209611415863037,
+      "eval_runtime": 31.4697,
+      "eval_samples_per_second": 3.241,
+      "eval_steps_per_second": 1.621,
+      "step": 5300
+    },
+    {
+      "epoch": 0.1065,
+      "grad_norm": 0.6208578145519013,
+      "learning_rate": 9.928e-06,
+      "loss": 2.4095,
+      "step": 5325
+    },
+    {
+      "epoch": 0.107,
+      "grad_norm": 0.5761711209442947,
+      "learning_rate": 9.922444444444446e-06,
+      "loss": 2.411,
+      "step": 5350
+    },
+    {
+      "epoch": 0.1075,
+      "grad_norm": 0.6259961321288001,
+      "learning_rate": 9.91688888888889e-06,
+      "loss": 2.4062,
+      "step": 5375
+    },
+    {
+      "epoch": 0.108,
+      "grad_norm": 0.6636296843455429,
+      "learning_rate": 9.911333333333335e-06,
+      "loss": 2.411,
+      "step": 5400
+    },
+    {
+      "epoch": 0.108,
+      "eval_loss": 2.420535087585449,
+      "eval_runtime": 31.4447,
+      "eval_samples_per_second": 3.244,
+      "eval_steps_per_second": 1.622,
+      "step": 5400
+    },
+    {
+      "epoch": 0.1085,
+      "grad_norm": 0.5977322049971575,
+      "learning_rate": 9.905777777777778e-06,
+      "loss": 2.4073,
+      "step": 5425
+    },
+    {
+      "epoch": 0.109,
+      "grad_norm": 0.605286836273461,
+      "learning_rate": 9.900222222222223e-06,
+      "loss": 2.4023,
+      "step": 5450
+    },
+    {
+      "epoch": 0.1095,
+      "grad_norm": 0.6244785501127309,
+      "learning_rate": 9.894666666666669e-06,
+      "loss": 2.4084,
+      "step": 5475
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 0.6135442380195029,
+      "learning_rate": 9.889111111111112e-06,
+      "loss": 2.4068,
+      "step": 5500
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.4201102256774902,
+      "eval_runtime": 31.806,
+      "eval_samples_per_second": 3.207,
+      "eval_steps_per_second": 1.603,
+      "step": 5500
+    },
+    {
+      "epoch": 0.1105,
+      "grad_norm": 0.6260082123047037,
+      "learning_rate": 9.883555555555556e-06,
+      "loss": 2.4053,
+      "step": 5525
+    },
+    {
+      "epoch": 0.111,
+      "grad_norm": 0.5956336151974914,
+      "learning_rate": 9.878000000000001e-06,
+      "loss": 2.4152,
+      "step": 5550
+    },
+    {
+      "epoch": 0.1115,
+      "grad_norm": 0.6149620176113736,
+      "learning_rate": 9.872444444444446e-06,
+      "loss": 2.4055,
+      "step": 5575
+    },
+    {
+      "epoch": 0.112,
+      "grad_norm": 0.6326092489345128,
+      "learning_rate": 9.86688888888889e-06,
+      "loss": 2.3968,
+      "step": 5600
+    },
+    {
+      "epoch": 0.112,
+      "eval_loss": 2.420125722885132,
+      "eval_runtime": 31.8082,
+      "eval_samples_per_second": 3.207,
+      "eval_steps_per_second": 1.603,
+      "step": 5600
+    },
+    {
+      "epoch": 0.1125,
+      "grad_norm": 0.6390446494212693,
+      "learning_rate": 9.861333333333333e-06,
+      "loss": 2.4045,
+      "step": 5625
+    },
+    {
+      "epoch": 0.113,
+      "grad_norm": 0.6670896967232433,
+      "learning_rate": 9.855777777777779e-06,
+      "loss": 2.4013,
+      "step": 5650
+    },
+    {
+      "epoch": 0.1135,
+      "grad_norm": 0.6185087617978746,
+      "learning_rate": 9.850222222222224e-06,
+      "loss": 2.4015,
+      "step": 5675
+    },
+    {
+      "epoch": 0.114,
+      "grad_norm": 0.6040525454825223,
+      "learning_rate": 9.844666666666667e-06,
+      "loss": 2.4109,
+      "step": 5700
+    },
+    {
+      "epoch": 0.114,
+      "eval_loss": 2.419764518737793,
+      "eval_runtime": 31.7256,
+      "eval_samples_per_second": 3.215,
+      "eval_steps_per_second": 1.608,
+      "step": 5700
+    },
+    {
+      "epoch": 0.1145,
+      "grad_norm": 0.6010942125132981,
+      "learning_rate": 9.839111111111111e-06,
+      "loss": 2.4092,
+      "step": 5725
+    },
+    {
+      "epoch": 0.115,
+      "grad_norm": 0.602852118998295,
+      "learning_rate": 9.833555555555556e-06,
+      "loss": 2.414,
+      "step": 5750
+    },
+    {
+      "epoch": 0.1155,
+      "grad_norm": 0.6189454944937772,
+      "learning_rate": 9.828000000000001e-06,
+      "loss": 2.4112,
+      "step": 5775
+    },
+    {
+      "epoch": 0.116,
+      "grad_norm": 0.5871735622958322,
+      "learning_rate": 9.822444444444445e-06,
+      "loss": 2.3993,
+      "step": 5800
+    },
+    {
+      "epoch": 0.116,
+      "eval_loss": 2.419255495071411,
+      "eval_runtime": 31.7146,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 1.608,
+      "step": 5800
+    },
+    {
+      "epoch": 0.1165,
+      "grad_norm": 0.5719116548117884,
+      "learning_rate": 9.81688888888889e-06,
+      "loss": 2.4128,
+      "step": 5825
+    },
+    {
+      "epoch": 0.117,
+      "grad_norm": 0.5855276996729913,
+      "learning_rate": 9.811333333333334e-06,
+      "loss": 2.4127,
+      "step": 5850
+    },
+    {
+      "epoch": 0.1175,
+      "grad_norm": 0.5948413134062237,
+      "learning_rate": 9.805777777777779e-06,
+      "loss": 2.4028,
+      "step": 5875
+    },
+    {
+      "epoch": 0.118,
+      "grad_norm": 0.6114053718118341,
+      "learning_rate": 9.800222222222223e-06,
+      "loss": 2.4085,
+      "step": 5900
+    },
+    {
+      "epoch": 0.118,
+      "eval_loss": 2.4192631244659424,
+      "eval_runtime": 31.8221,
+      "eval_samples_per_second": 3.205,
+      "eval_steps_per_second": 1.603,
+      "step": 5900
+    },
+    {
+      "epoch": 0.1185,
+      "grad_norm": 0.6171839632107143,
+      "learning_rate": 9.794666666666668e-06,
+      "loss": 2.4063,
+      "step": 5925
+    },
+    {
+      "epoch": 0.119,
+      "grad_norm": 0.5985426708940325,
+      "learning_rate": 9.789111111111111e-06,
+      "loss": 2.401,
+      "step": 5950
+    },
+    {
+      "epoch": 0.1195,
+      "grad_norm": 0.6242757087701617,
+      "learning_rate": 9.783555555555557e-06,
+      "loss": 2.3977,
+      "step": 5975
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.6472329844420622,
+      "learning_rate": 9.778e-06,
+      "loss": 2.4066,
+      "step": 6000
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.4190170764923096,
+      "eval_runtime": 31.973,
+      "eval_samples_per_second": 3.19,
+      "eval_steps_per_second": 1.595,
+      "step": 6000
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 50000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.9099213789963223e+19,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}