{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.062,
  "eval_steps": 1000,
  "global_step": 91000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2e-06,
      "grad_norm": 29.506126403808594,
      "learning_rate": 0.0,
      "loss": 1.5091,
      "step": 1
    },
    {
      "epoch": 0.0002,
      "grad_norm": 7.35781717300415,
      "learning_rate": 9.9e-07,
      "loss": 1.6562,
      "step": 100
    },
    {
      "epoch": 0.0004,
      "grad_norm": 4.9180989265441895,
      "learning_rate": 1.99e-06,
      "loss": 1.6176,
      "step": 200
    },
    {
      "epoch": 0.0006,
      "grad_norm": 1.8868086338043213,
      "learning_rate": 2.99e-06,
      "loss": 1.548,
      "step": 300
    },
    {
      "epoch": 0.0008,
      "grad_norm": 7.365355491638184,
      "learning_rate": 3.99e-06,
      "loss": 1.4958,
      "step": 400
    },
    {
      "epoch": 0.001,
      "grad_norm": 8.965476989746094,
      "learning_rate": 4.9900000000000005e-06,
      "loss": 1.4918,
      "step": 500
    },
    {
      "epoch": 0.0012,
      "grad_norm": 2.2186834812164307,
      "learning_rate": 5.99e-06,
      "loss": 1.4807,
      "step": 600
    },
    {
      "epoch": 0.0014,
      "grad_norm": 1.970430850982666,
      "learning_rate": 6.990000000000001e-06,
      "loss": 1.4312,
      "step": 700
    },
    {
      "epoch": 0.0016,
      "grad_norm": 1.5914119482040405,
      "learning_rate": 7.99e-06,
      "loss": 1.3848,
      "step": 800
    },
    {
      "epoch": 0.0018,
      "grad_norm": 1.7615679502487183,
      "learning_rate": 8.99e-06,
      "loss": 1.4126,
      "step": 900
    },
    {
      "epoch": 0.002,
      "grad_norm": 1.5981565713882446,
      "learning_rate": 9.990000000000001e-06,
      "loss": 1.3768,
      "step": 1000
    },
    {
      "epoch": 0.002,
      "eval_loss": 1.1488478183746338,
      "eval_runtime": 84.3931,
      "eval_samples_per_second": 182.989,
      "eval_steps_per_second": 2.868,
      "step": 1000
    },
    {
      "epoch": 0.0022,
      "grad_norm": 1.9463247060775757,
      "learning_rate": 1.099e-05,
      "loss": 1.4649,
      "step": 1100
    },
    {
      "epoch": 0.0024,
      "grad_norm": 1.997353434562683,
      "learning_rate": 1.199e-05,
      "loss": 1.422,
      "step": 1200
    },
    {
      "epoch": 0.0026,
      "grad_norm": 2.028587818145752,
      "learning_rate": 1.299e-05,
      "loss": 1.4101,
      "step": 1300
    },
    {
      "epoch": 0.0028,
      "grad_norm": 1.8055784702301025,
      "learning_rate": 1.399e-05,
      "loss": 1.379,
      "step": 1400
    },
    {
      "epoch": 0.003,
      "grad_norm": 2.630389451980591,
      "learning_rate": 1.499e-05,
      "loss": 1.3915,
      "step": 1500
    },
    {
      "epoch": 0.0032,
      "grad_norm": 1.4471231698989868,
      "learning_rate": 1.599e-05,
      "loss": 1.3651,
      "step": 1600
    },
    {
      "epoch": 0.0034,
      "grad_norm": 1.4115934371948242,
      "learning_rate": 1.699e-05,
      "loss": 1.3327,
      "step": 1700
    },
    {
      "epoch": 0.0036,
      "grad_norm": 1.1099858283996582,
      "learning_rate": 1.7990000000000002e-05,
      "loss": 1.304,
      "step": 1800
    },
    {
      "epoch": 0.0038,
      "grad_norm": 1.5767651796340942,
      "learning_rate": 1.8990000000000003e-05,
      "loss": 1.3375,
      "step": 1900
    },
    {
      "epoch": 0.004,
      "grad_norm": 1.3484268188476562,
      "learning_rate": 1.999e-05,
      "loss": 1.3746,
      "step": 2000
    },
    {
      "epoch": 0.004,
      "eval_loss": 1.1486531496047974,
      "eval_runtime": 76.1223,
      "eval_samples_per_second": 202.871,
      "eval_steps_per_second": 3.179,
      "step": 2000
    },
    {
      "epoch": 0.0042,
      "grad_norm": 1.6412079334259033,
      "learning_rate": 2.099e-05,
      "loss": 1.3931,
      "step": 2100
    },
    {
      "epoch": 0.0044,
      "grad_norm": 1.17317533493042,
      "learning_rate": 2.199e-05,
      "loss": 1.3512,
      "step": 2200
    },
    {
      "epoch": 0.0046,
      "grad_norm": 0.8342074751853943,
      "learning_rate": 2.2990000000000002e-05,
      "loss": 1.3805,
      "step": 2300
    },
    {
      "epoch": 0.0048,
      "grad_norm": 1.5843234062194824,
      "learning_rate": 2.3990000000000002e-05,
      "loss": 1.377,
      "step": 2400
    },
    {
      "epoch": 0.005,
      "grad_norm": 1.915511131286621,
      "learning_rate": 2.4990000000000003e-05,
      "loss": 1.3659,
      "step": 2500
    },
    {
      "epoch": 0.0052,
      "grad_norm": 1.6507076025009155,
      "learning_rate": 2.5990000000000004e-05,
      "loss": 1.2875,
      "step": 2600
    },
    {
      "epoch": 0.0054,
      "grad_norm": 1.5680265426635742,
      "learning_rate": 2.6989999999999997e-05,
      "loss": 1.3402,
      "step": 2700
    },
    {
      "epoch": 0.0056,
      "grad_norm": 0.8005309700965881,
      "learning_rate": 2.7989999999999998e-05,
      "loss": 1.3565,
      "step": 2800
    },
    {
      "epoch": 0.0058,
      "grad_norm": 1.664014220237732,
      "learning_rate": 2.8990000000000002e-05,
      "loss": 1.3118,
      "step": 2900
    },
    {
      "epoch": 0.006,
      "grad_norm": 1.1597651243209839,
      "learning_rate": 2.9990000000000003e-05,
      "loss": 1.3207,
      "step": 3000
    },
    {
      "epoch": 0.006,
      "eval_loss": 1.1344993114471436,
      "eval_runtime": 76.5771,
      "eval_samples_per_second": 201.666,
      "eval_steps_per_second": 3.16,
      "step": 3000
    },
    {
      "epoch": 0.0062,
      "grad_norm": 1.6559661626815796,
      "learning_rate": 3.099e-05,
      "loss": 1.3103,
      "step": 3100
    },
    {
      "epoch": 0.0064,
      "grad_norm": 1.390712857246399,
      "learning_rate": 3.1990000000000004e-05,
      "loss": 1.3855,
      "step": 3200
    },
    {
      "epoch": 0.0066,
      "grad_norm": 1.9980418682098389,
      "learning_rate": 3.299e-05,
      "loss": 1.3109,
      "step": 3300
    },
    {
      "epoch": 0.0068,
      "grad_norm": 1.2899682521820068,
      "learning_rate": 3.399e-05,
      "loss": 1.3219,
      "step": 3400
    },
    {
      "epoch": 0.007,
      "grad_norm": 1.44901704788208,
      "learning_rate": 3.499e-05,
      "loss": 1.3089,
      "step": 3500
    },
    {
      "epoch": 0.0072,
      "grad_norm": 1.3377976417541504,
      "learning_rate": 3.599e-05,
      "loss": 1.2995,
      "step": 3600
    },
    {
      "epoch": 0.0074,
      "grad_norm": 1.5043129920959473,
      "learning_rate": 3.699e-05,
      "loss": 1.3421,
      "step": 3700
    },
    {
      "epoch": 0.0076,
      "grad_norm": 1.4387165307998657,
      "learning_rate": 3.799e-05,
      "loss": 1.3337,
      "step": 3800
    },
    {
      "epoch": 0.0078,
      "grad_norm": 1.1607294082641602,
      "learning_rate": 3.8990000000000004e-05,
      "loss": 1.2852,
      "step": 3900
    },
    {
      "epoch": 0.008,
      "grad_norm": 1.0189259052276611,
      "learning_rate": 3.999e-05,
      "loss": 1.3277,
      "step": 4000
    },
    {
      "epoch": 0.008,
      "eval_loss": 1.1298929452896118,
      "eval_runtime": 76.4952,
      "eval_samples_per_second": 201.882,
      "eval_steps_per_second": 3.164,
      "step": 4000
    },
    {
      "epoch": 0.0082,
      "grad_norm": 1.6229581832885742,
      "learning_rate": 4.099e-05,
      "loss": 1.2878,
      "step": 4100
    },
    {
      "epoch": 0.0084,
      "grad_norm": 1.693702220916748,
      "learning_rate": 4.199e-05,
      "loss": 1.313,
      "step": 4200
    },
    {
      "epoch": 0.0086,
      "grad_norm": 1.169730544090271,
      "learning_rate": 4.299e-05,
      "loss": 1.2915,
      "step": 4300
    },
    {
      "epoch": 0.0088,
      "grad_norm": 1.3561712503433228,
      "learning_rate": 4.3990000000000004e-05,
      "loss": 1.3337,
      "step": 4400
    },
    {
      "epoch": 0.009,
      "grad_norm": 1.4713114500045776,
      "learning_rate": 4.499e-05,
      "loss": 1.309,
      "step": 4500
    },
    {
      "epoch": 0.0092,
      "grad_norm": 1.0679044723510742,
      "learning_rate": 4.599e-05,
      "loss": 1.3464,
      "step": 4600
    },
    {
      "epoch": 0.0094,
      "grad_norm": 1.4595869779586792,
      "learning_rate": 4.699e-05,
      "loss": 1.3385,
      "step": 4700
    },
    {
      "epoch": 0.0096,
      "grad_norm": 1.6443949937820435,
      "learning_rate": 4.799e-05,
      "loss": 1.3287,
      "step": 4800
    },
    {
      "epoch": 0.0098,
      "grad_norm": 1.3524634838104248,
      "learning_rate": 4.8990000000000004e-05,
      "loss": 1.3224,
      "step": 4900
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.552986979484558,
      "learning_rate": 4.999e-05,
      "loss": 1.3256,
      "step": 5000
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.1314986944198608,
      "eval_runtime": 76.3433,
      "eval_samples_per_second": 202.284,
      "eval_steps_per_second": 3.17,
      "step": 5000
    },
    {
      "epoch": 0.0102,
      "grad_norm": 1.1126846075057983,
      "learning_rate": 4.9999995065197964e-05,
      "loss": 1.3184,
      "step": 5100
    },
    {
      "epoch": 0.0104,
      "grad_norm": 0.8533400893211365,
      "learning_rate": 4.999998006090441e-05,
      "loss": 1.3145,
      "step": 5200
    },
    {
      "epoch": 0.0106,
      "grad_norm": 1.6032077074050903,
      "learning_rate": 4.9999954986621866e-05,
      "loss": 1.2894,
      "step": 5300
    },
    {
      "epoch": 0.0108,
      "grad_norm": 1.2594430446624756,
      "learning_rate": 4.999991984236044e-05,
      "loss": 1.2515,
      "step": 5400
    },
    {
      "epoch": 0.011,
      "grad_norm": 1.2169750928878784,
      "learning_rate": 4.99998746281343e-05,
      "loss": 1.2603,
      "step": 5500
    },
    {
      "epoch": 0.0112,
      "grad_norm": 1.2038013935089111,
      "learning_rate": 4.999981934396165e-05,
      "loss": 1.3063,
      "step": 5600
    },
    {
      "epoch": 0.0114,
      "grad_norm": 1.1477010250091553,
      "learning_rate": 4.999975398986476e-05,
      "loss": 1.3057,
      "step": 5700
    },
    {
      "epoch": 0.0116,
      "grad_norm": 0.6725754141807556,
      "learning_rate": 4.9999678565869944e-05,
      "loss": 1.3211,
      "step": 5800
    },
    {
      "epoch": 0.0118,
      "grad_norm": 1.5470402240753174,
      "learning_rate": 4.99995930720076e-05,
      "loss": 1.2794,
      "step": 5900
    },
    {
      "epoch": 0.012,
      "grad_norm": 1.8079277276992798,
      "learning_rate": 4.999949750831215e-05,
      "loss": 1.2736,
      "step": 6000
    },
    {
      "epoch": 0.012,
      "eval_loss": 1.1335862874984741,
      "eval_runtime": 76.3508,
      "eval_samples_per_second": 202.264,
      "eval_steps_per_second": 3.17,
      "step": 6000
    },
    {
      "epoch": 0.0122,
      "grad_norm": 1.4117431640625,
      "learning_rate": 4.99993918748221e-05,
      "loss": 1.3142,
      "step": 6100
    },
    {
      "epoch": 0.0124,
      "grad_norm": 1.2657192945480347,
      "learning_rate": 4.999927617157998e-05,
      "loss": 1.3216,
      "step": 6200
    },
    {
      "epoch": 0.0126,
      "grad_norm": 1.0358809232711792,
      "learning_rate": 4.9999150398632425e-05,
      "loss": 1.329,
      "step": 6300
    },
    {
      "epoch": 0.0128,
      "grad_norm": 1.6824450492858887,
      "learning_rate": 4.999901455603007e-05,
      "loss": 1.2911,
      "step": 6400
    },
    {
      "epoch": 0.013,
      "grad_norm": 1.5632168054580688,
      "learning_rate": 4.9998868643827635e-05,
      "loss": 1.3004,
      "step": 6500
    },
    {
      "epoch": 0.0132,
      "grad_norm": 1.254310131072998,
      "learning_rate": 4.99987126620839e-05,
      "loss": 1.2981,
      "step": 6600
    },
    {
      "epoch": 0.0134,
      "grad_norm": 1.4540060758590698,
      "learning_rate": 4.999854661086171e-05,
      "loss": 1.3184,
      "step": 6700
    },
    {
      "epoch": 0.0136,
      "grad_norm": 1.3684179782867432,
      "learning_rate": 4.999837049022792e-05,
      "loss": 1.2914,
      "step": 6800
    },
    {
      "epoch": 0.0138,
      "grad_norm": 1.474075436592102,
      "learning_rate": 4.999818430025349e-05,
      "loss": 1.2702,
      "step": 6900
    },
    {
      "epoch": 0.014,
      "grad_norm": 1.3687875270843506,
      "learning_rate": 4.999798804101341e-05,
      "loss": 1.2388,
      "step": 7000
    },
    {
      "epoch": 0.014,
      "eval_loss": 1.1258224248886108,
      "eval_runtime": 76.3516,
      "eval_samples_per_second": 202.262,
      "eval_steps_per_second": 3.17,
      "step": 7000
    },
    {
      "epoch": 0.0142,
      "grad_norm": 0.6668384075164795,
      "learning_rate": 4.999778171258675e-05,
      "loss": 1.2768,
      "step": 7100
    },
    {
      "epoch": 0.0144,
      "grad_norm": 1.1303478479385376,
      "learning_rate": 4.9997565315056596e-05,
      "loss": 1.2639,
      "step": 7200
    },
    {
      "epoch": 0.0146,
      "grad_norm": 1.516221046447754,
      "learning_rate": 4.999733884851012e-05,
      "loss": 1.2805,
      "step": 7300
    },
    {
      "epoch": 0.0148,
      "grad_norm": 1.3124428987503052,
      "learning_rate": 4.9997102313038544e-05,
      "loss": 1.2811,
      "step": 7400
    },
    {
      "epoch": 0.015,
      "grad_norm": 1.390687346458435,
      "learning_rate": 4.999685570873715e-05,
      "loss": 1.2481,
      "step": 7500
    },
    {
      "epoch": 0.0152,
      "grad_norm": 0.8783305883407593,
      "learning_rate": 4.999659903570526e-05,
      "loss": 1.2986,
      "step": 7600
    },
    {
      "epoch": 0.0154,
      "grad_norm": 1.0741727352142334,
      "learning_rate": 4.999633229404628e-05,
      "loss": 1.2784,
      "step": 7700
    },
    {
      "epoch": 0.0156,
      "grad_norm": 1.022088885307312,
      "learning_rate": 4.999605548386763e-05,
      "loss": 1.2869,
      "step": 7800
    },
    {
      "epoch": 0.0158,
      "grad_norm": 1.0997594594955444,
      "learning_rate": 4.9995768605280826e-05,
      "loss": 1.2736,
      "step": 7900
    },
    {
      "epoch": 0.016,
      "grad_norm": 1.191188931465149,
      "learning_rate": 4.9995471658401414e-05,
      "loss": 1.256,
      "step": 8000
    },
    {
      "epoch": 0.016,
      "eval_loss": 1.1234357357025146,
      "eval_runtime": 76.115,
      "eval_samples_per_second": 202.89,
      "eval_steps_per_second": 3.179,
      "step": 8000
    },
    {
      "epoch": 0.0162,
      "grad_norm": 0.7304887175559998,
      "learning_rate": 4.9995164643349015e-05,
      "loss": 1.2717,
      "step": 8100
    },
    {
      "epoch": 0.0164,
      "grad_norm": 1.2335166931152344,
      "learning_rate": 4.9994847560247276e-05,
      "loss": 1.2657,
      "step": 8200
    },
    {
      "epoch": 0.0166,
      "grad_norm": 1.424973487854004,
      "learning_rate": 4.999452040922393e-05,
      "loss": 1.3235,
      "step": 8300
    },
    {
      "epoch": 0.0168,
      "grad_norm": 1.1544169187545776,
      "learning_rate": 4.999418319041076e-05,
      "loss": 1.2455,
      "step": 8400
    },
    {
      "epoch": 0.017,
      "grad_norm": 1.1393338441848755,
      "learning_rate": 4.9993835903943585e-05,
      "loss": 1.233,
      "step": 8500
    },
    {
      "epoch": 0.0172,
      "grad_norm": 1.1183439493179321,
      "learning_rate": 4.99934785499623e-05,
      "loss": 1.2282,
      "step": 8600
    },
    {
      "epoch": 0.0174,
      "grad_norm": 1.275148868560791,
      "learning_rate": 4.999311112861084e-05,
      "loss": 1.2665,
      "step": 8700
    },
    {
      "epoch": 0.0176,
      "grad_norm": 1.4136372804641724,
      "learning_rate": 4.99927336400372e-05,
      "loss": 1.2617,
      "step": 8800
    },
    {
      "epoch": 0.0178,
      "grad_norm": 1.392327904701233,
      "learning_rate": 4.999234608439345e-05,
      "loss": 1.292,
      "step": 8900
    },
    {
      "epoch": 0.018,
      "grad_norm": 1.367475152015686,
      "learning_rate": 4.9991948461835685e-05,
      "loss": 1.2153,
      "step": 9000
    },
    {
      "epoch": 0.018,
      "eval_loss": 1.1127148866653442,
      "eval_runtime": 76.2524,
      "eval_samples_per_second": 202.525,
      "eval_steps_per_second": 3.174,
      "step": 9000
    },
    {
      "epoch": 0.0182,
      "grad_norm": 0.8793131709098816,
      "learning_rate": 4.999154077252407e-05,
      "loss": 1.2734,
      "step": 9100
    },
    {
      "epoch": 0.0184,
      "grad_norm": 0.6496739387512207,
      "learning_rate": 4.999112301662281e-05,
      "loss": 1.2498,
      "step": 9200
    },
    {
      "epoch": 0.0186,
      "grad_norm": 1.1462939977645874,
      "learning_rate": 4.99906951943002e-05,
      "loss": 1.2549,
      "step": 9300
    },
    {
      "epoch": 0.0188,
      "grad_norm": 1.520691156387329,
      "learning_rate": 4.999025730572854e-05,
      "loss": 1.2437,
      "step": 9400
    },
    {
      "epoch": 0.019,
      "grad_norm": 1.3555136919021606,
      "learning_rate": 4.998980935108424e-05,
      "loss": 1.2326,
      "step": 9500
    },
    {
      "epoch": 0.0192,
      "grad_norm": 1.467217206954956,
      "learning_rate": 4.9989351330547715e-05,
      "loss": 1.2768,
      "step": 9600
    },
    {
      "epoch": 0.0194,
      "grad_norm": 1.3842765092849731,
      "learning_rate": 4.998888324430346e-05,
      "loss": 1.2675,
      "step": 9700
    },
    {
      "epoch": 0.0196,
      "grad_norm": 1.344078540802002,
      "learning_rate": 4.998840509254003e-05,
      "loss": 1.2619,
      "step": 9800
    },
    {
      "epoch": 0.0198,
      "grad_norm": 0.7567517757415771,
      "learning_rate": 4.998791687545001e-05,
      "loss": 1.2794,
      "step": 9900
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9987697601318359,
      "learning_rate": 4.998741859323006e-05,
      "loss": 1.2778,
      "step": 10000
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.1275579929351807,
      "eval_runtime": 76.2888,
      "eval_samples_per_second": 202.428,
      "eval_steps_per_second": 3.172,
      "step": 10000
    },
    {
      "epoch": 0.0202,
      "grad_norm": 1.5212323665618896,
      "learning_rate": 4.9986910246080894e-05,
      "loss": 1.2884,
      "step": 10100
    },
    {
      "epoch": 0.0204,
      "grad_norm": 1.5730245113372803,
      "learning_rate": 4.998639183420727e-05,
      "loss": 1.282,
      "step": 10200
    },
    {
      "epoch": 0.0206,
      "grad_norm": 0.8342368602752686,
      "learning_rate": 4.9985863357818e-05,
      "loss": 1.2408,
      "step": 10300
    },
    {
      "epoch": 0.0208,
      "grad_norm": 1.3672316074371338,
      "learning_rate": 4.998532481712596e-05,
      "loss": 1.2205,
      "step": 10400
    },
    {
      "epoch": 0.021,
      "grad_norm": 1.1164605617523193,
      "learning_rate": 4.998477621234806e-05,
      "loss": 1.2817,
      "step": 10500
    },
    {
      "epoch": 0.0212,
      "grad_norm": 1.2867449522018433,
      "learning_rate": 4.99842175437053e-05,
      "loss": 1.2598,
      "step": 10600
    },
    {
      "epoch": 0.0214,
      "grad_norm": 1.6646244525909424,
      "learning_rate": 4.99836488114227e-05,
      "loss": 1.2163,
      "step": 10700
    },
    {
      "epoch": 0.0216,
      "grad_norm": 1.3233399391174316,
      "learning_rate": 4.998307001572935e-05,
      "loss": 1.2744,
      "step": 10800
    },
    {
      "epoch": 0.0218,
      "grad_norm": 1.1658077239990234,
      "learning_rate": 4.9982481156858385e-05,
      "loss": 1.274,
      "step": 10900
    },
    {
      "epoch": 0.022,
      "grad_norm": 1.4505467414855957,
      "learning_rate": 4.9981882235046995e-05,
      "loss": 1.2645,
      "step": 11000
    },
    {
      "epoch": 0.022,
      "eval_loss": 1.1138958930969238,
      "eval_runtime": 76.7643,
      "eval_samples_per_second": 201.174,
      "eval_steps_per_second": 3.153,
      "step": 11000
    },
    {
      "epoch": 0.0222,
      "grad_norm": 0.8515588641166687,
      "learning_rate": 4.998127325053642e-05,
      "loss": 1.2359,
      "step": 11100
    },
    {
      "epoch": 0.0224,
      "grad_norm": 1.4022259712219238,
      "learning_rate": 4.9980654203571983e-05,
      "loss": 1.2515,
      "step": 11200
    },
    {
      "epoch": 0.0226,
      "grad_norm": 1.5902676582336426,
      "learning_rate": 4.998002509440301e-05,
      "loss": 1.2305,
      "step": 11300
    },
    {
      "epoch": 0.0228,
      "grad_norm": 0.763087809085846,
      "learning_rate": 4.997938592328292e-05,
      "loss": 1.2312,
      "step": 11400
    },
    {
      "epoch": 0.023,
      "grad_norm": 1.4949332475662231,
      "learning_rate": 4.997873669046916e-05,
      "loss": 1.2768,
      "step": 11500
    },
    {
      "epoch": 0.0232,
      "grad_norm": 1.0390666723251343,
      "learning_rate": 4.9978077396223255e-05,
      "loss": 1.2355,
      "step": 11600
    },
    {
      "epoch": 0.0234,
      "grad_norm": 0.6799549460411072,
      "learning_rate": 4.997740804081076e-05,
      "loss": 1.264,
      "step": 11700
    },
    {
      "epoch": 0.0236,
      "grad_norm": 1.4702496528625488,
      "learning_rate": 4.99767286245013e-05,
      "loss": 1.3092,
      "step": 11800
    },
    {
      "epoch": 0.0238,
      "grad_norm": 1.3574661016464233,
      "learning_rate": 4.997603914756853e-05,
      "loss": 1.2654,
      "step": 11900
    },
    {
      "epoch": 0.024,
      "grad_norm": 1.1170625686645508,
      "learning_rate": 4.9975339610290175e-05,
      "loss": 1.2343,
      "step": 12000
    },
    {
      "epoch": 0.024,
      "eval_loss": 1.1109821796417236,
      "eval_runtime": 76.4587,
      "eval_samples_per_second": 201.978,
      "eval_steps_per_second": 3.165,
      "step": 12000
    },
    {
      "epoch": 0.0242,
      "grad_norm": 1.2707583904266357,
      "learning_rate": 4.997463001294802e-05,
      "loss": 1.2525,
      "step": 12100
    },
    {
      "epoch": 0.0244,
      "grad_norm": 1.2613739967346191,
      "learning_rate": 4.997391035582788e-05,
      "loss": 1.2698,
      "step": 12200
    },
    {
      "epoch": 0.0246,
      "grad_norm": 1.1995183229446411,
      "learning_rate": 4.997318063921963e-05,
      "loss": 1.237,
      "step": 12300
    },
    {
      "epoch": 0.0248,
      "grad_norm": 0.729535698890686,
      "learning_rate": 4.997244086341721e-05,
      "loss": 1.2248,
      "step": 12400
    },
    {
      "epoch": 0.025,
      "grad_norm": 1.3250787258148193,
      "learning_rate": 4.9971691028718594e-05,
      "loss": 1.2617,
      "step": 12500
    },
    {
      "epoch": 0.0252,
      "grad_norm": 1.421278476715088,
      "learning_rate": 4.997093113542582e-05,
      "loss": 1.2321,
      "step": 12600
    },
    {
      "epoch": 0.0254,
      "grad_norm": 1.5168310403823853,
      "learning_rate": 4.997016118384497e-05,
      "loss": 1.2268,
      "step": 12700
    },
    {
      "epoch": 0.0256,
      "grad_norm": 1.045483946800232,
      "learning_rate": 4.996938117428618e-05,
      "loss": 1.2714,
      "step": 12800
    },
    {
      "epoch": 0.0258,
      "grad_norm": 0.8379656076431274,
      "learning_rate": 4.9968591107063647e-05,
      "loss": 1.2792,
      "step": 12900
    },
    {
      "epoch": 0.026,
      "grad_norm": 1.620133638381958,
      "learning_rate": 4.996779098249559e-05,
      "loss": 1.2456,
      "step": 13000
    },
    {
      "epoch": 0.026,
      "eval_loss": 1.1081608533859253,
      "eval_runtime": 76.4734,
      "eval_samples_per_second": 201.939,
      "eval_steps_per_second": 3.164,
      "step": 13000
    },
    {
      "epoch": 0.0262,
      "grad_norm": 1.2181329727172852,
      "learning_rate": 4.9966980800904315e-05,
      "loss": 1.2187,
      "step": 13100
    },
    {
      "epoch": 0.0264,
      "grad_norm": 1.4935636520385742,
      "learning_rate": 4.996616056261616e-05,
      "loss": 1.2405,
      "step": 13200
    },
    {
      "epoch": 0.0266,
      "grad_norm": 1.3096436262130737,
      "learning_rate": 4.996533026796152e-05,
      "loss": 1.2599,
      "step": 13300
    },
    {
      "epoch": 0.0268,
      "grad_norm": 1.5392045974731445,
      "learning_rate": 4.996448991727483e-05,
      "loss": 1.2491,
      "step": 13400
    },
    {
      "epoch": 0.027,
      "grad_norm": 1.3175737857818604,
      "learning_rate": 4.996363951089459e-05,
      "loss": 1.2383,
      "step": 13500
    },
    {
      "epoch": 0.0272,
      "grad_norm": 1.3839282989501953,
      "learning_rate": 4.9962779049163335e-05,
      "loss": 1.2739,
      "step": 13600
    },
    {
      "epoch": 0.0274,
      "grad_norm": 0.8403354287147522,
      "learning_rate": 4.996190853242767e-05,
      "loss": 1.2378,
      "step": 13700
    },
    {
      "epoch": 0.0276,
      "grad_norm": 1.2463191747665405,
      "learning_rate": 4.996102796103823e-05,
      "loss": 1.2248,
      "step": 13800
    },
    {
      "epoch": 0.0278,
      "grad_norm": 1.466070294380188,
      "learning_rate": 4.996013733534971e-05,
      "loss": 1.2567,
      "step": 13900
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.8661775588989258,
      "learning_rate": 4.995923665572085e-05,
      "loss": 1.2372,
      "step": 14000
    },
    {
      "epoch": 0.028,
      "eval_loss": 1.113655686378479,
      "eval_runtime": 76.3727,
      "eval_samples_per_second": 202.206,
      "eval_steps_per_second": 3.169,
      "step": 14000
    },
    {
      "epoch": 0.0282,
      "grad_norm": 0.9262897968292236,
      "learning_rate": 4.9958325922514466e-05,
      "loss": 1.2082,
      "step": 14100
    },
    {
      "epoch": 0.0284,
      "grad_norm": 1.406928539276123,
      "learning_rate": 4.995740513609738e-05,
      "loss": 1.2576,
      "step": 14200
    },
    {
      "epoch": 0.0286,
      "grad_norm": 0.9858616590499878,
      "learning_rate": 4.9956474296840485e-05,
      "loss": 1.2173,
      "step": 14300
    },
    {
      "epoch": 0.0288,
      "grad_norm": 0.6425116062164307,
      "learning_rate": 4.9955533405118725e-05,
      "loss": 1.237,
      "step": 14400
    },
    {
      "epoch": 0.029,
      "grad_norm": 0.7704317569732666,
      "learning_rate": 4.9954582461311106e-05,
      "loss": 1.286,
      "step": 14500
    },
    {
      "epoch": 0.0292,
      "grad_norm": 1.2745368480682373,
      "learning_rate": 4.995362146580065e-05,
      "loss": 1.2553,
      "step": 14600
    },
    {
      "epoch": 0.0294,
      "grad_norm": 1.1889222860336304,
      "learning_rate": 4.995265041897444e-05,
      "loss": 1.2783,
      "step": 14700
    },
    {
      "epoch": 0.0296,
      "grad_norm": 1.4223252534866333,
      "learning_rate": 4.9951669321223645e-05,
      "loss": 1.27,
      "step": 14800
    },
    {
      "epoch": 0.0298,
      "grad_norm": 1.0991147756576538,
      "learning_rate": 4.995067817294342e-05,
      "loss": 1.2373,
      "step": 14900
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.2834559679031372,
      "learning_rate": 4.994967697453301e-05,
      "loss": 1.2725,
      "step": 15000
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.1147979497909546,
      "eval_runtime": 77.4863,
      "eval_samples_per_second": 199.3,
      "eval_steps_per_second": 3.123,
      "step": 15000
    },
    {
      "epoch": 0.0302,
      "grad_norm": 1.3690969944000244,
      "learning_rate": 4.9948665726395705e-05,
      "loss": 1.2631,
      "step": 15100
    },
    {
      "epoch": 0.0304,
      "grad_norm": 1.0501981973648071,
      "learning_rate": 4.994764442893882e-05,
      "loss": 1.2614,
      "step": 15200
    },
    {
      "epoch": 0.0306,
      "grad_norm": 1.2085719108581543,
      "learning_rate": 4.994661308257375e-05,
      "loss": 1.1982,
      "step": 15300
    },
    {
      "epoch": 0.0308,
      "grad_norm": 1.1436259746551514,
      "learning_rate": 4.994557168771591e-05,
      "loss": 1.2079,
      "step": 15400
    },
    {
      "epoch": 0.031,
      "grad_norm": 0.8355712890625,
      "learning_rate": 4.994452024478478e-05,
      "loss": 1.2537,
      "step": 15500
    },
    {
      "epoch": 0.0312,
      "grad_norm": 0.9547547698020935,
      "learning_rate": 4.9943458754203875e-05,
      "loss": 1.2399,
      "step": 15600
    },
    {
      "epoch": 0.0314,
      "grad_norm": 1.090165138244629,
      "learning_rate": 4.994238721640077e-05,
      "loss": 1.2324,
      "step": 15700
    },
    {
      "epoch": 0.0316,
      "grad_norm": 0.9351906180381775,
      "learning_rate": 4.9941305631807076e-05,
      "loss": 1.2431,
      "step": 15800
    },
    {
      "epoch": 0.0318,
      "grad_norm": 1.3740676641464233,
      "learning_rate": 4.9940214000858456e-05,
      "loss": 1.2487,
      "step": 15900
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.656019926071167,
      "learning_rate": 4.993911232399462e-05,
      "loss": 1.2371,
      "step": 16000
    },
    {
      "epoch": 0.032,
      "eval_loss": 1.1028244495391846,
      "eval_runtime": 76.4629,
      "eval_samples_per_second": 201.967,
      "eval_steps_per_second": 3.165,
      "step": 16000
    },
    {
      "epoch": 0.0322,
      "grad_norm": 1.20018470287323,
      "learning_rate": 4.9938000601659315e-05,
      "loss": 1.2547,
      "step": 16100
    },
    {
      "epoch": 0.0324,
      "grad_norm": 1.2216906547546387,
      "learning_rate": 4.993687883430036e-05,
      "loss": 1.2327,
      "step": 16200
    },
    {
      "epoch": 0.0326,
      "grad_norm": 1.0969616174697876,
      "learning_rate": 4.99357470223696e-05,
      "loss": 1.2513,
      "step": 16300
    },
    {
      "epoch": 0.0328,
      "grad_norm": 1.026194453239441,
      "learning_rate": 4.99346051663229e-05,
      "loss": 1.2508,
      "step": 16400
    },
    {
      "epoch": 0.033,
      "grad_norm": 1.1246017217636108,
      "learning_rate": 4.993345326662023e-05,
      "loss": 1.2538,
      "step": 16500
    },
    {
      "epoch": 0.0332,
      "grad_norm": 1.293093204498291,
      "learning_rate": 4.993229132372557e-05,
      "loss": 1.2236,
      "step": 16600
    },
    {
      "epoch": 0.0334,
      "grad_norm": 1.208122730255127,
      "learning_rate": 4.993111933810695e-05,
      "loss": 1.2753,
      "step": 16700
    },
    {
      "epoch": 0.0336,
      "grad_norm": 1.073480248451233,
      "learning_rate": 4.992993731023643e-05,
      "loss": 1.2665,
      "step": 16800
    },
    {
      "epoch": 0.0338,
      "grad_norm": 1.4211028814315796,
      "learning_rate": 4.9928745240590146e-05,
      "loss": 1.2388,
      "step": 16900
    },
    {
      "epoch": 0.034,
      "grad_norm": 1.1787285804748535,
      "learning_rate": 4.992754312964827e-05,
      "loss": 1.2118,
      "step": 17000
    },
    {
      "epoch": 0.034,
      "eval_loss": 1.104814887046814,
      "eval_runtime": 76.4454,
      "eval_samples_per_second": 202.013,
      "eval_steps_per_second": 3.166,
      "step": 17000
    },
    {
      "epoch": 0.0342,
      "grad_norm": 0.9049177765846252,
      "learning_rate": 4.992633097789499e-05,
      "loss": 1.1995,
      "step": 17100
    },
    {
      "epoch": 0.0344,
      "grad_norm": 1.2447205781936646,
      "learning_rate": 4.992510878581858e-05,
      "loss": 1.2174,
      "step": 17200
    },
    {
      "epoch": 0.0346,
      "grad_norm": 1.0060733556747437,
      "learning_rate": 4.9923876553911334e-05,
      "loss": 1.2098,
      "step": 17300
    },
    {
      "epoch": 0.0348,
      "grad_norm": 1.3275829553604126,
      "learning_rate": 4.992263428266958e-05,
      "loss": 1.2256,
      "step": 17400
    },
    {
      "epoch": 0.035,
      "grad_norm": 1.3165931701660156,
      "learning_rate": 4.992138197259373e-05,
      "loss": 1.2276,
      "step": 17500
    },
    {
      "epoch": 0.0352,
      "grad_norm": 1.2749327421188354,
      "learning_rate": 4.9920119624188196e-05,
      "loss": 1.2758,
      "step": 17600
    },
    {
      "epoch": 0.0354,
      "grad_norm": 1.0836033821105957,
      "learning_rate": 4.991884723796146e-05,
      "loss": 1.2407,
      "step": 17700
    },
    {
      "epoch": 0.0356,
      "grad_norm": 1.343475103378296,
      "learning_rate": 4.9917564814426034e-05,
      "loss": 1.2466,
      "step": 17800
    },
    {
      "epoch": 0.0358,
      "grad_norm": 1.3868790864944458,
      "learning_rate": 4.991627235409848e-05,
      "loss": 1.2402,
      "step": 17900
    },
    {
      "epoch": 0.036,
      "grad_norm": 1.5200074911117554,
      "learning_rate": 4.99149698574994e-05,
      "loss": 1.2183,
      "step": 18000
    },
    {
      "epoch": 0.036,
      "eval_loss": 1.0960842370986938,
      "eval_runtime": 76.481,
      "eval_samples_per_second": 201.92,
      "eval_steps_per_second": 3.164,
      "step": 18000
    },
    {
      "epoch": 0.0362,
      "grad_norm": 1.4647791385650635,
      "learning_rate": 4.991365732515345e-05,
      "loss": 1.2386,
      "step": 18100
    },
    {
      "epoch": 0.0364,
      "grad_norm": 0.9076351523399353,
      "learning_rate": 4.991233475758931e-05,
      "loss": 1.2011,
      "step": 18200
    },
    {
      "epoch": 0.0366,
      "grad_norm": 0.9813222289085388,
      "learning_rate": 4.99110021553397e-05,
      "loss": 1.214,
      "step": 18300
    },
    {
      "epoch": 0.0368,
      "grad_norm": 1.5431565046310425,
      "learning_rate": 4.99096595189414e-05,
      "loss": 1.2206,
      "step": 18400
    },
    {
      "epoch": 0.037,
      "grad_norm": 0.9991932511329651,
      "learning_rate": 4.990830684893523e-05,
      "loss": 1.2334,
      "step": 18500
    },
    {
      "epoch": 0.0372,
      "grad_norm": 0.6322658658027649,
      "learning_rate": 4.9906944145866035e-05,
      "loss": 1.2354,
      "step": 18600
    },
    {
      "epoch": 0.0374,
      "grad_norm": 0.9555477499961853,
      "learning_rate": 4.990557141028272e-05,
      "loss": 1.2017,
      "step": 18700
    },
    {
      "epoch": 0.0376,
      "grad_norm": 1.171019196510315,
      "learning_rate": 4.990418864273822e-05,
      "loss": 1.286,
      "step": 18800
    },
    {
      "epoch": 0.0378,
      "grad_norm": 1.2275811433792114,
      "learning_rate": 4.990279584378951e-05,
      "loss": 1.2345,
      "step": 18900
    },
    {
      "epoch": 0.038,
      "grad_norm": 1.6589407920837402,
      "learning_rate": 4.9901393013997616e-05,
      "loss": 1.2376,
      "step": 19000
    },
    {
      "epoch": 0.038,
      "eval_loss": 1.107132077217102,
      "eval_runtime": 76.3932,
      "eval_samples_per_second": 202.152,
      "eval_steps_per_second": 3.168,
      "step": 19000
    },
    {
      "epoch": 0.0382,
      "grad_norm": 0.7907335758209229,
      "learning_rate": 4.9899980153927596e-05,
      "loss": 1.2554,
      "step": 19100
    },
    {
      "epoch": 0.0384,
      "grad_norm": 1.4444235563278198,
      "learning_rate": 4.989855726414854e-05,
      "loss": 1.2618,
      "step": 19200
    },
    {
      "epoch": 0.0386,
      "grad_norm": 1.1591296195983887,
      "learning_rate": 4.98971243452336e-05,
      "loss": 1.2028,
      "step": 19300
    },
    {
      "epoch": 0.0388,
      "grad_norm": 0.9183579087257385,
      "learning_rate": 4.989568139775995e-05,
      "loss": 1.2259,
      "step": 19400
    },
    {
      "epoch": 0.039,
      "grad_norm": 1.0866785049438477,
      "learning_rate": 4.9894228422308805e-05,
      "loss": 1.2307,
      "step": 19500
    },
    {
      "epoch": 0.0392,
      "grad_norm": 1.5889687538146973,
      "learning_rate": 4.9892765419465436e-05,
      "loss": 1.2346,
      "step": 19600
    },
    {
      "epoch": 0.0394,
      "grad_norm": 1.300850510597229,
      "learning_rate": 4.989129238981913e-05,
      "loss": 1.2748,
      "step": 19700
    },
    {
      "epoch": 0.0396,
      "grad_norm": 1.2363704442977905,
      "learning_rate": 4.988980933396323e-05,
      "loss": 1.2536,
      "step": 19800
    },
    {
      "epoch": 0.0398,
      "grad_norm": 0.8141745328903198,
      "learning_rate": 4.9888316252495106e-05,
      "loss": 1.2198,
      "step": 19900
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0759721994400024,
      "learning_rate": 4.988681314601617e-05,
      "loss": 1.2225,
      "step": 20000
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.0962127447128296,
      "eval_runtime": 76.7102,
      "eval_samples_per_second": 201.316,
      "eval_steps_per_second": 3.155,
      "step": 20000
    },
    {
      "epoch": 0.0402,
      "grad_norm": 1.2748645544052124,
      "learning_rate": 4.988530001513187e-05,
      "loss": 1.2245,
      "step": 20100
    },
    {
      "epoch": 0.0404,
      "grad_norm": 1.3192243576049805,
      "learning_rate": 4.9883776860451704e-05,
      "loss": 1.2292,
      "step": 20200
    },
    {
      "epoch": 0.0406,
      "grad_norm": 1.329868197441101,
      "learning_rate": 4.98822436825892e-05,
      "loss": 1.2243,
      "step": 20300
    },
    {
      "epoch": 0.0408,
      "grad_norm": 1.3394356966018677,
      "learning_rate": 4.988070048216191e-05,
      "loss": 1.216,
      "step": 20400
    },
    {
      "epoch": 0.041,
      "grad_norm": 1.3035671710968018,
      "learning_rate": 4.987914725979144e-05,
      "loss": 1.2335,
      "step": 20500
    },
    {
      "epoch": 0.0412,
      "grad_norm": 1.2765480279922485,
      "learning_rate": 4.987758401610343e-05,
      "loss": 1.261,
      "step": 20600
    },
    {
      "epoch": 0.0414,
      "grad_norm": 1.0472270250320435,
      "learning_rate": 4.9876010751727553e-05,
      "loss": 1.2173,
      "step": 20700
    },
    {
      "epoch": 0.0416,
      "grad_norm": 1.163237452507019,
      "learning_rate": 4.9874427467297525e-05,
      "loss": 1.2316,
      "step": 20800
    },
    {
      "epoch": 0.0418,
      "grad_norm": 1.3546457290649414,
      "learning_rate": 4.987283416345109e-05,
      "loss": 1.2268,
      "step": 20900
    },
    {
      "epoch": 0.042,
      "grad_norm": 1.0812748670578003,
      "learning_rate": 4.9871230840830016e-05,
      "loss": 1.2267,
      "step": 21000
    },
    {
      "epoch": 0.042,
      "eval_loss": 1.1046785116195679,
      "eval_runtime": 76.3631,
      "eval_samples_per_second": 202.231,
      "eval_steps_per_second": 3.169,
      "step": 21000
    },
    {
      "epoch": 0.0422,
      "grad_norm": 0.7458230257034302,
      "learning_rate": 4.986961750008014e-05,
      "loss": 1.1918,
      "step": 21100
    },
    {
      "epoch": 0.0424,
      "grad_norm": 1.2837951183319092,
      "learning_rate": 4.986799414185131e-05,
      "loss": 1.2206,
      "step": 21200
    },
    {
      "epoch": 0.0426,
      "grad_norm": 1.4213489294052124,
      "learning_rate": 4.986636076679742e-05,
      "loss": 1.2552,
      "step": 21300
    },
    {
      "epoch": 0.0428,
      "grad_norm": 1.297608733177185,
      "learning_rate": 4.986471737557638e-05,
      "loss": 1.2234,
      "step": 21400
    },
    {
      "epoch": 0.043,
      "grad_norm": 1.3617885112762451,
      "learning_rate": 4.986306396885015e-05,
      "loss": 1.2381,
      "step": 21500
    },
    {
      "epoch": 0.0432,
      "grad_norm": 1.500025749206543,
      "learning_rate": 4.986140054728473e-05,
      "loss": 1.1957,
      "step": 21600
    },
    {
      "epoch": 0.0434,
      "grad_norm": 0.6222732663154602,
      "learning_rate": 4.9859727111550147e-05,
      "loss": 1.2579,
      "step": 21700
    },
    {
      "epoch": 0.0436,
      "grad_norm": 1.4154349565505981,
      "learning_rate": 4.985804366232045e-05,
      "loss": 1.2073,
      "step": 21800
    },
    {
      "epoch": 0.0438,
      "grad_norm": 1.334390640258789,
      "learning_rate": 4.9856350200273746e-05,
      "loss": 1.2317,
      "step": 21900
    },
    {
      "epoch": 0.044,
      "grad_norm": 0.8164774179458618,
      "learning_rate": 4.985464672609215e-05,
      "loss": 1.2248,
      "step": 22000
    },
    {
      "epoch": 0.044,
      "eval_loss": 1.1025385856628418,
      "eval_runtime": 76.8498,
      "eval_samples_per_second": 200.951,
      "eval_steps_per_second": 3.149,
      "step": 22000
    },
    {
      "epoch": 0.0442,
      "grad_norm": 1.1641725301742554,
      "learning_rate": 4.985293324046182e-05,
      "loss": 1.1928,
      "step": 22100
    },
    {
      "epoch": 0.0444,
      "grad_norm": 1.2185006141662598,
      "learning_rate": 4.9851209744072954e-05,
      "loss": 1.2435,
      "step": 22200
    },
    {
      "epoch": 0.0446,
      "grad_norm": 1.0973742008209229,
      "learning_rate": 4.9849476237619784e-05,
      "loss": 1.2515,
      "step": 22300
    },
    {
      "epoch": 0.0448,
      "grad_norm": 1.0242998600006104,
      "learning_rate": 4.984773272180056e-05,
      "loss": 1.2511,
      "step": 22400
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.598416805267334,
      "learning_rate": 4.984597919731755e-05,
      "loss": 1.215,
      "step": 22500
    },
    {
      "epoch": 0.0452,
      "grad_norm": 0.9391146302223206,
      "learning_rate": 4.98442156648771e-05,
      "loss": 1.2303,
      "step": 22600
    },
    {
      "epoch": 0.0454,
      "grad_norm": 0.9301611185073853,
      "learning_rate": 4.9842442125189556e-05,
      "loss": 1.2621,
      "step": 22700
    },
    {
      "epoch": 0.0456,
      "grad_norm": 1.3423951864242554,
      "learning_rate": 4.984065857896928e-05,
      "loss": 1.2251,
      "step": 22800
    },
    {
      "epoch": 0.0458,
      "grad_norm": 1.3373651504516602,
      "learning_rate": 4.983886502693471e-05,
      "loss": 1.2738,
      "step": 22900
    },
    {
      "epoch": 0.046,
      "grad_norm": 1.007158637046814,
      "learning_rate": 4.983706146980828e-05,
      "loss": 1.1923,
      "step": 23000
    },
    {
      "epoch": 0.046,
      "eval_loss": 1.1094993352890015,
      "eval_runtime": 76.6473,
      "eval_samples_per_second": 201.481,
      "eval_steps_per_second": 3.157,
      "step": 23000
    },
    {
      "epoch": 0.0462,
      "grad_norm": 0.7804542779922485,
      "learning_rate": 4.9835247908316454e-05,
      "loss": 1.2098,
      "step": 23100
    },
    {
      "epoch": 0.0464,
      "grad_norm": 1.377008318901062,
      "learning_rate": 4.983342434318975e-05,
      "loss": 1.2202,
      "step": 23200
    },
    {
      "epoch": 0.0466,
      "grad_norm": 1.1037031412124634,
      "learning_rate": 4.983159077516268e-05,
      "loss": 1.1977,
      "step": 23300
    },
    {
      "epoch": 0.0468,
      "grad_norm": 0.7141278386116028,
      "learning_rate": 4.982974720497382e-05,
      "loss": 1.2054,
      "step": 23400
    },
    {
      "epoch": 0.047,
      "grad_norm": 0.570811927318573,
      "learning_rate": 4.9827893633365754e-05,
      "loss": 1.2163,
      "step": 23500
    },
    {
      "epoch": 0.0472,
      "grad_norm": 0.7255613803863525,
      "learning_rate": 4.98260300610851e-05,
      "loss": 1.2212,
      "step": 23600
    },
    {
      "epoch": 0.0474,
      "grad_norm": 0.8988520503044128,
      "learning_rate": 4.982415648888251e-05,
      "loss": 1.2332,
      "step": 23700
    },
    {
      "epoch": 0.0476,
      "grad_norm": 1.2191438674926758,
      "learning_rate": 4.9822272917512644e-05,
      "loss": 1.1974,
      "step": 23800
    },
    {
      "epoch": 0.0478,
      "grad_norm": 1.2043516635894775,
      "learning_rate": 4.982037934773423e-05,
      "loss": 1.2229,
      "step": 23900
    },
    {
      "epoch": 0.048,
      "grad_norm": 1.3503689765930176,
      "learning_rate": 4.981847578030998e-05,
      "loss": 1.2307,
      "step": 24000
    },
    {
      "epoch": 0.048,
      "eval_loss": 1.0969973802566528,
      "eval_runtime": 76.7433,
      "eval_samples_per_second": 201.229,
      "eval_steps_per_second": 3.153,
      "step": 24000
    },
    {
      "epoch": 0.0482,
      "grad_norm": 1.3795185089111328,
      "learning_rate": 4.9816562216006645e-05,
      "loss": 1.1894,
      "step": 24100
    },
    {
      "epoch": 0.0484,
      "grad_norm": 1.1966140270233154,
      "learning_rate": 4.9814638655595024e-05,
      "loss": 1.2011,
      "step": 24200
    },
    {
      "epoch": 0.0486,
      "grad_norm": 1.179077386856079,
      "learning_rate": 4.981270509984992e-05,
      "loss": 1.2596,
      "step": 24300
    },
    {
      "epoch": 0.0488,
      "grad_norm": 1.24593186378479,
      "learning_rate": 4.9810761549550166e-05,
      "loss": 1.2219,
      "step": 24400
    },
    {
      "epoch": 0.049,
      "grad_norm": 1.2809820175170898,
      "learning_rate": 4.9808808005478635e-05,
      "loss": 1.2033,
      "step": 24500
    },
    {
      "epoch": 0.0492,
      "grad_norm": 0.9016757011413574,
      "learning_rate": 4.9806844468422196e-05,
      "loss": 1.2394,
      "step": 24600
    },
    {
      "epoch": 0.0494,
      "grad_norm": 0.7064381837844849,
      "learning_rate": 4.9804870939171774e-05,
      "loss": 1.2154,
      "step": 24700
    },
    {
      "epoch": 0.0496,
      "grad_norm": 0.626646101474762,
      "learning_rate": 4.980288741852231e-05,
      "loss": 1.2021,
      "step": 24800
    },
    {
      "epoch": 0.0498,
      "grad_norm": 1.049187421798706,
      "learning_rate": 4.980089390727275e-05,
      "loss": 1.1839,
      "step": 24900
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2987581491470337,
      "learning_rate": 4.97988904062261e-05,
      "loss": 1.1969,
      "step": 25000
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.090114951133728,
      "eval_runtime": 77.5992,
      "eval_samples_per_second": 199.01,
      "eval_steps_per_second": 3.119,
      "step": 25000
    },
    {
      "epoch": 0.0502,
      "grad_norm": 1.105361819267273,
      "learning_rate": 4.979687691618936e-05,
      "loss": 1.1784,
      "step": 25100
    },
    {
      "epoch": 0.0504,
      "grad_norm": 0.7138956189155579,
      "learning_rate": 4.9794853437973555e-05,
      "loss": 1.2016,
      "step": 25200
    },
    {
      "epoch": 0.0506,
      "grad_norm": 1.250241756439209,
      "learning_rate": 4.9792819972393756e-05,
      "loss": 1.2032,
      "step": 25300
    },
    {
      "epoch": 0.0508,
      "grad_norm": 0.5875529050827026,
      "learning_rate": 4.9790776520269034e-05,
      "loss": 1.2034,
      "step": 25400
    },
    {
      "epoch": 0.051,
      "grad_norm": 1.2880475521087646,
      "learning_rate": 4.9788723082422495e-05,
      "loss": 1.2172,
      "step": 25500
    },
    {
      "epoch": 0.0512,
      "grad_norm": 0.8775302767753601,
      "learning_rate": 4.978665965968127e-05,
      "loss": 1.2264,
      "step": 25600
    },
    {
      "epoch": 0.0514,
      "grad_norm": 0.7336851954460144,
      "learning_rate": 4.978458625287649e-05,
      "loss": 1.2248,
      "step": 25700
    },
    {
      "epoch": 0.0516,
      "grad_norm": 1.431084156036377,
      "learning_rate": 4.978250286284333e-05,
      "loss": 1.2353,
      "step": 25800
    },
    {
      "epoch": 0.0518,
      "grad_norm": 1.6342276334762573,
      "learning_rate": 4.978040949042099e-05,
      "loss": 1.1984,
      "step": 25900
    },
    {
      "epoch": 0.052,
      "grad_norm": 1.5883526802062988,
      "learning_rate": 4.977830613645266e-05,
      "loss": 1.2251,
      "step": 26000
    },
    {
      "epoch": 0.052,
      "eval_loss": 1.0901614427566528,
      "eval_runtime": 76.7254,
      "eval_samples_per_second": 201.276,
      "eval_steps_per_second": 3.154,
      "step": 26000
    },
    {
      "epoch": 0.0522,
      "grad_norm": 1.1527795791625977,
      "learning_rate": 4.977619280178558e-05,
      "loss": 1.2043,
      "step": 26100
    },
    {
      "epoch": 0.0524,
      "grad_norm": 1.5160431861877441,
      "learning_rate": 4.9774069487271014e-05,
      "loss": 1.1931,
      "step": 26200
    },
    {
      "epoch": 0.0526,
      "grad_norm": 1.2551748752593994,
      "learning_rate": 4.977193619376421e-05,
      "loss": 1.2397,
      "step": 26300
    },
    {
      "epoch": 0.0528,
      "grad_norm": 1.2745076417922974,
      "learning_rate": 4.976979292212448e-05,
      "loss": 1.2336,
      "step": 26400
    },
    {
      "epoch": 0.053,
      "grad_norm": 1.4893673658370972,
      "learning_rate": 4.976763967321511e-05,
      "loss": 1.1827,
      "step": 26500
    },
    {
      "epoch": 0.0532,
      "grad_norm": 0.857379138469696,
      "learning_rate": 4.976547644790346e-05,
      "loss": 1.2441,
      "step": 26600
    },
    {
      "epoch": 0.0534,
      "grad_norm": 1.167006492614746,
      "learning_rate": 4.976330324706084e-05,
      "loss": 1.2779,
      "step": 26700
    },
    {
      "epoch": 0.0536,
      "grad_norm": 0.634842574596405,
      "learning_rate": 4.976112007156265e-05,
      "loss": 1.2828,
      "step": 26800
    },
    {
      "epoch": 0.0538,
      "grad_norm": 0.9239290952682495,
      "learning_rate": 4.975892692228825e-05,
      "loss": 1.2094,
      "step": 26900
    },
    {
      "epoch": 0.054,
      "grad_norm": 1.2031028270721436,
      "learning_rate": 4.9756723800121044e-05,
      "loss": 1.222,
      "step": 27000
    },
    {
      "epoch": 0.054,
      "eval_loss": 1.0867078304290771,
      "eval_runtime": 76.6606,
      "eval_samples_per_second": 201.446,
      "eval_steps_per_second": 3.157,
      "step": 27000
    },
    {
      "epoch": 0.0542,
      "grad_norm": 1.3575947284698486,
      "learning_rate": 4.9754510705948456e-05,
      "loss": 1.1622,
      "step": 27100
    },
    {
      "epoch": 0.0544,
      "grad_norm": 1.142074465751648,
      "learning_rate": 4.975228764066191e-05,
      "loss": 1.2703,
      "step": 27200
    },
    {
      "epoch": 0.0546,
      "grad_norm": 0.8273721933364868,
      "learning_rate": 4.975005460515686e-05,
      "loss": 1.1921,
      "step": 27300
    },
    {
      "epoch": 0.0548,
      "grad_norm": 1.3859556913375854,
      "learning_rate": 4.974781160033278e-05,
      "loss": 1.2195,
      "step": 27400
    },
    {
      "epoch": 0.055,
      "grad_norm": 1.2232416868209839,
      "learning_rate": 4.974555862709315e-05,
      "loss": 1.1851,
      "step": 27500
    },
    {
      "epoch": 0.0552,
      "grad_norm": 0.7069573998451233,
      "learning_rate": 4.974329568634546e-05,
      "loss": 1.2098,
      "step": 27600
    },
    {
      "epoch": 0.0554,
      "grad_norm": 1.2497153282165527,
      "learning_rate": 4.974102277900122e-05,
      "loss": 1.206,
      "step": 27700
    },
    {
      "epoch": 0.0556,
      "grad_norm": 1.206449031829834,
      "learning_rate": 4.9738739905975976e-05,
      "loss": 1.2352,
      "step": 27800
    },
    {
      "epoch": 0.0558,
      "grad_norm": 1.3927749395370483,
      "learning_rate": 4.973644706818925e-05,
      "loss": 1.1952,
      "step": 27900
    },
    {
      "epoch": 0.056,
      "grad_norm": 1.3856321573257446,
      "learning_rate": 4.973414426656461e-05,
      "loss": 1.2499,
      "step": 28000
    },
    {
      "epoch": 0.056,
      "eval_loss": 1.0941141843795776,
      "eval_runtime": 76.7063,
      "eval_samples_per_second": 201.326,
      "eval_steps_per_second": 3.155,
      "step": 28000
    },
    {
      "epoch": 0.0562,
      "grad_norm": 0.6676329970359802,
      "learning_rate": 4.9731831502029606e-05,
      "loss": 1.2333,
      "step": 28100
    },
    {
      "epoch": 0.0564,
      "grad_norm": 1.2670732736587524,
      "learning_rate": 4.972950877551584e-05,
      "loss": 1.183,
      "step": 28200
    },
    {
      "epoch": 0.0566,
      "grad_norm": 1.2089595794677734,
      "learning_rate": 4.972717608795889e-05,
      "loss": 1.2445,
      "step": 28300
    },
    {
      "epoch": 0.0568,
      "grad_norm": 1.1897366046905518,
      "learning_rate": 4.972483344029838e-05,
      "loss": 1.2217,
      "step": 28400
    },
    {
      "epoch": 0.057,
      "grad_norm": 1.4963501691818237,
      "learning_rate": 4.97224808334779e-05,
      "loss": 1.2079,
      "step": 28500
    },
    {
      "epoch": 0.0572,
      "grad_norm": 1.594019889831543,
      "learning_rate": 4.972011826844511e-05,
      "loss": 1.1822,
      "step": 28600
    },
    {
      "epoch": 0.0574,
      "grad_norm": 1.3324779272079468,
      "learning_rate": 4.971774574615163e-05,
      "loss": 1.2562,
      "step": 28700
    },
    {
      "epoch": 0.0576,
      "grad_norm": 1.3334344625473022,
      "learning_rate": 4.971536326755313e-05,
      "loss": 1.2509,
      "step": 28800
    },
    {
      "epoch": 0.0578,
      "grad_norm": 0.9475389719009399,
      "learning_rate": 4.971297083360925e-05,
      "loss": 1.1826,
      "step": 28900
    },
    {
      "epoch": 0.058,
      "grad_norm": 0.8067657947540283,
      "learning_rate": 4.971056844528368e-05,
      "loss": 1.1895,
      "step": 29000
    },
    {
      "epoch": 0.058,
      "eval_loss": 1.0870901346206665,
      "eval_runtime": 76.6141,
      "eval_samples_per_second": 201.569,
      "eval_steps_per_second": 3.159,
      "step": 29000
    },
    {
      "epoch": 0.0582,
      "grad_norm": 0.7364763617515564,
      "learning_rate": 4.970815610354409e-05,
      "loss": 1.1821,
      "step": 29100
    },
    {
      "epoch": 0.0584,
      "grad_norm": 1.494878888130188,
      "learning_rate": 4.970573380936218e-05,
      "loss": 1.1592,
      "step": 29200
    },
    {
      "epoch": 0.0586,
      "grad_norm": 0.7247675061225891,
      "learning_rate": 4.9703301563713645e-05,
      "loss": 1.2347,
      "step": 29300
    },
    {
      "epoch": 0.0588,
      "grad_norm": 1.0013625621795654,
      "learning_rate": 4.970085936757819e-05,
      "loss": 1.2536,
      "step": 29400
    },
    {
      "epoch": 0.059,
      "grad_norm": 1.012537956237793,
      "learning_rate": 4.969840722193955e-05,
      "loss": 1.2461,
      "step": 29500
    },
    {
      "epoch": 0.0592,
      "grad_norm": 0.8702846169471741,
      "learning_rate": 4.969594512778541e-05,
      "loss": 1.2005,
      "step": 29600
    },
    {
      "epoch": 0.0594,
      "grad_norm": 1.1068499088287354,
      "learning_rate": 4.969347308610755e-05,
      "loss": 1.1942,
      "step": 29700
    },
    {
      "epoch": 0.0596,
      "grad_norm": 1.6333682537078857,
      "learning_rate": 4.969099109790167e-05,
      "loss": 1.2372,
      "step": 29800
    },
    {
      "epoch": 0.0598,
      "grad_norm": 1.0337685346603394,
      "learning_rate": 4.9688499164167536e-05,
      "loss": 1.2435,
      "step": 29900
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8429011702537537,
      "learning_rate": 4.9685997285908894e-05,
      "loss": 1.2023,
      "step": 30000
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.086748480796814,
      "eval_runtime": 76.8684,
      "eval_samples_per_second": 200.902,
      "eval_steps_per_second": 3.148,
      "step": 30000
    },
    {
      "epoch": 0.0002,
      "grad_norm": 0.8381020426750183,
      "learning_rate": 4.9683485464133484e-05,
      "loss": 1.2362,
      "step": 30100
    },
    {
      "epoch": 0.0004,
      "grad_norm": 0.6860467791557312,
      "learning_rate": 4.968096369985309e-05,
      "loss": 1.2125,
      "step": 30200
    },
    {
      "epoch": 0.0006,
      "grad_norm": 0.9316505193710327,
      "learning_rate": 4.967843199408347e-05,
      "loss": 1.1904,
      "step": 30300
    },
    {
      "epoch": 0.0008,
      "grad_norm": 1.3389461040496826,
      "learning_rate": 4.967589034784439e-05,
      "loss": 1.2689,
      "step": 30400
    },
    {
      "epoch": 0.001,
      "grad_norm": 0.9387079477310181,
      "learning_rate": 4.967333876215963e-05,
      "loss": 1.2205,
      "step": 30500
    },
    {
      "epoch": 0.0012,
      "grad_norm": 0.7549923062324524,
      "learning_rate": 4.967077723805697e-05,
      "loss": 1.21,
      "step": 30600
    },
    {
      "epoch": 0.0014,
      "grad_norm": 1.1242858171463013,
      "learning_rate": 4.966820577656819e-05,
      "loss": 1.203,
      "step": 30700
    },
    {
      "epoch": 0.0016,
      "grad_norm": 1.5065937042236328,
      "learning_rate": 4.966562437872907e-05,
      "loss": 1.2233,
      "step": 30800
    },
    {
      "epoch": 0.0018,
      "grad_norm": 1.1448508501052856,
      "learning_rate": 4.96630330455794e-05,
      "loss": 1.2242,
      "step": 30900
    },
    {
      "epoch": 0.002,
      "grad_norm": 0.7356053590774536,
      "learning_rate": 4.966043177816296e-05,
      "loss": 1.2541,
      "step": 31000
    },
    {
      "epoch": 0.002,
      "eval_loss": 1.0892270803451538,
      "eval_runtime": 78.1396,
      "eval_samples_per_second": 197.633,
      "eval_steps_per_second": 3.097,
      "step": 31000
    },
    {
      "epoch": 0.0022,
      "grad_norm": 1.290472149848938,
      "learning_rate": 4.965782057752757e-05,
      "loss": 1.2005,
      "step": 31100
    },
    {
      "epoch": 0.0024,
      "grad_norm": 0.7970076203346252,
      "learning_rate": 4.965519944472498e-05,
      "loss": 1.2718,
      "step": 31200
    },
    {
      "epoch": 0.0026,
      "grad_norm": 1.3415039777755737,
      "learning_rate": 4.9652568380811016e-05,
      "loss": 1.2673,
      "step": 31300
    },
    {
      "epoch": 0.0028,
      "grad_norm": 1.3146836757659912,
      "learning_rate": 4.9649927386845444e-05,
      "loss": 1.2717,
      "step": 31400
    },
    {
      "epoch": 0.003,
      "grad_norm": 0.9725894927978516,
      "learning_rate": 4.964727646389208e-05,
      "loss": 1.2418,
      "step": 31500
    },
    {
      "epoch": 0.0032,
      "grad_norm": 0.9590099453926086,
      "learning_rate": 4.96446156130187e-05,
      "loss": 1.2389,
      "step": 31600
    },
    {
      "epoch": 0.0034,
      "grad_norm": 1.5478194952011108,
      "learning_rate": 4.964194483529709e-05,
      "loss": 1.2693,
      "step": 31700
    },
    {
      "epoch": 0.0036,
      "grad_norm": 0.7029865384101868,
      "learning_rate": 4.9639264131803056e-05,
      "loss": 1.25,
      "step": 31800
    },
    {
      "epoch": 0.0038,
      "grad_norm": 0.7784998416900635,
      "learning_rate": 4.963657350361637e-05,
      "loss": 1.2339,
      "step": 31900
    },
    {
      "epoch": 0.004,
      "grad_norm": 0.6479517817497253,
      "learning_rate": 4.963387295182083e-05,
      "loss": 1.2538,
      "step": 32000
    },
    {
      "epoch": 0.004,
      "eval_loss": 1.0948545932769775,
      "eval_runtime": 77.4713,
      "eval_samples_per_second": 199.338,
      "eval_steps_per_second": 3.124,
      "step": 32000
    },
    {
      "epoch": 0.0042,
      "grad_norm": 1.4759093523025513,
      "learning_rate": 4.963116247750421e-05,
      "loss": 1.2646,
      "step": 32100
    },
    {
      "epoch": 0.0044,
      "grad_norm": 0.7561829686164856,
      "learning_rate": 4.9628442081758285e-05,
      "loss": 1.2083,
      "step": 32200
    },
    {
      "epoch": 0.0046,
      "grad_norm": 0.6289774775505066,
      "learning_rate": 4.962571176567884e-05,
      "loss": 1.2492,
      "step": 32300
    },
    {
      "epoch": 0.0048,
      "grad_norm": 0.8146848678588867,
      "learning_rate": 4.962297153036564e-05,
      "loss": 1.2693,
      "step": 32400
    },
    {
      "epoch": 0.005,
      "grad_norm": 1.1135525703430176,
      "learning_rate": 4.962022137692245e-05,
      "loss": 1.2218,
      "step": 32500
    },
    {
      "epoch": 0.0052,
      "grad_norm": 1.1507619619369507,
      "learning_rate": 4.961746130645703e-05,
      "loss": 1.2118,
      "step": 32600
    },
    {
      "epoch": 0.0054,
      "grad_norm": 0.8586376905441284,
      "learning_rate": 4.961469132008114e-05,
      "loss": 1.2115,
      "step": 32700
    },
    {
      "epoch": 0.0056,
      "grad_norm": 1.5335224866867065,
      "learning_rate": 4.961191141891054e-05,
      "loss": 1.2239,
      "step": 32800
    },
    {
      "epoch": 0.0058,
      "grad_norm": 1.2822892665863037,
      "learning_rate": 4.960912160406496e-05,
      "loss": 1.2443,
      "step": 32900
    },
    {
      "epoch": 0.006,
      "grad_norm": 0.9584761261940002,
      "learning_rate": 4.960632187666814e-05,
      "loss": 1.243,
      "step": 33000
    },
    {
      "epoch": 0.006,
      "eval_loss": 1.0964241027832031,
      "eval_runtime": 76.2571,
      "eval_samples_per_second": 202.512,
      "eval_steps_per_second": 3.173,
      "step": 33000
    },
    {
      "epoch": 0.0062,
      "grad_norm": 0.7512497305870056,
      "learning_rate": 4.960351223784781e-05,
      "loss": 1.1821,
      "step": 33100
    },
    {
      "epoch": 0.0064,
      "grad_norm": 1.3305505514144897,
      "learning_rate": 4.960069268873568e-05,
      "loss": 1.2393,
      "step": 33200
    },
    {
      "epoch": 0.0066,
      "grad_norm": 1.5360506772994995,
      "learning_rate": 4.959786323046749e-05,
      "loss": 1.2475,
      "step": 33300
    },
    {
      "epoch": 0.0068,
      "grad_norm": 0.7005806565284729,
      "learning_rate": 4.959502386418293e-05,
      "loss": 1.2122,
      "step": 33400
    },
    {
      "epoch": 0.007,
      "grad_norm": 1.381052017211914,
      "learning_rate": 4.95921745910257e-05,
      "loss": 1.2336,
      "step": 33500
    },
    {
      "epoch": 0.0072,
      "grad_norm": 1.074300765991211,
      "learning_rate": 4.958931541214349e-05,
      "loss": 1.2661,
      "step": 33600
    },
    {
      "epoch": 0.0074,
      "grad_norm": 1.1441256999969482,
      "learning_rate": 4.9586446328687967e-05,
      "loss": 1.2296,
      "step": 33700
    },
    {
      "epoch": 0.0076,
      "grad_norm": 0.8737586140632629,
      "learning_rate": 4.958356734181481e-05,
      "loss": 1.2067,
      "step": 33800
    },
    {
      "epoch": 0.0078,
      "grad_norm": 1.1493791341781616,
      "learning_rate": 4.958067845268366e-05,
      "loss": 1.2643,
      "step": 33900
    },
    {
      "epoch": 0.008,
      "grad_norm": 1.3028621673583984,
      "learning_rate": 4.957777966245817e-05,
      "loss": 1.2427,
      "step": 34000
    },
    {
      "epoch": 0.008,
      "eval_loss": 1.096444845199585,
      "eval_runtime": 76.4253,
      "eval_samples_per_second": 202.067,
      "eval_steps_per_second": 3.166,
      "step": 34000
    },
    {
      "epoch": 0.0082,
      "grad_norm": 1.31423819065094,
      "learning_rate": 4.957487097230597e-05,
      "loss": 1.2137,
      "step": 34100
    },
    {
      "epoch": 0.0084,
      "grad_norm": 1.1846545934677124,
      "learning_rate": 4.957195238339868e-05,
      "loss": 1.2141,
      "step": 34200
    },
    {
      "epoch": 0.0086,
      "grad_norm": 0.9421952366828918,
      "learning_rate": 4.9569023896911914e-05,
      "loss": 1.219,
      "step": 34300
    },
    {
      "epoch": 0.0088,
      "grad_norm": 1.4107282161712646,
      "learning_rate": 4.9566085514025256e-05,
      "loss": 1.2141,
      "step": 34400
    },
    {
      "epoch": 0.009,
      "grad_norm": 0.7364057302474976,
      "learning_rate": 4.95631372359223e-05,
      "loss": 1.246,
      "step": 34500
    },
    {
      "epoch": 0.0092,
      "grad_norm": 0.8100732564926147,
      "learning_rate": 4.956017906379059e-05,
      "loss": 1.1891,
      "step": 34600
    },
    {
      "epoch": 0.0094,
      "grad_norm": 1.2455086708068848,
      "learning_rate": 4.955721099882169e-05,
      "loss": 1.2458,
      "step": 34700
    },
    {
      "epoch": 0.0096,
      "grad_norm": 0.676437497138977,
      "learning_rate": 4.9554233042211146e-05,
      "loss": 1.2058,
      "step": 34800
    },
    {
      "epoch": 0.0098,
      "grad_norm": 1.3339647054672241,
      "learning_rate": 4.955124519515847e-05,
      "loss": 1.2407,
      "step": 34900
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.9411395192146301,
      "learning_rate": 4.954824745886716e-05,
      "loss": 1.1974,
      "step": 35000
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.0945005416870117,
      "eval_runtime": 76.9422,
      "eval_samples_per_second": 200.709,
      "eval_steps_per_second": 3.145,
      "step": 35000
    },
    {
      "epoch": 0.0102,
      "grad_norm": 0.6638602018356323,
      "learning_rate": 4.95452398345447e-05,
      "loss": 1.2259,
      "step": 35100
    },
    {
      "epoch": 0.0104,
      "grad_norm": 0.6337453722953796,
      "learning_rate": 4.954222232340259e-05,
      "loss": 1.1686,
      "step": 35200
    },
    {
      "epoch": 0.0106,
      "grad_norm": 0.809762179851532,
      "learning_rate": 4.953919492665625e-05,
      "loss": 1.2174,
      "step": 35300
    },
    {
      "epoch": 0.0108,
      "grad_norm": 0.9431924819946289,
      "learning_rate": 4.953615764552513e-05,
      "loss": 1.2128,
      "step": 35400
    },
    {
      "epoch": 0.011,
      "grad_norm": 0.7606577277183533,
      "learning_rate": 4.953311048123265e-05,
      "loss": 1.2473,
      "step": 35500
    },
    {
      "epoch": 0.0112,
      "grad_norm": 1.1843669414520264,
      "learning_rate": 4.953005343500619e-05,
      "loss": 1.2194,
      "step": 35600
    },
    {
      "epoch": 0.0114,
      "grad_norm": 0.9086577296257019,
      "learning_rate": 4.952698650807715e-05,
      "loss": 1.2572,
      "step": 35700
    },
    {
      "epoch": 0.0116,
      "grad_norm": 1.36215078830719,
      "learning_rate": 4.9523909701680874e-05,
      "loss": 1.2263,
      "step": 35800
    },
    {
      "epoch": 0.0118,
      "grad_norm": 0.8537183403968811,
      "learning_rate": 4.952082301705671e-05,
      "loss": 1.2297,
      "step": 35900
    },
    {
      "epoch": 0.012,
      "grad_norm": 0.6182298064231873,
      "learning_rate": 4.9517726455447955e-05,
      "loss": 1.2101,
      "step": 36000
    },
    {
      "epoch": 0.012,
      "eval_loss": 1.0894391536712646,
      "eval_runtime": 76.3033,
      "eval_samples_per_second": 202.39,
      "eval_steps_per_second": 3.172,
      "step": 36000
    },
    {
      "epoch": 0.0122,
      "grad_norm": 1.1102640628814697,
      "learning_rate": 4.951462001810192e-05,
      "loss": 1.2086,
      "step": 36100
    },
    {
      "epoch": 0.0124,
      "grad_norm": 0.9391844868659973,
      "learning_rate": 4.951150370626988e-05,
      "loss": 1.2595,
      "step": 36200
    },
    {
      "epoch": 0.0126,
      "grad_norm": 1.3386393785476685,
      "learning_rate": 4.950837752120707e-05,
      "loss": 1.1953,
      "step": 36300
    },
    {
      "epoch": 0.0128,
      "grad_norm": 1.0943065881729126,
      "learning_rate": 4.950524146417273e-05,
      "loss": 1.2759,
      "step": 36400
    },
    {
      "epoch": 0.013,
      "grad_norm": 0.9743318557739258,
      "learning_rate": 4.950209553643006e-05,
      "loss": 1.2421,
      "step": 36500
    },
    {
      "epoch": 0.0132,
      "grad_norm": 1.2555447816848755,
      "learning_rate": 4.949893973924623e-05,
      "loss": 1.242,
      "step": 36600
    },
    {
      "epoch": 0.0134,
      "grad_norm": 1.3289902210235596,
      "learning_rate": 4.949577407389241e-05,
      "loss": 1.2337,
      "step": 36700
    },
    {
      "epoch": 0.0136,
      "grad_norm": 0.8806101679801941,
      "learning_rate": 4.949259854164372e-05,
      "loss": 1.244,
      "step": 36800
    },
    {
      "epoch": 0.0138,
      "grad_norm": 1.211584448814392,
      "learning_rate": 4.948941314377927e-05,
      "loss": 1.2344,
      "step": 36900
    },
    {
      "epoch": 0.014,
      "grad_norm": 1.6472032070159912,
      "learning_rate": 4.9486217881582134e-05,
      "loss": 1.1866,
      "step": 37000
    },
    {
      "epoch": 0.014,
      "eval_loss": 1.0940065383911133,
      "eval_runtime": 76.3383,
      "eval_samples_per_second": 202.297,
      "eval_steps_per_second": 3.17,
      "step": 37000
    },
    {
      "epoch": 0.0142,
      "grad_norm": 1.5010918378829956,
      "learning_rate": 4.948301275633936e-05,
      "loss": 1.2057,
      "step": 37100
    },
    {
      "epoch": 0.0144,
      "grad_norm": 0.6793572306632996,
      "learning_rate": 4.947979776934197e-05,
      "loss": 1.2104,
      "step": 37200
    },
    {
      "epoch": 0.0146,
      "grad_norm": 0.7654362916946411,
      "learning_rate": 4.947657292188498e-05,
      "loss": 1.2266,
      "step": 37300
    },
    {
      "epoch": 0.0148,
      "grad_norm": 1.0618220567703247,
      "learning_rate": 4.947333821526734e-05,
      "loss": 1.2509,
      "step": 37400
    },
    {
      "epoch": 0.015,
      "grad_norm": 1.2712790966033936,
      "learning_rate": 4.947009365079199e-05,
      "loss": 1.2179,
      "step": 37500
    },
    {
      "epoch": 0.0152,
      "grad_norm": 1.3342602252960205,
      "learning_rate": 4.946683922976584e-05,
      "loss": 1.2224,
      "step": 37600
    },
    {
      "epoch": 0.0154,
      "grad_norm": 0.8218332529067993,
      "learning_rate": 4.946357495349978e-05,
      "loss": 1.2402,
      "step": 37700
    },
    {
      "epoch": 0.0156,
      "grad_norm": 2.0291969776153564,
      "learning_rate": 4.946030082330865e-05,
      "loss": 1.1599,
      "step": 37800
    },
    {
      "epoch": 0.0158,
      "grad_norm": 1.5702838897705078,
      "learning_rate": 4.945701684051128e-05,
      "loss": 1.1784,
      "step": 37900
    },
    {
      "epoch": 0.016,
      "grad_norm": 1.268508791923523,
      "learning_rate": 4.9453723006430444e-05,
      "loss": 1.2172,
      "step": 38000
    },
    {
      "epoch": 0.016,
      "eval_loss": 1.088572382926941,
      "eval_runtime": 76.533,
      "eval_samples_per_second": 201.782,
      "eval_steps_per_second": 3.162,
      "step": 38000
    },
    {
      "epoch": 0.0162,
      "grad_norm": 1.3127037286758423,
      "learning_rate": 4.945041932239292e-05,
      "loss": 1.2299,
      "step": 38100
    },
    {
      "epoch": 0.0164,
      "grad_norm": 0.7277888655662537,
      "learning_rate": 4.9447105789729396e-05,
      "loss": 1.2655,
      "step": 38200
    },
    {
      "epoch": 0.0166,
      "grad_norm": 1.031909704208374,
      "learning_rate": 4.94437824097746e-05,
      "loss": 1.2179,
      "step": 38300
    },
    {
      "epoch": 0.0168,
      "grad_norm": 1.2462060451507568,
      "learning_rate": 4.9440449183867166e-05,
      "loss": 1.2311,
      "step": 38400
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.5426816344261169,
      "learning_rate": 4.9437106113349716e-05,
      "loss": 1.1637,
      "step": 38500
    },
    {
      "epoch": 0.0172,
      "grad_norm": 1.2320595979690552,
      "learning_rate": 4.9433753199568856e-05,
      "loss": 1.2282,
      "step": 38600
    },
    {
      "epoch": 0.0174,
      "grad_norm": 0.928945779800415,
      "learning_rate": 4.943039044387513e-05,
      "loss": 1.1936,
      "step": 38700
    },
    {
      "epoch": 0.0176,
      "grad_norm": 1.4080160856246948,
      "learning_rate": 4.9427017847623044e-05,
      "loss": 1.251,
      "step": 38800
    },
    {
      "epoch": 0.0178,
      "grad_norm": 1.3436859846115112,
      "learning_rate": 4.9423635412171106e-05,
      "loss": 1.287,
      "step": 38900
    },
    {
      "epoch": 0.018,
      "grad_norm": 0.9334709048271179,
      "learning_rate": 4.9420243138881734e-05,
      "loss": 1.1766,
      "step": 39000
    },
    {
      "epoch": 0.018,
      "eval_loss": 1.092005968093872,
      "eval_runtime": 76.2687,
      "eval_samples_per_second": 202.482,
      "eval_steps_per_second": 3.173,
      "step": 39000
    },
    {
      "epoch": 0.0182,
      "grad_norm": 0.9674895405769348,
      "learning_rate": 4.9416841029121355e-05,
      "loss": 1.2388,
      "step": 39100
    },
    {
      "epoch": 0.0184,
      "grad_norm": 1.3673955202102661,
      "learning_rate": 4.941342908426032e-05,
      "loss": 1.183,
      "step": 39200
    },
    {
      "epoch": 0.0186,
      "grad_norm": 0.8423133492469788,
      "learning_rate": 4.941000730567297e-05,
      "loss": 1.1847,
      "step": 39300
    },
    {
      "epoch": 0.0188,
      "grad_norm": 0.9814749360084534,
      "learning_rate": 4.94065756947376e-05,
      "loss": 1.2022,
      "step": 39400
    },
    {
      "epoch": 0.019,
      "grad_norm": 1.125647783279419,
      "learning_rate": 4.9403134252836456e-05,
      "loss": 1.1966,
      "step": 39500
    },
    {
      "epoch": 0.0192,
      "grad_norm": 0.8501796722412109,
      "learning_rate": 4.9399682981355755e-05,
      "loss": 1.2347,
      "step": 39600
    },
    {
      "epoch": 0.0194,
      "grad_norm": 0.8226144909858704,
      "learning_rate": 4.9396221881685665e-05,
      "loss": 1.2129,
      "step": 39700
    },
    {
      "epoch": 0.0196,
      "grad_norm": 0.9265516400337219,
      "learning_rate": 4.939275095522032e-05,
      "loss": 1.1917,
      "step": 39800
    },
    {
      "epoch": 0.0198,
      "grad_norm": 0.8538194298744202,
      "learning_rate": 4.938927020335781e-05,
      "loss": 1.2548,
      "step": 39900
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.2129065990447998,
      "learning_rate": 4.9385779627500174e-05,
      "loss": 1.2219,
      "step": 40000
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.087021827697754,
      "eval_runtime": 76.3535,
      "eval_samples_per_second": 202.257,
      "eval_steps_per_second": 3.169,
      "step": 40000
    },
    {
      "epoch": 0.0202,
      "grad_norm": 1.2157970666885376,
      "learning_rate": 4.938227922905342e-05,
      "loss": 1.1623,
      "step": 40100
    },
    {
      "epoch": 0.0204,
      "grad_norm": 0.6873258948326111,
      "learning_rate": 4.9378769009427515e-05,
      "loss": 1.2088,
      "step": 40200
    },
    {
      "epoch": 0.0206,
      "grad_norm": 1.139224886894226,
      "learning_rate": 4.937524897003637e-05,
      "loss": 1.2158,
      "step": 40300
    },
    {
      "epoch": 0.0208,
      "grad_norm": 1.2190488576889038,
      "learning_rate": 4.9371719112297845e-05,
      "loss": 1.19,
      "step": 40400
    },
    {
      "epoch": 0.021,
      "grad_norm": 1.2439500093460083,
      "learning_rate": 4.936817943763378e-05,
      "loss": 1.173,
      "step": 40500
    },
    {
      "epoch": 0.0212,
      "grad_norm": 1.030110478401184,
      "learning_rate": 4.936462994746995e-05,
      "loss": 1.1995,
      "step": 40600
    },
    {
      "epoch": 0.0214,
      "grad_norm": 0.666333794593811,
      "learning_rate": 4.93610706432361e-05,
      "loss": 1.2476,
      "step": 40700
    },
    {
      "epoch": 0.0216,
      "grad_norm": 0.8477672934532166,
      "learning_rate": 4.93575015263659e-05,
      "loss": 1.2225,
      "step": 40800
    },
    {
      "epoch": 0.0218,
      "grad_norm": 1.087173342704773,
      "learning_rate": 4.9353922598296995e-05,
      "loss": 1.1758,
      "step": 40900
    },
    {
      "epoch": 0.022,
      "grad_norm": 1.2760623693466187,
      "learning_rate": 4.935033386047099e-05,
      "loss": 1.2811,
      "step": 41000
    },
    {
      "epoch": 0.022,
      "eval_loss": 1.082631230354309,
      "eval_runtime": 75.9811,
      "eval_samples_per_second": 203.248,
      "eval_steps_per_second": 3.185,
      "step": 41000
    },
    {
      "epoch": 0.0222,
      "grad_norm": 1.0236754417419434,
      "learning_rate": 4.934673531433341e-05,
      "loss": 1.2283,
      "step": 41100
    },
    {
      "epoch": 0.0224,
      "grad_norm": 1.509448766708374,
      "learning_rate": 4.934312696133376e-05,
      "loss": 1.1989,
      "step": 41200
    },
    {
      "epoch": 0.0226,
      "grad_norm": 1.2022035121917725,
      "learning_rate": 4.9339508802925475e-05,
      "loss": 1.2247,
      "step": 41300
    },
    {
      "epoch": 0.0228,
      "grad_norm": 1.4019054174423218,
      "learning_rate": 4.933588084056596e-05,
      "loss": 1.2201,
      "step": 41400
    },
    {
      "epoch": 0.023,
      "grad_norm": 1.06856107711792,
      "learning_rate": 4.933224307571655e-05,
      "loss": 1.1789,
      "step": 41500
    },
    {
      "epoch": 0.0232,
      "grad_norm": 1.0807596445083618,
      "learning_rate": 4.932859550984255e-05,
      "loss": 1.2361,
      "step": 41600
    },
    {
      "epoch": 0.0234,
      "grad_norm": 1.20824134349823,
      "learning_rate": 4.932493814441318e-05,
      "loss": 1.2167,
      "step": 41700
    },
    {
      "epoch": 0.0236,
      "grad_norm": 0.7066964507102966,
      "learning_rate": 4.9321270980901635e-05,
      "loss": 1.1941,
      "step": 41800
    },
    {
      "epoch": 0.0238,
      "grad_norm": 0.7342857122421265,
      "learning_rate": 4.9317594020785044e-05,
      "loss": 1.1709,
      "step": 41900
    },
    {
      "epoch": 0.024,
      "grad_norm": 1.239176630973816,
      "learning_rate": 4.931390726554449e-05,
      "loss": 1.2238,
      "step": 42000
    },
    {
      "epoch": 0.024,
      "eval_loss": 1.0859261751174927,
      "eval_runtime": 76.6051,
      "eval_samples_per_second": 201.592,
      "eval_steps_per_second": 3.159,
      "step": 42000
    },
    {
      "epoch": 0.0242,
      "grad_norm": 0.9031541347503662,
      "learning_rate": 4.9310210716665003e-05,
      "loss": 1.1621,
      "step": 42100
    },
    {
      "epoch": 0.0244,
      "grad_norm": 0.744767963886261,
      "learning_rate": 4.930650437563554e-05,
      "loss": 1.21,
      "step": 42200
    },
    {
      "epoch": 0.0246,
      "grad_norm": 1.2594637870788574,
      "learning_rate": 4.9302788243949025e-05,
      "loss": 1.21,
      "step": 42300
    },
    {
      "epoch": 0.0248,
      "grad_norm": 0.67472243309021,
      "learning_rate": 4.929906232310231e-05,
      "loss": 1.1785,
      "step": 42400
    },
    {
      "epoch": 0.025,
      "grad_norm": 1.3947267532348633,
      "learning_rate": 4.92953266145962e-05,
      "loss": 1.1598,
      "step": 42500
    },
    {
      "epoch": 0.0252,
      "grad_norm": 0.7739892601966858,
      "learning_rate": 4.929158111993543e-05,
      "loss": 1.1492,
      "step": 42600
    },
    {
      "epoch": 0.0254,
      "grad_norm": 0.8620167970657349,
      "learning_rate": 4.9287825840628695e-05,
      "loss": 1.1863,
      "step": 42700
    },
    {
      "epoch": 0.0256,
      "grad_norm": 0.7649038434028625,
      "learning_rate": 4.928406077818861e-05,
      "loss": 1.1782,
      "step": 42800
    },
    {
      "epoch": 0.0258,
      "grad_norm": 1.2743923664093018,
      "learning_rate": 4.9280285934131755e-05,
      "loss": 1.2254,
      "step": 42900
    },
    {
      "epoch": 0.026,
      "grad_norm": 0.6955134272575378,
      "learning_rate": 4.927650130997862e-05,
      "loss": 1.2254,
      "step": 43000
    },
    {
      "epoch": 0.026,
      "eval_loss": 1.0833112001419067,
      "eval_runtime": 77.475,
      "eval_samples_per_second": 199.329,
      "eval_steps_per_second": 3.124,
      "step": 43000
    },
    {
      "epoch": 0.0262,
      "grad_norm": 0.8997926115989685,
      "learning_rate": 4.927270690725367e-05,
      "loss": 1.1989,
      "step": 43100
    },
    {
      "epoch": 0.0264,
      "grad_norm": 1.3762701749801636,
      "learning_rate": 4.9268902727485276e-05,
      "loss": 1.1928,
      "step": 43200
    },
    {
      "epoch": 0.0266,
      "grad_norm": 0.7553657293319702,
      "learning_rate": 4.926508877220577e-05,
      "loss": 1.2266,
      "step": 43300
    },
    {
      "epoch": 0.0268,
      "grad_norm": 0.6331331133842468,
      "learning_rate": 4.92612650429514e-05,
      "loss": 1.2034,
      "step": 43400
    },
    {
      "epoch": 0.027,
      "grad_norm": 0.6229783892631531,
      "learning_rate": 4.925743154126238e-05,
      "loss": 1.2123,
      "step": 43500
    },
    {
      "epoch": 0.0272,
      "grad_norm": 1.2101593017578125,
      "learning_rate": 4.9253588268682835e-05,
      "loss": 1.2473,
      "step": 43600
    },
    {
      "epoch": 0.0274,
      "grad_norm": 1.2178127765655518,
      "learning_rate": 4.924973522676083e-05,
      "loss": 1.2391,
      "step": 43700
    },
    {
      "epoch": 0.0276,
      "grad_norm": 1.4870595932006836,
      "learning_rate": 4.924587241704838e-05,
      "loss": 1.2358,
      "step": 43800
    },
    {
      "epoch": 0.0278,
      "grad_norm": 1.2042150497436523,
      "learning_rate": 4.924199984110142e-05,
      "loss": 1.1996,
      "step": 43900
    },
    {
      "epoch": 0.028,
      "grad_norm": 1.3220444917678833,
      "learning_rate": 4.923811750047982e-05,
      "loss": 1.2052,
      "step": 44000
    },
    {
      "epoch": 0.028,
      "eval_loss": 1.0859400033950806,
      "eval_runtime": 76.6882,
      "eval_samples_per_second": 201.374,
      "eval_steps_per_second": 3.156,
      "step": 44000
    },
    {
      "epoch": 0.0282,
      "grad_norm": 1.464141607284546,
      "learning_rate": 4.923422539674739e-05,
      "loss": 1.2326,
      "step": 44100
    },
    {
      "epoch": 0.0284,
      "grad_norm": 1.2406100034713745,
      "learning_rate": 4.923032353147187e-05,
      "loss": 1.2092,
      "step": 44200
    },
    {
      "epoch": 0.0286,
      "grad_norm": 0.9459540247917175,
      "learning_rate": 4.9226411906224935e-05,
      "loss": 1.2023,
      "step": 44300
    },
    {
      "epoch": 0.0288,
      "grad_norm": 1.2143398523330688,
      "learning_rate": 4.922249052258217e-05,
      "loss": 1.2348,
      "step": 44400
    },
    {
      "epoch": 0.029,
      "grad_norm": 1.1002607345581055,
      "learning_rate": 4.921855938212312e-05,
      "loss": 1.1912,
      "step": 44500
    },
    {
      "epoch": 0.0292,
      "grad_norm": 1.169640302658081,
      "learning_rate": 4.921461848643126e-05,
      "loss": 1.1797,
      "step": 44600
    },
    {
      "epoch": 0.0294,
      "grad_norm": 1.2756543159484863,
      "learning_rate": 4.921066783709396e-05,
      "loss": 1.1691,
      "step": 44700
    },
    {
      "epoch": 0.0296,
      "grad_norm": 0.5525041222572327,
      "learning_rate": 4.920670743570255e-05,
      "loss": 1.2011,
      "step": 44800
    },
    {
      "epoch": 0.0298,
      "grad_norm": 0.7082927823066711,
      "learning_rate": 4.9202737283852284e-05,
      "loss": 1.1831,
      "step": 44900
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7773894667625427,
      "learning_rate": 4.919875738314233e-05,
      "loss": 1.1947,
      "step": 45000
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.0890144109725952,
      "eval_runtime": 76.6594,
      "eval_samples_per_second": 201.45,
      "eval_steps_per_second": 3.157,
      "step": 45000
    },
    {
      "epoch": 0.0302,
      "grad_norm": 0.7057791352272034,
      "learning_rate": 4.91947677351758e-05,
      "loss": 1.2717,
      "step": 45100
    },
    {
      "epoch": 0.0304,
      "grad_norm": 0.9837706685066223,
      "learning_rate": 4.919076834155971e-05,
      "loss": 1.206,
      "step": 45200
    },
    {
      "epoch": 0.0306,
      "grad_norm": 0.5716899633407593,
      "learning_rate": 4.918675920390504e-05,
      "loss": 1.2071,
      "step": 45300
    },
    {
      "epoch": 0.0308,
      "grad_norm": 0.6972540020942688,
      "learning_rate": 4.918274032382665e-05,
      "loss": 1.1761,
      "step": 45400
    },
    {
      "epoch": 0.031,
      "grad_norm": 1.4802424907684326,
      "learning_rate": 4.917871170294334e-05,
      "loss": 1.2109,
      "step": 45500
    },
    {
      "epoch": 0.0312,
      "grad_norm": 0.7575565576553345,
      "learning_rate": 4.9174673342877854e-05,
      "loss": 1.2169,
      "step": 45600
    },
    {
      "epoch": 0.0314,
      "grad_norm": 2.227360963821411,
      "learning_rate": 4.917062524525684e-05,
      "loss": 1.1657,
      "step": 45700
    },
    {
      "epoch": 0.0316,
      "grad_norm": 0.8020743727684021,
      "learning_rate": 4.916656741171086e-05,
      "loss": 1.2073,
      "step": 45800
    },
    {
      "epoch": 0.0318,
      "grad_norm": 1.1863917112350464,
      "learning_rate": 4.916249984387443e-05,
      "loss": 1.211,
      "step": 45900
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.5976528525352478,
      "learning_rate": 4.915842254338594e-05,
      "loss": 1.2468,
      "step": 46000
    },
    {
      "epoch": 0.032,
      "eval_loss": 1.0842978954315186,
      "eval_runtime": 76.5369,
      "eval_samples_per_second": 201.772,
      "eval_steps_per_second": 3.162,
      "step": 46000
    },
    {
      "epoch": 0.0322,
      "grad_norm": 1.4908519983291626,
      "learning_rate": 4.915433551188774e-05,
      "loss": 1.1695,
      "step": 46100
    },
    {
      "epoch": 0.0324,
      "grad_norm": 1.1190279722213745,
      "learning_rate": 4.915023875102609e-05,
      "loss": 1.2017,
      "step": 46200
    },
    {
      "epoch": 0.0326,
      "grad_norm": 1.1334049701690674,
      "learning_rate": 4.914613226245115e-05,
      "loss": 1.2083,
      "step": 46300
    },
    {
      "epoch": 0.0328,
      "grad_norm": 0.6902172565460205,
      "learning_rate": 4.914201604781703e-05,
      "loss": 1.233,
      "step": 46400
    },
    {
      "epoch": 0.033,
      "grad_norm": 0.7509928941726685,
      "learning_rate": 4.913789010878174e-05,
      "loss": 1.2437,
      "step": 46500
    },
    {
      "epoch": 0.0332,
      "grad_norm": 1.4217336177825928,
      "learning_rate": 4.9133754447007185e-05,
      "loss": 1.1909,
      "step": 46600
    },
    {
      "epoch": 0.0334,
      "grad_norm": 1.212930679321289,
      "learning_rate": 4.912960906415923e-05,
      "loss": 1.1828,
      "step": 46700
    },
    {
      "epoch": 0.0336,
      "grad_norm": 1.1408753395080566,
      "learning_rate": 4.912545396190763e-05,
      "loss": 1.2118,
      "step": 46800
    },
    {
      "epoch": 0.0338,
      "grad_norm": 0.649695634841919,
      "learning_rate": 4.9121289141926066e-05,
      "loss": 1.1877,
      "step": 46900
    },
    {
      "epoch": 0.034,
      "grad_norm": 1.4613287448883057,
      "learning_rate": 4.911711460589211e-05,
      "loss": 1.1977,
      "step": 47000
    },
    {
      "epoch": 0.034,
      "eval_loss": 1.0870256423950195,
      "eval_runtime": 76.7051,
      "eval_samples_per_second": 201.33,
      "eval_steps_per_second": 3.155,
      "step": 47000
    },
    {
      "epoch": 0.0342,
      "grad_norm": 1.1586204767227173,
      "learning_rate": 4.9112930355487284e-05,
      "loss": 1.2222,
      "step": 47100
    },
    {
      "epoch": 0.0344,
      "grad_norm": 1.220306158065796,
      "learning_rate": 4.910873639239699e-05,
      "loss": 1.1909,
      "step": 47200
    },
    {
      "epoch": 0.0346,
      "grad_norm": 0.589338481426239,
      "learning_rate": 4.910453271831056e-05,
      "loss": 1.2034,
      "step": 47300
    },
    {
      "epoch": 0.0348,
      "grad_norm": 1.4743396043777466,
      "learning_rate": 4.910031933492123e-05,
      "loss": 1.2019,
      "step": 47400
    },
    {
      "epoch": 0.035,
      "grad_norm": 0.6481319069862366,
      "learning_rate": 4.909609624392616e-05,
      "loss": 1.2107,
      "step": 47500
    },
    {
      "epoch": 0.0352,
      "grad_norm": 1.1668992042541504,
      "learning_rate": 4.9091863447026404e-05,
      "loss": 1.2498,
      "step": 47600
    },
    {
      "epoch": 0.0354,
      "grad_norm": 1.115519404411316,
      "learning_rate": 4.908762094592693e-05,
      "loss": 1.206,
      "step": 47700
    },
    {
      "epoch": 0.0356,
      "grad_norm": 1.3867928981781006,
      "learning_rate": 4.908336874233662e-05,
      "loss": 1.2082,
      "step": 47800
    },
    {
      "epoch": 0.0358,
      "grad_norm": 0.6380243301391602,
      "learning_rate": 4.9079106837968264e-05,
      "loss": 1.1693,
      "step": 47900
    },
    {
      "epoch": 0.036,
      "grad_norm": 1.8375539779663086,
      "learning_rate": 4.907483523453855e-05,
      "loss": 1.1531,
      "step": 48000
    },
    {
      "epoch": 0.036,
      "eval_loss": 1.0780328512191772,
      "eval_runtime": 76.5805,
      "eval_samples_per_second": 201.657,
      "eval_steps_per_second": 3.16,
      "step": 48000
    },
    {
      "epoch": 0.0362,
      "grad_norm": 1.231332778930664,
      "learning_rate": 4.907055393376808e-05,
      "loss": 1.1618,
      "step": 48100
    },
    {
      "epoch": 0.0364,
      "grad_norm": 1.2306678295135498,
      "learning_rate": 4.906626293738137e-05,
      "loss": 1.2365,
      "step": 48200
    },
    {
      "epoch": 0.0366,
      "grad_norm": 1.057521104812622,
      "learning_rate": 4.906196224710683e-05,
      "loss": 1.1775,
      "step": 48300
    },
    {
      "epoch": 0.0368,
      "grad_norm": 0.9679245352745056,
      "learning_rate": 4.905765186467677e-05,
      "loss": 1.2175,
      "step": 48400
    },
    {
      "epoch": 0.037,
      "grad_norm": 1.325900912284851,
      "learning_rate": 4.9053331791827404e-05,
      "loss": 1.1848,
      "step": 48500
    },
    {
      "epoch": 0.0372,
      "grad_norm": 1.3124104738235474,
      "learning_rate": 4.9049002030298887e-05,
      "loss": 1.1779,
      "step": 48600
    },
    {
      "epoch": 0.0374,
      "grad_norm": 1.7284040451049805,
      "learning_rate": 4.904466258183522e-05,
      "loss": 1.2144,
      "step": 48700
    },
    {
      "epoch": 0.0376,
      "grad_norm": 0.9314505457878113,
      "learning_rate": 4.904031344818434e-05,
      "loss": 1.219,
      "step": 48800
    },
    {
      "epoch": 0.0378,
      "grad_norm": 1.1688934564590454,
      "learning_rate": 4.903595463109808e-05,
      "loss": 1.2268,
      "step": 48900
    },
    {
      "epoch": 0.038,
      "grad_norm": 1.0910236835479736,
      "learning_rate": 4.903158613233216e-05,
      "loss": 1.2213,
      "step": 49000
    },
    {
      "epoch": 0.038,
      "eval_loss": 1.0866200923919678,
      "eval_runtime": 76.736,
      "eval_samples_per_second": 201.248,
      "eval_steps_per_second": 3.154,
      "step": 49000
    },
    {
      "epoch": 0.0382,
      "grad_norm": 1.0715341567993164,
      "learning_rate": 4.902720795364623e-05,
      "loss": 1.2007,
      "step": 49100
    },
    {
      "epoch": 0.0384,
      "grad_norm": 0.6578232645988464,
      "learning_rate": 4.902282009680381e-05,
      "loss": 1.2078,
      "step": 49200
    },
    {
      "epoch": 0.0386,
      "grad_norm": 1.34630286693573,
      "learning_rate": 4.9018422563572326e-05,
      "loss": 1.1894,
      "step": 49300
    },
    {
      "epoch": 0.0388,
      "grad_norm": 1.1832722425460815,
      "learning_rate": 4.9014015355723104e-05,
      "loss": 1.1846,
      "step": 49400
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.9175591468811035,
      "learning_rate": 4.900959847503137e-05,
      "loss": 1.1984,
      "step": 49500
    },
    {
      "epoch": 0.0392,
      "grad_norm": 1.077879548072815,
      "learning_rate": 4.9005171923276236e-05,
      "loss": 1.1868,
      "step": 49600
    },
    {
      "epoch": 0.0394,
      "grad_norm": 0.5999984741210938,
      "learning_rate": 4.900073570224073e-05,
      "loss": 1.1816,
      "step": 49700
    },
    {
      "epoch": 0.0396,
      "grad_norm": 1.24228835105896,
      "learning_rate": 4.899628981371175e-05,
      "loss": 1.191,
      "step": 49800
    },
    {
      "epoch": 0.0398,
      "grad_norm": 0.7666544318199158,
      "learning_rate": 4.899183425948011e-05,
      "loss": 1.1813,
      "step": 49900
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2996748685836792,
      "learning_rate": 4.8987369041340486e-05,
      "loss": 1.184,
      "step": 50000
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.0817583799362183,
      "eval_runtime": 77.0972,
      "eval_samples_per_second": 200.306,
      "eval_steps_per_second": 3.139,
      "step": 50000
    },
    {
      "epoch": 0.0402,
      "grad_norm": 1.1717365980148315,
      "learning_rate": 4.898289416109149e-05,
      "loss": 1.1936,
      "step": 50100
    },
    {
      "epoch": 0.0404,
      "grad_norm": 1.3680170774459839,
      "learning_rate": 4.8978409620535595e-05,
      "loss": 1.2138,
      "step": 50200
    },
    {
      "epoch": 0.0406,
      "grad_norm": 1.6390254497528076,
      "learning_rate": 4.897391542147916e-05,
      "loss": 1.1883,
      "step": 50300
    },
    {
      "epoch": 0.0408,
      "grad_norm": 1.2523001432418823,
      "learning_rate": 4.896941156573247e-05,
      "loss": 1.2157,
      "step": 50400
    },
    {
      "epoch": 0.041,
      "grad_norm": 1.4317930936813354,
      "learning_rate": 4.896489805510966e-05,
      "loss": 1.1721,
      "step": 50500
    },
    {
      "epoch": 0.0412,
      "grad_norm": 0.9794881939888,
      "learning_rate": 4.896037489142879e-05,
      "loss": 1.2073,
      "step": 50600
    },
    {
      "epoch": 0.0414,
      "grad_norm": 0.8774665594100952,
      "learning_rate": 4.895584207651178e-05,
      "loss": 1.1934,
      "step": 50700
    },
    {
      "epoch": 0.0416,
      "grad_norm": 1.421742558479309,
      "learning_rate": 4.895129961218444e-05,
      "loss": 1.2078,
      "step": 50800
    },
    {
      "epoch": 0.0418,
      "grad_norm": 1.0715827941894531,
      "learning_rate": 4.894674750027648e-05,
      "loss": 1.1713,
      "step": 50900
    },
    {
      "epoch": 0.042,
      "grad_norm": 0.7623746991157532,
      "learning_rate": 4.894218574262149e-05,
      "loss": 1.1779,
      "step": 51000
    },
    {
      "epoch": 0.042,
      "eval_loss": 1.0817545652389526,
      "eval_runtime": 76.5318,
      "eval_samples_per_second": 201.785,
      "eval_steps_per_second": 3.162,
      "step": 51000
    },
    {
      "epoch": 0.0422,
      "grad_norm": 0.710477888584137,
      "learning_rate": 4.893761434105695e-05,
      "loss": 1.1876,
      "step": 51100
    },
    {
      "epoch": 0.0424,
      "grad_norm": 1.244310736656189,
      "learning_rate": 4.893303329742421e-05,
      "loss": 1.2077,
      "step": 51200
    },
    {
      "epoch": 0.0426,
      "grad_norm": 1.6161651611328125,
      "learning_rate": 4.8928442613568535e-05,
      "loss": 1.1896,
      "step": 51300
    },
    {
      "epoch": 0.0428,
      "grad_norm": 1.0831233263015747,
      "learning_rate": 4.892384229133902e-05,
      "loss": 1.1904,
      "step": 51400
    },
    {
      "epoch": 0.043,
      "grad_norm": 0.8258353471755981,
      "learning_rate": 4.89192323325887e-05,
      "loss": 1.1906,
      "step": 51500
    },
    {
      "epoch": 0.0432,
      "grad_norm": 0.7877621054649353,
      "learning_rate": 4.8914612739174456e-05,
      "loss": 1.1416,
      "step": 51600
    },
    {
      "epoch": 0.0434,
      "grad_norm": 1.2102254629135132,
      "learning_rate": 4.890998351295706e-05,
      "loss": 1.1782,
      "step": 51700
    },
    {
      "epoch": 0.0436,
      "grad_norm": 1.139289140701294,
      "learning_rate": 4.890534465580115e-05,
      "loss": 1.1471,
      "step": 51800
    },
    {
      "epoch": 0.0438,
      "grad_norm": 1.2521135807037354,
      "learning_rate": 4.890069616957529e-05,
      "loss": 1.206,
      "step": 51900
    },
    {
      "epoch": 0.044,
      "grad_norm": 1.3690674304962158,
      "learning_rate": 4.889603805615187e-05,
      "loss": 1.2328,
      "step": 52000
    },
    {
      "epoch": 0.044,
      "eval_loss": 1.0797057151794434,
      "eval_runtime": 76.4385,
      "eval_samples_per_second": 202.032,
      "eval_steps_per_second": 3.166,
      "step": 52000
    },
    {
      "epoch": 0.0442,
      "grad_norm": 1.2689367532730103,
      "learning_rate": 4.889137031740717e-05,
      "loss": 1.2189,
      "step": 52100
    },
    {
      "epoch": 0.0444,
      "grad_norm": 1.0029367208480835,
      "learning_rate": 4.888669295522137e-05,
      "loss": 1.1754,
      "step": 52200
    },
    {
      "epoch": 0.0446,
      "grad_norm": 0.6958720684051514,
      "learning_rate": 4.8882005971478504e-05,
      "loss": 1.1601,
      "step": 52300
    },
    {
      "epoch": 0.0448,
      "grad_norm": 1.2337570190429688,
      "learning_rate": 4.887730936806648e-05,
      "loss": 1.2244,
      "step": 52400
    },
    {
      "epoch": 0.045,
      "grad_norm": 1.2311972379684448,
      "learning_rate": 4.8872603146877104e-05,
      "loss": 1.2031,
      "step": 52500
    },
    {
      "epoch": 0.0452,
      "grad_norm": 1.145331859588623,
      "learning_rate": 4.886788730980604e-05,
      "loss": 1.1947,
      "step": 52600
    },
    {
      "epoch": 0.0454,
      "grad_norm": 1.1688799858093262,
      "learning_rate": 4.886316185875282e-05,
      "loss": 1.1655,
      "step": 52700
    },
    {
      "epoch": 0.0456,
      "grad_norm": 1.2751972675323486,
      "learning_rate": 4.885842679562085e-05,
      "loss": 1.2038,
      "step": 52800
    },
    {
      "epoch": 0.0458,
      "grad_norm": 0.6860191822052002,
      "learning_rate": 4.8853682122317426e-05,
      "loss": 1.1922,
      "step": 52900
    },
    {
      "epoch": 0.046,
      "grad_norm": 1.4772953987121582,
      "learning_rate": 4.8848927840753695e-05,
      "loss": 1.1856,
      "step": 53000
    },
    {
      "epoch": 0.046,
      "eval_loss": 1.0836056470870972,
      "eval_runtime": 76.3679,
      "eval_samples_per_second": 202.218,
      "eval_steps_per_second": 3.169,
      "step": 53000
    },
    {
      "epoch": 0.0462,
      "grad_norm": 1.2491508722305298,
      "learning_rate": 4.884416395284468e-05,
      "loss": 1.1924,
      "step": 53100
    },
    {
      "epoch": 0.0464,
      "grad_norm": 1.1689327955245972,
      "learning_rate": 4.883939046050928e-05,
      "loss": 1.1675,
      "step": 53200
    },
    {
      "epoch": 0.0466,
      "grad_norm": 1.0528528690338135,
      "learning_rate": 4.883460736567025e-05,
      "loss": 1.1879,
      "step": 53300
    },
    {
      "epoch": 0.0468,
      "grad_norm": 1.141653060913086,
      "learning_rate": 4.8829814670254226e-05,
      "loss": 1.1637,
      "step": 53400
    },
    {
      "epoch": 0.047,
      "grad_norm": 0.8094840049743652,
      "learning_rate": 4.88250123761917e-05,
      "loss": 1.1924,
      "step": 53500
    },
    {
      "epoch": 0.0472,
      "grad_norm": 1.4988161325454712,
      "learning_rate": 4.8820200485417036e-05,
      "loss": 1.1962,
      "step": 53600
    },
    {
      "epoch": 0.0474,
      "grad_norm": 0.8497682809829712,
      "learning_rate": 4.881537899986847e-05,
      "loss": 1.1987,
      "step": 53700
    },
    {
      "epoch": 0.0476,
      "grad_norm": 1.0132189989089966,
      "learning_rate": 4.8810547921488083e-05,
      "loss": 1.1666,
      "step": 53800
    },
    {
      "epoch": 0.0478,
      "grad_norm": 1.275478720664978,
      "learning_rate": 4.8805707252221846e-05,
      "loss": 1.2072,
      "step": 53900
    },
    {
      "epoch": 0.048,
      "grad_norm": 1.1257511377334595,
      "learning_rate": 4.880085699401958e-05,
      "loss": 1.2128,
      "step": 54000
    },
    {
      "epoch": 0.048,
      "eval_loss": 1.081576943397522,
      "eval_runtime": 76.6431,
      "eval_samples_per_second": 201.492,
      "eval_steps_per_second": 3.157,
      "step": 54000
    },
    {
      "epoch": 0.0482,
      "grad_norm": 1.132750153541565,
      "learning_rate": 4.879599714883496e-05,
      "loss": 1.2239,
      "step": 54100
    },
    {
      "epoch": 0.0484,
      "grad_norm": 1.3854628801345825,
      "learning_rate": 4.8791127718625526e-05,
      "loss": 1.1447,
      "step": 54200
    },
    {
      "epoch": 0.0486,
      "grad_norm": 1.32233464717865,
      "learning_rate": 4.87862487053527e-05,
      "loss": 1.1765,
      "step": 54300
    },
    {
      "epoch": 0.0488,
      "grad_norm": 1.1571578979492188,
      "learning_rate": 4.8781360110981744e-05,
      "loss": 1.1844,
      "step": 54400
    },
    {
      "epoch": 0.049,
      "grad_norm": 1.552740216255188,
      "learning_rate": 4.877646193748177e-05,
      "loss": 1.1336,
      "step": 54500
    },
    {
      "epoch": 0.0492,
      "grad_norm": 1.3447420597076416,
      "learning_rate": 4.8771554186825774e-05,
      "loss": 1.2401,
      "step": 54600
    },
    {
      "epoch": 0.0494,
      "grad_norm": 1.0012767314910889,
      "learning_rate": 4.87666368609906e-05,
      "loss": 1.2236,
      "step": 54700
    },
    {
      "epoch": 0.0496,
      "grad_norm": 1.1246662139892578,
      "learning_rate": 4.876170996195693e-05,
      "loss": 1.2452,
      "step": 54800
    },
    {
      "epoch": 0.0498,
      "grad_norm": 0.7534450888633728,
      "learning_rate": 4.875677349170934e-05,
      "loss": 1.2333,
      "step": 54900
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2943884134292603,
      "learning_rate": 4.875182745223622e-05,
      "loss": 1.1986,
      "step": 55000
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0774849653244019,
      "eval_runtime": 76.6003,
      "eval_samples_per_second": 201.605,
      "eval_steps_per_second": 3.159,
      "step": 55000
    },
    {
      "epoch": 0.0502,
      "grad_norm": 1.0771546363830566,
      "learning_rate": 4.874687184552984e-05,
      "loss": 1.2022,
      "step": 55100
    },
    {
      "epoch": 0.0504,
      "grad_norm": 1.1722393035888672,
      "learning_rate": 4.8741906673586334e-05,
      "loss": 1.1856,
      "step": 55200
    },
    {
      "epoch": 0.0506,
      "grad_norm": 0.7547242045402527,
      "learning_rate": 4.873693193840565e-05,
      "loss": 1.153,
      "step": 55300
    },
    {
      "epoch": 0.0508,
      "grad_norm": 0.9694270491600037,
      "learning_rate": 4.873194764199162e-05,
      "loss": 1.2389,
      "step": 55400
    },
    {
      "epoch": 0.051,
      "grad_norm": 0.6288232803344727,
      "learning_rate": 4.872695378635192e-05,
      "loss": 1.195,
      "step": 55500
    },
    {
      "epoch": 0.0512,
      "grad_norm": 1.1400961875915527,
      "learning_rate": 4.872195037349807e-05,
      "loss": 1.1903,
      "step": 55600
    },
    {
      "epoch": 0.0514,
      "grad_norm": 1.0738123655319214,
      "learning_rate": 4.871693740544545e-05,
      "loss": 1.1764,
      "step": 55700
    },
    {
      "epoch": 0.0516,
      "grad_norm": 1.2298240661621094,
      "learning_rate": 4.871191488421327e-05,
      "loss": 1.1701,
      "step": 55800
    },
    {
      "epoch": 0.0518,
      "grad_norm": 1.3240865468978882,
      "learning_rate": 4.8706882811824624e-05,
      "loss": 1.1828,
      "step": 55900
    },
    {
      "epoch": 0.052,
      "grad_norm": 1.4167003631591797,
      "learning_rate": 4.870184119030641e-05,
      "loss": 1.204,
      "step": 56000
    },
    {
      "epoch": 0.052,
      "eval_loss": 1.0775164365768433,
      "eval_runtime": 76.8889,
      "eval_samples_per_second": 200.848,
      "eval_steps_per_second": 3.147,
      "step": 56000
    },
    {
      "epoch": 0.0522,
      "grad_norm": 0.6648851037025452,
      "learning_rate": 4.86967900216894e-05,
      "loss": 1.174,
      "step": 56100
    },
    {
      "epoch": 0.0524,
      "grad_norm": 1.29317307472229,
      "learning_rate": 4.8691729308008196e-05,
      "loss": 1.1695,
      "step": 56200
    },
    {
      "epoch": 0.0526,
      "grad_norm": 1.3121986389160156,
      "learning_rate": 4.868665905130127e-05,
      "loss": 1.1941,
      "step": 56300
    },
    {
      "epoch": 0.0528,
      "grad_norm": 0.6604340672492981,
      "learning_rate": 4.868157925361091e-05,
      "loss": 1.1875,
      "step": 56400
    },
    {
      "epoch": 0.053,
      "grad_norm": 1.0366885662078857,
      "learning_rate": 4.867648991698325e-05,
      "loss": 1.2265,
      "step": 56500
    },
    {
      "epoch": 0.0532,
      "grad_norm": 1.382543683052063,
      "learning_rate": 4.867139104346829e-05,
      "loss": 1.2122,
      "step": 56600
    },
    {
      "epoch": 0.0534,
      "grad_norm": 1.0773979425430298,
      "learning_rate": 4.866628263511985e-05,
      "loss": 1.2375,
      "step": 56700
    },
    {
      "epoch": 0.0536,
      "grad_norm": 1.178758978843689,
      "learning_rate": 4.8661164693995584e-05,
      "loss": 1.1959,
      "step": 56800
    },
    {
      "epoch": 0.0538,
      "grad_norm": 0.7048764228820801,
      "learning_rate": 4.865603722215702e-05,
      "loss": 1.1841,
      "step": 56900
    },
    {
      "epoch": 0.054,
      "grad_norm": 1.3390711545944214,
      "learning_rate": 4.865090022166949e-05,
      "loss": 1.2033,
      "step": 57000
    },
    {
      "epoch": 0.054,
      "eval_loss": 1.0746017694473267,
      "eval_runtime": 77.1768,
      "eval_samples_per_second": 200.099,
      "eval_steps_per_second": 3.136,
      "step": 57000
    },
    {
      "epoch": 0.0542,
      "grad_norm": 1.0639598369598389,
      "learning_rate": 4.864575369460218e-05,
      "loss": 1.1948,
      "step": 57100
    },
    {
      "epoch": 0.0544,
      "grad_norm": 1.1349152326583862,
      "learning_rate": 4.86405976430281e-05,
      "loss": 1.1666,
      "step": 57200
    },
    {
      "epoch": 0.0546,
      "grad_norm": 1.0187245607376099,
      "learning_rate": 4.8635432069024125e-05,
      "loss": 1.1614,
      "step": 57300
    },
    {
      "epoch": 0.0548,
      "grad_norm": 0.6468742489814758,
      "learning_rate": 4.863025697467094e-05,
      "loss": 1.2043,
      "step": 57400
    },
    {
      "epoch": 0.055,
      "grad_norm": 1.1298869848251343,
      "learning_rate": 4.862507236205307e-05,
      "loss": 1.1884,
      "step": 57500
    },
    {
      "epoch": 0.0552,
      "grad_norm": 0.7240111827850342,
      "learning_rate": 4.861987823325887e-05,
      "loss": 1.186,
      "step": 57600
    },
    {
      "epoch": 0.0554,
      "grad_norm": 0.8047366142272949,
      "learning_rate": 4.861467459038056e-05,
      "loss": 1.2029,
      "step": 57700
    },
    {
      "epoch": 0.0556,
      "grad_norm": 0.8840340375900269,
      "learning_rate": 4.860946143551413e-05,
      "loss": 1.19,
      "step": 57800
    },
    {
      "epoch": 0.0558,
      "grad_norm": 1.1575409173965454,
      "learning_rate": 4.860423877075947e-05,
      "loss": 1.1637,
      "step": 57900
    },
    {
      "epoch": 0.056,
      "grad_norm": 0.6591224074363708,
      "learning_rate": 4.859900659822025e-05,
      "loss": 1.2203,
      "step": 58000
    },
    {
      "epoch": 0.056,
      "eval_loss": 1.0788133144378662,
      "eval_runtime": 76.7654,
      "eval_samples_per_second": 201.171,
      "eval_steps_per_second": 3.152,
      "step": 58000
    },
    {
      "epoch": 0.0562,
      "grad_norm": 1.3405015468597412,
      "learning_rate": 4.859376492000399e-05,
      "loss": 1.19,
      "step": 58100
    },
    {
      "epoch": 0.0564,
      "grad_norm": 1.1912270784378052,
      "learning_rate": 4.858851373822205e-05,
      "loss": 1.1521,
      "step": 58200
    },
    {
      "epoch": 0.0566,
      "grad_norm": 1.0169751644134521,
      "learning_rate": 4.85832530549896e-05,
      "loss": 1.2054,
      "step": 58300
    },
    {
      "epoch": 0.0568,
      "grad_norm": 0.6713104248046875,
      "learning_rate": 4.857798287242563e-05,
      "loss": 1.2033,
      "step": 58400
    },
    {
      "epoch": 0.057,
      "grad_norm": 1.2116252183914185,
      "learning_rate": 4.857270319265298e-05,
      "loss": 1.1919,
      "step": 58500
    },
    {
      "epoch": 0.0572,
      "grad_norm": 0.9526674151420593,
      "learning_rate": 4.856741401779831e-05,
      "loss": 1.1724,
      "step": 58600
    },
    {
      "epoch": 0.0574,
      "grad_norm": 1.458253264427185,
      "learning_rate": 4.856211534999209e-05,
      "loss": 1.1479,
      "step": 58700
    },
    {
      "epoch": 0.0576,
      "grad_norm": 1.173437237739563,
      "learning_rate": 4.855680719136862e-05,
      "loss": 1.2005,
      "step": 58800
    },
    {
      "epoch": 0.0578,
      "grad_norm": 0.7292013168334961,
      "learning_rate": 4.8551489544066034e-05,
      "loss": 1.1292,
      "step": 58900
    },
    {
      "epoch": 0.058,
      "grad_norm": 0.6017533540725708,
      "learning_rate": 4.854616241022627e-05,
      "loss": 1.1527,
      "step": 59000
    },
    {
      "epoch": 0.058,
      "eval_loss": 1.0688042640686035,
      "eval_runtime": 76.596,
      "eval_samples_per_second": 201.616,
      "eval_steps_per_second": 3.159,
      "step": 59000
    },
    {
      "epoch": 0.0582,
      "grad_norm": 0.8270254731178284,
      "learning_rate": 4.8540825791995114e-05,
      "loss": 1.1517,
      "step": 59100
    },
    {
      "epoch": 0.0584,
      "grad_norm": 1.1182663440704346,
      "learning_rate": 4.8535479691522136e-05,
      "loss": 1.2282,
      "step": 59200
    },
    {
      "epoch": 0.0586,
      "grad_norm": 1.1249291896820068,
      "learning_rate": 4.853012411096075e-05,
      "loss": 1.1314,
      "step": 59300
    },
    {
      "epoch": 0.0588,
      "grad_norm": 0.6025962233543396,
      "learning_rate": 4.85247590524682e-05,
      "loss": 1.1879,
      "step": 59400
    },
    {
      "epoch": 0.059,
      "grad_norm": 1.2914466857910156,
      "learning_rate": 4.85193845182055e-05,
      "loss": 1.1926,
      "step": 59500
    },
    {
      "epoch": 0.0592,
      "grad_norm": 0.7965525388717651,
      "learning_rate": 4.8514000510337544e-05,
      "loss": 1.2344,
      "step": 59600
    },
    {
      "epoch": 0.0594,
      "grad_norm": 0.6595709323883057,
      "learning_rate": 4.850860703103298e-05,
      "loss": 1.2056,
      "step": 59700
    },
    {
      "epoch": 0.0596,
      "grad_norm": 0.783892035484314,
      "learning_rate": 4.850320408246433e-05,
      "loss": 1.1343,
      "step": 59800
    },
    {
      "epoch": 0.0598,
      "grad_norm": 0.948952853679657,
      "learning_rate": 4.849779166680788e-05,
      "loss": 1.1607,
      "step": 59900
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.725027322769165,
      "learning_rate": 4.849236978624375e-05,
      "loss": 1.2125,
      "step": 60000
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0838971138000488,
      "eval_runtime": 76.8451,
      "eval_samples_per_second": 200.963,
      "eval_steps_per_second": 3.149,
      "step": 60000
    },
    {
      "epoch": 0.0002,
      "grad_norm": 1.1788556575775146,
      "learning_rate": 4.848693844295589e-05,
      "loss": 1.1917,
      "step": 60100
    },
    {
      "epoch": 0.0004,
      "grad_norm": 1.3381775617599487,
      "learning_rate": 4.848149763913202e-05,
      "loss": 1.2108,
      "step": 60200
    },
    {
      "epoch": 0.0006,
      "grad_norm": 0.9748820066452026,
      "learning_rate": 4.847604737696372e-05,
      "loss": 1.2054,
      "step": 60300
    },
    {
      "epoch": 0.0008,
      "grad_norm": 1.3528317213058472,
      "learning_rate": 4.847058765864634e-05,
      "loss": 1.1582,
      "step": 60400
    },
    {
      "epoch": 0.001,
      "grad_norm": 1.0475611686706543,
      "learning_rate": 4.8465118486379065e-05,
      "loss": 1.1409,
      "step": 60500
    },
    {
      "epoch": 0.0012,
      "grad_norm": 0.667515754699707,
      "learning_rate": 4.8459639862364866e-05,
      "loss": 1.1548,
      "step": 60600
    },
    {
      "epoch": 0.0014,
      "grad_norm": 1.3529212474822998,
      "learning_rate": 4.845415178881053e-05,
      "loss": 1.1741,
      "step": 60700
    },
    {
      "epoch": 0.0016,
      "grad_norm": 1.2415704727172852,
      "learning_rate": 4.844865426792666e-05,
      "loss": 1.1689,
      "step": 60800
    },
    {
      "epoch": 0.0018,
      "grad_norm": 0.9598329663276672,
      "learning_rate": 4.844314730192766e-05,
      "loss": 1.2138,
      "step": 60900
    },
    {
      "epoch": 0.002,
      "grad_norm": 0.660463273525238,
      "learning_rate": 4.843763089303173e-05,
      "loss": 1.1897,
      "step": 61000
    },
    {
      "epoch": 0.002,
      "eval_loss": 1.0804229974746704,
      "eval_runtime": 77.9042,
      "eval_samples_per_second": 198.231,
      "eval_steps_per_second": 3.106,
      "step": 61000
    },
    {
      "epoch": 0.0022,
      "grad_norm": 1.3137476444244385,
      "learning_rate": 4.843210504346088e-05,
      "loss": 1.2149,
      "step": 61100
    },
    {
      "epoch": 0.0024,
      "grad_norm": 2.466374158859253,
      "learning_rate": 4.842656975544092e-05,
      "loss": 1.2294,
      "step": 61200
    },
    {
      "epoch": 0.0026,
      "grad_norm": 0.9236732721328735,
      "learning_rate": 4.842102503120146e-05,
      "loss": 1.2316,
      "step": 61300
    },
    {
      "epoch": 0.0028,
      "grad_norm": 0.9453101754188538,
      "learning_rate": 4.841547087297592e-05,
      "loss": 1.1903,
      "step": 61400
    },
    {
      "epoch": 0.003,
      "grad_norm": 1.0694693326950073,
      "learning_rate": 4.840990728300151e-05,
      "loss": 1.2027,
      "step": 61500
    },
    {
      "epoch": 0.0032,
      "grad_norm": 1.0661156177520752,
      "learning_rate": 4.8404334263519254e-05,
      "loss": 1.2268,
      "step": 61600
    },
    {
      "epoch": 0.0034,
      "grad_norm": 1.3803828954696655,
      "learning_rate": 4.839875181677394e-05,
      "loss": 1.2084,
      "step": 61700
    },
    {
      "epoch": 0.0036,
      "grad_norm": 0.896979033946991,
      "learning_rate": 4.839315994501421e-05,
      "loss": 1.1818,
      "step": 61800
    },
    {
      "epoch": 0.0038,
      "grad_norm": 1.1509560346603394,
      "learning_rate": 4.8387558650492446e-05,
      "loss": 1.226,
      "step": 61900
    },
    {
      "epoch": 0.004,
      "grad_norm": 1.2490339279174805,
      "learning_rate": 4.8381947935464854e-05,
      "loss": 1.2283,
      "step": 62000
    },
    {
      "epoch": 0.004,
      "eval_loss": 1.086965560913086,
      "eval_runtime": 75.4991,
      "eval_samples_per_second": 204.545,
      "eval_steps_per_second": 3.205,
      "step": 62000
    },
    {
      "epoch": 0.0042,
      "grad_norm": 1.0047966241836548,
      "learning_rate": 4.837632780219142e-05,
      "loss": 1.2006,
      "step": 62100
    },
    {
      "epoch": 0.0044,
      "grad_norm": 1.3791793584823608,
      "learning_rate": 4.837069825293596e-05,
      "loss": 1.2191,
      "step": 62200
    },
    {
      "epoch": 0.0046,
      "grad_norm": 1.4083282947540283,
      "learning_rate": 4.836505928996603e-05,
      "loss": 1.2232,
      "step": 62300
    },
    {
      "epoch": 0.0048,
      "grad_norm": 1.5420063734054565,
      "learning_rate": 4.835941091555301e-05,
      "loss": 1.2281,
      "step": 62400
    },
    {
      "epoch": 0.005,
      "grad_norm": 0.7661809921264648,
      "learning_rate": 4.8353753131972066e-05,
      "loss": 1.2262,
      "step": 62500
    },
    {
      "epoch": 0.0052,
      "grad_norm": 0.5983784198760986,
      "learning_rate": 4.8348085941502164e-05,
      "loss": 1.2203,
      "step": 62600
    },
    {
      "epoch": 0.0054,
      "grad_norm": 0.8108716011047363,
      "learning_rate": 4.8342409346426024e-05,
      "loss": 1.1536,
      "step": 62700
    },
    {
      "epoch": 0.0056,
      "grad_norm": 0.9011421203613281,
      "learning_rate": 4.83367233490302e-05,
      "loss": 1.2214,
      "step": 62800
    },
    {
      "epoch": 0.0058,
      "grad_norm": 0.6667259335517883,
      "learning_rate": 4.8331027951604995e-05,
      "loss": 1.1932,
      "step": 62900
    },
    {
      "epoch": 0.006,
      "grad_norm": 1.2265853881835938,
      "learning_rate": 4.8325323156444525e-05,
      "loss": 1.235,
      "step": 63000
    },
    {
      "epoch": 0.006,
      "eval_loss": 1.0849037170410156,
      "eval_runtime": 76.5492,
      "eval_samples_per_second": 201.74,
      "eval_steps_per_second": 3.161,
      "step": 63000
    },
    {
      "epoch": 0.0062,
      "grad_norm": 1.468518614768982,
      "learning_rate": 4.831960896584667e-05,
      "loss": 1.1886,
      "step": 63100
    },
    {
      "epoch": 0.0064,
      "grad_norm": 1.2378790378570557,
      "learning_rate": 4.831388538211312e-05,
      "loss": 1.1983,
      "step": 63200
    },
    {
      "epoch": 0.0066,
      "grad_norm": 1.2989089488983154,
      "learning_rate": 4.830815240754933e-05,
      "loss": 1.1894,
      "step": 63300
    },
    {
      "epoch": 0.0068,
      "grad_norm": 1.3696600198745728,
      "learning_rate": 4.830241004446453e-05,
      "loss": 1.1798,
      "step": 63400
    },
    {
      "epoch": 0.007,
      "grad_norm": 1.3715136051177979,
      "learning_rate": 4.829665829517175e-05,
      "loss": 1.2323,
      "step": 63500
    },
    {
      "epoch": 0.0072,
      "grad_norm": 0.7888614535331726,
      "learning_rate": 4.82908971619878e-05,
      "loss": 1.2098,
      "step": 63600
    },
    {
      "epoch": 0.0074,
      "grad_norm": 1.0456979274749756,
      "learning_rate": 4.828512664723326e-05,
      "loss": 1.21,
      "step": 63700
    },
    {
      "epoch": 0.0076,
      "grad_norm": 1.4525970220565796,
      "learning_rate": 4.827934675323248e-05,
      "loss": 1.191,
      "step": 63800
    },
    {
      "epoch": 0.0078,
      "grad_norm": 1.6751583814620972,
      "learning_rate": 4.8273557482313625e-05,
      "loss": 1.2084,
      "step": 63900
    },
    {
      "epoch": 0.008,
      "grad_norm": 0.7282904982566833,
      "learning_rate": 4.826775883680859e-05,
      "loss": 1.2376,
      "step": 64000
    },
    {
      "epoch": 0.008,
      "eval_loss": 1.0806148052215576,
      "eval_runtime": 75.7629,
      "eval_samples_per_second": 203.833,
      "eval_steps_per_second": 3.194,
      "step": 64000
    },
    {
      "epoch": 0.0082,
      "grad_norm": 1.0859407186508179,
      "learning_rate": 4.826195081905308e-05,
      "loss": 1.1807,
      "step": 64100
    },
    {
      "epoch": 0.0084,
      "grad_norm": 1.3917006254196167,
      "learning_rate": 4.8256133431386566e-05,
      "loss": 1.2012,
      "step": 64200
    },
    {
      "epoch": 0.0086,
      "grad_norm": 1.4448059797286987,
      "learning_rate": 4.825030667615228e-05,
      "loss": 1.2305,
      "step": 64300
    },
    {
      "epoch": 0.0088,
      "grad_norm": 1.0721293687820435,
      "learning_rate": 4.824447055569725e-05,
      "loss": 1.2332,
      "step": 64400
    },
    {
      "epoch": 0.009,
      "grad_norm": 0.9940403699874878,
      "learning_rate": 4.823862507237226e-05,
      "loss": 1.2096,
      "step": 64500
    },
    {
      "epoch": 0.0092,
      "grad_norm": 1.5473828315734863,
      "learning_rate": 4.823277022853187e-05,
      "loss": 1.1706,
      "step": 64600
    },
    {
      "epoch": 0.0094,
      "grad_norm": 1.3127409219741821,
      "learning_rate": 4.822690602653441e-05,
      "loss": 1.2051,
      "step": 64700
    },
    {
      "epoch": 0.0096,
      "grad_norm": 1.7532451152801514,
      "learning_rate": 4.822103246874198e-05,
      "loss": 1.196,
      "step": 64800
    },
    {
      "epoch": 0.0098,
      "grad_norm": 0.8706884980201721,
      "learning_rate": 4.8215149557520446e-05,
      "loss": 1.1862,
      "step": 64900
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.5764431953430176,
      "learning_rate": 4.8209257295239455e-05,
      "loss": 1.2257,
      "step": 65000
    },
    {
      "epoch": 0.01,
      "eval_loss": 1.0817573070526123,
      "eval_runtime": 75.771,
      "eval_samples_per_second": 203.811,
      "eval_steps_per_second": 3.194,
      "step": 65000
    },
    {
      "epoch": 0.0102,
      "grad_norm": 1.467939019203186,
      "learning_rate": 4.820335568427239e-05,
      "loss": 1.2317,
      "step": 65100
    },
    {
      "epoch": 0.0104,
      "grad_norm": 1.270477533340454,
      "learning_rate": 4.819744472699643e-05,
      "loss": 1.2308,
      "step": 65200
    },
    {
      "epoch": 0.0106,
      "grad_norm": 1.073867917060852,
      "learning_rate": 4.8191524425792526e-05,
      "loss": 1.1991,
      "step": 65300
    },
    {
      "epoch": 0.0108,
      "grad_norm": 1.0844908952713013,
      "learning_rate": 4.818559478304534e-05,
      "loss": 1.1914,
      "step": 65400
    },
    {
      "epoch": 0.011,
      "grad_norm": 1.282365322113037,
      "learning_rate": 4.817965580114335e-05,
      "loss": 1.2035,
      "step": 65500
    },
    {
      "epoch": 0.0112,
      "grad_norm": 1.3751475811004639,
      "learning_rate": 4.817370748247878e-05,
      "loss": 1.215,
      "step": 65600
    },
    {
      "epoch": 0.0114,
      "grad_norm": 1.484107255935669,
      "learning_rate": 4.81677498294476e-05,
      "loss": 1.2298,
      "step": 65700
    },
    {
      "epoch": 0.0116,
      "grad_norm": 1.326803207397461,
      "learning_rate": 4.8161782844449566e-05,
      "loss": 1.1794,
      "step": 65800
    },
    {
      "epoch": 0.0118,
      "grad_norm": 1.6823039054870605,
      "learning_rate": 4.815580652988817e-05,
      "loss": 1.1896,
      "step": 65900
    },
    {
      "epoch": 0.012,
      "grad_norm": 1.1735076904296875,
      "learning_rate": 4.8149820888170673e-05,
      "loss": 1.2089,
      "step": 66000
    },
    {
      "epoch": 0.012,
      "eval_loss": 1.081894874572754,
      "eval_runtime": 75.5115,
      "eval_samples_per_second": 204.512,
      "eval_steps_per_second": 3.205,
      "step": 66000
    },
    {
      "epoch": 0.0122,
      "grad_norm": 1.0032376050949097,
      "learning_rate": 4.814382592170808e-05,
      "loss": 1.2197,
      "step": 66100
    },
    {
      "epoch": 0.0124,
      "grad_norm": 1.2638306617736816,
      "learning_rate": 4.813782163291519e-05,
      "loss": 1.2009,
      "step": 66200
    },
    {
      "epoch": 0.0126,
      "grad_norm": 1.2233041524887085,
      "learning_rate": 4.813180802421051e-05,
      "loss": 1.2069,
      "step": 66300
    },
    {
      "epoch": 0.0128,
      "grad_norm": 0.857825756072998,
      "learning_rate": 4.812578509801632e-05,
      "loss": 1.1942,
      "step": 66400
    },
    {
      "epoch": 0.013,
      "grad_norm": 0.8879494667053223,
      "learning_rate": 4.811975285675866e-05,
      "loss": 1.1689,
      "step": 66500
    },
    {
      "epoch": 0.0132,
      "grad_norm": 1.3842177391052246,
      "learning_rate": 4.811371130286731e-05,
      "loss": 1.1941,
      "step": 66600
    },
    {
      "epoch": 0.0134,
      "grad_norm": 1.303063988685608,
      "learning_rate": 4.810766043877582e-05,
      "loss": 1.194,
      "step": 66700
    },
    {
      "epoch": 0.0136,
      "grad_norm": 1.3135032653808594,
      "learning_rate": 4.810160026692147e-05,
      "loss": 1.1536,
      "step": 66800
    },
    {
      "epoch": 0.0138,
      "grad_norm": 0.8059789538383484,
      "learning_rate": 4.809553078974528e-05,
      "loss": 1.2083,
      "step": 66900
    },
    {
      "epoch": 0.014,
      "grad_norm": 1.493458867073059,
      "learning_rate": 4.808945200969206e-05,
      "loss": 1.2031,
      "step": 67000
    },
    {
      "epoch": 0.014,
      "eval_loss": 1.0807029008865356,
      "eval_runtime": 76.4746,
      "eval_samples_per_second": 201.936,
      "eval_steps_per_second": 3.164,
      "step": 67000
    },
    {
      "epoch": 0.0142,
      "grad_norm": 0.9932582378387451,
      "learning_rate": 4.808336392921033e-05,
      "loss": 1.1932,
      "step": 67100
    },
    {
      "epoch": 0.0144,
      "grad_norm": 1.1588648557662964,
      "learning_rate": 4.807726655075237e-05,
      "loss": 1.2004,
      "step": 67200
    },
    {
      "epoch": 0.0146,
      "grad_norm": 0.713295042514801,
      "learning_rate": 4.80711598767742e-05,
      "loss": 1.1336,
      "step": 67300
    },
    {
      "epoch": 0.0148,
      "grad_norm": 1.474853277206421,
      "learning_rate": 4.80650439097356e-05,
      "loss": 1.1909,
      "step": 67400
    },
    {
      "epoch": 0.015,
      "grad_norm": 1.0433249473571777,
      "learning_rate": 4.805891865210006e-05,
      "loss": 1.1868,
      "step": 67500
    },
    {
      "epoch": 0.0152,
      "grad_norm": 0.9942545294761658,
      "learning_rate": 4.8052784106334854e-05,
      "loss": 1.1896,
      "step": 67600
    },
    {
      "epoch": 0.0154,
      "grad_norm": 0.9021309018135071,
      "learning_rate": 4.804664027491096e-05,
      "loss": 1.2265,
      "step": 67700
    },
    {
      "epoch": 0.0156,
      "grad_norm": 1.4818402528762817,
      "learning_rate": 4.8040487160303126e-05,
      "loss": 1.2149,
      "step": 67800
    },
    {
      "epoch": 0.0158,
      "grad_norm": 0.74870365858078,
      "learning_rate": 4.803432476498981e-05,
      "loss": 1.1928,
      "step": 67900
    },
    {
      "epoch": 0.016,
      "grad_norm": 0.7827754020690918,
      "learning_rate": 4.8028153091453246e-05,
      "loss": 1.2062,
      "step": 68000
    },
    {
      "epoch": 0.016,
      "eval_loss": 1.0748348236083984,
      "eval_runtime": 75.9274,
      "eval_samples_per_second": 203.392,
      "eval_steps_per_second": 3.187,
      "step": 68000
    },
    {
      "epoch": 0.0162,
      "grad_norm": 1.2250913381576538,
      "learning_rate": 4.802197214217936e-05,
      "loss": 1.1412,
      "step": 68100
    },
    {
      "epoch": 0.0164,
      "grad_norm": 1.4763202667236328,
      "learning_rate": 4.801578191965785e-05,
      "loss": 1.173,
      "step": 68200
    },
    {
      "epoch": 0.0166,
      "grad_norm": 0.8980317115783691,
      "learning_rate": 4.800958242638214e-05,
      "loss": 1.1801,
      "step": 68300
    },
    {
      "epoch": 0.0168,
      "grad_norm": 1.2781926393508911,
      "learning_rate": 4.800337366484937e-05,
      "loss": 1.2012,
      "step": 68400
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.8269230723381042,
      "learning_rate": 4.799715563756045e-05,
      "loss": 1.2319,
      "step": 68500
    },
    {
      "epoch": 0.0172,
      "grad_norm": 0.633537232875824,
      "learning_rate": 4.7990928347019984e-05,
      "loss": 1.2058,
      "step": 68600
    },
    {
      "epoch": 0.0174,
      "grad_norm": 1.39164400100708,
      "learning_rate": 4.7984691795736324e-05,
      "loss": 1.2066,
      "step": 68700
    },
    {
      "epoch": 0.0176,
      "grad_norm": 1.5555399656295776,
      "learning_rate": 4.7978445986221566e-05,
      "loss": 1.2088,
      "step": 68800
    },
    {
      "epoch": 0.0178,
      "grad_norm": 1.2505526542663574,
      "learning_rate": 4.7972190920991514e-05,
      "loss": 1.203,
      "step": 68900
    },
    {
      "epoch": 0.018,
      "grad_norm": 1.5910965204238892,
      "learning_rate": 4.7965926602565705e-05,
      "loss": 1.1877,
      "step": 69000
    },
    {
      "epoch": 0.018,
      "eval_loss": 1.0717748403549194,
      "eval_runtime": 75.7519,
      "eval_samples_per_second": 203.863,
      "eval_steps_per_second": 3.195,
      "step": 69000
    },
    {
      "epoch": 0.0182,
      "grad_norm": 0.7755507826805115,
      "learning_rate": 4.79596530334674e-05,
      "loss": 1.1864,
      "step": 69100
    },
    {
      "epoch": 0.0184,
      "grad_norm": 1.2141857147216797,
      "learning_rate": 4.79533702162236e-05,
      "loss": 1.1849,
      "step": 69200
    },
    {
      "epoch": 0.0186,
      "grad_norm": 1.399149775505066,
      "learning_rate": 4.794707815336503e-05,
      "loss": 1.1702,
      "step": 69300
    },
    {
      "epoch": 0.0188,
      "grad_norm": 1.3381379842758179,
      "learning_rate": 4.7940776847426114e-05,
      "loss": 1.2052,
      "step": 69400
    },
    {
      "epoch": 0.019,
      "grad_norm": 1.347264051437378,
      "learning_rate": 4.793446630094503e-05,
      "loss": 1.1998,
      "step": 69500
    },
    {
      "epoch": 0.0192,
      "grad_norm": 1.2072675228118896,
      "learning_rate": 4.792814651646367e-05,
      "loss": 1.2127,
      "step": 69600
    },
    {
      "epoch": 0.0194,
      "grad_norm": 0.7959086894989014,
      "learning_rate": 4.792181749652763e-05,
      "loss": 1.1474,
      "step": 69700
    },
    {
      "epoch": 0.0196,
      "grad_norm": 1.0272786617279053,
      "learning_rate": 4.7915479243686244e-05,
      "loss": 1.2033,
      "step": 69800
    },
    {
      "epoch": 0.0198,
      "grad_norm": 0.8985835909843445,
      "learning_rate": 4.790913176049256e-05,
      "loss": 1.1942,
      "step": 69900
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.676177442073822,
      "learning_rate": 4.7902775049503346e-05,
      "loss": 1.1883,
      "step": 70000
    },
    {
      "epoch": 0.02,
      "eval_loss": 1.0733578205108643,
      "eval_runtime": 75.8186,
      "eval_samples_per_second": 203.684,
      "eval_steps_per_second": 3.192,
      "step": 70000
    },
    {
      "epoch": 0.0202,
      "grad_norm": 0.7747570872306824,
      "learning_rate": 4.789640911327907e-05,
      "loss": 1.1883,
      "step": 70100
    },
    {
      "epoch": 0.0204,
      "grad_norm": 1.1808815002441406,
      "learning_rate": 4.789003395438395e-05,
      "loss": 1.1932,
      "step": 70200
    },
    {
      "epoch": 0.0206,
      "grad_norm": 1.29102623462677,
      "learning_rate": 4.7883649575385894e-05,
      "loss": 1.1654,
      "step": 70300
    },
    {
      "epoch": 0.0208,
      "grad_norm": 0.8418052792549133,
      "learning_rate": 4.7877255978856516e-05,
      "loss": 1.1702,
      "step": 70400
    },
    {
      "epoch": 0.021,
      "grad_norm": 1.1825124025344849,
      "learning_rate": 4.787085316737116e-05,
      "loss": 1.1654,
      "step": 70500
    },
    {
      "epoch": 0.0212,
      "grad_norm": 1.301255702972412,
      "learning_rate": 4.78644411435089e-05,
      "loss": 1.2505,
      "step": 70600
    },
    {
      "epoch": 0.0214,
      "grad_norm": 1.2461885213851929,
      "learning_rate": 4.785801990985247e-05,
      "loss": 1.1907,
      "step": 70700
    },
    {
      "epoch": 0.0216,
      "grad_norm": 1.2957687377929688,
      "learning_rate": 4.7851589468988364e-05,
      "loss": 1.2244,
      "step": 70800
    },
    {
      "epoch": 0.0218,
      "grad_norm": 1.9566733837127686,
      "learning_rate": 4.7845149823506744e-05,
      "loss": 1.1688,
      "step": 70900
    },
    {
      "epoch": 0.022,
      "grad_norm": 0.9749345779418945,
      "learning_rate": 4.783870097600151e-05,
      "loss": 1.2178,
      "step": 71000
    },
    {
      "epoch": 0.022,
      "eval_loss": 1.076163649559021,
      "eval_runtime": 75.78,
      "eval_samples_per_second": 203.787,
      "eval_steps_per_second": 3.193,
      "step": 71000
    },
    {
      "epoch": 0.0222,
      "grad_norm": 1.1278064250946045,
      "learning_rate": 4.783224292907025e-05,
      "loss": 1.1899,
      "step": 71100
    },
    {
      "epoch": 0.0224,
      "grad_norm": 1.023586392402649,
      "learning_rate": 4.7825775685314277e-05,
      "loss": 1.1967,
      "step": 71200
    },
    {
      "epoch": 0.0226,
      "grad_norm": 1.2925764322280884,
      "learning_rate": 4.781929924733858e-05,
      "loss": 1.2154,
      "step": 71300
    },
    {
      "epoch": 0.0228,
      "grad_norm": 0.8185212016105652,
      "learning_rate": 4.781281361775188e-05,
      "loss": 1.195,
      "step": 71400
    },
    {
      "epoch": 0.023,
      "grad_norm": 0.8742319941520691,
      "learning_rate": 4.7806318799166586e-05,
      "loss": 1.1746,
      "step": 71500
    },
    {
      "epoch": 0.0232,
      "grad_norm": 1.2598085403442383,
      "learning_rate": 4.77998147941988e-05,
      "loss": 1.1781,
      "step": 71600
    },
    {
      "epoch": 0.0234,
      "grad_norm": 1.2358424663543701,
      "learning_rate": 4.7793301605468344e-05,
      "loss": 1.2345,
      "step": 71700
    },
    {
      "epoch": 0.0236,
      "grad_norm": 1.2528828382492065,
      "learning_rate": 4.778677923559872e-05,
      "loss": 1.2109,
      "step": 71800
    },
    {
      "epoch": 0.0238,
      "grad_norm": 0.5741105675697327,
      "learning_rate": 4.778024768721716e-05,
      "loss": 1.2076,
      "step": 71900
    },
    {
      "epoch": 0.024,
      "grad_norm": 1.3200185298919678,
      "learning_rate": 4.7773706962954545e-05,
      "loss": 1.2124,
      "step": 72000
    },
    {
      "epoch": 0.024,
      "eval_loss": 1.0720120668411255,
      "eval_runtime": 76.4471,
      "eval_samples_per_second": 202.009,
      "eval_steps_per_second": 3.166,
      "step": 72000
    },
    {
      "epoch": 0.0242,
      "grad_norm": 1.4096635580062866,
      "learning_rate": 4.776715706544549e-05,
      "loss": 1.2283,
      "step": 72100
    },
    {
      "epoch": 0.0244,
      "grad_norm": 1.5862853527069092,
      "learning_rate": 4.7760597997328295e-05,
      "loss": 1.1927,
      "step": 72200
    },
    {
      "epoch": 0.0246,
      "grad_norm": 1.3406593799591064,
      "learning_rate": 4.7754029761244945e-05,
      "loss": 1.1709,
      "step": 72300
    },
    {
      "epoch": 0.0248,
      "grad_norm": 1.189676284790039,
      "learning_rate": 4.774745235984113e-05,
      "loss": 1.2176,
      "step": 72400
    },
    {
      "epoch": 0.025,
      "grad_norm": 1.4424960613250732,
      "learning_rate": 4.7740865795766224e-05,
      "loss": 1.2212,
      "step": 72500
    },
    {
      "epoch": 0.0252,
      "grad_norm": 0.7654275298118591,
      "learning_rate": 4.77342700716733e-05,
      "loss": 1.2196,
      "step": 72600
    },
    {
      "epoch": 0.0254,
      "grad_norm": 1.1389504671096802,
      "learning_rate": 4.772766519021911e-05,
      "loss": 1.1937,
      "step": 72700
    },
    {
      "epoch": 0.0256,
      "grad_norm": 1.1204986572265625,
      "learning_rate": 4.772105115406409e-05,
      "loss": 1.1623,
      "step": 72800
    },
    {
      "epoch": 0.0258,
      "grad_norm": 1.2594044208526611,
      "learning_rate": 4.771442796587239e-05,
      "loss": 1.2127,
      "step": 72900
    },
    {
      "epoch": 0.026,
      "grad_norm": 1.3245586156845093,
      "learning_rate": 4.770779562831181e-05,
      "loss": 1.1919,
      "step": 73000
    },
    {
      "epoch": 0.026,
      "eval_loss": 1.0672369003295898,
      "eval_runtime": 76.1554,
      "eval_samples_per_second": 202.783,
      "eval_steps_per_second": 3.178,
      "step": 73000
    },
    {
      "epoch": 0.0262,
      "grad_norm": 0.813410222530365,
      "learning_rate": 4.770115414405388e-05,
      "loss": 1.224,
      "step": 73100
    },
    {
      "epoch": 0.0264,
      "grad_norm": 1.3278921842575073,
      "learning_rate": 4.769450351577377e-05,
      "loss": 1.2304,
      "step": 73200
    },
    {
      "epoch": 0.0266,
      "grad_norm": 1.1676868200302124,
      "learning_rate": 4.768784374615036e-05,
      "loss": 1.2144,
      "step": 73300
    },
    {
      "epoch": 0.0268,
      "grad_norm": 1.2270694971084595,
      "learning_rate": 4.7681174837866196e-05,
      "loss": 1.2584,
      "step": 73400
    },
    {
      "epoch": 0.027,
      "grad_norm": 1.5095762014389038,
      "learning_rate": 4.7674496793607525e-05,
      "loss": 1.1892,
      "step": 73500
    },
    {
      "epoch": 0.0272,
      "grad_norm": 1.0437262058258057,
      "learning_rate": 4.766780961606426e-05,
      "loss": 1.2003,
      "step": 73600
    },
    {
      "epoch": 0.0274,
      "grad_norm": 0.6719204187393188,
      "learning_rate": 4.766111330793e-05,
      "loss": 1.2145,
      "step": 73700
    },
    {
      "epoch": 0.0276,
      "grad_norm": 0.7166513204574585,
      "learning_rate": 4.765440787190199e-05,
      "loss": 1.2463,
      "step": 73800
    },
    {
      "epoch": 0.0278,
      "grad_norm": 0.9765319228172302,
      "learning_rate": 4.7647693310681204e-05,
      "loss": 1.2095,
      "step": 73900
    },
    {
      "epoch": 0.028,
      "grad_norm": 1.298134446144104,
      "learning_rate": 4.7640969626972265e-05,
      "loss": 1.2089,
      "step": 74000
    },
    {
      "epoch": 0.028,
      "eval_loss": 1.0727263689041138,
      "eval_runtime": 76.0016,
      "eval_samples_per_second": 203.193,
      "eval_steps_per_second": 3.184,
      "step": 74000
    },
    {
      "epoch": 0.0282,
      "grad_norm": 1.1968761682510376,
      "learning_rate": 4.763423682348347e-05,
      "loss": 1.1719,
      "step": 74100
    },
    {
      "epoch": 0.0284,
      "grad_norm": 1.1887174844741821,
      "learning_rate": 4.762749490292678e-05,
      "loss": 1.1961,
      "step": 74200
    },
    {
      "epoch": 0.0286,
      "grad_norm": 1.4029371738433838,
      "learning_rate": 4.762074386801786e-05,
      "loss": 1.1609,
      "step": 74300
    },
    {
      "epoch": 0.0288,
      "grad_norm": 1.3785122632980347,
      "learning_rate": 4.761398372147601e-05,
      "loss": 1.1931,
      "step": 74400
    },
    {
      "epoch": 0.029,
      "grad_norm": 1.1329565048217773,
      "learning_rate": 4.760721446602422e-05,
      "loss": 1.2107,
      "step": 74500
    },
    {
      "epoch": 0.0292,
      "grad_norm": 1.2266113758087158,
      "learning_rate": 4.760043610438915e-05,
      "loss": 1.1708,
      "step": 74600
    },
    {
      "epoch": 0.0294,
      "grad_norm": 1.2526196241378784,
      "learning_rate": 4.759364863930112e-05,
      "loss": 1.2073,
      "step": 74700
    },
    {
      "epoch": 0.0296,
      "grad_norm": 1.3959336280822754,
      "learning_rate": 4.7586852073494113e-05,
      "loss": 1.1995,
      "step": 74800
    },
    {
      "epoch": 0.0298,
      "grad_norm": 1.2470852136611938,
      "learning_rate": 4.7580046409705806e-05,
      "loss": 1.2227,
      "step": 74900
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0915220975875854,
      "learning_rate": 4.7573231650677495e-05,
      "loss": 1.1955,
      "step": 75000
    },
    {
      "epoch": 0.03,
      "eval_loss": 1.0732471942901611,
      "eval_runtime": 75.8455,
      "eval_samples_per_second": 203.611,
      "eval_steps_per_second": 3.191,
      "step": 75000
    },
    {
      "epoch": 0.0302,
      "grad_norm": 1.4608689546585083,
      "learning_rate": 4.756640779915418e-05,
      "loss": 1.1588,
      "step": 75100
    },
    {
      "epoch": 0.0304,
      "grad_norm": 1.2811450958251953,
      "learning_rate": 4.755957485788449e-05,
      "loss": 1.1722,
      "step": 75200
    },
    {
      "epoch": 0.0306,
      "grad_norm": 1.3260635137557983,
      "learning_rate": 4.755273282962075e-05,
      "loss": 1.2238,
      "step": 75300
    },
    {
      "epoch": 0.0308,
      "grad_norm": 1.219567060470581,
      "learning_rate": 4.754588171711893e-05,
      "loss": 1.2718,
      "step": 75400
    },
    {
      "epoch": 0.031,
      "grad_norm": 1.368947982788086,
      "learning_rate": 4.753902152313865e-05,
      "loss": 1.1998,
      "step": 75500
    },
    {
      "epoch": 0.0312,
      "grad_norm": 1.3364487886428833,
      "learning_rate": 4.7532152250443194e-05,
      "loss": 1.2043,
      "step": 75600
    },
    {
      "epoch": 0.0314,
      "grad_norm": 1.348130702972412,
      "learning_rate": 4.7525273901799506e-05,
      "loss": 1.1834,
      "step": 75700
    },
    {
      "epoch": 0.0316,
      "grad_norm": 1.1862202882766724,
      "learning_rate": 4.751838647997818e-05,
      "loss": 1.2061,
      "step": 75800
    },
    {
      "epoch": 0.0318,
      "grad_norm": 0.7471460103988647,
      "learning_rate": 4.7511489987753476e-05,
      "loss": 1.1866,
      "step": 75900
    },
    {
      "epoch": 0.032,
      "grad_norm": 1.4090434312820435,
      "learning_rate": 4.75045844279033e-05,
      "loss": 1.1878,
      "step": 76000
    },
    {
      "epoch": 0.032,
      "eval_loss": 1.0745600461959839,
      "eval_runtime": 76.306,
      "eval_samples_per_second": 202.382,
      "eval_steps_per_second": 3.171,
      "step": 76000
    },
    {
      "epoch": 0.0322,
      "grad_norm": 1.591199278831482,
      "learning_rate": 4.7497669803209204e-05,
      "loss": 1.1824,
      "step": 76100
    },
    {
      "epoch": 0.0324,
      "grad_norm": 0.8325656652450562,
      "learning_rate": 4.749074611645641e-05,
      "loss": 1.1723,
      "step": 76200
    },
    {
      "epoch": 0.0326,
      "grad_norm": 0.8313425779342651,
      "learning_rate": 4.748381337043376e-05,
      "loss": 1.2033,
      "step": 76300
    },
    {
      "epoch": 0.0328,
      "grad_norm": 1.4721826314926147,
      "learning_rate": 4.7476871567933775e-05,
      "loss": 1.1988,
      "step": 76400
    },
    {
      "epoch": 0.033,
      "grad_norm": 0.9206506013870239,
      "learning_rate": 4.746992071175261e-05,
      "loss": 1.1844,
      "step": 76500
    },
    {
      "epoch": 0.0332,
      "grad_norm": 1.0820422172546387,
      "learning_rate": 4.746296080469007e-05,
      "loss": 1.1902,
      "step": 76600
    },
    {
      "epoch": 0.0334,
      "grad_norm": 0.9319769144058228,
      "learning_rate": 4.745599184954961e-05,
      "loss": 1.2031,
      "step": 76700
    },
    {
      "epoch": 0.0336,
      "grad_norm": 1.1914819478988647,
      "learning_rate": 4.744901384913831e-05,
      "loss": 1.166,
      "step": 76800
    },
    {
      "epoch": 0.0338,
      "grad_norm": 0.8440219163894653,
      "learning_rate": 4.7442026806266914e-05,
      "loss": 1.1493,
      "step": 76900
    },
    {
      "epoch": 0.034,
      "grad_norm": 1.001518726348877,
      "learning_rate": 4.7435030723749813e-05,
      "loss": 1.1835,
      "step": 77000
    },
    {
      "epoch": 0.034,
      "eval_loss": 1.0681182146072388,
      "eval_runtime": 76.1301,
      "eval_samples_per_second": 202.85,
      "eval_steps_per_second": 3.179,
      "step": 77000
    },
    {
      "epoch": 0.0342,
      "grad_norm": 1.347307562828064,
      "learning_rate": 4.742802560440501e-05,
      "loss": 1.2213,
      "step": 77100
    },
    {
      "epoch": 0.0344,
      "grad_norm": 1.1187894344329834,
      "learning_rate": 4.742101145105419e-05,
      "loss": 1.1949,
      "step": 77200
    },
    {
      "epoch": 0.0346,
      "grad_norm": 0.8066337704658508,
      "learning_rate": 4.741398826652262e-05,
      "loss": 1.2008,
      "step": 77300
    },
    {
      "epoch": 0.0348,
      "grad_norm": 1.0704104900360107,
      "learning_rate": 4.740695605363927e-05,
      "loss": 1.1804,
      "step": 77400
    },
    {
      "epoch": 0.035,
      "grad_norm": 1.104546070098877,
      "learning_rate": 4.7399914815236704e-05,
      "loss": 1.2232,
      "step": 77500
    },
    {
      "epoch": 0.0352,
      "grad_norm": 1.1818023920059204,
      "learning_rate": 4.7392864554151126e-05,
      "loss": 1.2062,
      "step": 77600
    },
    {
      "epoch": 0.0354,
      "grad_norm": 1.3036936521530151,
      "learning_rate": 4.738580527322238e-05,
      "loss": 1.1905,
      "step": 77700
    },
    {
      "epoch": 0.0356,
      "grad_norm": 1.1169214248657227,
      "learning_rate": 4.737873697529395e-05,
      "loss": 1.1759,
      "step": 77800
    },
    {
      "epoch": 0.0358,
      "grad_norm": 0.8993995189666748,
      "learning_rate": 4.7371659663212934e-05,
      "loss": 1.1677,
      "step": 77900
    },
    {
      "epoch": 0.036,
      "grad_norm": 1.258747935295105,
      "learning_rate": 4.736457333983009e-05,
      "loss": 1.2166,
      "step": 78000
    },
    {
      "epoch": 0.036,
      "eval_loss": 1.0701075792312622,
      "eval_runtime": 75.9209,
      "eval_samples_per_second": 203.409,
      "eval_steps_per_second": 3.188,
      "step": 78000
    },
    {
      "epoch": 0.0362,
      "grad_norm": 1.269551396369934,
      "learning_rate": 4.735747800799978e-05,
      "loss": 1.2185,
      "step": 78100
    },
    {
      "epoch": 0.0364,
      "grad_norm": 1.3016119003295898,
      "learning_rate": 4.735037367057999e-05,
      "loss": 1.182,
      "step": 78200
    },
    {
      "epoch": 0.0366,
      "grad_norm": 1.1407994031906128,
      "learning_rate": 4.734326033043238e-05,
      "loss": 1.2102,
      "step": 78300
    },
    {
      "epoch": 0.0368,
      "grad_norm": 1.1673243045806885,
      "learning_rate": 4.7336137990422164e-05,
      "loss": 1.1902,
      "step": 78400
    },
    {
      "epoch": 0.037,
      "grad_norm": 0.9958565831184387,
      "learning_rate": 4.732900665341824e-05,
      "loss": 1.2112,
      "step": 78500
    },
    {
      "epoch": 0.0372,
      "grad_norm": 0.6769017577171326,
      "learning_rate": 4.732186632229311e-05,
      "loss": 1.1933,
      "step": 78600
    },
    {
      "epoch": 0.0374,
      "grad_norm": 0.6430754661560059,
      "learning_rate": 4.7314716999922896e-05,
      "loss": 1.1851,
      "step": 78700
    },
    {
      "epoch": 0.0376,
      "grad_norm": 1.103901982307434,
      "learning_rate": 4.7307558689187334e-05,
      "loss": 1.2234,
      "step": 78800
    },
    {
      "epoch": 0.0378,
      "grad_norm": 1.143268346786499,
      "learning_rate": 4.73003913929698e-05,
      "loss": 1.1609,
      "step": 78900
    },
    {
      "epoch": 0.038,
      "grad_norm": 1.2543673515319824,
      "learning_rate": 4.7293215114157284e-05,
      "loss": 1.1862,
      "step": 79000
    },
    {
      "epoch": 0.038,
      "eval_loss": 1.075058937072754,
      "eval_runtime": 77.0151,
      "eval_samples_per_second": 200.519,
      "eval_steps_per_second": 3.142,
      "step": 79000
    },
    {
      "epoch": 0.0382,
      "grad_norm": 1.0687370300292969,
      "learning_rate": 4.728602985564039e-05,
      "loss": 1.1878,
      "step": 79100
    },
    {
      "epoch": 0.0384,
      "grad_norm": 1.230892539024353,
      "learning_rate": 4.727883562031333e-05,
      "loss": 1.1561,
      "step": 79200
    },
    {
      "epoch": 0.0386,
      "grad_norm": 1.0465742349624634,
      "learning_rate": 4.727163241107395e-05,
      "loss": 1.1677,
      "step": 79300
    },
    {
      "epoch": 0.0388,
      "grad_norm": 0.6553373336791992,
      "learning_rate": 4.726442023082369e-05,
      "loss": 1.2035,
      "step": 79400
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.9347487688064575,
      "learning_rate": 4.725719908246763e-05,
      "loss": 1.2116,
      "step": 79500
    },
    {
      "epoch": 0.0392,
      "grad_norm": 1.0414602756500244,
      "learning_rate": 4.724996896891445e-05,
      "loss": 1.2237,
      "step": 79600
    },
    {
      "epoch": 0.0394,
      "grad_norm": 1.1857577562332153,
      "learning_rate": 4.724272989307642e-05,
      "loss": 1.1653,
      "step": 79700
    },
    {
      "epoch": 0.0396,
      "grad_norm": 1.3574703931808472,
      "learning_rate": 4.7235481857869446e-05,
      "loss": 1.2176,
      "step": 79800
    },
    {
      "epoch": 0.0398,
      "grad_norm": 1.3188464641571045,
      "learning_rate": 4.722822486621304e-05,
      "loss": 1.1872,
      "step": 79900
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.1241661310195923,
      "learning_rate": 4.722095892103032e-05,
      "loss": 1.1926,
      "step": 80000
    },
    {
      "epoch": 0.04,
      "eval_loss": 1.0716365575790405,
      "eval_runtime": 76.5906,
      "eval_samples_per_second": 201.63,
      "eval_steps_per_second": 3.16,
      "step": 80000
    },
    {
      "epoch": 0.0402,
      "grad_norm": 0.9855309724807739,
      "learning_rate": 4.721368402524801e-05,
      "loss": 1.1427,
      "step": 80100
    },
    {
      "epoch": 0.0404,
      "grad_norm": 0.6458451151847839,
      "learning_rate": 4.720640018179642e-05,
      "loss": 1.2032,
      "step": 80200
    },
    {
      "epoch": 0.0406,
      "grad_norm": 1.1878600120544434,
      "learning_rate": 4.71991073936095e-05,
      "loss": 1.1879,
      "step": 80300
    },
    {
      "epoch": 0.0408,
      "grad_norm": 0.8349748253822327,
      "learning_rate": 4.719180566362477e-05,
      "loss": 1.1355,
      "step": 80400
    },
    {
      "epoch": 0.041,
      "grad_norm": 1.1937662363052368,
      "learning_rate": 4.7184494994783376e-05,
      "loss": 1.2018,
      "step": 80500
    },
    {
      "epoch": 0.0412,
      "grad_norm": 1.3011997938156128,
      "learning_rate": 4.7177175390030054e-05,
      "loss": 1.1697,
      "step": 80600
    },
    {
      "epoch": 0.0414,
      "grad_norm": 1.1909871101379395,
      "learning_rate": 4.7169846852313137e-05,
      "loss": 1.2126,
      "step": 80700
    },
    {
      "epoch": 0.0416,
      "grad_norm": 1.5078299045562744,
      "learning_rate": 4.7162509384584555e-05,
      "loss": 1.1983,
      "step": 80800
    },
    {
      "epoch": 0.0418,
      "grad_norm": 1.3141160011291504,
      "learning_rate": 4.715516298979984e-05,
      "loss": 1.2118,
      "step": 80900
    },
    {
      "epoch": 0.042,
      "grad_norm": 1.3565207719802856,
      "learning_rate": 4.714780767091813e-05,
      "loss": 1.2054,
      "step": 81000
    },
    {
      "epoch": 0.042,
      "eval_loss": 1.0669591426849365,
      "eval_runtime": 75.959,
      "eval_samples_per_second": 203.307,
      "eval_steps_per_second": 3.186,
      "step": 81000
    },
    {
      "epoch": 0.0422,
      "grad_norm": 1.3890715837478638,
      "learning_rate": 4.714044343090214e-05,
      "loss": 1.1917,
      "step": 81100
    },
    {
      "epoch": 0.0424,
      "grad_norm": 0.9992968440055847,
      "learning_rate": 4.713307027271817e-05,
      "loss": 1.1869,
      "step": 81200
    },
    {
      "epoch": 0.0426,
      "grad_norm": 0.8716880679130554,
      "learning_rate": 4.712568819933615e-05,
      "loss": 1.1941,
      "step": 81300
    },
    {
      "epoch": 0.0428,
      "grad_norm": 1.243594765663147,
      "learning_rate": 4.711829721372957e-05,
      "loss": 1.1667,
      "step": 81400
    },
    {
      "epoch": 0.043,
      "grad_norm": 0.6567416191101074,
      "learning_rate": 4.7110897318875516e-05,
      "loss": 1.2105,
      "step": 81500
    },
    {
      "epoch": 0.0432,
      "grad_norm": 0.5886017084121704,
      "learning_rate": 4.710348851775467e-05,
      "loss": 1.1867,
      "step": 81600
    },
    {
      "epoch": 0.0434,
      "grad_norm": 0.6296970248222351,
      "learning_rate": 4.709607081335129e-05,
      "loss": 1.1702,
      "step": 81700
    },
    {
      "epoch": 0.0436,
      "grad_norm": 0.9896938800811768,
      "learning_rate": 4.7088644208653226e-05,
      "loss": 1.1628,
      "step": 81800
    },
    {
      "epoch": 0.0438,
      "grad_norm": 0.7199723720550537,
      "learning_rate": 4.708120870665192e-05,
      "loss": 1.1792,
      "step": 81900
    },
    {
      "epoch": 0.044,
      "grad_norm": 1.3148512840270996,
      "learning_rate": 4.707376431034238e-05,
      "loss": 1.185,
      "step": 82000
    },
    {
      "epoch": 0.044,
      "eval_loss": 1.0709099769592285,
      "eval_runtime": 75.8635,
      "eval_samples_per_second": 203.563,
      "eval_steps_per_second": 3.19,
      "step": 82000
    },
    {
      "epoch": 0.0442,
      "grad_norm": 0.6634069681167603,
      "learning_rate": 4.706631102272323e-05,
      "loss": 1.1633,
      "step": 82100
    },
    {
      "epoch": 0.0444,
      "grad_norm": 1.3700015544891357,
      "learning_rate": 4.705884884679663e-05,
      "loss": 1.1712,
      "step": 82200
    },
    {
      "epoch": 0.0446,
      "grad_norm": 1.1697111129760742,
      "learning_rate": 4.705137778556835e-05,
      "loss": 1.1902,
      "step": 82300
    },
    {
      "epoch": 0.0448,
      "grad_norm": 1.4012552499771118,
      "learning_rate": 4.7043897842047735e-05,
      "loss": 1.216,
      "step": 82400
    },
    {
      "epoch": 0.045,
      "grad_norm": 1.2128801345825195,
      "learning_rate": 4.7036409019247706e-05,
      "loss": 1.2169,
      "step": 82500
    },
    {
      "epoch": 0.0452,
      "grad_norm": 1.435831904411316,
      "learning_rate": 4.7028911320184766e-05,
      "loss": 1.1839,
      "step": 82600
    },
    {
      "epoch": 0.0454,
      "grad_norm": 0.8126788139343262,
      "learning_rate": 4.702140474787898e-05,
      "loss": 1.1652,
      "step": 82700
    },
    {
      "epoch": 0.0456,
      "grad_norm": 1.1946730613708496,
      "learning_rate": 4.7013889305353985e-05,
      "loss": 1.2277,
      "step": 82800
    },
    {
      "epoch": 0.0458,
      "grad_norm": 0.6007882952690125,
      "learning_rate": 4.700636499563702e-05,
      "loss": 1.1586,
      "step": 82900
    },
    {
      "epoch": 0.046,
      "grad_norm": 0.6656979322433472,
      "learning_rate": 4.699883182175886e-05,
      "loss": 1.1902,
      "step": 83000
    },
    {
      "epoch": 0.046,
      "eval_loss": 1.072899580001831,
      "eval_runtime": 77.2342,
      "eval_samples_per_second": 199.95,
      "eval_steps_per_second": 3.133,
      "step": 83000
    },
    {
      "epoch": 0.0462,
      "grad_norm": 1.5463351011276245,
      "learning_rate": 4.6991289786753876e-05,
      "loss": 1.1988,
      "step": 83100
    },
    {
      "epoch": 0.0464,
      "grad_norm": 1.202536940574646,
      "learning_rate": 4.698373889366e-05,
      "loss": 1.1983,
      "step": 83200
    },
    {
      "epoch": 0.0466,
      "grad_norm": 0.7186087369918823,
      "learning_rate": 4.6976179145518724e-05,
      "loss": 1.15,
      "step": 83300
    },
    {
      "epoch": 0.0468,
      "grad_norm": 1.3059759140014648,
      "learning_rate": 4.6968610545375116e-05,
      "loss": 1.1896,
      "step": 83400
    },
    {
      "epoch": 0.047,
      "grad_norm": 0.8425590991973877,
      "learning_rate": 4.696103309627781e-05,
      "loss": 1.1747,
      "step": 83500
    },
    {
      "epoch": 0.0472,
      "grad_norm": 1.1745330095291138,
      "learning_rate": 4.695344680127899e-05,
      "loss": 1.1591,
      "step": 83600
    },
    {
      "epoch": 0.0474,
      "grad_norm": 0.6429449915885925,
      "learning_rate": 4.694585166343443e-05,
      "loss": 1.1893,
      "step": 83700
    },
    {
      "epoch": 0.0476,
      "grad_norm": 1.5323892831802368,
      "learning_rate": 4.693824768580344e-05,
      "loss": 1.2037,
      "step": 83800
    },
    {
      "epoch": 0.0478,
      "grad_norm": 1.2719688415527344,
      "learning_rate": 4.693063487144891e-05,
      "loss": 1.191,
      "step": 83900
    },
    {
      "epoch": 0.048,
      "grad_norm": 1.1735507249832153,
      "learning_rate": 4.6923013223437276e-05,
      "loss": 1.1904,
      "step": 84000
    },
    {
      "epoch": 0.048,
      "eval_loss": 1.0721956491470337,
      "eval_runtime": 76.3531,
      "eval_samples_per_second": 202.258,
      "eval_steps_per_second": 3.169,
      "step": 84000
    },
    {
      "epoch": 0.0482,
      "grad_norm": 1.1949045658111572,
      "learning_rate": 4.6915382744838536e-05,
      "loss": 1.1507,
      "step": 84100
    },
    {
      "epoch": 0.0484,
      "grad_norm": 1.074385404586792,
      "learning_rate": 4.690774343872625e-05,
      "loss": 1.1504,
      "step": 84200
    },
    {
      "epoch": 0.0486,
      "grad_norm": 1.0720473527908325,
      "learning_rate": 4.690009530817753e-05,
      "loss": 1.1758,
      "step": 84300
    },
    {
      "epoch": 0.0488,
      "grad_norm": 1.0596733093261719,
      "learning_rate": 4.6892438356273024e-05,
      "loss": 1.1778,
      "step": 84400
    },
    {
      "epoch": 0.049,
      "grad_norm": 1.2753647565841675,
      "learning_rate": 4.688477258609698e-05,
      "loss": 1.1827,
      "step": 84500
    },
    {
      "epoch": 0.0492,
      "grad_norm": 1.2803727388381958,
      "learning_rate": 4.687709800073715e-05,
      "loss": 1.164,
      "step": 84600
    },
    {
      "epoch": 0.0494,
      "grad_norm": 1.4797301292419434,
      "learning_rate": 4.6869414603284865e-05,
      "loss": 1.1748,
      "step": 84700
    },
    {
      "epoch": 0.0496,
      "grad_norm": 1.1455540657043457,
      "learning_rate": 4.6861722396834996e-05,
      "loss": 1.1918,
      "step": 84800
    },
    {
      "epoch": 0.0498,
      "grad_norm": 1.1636658906936646,
      "learning_rate": 4.6854021384485954e-05,
      "loss": 1.208,
      "step": 84900
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.267817735671997,
      "learning_rate": 4.684631156933971e-05,
      "loss": 1.1679,
      "step": 85000
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.0709259510040283,
      "eval_runtime": 76.3729,
      "eval_samples_per_second": 202.205,
      "eval_steps_per_second": 3.169,
      "step": 85000
    },
    {
      "epoch": 0.0502,
      "grad_norm": 1.5029271841049194,
      "learning_rate": 4.683859295450178e-05,
      "loss": 1.1459,
      "step": 85100
    },
    {
      "epoch": 0.0504,
      "grad_norm": 0.7328454256057739,
      "learning_rate": 4.683086554308123e-05,
      "loss": 1.1861,
      "step": 85200
    },
    {
      "epoch": 0.0506,
      "grad_norm": 1.114625334739685,
      "learning_rate": 4.682312933819063e-05,
      "loss": 1.1609,
      "step": 85300
    },
    {
      "epoch": 0.0508,
      "grad_norm": 1.4052484035491943,
      "learning_rate": 4.681538434294615e-05,
      "loss": 1.1534,
      "step": 85400
    },
    {
      "epoch": 0.051,
      "grad_norm": 0.7364799976348877,
      "learning_rate": 4.6807630560467475e-05,
      "loss": 1.1973,
      "step": 85500
    },
    {
      "epoch": 0.0512,
      "grad_norm": 0.701787531375885,
      "learning_rate": 4.679986799387781e-05,
      "loss": 1.1743,
      "step": 85600
    },
    {
      "epoch": 0.0514,
      "grad_norm": 1.331763744354248,
      "learning_rate": 4.679209664630393e-05,
      "loss": 1.1516,
      "step": 85700
    },
    {
      "epoch": 0.0516,
      "grad_norm": 0.9733197689056396,
      "learning_rate": 4.6784316520876124e-05,
      "loss": 1.1646,
      "step": 85800
    },
    {
      "epoch": 0.0518,
      "grad_norm": 0.7415294051170349,
      "learning_rate": 4.677652762072823e-05,
      "loss": 1.2005,
      "step": 85900
    },
    {
      "epoch": 0.052,
      "grad_norm": 1.1027395725250244,
      "learning_rate": 4.6768729948997606e-05,
      "loss": 1.1601,
      "step": 86000
    },
    {
      "epoch": 0.052,
      "eval_loss": 1.0681675672531128,
      "eval_runtime": 76.2441,
      "eval_samples_per_second": 202.547,
      "eval_steps_per_second": 3.174,
      "step": 86000
    },
    {
      "epoch": 0.0522,
      "grad_norm": 0.7156331539154053,
      "learning_rate": 4.676092350882517e-05,
      "loss": 1.1854,
      "step": 86100
    },
    {
      "epoch": 0.0524,
      "grad_norm": 1.3423713445663452,
      "learning_rate": 4.675310830335534e-05,
      "loss": 1.2135,
      "step": 86200
    },
    {
      "epoch": 0.0526,
      "grad_norm": 1.1925442218780518,
      "learning_rate": 4.6745284335736095e-05,
      "loss": 1.1414,
      "step": 86300
    },
    {
      "epoch": 0.0528,
      "grad_norm": 1.1717417240142822,
      "learning_rate": 4.673745160911891e-05,
      "loss": 1.184,
      "step": 86400
    },
    {
      "epoch": 0.053,
      "grad_norm": 1.0722715854644775,
      "learning_rate": 4.672961012665883e-05,
      "loss": 1.1685,
      "step": 86500
    },
    {
      "epoch": 0.0532,
      "grad_norm": 1.293058156967163,
      "learning_rate": 4.6721759891514386e-05,
      "loss": 1.1639,
      "step": 86600
    },
    {
      "epoch": 0.0534,
      "grad_norm": 1.1121761798858643,
      "learning_rate": 4.671390090684765e-05,
      "loss": 1.1693,
      "step": 86700
    },
    {
      "epoch": 0.0536,
      "grad_norm": 1.1979039907455444,
      "learning_rate": 4.6706033175824226e-05,
      "loss": 1.2123,
      "step": 86800
    },
    {
      "epoch": 0.0538,
      "grad_norm": 1.3003602027893066,
      "learning_rate": 4.669815670161324e-05,
      "loss": 1.1529,
      "step": 86900
    },
    {
      "epoch": 0.054,
      "grad_norm": 0.627068817615509,
      "learning_rate": 4.669027148738732e-05,
      "loss": 1.1901,
      "step": 87000
    },
    {
      "epoch": 0.054,
      "eval_loss": 1.0730499029159546,
      "eval_runtime": 76.271,
      "eval_samples_per_second": 202.475,
      "eval_steps_per_second": 3.173,
      "step": 87000
    },
    {
      "epoch": 0.0542,
      "grad_norm": 1.0153006315231323,
      "learning_rate": 4.6682377536322644e-05,
      "loss": 1.1295,
      "step": 87100
    },
    {
      "epoch": 0.0544,
      "grad_norm": 1.3619033098220825,
      "learning_rate": 4.667447485159889e-05,
      "loss": 1.1759,
      "step": 87200
    },
    {
      "epoch": 0.0546,
      "grad_norm": 0.8665468692779541,
      "learning_rate": 4.666656343639926e-05,
      "loss": 1.1602,
      "step": 87300
    },
    {
      "epoch": 0.0548,
      "grad_norm": 0.7338219285011292,
      "learning_rate": 4.665864329391046e-05,
      "loss": 1.1856,
      "step": 87400
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.7363407611846924,
      "learning_rate": 4.665071442732274e-05,
      "loss": 1.1629,
      "step": 87500
    },
    {
      "epoch": 0.0552,
      "grad_norm": 0.9836055636405945,
      "learning_rate": 4.664277683982984e-05,
      "loss": 1.1755,
      "step": 87600
    },
    {
      "epoch": 0.0554,
      "grad_norm": 1.0638995170593262,
      "learning_rate": 4.663483053462901e-05,
      "loss": 1.186,
      "step": 87700
    },
    {
      "epoch": 0.0556,
      "grad_norm": 0.9050219058990479,
      "learning_rate": 4.662687551492103e-05,
      "loss": 1.2357,
      "step": 87800
    },
    {
      "epoch": 0.0558,
      "grad_norm": 0.917178213596344,
      "learning_rate": 4.661891178391018e-05,
      "loss": 1.1573,
      "step": 87900
    },
    {
      "epoch": 0.056,
      "grad_norm": 1.2023630142211914,
      "learning_rate": 4.661093934480425e-05,
      "loss": 1.1795,
      "step": 88000
    },
    {
      "epoch": 0.056,
      "eval_loss": 1.0689297914505005,
      "eval_runtime": 77.0471,
      "eval_samples_per_second": 200.436,
      "eval_steps_per_second": 3.141,
      "step": 88000
    },
    {
      "epoch": 0.0562,
      "grad_norm": 1.2633955478668213,
      "learning_rate": 4.660295820081453e-05,
      "loss": 1.1501,
      "step": 88100
    },
    {
      "epoch": 0.0564,
      "grad_norm": 0.5867215991020203,
      "learning_rate": 4.6594968355155835e-05,
      "loss": 1.2096,
      "step": 88200
    },
    {
      "epoch": 0.0566,
      "grad_norm": 1.3425019979476929,
      "learning_rate": 4.658696981104646e-05,
      "loss": 1.2016,
      "step": 88300
    },
    {
      "epoch": 0.0568,
      "grad_norm": 0.8101886510848999,
      "learning_rate": 4.657896257170825e-05,
      "loss": 1.1512,
      "step": 88400
    },
    {
      "epoch": 0.057,
      "grad_norm": 1.43784761428833,
      "learning_rate": 4.6570946640366474e-05,
      "loss": 1.1536,
      "step": 88500
    },
    {
      "epoch": 0.0572,
      "grad_norm": 0.766494870185852,
      "learning_rate": 4.6562922020249984e-05,
      "loss": 1.1521,
      "step": 88600
    },
    {
      "epoch": 0.0574,
      "grad_norm": 1.5485390424728394,
      "learning_rate": 4.6554888714591076e-05,
      "loss": 1.176,
      "step": 88700
    },
    {
      "epoch": 0.0576,
      "grad_norm": 0.8266467452049255,
      "learning_rate": 4.654684672662557e-05,
      "loss": 1.1514,
      "step": 88800
    },
    {
      "epoch": 0.0578,
      "grad_norm": 1.2086583375930786,
      "learning_rate": 4.6538796059592784e-05,
      "loss": 1.177,
      "step": 88900
    },
    {
      "epoch": 0.058,
      "grad_norm": 1.4609780311584473,
      "learning_rate": 4.6530736716735526e-05,
      "loss": 1.1447,
      "step": 89000
    },
    {
      "epoch": 0.058,
      "eval_loss": 1.0664150714874268,
      "eval_runtime": 76.3509,
      "eval_samples_per_second": 202.264,
      "eval_steps_per_second": 3.17,
      "step": 89000
    },
    {
      "epoch": 0.0582,
      "grad_norm": 1.0640435218811035,
      "learning_rate": 4.652266870130008e-05,
      "loss": 1.1392,
      "step": 89100
    },
    {
      "epoch": 0.0584,
      "grad_norm": 1.3286436796188354,
      "learning_rate": 4.651459201653626e-05,
      "loss": 1.222,
      "step": 89200
    },
    {
      "epoch": 0.0586,
      "grad_norm": 0.7577000260353088,
      "learning_rate": 4.650650666569736e-05,
      "loss": 1.1842,
      "step": 89300
    },
    {
      "epoch": 0.0588,
      "grad_norm": 1.0623698234558105,
      "learning_rate": 4.6498412652040137e-05,
      "loss": 1.2071,
      "step": 89400
    },
    {
      "epoch": 0.059,
      "grad_norm": 0.9597827792167664,
      "learning_rate": 4.6490309978824866e-05,
      "loss": 1.1781,
      "step": 89500
    },
    {
      "epoch": 0.0592,
      "grad_norm": 1.126639485359192,
      "learning_rate": 4.6482198649315306e-05,
      "loss": 1.1897,
      "step": 89600
    },
    {
      "epoch": 0.0594,
      "grad_norm": 1.1724388599395752,
      "learning_rate": 4.64740786667787e-05,
      "loss": 1.1567,
      "step": 89700
    },
    {
      "epoch": 0.0596,
      "grad_norm": 1.14126718044281,
      "learning_rate": 4.6465950034485776e-05,
      "loss": 1.1819,
      "step": 89800
    },
    {
      "epoch": 0.0598,
      "grad_norm": 0.8016234040260315,
      "learning_rate": 4.645781275571075e-05,
      "loss": 1.1906,
      "step": 89900
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3095015287399292,
      "learning_rate": 4.644966683373131e-05,
      "loss": 1.1976,
      "step": 90000
    },
    {
      "epoch": 0.06,
      "eval_loss": 1.0730445384979248,
      "eval_runtime": 76.1401,
      "eval_samples_per_second": 202.823,
      "eval_steps_per_second": 3.178,
      "step": 90000
    },
    {
      "epoch": 0.0602,
      "grad_norm": 0.5794508457183838,
      "learning_rate": 4.6441512271828626e-05,
      "loss": 1.1478,
      "step": 90100
    },
    {
      "epoch": 0.0604,
      "grad_norm": 0.9965047240257263,
      "learning_rate": 4.6433349073287366e-05,
      "loss": 1.201,
      "step": 90200
    },
    {
      "epoch": 0.0606,
      "grad_norm": 1.280166506767273,
      "learning_rate": 4.642517724139567e-05,
      "loss": 1.1542,
      "step": 90300
    },
    {
      "epoch": 0.0608,
      "grad_norm": 0.7828945517539978,
      "learning_rate": 4.641699677944514e-05,
      "loss": 1.186,
      "step": 90400
    },
    {
      "epoch": 0.061,
      "grad_norm": 1.096155047416687,
      "learning_rate": 4.640880769073087e-05,
      "loss": 1.1969,
      "step": 90500
    },
    {
      "epoch": 0.0612,
      "grad_norm": 0.7447170615196228,
      "learning_rate": 4.6400609978551416e-05,
      "loss": 1.1482,
      "step": 90600
    },
    {
      "epoch": 0.0614,
      "grad_norm": 0.8162779808044434,
      "learning_rate": 4.639240364620882e-05,
      "loss": 1.2072,
      "step": 90700
    },
    {
      "epoch": 0.0616,
      "grad_norm": 1.2612018585205078,
      "learning_rate": 4.638418869700861e-05,
      "loss": 1.1402,
      "step": 90800
    },
    {
      "epoch": 0.0618,
      "grad_norm": 0.8543398380279541,
      "learning_rate": 4.637596513425974e-05,
      "loss": 1.1718,
      "step": 90900
    },
    {
      "epoch": 0.062,
      "grad_norm": 1.2375905513763428,
      "learning_rate": 4.636773296127467e-05,
      "loss": 1.1587,
      "step": 91000
    },
    {
      "epoch": 0.062,
      "eval_loss": 1.0713858604431152,
      "eval_runtime": 76.3385,
      "eval_samples_per_second": 202.296,
      "eval_steps_per_second": 3.17,
      "step": 91000
    }
  ],
  "logging_steps": 100,
  "max_steps": 500000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3.970894657486848e+18,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}