{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.05003027134129561,
  "eval_steps": 500,
  "global_step": 909,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5.503880235566074e-05,
      "grad_norm": 459.8753356933594,
      "learning_rate": 1.0000000000000001e-07,
      "loss": 3.303,
      "step": 1
    },
    {
      "epoch": 0.00011007760471132149,
      "grad_norm": 314.2561950683594,
      "learning_rate": 2.0000000000000002e-07,
      "loss": 2.8226,
      "step": 2
    },
    {
      "epoch": 0.0001651164070669822,
      "grad_norm": 314.1292419433594,
      "learning_rate": 3.0000000000000004e-07,
      "loss": 2.8517,
      "step": 3
    },
    {
      "epoch": 0.00022015520942264297,
      "grad_norm": 312.4049072265625,
      "learning_rate": 4.0000000000000003e-07,
      "loss": 2.6248,
      "step": 4
    },
    {
      "epoch": 0.0002751940117783037,
      "grad_norm": 353.7213134765625,
      "learning_rate": 5.000000000000001e-07,
      "loss": 2.7883,
      "step": 5
    },
    {
      "epoch": 0.0003302328141339644,
      "grad_norm": 278.41668701171875,
      "learning_rate": 6.000000000000001e-07,
      "loss": 2.5468,
      "step": 6
    },
    {
      "epoch": 0.0003852716164896252,
      "grad_norm": 336.14532470703125,
      "learning_rate": 7.000000000000001e-07,
      "loss": 2.7721,
      "step": 7
    },
    {
      "epoch": 0.00044031041884528595,
      "grad_norm": 201.19374084472656,
      "learning_rate": 8.000000000000001e-07,
      "loss": 2.4873,
      "step": 8
    },
    {
      "epoch": 0.0004953492212009466,
      "grad_norm": 184.7027587890625,
      "learning_rate": 9.000000000000001e-07,
      "loss": 2.6647,
      "step": 9
    },
    {
      "epoch": 0.0005503880235566074,
      "grad_norm": 154.597412109375,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 2.602,
      "step": 10
    },
    {
      "epoch": 0.0006054268259122681,
      "grad_norm": 40.47785568237305,
      "learning_rate": 1.1e-06,
      "loss": 2.6716,
      "step": 11
    },
    {
      "epoch": 0.0006604656282679288,
      "grad_norm": 25.338607788085938,
      "learning_rate": 1.2000000000000002e-06,
      "loss": 2.2631,
      "step": 12
    },
    {
      "epoch": 0.0007155044306235897,
      "grad_norm": 24.976919174194336,
      "learning_rate": 1.3e-06,
      "loss": 2.3564,
      "step": 13
    },
    {
      "epoch": 0.0007705432329792504,
      "grad_norm": 15.239912033081055,
      "learning_rate": 1.4000000000000001e-06,
      "loss": 2.3295,
      "step": 14
    },
    {
      "epoch": 0.0008255820353349112,
      "grad_norm": 14.125042915344238,
      "learning_rate": 1.5e-06,
      "loss": 2.307,
      "step": 15
    },
    {
      "epoch": 0.0008806208376905719,
      "grad_norm": 13.163726806640625,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 2.1493,
      "step": 16
    },
    {
      "epoch": 0.0009356596400462326,
      "grad_norm": 8.726515769958496,
      "learning_rate": 1.7000000000000002e-06,
      "loss": 2.0333,
      "step": 17
    },
    {
      "epoch": 0.0009906984424018933,
      "grad_norm": 9.072502136230469,
      "learning_rate": 1.8000000000000001e-06,
      "loss": 2.2046,
      "step": 18
    },
    {
      "epoch": 0.001045737244757554,
      "grad_norm": 9.412588119506836,
      "learning_rate": 1.9000000000000002e-06,
      "loss": 2.2001,
      "step": 19
    },
    {
      "epoch": 0.0011007760471132147,
      "grad_norm": 8.67534065246582,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 1.7679,
      "step": 20
    },
    {
      "epoch": 0.0011558148494688755,
      "grad_norm": 14.015918731689453,
      "learning_rate": 2.1000000000000002e-06,
      "loss": 1.9566,
      "step": 21
    },
    {
      "epoch": 0.0012108536518245362,
      "grad_norm": 7.9474687576293945,
      "learning_rate": 2.2e-06,
      "loss": 1.9085,
      "step": 22
    },
    {
      "epoch": 0.001265892454180197,
      "grad_norm": 6.806368350982666,
      "learning_rate": 2.3000000000000004e-06,
      "loss": 1.7918,
      "step": 23
    },
    {
      "epoch": 0.0013209312565358577,
      "grad_norm": 5.3452582359313965,
      "learning_rate": 2.4000000000000003e-06,
      "loss": 1.8321,
      "step": 24
    },
    {
      "epoch": 0.0013759700588915184,
      "grad_norm": 8.744244575500488,
      "learning_rate": 2.5e-06,
      "loss": 1.6317,
      "step": 25
    },
    {
      "epoch": 0.0014310088612471794,
      "grad_norm": 5.304683685302734,
      "learning_rate": 2.6e-06,
      "loss": 1.6846,
      "step": 26
    },
    {
      "epoch": 0.00148604766360284,
      "grad_norm": 5.650127410888672,
      "learning_rate": 2.7000000000000004e-06,
      "loss": 1.7449,
      "step": 27
    },
    {
      "epoch": 0.0015410864659585008,
      "grad_norm": 5.479269504547119,
      "learning_rate": 2.8000000000000003e-06,
      "loss": 1.8158,
      "step": 28
    },
    {
      "epoch": 0.0015961252683141616,
      "grad_norm": 4.873537063598633,
      "learning_rate": 2.9e-06,
      "loss": 1.8015,
      "step": 29
    },
    {
      "epoch": 0.0016511640706698223,
      "grad_norm": 4.971101760864258,
      "learning_rate": 3e-06,
      "loss": 1.9034,
      "step": 30
    },
    {
      "epoch": 0.001706202873025483,
      "grad_norm": 4.407571315765381,
      "learning_rate": 3.1000000000000004e-06,
      "loss": 1.9037,
      "step": 31
    },
    {
      "epoch": 0.0017612416753811438,
      "grad_norm": 4.429073810577393,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 1.6812,
      "step": 32
    },
    {
      "epoch": 0.0018162804777368045,
      "grad_norm": 5.16085147857666,
      "learning_rate": 3.3000000000000006e-06,
      "loss": 1.7627,
      "step": 33
    },
    {
      "epoch": 0.0018713192800924653,
      "grad_norm": 4.0805768966674805,
      "learning_rate": 3.4000000000000005e-06,
      "loss": 1.6799,
      "step": 34
    },
    {
      "epoch": 0.001926358082448126,
      "grad_norm": 4.548702239990234,
      "learning_rate": 3.5e-06,
      "loss": 1.7799,
      "step": 35
    },
    {
      "epoch": 0.0019813968848037865,
      "grad_norm": 5.181888580322266,
      "learning_rate": 3.6000000000000003e-06,
      "loss": 1.8235,
      "step": 36
    },
    {
      "epoch": 0.0020364356871594475,
      "grad_norm": 3.9876129627227783,
      "learning_rate": 3.7e-06,
      "loss": 1.5999,
      "step": 37
    },
    {
      "epoch": 0.002091474489515108,
      "grad_norm": 6.325051307678223,
      "learning_rate": 3.8000000000000005e-06,
      "loss": 1.7499,
      "step": 38
    },
    {
      "epoch": 0.002146513291870769,
      "grad_norm": 6.199049949645996,
      "learning_rate": 3.900000000000001e-06,
      "loss": 1.784,
      "step": 39
    },
    {
      "epoch": 0.0022015520942264295,
      "grad_norm": 4.83912992477417,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.8895,
      "step": 40
    },
    {
      "epoch": 0.0022565908965820904,
      "grad_norm": 4.515626907348633,
      "learning_rate": 4.1e-06,
      "loss": 1.4887,
      "step": 41
    },
    {
      "epoch": 0.002311629698937751,
      "grad_norm": 5.032265663146973,
      "learning_rate": 4.2000000000000004e-06,
      "loss": 1.7324,
      "step": 42
    },
    {
      "epoch": 0.002366668501293412,
      "grad_norm": 4.1879048347473145,
      "learning_rate": 4.3e-06,
      "loss": 1.4912,
      "step": 43
    },
    {
      "epoch": 0.0024217073036490724,
      "grad_norm": 4.128026485443115,
      "learning_rate": 4.4e-06,
      "loss": 1.554,
      "step": 44
    },
    {
      "epoch": 0.0024767461060047334,
      "grad_norm": 4.527958393096924,
      "learning_rate": 4.5e-06,
      "loss": 1.652,
      "step": 45
    },
    {
      "epoch": 0.002531784908360394,
      "grad_norm": 4.8388190269470215,
      "learning_rate": 4.600000000000001e-06,
      "loss": 1.6696,
      "step": 46
    },
    {
      "epoch": 0.002586823710716055,
      "grad_norm": 4.2088541984558105,
      "learning_rate": 4.7e-06,
      "loss": 1.568,
      "step": 47
    },
    {
      "epoch": 0.0026418625130717154,
      "grad_norm": 4.789997577667236,
      "learning_rate": 4.800000000000001e-06,
      "loss": 1.642,
      "step": 48
    },
    {
      "epoch": 0.0026969013154273763,
      "grad_norm": 4.408346652984619,
      "learning_rate": 4.9000000000000005e-06,
      "loss": 1.5181,
      "step": 49
    },
    {
      "epoch": 0.002751940117783037,
      "grad_norm": 4.572340488433838,
      "learning_rate": 5e-06,
      "loss": 1.6698,
      "step": 50
    },
    {
      "epoch": 0.0028069789201386978,
      "grad_norm": 4.728564739227295,
      "learning_rate": 5.1e-06,
      "loss": 1.5785,
      "step": 51
    },
    {
      "epoch": 0.0028620177224943587,
      "grad_norm": 4.449855327606201,
      "learning_rate": 5.2e-06,
      "loss": 1.4624,
      "step": 52
    },
    {
      "epoch": 0.0029170565248500193,
      "grad_norm": 4.127189636230469,
      "learning_rate": 5.300000000000001e-06,
      "loss": 1.6061,
      "step": 53
    },
    {
      "epoch": 0.00297209532720568,
      "grad_norm": 4.244532108306885,
      "learning_rate": 5.400000000000001e-06,
      "loss": 1.491,
      "step": 54
    },
    {
      "epoch": 0.0030271341295613407,
      "grad_norm": 3.437682628631592,
      "learning_rate": 5.500000000000001e-06,
      "loss": 1.1967,
      "step": 55
    },
    {
      "epoch": 0.0030821729319170017,
      "grad_norm": 3.83516788482666,
      "learning_rate": 5.600000000000001e-06,
      "loss": 1.4731,
      "step": 56
    },
    {
      "epoch": 0.003137211734272662,
      "grad_norm": 3.9108972549438477,
      "learning_rate": 5.7e-06,
      "loss": 1.4393,
      "step": 57
    },
    {
      "epoch": 0.003192250536628323,
      "grad_norm": 3.5258419513702393,
      "learning_rate": 5.8e-06,
      "loss": 1.4206,
      "step": 58
    },
    {
      "epoch": 0.0032472893389839837,
      "grad_norm": 4.124903678894043,
      "learning_rate": 5.9e-06,
      "loss": 1.4747,
      "step": 59
    },
    {
      "epoch": 0.0033023281413396446,
      "grad_norm": 4.055769920349121,
      "learning_rate": 6e-06,
      "loss": 1.4655,
      "step": 60
    },
    {
      "epoch": 0.003357366943695305,
      "grad_norm": 3.904837131500244,
      "learning_rate": 6.1e-06,
      "loss": 1.5125,
      "step": 61
    },
    {
      "epoch": 0.003412405746050966,
      "grad_norm": 3.2904794216156006,
      "learning_rate": 6.200000000000001e-06,
      "loss": 1.4596,
      "step": 62
    },
    {
      "epoch": 0.0034674445484066266,
      "grad_norm": 3.24053692817688,
      "learning_rate": 6.300000000000001e-06,
      "loss": 1.3851,
      "step": 63
    },
    {
      "epoch": 0.0035224833507622876,
      "grad_norm": 3.457639217376709,
      "learning_rate": 6.4000000000000006e-06,
      "loss": 1.4019,
      "step": 64
    },
    {
      "epoch": 0.003577522153117948,
      "grad_norm": 3.073054790496826,
      "learning_rate": 6.5000000000000004e-06,
      "loss": 1.2872,
      "step": 65
    },
    {
      "epoch": 0.003632560955473609,
      "grad_norm": 2.6726694107055664,
      "learning_rate": 6.600000000000001e-06,
      "loss": 1.2361,
      "step": 66
    },
    {
      "epoch": 0.0036875997578292696,
      "grad_norm": 2.9378459453582764,
      "learning_rate": 6.700000000000001e-06,
      "loss": 1.4452,
      "step": 67
    },
    {
      "epoch": 0.0037426385601849305,
      "grad_norm": 2.81107234954834,
      "learning_rate": 6.800000000000001e-06,
      "loss": 1.4804,
      "step": 68
    },
    {
      "epoch": 0.003797677362540591,
      "grad_norm": 2.60062313079834,
      "learning_rate": 6.9e-06,
      "loss": 1.3263,
      "step": 69
    },
    {
      "epoch": 0.003852716164896252,
      "grad_norm": 2.5642921924591064,
      "learning_rate": 7e-06,
      "loss": 1.2751,
      "step": 70
    },
    {
      "epoch": 0.0039077549672519125,
      "grad_norm": 2.3608031272888184,
      "learning_rate": 7.100000000000001e-06,
      "loss": 1.2614,
      "step": 71
    },
    {
      "epoch": 0.003962793769607573,
      "grad_norm": 2.7201738357543945,
      "learning_rate": 7.2000000000000005e-06,
      "loss": 1.5018,
      "step": 72
    },
    {
      "epoch": 0.004017832571963234,
      "grad_norm": 2.584726095199585,
      "learning_rate": 7.3e-06,
      "loss": 1.3519,
      "step": 73
    },
    {
      "epoch": 0.004072871374318895,
      "grad_norm": 1.9693044424057007,
      "learning_rate": 7.4e-06,
      "loss": 1.0934,
      "step": 74
    },
    {
      "epoch": 0.0041279101766745555,
      "grad_norm": 2.220736503601074,
      "learning_rate": 7.500000000000001e-06,
      "loss": 1.4687,
      "step": 75
    },
    {
      "epoch": 0.004182948979030216,
      "grad_norm": 2.2629456520080566,
      "learning_rate": 7.600000000000001e-06,
      "loss": 1.3328,
      "step": 76
    },
    {
      "epoch": 0.004237987781385877,
      "grad_norm": 2.051820993423462,
      "learning_rate": 7.7e-06,
      "loss": 1.3058,
      "step": 77
    },
    {
      "epoch": 0.004293026583741538,
      "grad_norm": 2.2451820373535156,
      "learning_rate": 7.800000000000002e-06,
      "loss": 1.3556,
      "step": 78
    },
    {
      "epoch": 0.004348065386097198,
      "grad_norm": 3.13584303855896,
      "learning_rate": 7.9e-06,
      "loss": 1.3262,
      "step": 79
    },
    {
      "epoch": 0.004403104188452859,
      "grad_norm": 5.024479866027832,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.2103,
      "step": 80
    },
    {
      "epoch": 0.00445814299080852,
      "grad_norm": 2.070889711380005,
      "learning_rate": 8.1e-06,
      "loss": 1.1994,
      "step": 81
    },
    {
      "epoch": 0.004513181793164181,
      "grad_norm": 2.797286033630371,
      "learning_rate": 8.2e-06,
      "loss": 1.3075,
      "step": 82
    },
    {
      "epoch": 0.004568220595519841,
      "grad_norm": 2.11370849609375,
      "learning_rate": 8.3e-06,
      "loss": 1.36,
      "step": 83
    },
    {
      "epoch": 0.004623259397875502,
      "grad_norm": 2.5416152477264404,
      "learning_rate": 8.400000000000001e-06,
      "loss": 1.3484,
      "step": 84
    },
    {
      "epoch": 0.004678298200231163,
      "grad_norm": 2.4702343940734863,
      "learning_rate": 8.5e-06,
      "loss": 1.3677,
      "step": 85
    },
    {
      "epoch": 0.004733337002586824,
      "grad_norm": 3.670365333557129,
      "learning_rate": 8.6e-06,
      "loss": 1.2192,
      "step": 86
    },
    {
      "epoch": 0.004788375804942484,
      "grad_norm": 2.282954692840576,
      "learning_rate": 8.700000000000001e-06,
      "loss": 1.2982,
      "step": 87
    },
    {
      "epoch": 0.004843414607298145,
      "grad_norm": 2.3659238815307617,
      "learning_rate": 8.8e-06,
      "loss": 1.3206,
      "step": 88
    },
    {
      "epoch": 0.004898453409653806,
      "grad_norm": 4.939981460571289,
      "learning_rate": 8.900000000000001e-06,
      "loss": 1.4328,
      "step": 89
    },
    {
      "epoch": 0.004953492212009467,
      "grad_norm": 2.335858106613159,
      "learning_rate": 9e-06,
      "loss": 1.2603,
      "step": 90
    },
    {
      "epoch": 0.005008531014365127,
      "grad_norm": 2.2165043354034424,
      "learning_rate": 9.100000000000001e-06,
      "loss": 1.3141,
      "step": 91
    },
    {
      "epoch": 0.005063569816720788,
      "grad_norm": 2.7872185707092285,
      "learning_rate": 9.200000000000002e-06,
      "loss": 1.3314,
      "step": 92
    },
    {
      "epoch": 0.005118608619076449,
      "grad_norm": 2.6353912353515625,
      "learning_rate": 9.3e-06,
      "loss": 1.2027,
      "step": 93
    },
    {
      "epoch": 0.00517364742143211,
      "grad_norm": 3.2509102821350098,
      "learning_rate": 9.4e-06,
      "loss": 1.2316,
      "step": 94
    },
    {
      "epoch": 0.00522868622378777,
      "grad_norm": 2.4560611248016357,
      "learning_rate": 9.5e-06,
      "loss": 1.1848,
      "step": 95
    },
    {
      "epoch": 0.005283725026143431,
      "grad_norm": 2.338151216506958,
      "learning_rate": 9.600000000000001e-06,
      "loss": 1.2392,
      "step": 96
    },
    {
      "epoch": 0.005338763828499092,
      "grad_norm": 2.231065034866333,
      "learning_rate": 9.7e-06,
      "loss": 1.2089,
      "step": 97
    },
    {
      "epoch": 0.005393802630854753,
      "grad_norm": 2.278428077697754,
      "learning_rate": 9.800000000000001e-06,
      "loss": 1.2267,
      "step": 98
    },
    {
      "epoch": 0.005448841433210413,
      "grad_norm": 2.4422810077667236,
      "learning_rate": 9.9e-06,
      "loss": 1.2041,
      "step": 99
    },
    {
      "epoch": 0.005503880235566074,
      "grad_norm": 2.216248035430908,
      "learning_rate": 1e-05,
      "loss": 1.0798,
      "step": 100
    },
    {
      "epoch": 0.005558919037921735,
      "grad_norm": 2.3301615715026855,
      "learning_rate": 9.99999998121067e-06,
      "loss": 1.3069,
      "step": 101
    },
    {
      "epoch": 0.0056139578402773956,
      "grad_norm": 2.315436363220215,
      "learning_rate": 9.999999924842678e-06,
      "loss": 1.1589,
      "step": 102
    },
    {
      "epoch": 0.005668996642633056,
      "grad_norm": 2.3522140979766846,
      "learning_rate": 9.999999830896024e-06,
      "loss": 1.0978,
      "step": 103
    },
    {
      "epoch": 0.0057240354449887175,
      "grad_norm": 2.5798308849334717,
      "learning_rate": 9.99999969937071e-06,
      "loss": 1.0599,
      "step": 104
    },
    {
      "epoch": 0.005779074247344378,
      "grad_norm": 2.456644058227539,
      "learning_rate": 9.999999530266738e-06,
      "loss": 1.1682,
      "step": 105
    },
    {
      "epoch": 0.0058341130497000385,
      "grad_norm": 2.1559031009674072,
      "learning_rate": 9.999999323584106e-06,
      "loss": 1.0631,
      "step": 106
    },
    {
      "epoch": 0.005889151852055699,
      "grad_norm": 2.2985048294067383,
      "learning_rate": 9.99999907932282e-06,
      "loss": 1.1455,
      "step": 107
    },
    {
      "epoch": 0.00594419065441136,
      "grad_norm": 2.596167802810669,
      "learning_rate": 9.999998797482877e-06,
      "loss": 1.1686,
      "step": 108
    },
    {
      "epoch": 0.005999229456767021,
      "grad_norm": 2.378618001937866,
      "learning_rate": 9.999998478064283e-06,
      "loss": 1.2226,
      "step": 109
    },
    {
      "epoch": 0.0060542682591226814,
      "grad_norm": 2.228116750717163,
      "learning_rate": 9.999998121067038e-06,
      "loss": 1.1396,
      "step": 110
    },
    {
      "epoch": 0.006109307061478342,
      "grad_norm": 2.4419472217559814,
      "learning_rate": 9.999997726491146e-06,
      "loss": 1.1401,
      "step": 111
    },
    {
      "epoch": 0.006164345863834003,
      "grad_norm": 2.0695526599884033,
      "learning_rate": 9.999997294336608e-06,
      "loss": 1.1868,
      "step": 112
    },
    {
      "epoch": 0.006219384666189664,
      "grad_norm": 2.3170363903045654,
      "learning_rate": 9.99999682460343e-06,
      "loss": 1.1172,
      "step": 113
    },
    {
      "epoch": 0.006274423468545324,
      "grad_norm": 2.670466184616089,
      "learning_rate": 9.999996317291615e-06,
      "loss": 1.2481,
      "step": 114
    },
    {
      "epoch": 0.006329462270900985,
      "grad_norm": 2.1214540004730225,
      "learning_rate": 9.999995772401166e-06,
      "loss": 0.9994,
      "step": 115
    },
    {
      "epoch": 0.006384501073256646,
      "grad_norm": 1.9283969402313232,
      "learning_rate": 9.999995189932085e-06,
      "loss": 1.0692,
      "step": 116
    },
    {
      "epoch": 0.006439539875612307,
      "grad_norm": 2.2620882987976074,
      "learning_rate": 9.99999456988438e-06,
      "loss": 1.0725,
      "step": 117
    },
    {
      "epoch": 0.006494578677967967,
      "grad_norm": 2.2121341228485107,
      "learning_rate": 9.999993912258055e-06,
      "loss": 1.1328,
      "step": 118
    },
    {
      "epoch": 0.006549617480323628,
      "grad_norm": 2.298126220703125,
      "learning_rate": 9.999993217053113e-06,
      "loss": 1.1272,
      "step": 119
    },
    {
      "epoch": 0.006604656282679289,
      "grad_norm": 1.81593656539917,
      "learning_rate": 9.99999248426956e-06,
      "loss": 1.017,
      "step": 120
    },
    {
      "epoch": 0.00665969508503495,
      "grad_norm": 2.1174378395080566,
      "learning_rate": 9.999991713907403e-06,
      "loss": 1.0557,
      "step": 121
    },
    {
      "epoch": 0.00671473388739061,
      "grad_norm": 1.9061017036437988,
      "learning_rate": 9.999990905966647e-06,
      "loss": 1.0379,
      "step": 122
    },
    {
      "epoch": 0.006769772689746271,
      "grad_norm": 1.912500023841858,
      "learning_rate": 9.999990060447297e-06,
      "loss": 1.104,
      "step": 123
    },
    {
      "epoch": 0.006824811492101932,
      "grad_norm": 1.9249529838562012,
      "learning_rate": 9.99998917734936e-06,
      "loss": 1.0136,
      "step": 124
    },
    {
      "epoch": 0.006879850294457593,
      "grad_norm": 1.8504948616027832,
      "learning_rate": 9.999988256672843e-06,
      "loss": 0.99,
      "step": 125
    },
    {
      "epoch": 0.006934889096813253,
      "grad_norm": 1.720042109489441,
      "learning_rate": 9.999987298417753e-06,
      "loss": 1.0666,
      "step": 126
    },
    {
      "epoch": 0.006989927899168914,
      "grad_norm": 1.778251051902771,
      "learning_rate": 9.999986302584097e-06,
      "loss": 1.0424,
      "step": 127
    },
    {
      "epoch": 0.007044966701524575,
      "grad_norm": 1.9485961198806763,
      "learning_rate": 9.999985269171881e-06,
      "loss": 1.105,
      "step": 128
    },
    {
      "epoch": 0.007100005503880236,
      "grad_norm": 3.0802104473114014,
      "learning_rate": 9.999984198181114e-06,
      "loss": 1.1081,
      "step": 129
    },
    {
      "epoch": 0.007155044306235896,
      "grad_norm": 1.7476954460144043,
      "learning_rate": 9.999983089611806e-06,
      "loss": 0.9677,
      "step": 130
    },
    {
      "epoch": 0.007210083108591557,
      "grad_norm": 1.6127299070358276,
      "learning_rate": 9.999981943463963e-06,
      "loss": 0.9937,
      "step": 131
    },
    {
      "epoch": 0.007265121910947218,
      "grad_norm": 2.1477208137512207,
      "learning_rate": 9.999980759737594e-06,
      "loss": 1.0319,
      "step": 132
    },
    {
      "epoch": 0.007320160713302879,
      "grad_norm": 1.531163215637207,
      "learning_rate": 9.999979538432707e-06,
      "loss": 0.8696,
      "step": 133
    },
    {
      "epoch": 0.007375199515658539,
      "grad_norm": 1.8226820230484009,
      "learning_rate": 9.999978279549313e-06,
      "loss": 1.2061,
      "step": 134
    },
    {
      "epoch": 0.0074302383180142,
      "grad_norm": 1.481895923614502,
      "learning_rate": 9.99997698308742e-06,
      "loss": 0.949,
      "step": 135
    },
    {
      "epoch": 0.007485277120369861,
      "grad_norm": 1.6715927124023438,
      "learning_rate": 9.99997564904704e-06,
      "loss": 1.1579,
      "step": 136
    },
    {
      "epoch": 0.0075403159227255215,
      "grad_norm": 1.4235272407531738,
      "learning_rate": 9.999974277428179e-06,
      "loss": 1.064,
      "step": 137
    },
    {
      "epoch": 0.007595354725081182,
      "grad_norm": 1.3524872064590454,
      "learning_rate": 9.999972868230852e-06,
      "loss": 0.9141,
      "step": 138
    },
    {
      "epoch": 0.007650393527436843,
      "grad_norm": 1.3741765022277832,
      "learning_rate": 9.999971421455066e-06,
      "loss": 1.0256,
      "step": 139
    },
    {
      "epoch": 0.007705432329792504,
      "grad_norm": 1.9869598150253296,
      "learning_rate": 9.999969937100835e-06,
      "loss": 0.9489,
      "step": 140
    },
    {
      "epoch": 0.0077604711321481645,
      "grad_norm": 1.4785465002059937,
      "learning_rate": 9.999968415168166e-06,
      "loss": 0.9243,
      "step": 141
    },
    {
      "epoch": 0.007815509934503825,
      "grad_norm": 1.5476176738739014,
      "learning_rate": 9.999966855657074e-06,
      "loss": 1.178,
      "step": 142
    },
    {
      "epoch": 0.007870548736859486,
      "grad_norm": 1.500401258468628,
      "learning_rate": 9.99996525856757e-06,
      "loss": 0.9837,
      "step": 143
    },
    {
      "epoch": 0.007925587539215146,
      "grad_norm": 1.3777157068252563,
      "learning_rate": 9.999963623899664e-06,
      "loss": 1.0732,
      "step": 144
    },
    {
      "epoch": 0.007980626341570807,
      "grad_norm": 1.4466841220855713,
      "learning_rate": 9.99996195165337e-06,
      "loss": 0.9779,
      "step": 145
    },
    {
      "epoch": 0.008035665143926469,
      "grad_norm": 1.5304051637649536,
      "learning_rate": 9.9999602418287e-06,
      "loss": 1.196,
      "step": 146
    },
    {
      "epoch": 0.008090703946282128,
      "grad_norm": 1.9012362957000732,
      "learning_rate": 9.99995849442567e-06,
      "loss": 0.9797,
      "step": 147
    },
    {
      "epoch": 0.00814574274863779,
      "grad_norm": 1.430679202079773,
      "learning_rate": 9.999956709444289e-06,
      "loss": 0.9869,
      "step": 148
    },
    {
      "epoch": 0.00820078155099345,
      "grad_norm": 1.3489817380905151,
      "learning_rate": 9.99995488688457e-06,
      "loss": 1.0137,
      "step": 149
    },
    {
      "epoch": 0.008255820353349111,
      "grad_norm": 1.1878125667572021,
      "learning_rate": 9.999953026746531e-06,
      "loss": 0.9355,
      "step": 150
    },
    {
      "epoch": 0.008310859155704772,
      "grad_norm": 1.3481942415237427,
      "learning_rate": 9.999951129030182e-06,
      "loss": 1.1235,
      "step": 151
    },
    {
      "epoch": 0.008365897958060432,
      "grad_norm": 1.7335314750671387,
      "learning_rate": 9.999949193735539e-06,
      "loss": 0.9382,
      "step": 152
    },
    {
      "epoch": 0.008420936760416093,
      "grad_norm": 1.2029480934143066,
      "learning_rate": 9.999947220862615e-06,
      "loss": 0.9419,
      "step": 153
    },
    {
      "epoch": 0.008475975562771755,
      "grad_norm": 1.2104203701019287,
      "learning_rate": 9.999945210411428e-06,
      "loss": 0.9196,
      "step": 154
    },
    {
      "epoch": 0.008531014365127414,
      "grad_norm": 1.1857126951217651,
      "learning_rate": 9.999943162381991e-06,
      "loss": 0.9421,
      "step": 155
    },
    {
      "epoch": 0.008586053167483076,
      "grad_norm": 1.115027904510498,
      "learning_rate": 9.999941076774319e-06,
      "loss": 0.9634,
      "step": 156
    },
    {
      "epoch": 0.008641091969838737,
      "grad_norm": 1.4227553606033325,
      "learning_rate": 9.999938953588428e-06,
      "loss": 1.0036,
      "step": 157
    },
    {
      "epoch": 0.008696130772194397,
      "grad_norm": 1.2913776636123657,
      "learning_rate": 9.999936792824334e-06,
      "loss": 0.9232,
      "step": 158
    },
    {
      "epoch": 0.008751169574550058,
      "grad_norm": 1.2817318439483643,
      "learning_rate": 9.999934594482055e-06,
      "loss": 0.9691,
      "step": 159
    },
    {
      "epoch": 0.008806208376905718,
      "grad_norm": 1.5647841691970825,
      "learning_rate": 9.999932358561604e-06,
      "loss": 1.1842,
      "step": 160
    },
    {
      "epoch": 0.00886124717926138,
      "grad_norm": 1.368135929107666,
      "learning_rate": 9.999930085063002e-06,
      "loss": 1.0873,
      "step": 161
    },
    {
      "epoch": 0.00891628598161704,
      "grad_norm": 1.2297240495681763,
      "learning_rate": 9.999927773986262e-06,
      "loss": 1.0778,
      "step": 162
    },
    {
      "epoch": 0.0089713247839727,
      "grad_norm": 1.0658279657363892,
      "learning_rate": 9.999925425331405e-06,
      "loss": 0.9008,
      "step": 163
    },
    {
      "epoch": 0.009026363586328362,
      "grad_norm": 1.3484326601028442,
      "learning_rate": 9.999923039098445e-06,
      "loss": 1.0664,
      "step": 164
    },
    {
      "epoch": 0.009081402388684023,
      "grad_norm": 1.1839075088500977,
      "learning_rate": 9.999920615287401e-06,
      "loss": 0.9257,
      "step": 165
    },
    {
      "epoch": 0.009136441191039683,
      "grad_norm": 1.2757254838943481,
      "learning_rate": 9.999918153898295e-06,
      "loss": 0.9473,
      "step": 166
    },
    {
      "epoch": 0.009191479993395344,
      "grad_norm": 1.2414579391479492,
      "learning_rate": 9.99991565493114e-06,
      "loss": 1.1091,
      "step": 167
    },
    {
      "epoch": 0.009246518795751004,
      "grad_norm": 1.2802611589431763,
      "learning_rate": 9.999913118385959e-06,
      "loss": 1.063,
      "step": 168
    },
    {
      "epoch": 0.009301557598106665,
      "grad_norm": 1.2055327892303467,
      "learning_rate": 9.99991054426277e-06,
      "loss": 0.8,
      "step": 169
    },
    {
      "epoch": 0.009356596400462327,
      "grad_norm": 1.0391098260879517,
      "learning_rate": 9.99990793256159e-06,
      "loss": 0.8672,
      "step": 170
    },
    {
      "epoch": 0.009411635202817986,
      "grad_norm": 1.131536602973938,
      "learning_rate": 9.99990528328244e-06,
      "loss": 0.9569,
      "step": 171
    },
    {
      "epoch": 0.009466674005173648,
      "grad_norm": 1.164307951927185,
      "learning_rate": 9.999902596425342e-06,
      "loss": 0.9999,
      "step": 172
    },
    {
      "epoch": 0.009521712807529309,
      "grad_norm": 1.2099504470825195,
      "learning_rate": 9.999899871990313e-06,
      "loss": 0.9994,
      "step": 173
    },
    {
      "epoch": 0.009576751609884969,
      "grad_norm": 1.7294539213180542,
      "learning_rate": 9.999897109977376e-06,
      "loss": 1.0265,
      "step": 174
    },
    {
      "epoch": 0.00963179041224063,
      "grad_norm": 1.3009883165359497,
      "learning_rate": 9.99989431038655e-06,
      "loss": 0.9022,
      "step": 175
    },
    {
      "epoch": 0.00968682921459629,
      "grad_norm": 1.1014611721038818,
      "learning_rate": 9.999891473217857e-06,
      "loss": 0.8476,
      "step": 176
    },
    {
      "epoch": 0.009741868016951951,
      "grad_norm": 1.2410900592803955,
      "learning_rate": 9.99988859847132e-06,
      "loss": 1.0272,
      "step": 177
    },
    {
      "epoch": 0.009796906819307612,
      "grad_norm": 1.336348295211792,
      "learning_rate": 9.999885686146957e-06,
      "loss": 0.9456,
      "step": 178
    },
    {
      "epoch": 0.009851945621663272,
      "grad_norm": 1.2931095361709595,
      "learning_rate": 9.99988273624479e-06,
      "loss": 0.9554,
      "step": 179
    },
    {
      "epoch": 0.009906984424018933,
      "grad_norm": 1.2647838592529297,
      "learning_rate": 9.999879748764845e-06,
      "loss": 1.0394,
      "step": 180
    },
    {
      "epoch": 0.009962023226374595,
      "grad_norm": 1.3485127687454224,
      "learning_rate": 9.99987672370714e-06,
      "loss": 1.1016,
      "step": 181
    },
    {
      "epoch": 0.010017062028730254,
      "grad_norm": 1.110187292098999,
      "learning_rate": 9.999873661071702e-06,
      "loss": 0.946,
      "step": 182
    },
    {
      "epoch": 0.010072100831085916,
      "grad_norm": 1.0991623401641846,
      "learning_rate": 9.999870560858551e-06,
      "loss": 1.0084,
      "step": 183
    },
    {
      "epoch": 0.010127139633441576,
      "grad_norm": 1.049804449081421,
      "learning_rate": 9.999867423067713e-06,
      "loss": 0.8264,
      "step": 184
    },
    {
      "epoch": 0.010182178435797237,
      "grad_norm": 1.0947058200836182,
      "learning_rate": 9.999864247699207e-06,
      "loss": 0.8884,
      "step": 185
    },
    {
      "epoch": 0.010237217238152898,
      "grad_norm": 1.1147902011871338,
      "learning_rate": 9.999861034753061e-06,
      "loss": 0.9657,
      "step": 186
    },
    {
      "epoch": 0.010292256040508558,
      "grad_norm": 1.260027527809143,
      "learning_rate": 9.999857784229298e-06,
      "loss": 1.0102,
      "step": 187
    },
    {
      "epoch": 0.01034729484286422,
      "grad_norm": 1.1275582313537598,
      "learning_rate": 9.999854496127942e-06,
      "loss": 1.028,
      "step": 188
    },
    {
      "epoch": 0.01040233364521988,
      "grad_norm": 1.1377174854278564,
      "learning_rate": 9.999851170449018e-06,
      "loss": 1.032,
      "step": 189
    },
    {
      "epoch": 0.01045737244757554,
      "grad_norm": 1.1734225749969482,
      "learning_rate": 9.999847807192552e-06,
      "loss": 1.0009,
      "step": 190
    },
    {
      "epoch": 0.010512411249931202,
      "grad_norm": 1.1934596300125122,
      "learning_rate": 9.999844406358565e-06,
      "loss": 1.0432,
      "step": 191
    },
    {
      "epoch": 0.010567450052286861,
      "grad_norm": 1.0638024806976318,
      "learning_rate": 9.99984096794709e-06,
      "loss": 0.8651,
      "step": 192
    },
    {
      "epoch": 0.010622488854642523,
      "grad_norm": 1.2381829023361206,
      "learning_rate": 9.999837491958147e-06,
      "loss": 1.0088,
      "step": 193
    },
    {
      "epoch": 0.010677527656998184,
      "grad_norm": 1.030246615409851,
      "learning_rate": 9.999833978391763e-06,
      "loss": 0.9488,
      "step": 194
    },
    {
      "epoch": 0.010732566459353844,
      "grad_norm": 1.1640657186508179,
      "learning_rate": 9.999830427247965e-06,
      "loss": 1.0588,
      "step": 195
    },
    {
      "epoch": 0.010787605261709505,
      "grad_norm": 1.0431616306304932,
      "learning_rate": 9.99982683852678e-06,
      "loss": 0.8728,
      "step": 196
    },
    {
      "epoch": 0.010842644064065167,
      "grad_norm": 1.032263159751892,
      "learning_rate": 9.999823212228235e-06,
      "loss": 0.9498,
      "step": 197
    },
    {
      "epoch": 0.010897682866420826,
      "grad_norm": 1.1383745670318604,
      "learning_rate": 9.999819548352358e-06,
      "loss": 0.9498,
      "step": 198
    },
    {
      "epoch": 0.010952721668776488,
      "grad_norm": 1.1324639320373535,
      "learning_rate": 9.999815846899175e-06,
      "loss": 1.0432,
      "step": 199
    },
    {
      "epoch": 0.011007760471132147,
      "grad_norm": 1.188672661781311,
      "learning_rate": 9.999812107868714e-06,
      "loss": 0.982,
      "step": 200
    },
    {
      "epoch": 0.011062799273487809,
      "grad_norm": 1.1011098623275757,
      "learning_rate": 9.999808331261005e-06,
      "loss": 0.9587,
      "step": 201
    },
    {
      "epoch": 0.01111783807584347,
      "grad_norm": 1.1782938241958618,
      "learning_rate": 9.999804517076073e-06,
      "loss": 1.0659,
      "step": 202
    },
    {
      "epoch": 0.01117287687819913,
      "grad_norm": 1.0520117282867432,
      "learning_rate": 9.99980066531395e-06,
      "loss": 1.0056,
      "step": 203
    },
    {
      "epoch": 0.011227915680554791,
      "grad_norm": 1.1584919691085815,
      "learning_rate": 9.999796775974663e-06,
      "loss": 0.9435,
      "step": 204
    },
    {
      "epoch": 0.011282954482910452,
      "grad_norm": 1.2201849222183228,
      "learning_rate": 9.999792849058242e-06,
      "loss": 1.0562,
      "step": 205
    },
    {
      "epoch": 0.011337993285266112,
      "grad_norm": 1.2985976934432983,
      "learning_rate": 9.999788884564715e-06,
      "loss": 1.0126,
      "step": 206
    },
    {
      "epoch": 0.011393032087621774,
      "grad_norm": 0.9926307201385498,
      "learning_rate": 9.999784882494115e-06,
      "loss": 0.7875,
      "step": 207
    },
    {
      "epoch": 0.011448070889977435,
      "grad_norm": 1.103365182876587,
      "learning_rate": 9.99978084284647e-06,
      "loss": 0.9833,
      "step": 208
    },
    {
      "epoch": 0.011503109692333095,
      "grad_norm": 1.1798462867736816,
      "learning_rate": 9.99977676562181e-06,
      "loss": 0.8479,
      "step": 209
    },
    {
      "epoch": 0.011558148494688756,
      "grad_norm": 1.2887194156646729,
      "learning_rate": 9.999772650820168e-06,
      "loss": 0.9606,
      "step": 210
    },
    {
      "epoch": 0.011613187297044416,
      "grad_norm": 1.1120634078979492,
      "learning_rate": 9.99976849844157e-06,
      "loss": 0.9604,
      "step": 211
    },
    {
      "epoch": 0.011668226099400077,
      "grad_norm": 1.1248979568481445,
      "learning_rate": 9.999764308486052e-06,
      "loss": 0.9428,
      "step": 212
    },
    {
      "epoch": 0.011723264901755738,
      "grad_norm": 1.274610161781311,
      "learning_rate": 9.999760080953643e-06,
      "loss": 0.9044,
      "step": 213
    },
    {
      "epoch": 0.011778303704111398,
      "grad_norm": 1.1746865510940552,
      "learning_rate": 9.999755815844377e-06,
      "loss": 0.9114,
      "step": 214
    },
    {
      "epoch": 0.01183334250646706,
      "grad_norm": 1.2531086206436157,
      "learning_rate": 9.999751513158282e-06,
      "loss": 1.0785,
      "step": 215
    },
    {
      "epoch": 0.01188838130882272,
      "grad_norm": 1.0789539813995361,
      "learning_rate": 9.999747172895395e-06,
      "loss": 0.9794,
      "step": 216
    },
    {
      "epoch": 0.01194342011117838,
      "grad_norm": 1.1805329322814941,
      "learning_rate": 9.999742795055746e-06,
      "loss": 0.9602,
      "step": 217
    },
    {
      "epoch": 0.011998458913534042,
      "grad_norm": 2.309329032897949,
      "learning_rate": 9.99973837963937e-06,
      "loss": 0.9482,
      "step": 218
    },
    {
      "epoch": 0.012053497715889702,
      "grad_norm": 1.2379088401794434,
      "learning_rate": 9.999733926646296e-06,
      "loss": 1.0237,
      "step": 219
    },
    {
      "epoch": 0.012108536518245363,
      "grad_norm": 1.1581377983093262,
      "learning_rate": 9.999729436076562e-06,
      "loss": 1.0583,
      "step": 220
    },
    {
      "epoch": 0.012163575320601024,
      "grad_norm": 1.3006727695465088,
      "learning_rate": 9.999724907930199e-06,
      "loss": 0.9581,
      "step": 221
    },
    {
      "epoch": 0.012218614122956684,
      "grad_norm": 1.3215982913970947,
      "learning_rate": 9.999720342207243e-06,
      "loss": 0.9438,
      "step": 222
    },
    {
      "epoch": 0.012273652925312345,
      "grad_norm": 1.1107337474822998,
      "learning_rate": 9.999715738907727e-06,
      "loss": 0.9987,
      "step": 223
    },
    {
      "epoch": 0.012328691727668007,
      "grad_norm": 1.0745457410812378,
      "learning_rate": 9.999711098031685e-06,
      "loss": 0.9637,
      "step": 224
    },
    {
      "epoch": 0.012383730530023666,
      "grad_norm": 1.110861897468567,
      "learning_rate": 9.999706419579154e-06,
      "loss": 1.0225,
      "step": 225
    },
    {
      "epoch": 0.012438769332379328,
      "grad_norm": 1.0755527019500732,
      "learning_rate": 9.999701703550167e-06,
      "loss": 1.0204,
      "step": 226
    },
    {
      "epoch": 0.012493808134734987,
      "grad_norm": 1.1694976091384888,
      "learning_rate": 9.99969694994476e-06,
      "loss": 1.0566,
      "step": 227
    },
    {
      "epoch": 0.012548846937090649,
      "grad_norm": 1.455856442451477,
      "learning_rate": 9.99969215876297e-06,
      "loss": 0.9397,
      "step": 228
    },
    {
      "epoch": 0.01260388573944631,
      "grad_norm": 1.0707073211669922,
      "learning_rate": 9.99968733000483e-06,
      "loss": 0.8286,
      "step": 229
    },
    {
      "epoch": 0.01265892454180197,
      "grad_norm": 1.189548134803772,
      "learning_rate": 9.99968246367038e-06,
      "loss": 0.8762,
      "step": 230
    },
    {
      "epoch": 0.012713963344157631,
      "grad_norm": 1.1439214944839478,
      "learning_rate": 9.999677559759655e-06,
      "loss": 0.9187,
      "step": 231
    },
    {
      "epoch": 0.012769002146513293,
      "grad_norm": 1.2329761981964111,
      "learning_rate": 9.999672618272691e-06,
      "loss": 1.0374,
      "step": 232
    },
    {
      "epoch": 0.012824040948868952,
      "grad_norm": 1.1545134782791138,
      "learning_rate": 9.999667639209527e-06,
      "loss": 0.9343,
      "step": 233
    },
    {
      "epoch": 0.012879079751224614,
      "grad_norm": 1.0946775674819946,
      "learning_rate": 9.999662622570198e-06,
      "loss": 0.9568,
      "step": 234
    },
    {
      "epoch": 0.012934118553580273,
      "grad_norm": 1.2099589109420776,
      "learning_rate": 9.999657568354743e-06,
      "loss": 1.0364,
      "step": 235
    },
    {
      "epoch": 0.012989157355935935,
      "grad_norm": 1.09062922000885,
      "learning_rate": 9.999652476563202e-06,
      "loss": 1.0289,
      "step": 236
    },
    {
      "epoch": 0.013044196158291596,
      "grad_norm": 1.154557228088379,
      "learning_rate": 9.999647347195612e-06,
      "loss": 0.9925,
      "step": 237
    },
    {
      "epoch": 0.013099234960647256,
      "grad_norm": 1.025374174118042,
      "learning_rate": 9.999642180252008e-06,
      "loss": 0.9346,
      "step": 238
    },
    {
      "epoch": 0.013154273763002917,
      "grad_norm": 1.1473641395568848,
      "learning_rate": 9.999636975732433e-06,
      "loss": 1.0244,
      "step": 239
    },
    {
      "epoch": 0.013209312565358578,
      "grad_norm": 1.0421240329742432,
      "learning_rate": 9.999631733636923e-06,
      "loss": 0.9368,
      "step": 240
    },
    {
      "epoch": 0.013264351367714238,
      "grad_norm": 1.1076610088348389,
      "learning_rate": 9.99962645396552e-06,
      "loss": 1.0276,
      "step": 241
    },
    {
      "epoch": 0.0133193901700699,
      "grad_norm": 1.143559455871582,
      "learning_rate": 9.999621136718266e-06,
      "loss": 0.9626,
      "step": 242
    },
    {
      "epoch": 0.01337442897242556,
      "grad_norm": 1.0958378314971924,
      "learning_rate": 9.999615781895195e-06,
      "loss": 1.0254,
      "step": 243
    },
    {
      "epoch": 0.01342946777478122,
      "grad_norm": 1.117688536643982,
      "learning_rate": 9.99961038949635e-06,
      "loss": 0.9685,
      "step": 244
    },
    {
      "epoch": 0.013484506577136882,
      "grad_norm": 1.1645647287368774,
      "learning_rate": 9.999604959521771e-06,
      "loss": 1.0666,
      "step": 245
    },
    {
      "epoch": 0.013539545379492542,
      "grad_norm": 1.1238516569137573,
      "learning_rate": 9.999599491971502e-06,
      "loss": 1.0252,
      "step": 246
    },
    {
      "epoch": 0.013594584181848203,
      "grad_norm": 1.0196914672851562,
      "learning_rate": 9.999593986845579e-06,
      "loss": 0.9389,
      "step": 247
    },
    {
      "epoch": 0.013649622984203864,
      "grad_norm": 1.0231372117996216,
      "learning_rate": 9.999588444144049e-06,
      "loss": 0.8786,
      "step": 248
    },
    {
      "epoch": 0.013704661786559524,
      "grad_norm": 1.2504147291183472,
      "learning_rate": 9.999582863866947e-06,
      "loss": 1.0969,
      "step": 249
    },
    {
      "epoch": 0.013759700588915185,
      "grad_norm": 1.1123549938201904,
      "learning_rate": 9.99957724601432e-06,
      "loss": 0.8833,
      "step": 250
    },
    {
      "epoch": 0.013814739391270847,
      "grad_norm": 1.1068202257156372,
      "learning_rate": 9.999571590586208e-06,
      "loss": 0.9709,
      "step": 251
    },
    {
      "epoch": 0.013869778193626506,
      "grad_norm": 0.9891651272773743,
      "learning_rate": 9.999565897582655e-06,
      "loss": 0.8598,
      "step": 252
    },
    {
      "epoch": 0.013924816995982168,
      "grad_norm": 0.9866491556167603,
      "learning_rate": 9.999560167003703e-06,
      "loss": 0.8101,
      "step": 253
    },
    {
      "epoch": 0.013979855798337828,
      "grad_norm": 1.0862594842910767,
      "learning_rate": 9.999554398849396e-06,
      "loss": 0.9411,
      "step": 254
    },
    {
      "epoch": 0.014034894600693489,
      "grad_norm": 1.1898949146270752,
      "learning_rate": 9.999548593119774e-06,
      "loss": 0.9548,
      "step": 255
    },
    {
      "epoch": 0.01408993340304915,
      "grad_norm": 1.2167880535125732,
      "learning_rate": 9.999542749814886e-06,
      "loss": 1.0302,
      "step": 256
    },
    {
      "epoch": 0.01414497220540481,
      "grad_norm": 1.0784146785736084,
      "learning_rate": 9.999536868934771e-06,
      "loss": 0.8875,
      "step": 257
    },
    {
      "epoch": 0.014200011007760471,
      "grad_norm": 1.1128027439117432,
      "learning_rate": 9.999530950479475e-06,
      "loss": 0.9498,
      "step": 258
    },
    {
      "epoch": 0.014255049810116133,
      "grad_norm": 1.1311595439910889,
      "learning_rate": 9.999524994449044e-06,
      "loss": 0.9035,
      "step": 259
    },
    {
      "epoch": 0.014310088612471792,
      "grad_norm": 1.225615382194519,
      "learning_rate": 9.999519000843521e-06,
      "loss": 1.0104,
      "step": 260
    },
    {
      "epoch": 0.014365127414827454,
      "grad_norm": 1.2347793579101562,
      "learning_rate": 9.99951296966295e-06,
      "loss": 1.0288,
      "step": 261
    },
    {
      "epoch": 0.014420166217183113,
      "grad_norm": 1.1837103366851807,
      "learning_rate": 9.99950690090738e-06,
      "loss": 0.9553,
      "step": 262
    },
    {
      "epoch": 0.014475205019538775,
      "grad_norm": 1.1985397338867188,
      "learning_rate": 9.999500794576852e-06,
      "loss": 0.9561,
      "step": 263
    },
    {
      "epoch": 0.014530243821894436,
      "grad_norm": 1.036928415298462,
      "learning_rate": 9.999494650671418e-06,
      "loss": 0.8906,
      "step": 264
    },
    {
      "epoch": 0.014585282624250096,
      "grad_norm": 1.0797842741012573,
      "learning_rate": 9.999488469191116e-06,
      "loss": 0.8975,
      "step": 265
    },
    {
      "epoch": 0.014640321426605757,
      "grad_norm": 1.0571156740188599,
      "learning_rate": 9.999482250136e-06,
      "loss": 0.9334,
      "step": 266
    },
    {
      "epoch": 0.014695360228961419,
      "grad_norm": 1.2065023183822632,
      "learning_rate": 9.999475993506114e-06,
      "loss": 0.8986,
      "step": 267
    },
    {
      "epoch": 0.014750399031317078,
      "grad_norm": 1.201586127281189,
      "learning_rate": 9.999469699301502e-06,
      "loss": 0.9192,
      "step": 268
    },
    {
      "epoch": 0.01480543783367274,
      "grad_norm": 1.0470168590545654,
      "learning_rate": 9.999463367522216e-06,
      "loss": 0.8604,
      "step": 269
    },
    {
      "epoch": 0.0148604766360284,
      "grad_norm": 1.1142147779464722,
      "learning_rate": 9.9994569981683e-06,
      "loss": 0.9847,
      "step": 270
    },
    {
      "epoch": 0.01491551543838406,
      "grad_norm": 1.0352061986923218,
      "learning_rate": 9.999450591239805e-06,
      "loss": 0.8927,
      "step": 271
    },
    {
      "epoch": 0.014970554240739722,
      "grad_norm": 1.0353184938430786,
      "learning_rate": 9.999444146736779e-06,
      "loss": 0.8435,
      "step": 272
    },
    {
      "epoch": 0.015025593043095382,
      "grad_norm": 1.2091951370239258,
      "learning_rate": 9.999437664659267e-06,
      "loss": 0.8959,
      "step": 273
    },
    {
      "epoch": 0.015080631845451043,
      "grad_norm": 1.006361722946167,
      "learning_rate": 9.999431145007319e-06,
      "loss": 0.8579,
      "step": 274
    },
    {
      "epoch": 0.015135670647806704,
      "grad_norm": 1.1265509128570557,
      "learning_rate": 9.999424587780985e-06,
      "loss": 0.8808,
      "step": 275
    },
    {
      "epoch": 0.015190709450162364,
      "grad_norm": 1.060882568359375,
      "learning_rate": 9.999417992980317e-06,
      "loss": 1.044,
      "step": 276
    },
    {
      "epoch": 0.015245748252518026,
      "grad_norm": 1.0216747522354126,
      "learning_rate": 9.999411360605358e-06,
      "loss": 0.7773,
      "step": 277
    },
    {
      "epoch": 0.015300787054873685,
      "grad_norm": 1.1382462978363037,
      "learning_rate": 9.999404690656163e-06,
      "loss": 0.8954,
      "step": 278
    },
    {
      "epoch": 0.015355825857229347,
      "grad_norm": 1.113815188407898,
      "learning_rate": 9.99939798313278e-06,
      "loss": 0.8143,
      "step": 279
    },
    {
      "epoch": 0.015410864659585008,
      "grad_norm": 1.123530387878418,
      "learning_rate": 9.99939123803526e-06,
      "loss": 0.8872,
      "step": 280
    },
    {
      "epoch": 0.015465903461940668,
      "grad_norm": 1.0873669385910034,
      "learning_rate": 9.999384455363656e-06,
      "loss": 1.008,
      "step": 281
    },
    {
      "epoch": 0.015520942264296329,
      "grad_norm": 1.5956637859344482,
      "learning_rate": 9.999377635118014e-06,
      "loss": 0.9456,
      "step": 282
    },
    {
      "epoch": 0.01557598106665199,
      "grad_norm": 1.1471425294876099,
      "learning_rate": 9.999370777298389e-06,
      "loss": 0.9897,
      "step": 283
    },
    {
      "epoch": 0.01563101986900765,
      "grad_norm": 0.9960193634033203,
      "learning_rate": 9.999363881904831e-06,
      "loss": 0.8196,
      "step": 284
    },
    {
      "epoch": 0.01568605867136331,
      "grad_norm": 1.1033951044082642,
      "learning_rate": 9.999356948937393e-06,
      "loss": 0.879,
      "step": 285
    },
    {
      "epoch": 0.015741097473718973,
      "grad_norm": 1.157765507698059,
      "learning_rate": 9.999349978396126e-06,
      "loss": 1.0116,
      "step": 286
    },
    {
      "epoch": 0.015796136276074634,
      "grad_norm": 1.0472352504730225,
      "learning_rate": 9.999342970281084e-06,
      "loss": 0.8657,
      "step": 287
    },
    {
      "epoch": 0.015851175078430292,
      "grad_norm": 1.1346659660339355,
      "learning_rate": 9.999335924592315e-06,
      "loss": 0.8482,
      "step": 288
    },
    {
      "epoch": 0.015906213880785953,
      "grad_norm": 1.1164487600326538,
      "learning_rate": 9.999328841329879e-06,
      "loss": 1.0542,
      "step": 289
    },
    {
      "epoch": 0.015961252683141615,
      "grad_norm": 1.1890591382980347,
      "learning_rate": 9.999321720493825e-06,
      "loss": 0.9598,
      "step": 290
    },
    {
      "epoch": 0.016016291485497276,
      "grad_norm": 1.0419867038726807,
      "learning_rate": 9.999314562084205e-06,
      "loss": 0.9548,
      "step": 291
    },
    {
      "epoch": 0.016071330287852938,
      "grad_norm": 1.0652042627334595,
      "learning_rate": 9.999307366101077e-06,
      "loss": 0.9359,
      "step": 292
    },
    {
      "epoch": 0.016126369090208596,
      "grad_norm": 1.0166404247283936,
      "learning_rate": 9.999300132544492e-06,
      "loss": 0.9276,
      "step": 293
    },
    {
      "epoch": 0.016181407892564257,
      "grad_norm": 1.1638866662979126,
      "learning_rate": 9.999292861414507e-06,
      "loss": 0.957,
      "step": 294
    },
    {
      "epoch": 0.01623644669491992,
      "grad_norm": 1.5505993366241455,
      "learning_rate": 9.999285552711173e-06,
      "loss": 0.9878,
      "step": 295
    },
    {
      "epoch": 0.01629148549727558,
      "grad_norm": 1.177262783050537,
      "learning_rate": 9.999278206434549e-06,
      "loss": 0.8631,
      "step": 296
    },
    {
      "epoch": 0.01634652429963124,
      "grad_norm": 1.8578168153762817,
      "learning_rate": 9.999270822584687e-06,
      "loss": 0.9684,
      "step": 297
    },
    {
      "epoch": 0.0164015631019869,
      "grad_norm": 1.2617360353469849,
      "learning_rate": 9.999263401161643e-06,
      "loss": 1.014,
      "step": 298
    },
    {
      "epoch": 0.01645660190434256,
      "grad_norm": 0.9740132689476013,
      "learning_rate": 9.999255942165475e-06,
      "loss": 0.8606,
      "step": 299
    },
    {
      "epoch": 0.016511640706698222,
      "grad_norm": 0.9821745753288269,
      "learning_rate": 9.999248445596238e-06,
      "loss": 0.8241,
      "step": 300
    },
    {
      "epoch": 0.016566679509053883,
      "grad_norm": 1.0200445652008057,
      "learning_rate": 9.999240911453986e-06,
      "loss": 0.8256,
      "step": 301
    },
    {
      "epoch": 0.016621718311409545,
      "grad_norm": 1.4100390672683716,
      "learning_rate": 9.999233339738779e-06,
      "loss": 0.9057,
      "step": 302
    },
    {
      "epoch": 0.016676757113765206,
      "grad_norm": 1.056544303894043,
      "learning_rate": 9.99922573045067e-06,
      "loss": 1.0808,
      "step": 303
    },
    {
      "epoch": 0.016731795916120864,
      "grad_norm": 0.9271026253700256,
      "learning_rate": 9.99921808358972e-06,
      "loss": 0.878,
      "step": 304
    },
    {
      "epoch": 0.016786834718476525,
      "grad_norm": 0.9864157438278198,
      "learning_rate": 9.999210399155987e-06,
      "loss": 0.9198,
      "step": 305
    },
    {
      "epoch": 0.016841873520832187,
      "grad_norm": 1.093995451927185,
      "learning_rate": 9.999202677149525e-06,
      "loss": 0.9794,
      "step": 306
    },
    {
      "epoch": 0.016896912323187848,
      "grad_norm": 0.9717912077903748,
      "learning_rate": 9.999194917570395e-06,
      "loss": 0.8764,
      "step": 307
    },
    {
      "epoch": 0.01695195112554351,
      "grad_norm": 1.0026428699493408,
      "learning_rate": 9.999187120418653e-06,
      "loss": 0.8526,
      "step": 308
    },
    {
      "epoch": 0.017006989927899167,
      "grad_norm": 1.122870922088623,
      "learning_rate": 9.999179285694359e-06,
      "loss": 0.9773,
      "step": 309
    },
    {
      "epoch": 0.01706202873025483,
      "grad_norm": 1.0522836446762085,
      "learning_rate": 9.999171413397572e-06,
      "loss": 1.0183,
      "step": 310
    },
    {
      "epoch": 0.01711706753261049,
      "grad_norm": 0.9303658604621887,
      "learning_rate": 9.99916350352835e-06,
      "loss": 0.8402,
      "step": 311
    },
    {
      "epoch": 0.01717210633496615,
      "grad_norm": 0.9606096148490906,
      "learning_rate": 9.999155556086755e-06,
      "loss": 0.9692,
      "step": 312
    },
    {
      "epoch": 0.017227145137321813,
      "grad_norm": 1.176992416381836,
      "learning_rate": 9.999147571072844e-06,
      "loss": 0.8172,
      "step": 313
    },
    {
      "epoch": 0.017282183939677474,
      "grad_norm": 1.1948801279067993,
      "learning_rate": 9.999139548486678e-06,
      "loss": 1.0205,
      "step": 314
    },
    {
      "epoch": 0.017337222742033132,
      "grad_norm": 1.0064897537231445,
      "learning_rate": 9.999131488328318e-06,
      "loss": 0.9479,
      "step": 315
    },
    {
      "epoch": 0.017392261544388794,
      "grad_norm": 1.048242449760437,
      "learning_rate": 9.999123390597822e-06,
      "loss": 0.9862,
      "step": 316
    },
    {
      "epoch": 0.017447300346744455,
      "grad_norm": 1.12875497341156,
      "learning_rate": 9.999115255295256e-06,
      "loss": 0.9743,
      "step": 317
    },
    {
      "epoch": 0.017502339149100116,
      "grad_norm": 1.0607460737228394,
      "learning_rate": 9.999107082420674e-06,
      "loss": 0.8878,
      "step": 318
    },
    {
      "epoch": 0.017557377951455778,
      "grad_norm": 1.1480191946029663,
      "learning_rate": 9.999098871974144e-06,
      "loss": 0.8769,
      "step": 319
    },
    {
      "epoch": 0.017612416753811436,
      "grad_norm": 1.1150004863739014,
      "learning_rate": 9.999090623955724e-06,
      "loss": 0.8615,
      "step": 320
    },
    {
      "epoch": 0.017667455556167097,
      "grad_norm": 1.137839913368225,
      "learning_rate": 9.999082338365478e-06,
      "loss": 0.9703,
      "step": 321
    },
    {
      "epoch": 0.01772249435852276,
      "grad_norm": 1.0883489847183228,
      "learning_rate": 9.999074015203467e-06,
      "loss": 0.9273,
      "step": 322
    },
    {
      "epoch": 0.01777753316087842,
      "grad_norm": 1.0999557971954346,
      "learning_rate": 9.999065654469752e-06,
      "loss": 0.9605,
      "step": 323
    },
    {
      "epoch": 0.01783257196323408,
      "grad_norm": 0.9911689758300781,
      "learning_rate": 9.999057256164401e-06,
      "loss": 0.9117,
      "step": 324
    },
    {
      "epoch": 0.01788761076558974,
      "grad_norm": 1.040933609008789,
      "learning_rate": 9.999048820287472e-06,
      "loss": 0.9229,
      "step": 325
    },
    {
      "epoch": 0.0179426495679454,
      "grad_norm": 1.4341392517089844,
      "learning_rate": 9.999040346839031e-06,
      "loss": 1.0718,
      "step": 326
    },
    {
      "epoch": 0.017997688370301062,
      "grad_norm": 1.0246332883834839,
      "learning_rate": 9.99903183581914e-06,
      "loss": 0.9617,
      "step": 327
    },
    {
      "epoch": 0.018052727172656723,
      "grad_norm": 10.162322998046875,
      "learning_rate": 9.999023287227863e-06,
      "loss": 1.0391,
      "step": 328
    },
    {
      "epoch": 0.018107765975012385,
      "grad_norm": 1.3370027542114258,
      "learning_rate": 9.999014701065266e-06,
      "loss": 1.0211,
      "step": 329
    },
    {
      "epoch": 0.018162804777368046,
      "grad_norm": 1.0146219730377197,
      "learning_rate": 9.999006077331413e-06,
      "loss": 0.8611,
      "step": 330
    },
    {
      "epoch": 0.018217843579723704,
      "grad_norm": 1.0899269580841064,
      "learning_rate": 9.998997416026368e-06,
      "loss": 0.9209,
      "step": 331
    },
    {
      "epoch": 0.018272882382079365,
      "grad_norm": 1.1343204975128174,
      "learning_rate": 9.998988717150198e-06,
      "loss": 0.9405,
      "step": 332
    },
    {
      "epoch": 0.018327921184435027,
      "grad_norm": 1.2308380603790283,
      "learning_rate": 9.998979980702965e-06,
      "loss": 0.9579,
      "step": 333
    },
    {
      "epoch": 0.018382959986790688,
      "grad_norm": 1.1433519124984741,
      "learning_rate": 9.998971206684737e-06,
      "loss": 1.0045,
      "step": 334
    },
    {
      "epoch": 0.01843799878914635,
      "grad_norm": 1.0585781335830688,
      "learning_rate": 9.99896239509558e-06,
      "loss": 0.9171,
      "step": 335
    },
    {
      "epoch": 0.018493037591502007,
      "grad_norm": 1.2735164165496826,
      "learning_rate": 9.99895354593556e-06,
      "loss": 1.1001,
      "step": 336
    },
    {
      "epoch": 0.01854807639385767,
      "grad_norm": 1.2905755043029785,
      "learning_rate": 9.998944659204744e-06,
      "loss": 1.0294,
      "step": 337
    },
    {
      "epoch": 0.01860311519621333,
      "grad_norm": 1.1442075967788696,
      "learning_rate": 9.998935734903198e-06,
      "loss": 0.9385,
      "step": 338
    },
    {
      "epoch": 0.01865815399856899,
      "grad_norm": 1.1005232334136963,
      "learning_rate": 9.998926773030987e-06,
      "loss": 1.026,
      "step": 339
    },
    {
      "epoch": 0.018713192800924653,
      "grad_norm": 1.2770785093307495,
      "learning_rate": 9.998917773588182e-06,
      "loss": 1.0015,
      "step": 340
    },
    {
      "epoch": 0.01876823160328031,
      "grad_norm": 1.0963070392608643,
      "learning_rate": 9.998908736574849e-06,
      "loss": 0.9347,
      "step": 341
    },
    {
      "epoch": 0.018823270405635972,
      "grad_norm": 1.10364830493927,
      "learning_rate": 9.998899661991055e-06,
      "loss": 0.869,
      "step": 342
    },
    {
      "epoch": 0.018878309207991634,
      "grad_norm": 1.0364975929260254,
      "learning_rate": 9.99889054983687e-06,
      "loss": 0.9855,
      "step": 343
    },
    {
      "epoch": 0.018933348010347295,
      "grad_norm": 1.104702115058899,
      "learning_rate": 9.998881400112362e-06,
      "loss": 0.9555,
      "step": 344
    },
    {
      "epoch": 0.018988386812702956,
      "grad_norm": 0.9957441687583923,
      "learning_rate": 9.998872212817599e-06,
      "loss": 0.9634,
      "step": 345
    },
    {
      "epoch": 0.019043425615058618,
      "grad_norm": 1.262271523475647,
      "learning_rate": 9.998862987952651e-06,
      "loss": 1.0133,
      "step": 346
    },
    {
      "epoch": 0.019098464417414276,
      "grad_norm": 1.2075226306915283,
      "learning_rate": 9.998853725517587e-06,
      "loss": 1.0588,
      "step": 347
    },
    {
      "epoch": 0.019153503219769937,
      "grad_norm": 1.0609898567199707,
      "learning_rate": 9.998844425512477e-06,
      "loss": 0.9952,
      "step": 348
    },
    {
      "epoch": 0.0192085420221256,
      "grad_norm": 1.1930195093154907,
      "learning_rate": 9.998835087937389e-06,
      "loss": 0.9617,
      "step": 349
    },
    {
      "epoch": 0.01926358082448126,
      "grad_norm": 1.2359932661056519,
      "learning_rate": 9.998825712792396e-06,
      "loss": 0.8768,
      "step": 350
    },
    {
      "epoch": 0.01931861962683692,
      "grad_norm": 0.9984115362167358,
      "learning_rate": 9.998816300077566e-06,
      "loss": 0.8205,
      "step": 351
    },
    {
      "epoch": 0.01937365842919258,
      "grad_norm": 1.6853677034378052,
      "learning_rate": 9.998806849792972e-06,
      "loss": 0.9066,
      "step": 352
    },
    {
      "epoch": 0.01942869723154824,
      "grad_norm": 1.2869856357574463,
      "learning_rate": 9.998797361938683e-06,
      "loss": 1.0054,
      "step": 353
    },
    {
      "epoch": 0.019483736033903902,
      "grad_norm": 1.2791584730148315,
      "learning_rate": 9.99878783651477e-06,
      "loss": 0.7627,
      "step": 354
    },
    {
      "epoch": 0.019538774836259563,
      "grad_norm": 1.0795867443084717,
      "learning_rate": 9.998778273521307e-06,
      "loss": 0.9343,
      "step": 355
    },
    {
      "epoch": 0.019593813638615225,
      "grad_norm": 1.0926088094711304,
      "learning_rate": 9.998768672958365e-06,
      "loss": 0.943,
      "step": 356
    },
    {
      "epoch": 0.019648852440970886,
      "grad_norm": 1.0530847311019897,
      "learning_rate": 9.998759034826015e-06,
      "loss": 0.9656,
      "step": 357
    },
    {
      "epoch": 0.019703891243326544,
      "grad_norm": 1.1793400049209595,
      "learning_rate": 9.99874935912433e-06,
      "loss": 0.9799,
      "step": 358
    },
    {
      "epoch": 0.019758930045682205,
      "grad_norm": 1.0726191997528076,
      "learning_rate": 9.998739645853383e-06,
      "loss": 0.8739,
      "step": 359
    },
    {
      "epoch": 0.019813968848037867,
      "grad_norm": 1.0488981008529663,
      "learning_rate": 9.998729895013246e-06,
      "loss": 0.8986,
      "step": 360
    },
    {
      "epoch": 0.019869007650393528,
      "grad_norm": 1.8267477750778198,
      "learning_rate": 9.998720106603993e-06,
      "loss": 0.9175,
      "step": 361
    },
    {
      "epoch": 0.01992404645274919,
      "grad_norm": 0.9868306517601013,
      "learning_rate": 9.9987102806257e-06,
      "loss": 0.9609,
      "step": 362
    },
    {
      "epoch": 0.019979085255104848,
      "grad_norm": 1.0171183347702026,
      "learning_rate": 9.998700417078438e-06,
      "loss": 0.8904,
      "step": 363
    },
    {
      "epoch": 0.02003412405746051,
      "grad_norm": 0.9800812602043152,
      "learning_rate": 9.998690515962282e-06,
      "loss": 0.8344,
      "step": 364
    },
    {
      "epoch": 0.02008916285981617,
      "grad_norm": 1.024707317352295,
      "learning_rate": 9.998680577277304e-06,
      "loss": 0.9026,
      "step": 365
    },
    {
      "epoch": 0.02014420166217183,
      "grad_norm": 1.1056619882583618,
      "learning_rate": 9.998670601023584e-06,
      "loss": 1.017,
      "step": 366
    },
    {
      "epoch": 0.020199240464527493,
      "grad_norm": 1.0555908679962158,
      "learning_rate": 9.998660587201191e-06,
      "loss": 0.9627,
      "step": 367
    },
    {
      "epoch": 0.02025427926688315,
      "grad_norm": 0.9502031803131104,
      "learning_rate": 9.998650535810204e-06,
      "loss": 0.935,
      "step": 368
    },
    {
      "epoch": 0.020309318069238812,
      "grad_norm": 1.0355613231658936,
      "learning_rate": 9.998640446850699e-06,
      "loss": 0.9946,
      "step": 369
    },
    {
      "epoch": 0.020364356871594474,
      "grad_norm": 0.9906355142593384,
      "learning_rate": 9.99863032032275e-06,
      "loss": 0.9389,
      "step": 370
    },
    {
      "epoch": 0.020419395673950135,
      "grad_norm": 0.9483911395072937,
      "learning_rate": 9.99862015622643e-06,
      "loss": 0.979,
      "step": 371
    },
    {
      "epoch": 0.020474434476305797,
      "grad_norm": 0.9769986271858215,
      "learning_rate": 9.998609954561822e-06,
      "loss": 0.8972,
      "step": 372
    },
    {
      "epoch": 0.020529473278661458,
      "grad_norm": 1.1682699918746948,
      "learning_rate": 9.998599715329e-06,
      "loss": 0.943,
      "step": 373
    },
    {
      "epoch": 0.020584512081017116,
      "grad_norm": 1.007912516593933,
      "learning_rate": 9.99858943852804e-06,
      "loss": 0.8825,
      "step": 374
    },
    {
      "epoch": 0.020639550883372777,
      "grad_norm": 0.9788785576820374,
      "learning_rate": 9.99857912415902e-06,
      "loss": 0.9667,
      "step": 375
    },
    {
      "epoch": 0.02069458968572844,
      "grad_norm": 1.0804275274276733,
      "learning_rate": 9.998568772222017e-06,
      "loss": 1.0026,
      "step": 376
    },
    {
      "epoch": 0.0207496284880841,
      "grad_norm": 1.0859237909317017,
      "learning_rate": 9.998558382717109e-06,
      "loss": 0.9592,
      "step": 377
    },
    {
      "epoch": 0.02080466729043976,
      "grad_norm": 1.2925337553024292,
      "learning_rate": 9.998547955644373e-06,
      "loss": 0.9067,
      "step": 378
    },
    {
      "epoch": 0.02085970609279542,
      "grad_norm": 0.9853373765945435,
      "learning_rate": 9.99853749100389e-06,
      "loss": 0.9538,
      "step": 379
    },
    {
      "epoch": 0.02091474489515108,
      "grad_norm": 1.0461076498031616,
      "learning_rate": 9.998526988795738e-06,
      "loss": 0.9261,
      "step": 380
    },
    {
      "epoch": 0.020969783697506742,
      "grad_norm": 1.024559497833252,
      "learning_rate": 9.998516449019995e-06,
      "loss": 0.9117,
      "step": 381
    },
    {
      "epoch": 0.021024822499862404,
      "grad_norm": 1.1474825143814087,
      "learning_rate": 9.998505871676739e-06,
      "loss": 1.0177,
      "step": 382
    },
    {
      "epoch": 0.021079861302218065,
      "grad_norm": 0.9587596654891968,
      "learning_rate": 9.998495256766051e-06,
      "loss": 0.8809,
      "step": 383
    },
    {
      "epoch": 0.021134900104573723,
      "grad_norm": 0.9505122303962708,
      "learning_rate": 9.998484604288013e-06,
      "loss": 0.9266,
      "step": 384
    },
    {
      "epoch": 0.021189938906929384,
      "grad_norm": 0.9625647664070129,
      "learning_rate": 9.9984739142427e-06,
      "loss": 0.9073,
      "step": 385
    },
    {
      "epoch": 0.021244977709285046,
      "grad_norm": 0.9650934338569641,
      "learning_rate": 9.998463186630196e-06,
      "loss": 0.9042,
      "step": 386
    },
    {
      "epoch": 0.021300016511640707,
      "grad_norm": 1.0289491415023804,
      "learning_rate": 9.99845242145058e-06,
      "loss": 0.929,
      "step": 387
    },
    {
      "epoch": 0.02135505531399637,
      "grad_norm": 0.9543869495391846,
      "learning_rate": 9.998441618703935e-06,
      "loss": 0.9406,
      "step": 388
    },
    {
      "epoch": 0.02141009411635203,
      "grad_norm": 0.9276942610740662,
      "learning_rate": 9.99843077839034e-06,
      "loss": 0.8982,
      "step": 389
    },
    {
      "epoch": 0.021465132918707688,
      "grad_norm": 0.9264664053916931,
      "learning_rate": 9.998419900509877e-06,
      "loss": 0.7255,
      "step": 390
    },
    {
      "epoch": 0.02152017172106335,
      "grad_norm": 0.9961187243461609,
      "learning_rate": 9.998408985062628e-06,
      "loss": 0.9826,
      "step": 391
    },
    {
      "epoch": 0.02157521052341901,
      "grad_norm": 0.966596245765686,
      "learning_rate": 9.998398032048676e-06,
      "loss": 0.8159,
      "step": 392
    },
    {
      "epoch": 0.021630249325774672,
      "grad_norm": 1.1336095333099365,
      "learning_rate": 9.998387041468102e-06,
      "loss": 0.9289,
      "step": 393
    },
    {
      "epoch": 0.021685288128130333,
      "grad_norm": 1.0453619956970215,
      "learning_rate": 9.998376013320989e-06,
      "loss": 0.8816,
      "step": 394
    },
    {
      "epoch": 0.02174032693048599,
      "grad_norm": 0.8961821794509888,
      "learning_rate": 9.998364947607419e-06,
      "loss": 0.871,
      "step": 395
    },
    {
      "epoch": 0.021795365732841653,
      "grad_norm": 1.3420332670211792,
      "learning_rate": 9.998353844327477e-06,
      "loss": 0.9338,
      "step": 396
    },
    {
      "epoch": 0.021850404535197314,
      "grad_norm": 0.9635335206985474,
      "learning_rate": 9.998342703481246e-06,
      "loss": 0.9592,
      "step": 397
    },
    {
      "epoch": 0.021905443337552975,
      "grad_norm": 1.3322341442108154,
      "learning_rate": 9.998331525068807e-06,
      "loss": 1.0974,
      "step": 398
    },
    {
      "epoch": 0.021960482139908637,
      "grad_norm": 1.017220377922058,
      "learning_rate": 9.998320309090247e-06,
      "loss": 0.9827,
      "step": 399
    },
    {
      "epoch": 0.022015520942264295,
      "grad_norm": 1.0080329179763794,
      "learning_rate": 9.99830905554565e-06,
      "loss": 0.877,
      "step": 400
    },
    {
      "epoch": 0.022070559744619956,
      "grad_norm": 0.9883211255073547,
      "learning_rate": 9.998297764435101e-06,
      "loss": 0.9625,
      "step": 401
    },
    {
      "epoch": 0.022125598546975617,
      "grad_norm": 1.0948412418365479,
      "learning_rate": 9.998286435758684e-06,
      "loss": 0.9058,
      "step": 402
    },
    {
      "epoch": 0.02218063734933128,
      "grad_norm": 0.9402000308036804,
      "learning_rate": 9.998275069516482e-06,
      "loss": 0.8882,
      "step": 403
    },
    {
      "epoch": 0.02223567615168694,
      "grad_norm": 0.9858806133270264,
      "learning_rate": 9.998263665708583e-06,
      "loss": 0.9086,
      "step": 404
    },
    {
      "epoch": 0.0222907149540426,
      "grad_norm": 1.0556131601333618,
      "learning_rate": 9.998252224335073e-06,
      "loss": 0.9583,
      "step": 405
    },
    {
      "epoch": 0.02234575375639826,
      "grad_norm": 1.092766284942627,
      "learning_rate": 9.998240745396037e-06,
      "loss": 0.9124,
      "step": 406
    },
    {
      "epoch": 0.02240079255875392,
      "grad_norm": 1.1902250051498413,
      "learning_rate": 9.998229228891563e-06,
      "loss": 1.0566,
      "step": 407
    },
    {
      "epoch": 0.022455831361109582,
      "grad_norm": 1.067906141281128,
      "learning_rate": 9.998217674821734e-06,
      "loss": 0.9823,
      "step": 408
    },
    {
      "epoch": 0.022510870163465244,
      "grad_norm": 1.0051710605621338,
      "learning_rate": 9.998206083186638e-06,
      "loss": 0.9141,
      "step": 409
    },
    {
      "epoch": 0.022565908965820905,
      "grad_norm": 1.046412467956543,
      "learning_rate": 9.998194453986367e-06,
      "loss": 0.9439,
      "step": 410
    },
    {
      "epoch": 0.022620947768176563,
      "grad_norm": 1.1103553771972656,
      "learning_rate": 9.998182787221e-06,
      "loss": 0.9494,
      "step": 411
    },
    {
      "epoch": 0.022675986570532224,
      "grad_norm": 1.0508466958999634,
      "learning_rate": 9.998171082890632e-06,
      "loss": 0.9202,
      "step": 412
    },
    {
      "epoch": 0.022731025372887886,
      "grad_norm": 1.1364226341247559,
      "learning_rate": 9.998159340995347e-06,
      "loss": 0.9859,
      "step": 413
    },
    {
      "epoch": 0.022786064175243547,
      "grad_norm": 1.2073607444763184,
      "learning_rate": 9.998147561535234e-06,
      "loss": 0.8883,
      "step": 414
    },
    {
      "epoch": 0.02284110297759921,
      "grad_norm": 1.0657012462615967,
      "learning_rate": 9.998135744510384e-06,
      "loss": 0.8321,
      "step": 415
    },
    {
      "epoch": 0.02289614177995487,
      "grad_norm": 1.0101548433303833,
      "learning_rate": 9.998123889920881e-06,
      "loss": 0.9374,
      "step": 416
    },
    {
      "epoch": 0.022951180582310528,
      "grad_norm": 1.057455062866211,
      "learning_rate": 9.998111997766817e-06,
      "loss": 0.8831,
      "step": 417
    },
    {
      "epoch": 0.02300621938466619,
      "grad_norm": 1.206092357635498,
      "learning_rate": 9.998100068048282e-06,
      "loss": 0.8812,
      "step": 418
    },
    {
      "epoch": 0.02306125818702185,
      "grad_norm": 1.0709773302078247,
      "learning_rate": 9.998088100765366e-06,
      "loss": 0.9486,
      "step": 419
    },
    {
      "epoch": 0.023116296989377512,
      "grad_norm": 1.066469669342041,
      "learning_rate": 9.998076095918156e-06,
      "loss": 1.0229,
      "step": 420
    },
    {
      "epoch": 0.023171335791733173,
      "grad_norm": 1.0443583726882935,
      "learning_rate": 9.998064053506744e-06,
      "loss": 0.8615,
      "step": 421
    },
    {
      "epoch": 0.02322637459408883,
      "grad_norm": 1.103096842765808,
      "learning_rate": 9.99805197353122e-06,
      "loss": 0.9909,
      "step": 422
    },
    {
      "epoch": 0.023281413396444493,
      "grad_norm": 0.9804643392562866,
      "learning_rate": 9.998039855991677e-06,
      "loss": 0.9214,
      "step": 423
    },
    {
      "epoch": 0.023336452198800154,
      "grad_norm": 0.9880676865577698,
      "learning_rate": 9.998027700888202e-06,
      "loss": 0.9345,
      "step": 424
    },
    {
      "epoch": 0.023391491001155815,
      "grad_norm": 0.9633826017379761,
      "learning_rate": 9.99801550822089e-06,
      "loss": 0.9897,
      "step": 425
    },
    {
      "epoch": 0.023446529803511477,
      "grad_norm": 1.0159331560134888,
      "learning_rate": 9.998003277989831e-06,
      "loss": 0.9385,
      "step": 426
    },
    {
      "epoch": 0.023501568605867135,
      "grad_norm": 1.009667158126831,
      "learning_rate": 9.99799101019512e-06,
      "loss": 0.9013,
      "step": 427
    },
    {
      "epoch": 0.023556607408222796,
      "grad_norm": 0.9478578567504883,
      "learning_rate": 9.997978704836842e-06,
      "loss": 0.8775,
      "step": 428
    },
    {
      "epoch": 0.023611646210578457,
      "grad_norm": 1.013181447982788,
      "learning_rate": 9.997966361915096e-06,
      "loss": 0.8797,
      "step": 429
    },
    {
      "epoch": 0.02366668501293412,
      "grad_norm": 1.0337481498718262,
      "learning_rate": 9.997953981429974e-06,
      "loss": 1.0047,
      "step": 430
    },
    {
      "epoch": 0.02372172381528978,
      "grad_norm": 0.9423721432685852,
      "learning_rate": 9.997941563381566e-06,
      "loss": 0.8639,
      "step": 431
    },
    {
      "epoch": 0.02377676261764544,
      "grad_norm": 1.100492000579834,
      "learning_rate": 9.997929107769968e-06,
      "loss": 1.0022,
      "step": 432
    },
    {
      "epoch": 0.0238318014200011,
      "grad_norm": 1.1232364177703857,
      "learning_rate": 9.997916614595272e-06,
      "loss": 0.9145,
      "step": 433
    },
    {
      "epoch": 0.02388684022235676,
      "grad_norm": 0.9466833472251892,
      "learning_rate": 9.997904083857572e-06,
      "loss": 0.9397,
      "step": 434
    },
    {
      "epoch": 0.023941879024712422,
      "grad_norm": 0.9514566659927368,
      "learning_rate": 9.997891515556963e-06,
      "loss": 0.8025,
      "step": 435
    },
    {
      "epoch": 0.023996917827068084,
      "grad_norm": 0.9292222261428833,
      "learning_rate": 9.997878909693539e-06,
      "loss": 0.7739,
      "step": 436
    },
    {
      "epoch": 0.024051956629423745,
      "grad_norm": 1.1049963235855103,
      "learning_rate": 9.997866266267397e-06,
      "loss": 0.9439,
      "step": 437
    },
    {
      "epoch": 0.024106995431779403,
      "grad_norm": 1.0938019752502441,
      "learning_rate": 9.997853585278627e-06,
      "loss": 0.9479,
      "step": 438
    },
    {
      "epoch": 0.024162034234135064,
      "grad_norm": 1.0423611402511597,
      "learning_rate": 9.997840866727331e-06,
      "loss": 0.9309,
      "step": 439
    },
    {
      "epoch": 0.024217073036490726,
      "grad_norm": 1.0584756135940552,
      "learning_rate": 9.997828110613598e-06,
      "loss": 1.0218,
      "step": 440
    },
    {
      "epoch": 0.024272111838846387,
      "grad_norm": 0.9986408948898315,
      "learning_rate": 9.997815316937527e-06,
      "loss": 0.9734,
      "step": 441
    },
    {
      "epoch": 0.02432715064120205,
      "grad_norm": 0.9680983424186707,
      "learning_rate": 9.997802485699215e-06,
      "loss": 0.9286,
      "step": 442
    },
    {
      "epoch": 0.024382189443557706,
      "grad_norm": 1.2231700420379639,
      "learning_rate": 9.997789616898757e-06,
      "loss": 0.8083,
      "step": 443
    },
    {
      "epoch": 0.024437228245913368,
      "grad_norm": 1.0064021348953247,
      "learning_rate": 9.99777671053625e-06,
      "loss": 0.9161,
      "step": 444
    },
    {
      "epoch": 0.02449226704826903,
      "grad_norm": 0.9658541679382324,
      "learning_rate": 9.99776376661179e-06,
      "loss": 0.8027,
      "step": 445
    },
    {
      "epoch": 0.02454730585062469,
      "grad_norm": 0.9440343379974365,
      "learning_rate": 9.997750785125477e-06,
      "loss": 0.9124,
      "step": 446
    },
    {
      "epoch": 0.024602344652980352,
      "grad_norm": 0.998792827129364,
      "learning_rate": 9.997737766077404e-06,
      "loss": 0.8699,
      "step": 447
    },
    {
      "epoch": 0.024657383455336013,
      "grad_norm": 1.430880069732666,
      "learning_rate": 9.997724709467676e-06,
      "loss": 0.9158,
      "step": 448
    },
    {
      "epoch": 0.02471242225769167,
      "grad_norm": 0.9737820029258728,
      "learning_rate": 9.997711615296384e-06,
      "loss": 0.9496,
      "step": 449
    },
    {
      "epoch": 0.024767461060047333,
      "grad_norm": 0.9710075855255127,
      "learning_rate": 9.997698483563629e-06,
      "loss": 0.8714,
      "step": 450
    },
    {
      "epoch": 0.024822499862402994,
      "grad_norm": 1.5286253690719604,
      "learning_rate": 9.997685314269511e-06,
      "loss": 0.8421,
      "step": 451
    },
    {
      "epoch": 0.024877538664758655,
      "grad_norm": 1.0269445180892944,
      "learning_rate": 9.99767210741413e-06,
      "loss": 1.0131,
      "step": 452
    },
    {
      "epoch": 0.024932577467114317,
      "grad_norm": 0.9780508279800415,
      "learning_rate": 9.99765886299758e-06,
      "loss": 0.9897,
      "step": 453
    },
    {
      "epoch": 0.024987616269469975,
      "grad_norm": 0.998332679271698,
      "learning_rate": 9.997645581019965e-06,
      "loss": 0.9647,
      "step": 454
    },
    {
      "epoch": 0.025042655071825636,
      "grad_norm": 1.7062602043151855,
      "learning_rate": 9.997632261481383e-06,
      "loss": 1.0729,
      "step": 455
    },
    {
      "epoch": 0.025097693874181298,
      "grad_norm": 0.9793694615364075,
      "learning_rate": 9.997618904381936e-06,
      "loss": 0.9556,
      "step": 456
    },
    {
      "epoch": 0.02515273267653696,
      "grad_norm": 1.0183895826339722,
      "learning_rate": 9.997605509721721e-06,
      "loss": 0.9194,
      "step": 457
    },
    {
      "epoch": 0.02520777147889262,
      "grad_norm": 1.0288400650024414,
      "learning_rate": 9.997592077500844e-06,
      "loss": 0.955,
      "step": 458
    },
    {
      "epoch": 0.025262810281248282,
      "grad_norm": 0.9551253914833069,
      "learning_rate": 9.997578607719401e-06,
      "loss": 0.8498,
      "step": 459
    },
    {
      "epoch": 0.02531784908360394,
      "grad_norm": 0.9648008942604065,
      "learning_rate": 9.997565100377494e-06,
      "loss": 0.9306,
      "step": 460
    },
    {
      "epoch": 0.0253728878859596,
      "grad_norm": 0.9206677675247192,
      "learning_rate": 9.997551555475225e-06,
      "loss": 0.7874,
      "step": 461
    },
    {
      "epoch": 0.025427926688315262,
      "grad_norm": 1.0479545593261719,
      "learning_rate": 9.997537973012698e-06,
      "loss": 0.9201,
      "step": 462
    },
    {
      "epoch": 0.025482965490670924,
      "grad_norm": 1.0329946279525757,
      "learning_rate": 9.997524352990013e-06,
      "loss": 0.9577,
      "step": 463
    },
    {
      "epoch": 0.025538004293026585,
      "grad_norm": 1.1177828311920166,
      "learning_rate": 9.997510695407273e-06,
      "loss": 1.0041,
      "step": 464
    },
    {
      "epoch": 0.025593043095382243,
      "grad_norm": 1.0351577997207642,
      "learning_rate": 9.99749700026458e-06,
      "loss": 0.9952,
      "step": 465
    },
    {
      "epoch": 0.025648081897737905,
      "grad_norm": 0.905274510383606,
      "learning_rate": 9.997483267562035e-06,
      "loss": 0.8185,
      "step": 466
    },
    {
      "epoch": 0.025703120700093566,
      "grad_norm": 1.0749776363372803,
      "learning_rate": 9.997469497299747e-06,
      "loss": 1.0611,
      "step": 467
    },
    {
      "epoch": 0.025758159502449227,
      "grad_norm": 0.8972223401069641,
      "learning_rate": 9.997455689477815e-06,
      "loss": 0.8994,
      "step": 468
    },
    {
      "epoch": 0.02581319830480489,
      "grad_norm": 1.0669914484024048,
      "learning_rate": 9.997441844096342e-06,
      "loss": 1.06,
      "step": 469
    },
    {
      "epoch": 0.025868237107160547,
      "grad_norm": 1.0431914329528809,
      "learning_rate": 9.997427961155435e-06,
      "loss": 0.8657,
      "step": 470
    },
    {
      "epoch": 0.025923275909516208,
      "grad_norm": 0.9609962701797485,
      "learning_rate": 9.997414040655198e-06,
      "loss": 0.8864,
      "step": 471
    },
    {
      "epoch": 0.02597831471187187,
      "grad_norm": 1.0829721689224243,
      "learning_rate": 9.997400082595735e-06,
      "loss": 0.9221,
      "step": 472
    },
    {
      "epoch": 0.02603335351422753,
      "grad_norm": 0.992082953453064,
      "learning_rate": 9.99738608697715e-06,
      "loss": 0.8455,
      "step": 473
    },
    {
      "epoch": 0.026088392316583192,
      "grad_norm": 1.0486301183700562,
      "learning_rate": 9.997372053799547e-06,
      "loss": 0.8729,
      "step": 474
    },
    {
      "epoch": 0.026143431118938854,
      "grad_norm": 1.0328491926193237,
      "learning_rate": 9.997357983063036e-06,
      "loss": 0.8788,
      "step": 475
    },
    {
      "epoch": 0.02619846992129451,
      "grad_norm": 0.963333249092102,
      "learning_rate": 9.997343874767719e-06,
      "loss": 0.892,
      "step": 476
    },
    {
      "epoch": 0.026253508723650173,
      "grad_norm": 1.1606497764587402,
      "learning_rate": 9.997329728913704e-06,
      "loss": 0.9984,
      "step": 477
    },
    {
      "epoch": 0.026308547526005834,
      "grad_norm": 1.241650104522705,
      "learning_rate": 9.997315545501096e-06,
      "loss": 0.946,
      "step": 478
    },
    {
      "epoch": 0.026363586328361496,
      "grad_norm": 1.008004069328308,
      "learning_rate": 9.99730132453e-06,
      "loss": 0.849,
      "step": 479
    },
    {
      "epoch": 0.026418625130717157,
      "grad_norm": 0.9883478879928589,
      "learning_rate": 9.997287066000527e-06,
      "loss": 0.9478,
      "step": 480
    },
    {
      "epoch": 0.026473663933072815,
      "grad_norm": 1.0224446058273315,
      "learning_rate": 9.997272769912783e-06,
      "loss": 1.0318,
      "step": 481
    },
    {
      "epoch": 0.026528702735428476,
      "grad_norm": 0.9412569403648376,
      "learning_rate": 9.997258436266874e-06,
      "loss": 0.9119,
      "step": 482
    },
    {
      "epoch": 0.026583741537784138,
      "grad_norm": 0.9214537739753723,
      "learning_rate": 9.997244065062906e-06,
      "loss": 0.8785,
      "step": 483
    },
    {
      "epoch": 0.0266387803401398,
      "grad_norm": 1.0015628337860107,
      "learning_rate": 9.997229656300991e-06,
      "loss": 0.8869,
      "step": 484
    },
    {
      "epoch": 0.02669381914249546,
      "grad_norm": 0.8965190052986145,
      "learning_rate": 9.997215209981237e-06,
      "loss": 0.7009,
      "step": 485
    },
    {
      "epoch": 0.02674885794485112,
      "grad_norm": 1.1976135969161987,
      "learning_rate": 9.997200726103749e-06,
      "loss": 0.9795,
      "step": 486
    },
    {
      "epoch": 0.02680389674720678,
      "grad_norm": 0.864780843257904,
      "learning_rate": 9.997186204668639e-06,
      "loss": 0.7687,
      "step": 487
    },
    {
      "epoch": 0.02685893554956244,
      "grad_norm": 0.9946566820144653,
      "learning_rate": 9.997171645676013e-06,
      "loss": 0.9672,
      "step": 488
    },
    {
      "epoch": 0.026913974351918103,
      "grad_norm": 1.043835997581482,
      "learning_rate": 9.997157049125985e-06,
      "loss": 0.862,
      "step": 489
    },
    {
      "epoch": 0.026969013154273764,
      "grad_norm": 0.9697456955909729,
      "learning_rate": 9.99714241501866e-06,
      "loss": 0.8368,
      "step": 490
    },
    {
      "epoch": 0.027024051956629425,
      "grad_norm": 0.9975618124008179,
      "learning_rate": 9.997127743354153e-06,
      "loss": 0.8739,
      "step": 491
    },
    {
      "epoch": 0.027079090758985083,
      "grad_norm": 1.0055313110351562,
      "learning_rate": 9.99711303413257e-06,
      "loss": 0.9227,
      "step": 492
    },
    {
      "epoch": 0.027134129561340745,
      "grad_norm": 1.0418384075164795,
      "learning_rate": 9.997098287354024e-06,
      "loss": 0.9978,
      "step": 493
    },
    {
      "epoch": 0.027189168363696406,
      "grad_norm": 0.8648970723152161,
      "learning_rate": 9.997083503018625e-06,
      "loss": 0.8363,
      "step": 494
    },
    {
      "epoch": 0.027244207166052067,
      "grad_norm": 1.13506019115448,
      "learning_rate": 9.997068681126483e-06,
      "loss": 0.8851,
      "step": 495
    },
    {
      "epoch": 0.02729924596840773,
      "grad_norm": 0.974400520324707,
      "learning_rate": 9.997053821677712e-06,
      "loss": 0.8533,
      "step": 496
    },
    {
      "epoch": 0.027354284770763387,
      "grad_norm": 1.226507544517517,
      "learning_rate": 9.997038924672419e-06,
      "loss": 0.8586,
      "step": 497
    },
    {
      "epoch": 0.027409323573119048,
      "grad_norm": 1.004753589630127,
      "learning_rate": 9.997023990110721e-06,
      "loss": 0.8974,
      "step": 498
    },
    {
      "epoch": 0.02746436237547471,
      "grad_norm": 1.0492571592330933,
      "learning_rate": 9.997009017992729e-06,
      "loss": 0.8457,
      "step": 499
    },
    {
      "epoch": 0.02751940117783037,
      "grad_norm": 1.0068167448043823,
      "learning_rate": 9.996994008318554e-06,
      "loss": 0.9608,
      "step": 500
    },
    {
      "epoch": 0.027574439980186032,
      "grad_norm": 0.9686044454574585,
      "learning_rate": 9.996978961088311e-06,
      "loss": 0.9041,
      "step": 501
    },
    {
      "epoch": 0.027629478782541694,
      "grad_norm": 1.281728744506836,
      "learning_rate": 9.99696387630211e-06,
      "loss": 0.9739,
      "step": 502
    },
    {
      "epoch": 0.02768451758489735,
      "grad_norm": 0.9069758653640747,
      "learning_rate": 9.996948753960065e-06,
      "loss": 0.8467,
      "step": 503
    },
    {
      "epoch": 0.027739556387253013,
      "grad_norm": 1.0337222814559937,
      "learning_rate": 9.996933594062293e-06,
      "loss": 0.9638,
      "step": 504
    },
    {
      "epoch": 0.027794595189608674,
      "grad_norm": 0.9695359468460083,
      "learning_rate": 9.996918396608905e-06,
      "loss": 0.8986,
      "step": 505
    },
    {
      "epoch": 0.027849633991964336,
      "grad_norm": 0.9120615124702454,
      "learning_rate": 9.996903161600016e-06,
      "loss": 0.9103,
      "step": 506
    },
    {
      "epoch": 0.027904672794319997,
      "grad_norm": 0.9736546874046326,
      "learning_rate": 9.996887889035741e-06,
      "loss": 0.9308,
      "step": 507
    },
    {
      "epoch": 0.027959711596675655,
      "grad_norm": 1.0184897184371948,
      "learning_rate": 9.996872578916192e-06,
      "loss": 0.8978,
      "step": 508
    },
    {
      "epoch": 0.028014750399031316,
      "grad_norm": 0.9791838526725769,
      "learning_rate": 9.996857231241489e-06,
      "loss": 0.8639,
      "step": 509
    },
    {
      "epoch": 0.028069789201386978,
      "grad_norm": 1.2985681295394897,
      "learning_rate": 9.996841846011742e-06,
      "loss": 0.9581,
      "step": 510
    },
    {
      "epoch": 0.02812482800374264,
      "grad_norm": 1.0647368431091309,
      "learning_rate": 9.996826423227071e-06,
      "loss": 1.0565,
      "step": 511
    },
    {
      "epoch": 0.0281798668060983,
      "grad_norm": 1.0336421728134155,
      "learning_rate": 9.996810962887591e-06,
      "loss": 1.008,
      "step": 512
    },
    {
      "epoch": 0.02823490560845396,
      "grad_norm": 1.1838933229446411,
      "learning_rate": 9.996795464993416e-06,
      "loss": 0.8359,
      "step": 513
    },
    {
      "epoch": 0.02828994441080962,
      "grad_norm": 0.9898360371589661,
      "learning_rate": 9.996779929544663e-06,
      "loss": 0.8501,
      "step": 514
    },
    {
      "epoch": 0.02834498321316528,
      "grad_norm": 0.9836066365242004,
      "learning_rate": 9.99676435654145e-06,
      "loss": 0.8795,
      "step": 515
    },
    {
      "epoch": 0.028400022015520943,
      "grad_norm": 1.0621601343154907,
      "learning_rate": 9.996748745983895e-06,
      "loss": 0.8746,
      "step": 516
    },
    {
      "epoch": 0.028455060817876604,
      "grad_norm": 1.0082437992095947,
      "learning_rate": 9.996733097872113e-06,
      "loss": 0.9278,
      "step": 517
    },
    {
      "epoch": 0.028510099620232265,
      "grad_norm": 0.9903931617736816,
      "learning_rate": 9.996717412206222e-06,
      "loss": 0.8264,
      "step": 518
    },
    {
      "epoch": 0.028565138422587923,
      "grad_norm": 1.0797243118286133,
      "learning_rate": 9.996701688986342e-06,
      "loss": 1.0077,
      "step": 519
    },
    {
      "epoch": 0.028620177224943585,
      "grad_norm": 1.147133231163025,
      "learning_rate": 9.99668592821259e-06,
      "loss": 0.9374,
      "step": 520
    },
    {
      "epoch": 0.028675216027299246,
      "grad_norm": 0.9993947744369507,
      "learning_rate": 9.996670129885082e-06,
      "loss": 0.9562,
      "step": 521
    },
    {
      "epoch": 0.028730254829654907,
      "grad_norm": 0.8580895066261292,
      "learning_rate": 9.99665429400394e-06,
      "loss": 0.7985,
      "step": 522
    },
    {
      "epoch": 0.02878529363201057,
      "grad_norm": 0.9251388907432556,
      "learning_rate": 9.996638420569281e-06,
      "loss": 0.7323,
      "step": 523
    },
    {
      "epoch": 0.028840332434366227,
      "grad_norm": 1.0010193586349487,
      "learning_rate": 9.996622509581227e-06,
      "loss": 0.9316,
      "step": 524
    },
    {
      "epoch": 0.028895371236721888,
      "grad_norm": 0.9822579026222229,
      "learning_rate": 9.996606561039894e-06,
      "loss": 0.8978,
      "step": 525
    },
    {
      "epoch": 0.02895041003907755,
      "grad_norm": 1.0760595798492432,
      "learning_rate": 9.996590574945403e-06,
      "loss": 0.9125,
      "step": 526
    },
    {
      "epoch": 0.02900544884143321,
      "grad_norm": 1.138869285583496,
      "learning_rate": 9.996574551297876e-06,
      "loss": 0.8185,
      "step": 527
    },
    {
      "epoch": 0.029060487643788872,
      "grad_norm": 1.002994179725647,
      "learning_rate": 9.996558490097433e-06,
      "loss": 0.9404,
      "step": 528
    },
    {
      "epoch": 0.02911552644614453,
      "grad_norm": 0.9550611972808838,
      "learning_rate": 9.996542391344194e-06,
      "loss": 0.859,
      "step": 529
    },
    {
      "epoch": 0.02917056524850019,
      "grad_norm": 0.9236055612564087,
      "learning_rate": 9.996526255038277e-06,
      "loss": 0.7758,
      "step": 530
    },
    {
      "epoch": 0.029225604050855853,
      "grad_norm": 1.103966474533081,
      "learning_rate": 9.996510081179808e-06,
      "loss": 1.0147,
      "step": 531
    },
    {
      "epoch": 0.029280642853211514,
      "grad_norm": 0.9884665012359619,
      "learning_rate": 9.996493869768906e-06,
      "loss": 0.8784,
      "step": 532
    },
    {
      "epoch": 0.029335681655567176,
      "grad_norm": 0.9173223376274109,
      "learning_rate": 9.996477620805694e-06,
      "loss": 0.8741,
      "step": 533
    },
    {
      "epoch": 0.029390720457922837,
      "grad_norm": 0.965548574924469,
      "learning_rate": 9.996461334290294e-06,
      "loss": 0.8989,
      "step": 534
    },
    {
      "epoch": 0.029445759260278495,
      "grad_norm": 0.9939296245574951,
      "learning_rate": 9.996445010222828e-06,
      "loss": 0.8552,
      "step": 535
    },
    {
      "epoch": 0.029500798062634156,
      "grad_norm": 1.0081578493118286,
      "learning_rate": 9.996428648603417e-06,
      "loss": 0.9138,
      "step": 536
    },
    {
      "epoch": 0.029555836864989818,
      "grad_norm": 1.0139487981796265,
      "learning_rate": 9.996412249432188e-06,
      "loss": 0.9452,
      "step": 537
    },
    {
      "epoch": 0.02961087566734548,
      "grad_norm": 0.9463647603988647,
      "learning_rate": 9.996395812709262e-06,
      "loss": 0.8721,
      "step": 538
    },
    {
      "epoch": 0.02966591446970114,
      "grad_norm": 0.9981473684310913,
      "learning_rate": 9.99637933843476e-06,
      "loss": 0.7791,
      "step": 539
    },
    {
      "epoch": 0.0297209532720568,
      "grad_norm": 1.1637190580368042,
      "learning_rate": 9.996362826608812e-06,
      "loss": 0.8798,
      "step": 540
    },
    {
      "epoch": 0.02977599207441246,
      "grad_norm": 2.2887051105499268,
      "learning_rate": 9.996346277231536e-06,
      "loss": 0.9303,
      "step": 541
    },
    {
      "epoch": 0.02983103087676812,
      "grad_norm": 0.9173391461372375,
      "learning_rate": 9.99632969030306e-06,
      "loss": 0.8627,
      "step": 542
    },
    {
      "epoch": 0.029886069679123783,
      "grad_norm": 1.033355474472046,
      "learning_rate": 9.996313065823506e-06,
      "loss": 0.9906,
      "step": 543
    },
    {
      "epoch": 0.029941108481479444,
      "grad_norm": 0.9286639094352722,
      "learning_rate": 9.996296403793002e-06,
      "loss": 0.7043,
      "step": 544
    },
    {
      "epoch": 0.029996147283835102,
      "grad_norm": 0.963238000869751,
      "learning_rate": 9.996279704211671e-06,
      "loss": 1.0236,
      "step": 545
    },
    {
      "epoch": 0.030051186086190763,
      "grad_norm": 1.0275089740753174,
      "learning_rate": 9.99626296707964e-06,
      "loss": 0.976,
      "step": 546
    },
    {
      "epoch": 0.030106224888546425,
      "grad_norm": 1.0944674015045166,
      "learning_rate": 9.996246192397032e-06,
      "loss": 0.9209,
      "step": 547
    },
    {
      "epoch": 0.030161263690902086,
      "grad_norm": 0.9620945453643799,
      "learning_rate": 9.996229380163976e-06,
      "loss": 0.8973,
      "step": 548
    },
    {
      "epoch": 0.030216302493257748,
      "grad_norm": 1.032549500465393,
      "learning_rate": 9.996212530380597e-06,
      "loss": 0.892,
      "step": 549
    },
    {
      "epoch": 0.03027134129561341,
      "grad_norm": 1.0433719158172607,
      "learning_rate": 9.996195643047023e-06,
      "loss": 0.8428,
      "step": 550
    },
    {
      "epoch": 0.030326380097969067,
      "grad_norm": 1.1541085243225098,
      "learning_rate": 9.996178718163378e-06,
      "loss": 0.9084,
      "step": 551
    },
    {
      "epoch": 0.03038141890032473,
      "grad_norm": 0.9386873245239258,
      "learning_rate": 9.996161755729793e-06,
      "loss": 0.9246,
      "step": 552
    },
    {
      "epoch": 0.03043645770268039,
      "grad_norm": 1.092236042022705,
      "learning_rate": 9.996144755746393e-06,
      "loss": 0.8419,
      "step": 553
    },
    {
      "epoch": 0.03049149650503605,
      "grad_norm": 0.9517606496810913,
      "learning_rate": 9.996127718213306e-06,
      "loss": 0.9002,
      "step": 554
    },
    {
      "epoch": 0.030546535307391712,
      "grad_norm": 0.965972900390625,
      "learning_rate": 9.996110643130661e-06,
      "loss": 0.9197,
      "step": 555
    },
    {
      "epoch": 0.03060157410974737,
      "grad_norm": 0.9396095275878906,
      "learning_rate": 9.996093530498586e-06,
      "loss": 0.8686,
      "step": 556
    },
    {
      "epoch": 0.030656612912103032,
      "grad_norm": 1.0154120922088623,
      "learning_rate": 9.99607638031721e-06,
      "loss": 0.9773,
      "step": 557
    },
    {
      "epoch": 0.030711651714458693,
      "grad_norm": 1.3572301864624023,
      "learning_rate": 9.99605919258666e-06,
      "loss": 0.911,
      "step": 558
    },
    {
      "epoch": 0.030766690516814355,
      "grad_norm": 0.968278169631958,
      "learning_rate": 9.996041967307066e-06,
      "loss": 0.7704,
      "step": 559
    },
    {
      "epoch": 0.030821729319170016,
      "grad_norm": 0.9867869019508362,
      "learning_rate": 9.99602470447856e-06,
      "loss": 0.873,
      "step": 560
    },
    {
      "epoch": 0.030876768121525677,
      "grad_norm": 1.056450605392456,
      "learning_rate": 9.996007404101269e-06,
      "loss": 0.941,
      "step": 561
    },
    {
      "epoch": 0.030931806923881335,
      "grad_norm": 1.0419799089431763,
      "learning_rate": 9.995990066175321e-06,
      "loss": 0.957,
      "step": 562
    },
    {
      "epoch": 0.030986845726236997,
      "grad_norm": 0.9789314866065979,
      "learning_rate": 9.995972690700852e-06,
      "loss": 0.9229,
      "step": 563
    },
    {
      "epoch": 0.031041884528592658,
      "grad_norm": 0.917783796787262,
      "learning_rate": 9.995955277677989e-06,
      "loss": 0.8186,
      "step": 564
    },
    {
      "epoch": 0.03109692333094832,
      "grad_norm": 1.0231432914733887,
      "learning_rate": 9.995937827106863e-06,
      "loss": 0.8624,
      "step": 565
    },
    {
      "epoch": 0.03115196213330398,
      "grad_norm": 0.9552083015441895,
      "learning_rate": 9.995920338987605e-06,
      "loss": 0.7967,
      "step": 566
    },
    {
      "epoch": 0.03120700093565964,
      "grad_norm": 0.9441083669662476,
      "learning_rate": 9.995902813320349e-06,
      "loss": 0.8471,
      "step": 567
    },
    {
      "epoch": 0.0312620397380153,
      "grad_norm": 1.0025299787521362,
      "learning_rate": 9.995885250105223e-06,
      "loss": 0.8646,
      "step": 568
    },
    {
      "epoch": 0.03131707854037096,
      "grad_norm": 0.8997280597686768,
      "learning_rate": 9.99586764934236e-06,
      "loss": 0.8736,
      "step": 569
    },
    {
      "epoch": 0.03137211734272662,
      "grad_norm": 0.9090663194656372,
      "learning_rate": 9.995850011031896e-06,
      "loss": 0.8548,
      "step": 570
    },
    {
      "epoch": 0.031427156145082284,
      "grad_norm": 0.9641294479370117,
      "learning_rate": 9.995832335173959e-06,
      "loss": 0.8667,
      "step": 571
    },
    {
      "epoch": 0.031482194947437946,
      "grad_norm": 0.9165804982185364,
      "learning_rate": 9.995814621768682e-06,
      "loss": 0.803,
      "step": 572
    },
    {
      "epoch": 0.03153723374979361,
      "grad_norm": 0.9672492742538452,
      "learning_rate": 9.995796870816202e-06,
      "loss": 0.8335,
      "step": 573
    },
    {
      "epoch": 0.03159227255214927,
      "grad_norm": 0.9359404444694519,
      "learning_rate": 9.995779082316648e-06,
      "loss": 0.8294,
      "step": 574
    },
    {
      "epoch": 0.03164731135450492,
      "grad_norm": 0.926925003528595,
      "learning_rate": 9.995761256270157e-06,
      "loss": 0.7714,
      "step": 575
    },
    {
      "epoch": 0.031702350156860584,
      "grad_norm": 1.1848629713058472,
      "learning_rate": 9.995743392676862e-06,
      "loss": 0.8925,
      "step": 576
    },
    {
      "epoch": 0.031757388959216246,
      "grad_norm": 0.9624786972999573,
      "learning_rate": 9.995725491536897e-06,
      "loss": 0.9292,
      "step": 577
    },
    {
      "epoch": 0.03181242776157191,
      "grad_norm": 0.9479736089706421,
      "learning_rate": 9.995707552850396e-06,
      "loss": 0.8797,
      "step": 578
    },
    {
      "epoch": 0.03186746656392757,
      "grad_norm": 0.9551546573638916,
      "learning_rate": 9.995689576617494e-06,
      "loss": 0.8793,
      "step": 579
    },
    {
      "epoch": 0.03192250536628323,
      "grad_norm": 0.9210056662559509,
      "learning_rate": 9.995671562838325e-06,
      "loss": 0.9714,
      "step": 580
    },
    {
      "epoch": 0.03197754416863889,
      "grad_norm": 1.063117504119873,
      "learning_rate": 9.995653511513029e-06,
      "loss": 0.9608,
      "step": 581
    },
    {
      "epoch": 0.03203258297099455,
      "grad_norm": 0.9426459670066833,
      "learning_rate": 9.995635422641736e-06,
      "loss": 0.9102,
      "step": 582
    },
    {
      "epoch": 0.032087621773350214,
      "grad_norm": 1.0176693201065063,
      "learning_rate": 9.995617296224584e-06,
      "loss": 0.9109,
      "step": 583
    },
    {
      "epoch": 0.032142660575705875,
      "grad_norm": 0.9457042217254639,
      "learning_rate": 9.995599132261711e-06,
      "loss": 0.9017,
      "step": 584
    },
    {
      "epoch": 0.03219769937806154,
      "grad_norm": 1.5851638317108154,
      "learning_rate": 9.995580930753252e-06,
      "loss": 0.967,
      "step": 585
    },
    {
      "epoch": 0.03225273818041719,
      "grad_norm": 0.9961487054824829,
      "learning_rate": 9.995562691699345e-06,
      "loss": 0.9396,
      "step": 586
    },
    {
      "epoch": 0.03230777698277285,
      "grad_norm": 0.9892112016677856,
      "learning_rate": 9.995544415100125e-06,
      "loss": 0.9058,
      "step": 587
    },
    {
      "epoch": 0.032362815785128514,
      "grad_norm": 0.9052272439002991,
      "learning_rate": 9.99552610095573e-06,
      "loss": 0.9194,
      "step": 588
    },
    {
      "epoch": 0.032417854587484175,
      "grad_norm": 0.8381399512290955,
      "learning_rate": 9.995507749266297e-06,
      "loss": 0.7465,
      "step": 589
    },
    {
      "epoch": 0.03247289338983984,
      "grad_norm": 1.018964171409607,
      "learning_rate": 9.995489360031969e-06,
      "loss": 0.841,
      "step": 590
    },
    {
      "epoch": 0.0325279321921955,
      "grad_norm": 0.908311128616333,
      "learning_rate": 9.995470933252876e-06,
      "loss": 0.8592,
      "step": 591
    },
    {
      "epoch": 0.03258297099455116,
      "grad_norm": 1.2986040115356445,
      "learning_rate": 9.995452468929162e-06,
      "loss": 0.8341,
      "step": 592
    },
    {
      "epoch": 0.03263800979690682,
      "grad_norm": 1.6565190553665161,
      "learning_rate": 9.995433967060966e-06,
      "loss": 0.8681,
      "step": 593
    },
    {
      "epoch": 0.03269304859926248,
      "grad_norm": 0.9725674390792847,
      "learning_rate": 9.995415427648423e-06,
      "loss": 0.8449,
      "step": 594
    },
    {
      "epoch": 0.032748087401618144,
      "grad_norm": 0.8683852553367615,
      "learning_rate": 9.995396850691677e-06,
      "loss": 0.8478,
      "step": 595
    },
    {
      "epoch": 0.0328031262039738,
      "grad_norm": 0.9912856817245483,
      "learning_rate": 9.995378236190862e-06,
      "loss": 0.8912,
      "step": 596
    },
    {
      "epoch": 0.03285816500632946,
      "grad_norm": 0.9396800398826599,
      "learning_rate": 9.995359584146125e-06,
      "loss": 0.856,
      "step": 597
    },
    {
      "epoch": 0.03291320380868512,
      "grad_norm": 1.385006308555603,
      "learning_rate": 9.995340894557601e-06,
      "loss": 0.9633,
      "step": 598
    },
    {
      "epoch": 0.03296824261104078,
      "grad_norm": 0.8982875943183899,
      "learning_rate": 9.995322167425433e-06,
      "loss": 0.9244,
      "step": 599
    },
    {
      "epoch": 0.033023281413396444,
      "grad_norm": 0.8981022834777832,
      "learning_rate": 9.995303402749759e-06,
      "loss": 0.8854,
      "step": 600
    },
    {
      "epoch": 0.033078320215752105,
      "grad_norm": 0.9917197227478027,
      "learning_rate": 9.995284600530724e-06,
      "loss": 1.0086,
      "step": 601
    },
    {
      "epoch": 0.033133359018107766,
      "grad_norm": 1.0540626049041748,
      "learning_rate": 9.995265760768464e-06,
      "loss": 1.0022,
      "step": 602
    },
    {
      "epoch": 0.03318839782046343,
      "grad_norm": 0.9523479342460632,
      "learning_rate": 9.995246883463126e-06,
      "loss": 0.9893,
      "step": 603
    },
    {
      "epoch": 0.03324343662281909,
      "grad_norm": 0.9824770092964172,
      "learning_rate": 9.99522796861485e-06,
      "loss": 0.8385,
      "step": 604
    },
    {
      "epoch": 0.03329847542517475,
      "grad_norm": 1.0968893766403198,
      "learning_rate": 9.995209016223776e-06,
      "loss": 1.0109,
      "step": 605
    },
    {
      "epoch": 0.03335351422753041,
      "grad_norm": 0.9115625023841858,
      "learning_rate": 9.995190026290049e-06,
      "loss": 0.8656,
      "step": 606
    },
    {
      "epoch": 0.033408553029886066,
      "grad_norm": 0.9795814156532288,
      "learning_rate": 9.99517099881381e-06,
      "loss": 0.8941,
      "step": 607
    },
    {
      "epoch": 0.03346359183224173,
      "grad_norm": 0.9317291378974915,
      "learning_rate": 9.995151933795204e-06,
      "loss": 0.7819,
      "step": 608
    },
    {
      "epoch": 0.03351863063459739,
      "grad_norm": 0.9936283230781555,
      "learning_rate": 9.995132831234373e-06,
      "loss": 0.8674,
      "step": 609
    },
    {
      "epoch": 0.03357366943695305,
      "grad_norm": 0.9872812032699585,
      "learning_rate": 9.995113691131462e-06,
      "loss": 0.9038,
      "step": 610
    },
    {
      "epoch": 0.03362870823930871,
      "grad_norm": 0.9516895413398743,
      "learning_rate": 9.995094513486611e-06,
      "loss": 0.9038,
      "step": 611
    },
    {
      "epoch": 0.03368374704166437,
      "grad_norm": 1.090579867362976,
      "learning_rate": 9.995075298299968e-06,
      "loss": 0.9587,
      "step": 612
    },
    {
      "epoch": 0.033738785844020035,
      "grad_norm": 1.021398663520813,
      "learning_rate": 9.995056045571677e-06,
      "loss": 0.9569,
      "step": 613
    },
    {
      "epoch": 0.033793824646375696,
      "grad_norm": 1.009657382965088,
      "learning_rate": 9.99503675530188e-06,
      "loss": 0.8346,
      "step": 614
    },
    {
      "epoch": 0.03384886344873136,
      "grad_norm": 1.0478712320327759,
      "learning_rate": 9.995017427490725e-06,
      "loss": 1.0566,
      "step": 615
    },
    {
      "epoch": 0.03390390225108702,
      "grad_norm": 1.1391830444335938,
      "learning_rate": 9.994998062138355e-06,
      "loss": 1.0727,
      "step": 616
    },
    {
      "epoch": 0.03395894105344268,
      "grad_norm": 1.0172302722930908,
      "learning_rate": 9.994978659244918e-06,
      "loss": 0.7869,
      "step": 617
    },
    {
      "epoch": 0.034013979855798335,
      "grad_norm": 1.0532630681991577,
      "learning_rate": 9.994959218810558e-06,
      "loss": 0.8626,
      "step": 618
    },
    {
      "epoch": 0.034069018658153996,
      "grad_norm": 0.8300478458404541,
      "learning_rate": 9.99493974083542e-06,
      "loss": 0.8166,
      "step": 619
    },
    {
      "epoch": 0.03412405746050966,
      "grad_norm": 1.0613664388656616,
      "learning_rate": 9.994920225319656e-06,
      "loss": 0.8899,
      "step": 620
    },
    {
      "epoch": 0.03417909626286532,
      "grad_norm": 0.9827042818069458,
      "learning_rate": 9.994900672263406e-06,
      "loss": 0.8243,
      "step": 621
    },
    {
      "epoch": 0.03423413506522098,
      "grad_norm": 0.8790082931518555,
      "learning_rate": 9.994881081666818e-06,
      "loss": 0.8153,
      "step": 622
    },
    {
      "epoch": 0.03428917386757664,
      "grad_norm": 1.033378005027771,
      "learning_rate": 9.994861453530044e-06,
      "loss": 0.8916,
      "step": 623
    },
    {
      "epoch": 0.0343442126699323,
      "grad_norm": 0.9547238349914551,
      "learning_rate": 9.994841787853227e-06,
      "loss": 0.9141,
      "step": 624
    },
    {
      "epoch": 0.034399251472287964,
      "grad_norm": 0.9606438279151917,
      "learning_rate": 9.994822084636514e-06,
      "loss": 0.9435,
      "step": 625
    },
    {
      "epoch": 0.034454290274643626,
      "grad_norm": 0.8461503982543945,
      "learning_rate": 9.994802343880059e-06,
      "loss": 0.7914,
      "step": 626
    },
    {
      "epoch": 0.03450932907699929,
      "grad_norm": 1.144538402557373,
      "learning_rate": 9.994782565584004e-06,
      "loss": 0.8025,
      "step": 627
    },
    {
      "epoch": 0.03456436787935495,
      "grad_norm": 1.0099962949752808,
      "learning_rate": 9.994762749748502e-06,
      "loss": 0.9607,
      "step": 628
    },
    {
      "epoch": 0.0346194066817106,
      "grad_norm": 0.9822041988372803,
      "learning_rate": 9.9947428963737e-06,
      "loss": 0.9216,
      "step": 629
    },
    {
      "epoch": 0.034674445484066264,
      "grad_norm": 0.9056866765022278,
      "learning_rate": 9.994723005459746e-06,
      "loss": 0.7913,
      "step": 630
    },
    {
      "epoch": 0.034729484286421926,
      "grad_norm": 1.0099287033081055,
      "learning_rate": 9.994703077006792e-06,
      "loss": 0.9937,
      "step": 631
    },
    {
      "epoch": 0.03478452308877759,
      "grad_norm": 0.9559167623519897,
      "learning_rate": 9.994683111014984e-06,
      "loss": 0.9774,
      "step": 632
    },
    {
      "epoch": 0.03483956189113325,
      "grad_norm": 1.0359059572219849,
      "learning_rate": 9.994663107484478e-06,
      "loss": 0.9062,
      "step": 633
    },
    {
      "epoch": 0.03489460069348891,
      "grad_norm": 0.8803057074546814,
      "learning_rate": 9.99464306641542e-06,
      "loss": 0.9638,
      "step": 634
    },
    {
      "epoch": 0.03494963949584457,
      "grad_norm": 1.0926579236984253,
      "learning_rate": 9.994622987807962e-06,
      "loss": 1.0467,
      "step": 635
    },
    {
      "epoch": 0.03500467829820023,
      "grad_norm": 1.0051401853561401,
      "learning_rate": 9.994602871662253e-06,
      "loss": 0.8717,
      "step": 636
    },
    {
      "epoch": 0.035059717100555894,
      "grad_norm": 1.2007508277893066,
      "learning_rate": 9.994582717978448e-06,
      "loss": 0.8004,
      "step": 637
    },
    {
      "epoch": 0.035114755902911556,
      "grad_norm": 0.8826266527175903,
      "learning_rate": 9.994562526756695e-06,
      "loss": 0.8888,
      "step": 638
    },
    {
      "epoch": 0.03516979470526721,
      "grad_norm": 0.9953717589378357,
      "learning_rate": 9.994542297997147e-06,
      "loss": 0.8999,
      "step": 639
    },
    {
      "epoch": 0.03522483350762287,
      "grad_norm": 1.0203614234924316,
      "learning_rate": 9.994522031699958e-06,
      "loss": 0.8241,
      "step": 640
    },
    {
      "epoch": 0.03527987230997853,
      "grad_norm": 0.8760203719139099,
      "learning_rate": 9.994501727865276e-06,
      "loss": 0.7893,
      "step": 641
    },
    {
      "epoch": 0.035334911112334194,
      "grad_norm": 1.024888277053833,
      "learning_rate": 9.994481386493257e-06,
      "loss": 0.9865,
      "step": 642
    },
    {
      "epoch": 0.035389949914689856,
      "grad_norm": 0.907454788684845,
      "learning_rate": 9.994461007584052e-06,
      "loss": 0.891,
      "step": 643
    },
    {
      "epoch": 0.03544498871704552,
      "grad_norm": 1.0400965213775635,
      "learning_rate": 9.994440591137816e-06,
      "loss": 0.9345,
      "step": 644
    },
    {
      "epoch": 0.03550002751940118,
      "grad_norm": 0.9816616177558899,
      "learning_rate": 9.9944201371547e-06,
      "loss": 0.91,
      "step": 645
    },
    {
      "epoch": 0.03555506632175684,
      "grad_norm": 1.0528117418289185,
      "learning_rate": 9.99439964563486e-06,
      "loss": 0.952,
      "step": 646
    },
    {
      "epoch": 0.0356101051241125,
      "grad_norm": 0.9802080988883972,
      "learning_rate": 9.99437911657845e-06,
      "loss": 0.9392,
      "step": 647
    },
    {
      "epoch": 0.03566514392646816,
      "grad_norm": 0.9580393433570862,
      "learning_rate": 9.994358549985623e-06,
      "loss": 0.874,
      "step": 648
    },
    {
      "epoch": 0.035720182728823824,
      "grad_norm": 0.8935576677322388,
      "learning_rate": 9.994337945856533e-06,
      "loss": 0.8435,
      "step": 649
    },
    {
      "epoch": 0.03577522153117948,
      "grad_norm": 1.009699821472168,
      "learning_rate": 9.994317304191337e-06,
      "loss": 0.9436,
      "step": 650
    },
    {
      "epoch": 0.03583026033353514,
      "grad_norm": 0.9126121401786804,
      "learning_rate": 9.994296624990188e-06,
      "loss": 0.8424,
      "step": 651
    },
    {
      "epoch": 0.0358852991358908,
      "grad_norm": 0.9555553197860718,
      "learning_rate": 9.994275908253243e-06,
      "loss": 0.93,
      "step": 652
    },
    {
      "epoch": 0.03594033793824646,
      "grad_norm": 0.8359857797622681,
      "learning_rate": 9.994255153980658e-06,
      "loss": 0.6326,
      "step": 653
    },
    {
      "epoch": 0.035995376740602124,
      "grad_norm": 0.8918783664703369,
      "learning_rate": 9.994234362172587e-06,
      "loss": 0.8287,
      "step": 654
    },
    {
      "epoch": 0.036050415542957785,
      "grad_norm": 0.9878549575805664,
      "learning_rate": 9.994213532829188e-06,
      "loss": 0.8841,
      "step": 655
    },
    {
      "epoch": 0.03610545434531345,
      "grad_norm": 0.9504040479660034,
      "learning_rate": 9.994192665950617e-06,
      "loss": 1.0182,
      "step": 656
    },
    {
      "epoch": 0.03616049314766911,
      "grad_norm": 0.9531422257423401,
      "learning_rate": 9.99417176153703e-06,
      "loss": 0.8504,
      "step": 657
    },
    {
      "epoch": 0.03621553195002477,
      "grad_norm": 0.9580292105674744,
      "learning_rate": 9.994150819588587e-06,
      "loss": 0.8048,
      "step": 658
    },
    {
      "epoch": 0.03627057075238043,
      "grad_norm": 0.9786819815635681,
      "learning_rate": 9.99412984010544e-06,
      "loss": 0.9124,
      "step": 659
    },
    {
      "epoch": 0.03632560955473609,
      "grad_norm": 0.9733422994613647,
      "learning_rate": 9.994108823087751e-06,
      "loss": 0.8868,
      "step": 660
    },
    {
      "epoch": 0.03638064835709175,
      "grad_norm": 1.093173623085022,
      "learning_rate": 9.994087768535679e-06,
      "loss": 0.9428,
      "step": 661
    },
    {
      "epoch": 0.03643568715944741,
      "grad_norm": 0.9067148566246033,
      "learning_rate": 9.994066676449378e-06,
      "loss": 0.8838,
      "step": 662
    },
    {
      "epoch": 0.03649072596180307,
      "grad_norm": 0.9509521722793579,
      "learning_rate": 9.99404554682901e-06,
      "loss": 0.9034,
      "step": 663
    },
    {
      "epoch": 0.03654576476415873,
      "grad_norm": 0.9523824453353882,
      "learning_rate": 9.994024379674731e-06,
      "loss": 0.9623,
      "step": 664
    },
    {
      "epoch": 0.03660080356651439,
      "grad_norm": 0.987276554107666,
      "learning_rate": 9.994003174986703e-06,
      "loss": 0.8817,
      "step": 665
    },
    {
      "epoch": 0.036655842368870054,
      "grad_norm": 0.9500744342803955,
      "learning_rate": 9.993981932765083e-06,
      "loss": 0.9742,
      "step": 666
    },
    {
      "epoch": 0.036710881171225715,
      "grad_norm": 0.9420705437660217,
      "learning_rate": 9.993960653010034e-06,
      "loss": 0.9657,
      "step": 667
    },
    {
      "epoch": 0.036765919973581376,
      "grad_norm": 0.9443248510360718,
      "learning_rate": 9.99393933572171e-06,
      "loss": 0.8468,
      "step": 668
    },
    {
      "epoch": 0.03682095877593704,
      "grad_norm": 0.9666558504104614,
      "learning_rate": 9.993917980900276e-06,
      "loss": 0.9871,
      "step": 669
    },
    {
      "epoch": 0.0368759975782927,
      "grad_norm": 1.0236201286315918,
      "learning_rate": 9.993896588545892e-06,
      "loss": 0.9814,
      "step": 670
    },
    {
      "epoch": 0.03693103638064836,
      "grad_norm": 1.016190528869629,
      "learning_rate": 9.993875158658716e-06,
      "loss": 1.0156,
      "step": 671
    },
    {
      "epoch": 0.036986075183004015,
      "grad_norm": 0.9296661019325256,
      "learning_rate": 9.993853691238913e-06,
      "loss": 0.7956,
      "step": 672
    },
    {
      "epoch": 0.037041113985359676,
      "grad_norm": 0.9276684522628784,
      "learning_rate": 9.993832186286643e-06,
      "loss": 0.9253,
      "step": 673
    },
    {
      "epoch": 0.03709615278771534,
      "grad_norm": 0.8588787913322449,
      "learning_rate": 9.993810643802065e-06,
      "loss": 0.7878,
      "step": 674
    },
    {
      "epoch": 0.037151191590071,
      "grad_norm": 0.9955212473869324,
      "learning_rate": 9.993789063785344e-06,
      "loss": 0.8711,
      "step": 675
    },
    {
      "epoch": 0.03720623039242666,
      "grad_norm": 0.925578236579895,
      "learning_rate": 9.993767446236642e-06,
      "loss": 0.9431,
      "step": 676
    },
    {
      "epoch": 0.03726126919478232,
      "grad_norm": 0.9610552787780762,
      "learning_rate": 9.99374579115612e-06,
      "loss": 0.887,
      "step": 677
    },
    {
      "epoch": 0.03731630799713798,
      "grad_norm": 1.0052428245544434,
      "learning_rate": 9.99372409854394e-06,
      "loss": 0.8751,
      "step": 678
    },
    {
      "epoch": 0.037371346799493645,
      "grad_norm": 0.9503066539764404,
      "learning_rate": 9.99370236840027e-06,
      "loss": 0.8556,
      "step": 679
    },
    {
      "epoch": 0.037426385601849306,
      "grad_norm": 2.426232099533081,
      "learning_rate": 9.993680600725266e-06,
      "loss": 0.9077,
      "step": 680
    },
    {
      "epoch": 0.03748142440420497,
      "grad_norm": 0.9119723439216614,
      "learning_rate": 9.993658795519096e-06,
      "loss": 0.8575,
      "step": 681
    },
    {
      "epoch": 0.03753646320656062,
      "grad_norm": 0.9688286781311035,
      "learning_rate": 9.993636952781923e-06,
      "loss": 0.8921,
      "step": 682
    },
    {
      "epoch": 0.03759150200891628,
      "grad_norm": 1.030013084411621,
      "learning_rate": 9.993615072513913e-06,
      "loss": 0.8622,
      "step": 683
    },
    {
      "epoch": 0.037646540811271945,
      "grad_norm": 1.055187463760376,
      "learning_rate": 9.993593154715228e-06,
      "loss": 0.9251,
      "step": 684
    },
    {
      "epoch": 0.037701579613627606,
      "grad_norm": 1.0518591403961182,
      "learning_rate": 9.993571199386032e-06,
      "loss": 0.9575,
      "step": 685
    },
    {
      "epoch": 0.03775661841598327,
      "grad_norm": 0.9232666492462158,
      "learning_rate": 9.993549206526495e-06,
      "loss": 0.8522,
      "step": 686
    },
    {
      "epoch": 0.03781165721833893,
      "grad_norm": 1.0212332010269165,
      "learning_rate": 9.993527176136775e-06,
      "loss": 0.9358,
      "step": 687
    },
    {
      "epoch": 0.03786669602069459,
      "grad_norm": 0.9137141108512878,
      "learning_rate": 9.993505108217045e-06,
      "loss": 0.8561,
      "step": 688
    },
    {
      "epoch": 0.03792173482305025,
      "grad_norm": 1.0069375038146973,
      "learning_rate": 9.993483002767465e-06,
      "loss": 0.8274,
      "step": 689
    },
    {
      "epoch": 0.03797677362540591,
      "grad_norm": 0.9820672869682312,
      "learning_rate": 9.993460859788204e-06,
      "loss": 0.907,
      "step": 690
    },
    {
      "epoch": 0.038031812427761574,
      "grad_norm": 1.0042002201080322,
      "learning_rate": 9.993438679279428e-06,
      "loss": 0.9263,
      "step": 691
    },
    {
      "epoch": 0.038086851230117236,
      "grad_norm": 0.9733695983886719,
      "learning_rate": 9.993416461241304e-06,
      "loss": 0.8455,
      "step": 692
    },
    {
      "epoch": 0.03814189003247289,
      "grad_norm": 0.9106015563011169,
      "learning_rate": 9.993394205673996e-06,
      "loss": 0.8469,
      "step": 693
    },
    {
      "epoch": 0.03819692883482855,
      "grad_norm": 0.9802660346031189,
      "learning_rate": 9.993371912577677e-06,
      "loss": 0.8662,
      "step": 694
    },
    {
      "epoch": 0.03825196763718421,
      "grad_norm": 0.9183964729309082,
      "learning_rate": 9.99334958195251e-06,
      "loss": 0.8968,
      "step": 695
    },
    {
      "epoch": 0.038307006439539874,
      "grad_norm": 0.9572185277938843,
      "learning_rate": 9.993327213798663e-06,
      "loss": 0.953,
      "step": 696
    },
    {
      "epoch": 0.038362045241895536,
      "grad_norm": 1.4480071067810059,
      "learning_rate": 9.993304808116307e-06,
      "loss": 1.1131,
      "step": 697
    },
    {
      "epoch": 0.0384170840442512,
      "grad_norm": 0.9297361969947815,
      "learning_rate": 9.993282364905607e-06,
      "loss": 0.884,
      "step": 698
    },
    {
      "epoch": 0.03847212284660686,
      "grad_norm": 0.9400073885917664,
      "learning_rate": 9.993259884166735e-06,
      "loss": 0.932,
      "step": 699
    },
    {
      "epoch": 0.03852716164896252,
      "grad_norm": 0.9231798052787781,
      "learning_rate": 9.993237365899858e-06,
      "loss": 0.8981,
      "step": 700
    },
    {
      "epoch": 0.03858220045131818,
      "grad_norm": 0.8233712911605835,
      "learning_rate": 9.993214810105144e-06,
      "loss": 0.8218,
      "step": 701
    },
    {
      "epoch": 0.03863723925367384,
      "grad_norm": 1.0997854471206665,
      "learning_rate": 9.993192216782768e-06,
      "loss": 0.9298,
      "step": 702
    },
    {
      "epoch": 0.038692278056029504,
      "grad_norm": 0.9570802450180054,
      "learning_rate": 9.993169585932893e-06,
      "loss": 0.7815,
      "step": 703
    },
    {
      "epoch": 0.03874731685838516,
      "grad_norm": 0.9913730025291443,
      "learning_rate": 9.993146917555692e-06,
      "loss": 0.9621,
      "step": 704
    },
    {
      "epoch": 0.03880235566074082,
      "grad_norm": 1.088767409324646,
      "learning_rate": 9.993124211651334e-06,
      "loss": 0.9295,
      "step": 705
    },
    {
      "epoch": 0.03885739446309648,
      "grad_norm": 0.8199124336242676,
      "learning_rate": 9.993101468219995e-06,
      "loss": 0.7613,
      "step": 706
    },
    {
      "epoch": 0.03891243326545214,
      "grad_norm": 1.112566351890564,
      "learning_rate": 9.99307868726184e-06,
      "loss": 0.791,
      "step": 707
    },
    {
      "epoch": 0.038967472067807804,
      "grad_norm": 0.9372578859329224,
      "learning_rate": 9.99305586877704e-06,
      "loss": 0.8567,
      "step": 708
    },
    {
      "epoch": 0.039022510870163465,
      "grad_norm": 1.0167721509933472,
      "learning_rate": 9.99303301276577e-06,
      "loss": 0.9787,
      "step": 709
    },
    {
      "epoch": 0.03907754967251913,
      "grad_norm": 1.3526856899261475,
      "learning_rate": 9.993010119228202e-06,
      "loss": 1.2215,
      "step": 710
    },
    {
      "epoch": 0.03913258847487479,
      "grad_norm": 0.8819016814231873,
      "learning_rate": 9.992987188164505e-06,
      "loss": 0.7736,
      "step": 711
    },
    {
      "epoch": 0.03918762727723045,
      "grad_norm": 1.0033677816390991,
      "learning_rate": 9.992964219574852e-06,
      "loss": 0.9919,
      "step": 712
    },
    {
      "epoch": 0.03924266607958611,
      "grad_norm": 0.894926130771637,
      "learning_rate": 9.992941213459417e-06,
      "loss": 0.9058,
      "step": 713
    },
    {
      "epoch": 0.03929770488194177,
      "grad_norm": 0.9481377005577087,
      "learning_rate": 9.992918169818373e-06,
      "loss": 0.8436,
      "step": 714
    },
    {
      "epoch": 0.03935274368429743,
      "grad_norm": 0.9312933087348938,
      "learning_rate": 9.992895088651893e-06,
      "loss": 0.8869,
      "step": 715
    },
    {
      "epoch": 0.03940778248665309,
      "grad_norm": 0.9765705466270447,
      "learning_rate": 9.99287196996015e-06,
      "loss": 0.9512,
      "step": 716
    },
    {
      "epoch": 0.03946282128900875,
      "grad_norm": 0.9610235691070557,
      "learning_rate": 9.992848813743317e-06,
      "loss": 0.8005,
      "step": 717
    },
    {
      "epoch": 0.03951786009136441,
      "grad_norm": 1.102995753288269,
      "learning_rate": 9.99282562000157e-06,
      "loss": 0.8017,
      "step": 718
    },
    {
      "epoch": 0.03957289889372007,
      "grad_norm": 1.023317575454712,
      "learning_rate": 9.99280238873508e-06,
      "loss": 0.911,
      "step": 719
    },
    {
      "epoch": 0.039627937696075734,
      "grad_norm": 1.0531049966812134,
      "learning_rate": 9.992779119944025e-06,
      "loss": 0.8562,
      "step": 720
    },
    {
      "epoch": 0.039682976498431395,
      "grad_norm": 0.918250322341919,
      "learning_rate": 9.992755813628579e-06,
      "loss": 0.92,
      "step": 721
    },
    {
      "epoch": 0.039738015300787057,
      "grad_norm": 0.8508251309394836,
      "learning_rate": 9.992732469788915e-06,
      "loss": 0.7347,
      "step": 722
    },
    {
      "epoch": 0.03979305410314272,
      "grad_norm": 0.9184926152229309,
      "learning_rate": 9.992709088425211e-06,
      "loss": 0.8732,
      "step": 723
    },
    {
      "epoch": 0.03984809290549838,
      "grad_norm": 1.1613929271697998,
      "learning_rate": 9.992685669537643e-06,
      "loss": 0.9522,
      "step": 724
    },
    {
      "epoch": 0.039903131707854034,
      "grad_norm": 1.091513752937317,
      "learning_rate": 9.992662213126386e-06,
      "loss": 0.9646,
      "step": 725
    },
    {
      "epoch": 0.039958170510209695,
      "grad_norm": 1.057803750038147,
      "learning_rate": 9.992638719191615e-06,
      "loss": 0.7032,
      "step": 726
    },
    {
      "epoch": 0.040013209312565357,
      "grad_norm": 0.8771823644638062,
      "learning_rate": 9.992615187733508e-06,
      "loss": 0.8577,
      "step": 727
    },
    {
      "epoch": 0.04006824811492102,
      "grad_norm": 0.9471028447151184,
      "learning_rate": 9.992591618752244e-06,
      "loss": 0.9057,
      "step": 728
    },
    {
      "epoch": 0.04012328691727668,
      "grad_norm": 0.9547705054283142,
      "learning_rate": 9.992568012247995e-06,
      "loss": 0.9549,
      "step": 729
    },
    {
      "epoch": 0.04017832571963234,
      "grad_norm": 0.8862974047660828,
      "learning_rate": 9.992544368220941e-06,
      "loss": 0.8593,
      "step": 730
    },
    {
      "epoch": 0.040233364521988,
      "grad_norm": 0.906334400177002,
      "learning_rate": 9.992520686671261e-06,
      "loss": 0.8832,
      "step": 731
    },
    {
      "epoch": 0.04028840332434366,
      "grad_norm": 1.07270085811615,
      "learning_rate": 9.992496967599133e-06,
      "loss": 0.9409,
      "step": 732
    },
    {
      "epoch": 0.040343442126699325,
      "grad_norm": 0.9026005268096924,
      "learning_rate": 9.992473211004734e-06,
      "loss": 0.8326,
      "step": 733
    },
    {
      "epoch": 0.040398480929054986,
      "grad_norm": 0.9762942790985107,
      "learning_rate": 9.992449416888241e-06,
      "loss": 0.9048,
      "step": 734
    },
    {
      "epoch": 0.04045351973141065,
      "grad_norm": 0.9658033847808838,
      "learning_rate": 9.992425585249837e-06,
      "loss": 0.9219,
      "step": 735
    },
    {
      "epoch": 0.0405085585337663,
      "grad_norm": 0.8909044861793518,
      "learning_rate": 9.992401716089698e-06,
      "loss": 0.8564,
      "step": 736
    },
    {
      "epoch": 0.04056359733612196,
      "grad_norm": 1.0387929677963257,
      "learning_rate": 9.992377809408001e-06,
      "loss": 0.9533,
      "step": 737
    },
    {
      "epoch": 0.040618636138477625,
      "grad_norm": 0.9044275879859924,
      "learning_rate": 9.99235386520493e-06,
      "loss": 0.8508,
      "step": 738
    },
    {
      "epoch": 0.040673674940833286,
      "grad_norm": 1.019377589225769,
      "learning_rate": 9.992329883480667e-06,
      "loss": 0.8684,
      "step": 739
    },
    {
      "epoch": 0.04072871374318895,
      "grad_norm": 0.9394627213478088,
      "learning_rate": 9.992305864235385e-06,
      "loss": 0.7665,
      "step": 740
    },
    {
      "epoch": 0.04078375254554461,
      "grad_norm": 0.8652323484420776,
      "learning_rate": 9.99228180746927e-06,
      "loss": 0.8576,
      "step": 741
    },
    {
      "epoch": 0.04083879134790027,
      "grad_norm": 0.9347619414329529,
      "learning_rate": 9.992257713182502e-06,
      "loss": 0.9586,
      "step": 742
    },
    {
      "epoch": 0.04089383015025593,
      "grad_norm": 0.9510203003883362,
      "learning_rate": 9.99223358137526e-06,
      "loss": 0.9092,
      "step": 743
    },
    {
      "epoch": 0.04094886895261159,
      "grad_norm": 0.8242866396903992,
      "learning_rate": 9.992209412047729e-06,
      "loss": 0.6997,
      "step": 744
    },
    {
      "epoch": 0.041003907754967255,
      "grad_norm": 0.8842730522155762,
      "learning_rate": 9.992185205200087e-06,
      "loss": 0.8873,
      "step": 745
    },
    {
      "epoch": 0.041058946557322916,
      "grad_norm": 1.0813730955123901,
      "learning_rate": 9.992160960832518e-06,
      "loss": 1.0162,
      "step": 746
    },
    {
      "epoch": 0.04111398535967857,
      "grad_norm": 1.1276283264160156,
      "learning_rate": 9.9921366789452e-06,
      "loss": 1.0004,
      "step": 747
    },
    {
      "epoch": 0.04116902416203423,
      "grad_norm": 0.8810326457023621,
      "learning_rate": 9.992112359538323e-06,
      "loss": 0.7823,
      "step": 748
    },
    {
      "epoch": 0.04122406296438989,
      "grad_norm": 0.9939407110214233,
      "learning_rate": 9.992088002612066e-06,
      "loss": 1.0016,
      "step": 749
    },
    {
      "epoch": 0.041279101766745555,
      "grad_norm": 1.0963523387908936,
      "learning_rate": 9.99206360816661e-06,
      "loss": 0.9252,
      "step": 750
    },
    {
      "epoch": 0.041334140569101216,
      "grad_norm": 1.1346478462219238,
      "learning_rate": 9.99203917620214e-06,
      "loss": 0.9608,
      "step": 751
    },
    {
      "epoch": 0.04138917937145688,
      "grad_norm": 1.0108580589294434,
      "learning_rate": 9.992014706718841e-06,
      "loss": 0.9179,
      "step": 752
    },
    {
      "epoch": 0.04144421817381254,
      "grad_norm": 0.897293210029602,
      "learning_rate": 9.991990199716894e-06,
      "loss": 0.9295,
      "step": 753
    },
    {
      "epoch": 0.0414992569761682,
      "grad_norm": 1.0152363777160645,
      "learning_rate": 9.991965655196488e-06,
      "loss": 0.8467,
      "step": 754
    },
    {
      "epoch": 0.04155429577852386,
      "grad_norm": 0.8655388355255127,
      "learning_rate": 9.9919410731578e-06,
      "loss": 0.796,
      "step": 755
    },
    {
      "epoch": 0.04160933458087952,
      "grad_norm": 1.0140331983566284,
      "learning_rate": 9.991916453601023e-06,
      "loss": 0.8444,
      "step": 756
    },
    {
      "epoch": 0.041664373383235184,
      "grad_norm": 0.9387341141700745,
      "learning_rate": 9.991891796526338e-06,
      "loss": 0.8669,
      "step": 757
    },
    {
      "epoch": 0.04171941218559084,
      "grad_norm": 0.9395696520805359,
      "learning_rate": 9.991867101933928e-06,
      "loss": 0.8376,
      "step": 758
    },
    {
      "epoch": 0.0417744509879465,
      "grad_norm": 1.0856634378433228,
      "learning_rate": 9.991842369823983e-06,
      "loss": 0.9271,
      "step": 759
    },
    {
      "epoch": 0.04182948979030216,
      "grad_norm": 0.8777190446853638,
      "learning_rate": 9.991817600196687e-06,
      "loss": 0.9197,
      "step": 760
    },
    {
      "epoch": 0.04188452859265782,
      "grad_norm": 0.9639917016029358,
      "learning_rate": 9.991792793052225e-06,
      "loss": 0.8835,
      "step": 761
    },
    {
      "epoch": 0.041939567395013484,
      "grad_norm": 0.9384773969650269,
      "learning_rate": 9.991767948390785e-06,
      "loss": 0.8403,
      "step": 762
    },
    {
      "epoch": 0.041994606197369146,
      "grad_norm": 0.8987650275230408,
      "learning_rate": 9.991743066212554e-06,
      "loss": 0.7948,
      "step": 763
    },
    {
      "epoch": 0.04204964499972481,
      "grad_norm": 1.0545049905776978,
      "learning_rate": 9.991718146517717e-06,
      "loss": 0.9359,
      "step": 764
    },
    {
      "epoch": 0.04210468380208047,
      "grad_norm": 0.9840022325515747,
      "learning_rate": 9.991693189306463e-06,
      "loss": 0.9188,
      "step": 765
    },
    {
      "epoch": 0.04215972260443613,
      "grad_norm": 0.8769927620887756,
      "learning_rate": 9.991668194578981e-06,
      "loss": 0.8647,
      "step": 766
    },
    {
      "epoch": 0.04221476140679179,
      "grad_norm": 0.9268791675567627,
      "learning_rate": 9.991643162335455e-06,
      "loss": 0.897,
      "step": 767
    },
    {
      "epoch": 0.042269800209147446,
      "grad_norm": 0.9316747784614563,
      "learning_rate": 9.991618092576075e-06,
      "loss": 0.9341,
      "step": 768
    },
    {
      "epoch": 0.04232483901150311,
      "grad_norm": 0.8348364233970642,
      "learning_rate": 9.991592985301031e-06,
      "loss": 0.7528,
      "step": 769
    },
    {
      "epoch": 0.04237987781385877,
      "grad_norm": 0.9139068126678467,
      "learning_rate": 9.99156784051051e-06,
      "loss": 0.8596,
      "step": 770
    },
    {
      "epoch": 0.04243491661621443,
      "grad_norm": 0.9403928518295288,
      "learning_rate": 9.991542658204701e-06,
      "loss": 0.974,
      "step": 771
    },
    {
      "epoch": 0.04248995541857009,
      "grad_norm": 0.993549108505249,
      "learning_rate": 9.991517438383793e-06,
      "loss": 0.9479,
      "step": 772
    },
    {
      "epoch": 0.04254499422092575,
      "grad_norm": 0.8494916558265686,
      "learning_rate": 9.991492181047975e-06,
      "loss": 0.9149,
      "step": 773
    },
    {
      "epoch": 0.042600033023281414,
      "grad_norm": 1.0351910591125488,
      "learning_rate": 9.991466886197441e-06,
      "loss": 0.9552,
      "step": 774
    },
    {
      "epoch": 0.042655071825637075,
      "grad_norm": 0.916829526424408,
      "learning_rate": 9.991441553832375e-06,
      "loss": 0.8781,
      "step": 775
    },
    {
      "epoch": 0.04271011062799274,
      "grad_norm": 1.113476276397705,
      "learning_rate": 9.991416183952972e-06,
      "loss": 0.8137,
      "step": 776
    },
    {
      "epoch": 0.0427651494303484,
      "grad_norm": 1.1608171463012695,
      "learning_rate": 9.991390776559421e-06,
      "loss": 1.0045,
      "step": 777
    },
    {
      "epoch": 0.04282018823270406,
      "grad_norm": 1.0045493841171265,
      "learning_rate": 9.991365331651913e-06,
      "loss": 0.8813,
      "step": 778
    },
    {
      "epoch": 0.042875227035059714,
      "grad_norm": 0.918820858001709,
      "learning_rate": 9.991339849230639e-06,
      "loss": 0.9198,
      "step": 779
    },
    {
      "epoch": 0.042930265837415375,
      "grad_norm": 0.9875735640525818,
      "learning_rate": 9.991314329295792e-06,
      "loss": 0.8665,
      "step": 780
    },
    {
      "epoch": 0.04298530463977104,
      "grad_norm": 0.873768150806427,
      "learning_rate": 9.991288771847561e-06,
      "loss": 0.8606,
      "step": 781
    },
    {
      "epoch": 0.0430403434421267,
      "grad_norm": 0.8892746567726135,
      "learning_rate": 9.991263176886139e-06,
      "loss": 0.9011,
      "step": 782
    },
    {
      "epoch": 0.04309538224448236,
      "grad_norm": 1.097734808921814,
      "learning_rate": 9.99123754441172e-06,
      "loss": 1.009,
      "step": 783
    },
    {
      "epoch": 0.04315042104683802,
      "grad_norm": 1.0065964460372925,
      "learning_rate": 9.991211874424497e-06,
      "loss": 0.9492,
      "step": 784
    },
    {
      "epoch": 0.04320545984919368,
      "grad_norm": 1.0791678428649902,
      "learning_rate": 9.99118616692466e-06,
      "loss": 1.0142,
      "step": 785
    },
    {
      "epoch": 0.043260498651549344,
      "grad_norm": 0.9454777836799622,
      "learning_rate": 9.991160421912404e-06,
      "loss": 0.8058,
      "step": 786
    },
    {
      "epoch": 0.043315537453905005,
      "grad_norm": 0.9448156952857971,
      "learning_rate": 9.991134639387922e-06,
      "loss": 0.8184,
      "step": 787
    },
    {
      "epoch": 0.043370576256260666,
      "grad_norm": 0.9636550545692444,
      "learning_rate": 9.99110881935141e-06,
      "loss": 0.8606,
      "step": 788
    },
    {
      "epoch": 0.04342561505861633,
      "grad_norm": 0.9933613538742065,
      "learning_rate": 9.991082961803058e-06,
      "loss": 0.9449,
      "step": 789
    },
    {
      "epoch": 0.04348065386097198,
      "grad_norm": 0.8906797170639038,
      "learning_rate": 9.991057066743065e-06,
      "loss": 0.8053,
      "step": 790
    },
    {
      "epoch": 0.043535692663327644,
      "grad_norm": 1.0393906831741333,
      "learning_rate": 9.991031134171621e-06,
      "loss": 0.8487,
      "step": 791
    },
    {
      "epoch": 0.043590731465683305,
      "grad_norm": 1.0618231296539307,
      "learning_rate": 9.991005164088923e-06,
      "loss": 0.9847,
      "step": 792
    },
    {
      "epoch": 0.043645770268038966,
      "grad_norm": 0.9525149464607239,
      "learning_rate": 9.990979156495167e-06,
      "loss": 0.9318,
      "step": 793
    },
    {
      "epoch": 0.04370080907039463,
      "grad_norm": 0.9430851936340332,
      "learning_rate": 9.990953111390546e-06,
      "loss": 0.8483,
      "step": 794
    },
    {
      "epoch": 0.04375584787275029,
      "grad_norm": 0.9259672164916992,
      "learning_rate": 9.99092702877526e-06,
      "loss": 0.9365,
      "step": 795
    },
    {
      "epoch": 0.04381088667510595,
      "grad_norm": 0.942609965801239,
      "learning_rate": 9.9909009086495e-06,
      "loss": 0.8408,
      "step": 796
    },
    {
      "epoch": 0.04386592547746161,
      "grad_norm": 0.939255952835083,
      "learning_rate": 9.990874751013467e-06,
      "loss": 0.8749,
      "step": 797
    },
    {
      "epoch": 0.04392096427981727,
      "grad_norm": 1.1701711416244507,
      "learning_rate": 9.990848555867353e-06,
      "loss": 0.9312,
      "step": 798
    },
    {
      "epoch": 0.043976003082172935,
      "grad_norm": 1.0441124439239502,
      "learning_rate": 9.990822323211358e-06,
      "loss": 0.8618,
      "step": 799
    },
    {
      "epoch": 0.04403104188452859,
      "grad_norm": 0.9601489305496216,
      "learning_rate": 9.990796053045679e-06,
      "loss": 0.9569,
      "step": 800
    },
    {
      "epoch": 0.04408608068688425,
      "grad_norm": 0.9394032955169678,
      "learning_rate": 9.990769745370513e-06,
      "loss": 0.846,
      "step": 801
    },
    {
      "epoch": 0.04414111948923991,
      "grad_norm": 0.9631348252296448,
      "learning_rate": 9.990743400186056e-06,
      "loss": 0.8754,
      "step": 802
    },
    {
      "epoch": 0.04419615829159557,
      "grad_norm": 0.9234963059425354,
      "learning_rate": 9.990717017492508e-06,
      "loss": 0.8613,
      "step": 803
    },
    {
      "epoch": 0.044251197093951235,
      "grad_norm": 0.9169090390205383,
      "learning_rate": 9.990690597290069e-06,
      "loss": 0.8867,
      "step": 804
    },
    {
      "epoch": 0.044306235896306896,
      "grad_norm": 1.0194867849349976,
      "learning_rate": 9.990664139578933e-06,
      "loss": 0.8675,
      "step": 805
    },
    {
      "epoch": 0.04436127469866256,
      "grad_norm": 1.3226114511489868,
      "learning_rate": 9.990637644359302e-06,
      "loss": 0.997,
      "step": 806
    },
    {
      "epoch": 0.04441631350101822,
      "grad_norm": 0.8904317617416382,
      "learning_rate": 9.990611111631374e-06,
      "loss": 0.7274,
      "step": 807
    },
    {
      "epoch": 0.04447135230337388,
      "grad_norm": 0.8909007906913757,
      "learning_rate": 9.99058454139535e-06,
      "loss": 0.8141,
      "step": 808
    },
    {
      "epoch": 0.04452639110572954,
      "grad_norm": 1.004015564918518,
      "learning_rate": 9.990557933651429e-06,
      "loss": 0.9883,
      "step": 809
    },
    {
      "epoch": 0.0445814299080852,
      "grad_norm": 1.1215732097625732,
      "learning_rate": 9.990531288399807e-06,
      "loss": 0.9355,
      "step": 810
    },
    {
      "epoch": 0.04463646871044086,
      "grad_norm": 1.0545012950897217,
      "learning_rate": 9.99050460564069e-06,
      "loss": 0.9532,
      "step": 811
    },
    {
      "epoch": 0.04469150751279652,
      "grad_norm": 0.9608867168426514,
      "learning_rate": 9.990477885374277e-06,
      "loss": 0.9363,
      "step": 812
    },
    {
      "epoch": 0.04474654631515218,
      "grad_norm": 0.8750461935997009,
      "learning_rate": 9.990451127600766e-06,
      "loss": 0.7343,
      "step": 813
    },
    {
      "epoch": 0.04480158511750784,
      "grad_norm": 0.891740620136261,
      "learning_rate": 9.99042433232036e-06,
      "loss": 0.8541,
      "step": 814
    },
    {
      "epoch": 0.0448566239198635,
      "grad_norm": 1.1520029306411743,
      "learning_rate": 9.990397499533264e-06,
      "loss": 0.7696,
      "step": 815
    },
    {
      "epoch": 0.044911662722219164,
      "grad_norm": 0.9526278972625732,
      "learning_rate": 9.990370629239673e-06,
      "loss": 0.8953,
      "step": 816
    },
    {
      "epoch": 0.044966701524574826,
      "grad_norm": 0.9218434691429138,
      "learning_rate": 9.990343721439795e-06,
      "loss": 0.8198,
      "step": 817
    },
    {
      "epoch": 0.04502174032693049,
      "grad_norm": 0.8502745628356934,
      "learning_rate": 9.990316776133827e-06,
      "loss": 0.8035,
      "step": 818
    },
    {
      "epoch": 0.04507677912928615,
      "grad_norm": 0.8861565589904785,
      "learning_rate": 9.990289793321975e-06,
      "loss": 0.8626,
      "step": 819
    },
    {
      "epoch": 0.04513181793164181,
      "grad_norm": 1.1113256216049194,
      "learning_rate": 9.99026277300444e-06,
      "loss": 0.9363,
      "step": 820
    },
    {
      "epoch": 0.04518685673399747,
      "grad_norm": 0.9984708428382874,
      "learning_rate": 9.990235715181426e-06,
      "loss": 1.0376,
      "step": 821
    },
    {
      "epoch": 0.045241895536353126,
      "grad_norm": 0.9026711583137512,
      "learning_rate": 9.990208619853137e-06,
      "loss": 0.9079,
      "step": 822
    },
    {
      "epoch": 0.04529693433870879,
      "grad_norm": 0.8724965453147888,
      "learning_rate": 9.990181487019775e-06,
      "loss": 0.8665,
      "step": 823
    },
    {
      "epoch": 0.04535197314106445,
      "grad_norm": 0.8923047780990601,
      "learning_rate": 9.990154316681543e-06,
      "loss": 0.7779,
      "step": 824
    },
    {
      "epoch": 0.04540701194342011,
      "grad_norm": 0.9024640321731567,
      "learning_rate": 9.99012710883865e-06,
      "loss": 0.8859,
      "step": 825
    },
    {
      "epoch": 0.04546205074577577,
      "grad_norm": 0.9245888590812683,
      "learning_rate": 9.990099863491296e-06,
      "loss": 0.8501,
      "step": 826
    },
    {
      "epoch": 0.04551708954813143,
      "grad_norm": 0.9257050156593323,
      "learning_rate": 9.990072580639687e-06,
      "loss": 0.9561,
      "step": 827
    },
    {
      "epoch": 0.045572128350487094,
      "grad_norm": 0.995610773563385,
      "learning_rate": 9.99004526028403e-06,
      "loss": 0.917,
      "step": 828
    },
    {
      "epoch": 0.045627167152842756,
      "grad_norm": 0.9524009823799133,
      "learning_rate": 9.990017902424525e-06,
      "loss": 0.9184,
      "step": 829
    },
    {
      "epoch": 0.04568220595519842,
      "grad_norm": 0.9264503121376038,
      "learning_rate": 9.989990507061385e-06,
      "loss": 0.8615,
      "step": 830
    },
    {
      "epoch": 0.04573724475755408,
      "grad_norm": 1.0068570375442505,
      "learning_rate": 9.989963074194809e-06,
      "loss": 0.8331,
      "step": 831
    },
    {
      "epoch": 0.04579228355990974,
      "grad_norm": 0.9295952320098877,
      "learning_rate": 9.989935603825009e-06,
      "loss": 0.8387,
      "step": 832
    },
    {
      "epoch": 0.045847322362265394,
      "grad_norm": 1.0408827066421509,
      "learning_rate": 9.989908095952186e-06,
      "loss": 0.9686,
      "step": 833
    },
    {
      "epoch": 0.045902361164621056,
      "grad_norm": 0.8874136209487915,
      "learning_rate": 9.989880550576551e-06,
      "loss": 0.815,
      "step": 834
    },
    {
      "epoch": 0.04595739996697672,
      "grad_norm": 0.9898836016654968,
      "learning_rate": 9.989852967698311e-06,
      "loss": 0.9458,
      "step": 835
    },
    {
      "epoch": 0.04601243876933238,
      "grad_norm": 0.9828970432281494,
      "learning_rate": 9.989825347317668e-06,
      "loss": 0.7922,
      "step": 836
    },
    {
      "epoch": 0.04606747757168804,
      "grad_norm": 1.025447964668274,
      "learning_rate": 9.989797689434836e-06,
      "loss": 0.9349,
      "step": 837
    },
    {
      "epoch": 0.0461225163740437,
      "grad_norm": 0.8623831272125244,
      "learning_rate": 9.98976999405002e-06,
      "loss": 0.8786,
      "step": 838
    },
    {
      "epoch": 0.04617755517639936,
      "grad_norm": 0.9614997506141663,
      "learning_rate": 9.98974226116343e-06,
      "loss": 0.7885,
      "step": 839
    },
    {
      "epoch": 0.046232593978755024,
      "grad_norm": 1.0207616090774536,
      "learning_rate": 9.989714490775269e-06,
      "loss": 0.9786,
      "step": 840
    },
    {
      "epoch": 0.046287632781110685,
      "grad_norm": 0.8509595990180969,
      "learning_rate": 9.98968668288575e-06,
      "loss": 0.7312,
      "step": 841
    },
    {
      "epoch": 0.04634267158346635,
      "grad_norm": 0.9822607040405273,
      "learning_rate": 9.989658837495084e-06,
      "loss": 0.952,
      "step": 842
    },
    {
      "epoch": 0.046397710385822,
      "grad_norm": 1.0058252811431885,
      "learning_rate": 9.989630954603477e-06,
      "loss": 0.8811,
      "step": 843
    },
    {
      "epoch": 0.04645274918817766,
      "grad_norm": 1.0146985054016113,
      "learning_rate": 9.989603034211139e-06,
      "loss": 0.9051,
      "step": 844
    },
    {
      "epoch": 0.046507787990533324,
      "grad_norm": 0.8976503610610962,
      "learning_rate": 9.98957507631828e-06,
      "loss": 0.879,
      "step": 845
    },
    {
      "epoch": 0.046562826792888985,
      "grad_norm": 0.8791939616203308,
      "learning_rate": 9.989547080925111e-06,
      "loss": 0.8944,
      "step": 846
    },
    {
      "epoch": 0.04661786559524465,
      "grad_norm": 0.8530884981155396,
      "learning_rate": 9.989519048031842e-06,
      "loss": 0.9029,
      "step": 847
    },
    {
      "epoch": 0.04667290439760031,
      "grad_norm": 0.9621617197990417,
      "learning_rate": 9.989490977638683e-06,
      "loss": 0.8374,
      "step": 848
    },
    {
      "epoch": 0.04672794319995597,
      "grad_norm": 0.9629075527191162,
      "learning_rate": 9.989462869745845e-06,
      "loss": 0.9032,
      "step": 849
    },
    {
      "epoch": 0.04678298200231163,
      "grad_norm": 1.3256126642227173,
      "learning_rate": 9.989434724353541e-06,
      "loss": 0.9748,
      "step": 850
    },
    {
      "epoch": 0.04683802080466729,
      "grad_norm": 1.0230494737625122,
      "learning_rate": 9.989406541461979e-06,
      "loss": 0.9752,
      "step": 851
    },
    {
      "epoch": 0.046893059607022954,
      "grad_norm": 0.8454533219337463,
      "learning_rate": 9.989378321071375e-06,
      "loss": 0.8426,
      "step": 852
    },
    {
      "epoch": 0.046948098409378615,
      "grad_norm": 0.9995863437652588,
      "learning_rate": 9.989350063181939e-06,
      "loss": 0.9955,
      "step": 853
    },
    {
      "epoch": 0.04700313721173427,
      "grad_norm": 0.8956604599952698,
      "learning_rate": 9.989321767793883e-06,
      "loss": 0.9024,
      "step": 854
    },
    {
      "epoch": 0.04705817601408993,
      "grad_norm": 1.0123292207717896,
      "learning_rate": 9.989293434907419e-06,
      "loss": 0.7856,
      "step": 855
    },
    {
      "epoch": 0.04711321481644559,
      "grad_norm": 0.814577043056488,
      "learning_rate": 9.989265064522762e-06,
      "loss": 0.8377,
      "step": 856
    },
    {
      "epoch": 0.047168253618801254,
      "grad_norm": 1.1571552753448486,
      "learning_rate": 9.989236656640125e-06,
      "loss": 0.8562,
      "step": 857
    },
    {
      "epoch": 0.047223292421156915,
      "grad_norm": 0.9681577682495117,
      "learning_rate": 9.98920821125972e-06,
      "loss": 0.8473,
      "step": 858
    },
    {
      "epoch": 0.047278331223512576,
      "grad_norm": 0.9680121541023254,
      "learning_rate": 9.989179728381761e-06,
      "loss": 0.9811,
      "step": 859
    },
    {
      "epoch": 0.04733337002586824,
      "grad_norm": 0.985477089881897,
      "learning_rate": 9.989151208006464e-06,
      "loss": 0.6994,
      "step": 860
    },
    {
      "epoch": 0.0473884088282239,
      "grad_norm": 0.8612962365150452,
      "learning_rate": 9.98912265013404e-06,
      "loss": 0.7667,
      "step": 861
    },
    {
      "epoch": 0.04744344763057956,
      "grad_norm": 0.8884604573249817,
      "learning_rate": 9.989094054764708e-06,
      "loss": 0.8382,
      "step": 862
    },
    {
      "epoch": 0.04749848643293522,
      "grad_norm": 1.036881923675537,
      "learning_rate": 9.989065421898681e-06,
      "loss": 0.8748,
      "step": 863
    },
    {
      "epoch": 0.04755352523529088,
      "grad_norm": 0.9954493045806885,
      "learning_rate": 9.989036751536171e-06,
      "loss": 0.9174,
      "step": 864
    },
    {
      "epoch": 0.04760856403764654,
      "grad_norm": 0.9984694123268127,
      "learning_rate": 9.989008043677399e-06,
      "loss": 0.7636,
      "step": 865
    },
    {
      "epoch": 0.0476636028400022,
      "grad_norm": 1.0412588119506836,
      "learning_rate": 9.988979298322576e-06,
      "loss": 0.773,
      "step": 866
    },
    {
      "epoch": 0.04771864164235786,
      "grad_norm": 0.8034874796867371,
      "learning_rate": 9.98895051547192e-06,
      "loss": 0.7914,
      "step": 867
    },
    {
      "epoch": 0.04777368044471352,
      "grad_norm": 0.8983979225158691,
      "learning_rate": 9.988921695125648e-06,
      "loss": 0.7292,
      "step": 868
    },
    {
      "epoch": 0.04782871924706918,
      "grad_norm": 0.9445077776908875,
      "learning_rate": 9.988892837283976e-06,
      "loss": 0.8263,
      "step": 869
    },
    {
      "epoch": 0.047883758049424845,
      "grad_norm": 1.0753306150436401,
      "learning_rate": 9.988863941947121e-06,
      "loss": 1.1122,
      "step": 870
    },
    {
      "epoch": 0.047938796851780506,
      "grad_norm": 1.0091484785079956,
      "learning_rate": 9.9888350091153e-06,
      "loss": 0.9276,
      "step": 871
    },
    {
      "epoch": 0.04799383565413617,
      "grad_norm": 1.0977306365966797,
      "learning_rate": 9.988806038788732e-06,
      "loss": 0.854,
      "step": 872
    },
    {
      "epoch": 0.04804887445649183,
      "grad_norm": 1.0285007953643799,
      "learning_rate": 9.988777030967632e-06,
      "loss": 0.9441,
      "step": 873
    },
    {
      "epoch": 0.04810391325884749,
      "grad_norm": 0.8973976373672485,
      "learning_rate": 9.988747985652218e-06,
      "loss": 0.786,
      "step": 874
    },
    {
      "epoch": 0.04815895206120315,
      "grad_norm": 0.9809553623199463,
      "learning_rate": 9.98871890284271e-06,
      "loss": 0.9042,
      "step": 875
    },
    {
      "epoch": 0.048213990863558806,
      "grad_norm": 0.8514279723167419,
      "learning_rate": 9.988689782539326e-06,
      "loss": 0.7874,
      "step": 876
    },
    {
      "epoch": 0.04826902966591447,
      "grad_norm": 0.8299674391746521,
      "learning_rate": 9.988660624742286e-06,
      "loss": 0.8704,
      "step": 877
    },
    {
      "epoch": 0.04832406846827013,
      "grad_norm": 0.9862462282180786,
      "learning_rate": 9.988631429451809e-06,
      "loss": 0.9963,
      "step": 878
    },
    {
      "epoch": 0.04837910727062579,
      "grad_norm": 0.9041131734848022,
      "learning_rate": 9.988602196668111e-06,
      "loss": 0.9207,
      "step": 879
    },
    {
      "epoch": 0.04843414607298145,
      "grad_norm": 0.8597276210784912,
      "learning_rate": 9.988572926391416e-06,
      "loss": 0.8226,
      "step": 880
    },
    {
      "epoch": 0.04848918487533711,
      "grad_norm": 0.9494329690933228,
      "learning_rate": 9.988543618621941e-06,
      "loss": 0.8834,
      "step": 881
    },
    {
      "epoch": 0.048544223677692774,
      "grad_norm": 0.9129118323326111,
      "learning_rate": 9.98851427335991e-06,
      "loss": 0.7819,
      "step": 882
    },
    {
      "epoch": 0.048599262480048436,
      "grad_norm": 0.9145999550819397,
      "learning_rate": 9.988484890605539e-06,
      "loss": 0.885,
      "step": 883
    },
    {
      "epoch": 0.0486543012824041,
      "grad_norm": 1.0115307569503784,
      "learning_rate": 9.98845547035905e-06,
      "loss": 0.8347,
      "step": 884
    },
    {
      "epoch": 0.04870934008475976,
      "grad_norm": 1.1372706890106201,
      "learning_rate": 9.988426012620667e-06,
      "loss": 0.944,
      "step": 885
    },
    {
      "epoch": 0.04876437888711541,
      "grad_norm": 0.9502811431884766,
      "learning_rate": 9.98839651739061e-06,
      "loss": 0.9054,
      "step": 886
    },
    {
      "epoch": 0.048819417689471074,
      "grad_norm": 0.9612823128700256,
      "learning_rate": 9.988366984669097e-06,
      "loss": 0.8796,
      "step": 887
    },
    {
      "epoch": 0.048874456491826736,
      "grad_norm": 0.9551461935043335,
      "learning_rate": 9.988337414456355e-06,
      "loss": 0.8769,
      "step": 888
    },
    {
      "epoch": 0.0489294952941824,
      "grad_norm": 0.8554086089134216,
      "learning_rate": 9.988307806752603e-06,
      "loss": 0.892,
      "step": 889
    },
    {
      "epoch": 0.04898453409653806,
      "grad_norm": 0.8418886661529541,
      "learning_rate": 9.988278161558067e-06,
      "loss": 0.7568,
      "step": 890
    },
    {
      "epoch": 0.04903957289889372,
      "grad_norm": 1.4780360460281372,
      "learning_rate": 9.988248478872967e-06,
      "loss": 0.9126,
      "step": 891
    },
    {
      "epoch": 0.04909461170124938,
      "grad_norm": 0.8236714005470276,
      "learning_rate": 9.988218758697526e-06,
      "loss": 0.7317,
      "step": 892
    },
    {
      "epoch": 0.04914965050360504,
      "grad_norm": 0.8777141571044922,
      "learning_rate": 9.988189001031968e-06,
      "loss": 0.7989,
      "step": 893
    },
    {
      "epoch": 0.049204689305960704,
      "grad_norm": 1.0235031843185425,
      "learning_rate": 9.988159205876516e-06,
      "loss": 0.8335,
      "step": 894
    },
    {
      "epoch": 0.049259728108316365,
      "grad_norm": 0.9340357184410095,
      "learning_rate": 9.988129373231395e-06,
      "loss": 0.8129,
      "step": 895
    },
    {
      "epoch": 0.04931476691067203,
      "grad_norm": 1.7686667442321777,
      "learning_rate": 9.98809950309683e-06,
      "loss": 0.9792,
      "step": 896
    },
    {
      "epoch": 0.04936980571302768,
      "grad_norm": 0.9252369403839111,
      "learning_rate": 9.988069595473044e-06,
      "loss": 0.8671,
      "step": 897
    },
    {
      "epoch": 0.04942484451538334,
      "grad_norm": 0.9989960789680481,
      "learning_rate": 9.988039650360262e-06,
      "loss": 0.9245,
      "step": 898
    },
    {
      "epoch": 0.049479883317739004,
      "grad_norm": 1.062912106513977,
      "learning_rate": 9.98800966775871e-06,
      "loss": 0.9146,
      "step": 899
    },
    {
      "epoch": 0.049534922120094665,
      "grad_norm": 0.8698169589042664,
      "learning_rate": 9.98797964766861e-06,
      "loss": 0.8606,
      "step": 900
    },
    {
      "epoch": 0.04958996092245033,
      "grad_norm": 1.6754224300384521,
      "learning_rate": 9.98794959009019e-06,
      "loss": 0.9236,
      "step": 901
    },
    {
      "epoch": 0.04964499972480599,
      "grad_norm": 1.084174394607544,
      "learning_rate": 9.98791949502368e-06,
      "loss": 0.9252,
      "step": 902
    },
    {
      "epoch": 0.04970003852716165,
      "grad_norm": 0.9866724610328674,
      "learning_rate": 9.987889362469301e-06,
      "loss": 0.9096,
      "step": 903
    },
    {
      "epoch": 0.04975507732951731,
      "grad_norm": 0.8814040422439575,
      "learning_rate": 9.987859192427279e-06,
      "loss": 0.8475,
      "step": 904
    },
    {
      "epoch": 0.04981011613187297,
      "grad_norm": 0.8796457052230835,
      "learning_rate": 9.987828984897843e-06,
      "loss": 0.8478,
      "step": 905
    },
    {
      "epoch": 0.049865154934228634,
      "grad_norm": 1.0541884899139404,
      "learning_rate": 9.98779873988122e-06,
      "loss": 0.9799,
      "step": 906
    },
    {
      "epoch": 0.049920193736584295,
      "grad_norm": 0.91409832239151,
      "learning_rate": 9.987768457377636e-06,
      "loss": 0.8701,
      "step": 907
    },
    {
      "epoch": 0.04997523253893995,
      "grad_norm": 1.0120370388031006,
      "learning_rate": 9.98773813738732e-06,
      "loss": 0.8417,
      "step": 908
    },
    {
      "epoch": 0.05003027134129561,
      "grad_norm": 1.7744206190109253,
      "learning_rate": 9.987707779910499e-06,
      "loss": 0.9263,
      "step": 909
    }
  ],
  "logging_steps": 1,
  "max_steps": 36338,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 909,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2.682514714121994e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}