{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.8744142455482662,
  "eval_steps": 250,
  "global_step": 4000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004686035613870665,
      "grad_norm": 2.907787561416626,
      "learning_rate": 9.997071227741332e-06,
      "loss": 3.3815,
      "step": 10
    },
    {
      "epoch": 0.00937207122774133,
      "grad_norm": 2.2910118103027344,
      "learning_rate": 9.994142455482663e-06,
      "loss": 3.3605,
      "step": 20
    },
    {
      "epoch": 0.014058106841611996,
      "grad_norm": 2.791727066040039,
      "learning_rate": 9.991213683223994e-06,
      "loss": 3.3338,
      "step": 30
    },
    {
      "epoch": 0.01874414245548266,
      "grad_norm": 2.881253242492676,
      "learning_rate": 9.988284910965324e-06,
      "loss": 3.3047,
      "step": 40
    },
    {
      "epoch": 0.023430178069353328,
      "grad_norm": 3.5495920181274414,
      "learning_rate": 9.985356138706655e-06,
      "loss": 3.266,
      "step": 50
    },
    {
      "epoch": 0.028116213683223992,
      "grad_norm": 3.8195812702178955,
      "learning_rate": 9.982427366447985e-06,
      "loss": 3.2116,
      "step": 60
    },
    {
      "epoch": 0.03280224929709466,
      "grad_norm": 5.006792068481445,
      "learning_rate": 9.979498594189316e-06,
      "loss": 3.1271,
      "step": 70
    },
    {
      "epoch": 0.03748828491096532,
      "grad_norm": 5.206729412078857,
      "learning_rate": 9.976569821930647e-06,
      "loss": 3.0472,
      "step": 80
    },
    {
      "epoch": 0.04217432052483599,
      "grad_norm": 6.317724227905273,
      "learning_rate": 9.973641049671978e-06,
      "loss": 2.9458,
      "step": 90
    },
    {
      "epoch": 0.046860356138706656,
      "grad_norm": 7.30826997756958,
      "learning_rate": 9.97071227741331e-06,
      "loss": 2.9002,
      "step": 100
    },
    {
      "epoch": 0.05154639175257732,
      "grad_norm": 7.05161190032959,
      "learning_rate": 9.96778350515464e-06,
      "loss": 2.8379,
      "step": 110
    },
    {
      "epoch": 0.056232427366447985,
      "grad_norm": 12.389013290405273,
      "learning_rate": 9.964854732895972e-06,
      "loss": 2.7637,
      "step": 120
    },
    {
      "epoch": 0.06091846298031865,
      "grad_norm": 19.661762237548828,
      "learning_rate": 9.961925960637301e-06,
      "loss": 2.7413,
      "step": 130
    },
    {
      "epoch": 0.06560449859418932,
      "grad_norm": 7.9712018966674805,
      "learning_rate": 9.958997188378632e-06,
      "loss": 2.6953,
      "step": 140
    },
    {
      "epoch": 0.07029053420805999,
      "grad_norm": 44.79791259765625,
      "learning_rate": 9.956068416119962e-06,
      "loss": 2.6795,
      "step": 150
    },
    {
      "epoch": 0.07497656982193064,
      "grad_norm": 7.748485565185547,
      "learning_rate": 9.953139643861293e-06,
      "loss": 2.6179,
      "step": 160
    },
    {
      "epoch": 0.07966260543580131,
      "grad_norm": 7.135361194610596,
      "learning_rate": 9.950210871602624e-06,
      "loss": 2.5714,
      "step": 170
    },
    {
      "epoch": 0.08434864104967198,
      "grad_norm": 5.464244365692139,
      "learning_rate": 9.947282099343956e-06,
      "loss": 2.4817,
      "step": 180
    },
    {
      "epoch": 0.08903467666354264,
      "grad_norm": 10.304727554321289,
      "learning_rate": 9.944353327085287e-06,
      "loss": 2.3939,
      "step": 190
    },
    {
      "epoch": 0.09372071227741331,
      "grad_norm": 8.390380859375,
      "learning_rate": 9.941424554826618e-06,
      "loss": 2.3162,
      "step": 200
    },
    {
      "epoch": 0.09840674789128398,
      "grad_norm": 7.206277847290039,
      "learning_rate": 9.938495782567949e-06,
      "loss": 2.2413,
      "step": 210
    },
    {
      "epoch": 0.10309278350515463,
      "grad_norm": 10.72529411315918,
      "learning_rate": 9.935567010309279e-06,
      "loss": 2.1816,
      "step": 220
    },
    {
      "epoch": 0.1077788191190253,
      "grad_norm": 8.411327362060547,
      "learning_rate": 9.93263823805061e-06,
      "loss": 2.0204,
      "step": 230
    },
    {
      "epoch": 0.11246485473289597,
      "grad_norm": 9.118602752685547,
      "learning_rate": 9.929709465791941e-06,
      "loss": 1.9329,
      "step": 240
    },
    {
      "epoch": 0.11715089034676664,
      "grad_norm": 11.883502960205078,
      "learning_rate": 9.92678069353327e-06,
      "loss": 1.8041,
      "step": 250
    },
    {
      "epoch": 0.11715089034676664,
      "eval_loss": 0.20095524191856384,
      "eval_pearson_cosine": 0.5629603652959432,
      "eval_pearson_dot": 0.32442021258601983,
      "eval_pearson_euclidean": 0.5948642130310873,
      "eval_pearson_manhattan": 0.5931866084570743,
      "eval_runtime": 46.3498,
      "eval_samples_per_second": 32.363,
      "eval_spearman_cosine": 0.5645428688364399,
      "eval_spearman_dot": 0.3123519595505677,
      "eval_spearman_euclidean": 0.5966715855304487,
      "eval_spearman_manhattan": 0.5951499296436052,
      "eval_steps_per_second": 32.363,
      "step": 250
    },
    {
      "epoch": 0.1218369259606373,
      "grad_norm": 9.455839157104492,
      "learning_rate": 9.923851921274602e-06,
      "loss": 1.7175,
      "step": 260
    },
    {
      "epoch": 0.12652296157450796,
      "grad_norm": 9.907763481140137,
      "learning_rate": 9.920923149015933e-06,
      "loss": 1.5752,
      "step": 270
    },
    {
      "epoch": 0.13120899718837864,
      "grad_norm": 10.268372535705566,
      "learning_rate": 9.917994376757264e-06,
      "loss": 1.5905,
      "step": 280
    },
    {
      "epoch": 0.1358950328022493,
      "grad_norm": 12.264440536499023,
      "learning_rate": 9.915065604498595e-06,
      "loss": 1.4994,
      "step": 290
    },
    {
      "epoch": 0.14058106841611998,
      "grad_norm": 10.21927547454834,
      "learning_rate": 9.912136832239926e-06,
      "loss": 1.4741,
      "step": 300
    },
    {
      "epoch": 0.14526710402999063,
      "grad_norm": 12.204063415527344,
      "learning_rate": 9.909208059981256e-06,
      "loss": 1.3685,
      "step": 310
    },
    {
      "epoch": 0.14995313964386128,
      "grad_norm": 8.701486587524414,
      "learning_rate": 9.906279287722587e-06,
      "loss": 1.3407,
      "step": 320
    },
    {
      "epoch": 0.15463917525773196,
      "grad_norm": 11.478012084960938,
      "learning_rate": 9.903350515463918e-06,
      "loss": 1.3996,
      "step": 330
    },
    {
      "epoch": 0.15932521087160262,
      "grad_norm": 8.862137794494629,
      "learning_rate": 9.90042174320525e-06,
      "loss": 1.2921,
      "step": 340
    },
    {
      "epoch": 0.1640112464854733,
      "grad_norm": 8.181413650512695,
      "learning_rate": 9.897492970946579e-06,
      "loss": 1.2948,
      "step": 350
    },
    {
      "epoch": 0.16869728209934395,
      "grad_norm": 12.891910552978516,
      "learning_rate": 9.89456419868791e-06,
      "loss": 1.2444,
      "step": 360
    },
    {
      "epoch": 0.1733833177132146,
      "grad_norm": 9.783638000488281,
      "learning_rate": 9.891635426429241e-06,
      "loss": 1.1765,
      "step": 370
    },
    {
      "epoch": 0.1780693533270853,
      "grad_norm": 10.521812438964844,
      "learning_rate": 9.888706654170573e-06,
      "loss": 1.2163,
      "step": 380
    },
    {
      "epoch": 0.18275538894095594,
      "grad_norm": 9.507091522216797,
      "learning_rate": 9.885777881911904e-06,
      "loss": 1.1555,
      "step": 390
    },
    {
      "epoch": 0.18744142455482662,
      "grad_norm": 10.072102546691895,
      "learning_rate": 9.882849109653235e-06,
      "loss": 1.1631,
      "step": 400
    },
    {
      "epoch": 0.19212746016869728,
      "grad_norm": 12.557927131652832,
      "learning_rate": 9.879920337394564e-06,
      "loss": 1.1319,
      "step": 410
    },
    {
      "epoch": 0.19681349578256796,
      "grad_norm": 7.743768692016602,
      "learning_rate": 9.876991565135896e-06,
      "loss": 1.2022,
      "step": 420
    },
    {
      "epoch": 0.2014995313964386,
      "grad_norm": 9.258079528808594,
      "learning_rate": 9.874062792877227e-06,
      "loss": 1.1219,
      "step": 430
    },
    {
      "epoch": 0.20618556701030927,
      "grad_norm": 8.362629890441895,
      "learning_rate": 9.871134020618558e-06,
      "loss": 1.1138,
      "step": 440
    },
    {
      "epoch": 0.21087160262417995,
      "grad_norm": 8.71789264678955,
      "learning_rate": 9.868205248359888e-06,
      "loss": 1.0473,
      "step": 450
    },
    {
      "epoch": 0.2155576382380506,
      "grad_norm": 8.710640907287598,
      "learning_rate": 9.865276476101219e-06,
      "loss": 1.0933,
      "step": 460
    },
    {
      "epoch": 0.22024367385192128,
      "grad_norm": 7.57949686050415,
      "learning_rate": 9.86234770384255e-06,
      "loss": 1.0429,
      "step": 470
    },
    {
      "epoch": 0.22492970946579194,
      "grad_norm": 8.775091171264648,
      "learning_rate": 9.859418931583881e-06,
      "loss": 1.0406,
      "step": 480
    },
    {
      "epoch": 0.2296157450796626,
      "grad_norm": 9.942752838134766,
      "learning_rate": 9.856490159325212e-06,
      "loss": 1.0526,
      "step": 490
    },
    {
      "epoch": 0.23430178069353327,
      "grad_norm": 10.166437149047852,
      "learning_rate": 9.853561387066542e-06,
      "loss": 1.0265,
      "step": 500
    },
    {
      "epoch": 0.23430178069353327,
      "eval_loss": 0.09848710149526596,
      "eval_pearson_cosine": 0.7114527090607083,
      "eval_pearson_dot": 0.5814656567702485,
      "eval_pearson_euclidean": 0.7022168021213133,
      "eval_pearson_manhattan": 0.7010309676073874,
      "eval_runtime": 48.356,
      "eval_samples_per_second": 31.02,
      "eval_spearman_cosine": 0.7098203386273151,
      "eval_spearman_dot": 0.5861254786395066,
      "eval_spearman_euclidean": 0.7102590115372712,
      "eval_spearman_manhattan": 0.7094011853041999,
      "eval_steps_per_second": 31.02,
      "step": 500
    },
    {
      "epoch": 0.23898781630740393,
      "grad_norm": 6.910321235656738,
      "learning_rate": 9.850632614807873e-06,
      "loss": 1.0267,
      "step": 510
    },
    {
      "epoch": 0.2436738519212746,
      "grad_norm": 8.010503768920898,
      "learning_rate": 9.847703842549204e-06,
      "loss": 0.97,
      "step": 520
    },
    {
      "epoch": 0.24835988753514526,
      "grad_norm": 8.340336799621582,
      "learning_rate": 9.844775070290535e-06,
      "loss": 0.9773,
      "step": 530
    },
    {
      "epoch": 0.2530459231490159,
      "grad_norm": 6.75998592376709,
      "learning_rate": 9.841846298031867e-06,
      "loss": 0.9694,
      "step": 540
    },
    {
      "epoch": 0.25773195876288657,
      "grad_norm": 6.592973709106445,
      "learning_rate": 9.838917525773196e-06,
      "loss": 0.9101,
      "step": 550
    },
    {
      "epoch": 0.2624179943767573,
      "grad_norm": 8.13701343536377,
      "learning_rate": 9.835988753514527e-06,
      "loss": 0.9693,
      "step": 560
    },
    {
      "epoch": 0.26710402999062793,
      "grad_norm": 10.256951332092285,
      "learning_rate": 9.833059981255859e-06,
      "loss": 0.9405,
      "step": 570
    },
    {
      "epoch": 0.2717900656044986,
      "grad_norm": 9.521321296691895,
      "learning_rate": 9.83013120899719e-06,
      "loss": 0.8731,
      "step": 580
    },
    {
      "epoch": 0.27647610121836924,
      "grad_norm": 7.164852142333984,
      "learning_rate": 9.82720243673852e-06,
      "loss": 0.9387,
      "step": 590
    },
    {
      "epoch": 0.28116213683223995,
      "grad_norm": 8.326433181762695,
      "learning_rate": 9.82427366447985e-06,
      "loss": 0.8388,
      "step": 600
    },
    {
      "epoch": 0.2858481724461106,
      "grad_norm": 8.819974899291992,
      "learning_rate": 9.821344892221182e-06,
      "loss": 0.9034,
      "step": 610
    },
    {
      "epoch": 0.29053420805998126,
      "grad_norm": 6.0674052238464355,
      "learning_rate": 9.818416119962513e-06,
      "loss": 0.8225,
      "step": 620
    },
    {
      "epoch": 0.2952202436738519,
      "grad_norm": 7.898690223693848,
      "learning_rate": 9.815487347703844e-06,
      "loss": 0.8916,
      "step": 630
    },
    {
      "epoch": 0.29990627928772257,
      "grad_norm": 9.459305763244629,
      "learning_rate": 9.812558575445175e-06,
      "loss": 0.8771,
      "step": 640
    },
    {
      "epoch": 0.3045923149015933,
      "grad_norm": 7.231110095977783,
      "learning_rate": 9.809629803186505e-06,
      "loss": 0.8575,
      "step": 650
    },
    {
      "epoch": 0.30927835051546393,
      "grad_norm": 5.850890159606934,
      "learning_rate": 9.806701030927836e-06,
      "loss": 0.8294,
      "step": 660
    },
    {
      "epoch": 0.3139643861293346,
      "grad_norm": 12.532159805297852,
      "learning_rate": 9.803772258669167e-06,
      "loss": 0.8745,
      "step": 670
    },
    {
      "epoch": 0.31865042174320524,
      "grad_norm": 6.576635837554932,
      "learning_rate": 9.800843486410497e-06,
      "loss": 0.8167,
      "step": 680
    },
    {
      "epoch": 0.3233364573570759,
      "grad_norm": 7.243174076080322,
      "learning_rate": 9.797914714151828e-06,
      "loss": 0.8886,
      "step": 690
    },
    {
      "epoch": 0.3280224929709466,
      "grad_norm": 6.775111675262451,
      "learning_rate": 9.794985941893159e-06,
      "loss": 0.8205,
      "step": 700
    },
    {
      "epoch": 0.33270852858481725,
      "grad_norm": 7.494016647338867,
      "learning_rate": 9.79205716963449e-06,
      "loss": 0.7778,
      "step": 710
    },
    {
      "epoch": 0.3373945641986879,
      "grad_norm": 5.593213081359863,
      "learning_rate": 9.789128397375821e-06,
      "loss": 0.7875,
      "step": 720
    },
    {
      "epoch": 0.34208059981255856,
      "grad_norm": 7.325387001037598,
      "learning_rate": 9.786199625117153e-06,
      "loss": 0.7839,
      "step": 730
    },
    {
      "epoch": 0.3467666354264292,
      "grad_norm": 5.411241054534912,
      "learning_rate": 9.783270852858484e-06,
      "loss": 0.8363,
      "step": 740
    },
    {
      "epoch": 0.3514526710402999,
      "grad_norm": 5.667125225067139,
      "learning_rate": 9.780342080599813e-06,
      "loss": 0.7904,
      "step": 750
    },
    {
      "epoch": 0.3514526710402999,
      "eval_loss": 0.07609602808952332,
      "eval_pearson_cosine": 0.7390127527190131,
      "eval_pearson_dot": 0.6193519334256266,
      "eval_pearson_euclidean": 0.7286540107637123,
      "eval_pearson_manhattan": 0.7280163166143723,
      "eval_runtime": 48.6286,
      "eval_samples_per_second": 30.846,
      "eval_spearman_cosine": 0.7392385981828663,
      "eval_spearman_dot": 0.6275059521836013,
      "eval_spearman_euclidean": 0.7379755721813188,
      "eval_spearman_manhattan": 0.7372480627669395,
      "eval_steps_per_second": 30.846,
      "step": 750
    },
    {
      "epoch": 0.3561387066541706,
      "grad_norm": 5.931227207183838,
      "learning_rate": 9.777413308341144e-06,
      "loss": 0.7801,
      "step": 760
    },
    {
      "epoch": 0.36082474226804123,
      "grad_norm": 5.550874710083008,
      "learning_rate": 9.774484536082474e-06,
      "loss": 0.7466,
      "step": 770
    },
    {
      "epoch": 0.3655107778819119,
      "grad_norm": 5.67214298248291,
      "learning_rate": 9.771555763823805e-06,
      "loss": 0.7561,
      "step": 780
    },
    {
      "epoch": 0.3701968134957826,
      "grad_norm": 5.121714115142822,
      "learning_rate": 9.768626991565136e-06,
      "loss": 0.7395,
      "step": 790
    },
    {
      "epoch": 0.37488284910965325,
      "grad_norm": 4.957924842834473,
      "learning_rate": 9.765698219306467e-06,
      "loss": 0.7368,
      "step": 800
    },
    {
      "epoch": 0.3795688847235239,
      "grad_norm": 6.30219030380249,
      "learning_rate": 9.762769447047799e-06,
      "loss": 0.8091,
      "step": 810
    },
    {
      "epoch": 0.38425492033739456,
      "grad_norm": 6.518470287322998,
      "learning_rate": 9.75984067478913e-06,
      "loss": 0.7525,
      "step": 820
    },
    {
      "epoch": 0.3889409559512652,
      "grad_norm": 6.101437568664551,
      "learning_rate": 9.756911902530461e-06,
      "loss": 0.7263,
      "step": 830
    },
    {
      "epoch": 0.3936269915651359,
      "grad_norm": 5.428840160369873,
      "learning_rate": 9.75398313027179e-06,
      "loss": 0.7881,
      "step": 840
    },
    {
      "epoch": 0.3983130271790066,
      "grad_norm": 7.170475482940674,
      "learning_rate": 9.751054358013122e-06,
      "loss": 0.7218,
      "step": 850
    },
    {
      "epoch": 0.4029990627928772,
      "grad_norm": 6.153990745544434,
      "learning_rate": 9.748125585754453e-06,
      "loss": 0.748,
      "step": 860
    },
    {
      "epoch": 0.4076850984067479,
      "grad_norm": 5.364086151123047,
      "learning_rate": 9.745196813495782e-06,
      "loss": 0.786,
      "step": 870
    },
    {
      "epoch": 0.41237113402061853,
      "grad_norm": 5.541423797607422,
      "learning_rate": 9.742268041237114e-06,
      "loss": 0.7427,
      "step": 880
    },
    {
      "epoch": 0.41705716963448924,
      "grad_norm": 5.1667022705078125,
      "learning_rate": 9.739339268978445e-06,
      "loss": 0.6918,
      "step": 890
    },
    {
      "epoch": 0.4217432052483599,
      "grad_norm": 4.839612007141113,
      "learning_rate": 9.736410496719776e-06,
      "loss": 0.7056,
      "step": 900
    },
    {
      "epoch": 0.42642924086223055,
      "grad_norm": 4.407963275909424,
      "learning_rate": 9.733481724461107e-06,
      "loss": 0.6313,
      "step": 910
    },
    {
      "epoch": 0.4311152764761012,
      "grad_norm": 7.052595138549805,
      "learning_rate": 9.730552952202438e-06,
      "loss": 0.7489,
      "step": 920
    },
    {
      "epoch": 0.43580131208997186,
      "grad_norm": 5.71290397644043,
      "learning_rate": 9.727624179943768e-06,
      "loss": 0.6578,
      "step": 930
    },
    {
      "epoch": 0.44048734770384257,
      "grad_norm": 6.3575825691223145,
      "learning_rate": 9.724695407685099e-06,
      "loss": 0.6914,
      "step": 940
    },
    {
      "epoch": 0.4451733833177132,
      "grad_norm": 5.223476886749268,
      "learning_rate": 9.72176663542643e-06,
      "loss": 0.6494,
      "step": 950
    },
    {
      "epoch": 0.4498594189315839,
      "grad_norm": 6.220378398895264,
      "learning_rate": 9.71883786316776e-06,
      "loss": 0.6996,
      "step": 960
    },
    {
      "epoch": 0.45454545454545453,
      "grad_norm": 6.475409507751465,
      "learning_rate": 9.715909090909091e-06,
      "loss": 0.721,
      "step": 970
    },
    {
      "epoch": 0.4592314901593252,
      "grad_norm": 5.10095739364624,
      "learning_rate": 9.712980318650422e-06,
      "loss": 0.6734,
      "step": 980
    },
    {
      "epoch": 0.4639175257731959,
      "grad_norm": 7.8438801765441895,
      "learning_rate": 9.710051546391753e-06,
      "loss": 0.7409,
      "step": 990
    },
    {
      "epoch": 0.46860356138706655,
      "grad_norm": 5.446135997772217,
      "learning_rate": 9.707122774133085e-06,
      "loss": 0.6772,
      "step": 1000
    },
    {
      "epoch": 0.46860356138706655,
      "eval_loss": 0.06938865035772324,
      "eval_pearson_cosine": 0.7523242546763527,
      "eval_pearson_dot": 0.6339033623348058,
      "eval_pearson_euclidean": 0.7449881727323344,
      "eval_pearson_manhattan": 0.7443626147120028,
      "eval_runtime": 47.885,
      "eval_samples_per_second": 31.325,
      "eval_spearman_cosine": 0.7542578168613095,
      "eval_spearman_dot": 0.6408093688850417,
      "eval_spearman_euclidean": 0.7532432307302356,
      "eval_spearman_manhattan": 0.7526380381288565,
      "eval_steps_per_second": 31.325,
      "step": 1000
    },
    {
      "epoch": 0.4732895970009372,
      "grad_norm": 6.391997814178467,
      "learning_rate": 9.704194001874416e-06,
      "loss": 0.6965,
      "step": 1010
    },
    {
      "epoch": 0.47797563261480785,
      "grad_norm": 5.345996379852295,
      "learning_rate": 9.701265229615747e-06,
      "loss": 0.6447,
      "step": 1020
    },
    {
      "epoch": 0.48266166822867856,
      "grad_norm": 5.60822057723999,
      "learning_rate": 9.698336457357076e-06,
      "loss": 0.6854,
      "step": 1030
    },
    {
      "epoch": 0.4873477038425492,
      "grad_norm": 6.488014221191406,
      "learning_rate": 9.695407685098408e-06,
      "loss": 0.7089,
      "step": 1040
    },
    {
      "epoch": 0.49203373945641987,
      "grad_norm": 5.387355804443359,
      "learning_rate": 9.692478912839737e-06,
      "loss": 0.6949,
      "step": 1050
    },
    {
      "epoch": 0.4967197750702905,
      "grad_norm": 5.179281234741211,
      "learning_rate": 9.689550140581068e-06,
      "loss": 0.6571,
      "step": 1060
    },
    {
      "epoch": 0.5014058106841612,
      "grad_norm": 5.786458492279053,
      "learning_rate": 9.6866213683224e-06,
      "loss": 0.7154,
      "step": 1070
    },
    {
      "epoch": 0.5060918462980318,
      "grad_norm": 6.279985427856445,
      "learning_rate": 9.68369259606373e-06,
      "loss": 0.6757,
      "step": 1080
    },
    {
      "epoch": 0.5107778819119025,
      "grad_norm": 4.793182849884033,
      "learning_rate": 9.680763823805062e-06,
      "loss": 0.7136,
      "step": 1090
    },
    {
      "epoch": 0.5154639175257731,
      "grad_norm": 7.646529674530029,
      "learning_rate": 9.677835051546393e-06,
      "loss": 0.6396,
      "step": 1100
    },
    {
      "epoch": 0.5201499531396439,
      "grad_norm": 5.7034912109375,
      "learning_rate": 9.674906279287724e-06,
      "loss": 0.665,
      "step": 1110
    },
    {
      "epoch": 0.5248359887535146,
      "grad_norm": 6.54317045211792,
      "learning_rate": 9.671977507029054e-06,
      "loss": 0.6713,
      "step": 1120
    },
    {
      "epoch": 0.5295220243673852,
      "grad_norm": 5.6496806144714355,
      "learning_rate": 9.669048734770385e-06,
      "loss": 0.6876,
      "step": 1130
    },
    {
      "epoch": 0.5342080599812559,
      "grad_norm": 5.326486110687256,
      "learning_rate": 9.666119962511716e-06,
      "loss": 0.6951,
      "step": 1140
    },
    {
      "epoch": 0.5388940955951266,
      "grad_norm": 5.124545574188232,
      "learning_rate": 9.663191190253046e-06,
      "loss": 0.6388,
      "step": 1150
    },
    {
      "epoch": 0.5435801312089972,
      "grad_norm": 4.34152364730835,
      "learning_rate": 9.660262417994377e-06,
      "loss": 0.6322,
      "step": 1160
    },
    {
      "epoch": 0.5482661668228679,
      "grad_norm": 8.722075462341309,
      "learning_rate": 9.657333645735708e-06,
      "loss": 0.6776,
      "step": 1170
    },
    {
      "epoch": 0.5529522024367385,
      "grad_norm": 5.417623996734619,
      "learning_rate": 9.65440487347704e-06,
      "loss": 0.6492,
      "step": 1180
    },
    {
      "epoch": 0.5576382380506092,
      "grad_norm": 4.369041919708252,
      "learning_rate": 9.65147610121837e-06,
      "loss": 0.6039,
      "step": 1190
    },
    {
      "epoch": 0.5623242736644799,
      "grad_norm": 6.5720062255859375,
      "learning_rate": 9.648547328959702e-06,
      "loss": 0.6911,
      "step": 1200
    },
    {
      "epoch": 0.5670103092783505,
      "grad_norm": 7.112950325012207,
      "learning_rate": 9.645618556701031e-06,
      "loss": 0.6214,
      "step": 1210
    },
    {
      "epoch": 0.5716963448922212,
      "grad_norm": 5.643182277679443,
      "learning_rate": 9.642689784442362e-06,
      "loss": 0.6959,
      "step": 1220
    },
    {
      "epoch": 0.5763823805060918,
      "grad_norm": 5.078190803527832,
      "learning_rate": 9.639761012183694e-06,
      "loss": 0.6633,
      "step": 1230
    },
    {
      "epoch": 0.5810684161199625,
      "grad_norm": 5.247280120849609,
      "learning_rate": 9.636832239925025e-06,
      "loss": 0.6415,
      "step": 1240
    },
    {
      "epoch": 0.5857544517338332,
      "grad_norm": 5.110747814178467,
      "learning_rate": 9.633903467666354e-06,
      "loss": 0.6031,
      "step": 1250
    },
    {
      "epoch": 0.5857544517338332,
      "eval_loss": 0.06345358490943909,
      "eval_pearson_cosine": 0.7580338914962539,
      "eval_pearson_dot": 0.6394158052533783,
      "eval_pearson_euclidean": 0.7521759780114508,
      "eval_pearson_manhattan": 0.7513571158009427,
      "eval_runtime": 44.2242,
      "eval_samples_per_second": 33.918,
      "eval_spearman_cosine": 0.758882658229917,
      "eval_spearman_dot": 0.6455380162932587,
      "eval_spearman_euclidean": 0.7604619351541958,
      "eval_spearman_manhattan": 0.7599139087493931,
      "eval_steps_per_second": 33.918,
      "step": 1250
    },
    {
      "epoch": 0.5904404873477038,
      "grad_norm": 6.717201232910156,
      "learning_rate": 9.630974695407685e-06,
      "loss": 0.6553,
      "step": 1260
    },
    {
      "epoch": 0.5951265229615745,
      "grad_norm": 6.948915004730225,
      "learning_rate": 9.628045923149017e-06,
      "loss": 0.6528,
      "step": 1270
    },
    {
      "epoch": 0.5998125585754451,
      "grad_norm": 5.585124969482422,
      "learning_rate": 9.625117150890348e-06,
      "loss": 0.6125,
      "step": 1280
    },
    {
      "epoch": 0.6044985941893158,
      "grad_norm": 4.020166397094727,
      "learning_rate": 9.622188378631679e-06,
      "loss": 0.5857,
      "step": 1290
    },
    {
      "epoch": 0.6091846298031866,
      "grad_norm": 4.905421257019043,
      "learning_rate": 9.619259606373008e-06,
      "loss": 0.6128,
      "step": 1300
    },
    {
      "epoch": 0.6138706654170571,
      "grad_norm": 5.642446517944336,
      "learning_rate": 9.61633083411434e-06,
      "loss": 0.6177,
      "step": 1310
    },
    {
      "epoch": 0.6185567010309279,
      "grad_norm": 5.623671531677246,
      "learning_rate": 9.613402061855671e-06,
      "loss": 0.6076,
      "step": 1320
    },
    {
      "epoch": 0.6232427366447985,
      "grad_norm": 3.6249349117279053,
      "learning_rate": 9.610473289597002e-06,
      "loss": 0.5987,
      "step": 1330
    },
    {
      "epoch": 0.6279287722586692,
      "grad_norm": 4.7242608070373535,
      "learning_rate": 9.607544517338333e-06,
      "loss": 0.6082,
      "step": 1340
    },
    {
      "epoch": 0.6326148078725399,
      "grad_norm": 9.071741104125977,
      "learning_rate": 9.604615745079663e-06,
      "loss": 0.6369,
      "step": 1350
    },
    {
      "epoch": 0.6373008434864105,
      "grad_norm": 5.471718788146973,
      "learning_rate": 9.601686972820994e-06,
      "loss": 0.6235,
      "step": 1360
    },
    {
      "epoch": 0.6419868791002812,
      "grad_norm": 6.0755934715271,
      "learning_rate": 9.598758200562325e-06,
      "loss": 0.6197,
      "step": 1370
    },
    {
      "epoch": 0.6466729147141518,
      "grad_norm": 5.650800704956055,
      "learning_rate": 9.595829428303656e-06,
      "loss": 0.5947,
      "step": 1380
    },
    {
      "epoch": 0.6513589503280225,
      "grad_norm": 4.409568786621094,
      "learning_rate": 9.592900656044986e-06,
      "loss": 0.6632,
      "step": 1390
    },
    {
      "epoch": 0.6560449859418932,
      "grad_norm": 6.575608730316162,
      "learning_rate": 9.589971883786317e-06,
      "loss": 0.5655,
      "step": 1400
    },
    {
      "epoch": 0.6607310215557638,
      "grad_norm": 4.897518634796143,
      "learning_rate": 9.587043111527648e-06,
      "loss": 0.6064,
      "step": 1410
    },
    {
      "epoch": 0.6654170571696345,
      "grad_norm": 4.505845546722412,
      "learning_rate": 9.58411433926898e-06,
      "loss": 0.6217,
      "step": 1420
    },
    {
      "epoch": 0.6701030927835051,
      "grad_norm": 11.04179573059082,
      "learning_rate": 9.58118556701031e-06,
      "loss": 0.626,
      "step": 1430
    },
    {
      "epoch": 0.6747891283973758,
      "grad_norm": 7.031481742858887,
      "learning_rate": 9.578256794751642e-06,
      "loss": 0.6644,
      "step": 1440
    },
    {
      "epoch": 0.6794751640112465,
      "grad_norm": 5.177082061767578,
      "learning_rate": 9.575328022492971e-06,
      "loss": 0.5794,
      "step": 1450
    },
    {
      "epoch": 0.6841611996251171,
      "grad_norm": 5.830789566040039,
      "learning_rate": 9.572399250234303e-06,
      "loss": 0.5962,
      "step": 1460
    },
    {
      "epoch": 0.6888472352389878,
      "grad_norm": 5.322279453277588,
      "learning_rate": 9.569470477975634e-06,
      "loss": 0.5528,
      "step": 1470
    },
    {
      "epoch": 0.6935332708528584,
      "grad_norm": 5.191045761108398,
      "learning_rate": 9.566541705716965e-06,
      "loss": 0.602,
      "step": 1480
    },
    {
      "epoch": 0.6982193064667291,
      "grad_norm": 4.832320213317871,
      "learning_rate": 9.563612933458294e-06,
      "loss": 0.5732,
      "step": 1490
    },
    {
      "epoch": 0.7029053420805998,
      "grad_norm": 5.9457926750183105,
      "learning_rate": 9.560684161199626e-06,
      "loss": 0.6017,
      "step": 1500
    },
    {
      "epoch": 0.7029053420805998,
      "eval_loss": 0.059113115072250366,
      "eval_pearson_cosine": 0.7675747794888963,
      "eval_pearson_dot": 0.6475892776570333,
      "eval_pearson_euclidean": 0.7594640382486553,
      "eval_pearson_manhattan": 0.7585029707701096,
      "eval_runtime": 45.7613,
      "eval_samples_per_second": 32.779,
      "eval_spearman_cosine": 0.768339335776319,
      "eval_spearman_dot": 0.655445685087582,
      "eval_spearman_euclidean": 0.7680811238488432,
      "eval_spearman_manhattan": 0.7673055147561156,
      "eval_steps_per_second": 32.779,
      "step": 1500
    },
    {
      "epoch": 0.7075913776944704,
      "grad_norm": 4.822035789489746,
      "learning_rate": 9.557755388940957e-06,
      "loss": 0.5891,
      "step": 1510
    },
    {
      "epoch": 0.7122774133083412,
      "grad_norm": 7.0355753898620605,
      "learning_rate": 9.554826616682288e-06,
      "loss": 0.6019,
      "step": 1520
    },
    {
      "epoch": 0.7169634489222118,
      "grad_norm": 7.064100742340088,
      "learning_rate": 9.55189784442362e-06,
      "loss": 0.5656,
      "step": 1530
    },
    {
      "epoch": 0.7216494845360825,
      "grad_norm": 4.629329204559326,
      "learning_rate": 9.54896907216495e-06,
      "loss": 0.5839,
      "step": 1540
    },
    {
      "epoch": 0.7263355201499532,
      "grad_norm": 5.421347141265869,
      "learning_rate": 9.54604029990628e-06,
      "loss": 0.5684,
      "step": 1550
    },
    {
      "epoch": 0.7310215557638238,
      "grad_norm": 4.520521640777588,
      "learning_rate": 9.543111527647611e-06,
      "loss": 0.5979,
      "step": 1560
    },
    {
      "epoch": 0.7357075913776945,
      "grad_norm": 5.172377109527588,
      "learning_rate": 9.540182755388942e-06,
      "loss": 0.5678,
      "step": 1570
    },
    {
      "epoch": 0.7403936269915652,
      "grad_norm": 5.090722560882568,
      "learning_rate": 9.537253983130272e-06,
      "loss": 0.556,
      "step": 1580
    },
    {
      "epoch": 0.7450796626054358,
      "grad_norm": 4.6714887619018555,
      "learning_rate": 9.534325210871603e-06,
      "loss": 0.564,
      "step": 1590
    },
    {
      "epoch": 0.7497656982193065,
      "grad_norm": 4.211735248565674,
      "learning_rate": 9.531396438612934e-06,
      "loss": 0.617,
      "step": 1600
    },
    {
      "epoch": 0.7544517338331771,
      "grad_norm": 4.693171501159668,
      "learning_rate": 9.528467666354265e-06,
      "loss": 0.5657,
      "step": 1610
    },
    {
      "epoch": 0.7591377694470478,
      "grad_norm": 6.890966892242432,
      "learning_rate": 9.525538894095597e-06,
      "loss": 0.5838,
      "step": 1620
    },
    {
      "epoch": 0.7638238050609185,
      "grad_norm": 3.5127806663513184,
      "learning_rate": 9.522610121836928e-06,
      "loss": 0.5669,
      "step": 1630
    },
    {
      "epoch": 0.7685098406747891,
      "grad_norm": 4.389316082000732,
      "learning_rate": 9.519681349578259e-06,
      "loss": 0.5669,
      "step": 1640
    },
    {
      "epoch": 0.7731958762886598,
      "grad_norm": 4.59335470199585,
      "learning_rate": 9.516752577319588e-06,
      "loss": 0.604,
      "step": 1650
    },
    {
      "epoch": 0.7778819119025304,
      "grad_norm": 5.345147132873535,
      "learning_rate": 9.51382380506092e-06,
      "loss": 0.6132,
      "step": 1660
    },
    {
      "epoch": 0.7825679475164011,
      "grad_norm": 5.133398532867432,
      "learning_rate": 9.510895032802249e-06,
      "loss": 0.5539,
      "step": 1670
    },
    {
      "epoch": 0.7872539831302718,
      "grad_norm": 7.907310962677002,
      "learning_rate": 9.50796626054358e-06,
      "loss": 0.61,
      "step": 1680
    },
    {
      "epoch": 0.7919400187441424,
      "grad_norm": 4.504448890686035,
      "learning_rate": 9.505037488284911e-06,
      "loss": 0.5851,
      "step": 1690
    },
    {
      "epoch": 0.7966260543580131,
      "grad_norm": 4.3662028312683105,
      "learning_rate": 9.502108716026243e-06,
      "loss": 0.5915,
      "step": 1700
    },
    {
      "epoch": 0.8013120899718837,
      "grad_norm": 5.221836566925049,
      "learning_rate": 9.499179943767574e-06,
      "loss": 0.581,
      "step": 1710
    },
    {
      "epoch": 0.8059981255857545,
      "grad_norm": 6.357667446136475,
      "learning_rate": 9.496251171508905e-06,
      "loss": 0.5937,
      "step": 1720
    },
    {
      "epoch": 0.8106841611996252,
      "grad_norm": 6.262212753295898,
      "learning_rate": 9.493322399250236e-06,
      "loss": 0.606,
      "step": 1730
    },
    {
      "epoch": 0.8153701968134958,
      "grad_norm": 4.363849639892578,
      "learning_rate": 9.490393626991566e-06,
      "loss": 0.5524,
      "step": 1740
    },
    {
      "epoch": 0.8200562324273665,
      "grad_norm": 5.514476299285889,
      "learning_rate": 9.487464854732897e-06,
      "loss": 0.5611,
      "step": 1750
    },
    {
      "epoch": 0.8200562324273665,
      "eval_loss": 0.05879165977239609,
      "eval_pearson_cosine": 0.7714099892705395,
      "eval_pearson_dot": 0.6462212772089089,
      "eval_pearson_euclidean": 0.7641084348061273,
      "eval_pearson_manhattan": 0.7629885828620147,
      "eval_runtime": 43.6421,
      "eval_samples_per_second": 34.37,
      "eval_spearman_cosine": 0.7720168259371313,
      "eval_spearman_dot": 0.6536245076677092,
      "eval_spearman_euclidean": 0.7726348092699838,
      "eval_spearman_manhattan": 0.7716062900578692,
      "eval_steps_per_second": 34.37,
      "step": 1750
    },
    {
      "epoch": 0.8247422680412371,
      "grad_norm": 6.260695457458496,
      "learning_rate": 9.484536082474226e-06,
      "loss": 0.5566,
      "step": 1760
    },
    {
      "epoch": 0.8294283036551078,
      "grad_norm": 4.187561511993408,
      "learning_rate": 9.481607310215558e-06,
      "loss": 0.5077,
      "step": 1770
    },
    {
      "epoch": 0.8341143392689785,
      "grad_norm": 4.611522197723389,
      "learning_rate": 9.478678537956889e-06,
      "loss": 0.5449,
      "step": 1780
    },
    {
      "epoch": 0.8388003748828491,
      "grad_norm": 12.466484069824219,
      "learning_rate": 9.47574976569822e-06,
      "loss": 0.5744,
      "step": 1790
    },
    {
      "epoch": 0.8434864104967198,
      "grad_norm": 4.683777332305908,
      "learning_rate": 9.472820993439551e-06,
      "loss": 0.5102,
      "step": 1800
    },
    {
      "epoch": 0.8481724461105904,
      "grad_norm": 5.541889190673828,
      "learning_rate": 9.469892221180882e-06,
      "loss": 0.5589,
      "step": 1810
    },
    {
      "epoch": 0.8528584817244611,
      "grad_norm": 8.524742126464844,
      "learning_rate": 9.466963448922214e-06,
      "loss": 0.5872,
      "step": 1820
    },
    {
      "epoch": 0.8575445173383318,
      "grad_norm": 7.117620944976807,
      "learning_rate": 9.464034676663543e-06,
      "loss": 0.5484,
      "step": 1830
    },
    {
      "epoch": 0.8622305529522024,
      "grad_norm": 5.3457841873168945,
      "learning_rate": 9.461105904404874e-06,
      "loss": 0.5624,
      "step": 1840
    },
    {
      "epoch": 0.8669165885660731,
      "grad_norm": 4.375561714172363,
      "learning_rate": 9.458177132146204e-06,
      "loss": 0.525,
      "step": 1850
    },
    {
      "epoch": 0.8716026241799437,
      "grad_norm": 4.6026082038879395,
      "learning_rate": 9.455248359887535e-06,
      "loss": 0.5855,
      "step": 1860
    },
    {
      "epoch": 0.8762886597938144,
      "grad_norm": 5.399001121520996,
      "learning_rate": 9.452319587628866e-06,
      "loss": 0.5775,
      "step": 1870
    },
    {
      "epoch": 0.8809746954076851,
      "grad_norm": 3.9378573894500732,
      "learning_rate": 9.449390815370197e-06,
      "loss": 0.5068,
      "step": 1880
    },
    {
      "epoch": 0.8856607310215557,
      "grad_norm": 5.515146255493164,
      "learning_rate": 9.446462043111529e-06,
      "loss": 0.5718,
      "step": 1890
    },
    {
      "epoch": 0.8903467666354264,
      "grad_norm": 4.8671345710754395,
      "learning_rate": 9.44353327085286e-06,
      "loss": 0.5552,
      "step": 1900
    },
    {
      "epoch": 0.895032802249297,
      "grad_norm": 5.388006210327148,
      "learning_rate": 9.440604498594191e-06,
      "loss": 0.5854,
      "step": 1910
    },
    {
      "epoch": 0.8997188378631678,
      "grad_norm": 6.608395099639893,
      "learning_rate": 9.43767572633552e-06,
      "loss": 0.5459,
      "step": 1920
    },
    {
      "epoch": 0.9044048734770385,
      "grad_norm": 4.6435160636901855,
      "learning_rate": 9.434746954076852e-06,
      "loss": 0.529,
      "step": 1930
    },
    {
      "epoch": 0.9090909090909091,
      "grad_norm": 4.642300605773926,
      "learning_rate": 9.431818181818183e-06,
      "loss": 0.5255,
      "step": 1940
    },
    {
      "epoch": 0.9137769447047798,
      "grad_norm": 5.40919828414917,
      "learning_rate": 9.428889409559512e-06,
      "loss": 0.5605,
      "step": 1950
    },
    {
      "epoch": 0.9184629803186504,
      "grad_norm": 4.9874467849731445,
      "learning_rate": 9.425960637300844e-06,
      "loss": 0.5798,
      "step": 1960
    },
    {
      "epoch": 0.9231490159325211,
      "grad_norm": 4.9304094314575195,
      "learning_rate": 9.423031865042175e-06,
      "loss": 0.5576,
      "step": 1970
    },
    {
      "epoch": 0.9278350515463918,
      "grad_norm": 5.080467224121094,
      "learning_rate": 9.420103092783506e-06,
      "loss": 0.5221,
      "step": 1980
    },
    {
      "epoch": 0.9325210871602624,
      "grad_norm": 5.083141326904297,
      "learning_rate": 9.417174320524837e-06,
      "loss": 0.6041,
      "step": 1990
    },
    {
      "epoch": 0.9372071227741331,
      "grad_norm": 3.8194010257720947,
      "learning_rate": 9.414245548266168e-06,
      "loss": 0.5439,
      "step": 2000
    },
    {
      "epoch": 0.9372071227741331,
      "eval_loss": 0.058015577495098114,
      "eval_pearson_cosine": 0.7772706274362164,
      "eval_pearson_dot": 0.6518150260238968,
      "eval_pearson_euclidean": 0.7681856098914253,
      "eval_pearson_manhattan": 0.7668726914631314,
      "eval_runtime": 45.6952,
      "eval_samples_per_second": 32.826,
      "eval_spearman_cosine": 0.7781983730395821,
      "eval_spearman_dot": 0.6578238148510893,
      "eval_spearman_euclidean": 0.7779674226973379,
      "eval_spearman_manhattan": 0.7766391726420421,
      "eval_steps_per_second": 32.826,
      "step": 2000
    },
    {
      "epoch": 0.9418931583880038,
      "grad_norm": 5.383081912994385,
      "learning_rate": 9.411316776007498e-06,
      "loss": 0.5343,
      "step": 2010
    },
    {
      "epoch": 0.9465791940018744,
      "grad_norm": 5.533719539642334,
      "learning_rate": 9.408388003748829e-06,
      "loss": 0.5313,
      "step": 2020
    },
    {
      "epoch": 0.9512652296157451,
      "grad_norm": 4.267172336578369,
      "learning_rate": 9.40545923149016e-06,
      "loss": 0.5172,
      "step": 2030
    },
    {
      "epoch": 0.9559512652296157,
      "grad_norm": 4.8553009033203125,
      "learning_rate": 9.402530459231491e-06,
      "loss": 0.5104,
      "step": 2040
    },
    {
      "epoch": 0.9606373008434864,
      "grad_norm": 6.460834503173828,
      "learning_rate": 9.399601686972821e-06,
      "loss": 0.5225,
      "step": 2050
    },
    {
      "epoch": 0.9653233364573571,
      "grad_norm": 27.46290397644043,
      "learning_rate": 9.396672914714152e-06,
      "loss": 0.544,
      "step": 2060
    },
    {
      "epoch": 0.9700093720712277,
      "grad_norm": 4.89717435836792,
      "learning_rate": 9.393744142455483e-06,
      "loss": 0.5653,
      "step": 2070
    },
    {
      "epoch": 0.9746954076850984,
      "grad_norm": 4.803583145141602,
      "learning_rate": 9.390815370196814e-06,
      "loss": 0.5739,
      "step": 2080
    },
    {
      "epoch": 0.979381443298969,
      "grad_norm": 4.121029853820801,
      "learning_rate": 9.387886597938146e-06,
      "loss": 0.5192,
      "step": 2090
    },
    {
      "epoch": 0.9840674789128397,
      "grad_norm": 4.464984893798828,
      "learning_rate": 9.384957825679475e-06,
      "loss": 0.5393,
      "step": 2100
    },
    {
      "epoch": 0.9887535145267105,
      "grad_norm": 6.364498615264893,
      "learning_rate": 9.382029053420806e-06,
      "loss": 0.5764,
      "step": 2110
    },
    {
      "epoch": 0.993439550140581,
      "grad_norm": 3.743790864944458,
      "learning_rate": 9.379100281162138e-06,
      "loss": 0.5276,
      "step": 2120
    },
    {
      "epoch": 0.9981255857544518,
      "grad_norm": 4.737389087677002,
      "learning_rate": 9.376171508903469e-06,
      "loss": 0.5211,
      "step": 2130
    },
    {
      "epoch": 1.0028116213683225,
      "grad_norm": 3.622758626937866,
      "learning_rate": 9.3732427366448e-06,
      "loss": 0.5329,
      "step": 2140
    },
    {
      "epoch": 1.007497656982193,
      "grad_norm": 3.5359978675842285,
      "learning_rate": 9.37031396438613e-06,
      "loss": 0.4941,
      "step": 2150
    },
    {
      "epoch": 1.0121836925960637,
      "grad_norm": 4.669582843780518,
      "learning_rate": 9.36738519212746e-06,
      "loss": 0.4821,
      "step": 2160
    },
    {
      "epoch": 1.0168697282099344,
      "grad_norm": 3.767122507095337,
      "learning_rate": 9.364456419868792e-06,
      "loss": 0.4886,
      "step": 2170
    },
    {
      "epoch": 1.021555763823805,
      "grad_norm": 3.9681687355041504,
      "learning_rate": 9.361527647610123e-06,
      "loss": 0.493,
      "step": 2180
    },
    {
      "epoch": 1.0262417994376758,
      "grad_norm": 3.389897108078003,
      "learning_rate": 9.358598875351454e-06,
      "loss": 0.4688,
      "step": 2190
    },
    {
      "epoch": 1.0309278350515463,
      "grad_norm": 3.5152347087860107,
      "learning_rate": 9.355670103092784e-06,
      "loss": 0.4625,
      "step": 2200
    },
    {
      "epoch": 1.035613870665417,
      "grad_norm": 3.23901629447937,
      "learning_rate": 9.352741330834115e-06,
      "loss": 0.5143,
      "step": 2210
    },
    {
      "epoch": 1.0402999062792877,
      "grad_norm": 4.617633819580078,
      "learning_rate": 9.349812558575446e-06,
      "loss": 0.4732,
      "step": 2220
    },
    {
      "epoch": 1.0449859418931584,
      "grad_norm": 5.245469570159912,
      "learning_rate": 9.346883786316777e-06,
      "loss": 0.5213,
      "step": 2230
    },
    {
      "epoch": 1.0496719775070291,
      "grad_norm": 4.20419454574585,
      "learning_rate": 9.343955014058108e-06,
      "loss": 0.5042,
      "step": 2240
    },
    {
      "epoch": 1.0543580131208996,
      "grad_norm": 4.6322102546691895,
      "learning_rate": 9.341026241799438e-06,
      "loss": 0.4982,
      "step": 2250
    },
    {
      "epoch": 1.0543580131208996,
      "eval_loss": 0.05779802054166794,
      "eval_pearson_cosine": 0.7770314842083366,
      "eval_pearson_dot": 0.6498110843024136,
      "eval_pearson_euclidean": 0.7709013065859232,
      "eval_pearson_manhattan": 0.7695278239114174,
      "eval_runtime": 48.4856,
      "eval_samples_per_second": 30.937,
      "eval_spearman_cosine": 0.7783328375480574,
      "eval_spearman_dot": 0.6551905692522538,
      "eval_spearman_euclidean": 0.7802862933680744,
      "eval_spearman_manhattan": 0.7790525675974715,
      "eval_steps_per_second": 30.937,
      "step": 2250
    },
    {
      "epoch": 1.0590440487347703,
      "grad_norm": 4.474431991577148,
      "learning_rate": 9.33809746954077e-06,
      "loss": 0.5227,
      "step": 2260
    },
    {
      "epoch": 1.063730084348641,
      "grad_norm": 4.538947105407715,
      "learning_rate": 9.3351686972821e-06,
      "loss": 0.5158,
      "step": 2270
    },
    {
      "epoch": 1.0684161199625117,
      "grad_norm": 6.6143693923950195,
      "learning_rate": 9.332239925023432e-06,
      "loss": 0.461,
      "step": 2280
    },
    {
      "epoch": 1.0731021555763824,
      "grad_norm": 4.316189765930176,
      "learning_rate": 9.329311152764761e-06,
      "loss": 0.5079,
      "step": 2290
    },
    {
      "epoch": 1.077788191190253,
      "grad_norm": 4.054687976837158,
      "learning_rate": 9.326382380506092e-06,
      "loss": 0.5022,
      "step": 2300
    },
    {
      "epoch": 1.0824742268041236,
      "grad_norm": 4.232051849365234,
      "learning_rate": 9.323453608247423e-06,
      "loss": 0.5096,
      "step": 2310
    },
    {
      "epoch": 1.0871602624179943,
      "grad_norm": 3.7785236835479736,
      "learning_rate": 9.320524835988755e-06,
      "loss": 0.4614,
      "step": 2320
    },
    {
      "epoch": 1.091846298031865,
      "grad_norm": 4.865905284881592,
      "learning_rate": 9.317596063730086e-06,
      "loss": 0.5135,
      "step": 2330
    },
    {
      "epoch": 1.0965323336457358,
      "grad_norm": 4.681485176086426,
      "learning_rate": 9.314667291471417e-06,
      "loss": 0.5061,
      "step": 2340
    },
    {
      "epoch": 1.1012183692596063,
      "grad_norm": 4.256619453430176,
      "learning_rate": 9.311738519212747e-06,
      "loss": 0.4627,
      "step": 2350
    },
    {
      "epoch": 1.105904404873477,
      "grad_norm": 4.459606170654297,
      "learning_rate": 9.308809746954078e-06,
      "loss": 0.5171,
      "step": 2360
    },
    {
      "epoch": 1.1105904404873477,
      "grad_norm": 4.008665084838867,
      "learning_rate": 9.305880974695409e-06,
      "loss": 0.4422,
      "step": 2370
    },
    {
      "epoch": 1.1152764761012184,
      "grad_norm": 3.674177885055542,
      "learning_rate": 9.302952202436738e-06,
      "loss": 0.5233,
      "step": 2380
    },
    {
      "epoch": 1.119962511715089,
      "grad_norm": 4.463940620422363,
      "learning_rate": 9.30002343017807e-06,
      "loss": 0.4731,
      "step": 2390
    },
    {
      "epoch": 1.1246485473289598,
      "grad_norm": 3.9289097785949707,
      "learning_rate": 9.2970946579194e-06,
      "loss": 0.4869,
      "step": 2400
    },
    {
      "epoch": 1.1293345829428303,
      "grad_norm": 4.097565174102783,
      "learning_rate": 9.294165885660732e-06,
      "loss": 0.4594,
      "step": 2410
    },
    {
      "epoch": 1.134020618556701,
      "grad_norm": 4.55318546295166,
      "learning_rate": 9.291237113402063e-06,
      "loss": 0.494,
      "step": 2420
    },
    {
      "epoch": 1.1387066541705717,
      "grad_norm": 4.425617694854736,
      "learning_rate": 9.288308341143394e-06,
      "loss": 0.4829,
      "step": 2430
    },
    {
      "epoch": 1.1433926897844424,
      "grad_norm": 3.908015489578247,
      "learning_rate": 9.285379568884726e-06,
      "loss": 0.4793,
      "step": 2440
    },
    {
      "epoch": 1.148078725398313,
      "grad_norm": 3.7293996810913086,
      "learning_rate": 9.282450796626055e-06,
      "loss": 0.5399,
      "step": 2450
    },
    {
      "epoch": 1.1527647610121836,
      "grad_norm": 4.584681034088135,
      "learning_rate": 9.279522024367386e-06,
      "loss": 0.4479,
      "step": 2460
    },
    {
      "epoch": 1.1574507966260543,
      "grad_norm": 4.109914302825928,
      "learning_rate": 9.276593252108716e-06,
      "loss": 0.4599,
      "step": 2470
    },
    {
      "epoch": 1.162136832239925,
      "grad_norm": 4.446422100067139,
      "learning_rate": 9.273664479850047e-06,
      "loss": 0.4727,
      "step": 2480
    },
    {
      "epoch": 1.1668228678537957,
      "grad_norm": 5.975160598754883,
      "learning_rate": 9.270735707591378e-06,
      "loss": 0.4509,
      "step": 2490
    },
    {
      "epoch": 1.1715089034676662,
      "grad_norm": 4.379275321960449,
      "learning_rate": 9.26780693533271e-06,
      "loss": 0.4828,
      "step": 2500
    },
    {
      "epoch": 1.1715089034676662,
      "eval_loss": 0.05214480683207512,
      "eval_pearson_cosine": 0.7792755247272061,
      "eval_pearson_dot": 0.6569300577465214,
      "eval_pearson_euclidean": 0.7718322585231894,
      "eval_pearson_manhattan": 0.7703922250718165,
      "eval_runtime": 47.8089,
      "eval_samples_per_second": 31.375,
      "eval_spearman_cosine": 0.7799819701975583,
      "eval_spearman_dot": 0.662507389274304,
      "eval_spearman_euclidean": 0.7818437831063969,
      "eval_spearman_manhattan": 0.7805341558401507,
      "eval_steps_per_second": 31.375,
      "step": 2500
    },
    {
      "epoch": 1.176194939081537,
      "grad_norm": 3.5287399291992188,
      "learning_rate": 9.26487816307404e-06,
      "loss": 0.4591,
      "step": 2510
    },
    {
      "epoch": 1.1808809746954076,
      "grad_norm": 3.277655601501465,
      "learning_rate": 9.261949390815372e-06,
      "loss": 0.4479,
      "step": 2520
    },
    {
      "epoch": 1.1855670103092784,
      "grad_norm": 4.732039451599121,
      "learning_rate": 9.259020618556703e-06,
      "loss": 0.461,
      "step": 2530
    },
    {
      "epoch": 1.190253045923149,
      "grad_norm": 4.4760966300964355,
      "learning_rate": 9.256091846298032e-06,
      "loss": 0.4652,
      "step": 2540
    },
    {
      "epoch": 1.1949390815370198,
      "grad_norm": 7.485498428344727,
      "learning_rate": 9.253163074039364e-06,
      "loss": 0.4779,
      "step": 2550
    },
    {
      "epoch": 1.1996251171508903,
      "grad_norm": 3.9956140518188477,
      "learning_rate": 9.250234301780693e-06,
      "loss": 0.4567,
      "step": 2560
    },
    {
      "epoch": 1.204311152764761,
      "grad_norm": 3.547563314437866,
      "learning_rate": 9.247305529522024e-06,
      "loss": 0.4988,
      "step": 2570
    },
    {
      "epoch": 1.2089971883786317,
      "grad_norm": 5.354389667510986,
      "learning_rate": 9.244376757263355e-06,
      "loss": 0.464,
      "step": 2580
    },
    {
      "epoch": 1.2136832239925024,
      "grad_norm": 3.791760206222534,
      "learning_rate": 9.241447985004687e-06,
      "loss": 0.4441,
      "step": 2590
    },
    {
      "epoch": 1.218369259606373,
      "grad_norm": 4.77889347076416,
      "learning_rate": 9.238519212746018e-06,
      "loss": 0.4655,
      "step": 2600
    },
    {
      "epoch": 1.2230552952202436,
      "grad_norm": 5.804917335510254,
      "learning_rate": 9.235590440487349e-06,
      "loss": 0.4912,
      "step": 2610
    },
    {
      "epoch": 1.2277413308341143,
      "grad_norm": 3.841860771179199,
      "learning_rate": 9.23266166822868e-06,
      "loss": 0.472,
      "step": 2620
    },
    {
      "epoch": 1.232427366447985,
      "grad_norm": 4.4197540283203125,
      "learning_rate": 9.22973289597001e-06,
      "loss": 0.4821,
      "step": 2630
    },
    {
      "epoch": 1.2371134020618557,
      "grad_norm": 5.844490051269531,
      "learning_rate": 9.226804123711341e-06,
      "loss": 0.5655,
      "step": 2640
    },
    {
      "epoch": 1.2417994376757264,
      "grad_norm": 3.5442116260528564,
      "learning_rate": 9.223875351452672e-06,
      "loss": 0.4532,
      "step": 2650
    },
    {
      "epoch": 1.246485473289597,
      "grad_norm": 5.259571075439453,
      "learning_rate": 9.220946579194002e-06,
      "loss": 0.4856,
      "step": 2660
    },
    {
      "epoch": 1.2511715089034676,
      "grad_norm": 4.675846576690674,
      "learning_rate": 9.218017806935333e-06,
      "loss": 0.4576,
      "step": 2670
    },
    {
      "epoch": 1.2558575445173383,
      "grad_norm": 5.236482620239258,
      "learning_rate": 9.215089034676664e-06,
      "loss": 0.513,
      "step": 2680
    },
    {
      "epoch": 1.260543580131209,
      "grad_norm": 4.658278465270996,
      "learning_rate": 9.212160262417995e-06,
      "loss": 0.4734,
      "step": 2690
    },
    {
      "epoch": 1.2652296157450795,
      "grad_norm": 3.7085494995117188,
      "learning_rate": 9.209231490159326e-06,
      "loss": 0.5279,
      "step": 2700
    },
    {
      "epoch": 1.2699156513589505,
      "grad_norm": 3.4627673625946045,
      "learning_rate": 9.206302717900658e-06,
      "loss": 0.4773,
      "step": 2710
    },
    {
      "epoch": 1.274601686972821,
      "grad_norm": 4.618409633636475,
      "learning_rate": 9.203373945641987e-06,
      "loss": 0.4354,
      "step": 2720
    },
    {
      "epoch": 1.2792877225866917,
      "grad_norm": 3.1090590953826904,
      "learning_rate": 9.200445173383318e-06,
      "loss": 0.4409,
      "step": 2730
    },
    {
      "epoch": 1.2839737582005624,
      "grad_norm": 4.328725337982178,
      "learning_rate": 9.19751640112465e-06,
      "loss": 0.4799,
      "step": 2740
    },
    {
      "epoch": 1.2886597938144329,
      "grad_norm": 3.8362419605255127,
      "learning_rate": 9.194587628865979e-06,
      "loss": 0.5062,
      "step": 2750
    },
    {
      "epoch": 1.2886597938144329,
      "eval_loss": 0.05263364687561989,
      "eval_pearson_cosine": 0.7755555336434341,
      "eval_pearson_dot": 0.6502184577290961,
      "eval_pearson_euclidean": 0.7709853609297426,
      "eval_pearson_manhattan": 0.769572635033791,
      "eval_runtime": 44.8508,
      "eval_samples_per_second": 33.444,
      "eval_spearman_cosine": 0.7765036654281985,
      "eval_spearman_dot": 0.6558936409143281,
      "eval_spearman_euclidean": 0.7808945633743188,
      "eval_spearman_manhattan": 0.7795729380744477,
      "eval_steps_per_second": 33.444,
      "step": 2750
    },
    {
      "epoch": 1.2933458294283038,
      "grad_norm": 3.6972432136535645,
      "learning_rate": 9.19165885660731e-06,
      "loss": 0.488,
      "step": 2760
    },
    {
      "epoch": 1.2980318650421743,
      "grad_norm": 6.73103141784668,
      "learning_rate": 9.188730084348641e-06,
      "loss": 0.4553,
      "step": 2770
    },
    {
      "epoch": 1.302717900656045,
      "grad_norm": 4.371028423309326,
      "learning_rate": 9.185801312089973e-06,
      "loss": 0.4555,
      "step": 2780
    },
    {
      "epoch": 1.3074039362699157,
      "grad_norm": 3.4788401126861572,
      "learning_rate": 9.182872539831304e-06,
      "loss": 0.4561,
      "step": 2790
    },
    {
      "epoch": 1.3120899718837864,
      "grad_norm": 3.832277774810791,
      "learning_rate": 9.179943767572635e-06,
      "loss": 0.4838,
      "step": 2800
    },
    {
      "epoch": 1.316776007497657,
      "grad_norm": 3.5579423904418945,
      "learning_rate": 9.177014995313966e-06,
      "loss": 0.4404,
      "step": 2810
    },
    {
      "epoch": 1.3214620431115276,
      "grad_norm": 3.7768073081970215,
      "learning_rate": 9.174086223055296e-06,
      "loss": 0.4724,
      "step": 2820
    },
    {
      "epoch": 1.3261480787253983,
      "grad_norm": 3.957035779953003,
      "learning_rate": 9.171157450796627e-06,
      "loss": 0.471,
      "step": 2830
    },
    {
      "epoch": 1.330834114339269,
      "grad_norm": 3.6035895347595215,
      "learning_rate": 9.168228678537958e-06,
      "loss": 0.4645,
      "step": 2840
    },
    {
      "epoch": 1.3355201499531397,
      "grad_norm": 4.358327388763428,
      "learning_rate": 9.165299906279288e-06,
      "loss": 0.4301,
      "step": 2850
    },
    {
      "epoch": 1.3402061855670104,
      "grad_norm": 3.4666709899902344,
      "learning_rate": 9.162371134020619e-06,
      "loss": 0.4508,
      "step": 2860
    },
    {
      "epoch": 1.344892221180881,
      "grad_norm": 3.912290096282959,
      "learning_rate": 9.15944236176195e-06,
      "loss": 0.4379,
      "step": 2870
    },
    {
      "epoch": 1.3495782567947516,
      "grad_norm": 4.305796146392822,
      "learning_rate": 9.156513589503281e-06,
      "loss": 0.4194,
      "step": 2880
    },
    {
      "epoch": 1.3542642924086223,
      "grad_norm": 4.231681823730469,
      "learning_rate": 9.153584817244612e-06,
      "loss": 0.4017,
      "step": 2890
    },
    {
      "epoch": 1.358950328022493,
      "grad_norm": 4.43821382522583,
      "learning_rate": 9.150656044985944e-06,
      "loss": 0.4185,
      "step": 2900
    },
    {
      "epoch": 1.3636363636363638,
      "grad_norm": 4.922164440155029,
      "learning_rate": 9.147727272727273e-06,
      "loss": 0.5199,
      "step": 2910
    },
    {
      "epoch": 1.3683223992502342,
      "grad_norm": 4.577489852905273,
      "learning_rate": 9.144798500468604e-06,
      "loss": 0.4237,
      "step": 2920
    },
    {
      "epoch": 1.373008434864105,
      "grad_norm": 3.9537651538848877,
      "learning_rate": 9.141869728209935e-06,
      "loss": 0.4888,
      "step": 2930
    },
    {
      "epoch": 1.3776944704779757,
      "grad_norm": 4.165870189666748,
      "learning_rate": 9.138940955951267e-06,
      "loss": 0.4476,
      "step": 2940
    },
    {
      "epoch": 1.3823805060918464,
      "grad_norm": 4.492893218994141,
      "learning_rate": 9.136012183692596e-06,
      "loss": 0.5159,
      "step": 2950
    },
    {
      "epoch": 1.387066541705717,
      "grad_norm": 3.847490072250366,
      "learning_rate": 9.133083411433927e-06,
      "loss": 0.4497,
      "step": 2960
    },
    {
      "epoch": 1.3917525773195876,
      "grad_norm": 6.766137599945068,
      "learning_rate": 9.130154639175258e-06,
      "loss": 0.4379,
      "step": 2970
    },
    {
      "epoch": 1.3964386129334583,
      "grad_norm": 3.9198007583618164,
      "learning_rate": 9.12722586691659e-06,
      "loss": 0.4519,
      "step": 2980
    },
    {
      "epoch": 1.401124648547329,
      "grad_norm": 3.67480731010437,
      "learning_rate": 9.124297094657921e-06,
      "loss": 0.4108,
      "step": 2990
    },
    {
      "epoch": 1.4058106841611997,
      "grad_norm": 3.3013832569122314,
      "learning_rate": 9.12136832239925e-06,
      "loss": 0.433,
      "step": 3000
    },
    {
      "epoch": 1.4058106841611997,
      "eval_loss": 0.0497601218521595,
      "eval_pearson_cosine": 0.7834985989633054,
      "eval_pearson_dot": 0.6669524421664974,
      "eval_pearson_euclidean": 0.7743874834934843,
      "eval_pearson_manhattan": 0.7730376146204847,
      "eval_runtime": 47.8141,
      "eval_samples_per_second": 31.371,
      "eval_spearman_cosine": 0.7845889452017747,
      "eval_spearman_dot": 0.6729435548765089,
      "eval_spearman_euclidean": 0.784591658726837,
      "eval_spearman_manhattan": 0.7832975474858643,
      "eval_steps_per_second": 31.371,
      "step": 3000
    },
    {
      "epoch": 1.4104967197750704,
      "grad_norm": 4.2792487144470215,
      "learning_rate": 9.118439550140582e-06,
      "loss": 0.4878,
      "step": 3010
    },
    {
      "epoch": 1.415182755388941,
      "grad_norm": 3.8892383575439453,
      "learning_rate": 9.115510777881913e-06,
      "loss": 0.4676,
      "step": 3020
    },
    {
      "epoch": 1.4198687910028116,
      "grad_norm": 5.0008745193481445,
      "learning_rate": 9.112582005623244e-06,
      "loss": 0.4729,
      "step": 3030
    },
    {
      "epoch": 1.4245548266166823,
      "grad_norm": 5.607409477233887,
      "learning_rate": 9.109653233364575e-06,
      "loss": 0.4762,
      "step": 3040
    },
    {
      "epoch": 1.429240862230553,
      "grad_norm": 3.0340139865875244,
      "learning_rate": 9.106724461105905e-06,
      "loss": 0.4438,
      "step": 3050
    },
    {
      "epoch": 1.4339268978444237,
      "grad_norm": 4.310724258422852,
      "learning_rate": 9.103795688847236e-06,
      "loss": 0.4499,
      "step": 3060
    },
    {
      "epoch": 1.4386129334582942,
      "grad_norm": 4.481917381286621,
      "learning_rate": 9.100866916588567e-06,
      "loss": 0.4493,
      "step": 3070
    },
    {
      "epoch": 1.443298969072165,
      "grad_norm": 4.330621719360352,
      "learning_rate": 9.097938144329898e-06,
      "loss": 0.4505,
      "step": 3080
    },
    {
      "epoch": 1.4479850046860356,
      "grad_norm": 4.335081577301025,
      "learning_rate": 9.095009372071228e-06,
      "loss": 0.446,
      "step": 3090
    },
    {
      "epoch": 1.4526710402999063,
      "grad_norm": 3.0894672870635986,
      "learning_rate": 9.092080599812559e-06,
      "loss": 0.4404,
      "step": 3100
    },
    {
      "epoch": 1.457357075913777,
      "grad_norm": 4.6363983154296875,
      "learning_rate": 9.08915182755389e-06,
      "loss": 0.5358,
      "step": 3110
    },
    {
      "epoch": 1.4620431115276475,
      "grad_norm": 3.80387806892395,
      "learning_rate": 9.086223055295221e-06,
      "loss": 0.4374,
      "step": 3120
    },
    {
      "epoch": 1.4667291471415183,
      "grad_norm": 3.276442289352417,
      "learning_rate": 9.083294283036552e-06,
      "loss": 0.5013,
      "step": 3130
    },
    {
      "epoch": 1.471415182755389,
      "grad_norm": 3.843419075012207,
      "learning_rate": 9.080365510777884e-06,
      "loss": 0.4694,
      "step": 3140
    },
    {
      "epoch": 1.4761012183692597,
      "grad_norm": 4.7606730461120605,
      "learning_rate": 9.077436738519213e-06,
      "loss": 0.4215,
      "step": 3150
    },
    {
      "epoch": 1.4807872539831304,
      "grad_norm": 3.739225149154663,
      "learning_rate": 9.074507966260544e-06,
      "loss": 0.4756,
      "step": 3160
    },
    {
      "epoch": 1.4854732895970009,
      "grad_norm": 3.36938214302063,
      "learning_rate": 9.071579194001876e-06,
      "loss": 0.4243,
      "step": 3170
    },
    {
      "epoch": 1.4901593252108716,
      "grad_norm": 6.589993476867676,
      "learning_rate": 9.068650421743205e-06,
      "loss": 0.4698,
      "step": 3180
    },
    {
      "epoch": 1.4948453608247423,
      "grad_norm": 3.8416695594787598,
      "learning_rate": 9.065721649484536e-06,
      "loss": 0.4964,
      "step": 3190
    },
    {
      "epoch": 1.499531396438613,
      "grad_norm": 4.367741584777832,
      "learning_rate": 9.062792877225867e-06,
      "loss": 0.4417,
      "step": 3200
    },
    {
      "epoch": 1.5042174320524837,
      "grad_norm": 3.500617742538452,
      "learning_rate": 9.059864104967199e-06,
      "loss": 0.4522,
      "step": 3210
    },
    {
      "epoch": 1.5089034676663542,
      "grad_norm": 3.5349769592285156,
      "learning_rate": 9.05693533270853e-06,
      "loss": 0.4393,
      "step": 3220
    },
    {
      "epoch": 1.513589503280225,
      "grad_norm": 3.8469526767730713,
      "learning_rate": 9.054006560449861e-06,
      "loss": 0.4453,
      "step": 3230
    },
    {
      "epoch": 1.5182755388940956,
      "grad_norm": 3.209933280944824,
      "learning_rate": 9.051077788191192e-06,
      "loss": 0.4599,
      "step": 3240
    },
    {
      "epoch": 1.522961574507966,
      "grad_norm": 3.7976036071777344,
      "learning_rate": 9.048149015932522e-06,
      "loss": 0.4373,
      "step": 3250
    },
    {
      "epoch": 1.522961574507966,
      "eval_loss": 0.049798864871263504,
      "eval_pearson_cosine": 0.7866421286010308,
      "eval_pearson_dot": 0.6641640853451243,
      "eval_pearson_euclidean": 0.7777378719378305,
      "eval_pearson_manhattan": 0.7764827785285746,
      "eval_runtime": 43.7509,
      "eval_samples_per_second": 34.285,
      "eval_spearman_cosine": 0.7870351053050699,
      "eval_spearman_dot": 0.6708598238937284,
      "eval_spearman_euclidean": 0.7874683707378692,
      "eval_spearman_manhattan": 0.7865203522698128,
      "eval_steps_per_second": 34.285,
      "step": 3250
    },
    {
      "epoch": 1.527647610121837,
      "grad_norm": 4.851262092590332,
      "learning_rate": 9.045220243673853e-06,
      "loss": 0.491,
      "step": 3260
    },
    {
      "epoch": 1.5323336457357075,
      "grad_norm": 4.183891773223877,
      "learning_rate": 9.042291471415184e-06,
      "loss": 0.453,
      "step": 3270
    },
    {
      "epoch": 1.5370196813495782,
      "grad_norm": 4.280774116516113,
      "learning_rate": 9.039362699156514e-06,
      "loss": 0.4413,
      "step": 3280
    },
    {
      "epoch": 1.541705716963449,
      "grad_norm": 4.118307113647461,
      "learning_rate": 9.036433926897845e-06,
      "loss": 0.4661,
      "step": 3290
    },
    {
      "epoch": 1.5463917525773194,
      "grad_norm": 5.99712610244751,
      "learning_rate": 9.033505154639176e-06,
      "loss": 0.5205,
      "step": 3300
    },
    {
      "epoch": 1.5510777881911904,
      "grad_norm": 4.146691799163818,
      "learning_rate": 9.030576382380507e-06,
      "loss": 0.428,
      "step": 3310
    },
    {
      "epoch": 1.5557638238050608,
      "grad_norm": 3.899887800216675,
      "learning_rate": 9.027647610121838e-06,
      "loss": 0.4564,
      "step": 3320
    },
    {
      "epoch": 1.5604498594189316,
      "grad_norm": 3.9663302898406982,
      "learning_rate": 9.02471883786317e-06,
      "loss": 0.4539,
      "step": 3330
    },
    {
      "epoch": 1.5651358950328023,
      "grad_norm": 3.526458263397217,
      "learning_rate": 9.021790065604499e-06,
      "loss": 0.4844,
      "step": 3340
    },
    {
      "epoch": 1.569821930646673,
      "grad_norm": 4.192911624908447,
      "learning_rate": 9.01886129334583e-06,
      "loss": 0.4278,
      "step": 3350
    },
    {
      "epoch": 1.5745079662605437,
      "grad_norm": 4.185749530792236,
      "learning_rate": 9.015932521087161e-06,
      "loss": 0.4632,
      "step": 3360
    },
    {
      "epoch": 1.5791940018744142,
      "grad_norm": 3.411773204803467,
      "learning_rate": 9.013003748828491e-06,
      "loss": 0.436,
      "step": 3370
    },
    {
      "epoch": 1.5838800374882849,
      "grad_norm": 4.467881679534912,
      "learning_rate": 9.010074976569822e-06,
      "loss": 0.4133,
      "step": 3380
    },
    {
      "epoch": 1.5885660731021556,
      "grad_norm": 3.77736496925354,
      "learning_rate": 9.007146204311153e-06,
      "loss": 0.4452,
      "step": 3390
    },
    {
      "epoch": 1.5932521087160263,
      "grad_norm": 4.084095478057861,
      "learning_rate": 9.004217432052485e-06,
      "loss": 0.4605,
      "step": 3400
    },
    {
      "epoch": 1.597938144329897,
      "grad_norm": 3.3393008708953857,
      "learning_rate": 9.001288659793816e-06,
      "loss": 0.4157,
      "step": 3410
    },
    {
      "epoch": 1.6026241799437675,
      "grad_norm": 3.096881151199341,
      "learning_rate": 8.998359887535147e-06,
      "loss": 0.4478,
      "step": 3420
    },
    {
      "epoch": 1.6073102155576382,
      "grad_norm": 3.0557243824005127,
      "learning_rate": 8.995431115276478e-06,
      "loss": 0.4452,
      "step": 3430
    },
    {
      "epoch": 1.611996251171509,
      "grad_norm": 3.7997219562530518,
      "learning_rate": 8.992502343017808e-06,
      "loss": 0.4287,
      "step": 3440
    },
    {
      "epoch": 1.6166822867853796,
      "grad_norm": 3.6995465755462646,
      "learning_rate": 8.989573570759139e-06,
      "loss": 0.4423,
      "step": 3450
    },
    {
      "epoch": 1.6213683223992503,
      "grad_norm": 4.1384053230285645,
      "learning_rate": 8.986644798500468e-06,
      "loss": 0.4563,
      "step": 3460
    },
    {
      "epoch": 1.6260543580131208,
      "grad_norm": 4.637014865875244,
      "learning_rate": 8.9837160262418e-06,
      "loss": 0.4538,
      "step": 3470
    },
    {
      "epoch": 1.6307403936269915,
      "grad_norm": 4.30952262878418,
      "learning_rate": 8.98078725398313e-06,
      "loss": 0.3993,
      "step": 3480
    },
    {
      "epoch": 1.6354264292408622,
      "grad_norm": 4.746737003326416,
      "learning_rate": 8.977858481724462e-06,
      "loss": 0.4274,
      "step": 3490
    },
    {
      "epoch": 1.640112464854733,
      "grad_norm": 3.8592286109924316,
      "learning_rate": 8.974929709465793e-06,
      "loss": 0.4066,
      "step": 3500
    },
    {
      "epoch": 1.640112464854733,
      "eval_loss": 0.050406068563461304,
      "eval_pearson_cosine": 0.7840015528942317,
      "eval_pearson_dot": 0.659932129633507,
      "eval_pearson_euclidean": 0.7769297052026758,
      "eval_pearson_manhattan": 0.7754185185705609,
      "eval_runtime": 44.0859,
      "eval_samples_per_second": 34.024,
      "eval_spearman_cosine": 0.7845451302239834,
      "eval_spearman_dot": 0.6667296644451466,
      "eval_spearman_euclidean": 0.7868327314956118,
      "eval_spearman_manhattan": 0.7856021398727839,
      "eval_steps_per_second": 34.024,
      "step": 3500
    },
    {
      "epoch": 1.6447985004686037,
      "grad_norm": 5.983098030090332,
      "learning_rate": 8.972000937207124e-06,
      "loss": 0.4451,
      "step": 3510
    },
    {
      "epoch": 1.6494845360824741,
      "grad_norm": 4.052550315856934,
      "learning_rate": 8.969072164948455e-06,
      "loss": 0.4331,
      "step": 3520
    },
    {
      "epoch": 1.6541705716963448,
      "grad_norm": 3.7970380783081055,
      "learning_rate": 8.966143392689785e-06,
      "loss": 0.4427,
      "step": 3530
    },
    {
      "epoch": 1.6588566073102156,
      "grad_norm": 4.695807456970215,
      "learning_rate": 8.963214620431116e-06,
      "loss": 0.4522,
      "step": 3540
    },
    {
      "epoch": 1.6635426429240863,
      "grad_norm": 4.41202974319458,
      "learning_rate": 8.960285848172446e-06,
      "loss": 0.4275,
      "step": 3550
    },
    {
      "epoch": 1.668228678537957,
      "grad_norm": 5.364877223968506,
      "learning_rate": 8.957357075913777e-06,
      "loss": 0.4321,
      "step": 3560
    },
    {
      "epoch": 1.6729147141518275,
      "grad_norm": 3.801132917404175,
      "learning_rate": 8.954428303655108e-06,
      "loss": 0.4494,
      "step": 3570
    },
    {
      "epoch": 1.6776007497656982,
      "grad_norm": 4.197866439819336,
      "learning_rate": 8.95149953139644e-06,
      "loss": 0.4126,
      "step": 3580
    },
    {
      "epoch": 1.6822867853795689,
      "grad_norm": 5.34595251083374,
      "learning_rate": 8.94857075913777e-06,
      "loss": 0.4757,
      "step": 3590
    },
    {
      "epoch": 1.6869728209934396,
      "grad_norm": 4.772789478302002,
      "learning_rate": 8.945641986879102e-06,
      "loss": 0.4037,
      "step": 3600
    },
    {
      "epoch": 1.6916588566073103,
      "grad_norm": 4.81839656829834,
      "learning_rate": 8.942713214620433e-06,
      "loss": 0.4192,
      "step": 3610
    },
    {
      "epoch": 1.6963448922211808,
      "grad_norm": 3.470919132232666,
      "learning_rate": 8.939784442361762e-06,
      "loss": 0.4106,
      "step": 3620
    },
    {
      "epoch": 1.7010309278350515,
      "grad_norm": 3.2051522731781006,
      "learning_rate": 8.936855670103094e-06,
      "loss": 0.4162,
      "step": 3630
    },
    {
      "epoch": 1.7057169634489222,
      "grad_norm": 3.8122334480285645,
      "learning_rate": 8.933926897844423e-06,
      "loss": 0.4054,
      "step": 3640
    },
    {
      "epoch": 1.710402999062793,
      "grad_norm": 5.07956075668335,
      "learning_rate": 8.930998125585754e-06,
      "loss": 0.4164,
      "step": 3650
    },
    {
      "epoch": 1.7150890346766636,
      "grad_norm": 3.754542112350464,
      "learning_rate": 8.928069353327085e-06,
      "loss": 0.3703,
      "step": 3660
    },
    {
      "epoch": 1.7197750702905341,
      "grad_norm": 3.4620890617370605,
      "learning_rate": 8.925140581068417e-06,
      "loss": 0.4667,
      "step": 3670
    },
    {
      "epoch": 1.7244611059044048,
      "grad_norm": 4.179393768310547,
      "learning_rate": 8.922211808809748e-06,
      "loss": 0.4384,
      "step": 3680
    },
    {
      "epoch": 1.7291471415182755,
      "grad_norm": 3.0865719318389893,
      "learning_rate": 8.919283036551079e-06,
      "loss": 0.4248,
      "step": 3690
    },
    {
      "epoch": 1.7338331771321462,
      "grad_norm": 3.9282147884368896,
      "learning_rate": 8.91635426429241e-06,
      "loss": 0.4231,
      "step": 3700
    },
    {
      "epoch": 1.738519212746017,
      "grad_norm": 3.9746885299682617,
      "learning_rate": 8.91342549203374e-06,
      "loss": 0.4152,
      "step": 3710
    },
    {
      "epoch": 1.7432052483598874,
      "grad_norm": 3.8340625762939453,
      "learning_rate": 8.910496719775071e-06,
      "loss": 0.4458,
      "step": 3720
    },
    {
      "epoch": 1.7478912839737581,
      "grad_norm": 4.861859321594238,
      "learning_rate": 8.907567947516402e-06,
      "loss": 0.4274,
      "step": 3730
    },
    {
      "epoch": 1.7525773195876289,
      "grad_norm": 3.3457283973693848,
      "learning_rate": 8.904639175257732e-06,
      "loss": 0.4534,
      "step": 3740
    },
    {
      "epoch": 1.7572633552014996,
      "grad_norm": 4.057953834533691,
      "learning_rate": 8.901710402999063e-06,
      "loss": 0.484,
      "step": 3750
    },
    {
      "epoch": 1.7572633552014996,
      "eval_loss": 0.05240313336253166,
      "eval_pearson_cosine": 0.7879299521989642,
      "eval_pearson_dot": 0.6605985065084816,
      "eval_pearson_euclidean": 0.7797438530556207,
      "eval_pearson_manhattan": 0.778216782480726,
      "eval_runtime": 44.9916,
      "eval_samples_per_second": 33.34,
      "eval_spearman_cosine": 0.7888982276270184,
      "eval_spearman_dot": 0.6669965792210436,
      "eval_spearman_euclidean": 0.7899037728263932,
      "eval_spearman_manhattan": 0.7886320032383264,
      "eval_steps_per_second": 33.34,
      "step": 3750
    },
    {
      "epoch": 1.7619493908153703,
      "grad_norm": 3.281102418899536,
      "learning_rate": 8.898781630740394e-06,
      "loss": 0.4074,
      "step": 3760
    },
    {
      "epoch": 1.7666354264292408,
      "grad_norm": 4.710203170776367,
      "learning_rate": 8.895852858481725e-06,
      "loss": 0.4537,
      "step": 3770
    },
    {
      "epoch": 1.7713214620431117,
      "grad_norm": 4.636346817016602,
      "learning_rate": 8.892924086223056e-06,
      "loss": 0.4348,
      "step": 3780
    },
    {
      "epoch": 1.7760074976569822,
      "grad_norm": 4.518571376800537,
      "learning_rate": 8.889995313964388e-06,
      "loss": 0.4515,
      "step": 3790
    },
    {
      "epoch": 1.780693533270853,
      "grad_norm": 4.0576066970825195,
      "learning_rate": 8.887066541705717e-06,
      "loss": 0.4276,
      "step": 3800
    },
    {
      "epoch": 1.7853795688847236,
      "grad_norm": 5.657445430755615,
      "learning_rate": 8.884137769447048e-06,
      "loss": 0.4277,
      "step": 3810
    },
    {
      "epoch": 1.790065604498594,
      "grad_norm": 5.393405437469482,
      "learning_rate": 8.88120899718838e-06,
      "loss": 0.428,
      "step": 3820
    },
    {
      "epoch": 1.794751640112465,
      "grad_norm": 4.101112365722656,
      "learning_rate": 8.87828022492971e-06,
      "loss": 0.4489,
      "step": 3830
    },
    {
      "epoch": 1.7994376757263355,
      "grad_norm": 3.531888246536255,
      "learning_rate": 8.87535145267104e-06,
      "loss": 0.3673,
      "step": 3840
    },
    {
      "epoch": 1.8041237113402062,
      "grad_norm": 3.4490315914154053,
      "learning_rate": 8.872422680412371e-06,
      "loss": 0.4059,
      "step": 3850
    },
    {
      "epoch": 1.808809746954077,
      "grad_norm": 3.034252643585205,
      "learning_rate": 8.869493908153702e-06,
      "loss": 0.3832,
      "step": 3860
    },
    {
      "epoch": 1.8134957825679474,
      "grad_norm": 4.064283847808838,
      "learning_rate": 8.866565135895034e-06,
      "loss": 0.4704,
      "step": 3870
    },
    {
      "epoch": 1.8181818181818183,
      "grad_norm": 3.2689194679260254,
      "learning_rate": 8.863636363636365e-06,
      "loss": 0.4428,
      "step": 3880
    },
    {
      "epoch": 1.8228678537956888,
      "grad_norm": 3.173530101776123,
      "learning_rate": 8.860707591377694e-06,
      "loss": 0.4283,
      "step": 3890
    },
    {
      "epoch": 1.8275538894095595,
      "grad_norm": 3.638122081756592,
      "learning_rate": 8.857778819119026e-06,
      "loss": 0.4225,
      "step": 3900
    },
    {
      "epoch": 1.8322399250234302,
      "grad_norm": 3.636679172515869,
      "learning_rate": 8.854850046860357e-06,
      "loss": 0.4154,
      "step": 3910
    },
    {
      "epoch": 1.8369259606373007,
      "grad_norm": 3.810847520828247,
      "learning_rate": 8.851921274601688e-06,
      "loss": 0.3931,
      "step": 3920
    },
    {
      "epoch": 1.8416119962511717,
      "grad_norm": 3.7469394207000732,
      "learning_rate": 8.848992502343019e-06,
      "loss": 0.4472,
      "step": 3930
    },
    {
      "epoch": 1.8462980318650422,
      "grad_norm": 4.962492942810059,
      "learning_rate": 8.846063730084349e-06,
      "loss": 0.4324,
      "step": 3940
    },
    {
      "epoch": 1.8509840674789129,
      "grad_norm": 3.4641172885894775,
      "learning_rate": 8.84313495782568e-06,
      "loss": 0.4234,
      "step": 3950
    },
    {
      "epoch": 1.8556701030927836,
      "grad_norm": 3.8601555824279785,
      "learning_rate": 8.840206185567011e-06,
      "loss": 0.4045,
      "step": 3960
    },
    {
      "epoch": 1.860356138706654,
      "grad_norm": 6.290759086608887,
      "learning_rate": 8.837277413308342e-06,
      "loss": 0.4655,
      "step": 3970
    },
    {
      "epoch": 1.865042174320525,
      "grad_norm": 3.5882256031036377,
      "learning_rate": 8.834348641049673e-06,
      "loss": 0.4298,
      "step": 3980
    },
    {
      "epoch": 1.8697282099343955,
      "grad_norm": 3.133535623550415,
      "learning_rate": 8.831419868791003e-06,
      "loss": 0.4508,
      "step": 3990
    },
    {
      "epoch": 1.8744142455482662,
      "grad_norm": 3.220383644104004,
      "learning_rate": 8.828491096532334e-06,
      "loss": 0.4348,
      "step": 4000
    },
    {
      "epoch": 1.8744142455482662,
      "eval_loss": 0.04981923848390579,
      "eval_pearson_cosine": 0.790612878761543,
      "eval_pearson_dot": 0.6612786229229286,
      "eval_pearson_euclidean": 0.7799249806775554,
      "eval_pearson_manhattan": 0.7784476870813819,
      "eval_runtime": 45.9371,
      "eval_samples_per_second": 32.653,
      "eval_spearman_cosine": 0.7908100570922554,
      "eval_spearman_dot": 0.6689224987064551,
      "eval_spearman_euclidean": 0.7902520878335856,
      "eval_spearman_manhattan": 0.7892503488739743,
      "eval_steps_per_second": 32.653,
      "step": 4000
    }
  ],
  "logging_steps": 10,
  "max_steps": 4268,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}