{
  "best_metric": 0.121661689779634,
  "best_model_checkpoint": "/workspace/disk2/krishna/checkpoints/checkpoint-1280",
  "epoch": 0.128,
  "eval_steps": 10,
  "global_step": 1280,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001,
      "grad_norm": 0.11198576539754868,
      "learning_rate": 1e-05,
      "loss": 0.126,
      "step": 10
    },
    {
      "epoch": 0.001,
      "eval_cos_sim": 0.8696296215057373,
      "eval_loss": 0.13132101871716445,
      "eval_runtime": 191.9539,
      "eval_samples_per_second": 20.838,
      "eval_steps_per_second": 1.302,
      "step": 10
    },
    {
      "epoch": 0.002,
      "grad_norm": 0.19444850087165833,
      "learning_rate": 2e-05,
      "loss": 0.1267,
      "step": 20
    },
    {
      "epoch": 0.002,
      "eval_cos_sim": 0.8698329329490662,
      "eval_loss": 0.1311149292205519,
      "eval_runtime": 177.5098,
      "eval_samples_per_second": 22.534,
      "eval_steps_per_second": 1.408,
      "step": 20
    },
    {
      "epoch": 0.003,
      "grad_norm": 0.12954622507095337,
      "learning_rate": 3e-05,
      "loss": 0.1271,
      "step": 30
    },
    {
      "epoch": 0.003,
      "eval_cos_sim": 0.8700494766235352,
      "eval_loss": 0.1309011602615065,
      "eval_runtime": 179.7068,
      "eval_samples_per_second": 22.258,
      "eval_steps_per_second": 1.391,
      "step": 30
    },
    {
      "epoch": 0.004,
      "grad_norm": 0.11514733731746674,
      "learning_rate": 4e-05,
      "loss": 0.1265,
      "step": 40
    },
    {
      "epoch": 0.004,
      "eval_cos_sim": 0.870728075504303,
      "eval_loss": 0.13021534349667496,
      "eval_runtime": 174.4918,
      "eval_samples_per_second": 22.924,
      "eval_steps_per_second": 1.433,
      "step": 40
    },
    {
      "epoch": 0.005,
      "grad_norm": 0.34224584698677063,
      "learning_rate": 5e-05,
      "loss": 0.1273,
      "step": 50
    },
    {
      "epoch": 0.005,
      "eval_cos_sim": 0.8705285787582397,
      "eval_loss": 0.1304176144813246,
      "eval_runtime": 175.5157,
      "eval_samples_per_second": 22.79,
      "eval_steps_per_second": 1.424,
      "step": 50
    },
    {
      "epoch": 0.006,
      "grad_norm": 0.1085827499628067,
      "learning_rate": 4.517892759404963e-05,
      "loss": 0.125,
      "step": 60
    },
    {
      "epoch": 0.006,
      "eval_cos_sim": 0.8709338903427124,
      "eval_loss": 0.130007851145143,
      "eval_runtime": 173.9237,
      "eval_samples_per_second": 22.999,
      "eval_steps_per_second": 1.437,
      "step": 60
    },
    {
      "epoch": 0.007,
      "grad_norm": 0.11786766350269318,
      "learning_rate": 3.257512950767182e-05,
      "loss": 0.1291,
      "step": 70
    },
    {
      "epoch": 0.007,
      "eval_cos_sim": 0.8714690208435059,
      "eval_loss": 0.12946533443676894,
      "eval_runtime": 177.0345,
      "eval_samples_per_second": 22.594,
      "eval_steps_per_second": 1.412,
      "step": 70
    },
    {
      "epoch": 0.008,
      "grad_norm": 0.10741184651851654,
      "learning_rate": 1.7049711594019046e-05,
      "loss": 0.1285,
      "step": 80
    },
    {
      "epoch": 0.008,
      "eval_cos_sim": 0.8719983696937561,
      "eval_loss": 0.1289418597434706,
      "eval_runtime": 178.6566,
      "eval_samples_per_second": 22.389,
      "eval_steps_per_second": 1.399,
      "step": 80
    },
    {
      "epoch": 0.009,
      "grad_norm": 0.12072350829839706,
      "learning_rate": 4.590606964640023e-06,
      "loss": 0.125,
      "step": 90
    },
    {
      "epoch": 0.009,
      "eval_cos_sim": 0.8721248507499695,
      "eval_loss": 0.12881728055226274,
      "eval_runtime": 181.5969,
      "eval_samples_per_second": 22.027,
      "eval_steps_per_second": 1.377,
      "step": 90
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.11123672872781754,
      "learning_rate": 4.999688473794144e-05,
      "loss": 0.1249,
      "step": 100
    },
    {
      "epoch": 0.01,
      "eval_cos_sim": 0.8721336722373962,
      "eval_loss": 0.12880885388600297,
      "eval_runtime": 174.6097,
      "eval_samples_per_second": 22.908,
      "eval_steps_per_second": 1.432,
      "step": 100
    },
    {
      "epoch": 0.011,
      "grad_norm": 0.11100038141012192,
      "learning_rate": 4.494343314093799e-05,
      "loss": 0.1246,
      "step": 110
    },
    {
      "epoch": 0.011,
      "eval_cos_sim": 0.8723854422569275,
      "eval_loss": 0.1285583892081923,
      "eval_runtime": 180.7772,
      "eval_samples_per_second": 22.127,
      "eval_steps_per_second": 1.383,
      "step": 110
    },
    {
      "epoch": 0.012,
      "grad_norm": 0.11933281272649765,
      "learning_rate": 3.219808272827916e-05,
      "loss": 0.1265,
      "step": 120
    },
    {
      "epoch": 0.012,
      "eval_cos_sim": 0.8727645874023438,
      "eval_loss": 0.12819017722355788,
      "eval_runtime": 176.8881,
      "eval_samples_per_second": 22.613,
      "eval_steps_per_second": 1.413,
      "step": 120
    },
    {
      "epoch": 0.013,
      "grad_norm": 0.11295568197965622,
      "learning_rate": 1.667653407425597e-05,
      "loss": 0.1256,
      "step": 130
    },
    {
      "epoch": 0.013,
      "eval_cos_sim": 0.8724489808082581,
      "eval_loss": 0.12850400116192764,
      "eval_runtime": 176.2937,
      "eval_samples_per_second": 22.689,
      "eval_steps_per_second": 1.418,
      "step": 130
    },
    {
      "epoch": 0.014,
      "grad_norm": 0.10013717412948608,
      "learning_rate": 4.365227971950606e-06,
      "loss": 0.1252,
      "step": 140
    },
    {
      "epoch": 0.014,
      "eval_cos_sim": 0.8726389408111572,
      "eval_loss": 0.1283098426078505,
      "eval_runtime": 175.1837,
      "eval_samples_per_second": 22.833,
      "eval_steps_per_second": 1.427,
      "step": 140
    },
    {
      "epoch": 0.015,
      "grad_norm": 0.08663387596607208,
      "learning_rate": 4.998753972815435e-05,
      "loss": 0.1252,
      "step": 150
    },
    {
      "epoch": 0.015,
      "eval_cos_sim": 0.8726971745491028,
      "eval_loss": 0.12825069954144425,
      "eval_runtime": 179.297,
      "eval_samples_per_second": 22.309,
      "eval_steps_per_second": 1.394,
      "step": 150
    },
    {
      "epoch": 0.016,
      "grad_norm": 0.10253303498029709,
      "learning_rate": 4.47029683661798e-05,
      "loss": 0.1258,
      "step": 160
    },
    {
      "epoch": 0.016,
      "eval_cos_sim": 0.8739002346992493,
      "eval_loss": 0.12703985621678301,
      "eval_runtime": 175.0922,
      "eval_samples_per_second": 22.845,
      "eval_steps_per_second": 1.428,
      "step": 160
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.11590978503227234,
      "learning_rate": 3.1819242035765096e-05,
      "loss": 0.1219,
      "step": 170
    },
    {
      "epoch": 0.017,
      "eval_cos_sim": 0.8737954497337341,
      "eval_loss": 0.12715704419362017,
      "eval_runtime": 180.7326,
      "eval_samples_per_second": 22.132,
      "eval_steps_per_second": 1.383,
      "step": 170
    },
    {
      "epoch": 0.018,
      "grad_norm": 0.09687651693820953,
      "learning_rate": 1.6305430936700428e-05,
      "loss": 0.1244,
      "step": 180
    },
    {
      "epoch": 0.018,
      "eval_cos_sim": 0.8735443353652954,
      "eval_loss": 0.12740902497517534,
      "eval_runtime": 177.9084,
      "eval_samples_per_second": 22.483,
      "eval_steps_per_second": 1.405,
      "step": 180
    },
    {
      "epoch": 0.019,
      "grad_norm": 0.10086172819137573,
      "learning_rate": 4.144991597052059e-06,
      "loss": 0.1258,
      "step": 190
    },
    {
      "epoch": 0.019,
      "eval_cos_sim": 0.8735744953155518,
      "eval_loss": 0.12737621738659807,
      "eval_runtime": 174.0483,
      "eval_samples_per_second": 22.982,
      "eval_steps_per_second": 1.436,
      "step": 190
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.09316889941692352,
      "learning_rate": 4.9971967299611097e-05,
      "loss": 0.122,
      "step": 200
    },
    {
      "epoch": 0.02,
      "eval_cos_sim": 0.8735851645469666,
      "eval_loss": 0.12736523821103043,
      "eval_runtime": 176.3327,
      "eval_samples_per_second": 22.684,
      "eval_steps_per_second": 1.418,
      "step": 200
    },
    {
      "epoch": 0.021,
      "grad_norm": 0.10805534571409225,
      "learning_rate": 4.4457593198638246e-05,
      "loss": 0.1256,
      "step": 210
    },
    {
      "epoch": 0.021,
      "eval_cos_sim": 0.8735992312431335,
      "eval_loss": 0.12734888651120133,
      "eval_runtime": 177.4342,
      "eval_samples_per_second": 22.544,
      "eval_steps_per_second": 1.409,
      "step": 210
    },
    {
      "epoch": 0.022,
      "grad_norm": 0.14335550367832184,
      "learning_rate": 3.143870184517241e-05,
      "loss": 0.1228,
      "step": 220
    },
    {
      "epoch": 0.022,
      "eval_cos_sim": 0.8742734789848328,
      "eval_loss": 0.1266735837672896,
      "eval_runtime": 174.698,
      "eval_samples_per_second": 22.897,
      "eval_steps_per_second": 1.431,
      "step": 220
    },
    {
      "epoch": 0.023,
      "grad_norm": 0.10455214232206345,
      "learning_rate": 1.5936494668034417e-05,
      "loss": 0.1235,
      "step": 230
    },
    {
      "epoch": 0.023,
      "eval_cos_sim": 0.874700129032135,
      "eval_loss": 0.12624898936497636,
      "eval_runtime": 175.2174,
      "eval_samples_per_second": 22.829,
      "eval_steps_per_second": 1.427,
      "step": 230
    },
    {
      "epoch": 0.024,
      "grad_norm": 0.10344243049621582,
      "learning_rate": 3.9299527274662355e-06,
      "loss": 0.1258,
      "step": 240
    },
    {
      "epoch": 0.024,
      "eval_cos_sim": 0.8746932148933411,
      "eval_loss": 0.1262588949416823,
      "eval_runtime": 178.5496,
      "eval_samples_per_second": 22.403,
      "eval_steps_per_second": 1.4,
      "step": 240
    },
    {
      "epoch": 0.025,
      "grad_norm": 0.1515665352344513,
      "learning_rate": 4.9950171333287335e-05,
      "loss": 0.1259,
      "step": 250
    },
    {
      "epoch": 0.025,
      "eval_cos_sim": 0.8746062517166138,
      "eval_loss": 0.1263456218455977,
      "eval_runtime": 181.2208,
      "eval_samples_per_second": 22.073,
      "eval_steps_per_second": 1.38,
      "step": 250
    },
    {
      "epoch": 0.026,
      "grad_norm": 0.08521851152181625,
      "learning_rate": 4.420736879094929e-05,
      "loss": 0.123,
      "step": 260
    },
    {
      "epoch": 0.026,
      "eval_cos_sim": 0.8742081522941589,
      "eval_loss": 0.1267440173839278,
      "eval_runtime": 172.3377,
      "eval_samples_per_second": 23.21,
      "eval_steps_per_second": 1.451,
      "step": 260
    },
    {
      "epoch": 0.027,
      "grad_norm": 0.24638278782367706,
      "learning_rate": 3.105655699509455e-05,
      "loss": 0.1246,
      "step": 270
    },
    {
      "epoch": 0.027,
      "eval_cos_sim": 0.8748664259910583,
      "eval_loss": 0.12609003236042926,
      "eval_runtime": 175.6344,
      "eval_samples_per_second": 22.775,
      "eval_steps_per_second": 1.423,
      "step": 270
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.09267835319042206,
      "learning_rate": 1.5569817214910634e-05,
      "loss": 0.1246,
      "step": 280
    },
    {
      "epoch": 0.028,
      "eval_cos_sim": 0.8748399615287781,
      "eval_loss": 0.12611397721516557,
      "eval_runtime": 175.9072,
      "eval_samples_per_second": 22.739,
      "eval_steps_per_second": 1.421,
      "step": 280
    },
    {
      "epoch": 0.029,
      "grad_norm": 0.1712462306022644,
      "learning_rate": 3.720164955387656e-06,
      "loss": 0.1243,
      "step": 290
    },
    {
      "epoch": 0.029,
      "eval_cos_sim": 0.8749127388000488,
      "eval_loss": 0.1260433347438521,
      "eval_runtime": 176.0561,
      "eval_samples_per_second": 22.72,
      "eval_steps_per_second": 1.42,
      "step": 290
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.07719286531209946,
      "learning_rate": 4.992215726119483e-05,
      "loss": 0.1227,
      "step": 300
    },
    {
      "epoch": 0.03,
      "eval_cos_sim": 0.8748821020126343,
      "eval_loss": 0.1260761695121474,
      "eval_runtime": 174.2263,
      "eval_samples_per_second": 22.959,
      "eval_steps_per_second": 1.435,
      "step": 300
    },
    {
      "epoch": 0.031,
      "grad_norm": 0.08637545257806778,
      "learning_rate": 4.395235750428112e-05,
      "loss": 0.1222,
      "step": 310
    },
    {
      "epoch": 0.031,
      "eval_cos_sim": 0.8745994567871094,
      "eval_loss": 0.12635979654538104,
      "eval_runtime": 179.4806,
      "eval_samples_per_second": 22.287,
      "eval_steps_per_second": 1.393,
      "step": 310
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.0923767164349556,
      "learning_rate": 3.0672902724039794e-05,
      "loss": 0.1232,
      "step": 320
    },
    {
      "epoch": 0.032,
      "eval_cos_sim": 0.8750612735748291,
      "eval_loss": 0.1258947375034041,
      "eval_runtime": 181.1338,
      "eval_samples_per_second": 22.083,
      "eval_steps_per_second": 1.38,
      "step": 320
    },
    {
      "epoch": 0.033,
      "grad_norm": 0.08724959194660187,
      "learning_rate": 1.5205489961037645e-05,
      "loss": 0.1236,
      "step": 330
    },
    {
      "epoch": 0.033,
      "eval_cos_sim": 0.8755974173545837,
      "eval_loss": 0.125363212845201,
      "eval_runtime": 198.751,
      "eval_samples_per_second": 20.126,
      "eval_steps_per_second": 1.258,
      "step": 330
    },
    {
      "epoch": 0.034,
      "grad_norm": 0.07283046841621399,
      "learning_rate": 3.5156805643271896e-06,
      "loss": 0.1239,
      "step": 340
    },
    {
      "epoch": 0.034,
      "eval_cos_sim": 0.8756656646728516,
      "eval_loss": 0.12529714014279317,
      "eval_runtime": 187.9639,
      "eval_samples_per_second": 21.281,
      "eval_steps_per_second": 1.33,
      "step": 340
    },
    {
      "epoch": 0.035,
      "grad_norm": 0.15486685931682587,
      "learning_rate": 4.9887932065027656e-05,
      "loss": 0.1231,
      "step": 350
    },
    {
      "epoch": 0.035,
      "eval_cos_sim": 0.8756564259529114,
      "eval_loss": 0.12530613209950398,
      "eval_runtime": 194.2503,
      "eval_samples_per_second": 20.592,
      "eval_steps_per_second": 1.287,
      "step": 350
    },
    {
      "epoch": 0.036,
      "grad_norm": 0.07505682110786438,
      "learning_rate": 4.369262289279271e-05,
      "loss": 0.1233,
      "step": 360
    },
    {
      "epoch": 0.036,
      "eval_cos_sim": 0.8755001425743103,
      "eval_loss": 0.12546515204655598,
      "eval_runtime": 194.8309,
      "eval_samples_per_second": 20.531,
      "eval_steps_per_second": 1.283,
      "step": 360
    },
    {
      "epoch": 0.037,
      "grad_norm": 0.09688587486743927,
      "learning_rate": 3.0287834646695457e-05,
      "loss": 0.1259,
      "step": 370
    },
    {
      "epoch": 0.037,
      "eval_cos_sim": 0.8756394386291504,
      "eval_loss": 0.1253258285735793,
      "eval_runtime": 188.2216,
      "eval_samples_per_second": 21.252,
      "eval_steps_per_second": 1.328,
      "step": 370
    },
    {
      "epoch": 0.038,
      "grad_norm": 0.07268425822257996,
      "learning_rate": 1.4843603704405253e-05,
      "loss": 0.1247,
      "step": 380
    },
    {
      "epoch": 0.038,
      "eval_cos_sim": 0.8758111596107483,
      "eval_loss": 0.12515661337124775,
      "eval_runtime": 189.0095,
      "eval_samples_per_second": 21.163,
      "eval_steps_per_second": 1.323,
      "step": 380
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.09875091165304184,
      "learning_rate": 3.316550516082126e-06,
      "loss": 0.1229,
      "step": 390
    },
    {
      "epoch": 0.039,
      "eval_cos_sim": 0.8758672475814819,
      "eval_loss": 0.12509912636029194,
      "eval_runtime": 235.6105,
      "eval_samples_per_second": 16.977,
      "eval_steps_per_second": 1.061,
      "step": 390
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.0792056992650032,
      "learning_rate": 4.98475042744222e-05,
      "loss": 0.1246,
      "step": 400
    },
    {
      "epoch": 0.04,
      "eval_cos_sim": 0.8759932518005371,
      "eval_loss": 0.12497495915638873,
      "eval_runtime": 200.3436,
      "eval_samples_per_second": 19.966,
      "eval_steps_per_second": 1.248,
      "step": 400
    },
    {
      "epoch": 0.041,
      "grad_norm": 0.10644775629043579,
      "learning_rate": 4.3428229687794505e-05,
      "loss": 0.1224,
      "step": 410
    },
    {
      "epoch": 0.041,
      "eval_cos_sim": 0.8761371374130249,
      "eval_loss": 0.12483511426197956,
      "eval_runtime": 197.5074,
      "eval_samples_per_second": 20.252,
      "eval_steps_per_second": 1.266,
      "step": 410
    },
    {
      "epoch": 0.042,
      "grad_norm": 0.09292006492614746,
      "learning_rate": 2.9901448730099503e-05,
      "loss": 0.1239,
      "step": 420
    },
    {
      "epoch": 0.042,
      "eval_cos_sim": 0.876413881778717,
      "eval_loss": 0.12455732419239948,
      "eval_runtime": 187.5784,
      "eval_samples_per_second": 21.324,
      "eval_steps_per_second": 1.333,
      "step": 420
    },
    {
      "epoch": 0.043,
      "grad_norm": 0.08105887472629547,
      "learning_rate": 1.448424863465538e-05,
      "loss": 0.1231,
      "step": 430
    },
    {
      "epoch": 0.043,
      "eval_cos_sim": 0.876311719417572,
      "eval_loss": 0.12465796377407977,
      "eval_runtime": 203.0598,
      "eval_samples_per_second": 19.699,
      "eval_steps_per_second": 1.231,
      "step": 430
    },
    {
      "epoch": 0.044,
      "grad_norm": 0.15435349941253662,
      "learning_rate": 3.1228244380351547e-06,
      "loss": 0.1225,
      "step": 440
    },
    {
      "epoch": 0.044,
      "eval_cos_sim": 0.8762248754501343,
      "eval_loss": 0.12474570634114215,
      "eval_runtime": 199.1025,
      "eval_samples_per_second": 20.09,
      "eval_steps_per_second": 1.256,
      "step": 440
    },
    {
      "epoch": 0.045,
      "grad_norm": 0.09370752424001694,
      "learning_rate": 4.980088396483146e-05,
      "loss": 0.1228,
      "step": 450
    },
    {
      "epoch": 0.045,
      "eval_cos_sim": 0.8761196136474609,
      "eval_loss": 0.12484796597706745,
      "eval_runtime": 192.1246,
      "eval_samples_per_second": 20.82,
      "eval_steps_per_second": 1.301,
      "step": 450
    },
    {
      "epoch": 0.046,
      "grad_norm": 0.08999752253293991,
      "learning_rate": 4.3159243781616026e-05,
      "loss": 0.1229,
      "step": 460
    },
    {
      "epoch": 0.046,
      "eval_cos_sim": 0.8762247562408447,
      "eval_loss": 0.12473729922520588,
      "eval_runtime": 196.5532,
      "eval_samples_per_second": 20.351,
      "eval_steps_per_second": 1.272,
      "step": 460
    },
    {
      "epoch": 0.047,
      "grad_norm": 0.0809365063905716,
      "learning_rate": 2.9513841269722613e-05,
      "loss": 0.124,
      "step": 470
    },
    {
      "epoch": 0.047,
      "eval_cos_sim": 0.8765152096748352,
      "eval_loss": 0.12444968440281817,
      "eval_runtime": 204.1545,
      "eval_samples_per_second": 19.593,
      "eval_steps_per_second": 1.225,
      "step": 470
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.08176057785749435,
      "learning_rate": 1.4127514310605238e-05,
      "loss": 0.123,
      "step": 480
    },
    {
      "epoch": 0.048,
      "eval_cos_sim": 0.876448929309845,
      "eval_loss": 0.12451095607029865,
      "eval_runtime": 198.7286,
      "eval_samples_per_second": 20.128,
      "eval_steps_per_second": 1.258,
      "step": 480
    },
    {
      "epoch": 0.049,
      "grad_norm": 0.09636738151311874,
      "learning_rate": 2.934550610786291e-06,
      "loss": 0.1236,
      "step": 490
    },
    {
      "epoch": 0.049,
      "eval_cos_sim": 0.8765274882316589,
      "eval_loss": 0.12443248560177753,
      "eval_runtime": 196.3413,
      "eval_samples_per_second": 20.373,
      "eval_steps_per_second": 1.273,
      "step": 490
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.08814109116792679,
      "learning_rate": 4.974808275501392e-05,
      "loss": 0.123,
      "step": 500
    },
    {
      "epoch": 0.05,
      "eval_cos_sim": 0.8765753507614136,
      "eval_loss": 0.12438686539875934,
      "eval_runtime": 191.2687,
      "eval_samples_per_second": 20.913,
      "eval_steps_per_second": 1.307,
      "step": 500
    },
    {
      "epoch": 0.051,
      "grad_norm": 0.08511923253536224,
      "learning_rate": 4.2885732211184324e-05,
      "loss": 0.1246,
      "step": 510
    },
    {
      "epoch": 0.051,
      "eval_cos_sim": 0.8767162561416626,
      "eval_loss": 0.12425224568592975,
      "eval_runtime": 173.2088,
      "eval_samples_per_second": 23.094,
      "eval_steps_per_second": 1.443,
      "step": 510
    },
    {
      "epoch": 0.052,
      "grad_norm": 0.0837215781211853,
      "learning_rate": 2.9125108865470048e-05,
      "loss": 0.1221,
      "step": 520
    },
    {
      "epoch": 0.052,
      "eval_cos_sim": 0.876861572265625,
      "eval_loss": 0.1241044213985152,
      "eval_runtime": 174.8239,
      "eval_samples_per_second": 22.88,
      "eval_steps_per_second": 1.43,
      "step": 520
    },
    {
      "epoch": 0.053,
      "grad_norm": 0.09207245707511902,
      "learning_rate": 1.3773489637927061e-05,
      "loss": 0.1229,
      "step": 530
    },
    {
      "epoch": 0.053,
      "eval_cos_sim": 0.8767414093017578,
      "eval_loss": 0.12421691825138996,
      "eval_runtime": 173.8268,
      "eval_samples_per_second": 23.011,
      "eval_steps_per_second": 1.438,
      "step": 530
    },
    {
      "epoch": 0.054,
      "grad_norm": 0.0655718669295311,
      "learning_rate": 2.7517759561205253e-06,
      "loss": 0.1221,
      "step": 540
    },
    {
      "epoch": 0.054,
      "eval_cos_sim": 0.8767919540405273,
      "eval_loss": 0.1241676082824416,
      "eval_runtime": 179.6327,
      "eval_samples_per_second": 22.268,
      "eval_steps_per_second": 1.392,
      "step": 540
    },
    {
      "epoch": 0.055,
      "grad_norm": 0.21964910626411438,
      "learning_rate": 4.968911380413809e-05,
      "loss": 0.1243,
      "step": 550
    },
    {
      "epoch": 0.055,
      "eval_cos_sim": 0.8768623471260071,
      "eval_loss": 0.12409912397610615,
      "eval_runtime": 172.7843,
      "eval_samples_per_second": 23.15,
      "eval_steps_per_second": 1.447,
      "step": 550
    },
    {
      "epoch": 0.056,
      "grad_norm": 0.08817338943481445,
      "learning_rate": 4.260776314131676e-05,
      "loss": 0.1222,
      "step": 560
    },
    {
      "epoch": 0.056,
      "eval_cos_sim": 0.8767062425613403,
      "eval_loss": 0.12425821544873188,
      "eval_runtime": 172.6396,
      "eval_samples_per_second": 23.17,
      "eval_steps_per_second": 1.448,
      "step": 560
    },
    {
      "epoch": 0.057,
      "grad_norm": 0.06475117802619934,
      "learning_rate": 2.873534839760646e-05,
      "loss": 0.1232,
      "step": 570
    },
    {
      "epoch": 0.057,
      "eval_cos_sim": 0.8768667578697205,
      "eval_loss": 0.12410461117970416,
      "eval_runtime": 172.7054,
      "eval_samples_per_second": 23.161,
      "eval_steps_per_second": 1.448,
      "step": 570
    },
    {
      "epoch": 0.058,
      "grad_norm": 0.07474437355995178,
      "learning_rate": 1.342226284699138e-05,
      "loss": 0.1227,
      "step": 580
    },
    {
      "epoch": 0.058,
      "eval_cos_sim": 0.8771414160728455,
      "eval_loss": 0.12382852866398761,
      "eval_runtime": 175.1422,
      "eval_samples_per_second": 22.839,
      "eval_steps_per_second": 1.427,
      "step": 580
    },
    {
      "epoch": 0.059,
      "grad_norm": 0.07362603396177292,
      "learning_rate": 2.5745460253134484e-06,
      "loss": 0.1234,
      "step": 590
    },
    {
      "epoch": 0.059,
      "eval_cos_sim": 0.8771759271621704,
      "eval_loss": 0.12379106380688618,
      "eval_runtime": 174.7169,
      "eval_samples_per_second": 22.894,
      "eval_steps_per_second": 1.431,
      "step": 590
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.07593993842601776,
      "learning_rate": 4.962399180850275e-05,
      "loss": 0.1232,
      "step": 600
    },
    {
      "epoch": 0.06,
      "eval_cos_sim": 0.877038300037384,
      "eval_loss": 0.12392904116856525,
      "eval_runtime": 172.4786,
      "eval_samples_per_second": 23.191,
      "eval_steps_per_second": 1.449,
      "step": 600
    },
    {
      "epoch": 0.061,
      "grad_norm": 0.07887241989374161,
      "learning_rate": 4.2325405847733254e-05,
      "loss": 0.1235,
      "step": 610
    },
    {
      "epoch": 0.061,
      "eval_cos_sim": 0.8767529726028442,
      "eval_loss": 0.12422390153157184,
      "eval_runtime": 173.6696,
      "eval_samples_per_second": 23.032,
      "eval_steps_per_second": 1.44,
      "step": 610
    },
    {
      "epoch": 0.062,
      "grad_norm": 0.17296281456947327,
      "learning_rate": 2.834465700261192e-05,
      "loss": 0.1204,
      "step": 620
    },
    {
      "epoch": 0.062,
      "eval_cos_sim": 0.8772019743919373,
      "eval_loss": 0.12377139737355183,
      "eval_runtime": 179.9864,
      "eval_samples_per_second": 22.224,
      "eval_steps_per_second": 1.389,
      "step": 620
    },
    {
      "epoch": 0.063,
      "grad_norm": 0.06920995563268661,
      "learning_rate": 1.3073921470877709e-05,
      "loss": 0.1245,
      "step": 630
    },
    {
      "epoch": 0.063,
      "eval_cos_sim": 0.8773365616798401,
      "eval_loss": 0.12363236000287008,
      "eval_runtime": 173.1204,
      "eval_samples_per_second": 23.105,
      "eval_steps_per_second": 1.444,
      "step": 630
    },
    {
      "epoch": 0.064,
      "grad_norm": 0.08347232639789581,
      "learning_rate": 2.4029049877794472e-06,
      "loss": 0.1217,
      "step": 640
    },
    {
      "epoch": 0.064,
      "eval_cos_sim": 0.8773410320281982,
      "eval_loss": 0.12362796523320149,
      "eval_runtime": 172.0713,
      "eval_samples_per_second": 23.246,
      "eval_steps_per_second": 1.453,
      "step": 640
    },
    {
      "epoch": 0.065,
      "grad_norm": 0.07459770888090134,
      "learning_rate": 4.955273299787453e-05,
      "loss": 0.1223,
      "step": 650
    },
    {
      "epoch": 0.065,
      "eval_cos_sim": 0.8773767948150635,
      "eval_loss": 0.12359384205090472,
      "eval_runtime": 173.2149,
      "eval_samples_per_second": 23.093,
      "eval_steps_per_second": 1.443,
      "step": 650
    },
    {
      "epoch": 0.066,
      "grad_norm": 0.0831998735666275,
      "learning_rate": 4.203873069979081e-05,
      "loss": 0.1231,
      "step": 660
    },
    {
      "epoch": 0.066,
      "eval_cos_sim": 0.8774532675743103,
      "eval_loss": 0.12351777221905659,
      "eval_runtime": 171.902,
      "eval_samples_per_second": 23.269,
      "eval_steps_per_second": 1.454,
      "step": 660
    },
    {
      "epoch": 0.067,
      "grad_norm": 0.07724840193986893,
      "learning_rate": 2.7953132048972646e-05,
      "loss": 0.122,
      "step": 670
    },
    {
      "epoch": 0.067,
      "eval_cos_sim": 0.877151608467102,
      "eval_loss": 0.12382214214550921,
      "eval_runtime": 173.6766,
      "eval_samples_per_second": 23.031,
      "eval_steps_per_second": 1.439,
      "step": 670
    },
    {
      "epoch": 0.068,
      "grad_norm": 0.0648268312215805,
      "learning_rate": 1.2728552323560239e-05,
      "loss": 0.1227,
      "step": 680
    },
    {
      "epoch": 0.068,
      "eval_cos_sim": 0.8769506216049194,
      "eval_loss": 0.12402295615422199,
      "eval_runtime": 171.7424,
      "eval_samples_per_second": 23.291,
      "eval_steps_per_second": 1.456,
      "step": 680
    },
    {
      "epoch": 0.069,
      "grad_norm": 0.08475865423679352,
      "learning_rate": 2.2368956200634283e-06,
      "loss": 0.1274,
      "step": 690
    },
    {
      "epoch": 0.069,
      "eval_cos_sim": 0.8771329522132874,
      "eval_loss": 0.12383969738232563,
      "eval_runtime": 174.2776,
      "eval_samples_per_second": 22.952,
      "eval_steps_per_second": 1.434,
      "step": 690
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.06382860988378525,
      "learning_rate": 4.947535513144286e-05,
      "loss": 0.122,
      "step": 700
    },
    {
      "epoch": 0.07,
      "eval_cos_sim": 0.8775114417076111,
      "eval_loss": 0.12346241619336079,
      "eval_runtime": 185.1334,
      "eval_samples_per_second": 21.606,
      "eval_steps_per_second": 1.35,
      "step": 700
    },
    {
      "epoch": 0.071,
      "grad_norm": 0.07273228466510773,
      "learning_rate": 4.174780914294635e-05,
      "loss": 0.1228,
      "step": 710
    },
    {
      "epoch": 0.071,
      "eval_cos_sim": 0.8777372241020203,
      "eval_loss": 0.12323929693448019,
      "eval_runtime": 170.2151,
      "eval_samples_per_second": 23.5,
      "eval_steps_per_second": 1.469,
      "step": 710
    },
    {
      "epoch": 0.072,
      "grad_norm": 0.08377543836832047,
      "learning_rate": 2.756087111291529e-05,
      "loss": 0.1209,
      "step": 720
    },
    {
      "epoch": 0.072,
      "eval_cos_sim": 0.8776744604110718,
      "eval_loss": 0.12329552843319844,
      "eval_runtime": 173.1907,
      "eval_samples_per_second": 23.096,
      "eval_steps_per_second": 1.443,
      "step": 720
    },
    {
      "epoch": 0.073,
      "grad_norm": 0.08579932153224945,
      "learning_rate": 1.2386241478270527e-05,
      "loss": 0.1234,
      "step": 730
    },
    {
      "epoch": 0.073,
      "eval_cos_sim": 0.8776343464851379,
      "eval_loss": 0.12333650018917988,
      "eval_runtime": 172.2784,
      "eval_samples_per_second": 23.218,
      "eval_steps_per_second": 1.451,
      "step": 730
    },
    {
      "epoch": 0.074,
      "grad_norm": 0.07494545727968216,
      "learning_rate": 2.0765592951802664e-06,
      "loss": 0.1209,
      "step": 740
    },
    {
      "epoch": 0.074,
      "eval_cos_sim": 0.8777279853820801,
      "eval_loss": 0.12324421884762715,
      "eval_runtime": 172.9417,
      "eval_samples_per_second": 23.129,
      "eval_steps_per_second": 1.446,
      "step": 740
    },
    {
      "epoch": 0.075,
      "grad_norm": 0.07511463761329651,
      "learning_rate": 4.9391877493394335e-05,
      "loss": 0.1222,
      "step": 750
    },
    {
      "epoch": 0.075,
      "eval_cos_sim": 0.8777404427528381,
      "eval_loss": 0.12323040797459553,
      "eval_runtime": 173.813,
      "eval_samples_per_second": 23.013,
      "eval_steps_per_second": 1.438,
      "step": 750
    },
    {
      "epoch": 0.076,
      "grad_norm": 0.08240217715501785,
      "learning_rate": 4.1452713680951016e-05,
      "loss": 0.1237,
      "step": 760
    },
    {
      "epoch": 0.076,
      "eval_cos_sim": 0.8776569366455078,
      "eval_loss": 0.1233164258216567,
      "eval_runtime": 173.6453,
      "eval_samples_per_second": 23.035,
      "eval_steps_per_second": 1.44,
      "step": 760
    },
    {
      "epoch": 0.077,
      "grad_norm": 0.07817904651165009,
      "learning_rate": 2.716797195408887e-05,
      "loss": 0.1215,
      "step": 770
    },
    {
      "epoch": 0.077,
      "eval_cos_sim": 0.8779506683349609,
      "eval_loss": 0.12303087331997822,
      "eval_runtime": 198.4978,
      "eval_samples_per_second": 20.151,
      "eval_steps_per_second": 1.259,
      "step": 770
    },
    {
      "epoch": 0.078,
      "grad_norm": 0.06472489982843399,
      "learning_rate": 1.2047074246048157e-05,
      "loss": 0.1222,
      "step": 780
    },
    {
      "epoch": 0.078,
      "eval_cos_sim": 0.8780341148376465,
      "eval_loss": 0.12294723345982503,
      "eval_runtime": 187.0246,
      "eval_samples_per_second": 21.388,
      "eval_steps_per_second": 1.337,
      "step": 780
    },
    {
      "epoch": 0.079,
      "grad_norm": 0.06511878967285156,
      "learning_rate": 1.921935972303521e-06,
      "loss": 0.1211,
      "step": 790
    },
    {
      "epoch": 0.079,
      "eval_cos_sim": 0.8780234456062317,
      "eval_loss": 0.1229577579711623,
      "eval_runtime": 170.8199,
      "eval_samples_per_second": 23.416,
      "eval_steps_per_second": 1.464,
      "step": 790
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.08275925368070602,
      "learning_rate": 4.9302320888106454e-05,
      "loss": 0.1234,
      "step": 800
    },
    {
      "epoch": 0.08,
      "eval_cos_sim": 0.8778801560401917,
      "eval_loss": 0.1230986237739272,
      "eval_runtime": 175.6448,
      "eval_samples_per_second": 22.773,
      "eval_steps_per_second": 1.423,
      "step": 800
    },
    {
      "epoch": 0.081,
      "grad_norm": 0.06466321647167206,
      "learning_rate": 4.115351785778022e-05,
      "loss": 0.1215,
      "step": 810
    },
    {
      "epoch": 0.081,
      "eval_cos_sim": 0.877547025680542,
      "eval_loss": 0.12342484547841023,
      "eval_runtime": 173.845,
      "eval_samples_per_second": 23.009,
      "eval_steps_per_second": 1.438,
      "step": 810
    },
    {
      "epoch": 0.082,
      "grad_norm": 0.060175709426403046,
      "learning_rate": 2.6774532491200373e-05,
      "loss": 0.1237,
      "step": 820
    },
    {
      "epoch": 0.082,
      "eval_cos_sim": 0.8778981566429138,
      "eval_loss": 0.1230772545551009,
      "eval_runtime": 174.1784,
      "eval_samples_per_second": 22.965,
      "eval_steps_per_second": 1.435,
      "step": 820
    },
    {
      "epoch": 0.083,
      "grad_norm": 0.06948266923427582,
      "learning_rate": 1.1711135154477437e-05,
      "loss": 0.1213,
      "step": 830
    },
    {
      "epoch": 0.083,
      "eval_cos_sim": 0.8779332041740417,
      "eval_loss": 0.12304716589199971,
      "eval_runtime": 171.7677,
      "eval_samples_per_second": 23.287,
      "eval_steps_per_second": 1.455,
      "step": 830
    },
    {
      "epoch": 0.084,
      "grad_norm": 0.0633857399225235,
      "learning_rate": 1.7730641868067276e-06,
      "loss": 0.1212,
      "step": 840
    },
    {
      "epoch": 0.084,
      "eval_cos_sim": 0.8779239058494568,
      "eval_loss": 0.12305730154263447,
      "eval_runtime": 172.6941,
      "eval_samples_per_second": 23.162,
      "eval_steps_per_second": 1.448,
      "step": 840
    },
    {
      "epoch": 0.085,
      "grad_norm": 0.07013432681560516,
      "learning_rate": 4.9206707634962714e-05,
      "loss": 0.1219,
      "step": 850
    },
    {
      "epoch": 0.085,
      "eval_cos_sim": 0.8781536221504211,
      "eval_loss": 0.12283129765736531,
      "eval_runtime": 178.3382,
      "eval_samples_per_second": 22.429,
      "eval_steps_per_second": 1.402,
      "step": 850
    },
    {
      "epoch": 0.086,
      "grad_norm": 0.0714387595653534,
      "learning_rate": 4.085029623930606e-05,
      "loss": 0.1214,
      "step": 860
    },
    {
      "epoch": 0.086,
      "eval_cos_sim": 0.8783000111579895,
      "eval_loss": 0.12268445636975239,
      "eval_runtime": 180.4291,
      "eval_samples_per_second": 22.169,
      "eval_steps_per_second": 1.386,
      "step": 860
    },
    {
      "epoch": 0.087,
      "grad_norm": 0.07285313308238983,
      "learning_rate": 2.638065077761282e-05,
      "loss": 0.1211,
      "step": 870
    },
    {
      "epoch": 0.087,
      "eval_cos_sim": 0.8782742619514465,
      "eval_loss": 0.12271090867268514,
      "eval_runtime": 174.6757,
      "eval_samples_per_second": 22.9,
      "eval_steps_per_second": 1.431,
      "step": 870
    },
    {
      "epoch": 0.088,
      "grad_norm": 0.1114286258816719,
      "learning_rate": 1.1378507926623341e-05,
      "loss": 0.1203,
      "step": 880
    },
    {
      "epoch": 0.088,
      "eval_cos_sim": 0.8782421946525574,
      "eval_loss": 0.12274044944989156,
      "eval_runtime": 173.5126,
      "eval_samples_per_second": 23.053,
      "eval_steps_per_second": 1.441,
      "step": 880
    },
    {
      "epoch": 0.089,
      "grad_norm": 0.07392691820859909,
      "learning_rate": 1.6299810406600836e-06,
      "loss": 0.1222,
      "step": 890
    },
    {
      "epoch": 0.089,
      "eval_cos_sim": 0.8782600164413452,
      "eval_loss": 0.12272232272374105,
      "eval_runtime": 173.9745,
      "eval_samples_per_second": 22.992,
      "eval_steps_per_second": 1.437,
      "step": 890
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.1509944051504135,
      "learning_rate": 4.9105061562790325e-05,
      "loss": 0.1211,
      "step": 900
    },
    {
      "epoch": 0.09,
      "eval_cos_sim": 0.8785330653190613,
      "eval_loss": 0.12244940116154622,
      "eval_runtime": 174.6529,
      "eval_samples_per_second": 22.903,
      "eval_steps_per_second": 1.431,
      "step": 900
    },
    {
      "epoch": 0.091,
      "grad_norm": 0.07572964578866959,
      "learning_rate": 4.0543124394712475e-05,
      "loss": 0.1234,
      "step": 910
    },
    {
      "epoch": 0.091,
      "eval_cos_sim": 0.8782286643981934,
      "eval_loss": 0.1227607171748824,
      "eval_runtime": 174.4786,
      "eval_samples_per_second": 22.925,
      "eval_steps_per_second": 1.433,
      "step": 910
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.07199128717184067,
      "learning_rate": 2.5986424976906166e-05,
      "loss": 0.1202,
      "step": 920
    },
    {
      "epoch": 0.092,
      "eval_cos_sim": 0.8780964612960815,
      "eval_loss": 0.12288942649113606,
      "eval_runtime": 175.9134,
      "eval_samples_per_second": 22.738,
      "eval_steps_per_second": 1.421,
      "step": 920
    },
    {
      "epoch": 0.093,
      "grad_norm": 0.07497607171535492,
      "learning_rate": 1.1049275460163872e-05,
      "loss": 0.123,
      "step": 930
    },
    {
      "epoch": 0.093,
      "eval_cos_sim": 0.8781337141990662,
      "eval_loss": 0.12284465791928242,
      "eval_runtime": 174.1009,
      "eval_samples_per_second": 22.975,
      "eval_steps_per_second": 1.436,
      "step": 930
    },
    {
      "epoch": 0.094,
      "grad_norm": 0.056581463664770126,
      "learning_rate": 1.4927221931830576e-06,
      "loss": 0.1218,
      "step": 940
    },
    {
      "epoch": 0.094,
      "eval_cos_sim": 0.8781940340995789,
      "eval_loss": 0.12278383018719624,
      "eval_runtime": 180.3511,
      "eval_samples_per_second": 22.179,
      "eval_steps_per_second": 1.386,
      "step": 940
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.06227719038724899,
      "learning_rate": 4.8997408003921384e-05,
      "loss": 0.1216,
      "step": 950
    },
    {
      "epoch": 0.095,
      "eval_cos_sim": 0.8782709836959839,
      "eval_loss": 0.12271020819889973,
      "eval_runtime": 174.3195,
      "eval_samples_per_second": 22.946,
      "eval_steps_per_second": 1.434,
      "step": 950
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.07964574545621872,
      "learning_rate": 4.02320788776628e-05,
      "loss": 0.1205,
      "step": 960
    },
    {
      "epoch": 0.096,
      "eval_cos_sim": 0.8782918453216553,
      "eval_loss": 0.12269965698468159,
      "eval_runtime": 171.8922,
      "eval_samples_per_second": 23.27,
      "eval_steps_per_second": 1.454,
      "step": 960
    },
    {
      "epoch": 0.097,
      "grad_norm": 0.059999242424964905,
      "learning_rate": 2.559195333841573e-05,
      "loss": 0.1224,
      "step": 970
    },
    {
      "epoch": 0.097,
      "eval_cos_sim": 0.8782675862312317,
      "eval_loss": 0.12272447182881306,
      "eval_runtime": 178.4336,
      "eval_samples_per_second": 22.417,
      "eval_steps_per_second": 1.401,
      "step": 970
    },
    {
      "epoch": 0.098,
      "grad_norm": 0.07078584283590317,
      "learning_rate": 1.0723519806732741e-05,
      "loss": 0.1226,
      "step": 980
    },
    {
      "epoch": 0.098,
      "eval_cos_sim": 0.8782561421394348,
      "eval_loss": 0.12273399831997822,
      "eval_runtime": 172.0171,
      "eval_samples_per_second": 23.254,
      "eval_steps_per_second": 1.453,
      "step": 980
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.0700722336769104,
      "learning_rate": 1.3613218521583647e-06,
      "loss": 0.1189,
      "step": 990
    },
    {
      "epoch": 0.099,
      "eval_cos_sim": 0.8782747387886047,
      "eval_loss": 0.1227147035812087,
      "eval_runtime": 174.8389,
      "eval_samples_per_second": 22.878,
      "eval_steps_per_second": 1.43,
      "step": 990
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.06270556151866913,
      "learning_rate": 4.888377378787991e-05,
      "loss": 0.1209,
      "step": 1000
    },
    {
      "epoch": 0.1,
      "eval_cos_sim": 0.8783043622970581,
      "eval_loss": 0.12268760301815938,
      "eval_runtime": 171.6574,
      "eval_samples_per_second": 23.302,
      "eval_steps_per_second": 1.456,
      "step": 1000
    },
    {
      "epoch": 0.101,
      "grad_norm": 0.059303585439920425,
      "learning_rate": 3.9917237207221514e-05,
      "loss": 0.1206,
      "step": 1010
    },
    {
      "epoch": 0.101,
      "eval_cos_sim": 0.8785374760627747,
      "eval_loss": 0.12245997311818074,
      "eval_runtime": 173.2279,
      "eval_samples_per_second": 23.091,
      "eval_steps_per_second": 1.443,
      "step": 1010
    },
    {
      "epoch": 0.102,
      "grad_norm": 0.06463504582643509,
      "learning_rate": 2.519733417274297e-05,
      "loss": 0.122,
      "step": 1020
    },
    {
      "epoch": 0.102,
      "eval_cos_sim": 0.8785625100135803,
      "eval_loss": 0.12243694259869527,
      "eval_runtime": 179.8429,
      "eval_samples_per_second": 22.242,
      "eval_steps_per_second": 1.39,
      "step": 1020
    },
    {
      "epoch": 0.103,
      "grad_norm": 0.06594408303499222,
      "learning_rate": 1.0401322151467458e-05,
      "loss": 0.1226,
      "step": 1030
    },
    {
      "epoch": 0.103,
      "eval_cos_sim": 0.8784922361373901,
      "eval_loss": 0.1225029034827895,
      "eval_runtime": 171.8585,
      "eval_samples_per_second": 23.275,
      "eval_steps_per_second": 1.455,
      "step": 1030
    },
    {
      "epoch": 0.104,
      "grad_norm": 0.061140164732933044,
      "learning_rate": 1.2358127653053858e-06,
      "loss": 0.122,
      "step": 1040
    },
    {
      "epoch": 0.104,
      "eval_cos_sim": 0.8785346746444702,
      "eval_loss": 0.12245874931561421,
      "eval_runtime": 170.3116,
      "eval_samples_per_second": 23.486,
      "eval_steps_per_second": 1.468,
      "step": 1040
    },
    {
      "epoch": 0.105,
      "grad_norm": 0.06770511716604233,
      "learning_rate": 4.876418723469453e-05,
      "loss": 0.1196,
      "step": 1050
    },
    {
      "epoch": 0.105,
      "eval_cos_sim": 0.878551721572876,
      "eval_loss": 0.12243552591549825,
      "eval_runtime": 173.9331,
      "eval_samples_per_second": 22.997,
      "eval_steps_per_second": 1.437,
      "step": 1050
    },
    {
      "epoch": 0.106,
      "grad_norm": 0.06050929054617882,
      "learning_rate": 3.959867784853255e-05,
      "loss": 0.1219,
      "step": 1060
    },
    {
      "epoch": 0.106,
      "eval_cos_sim": 0.8784484267234802,
      "eval_loss": 0.12253486802327107,
      "eval_runtime": 175.2374,
      "eval_samples_per_second": 22.826,
      "eval_steps_per_second": 1.427,
      "step": 1060
    },
    {
      "epoch": 0.107,
      "grad_norm": 0.07329047471284866,
      "learning_rate": 2.4802665827257035e-05,
      "loss": 0.1214,
      "step": 1070
    },
    {
      "epoch": 0.107,
      "eval_cos_sim": 0.8785268068313599,
      "eval_loss": 0.12246101453053426,
      "eval_runtime": 172.381,
      "eval_samples_per_second": 23.204,
      "eval_steps_per_second": 1.45,
      "step": 1070
    },
    {
      "epoch": 0.108,
      "grad_norm": 0.061687979847192764,
      "learning_rate": 1.0082762792778497e-05,
      "loss": 0.1206,
      "step": 1080
    },
    {
      "epoch": 0.108,
      "eval_cos_sim": 0.8787024617195129,
      "eval_loss": 0.12228504302250813,
      "eval_runtime": 171.0068,
      "eval_samples_per_second": 23.391,
      "eval_steps_per_second": 1.462,
      "step": 1080
    },
    {
      "epoch": 0.109,
      "grad_norm": 0.06697102636098862,
      "learning_rate": 1.1162262121200917e-06,
      "loss": 0.1216,
      "step": 1090
    },
    {
      "epoch": 0.109,
      "eval_cos_sim": 0.8787557482719421,
      "eval_loss": 0.12223189308392476,
      "eval_runtime": 172.5647,
      "eval_samples_per_second": 23.18,
      "eval_steps_per_second": 1.449,
      "step": 1090
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.06245901808142662,
      "learning_rate": 4.8638678147841726e-05,
      "loss": 0.1224,
      "step": 1100
    },
    {
      "epoch": 0.11,
      "eval_cos_sim": 0.878864049911499,
      "eval_loss": 0.12212434603917073,
      "eval_runtime": 177.5612,
      "eval_samples_per_second": 22.527,
      "eval_steps_per_second": 1.408,
      "step": 1100
    },
    {
      "epoch": 0.111,
      "grad_norm": 0.07445187121629715,
      "learning_rate": 3.9276480193267495e-05,
      "loss": 0.1226,
      "step": 1110
    },
    {
      "epoch": 0.111,
      "eval_cos_sim": 0.8787615895271301,
      "eval_loss": 0.12223191478001545,
      "eval_runtime": 170.2386,
      "eval_samples_per_second": 23.496,
      "eval_steps_per_second": 1.469,
      "step": 1110
    },
    {
      "epoch": 0.112,
      "grad_norm": 0.06328488141298294,
      "learning_rate": 2.4408046661584553e-05,
      "loss": 0.1205,
      "step": 1120
    },
    {
      "epoch": 0.112,
      "eval_cos_sim": 0.8786949515342712,
      "eval_loss": 0.12229911091076802,
      "eval_runtime": 173.6977,
      "eval_samples_per_second": 23.029,
      "eval_steps_per_second": 1.439,
      "step": 1120
    },
    {
      "epoch": 0.113,
      "grad_norm": 0.1140422523021698,
      "learning_rate": 9.767921122337203e-06,
      "loss": 0.1213,
      "step": 1130
    },
    {
      "epoch": 0.113,
      "eval_cos_sim": 0.8787314295768738,
      "eval_loss": 0.12225894191014242,
      "eval_runtime": 176.5254,
      "eval_samples_per_second": 22.66,
      "eval_steps_per_second": 1.416,
      "step": 1130
    },
    {
      "epoch": 0.114,
      "grad_norm": 0.07940120995044708,
      "learning_rate": 1.0025919960786169e-06,
      "loss": 0.1216,
      "step": 1140
    },
    {
      "epoch": 0.114,
      "eval_cos_sim": 0.878764271736145,
      "eval_loss": 0.12222567083584737,
      "eval_runtime": 173.6241,
      "eval_samples_per_second": 23.038,
      "eval_steps_per_second": 1.44,
      "step": 1140
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.06326926499605179,
      "learning_rate": 4.850727780681685e-05,
      "loss": 0.121,
      "step": 1150
    },
    {
      "epoch": 0.115,
      "eval_cos_sim": 0.8787913918495178,
      "eval_loss": 0.1222020423625655,
      "eval_runtime": 197.6043,
      "eval_samples_per_second": 20.242,
      "eval_steps_per_second": 1.265,
      "step": 1150
    },
    {
      "epoch": 0.116,
      "grad_norm": 0.06304363161325455,
      "learning_rate": 3.89507245398359e-05,
      "loss": 0.1212,
      "step": 1160
    },
    {
      "epoch": 0.116,
      "eval_cos_sim": 0.8788431286811829,
      "eval_loss": 0.1221448552821822,
      "eval_runtime": 180.7769,
      "eval_samples_per_second": 22.127,
      "eval_steps_per_second": 1.383,
      "step": 1160
    },
    {
      "epoch": 0.117,
      "grad_norm": 0.06048878654837608,
      "learning_rate": 2.4013575023093562e-05,
      "loss": 0.121,
      "step": 1170
    },
    {
      "epoch": 0.117,
      "eval_cos_sim": 0.8789100050926208,
      "eval_loss": 0.12207724287259053,
      "eval_runtime": 175.5012,
      "eval_samples_per_second": 22.792,
      "eval_steps_per_second": 1.424,
      "step": 1170
    },
    {
      "epoch": 0.118,
      "grad_norm": 0.060076240450143814,
      "learning_rate": 9.456875605287529e-06,
      "loss": 0.1208,
      "step": 1180
    },
    {
      "epoch": 0.118,
      "eval_cos_sim": 0.8789265751838684,
      "eval_loss": 0.12206284239041279,
      "eval_runtime": 179.6264,
      "eval_samples_per_second": 22.268,
      "eval_steps_per_second": 1.392,
      "step": 1180
    },
    {
      "epoch": 0.119,
      "grad_norm": 0.06535797566175461,
      "learning_rate": 8.949384372096747e-07,
      "loss": 0.1224,
      "step": 1190
    },
    {
      "epoch": 0.119,
      "eval_cos_sim": 0.8789151310920715,
      "eval_loss": 0.12207536175000142,
      "eval_runtime": 173.573,
      "eval_samples_per_second": 23.045,
      "eval_steps_per_second": 1.44,
      "step": 1190
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.051111843436956406,
      "learning_rate": 4.8370018959339916e-05,
      "loss": 0.1216,
      "step": 1200
    },
    {
      "epoch": 0.12,
      "eval_cos_sim": 0.878704845905304,
      "eval_loss": 0.1222877917503066,
      "eval_runtime": 170.7747,
      "eval_samples_per_second": 23.423,
      "eval_steps_per_second": 1.464,
      "step": 1200
    },
    {
      "epoch": 0.121,
      "grad_norm": 0.07394807785749435,
      "learning_rate": 3.862149207337666e-05,
      "loss": 0.1227,
      "step": 1210
    },
    {
      "epoch": 0.121,
      "eval_cos_sim": 0.8786987662315369,
      "eval_loss": 0.12228692223774862,
      "eval_runtime": 172.7735,
      "eval_samples_per_second": 23.152,
      "eval_steps_per_second": 1.447,
      "step": 1210
    },
    {
      "epoch": 0.122,
      "grad_norm": 0.06019896641373634,
      "learning_rate": 2.3619349222387182e-05,
      "loss": 0.1194,
      "step": 1220
    },
    {
      "epoch": 0.122,
      "eval_cos_sim": 0.8791972398757935,
      "eval_loss": 0.12178870942341757,
      "eval_runtime": 171.5715,
      "eval_samples_per_second": 23.314,
      "eval_steps_per_second": 1.457,
      "step": 1220
    },
    {
      "epoch": 0.123,
      "grad_norm": 0.05350535735487938,
      "learning_rate": 9.149703760694162e-06,
      "loss": 0.1214,
      "step": 1230
    },
    {
      "epoch": 0.123,
      "eval_cos_sim": 0.8792542219161987,
      "eval_loss": 0.12173621847378684,
      "eval_runtime": 173.1804,
      "eval_samples_per_second": 23.097,
      "eval_steps_per_second": 1.444,
      "step": 1230
    },
    {
      "epoch": 0.124,
      "grad_norm": 0.06338366866111755,
      "learning_rate": 7.932923650373624e-07,
      "loss": 0.1194,
      "step": 1240
    },
    {
      "epoch": 0.124,
      "eval_cos_sim": 0.8792427182197571,
      "eval_loss": 0.12174849869954062,
      "eval_runtime": 172.0716,
      "eval_samples_per_second": 23.246,
      "eval_steps_per_second": 1.453,
      "step": 1240
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.052142199128866196,
      "learning_rate": 4.822693581319333e-05,
      "loss": 0.12,
      "step": 1250
    },
    {
      "epoch": 0.125,
      "eval_cos_sim": 0.8787649869918823,
      "eval_loss": 0.1222243664478011,
      "eval_runtime": 172.6696,
      "eval_samples_per_second": 23.166,
      "eval_steps_per_second": 1.448,
      "step": 1250
    },
    {
      "epoch": 0.126,
      "grad_norm": 0.0695052519440651,
      "learning_rate": 3.828886484552269e-05,
      "loss": 0.1213,
      "step": 1260
    },
    {
      "epoch": 0.126,
      "eval_cos_sim": 0.8785125017166138,
      "eval_loss": 0.12247128774868916,
      "eval_runtime": 182.4937,
      "eval_samples_per_second": 21.919,
      "eval_steps_per_second": 1.37,
      "step": 1260
    },
    {
      "epoch": 0.127,
      "grad_norm": 0.07181504368782043,
      "learning_rate": 2.3225467508799494e-05,
      "loss": 0.1216,
      "step": 1270
    },
    {
      "epoch": 0.127,
      "eval_cos_sim": 0.8791427612304688,
      "eval_loss": 0.12184033658253621,
      "eval_runtime": 172.8353,
      "eval_samples_per_second": 23.143,
      "eval_steps_per_second": 1.446,
      "step": 1270
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.06035405769944191,
      "learning_rate": 8.846482142219678e-06,
      "loss": 0.12,
      "step": 1280
    },
    {
      "epoch": 0.128,
      "eval_cos_sim": 0.8793256282806396,
      "eval_loss": 0.121661689779634,
      "eval_runtime": 173.4166,
      "eval_samples_per_second": 23.066,
      "eval_steps_per_second": 1.442,
      "step": 1280
    }
  ],
  "logging_steps": 10,
  "max_steps": 10000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 110,
  "trial_name": null,
  "trial_params": null
}