{
  "best_metric": 0.15673477947711945,
  "best_model_checkpoint": "experiments/SFT-all-MiniLM-L12-v2-WordNetNoun-MixedHop-RandomNegatives/checkpoint-2500",
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 8802,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03408316291751875,
      "grad_norm": 0.3132801949977875,
      "learning_rate": 9.886389456941606e-06,
      "loss": 0.4223,
      "step": 100
    },
    {
      "epoch": 0.0681663258350375,
      "grad_norm": 1.3860148191452026,
      "learning_rate": 9.77277891388321e-06,
      "loss": 0.2764,
      "step": 200
    },
    {
      "epoch": 0.10224948875255624,
      "grad_norm": 1.7058498859405518,
      "learning_rate": 9.659168370824814e-06,
      "loss": 0.1906,
      "step": 300
    },
    {
      "epoch": 0.136332651670075,
      "grad_norm": 1.2867127656936646,
      "learning_rate": 9.545557827766417e-06,
      "loss": 0.159,
      "step": 400
    },
    {
      "epoch": 0.17041581458759372,
      "grad_norm": 1.7491652965545654,
      "learning_rate": 9.431947284708022e-06,
      "loss": 0.1487,
      "step": 500
    },
    {
      "epoch": 0.17041581458759372,
      "eval_loss": 0.16311119496822357,
      "eval_runtime": 135.6265,
      "eval_samples_per_second": 2690.662,
      "eval_steps_per_second": 5.257,
      "step": 500
    },
    {
      "epoch": 0.20449897750511248,
      "grad_norm": 2.1244304180145264,
      "learning_rate": 9.318336741649626e-06,
      "loss": 0.1361,
      "step": 600
    },
    {
      "epoch": 0.23858214042263123,
      "grad_norm": 1.6412886381149292,
      "learning_rate": 9.20472619859123e-06,
      "loss": 0.139,
      "step": 700
    },
    {
      "epoch": 0.27266530334015,
      "grad_norm": 1.912682056427002,
      "learning_rate": 9.091115655532834e-06,
      "loss": 0.1371,
      "step": 800
    },
    {
      "epoch": 0.3067484662576687,
      "grad_norm": 1.6108455657958984,
      "learning_rate": 8.97750511247444e-06,
      "loss": 0.1323,
      "step": 900
    },
    {
      "epoch": 0.34083162917518744,
      "grad_norm": 1.5050699710845947,
      "learning_rate": 8.863894569416042e-06,
      "loss": 0.1286,
      "step": 1000
    },
    {
      "epoch": 0.34083162917518744,
      "eval_loss": 0.17418159544467926,
      "eval_runtime": 137.6524,
      "eval_samples_per_second": 2651.061,
      "eval_steps_per_second": 5.18,
      "step": 1000
    },
    {
      "epoch": 0.37491479209270623,
      "grad_norm": 1.8735222816467285,
      "learning_rate": 8.750284026357647e-06,
      "loss": 0.1291,
      "step": 1100
    },
    {
      "epoch": 0.40899795501022496,
      "grad_norm": 1.3617902994155884,
      "learning_rate": 8.63667348329925e-06,
      "loss": 0.1274,
      "step": 1200
    },
    {
      "epoch": 0.4430811179277437,
      "grad_norm": 1.449449896812439,
      "learning_rate": 8.523062940240855e-06,
      "loss": 0.121,
      "step": 1300
    },
    {
      "epoch": 0.47716428084526247,
      "grad_norm": 1.5432512760162354,
      "learning_rate": 8.40945239718246e-06,
      "loss": 0.1252,
      "step": 1400
    },
    {
      "epoch": 0.5112474437627812,
      "grad_norm": 1.3983290195465088,
      "learning_rate": 8.295841854124063e-06,
      "loss": 0.1211,
      "step": 1500
    },
    {
      "epoch": 0.5112474437627812,
      "eval_loss": 0.16112419962882996,
      "eval_runtime": 133.378,
      "eval_samples_per_second": 2736.022,
      "eval_steps_per_second": 5.346,
      "step": 1500
    },
    {
      "epoch": 0.5453306066803,
      "grad_norm": 1.8421082496643066,
      "learning_rate": 8.182231311065668e-06,
      "loss": 0.1192,
      "step": 1600
    },
    {
      "epoch": 0.5794137695978187,
      "grad_norm": 1.6170974969863892,
      "learning_rate": 8.068620768007271e-06,
      "loss": 0.116,
      "step": 1700
    },
    {
      "epoch": 0.6134969325153374,
      "grad_norm": 1.4847702980041504,
      "learning_rate": 7.955010224948876e-06,
      "loss": 0.1184,
      "step": 1800
    },
    {
      "epoch": 0.6475800954328562,
      "grad_norm": 2.074660301208496,
      "learning_rate": 7.84139968189048e-06,
      "loss": 0.1153,
      "step": 1900
    },
    {
      "epoch": 0.6816632583503749,
      "grad_norm": 1.3638675212860107,
      "learning_rate": 7.727789138832085e-06,
      "loss": 0.1151,
      "step": 2000
    },
    {
      "epoch": 0.6816632583503749,
      "eval_loss": 0.16037538647651672,
      "eval_runtime": 135.7872,
      "eval_samples_per_second": 2687.476,
      "eval_steps_per_second": 5.251,
      "step": 2000
    },
    {
      "epoch": 0.7157464212678937,
      "grad_norm": 2.7780377864837646,
      "learning_rate": 7.614178595773688e-06,
      "loss": 0.1136,
      "step": 2100
    },
    {
      "epoch": 0.7498295841854125,
      "grad_norm": 1.0972269773483276,
      "learning_rate": 7.500568052715293e-06,
      "loss": 0.112,
      "step": 2200
    },
    {
      "epoch": 0.7839127471029311,
      "grad_norm": 1.5648587942123413,
      "learning_rate": 7.386957509656897e-06,
      "loss": 0.1152,
      "step": 2300
    },
    {
      "epoch": 0.8179959100204499,
      "grad_norm": 1.1397899389266968,
      "learning_rate": 7.273346966598501e-06,
      "loss": 0.1122,
      "step": 2400
    },
    {
      "epoch": 0.8520790729379687,
      "grad_norm": 1.6574677228927612,
      "learning_rate": 7.1597364235401045e-06,
      "loss": 0.1116,
      "step": 2500
    },
    {
      "epoch": 0.8520790729379687,
      "eval_loss": 0.15673477947711945,
      "eval_runtime": 140.649,
      "eval_samples_per_second": 2594.58,
      "eval_steps_per_second": 5.069,
      "step": 2500
    },
    {
      "epoch": 0.8861622358554874,
      "grad_norm": 1.6420308351516724,
      "learning_rate": 7.046125880481709e-06,
      "loss": 0.1158,
      "step": 2600
    },
    {
      "epoch": 0.9202453987730062,
      "grad_norm": 1.954850673675537,
      "learning_rate": 6.932515337423313e-06,
      "loss": 0.1139,
      "step": 2700
    },
    {
      "epoch": 0.9543285616905249,
      "grad_norm": 1.0990276336669922,
      "learning_rate": 6.818904794364918e-06,
      "loss": 0.1096,
      "step": 2800
    },
    {
      "epoch": 0.9884117246080436,
      "grad_norm": 1.3278498649597168,
      "learning_rate": 6.705294251306522e-06,
      "loss": 0.1107,
      "step": 2900
    },
    {
      "epoch": 1.0224948875255624,
      "grad_norm": 1.6887524127960205,
      "learning_rate": 6.591683708248125e-06,
      "loss": 0.1016,
      "step": 3000
    },
    {
      "epoch": 1.0224948875255624,
      "eval_loss": 0.1628647744655609,
      "eval_runtime": 139.478,
      "eval_samples_per_second": 2616.362,
      "eval_steps_per_second": 5.112,
      "step": 3000
    },
    {
      "epoch": 1.056578050443081,
      "grad_norm": 1.6014968156814575,
      "learning_rate": 6.47807316518973e-06,
      "loss": 0.1081,
      "step": 3100
    },
    {
      "epoch": 1.0906612133606,
      "grad_norm": 1.05489182472229,
      "learning_rate": 6.364462622131334e-06,
      "loss": 0.1027,
      "step": 3200
    },
    {
      "epoch": 1.1247443762781186,
      "grad_norm": 1.5599446296691895,
      "learning_rate": 6.250852079072939e-06,
      "loss": 0.1013,
      "step": 3300
    },
    {
      "epoch": 1.1588275391956373,
      "grad_norm": 1.6163196563720703,
      "learning_rate": 6.137241536014543e-06,
      "loss": 0.1,
      "step": 3400
    },
    {
      "epoch": 1.1929107021131562,
      "grad_norm": 1.601138710975647,
      "learning_rate": 6.023630992956147e-06,
      "loss": 0.1043,
      "step": 3500
    },
    {
      "epoch": 1.1929107021131562,
      "eval_loss": 0.1665213406085968,
      "eval_runtime": 141.7559,
      "eval_samples_per_second": 2574.319,
      "eval_steps_per_second": 5.03,
      "step": 3500
    },
    {
      "epoch": 1.2269938650306749,
      "grad_norm": 1.882118582725525,
      "learning_rate": 5.910020449897751e-06,
      "loss": 0.0932,
      "step": 3600
    },
    {
      "epoch": 1.2610770279481935,
      "grad_norm": 1.9329348802566528,
      "learning_rate": 5.796409906839356e-06,
      "loss": 0.0998,
      "step": 3700
    },
    {
      "epoch": 1.2951601908657122,
      "grad_norm": 1.7485824823379517,
      "learning_rate": 5.68279936378096e-06,
      "loss": 0.1005,
      "step": 3800
    },
    {
      "epoch": 1.329243353783231,
      "grad_norm": 1.1488587856292725,
      "learning_rate": 5.569188820722563e-06,
      "loss": 0.1039,
      "step": 3900
    },
    {
      "epoch": 1.3633265167007498,
      "grad_norm": 1.6326992511749268,
      "learning_rate": 5.455578277664168e-06,
      "loss": 0.1024,
      "step": 4000
    },
    {
      "epoch": 1.3633265167007498,
      "eval_loss": 0.1776169091463089,
      "eval_runtime": 136.9413,
      "eval_samples_per_second": 2664.827,
      "eval_steps_per_second": 5.207,
      "step": 4000
    },
    {
      "epoch": 1.3974096796182685,
      "grad_norm": 1.085883617401123,
      "learning_rate": 5.341967734605772e-06,
      "loss": 0.103,
      "step": 4100
    },
    {
      "epoch": 1.4314928425357873,
      "grad_norm": 1.6013509035110474,
      "learning_rate": 5.2283571915473764e-06,
      "loss": 0.1003,
      "step": 4200
    },
    {
      "epoch": 1.465576005453306,
      "grad_norm": 1.25858473777771,
      "learning_rate": 5.11474664848898e-06,
      "loss": 0.097,
      "step": 4300
    },
    {
      "epoch": 1.4996591683708247,
      "grad_norm": 1.6914137601852417,
      "learning_rate": 5.001136105430584e-06,
      "loss": 0.097,
      "step": 4400
    },
    {
      "epoch": 1.5337423312883436,
      "grad_norm": 1.6514638662338257,
      "learning_rate": 4.887525562372188e-06,
      "loss": 0.1011,
      "step": 4500
    },
    {
      "epoch": 1.5337423312883436,
      "eval_loss": 0.16166538000106812,
      "eval_runtime": 137.2738,
      "eval_samples_per_second": 2658.374,
      "eval_steps_per_second": 5.194,
      "step": 4500
    },
    {
      "epoch": 1.5678254942058623,
      "grad_norm": 1.554187536239624,
      "learning_rate": 4.773915019313793e-06,
      "loss": 0.105,
      "step": 4600
    },
    {
      "epoch": 1.601908657123381,
      "grad_norm": 1.0056004524230957,
      "learning_rate": 4.660304476255396e-06,
      "loss": 0.1015,
      "step": 4700
    },
    {
      "epoch": 1.6359918200408998,
      "grad_norm": 1.3594541549682617,
      "learning_rate": 4.546693933197001e-06,
      "loss": 0.1025,
      "step": 4800
    },
    {
      "epoch": 1.6700749829584185,
      "grad_norm": 1.210564136505127,
      "learning_rate": 4.433083390138605e-06,
      "loss": 0.0971,
      "step": 4900
    },
    {
      "epoch": 1.7041581458759372,
      "grad_norm": 1.5984232425689697,
      "learning_rate": 4.319472847080209e-06,
      "loss": 0.0994,
      "step": 5000
    },
    {
      "epoch": 1.7041581458759372,
      "eval_loss": 0.16965465247631073,
      "eval_runtime": 136.9881,
      "eval_samples_per_second": 2663.917,
      "eval_steps_per_second": 5.205,
      "step": 5000
    },
    {
      "epoch": 1.738241308793456,
      "grad_norm": 1.4730218648910522,
      "learning_rate": 4.205862304021814e-06,
      "loss": 0.1043,
      "step": 5100
    },
    {
      "epoch": 1.7723244717109747,
      "grad_norm": 1.4520608186721802,
      "learning_rate": 4.092251760963418e-06,
      "loss": 0.0964,
      "step": 5200
    },
    {
      "epoch": 1.8064076346284934,
      "grad_norm": 0.9586948156356812,
      "learning_rate": 3.978641217905022e-06,
      "loss": 0.1076,
      "step": 5300
    },
    {
      "epoch": 1.8404907975460123,
      "grad_norm": 1.1026732921600342,
      "learning_rate": 3.865030674846626e-06,
      "loss": 0.0944,
      "step": 5400
    },
    {
      "epoch": 1.874573960463531,
      "grad_norm": 1.3042621612548828,
      "learning_rate": 3.7514201317882303e-06,
      "loss": 0.0991,
      "step": 5500
    },
    {
      "epoch": 1.874573960463531,
      "eval_loss": 0.17953361570835114,
      "eval_runtime": 135.448,
      "eval_samples_per_second": 2694.207,
      "eval_steps_per_second": 5.264,
      "step": 5500
    },
    {
      "epoch": 1.9086571233810496,
      "grad_norm": 2.037799835205078,
      "learning_rate": 3.6378095887298343e-06,
      "loss": 0.103,
      "step": 5600
    },
    {
      "epoch": 1.9427402862985685,
      "grad_norm": 0.8908063173294067,
      "learning_rate": 3.5241990456714387e-06,
      "loss": 0.1001,
      "step": 5700
    },
    {
      "epoch": 1.9768234492160872,
      "grad_norm": 1.693176031112671,
      "learning_rate": 3.4105885026130427e-06,
      "loss": 0.0999,
      "step": 5800
    },
    {
      "epoch": 2.010906612133606,
      "grad_norm": 1.9925082921981812,
      "learning_rate": 3.296977959554647e-06,
      "loss": 0.0984,
      "step": 5900
    },
    {
      "epoch": 2.044989775051125,
      "grad_norm": 1.3392109870910645,
      "learning_rate": 3.1833674164962515e-06,
      "loss": 0.0947,
      "step": 6000
    },
    {
      "epoch": 2.044989775051125,
      "eval_loss": 0.170347198843956,
      "eval_runtime": 137.8512,
      "eval_samples_per_second": 2647.238,
      "eval_steps_per_second": 5.172,
      "step": 6000
    },
    {
      "epoch": 2.0790729379686437,
      "grad_norm": 1.497381329536438,
      "learning_rate": 3.069756873437855e-06,
      "loss": 0.0962,
      "step": 6100
    },
    {
      "epoch": 2.113156100886162,
      "grad_norm": 0.9153881072998047,
      "learning_rate": 2.95614633037946e-06,
      "loss": 0.0953,
      "step": 6200
    },
    {
      "epoch": 2.147239263803681,
      "grad_norm": 1.077412486076355,
      "learning_rate": 2.8425357873210634e-06,
      "loss": 0.0918,
      "step": 6300
    },
    {
      "epoch": 2.1813224267212,
      "grad_norm": 1.3187857866287231,
      "learning_rate": 2.728925244262668e-06,
      "loss": 0.0894,
      "step": 6400
    },
    {
      "epoch": 2.2154055896387184,
      "grad_norm": 1.6318199634552002,
      "learning_rate": 2.6153147012042718e-06,
      "loss": 0.0928,
      "step": 6500
    },
    {
      "epoch": 2.2154055896387184,
      "eval_loss": 0.17857030034065247,
      "eval_runtime": 134.8345,
      "eval_samples_per_second": 2706.465,
      "eval_steps_per_second": 5.288,
      "step": 6500
    },
    {
      "epoch": 2.2494887525562373,
      "grad_norm": 1.3745598793029785,
      "learning_rate": 2.501704158145876e-06,
      "loss": 0.0909,
      "step": 6600
    },
    {
      "epoch": 2.283571915473756,
      "grad_norm": 1.7317062616348267,
      "learning_rate": 2.38809361508748e-06,
      "loss": 0.0978,
      "step": 6700
    },
    {
      "epoch": 2.3176550783912746,
      "grad_norm": 1.3482944965362549,
      "learning_rate": 2.2744830720290846e-06,
      "loss": 0.0945,
      "step": 6800
    },
    {
      "epoch": 2.3517382413087935,
      "grad_norm": 1.982127070426941,
      "learning_rate": 2.1608725289706885e-06,
      "loss": 0.0943,
      "step": 6900
    },
    {
      "epoch": 2.3858214042263124,
      "grad_norm": 1.0882318019866943,
      "learning_rate": 2.047261985912293e-06,
      "loss": 0.0931,
      "step": 7000
    },
    {
      "epoch": 2.3858214042263124,
      "eval_loss": 0.1807963252067566,
      "eval_runtime": 136.6363,
      "eval_samples_per_second": 2670.777,
      "eval_steps_per_second": 5.218,
      "step": 7000
    },
    {
      "epoch": 2.419904567143831,
      "grad_norm": 1.5541267395019531,
      "learning_rate": 1.933651442853897e-06,
      "loss": 0.0931,
      "step": 7100
    },
    {
      "epoch": 2.4539877300613497,
      "grad_norm": 1.3314629793167114,
      "learning_rate": 1.8200408997955013e-06,
      "loss": 0.0968,
      "step": 7200
    },
    {
      "epoch": 2.4880708929788686,
      "grad_norm": 1.3885324001312256,
      "learning_rate": 1.7064303567371055e-06,
      "loss": 0.0915,
      "step": 7300
    },
    {
      "epoch": 2.522154055896387,
      "grad_norm": 1.093854546546936,
      "learning_rate": 1.5928198136787095e-06,
      "loss": 0.0927,
      "step": 7400
    },
    {
      "epoch": 2.556237218813906,
      "grad_norm": 1.4065414667129517,
      "learning_rate": 1.4792092706203137e-06,
      "loss": 0.0919,
      "step": 7500
    },
    {
      "epoch": 2.556237218813906,
      "eval_loss": 0.1740484982728958,
      "eval_runtime": 137.3804,
      "eval_samples_per_second": 2656.31,
      "eval_steps_per_second": 5.19,
      "step": 7500
    },
    {
      "epoch": 2.5903203817314244,
      "grad_norm": 1.5335302352905273,
      "learning_rate": 1.3655987275619179e-06,
      "loss": 0.0922,
      "step": 7600
    },
    {
      "epoch": 2.6244035446489433,
      "grad_norm": 1.5776997804641724,
      "learning_rate": 1.251988184503522e-06,
      "loss": 0.0938,
      "step": 7700
    },
    {
      "epoch": 2.658486707566462,
      "grad_norm": 1.4402474164962769,
      "learning_rate": 1.138377641445126e-06,
      "loss": 0.0978,
      "step": 7800
    },
    {
      "epoch": 2.6925698704839807,
      "grad_norm": 1.450110912322998,
      "learning_rate": 1.0247670983867305e-06,
      "loss": 0.0916,
      "step": 7900
    },
    {
      "epoch": 2.7266530334014996,
      "grad_norm": 1.5721951723098755,
      "learning_rate": 9.111565553283345e-07,
      "loss": 0.0892,
      "step": 8000
    },
    {
      "epoch": 2.7266530334014996,
      "eval_loss": 0.176322802901268,
      "eval_runtime": 131.8065,
      "eval_samples_per_second": 2768.642,
      "eval_steps_per_second": 5.409,
      "step": 8000
    },
    {
      "epoch": 2.7607361963190185,
      "grad_norm": 1.1707704067230225,
      "learning_rate": 7.975460122699387e-07,
      "loss": 0.0927,
      "step": 8100
    },
    {
      "epoch": 2.794819359236537,
      "grad_norm": 1.1209170818328857,
      "learning_rate": 6.839354692115428e-07,
      "loss": 0.094,
      "step": 8200
    },
    {
      "epoch": 2.828902522154056,
      "grad_norm": 2.1155459880828857,
      "learning_rate": 5.70324926153147e-07,
      "loss": 0.0911,
      "step": 8300
    },
    {
      "epoch": 2.8629856850715747,
      "grad_norm": 1.1937357187271118,
      "learning_rate": 4.5671438309475126e-07,
      "loss": 0.0936,
      "step": 8400
    },
    {
      "epoch": 2.897068847989093,
      "grad_norm": 2.0643107891082764,
      "learning_rate": 3.431038400363554e-07,
      "loss": 0.0892,
      "step": 8500
    },
    {
      "epoch": 2.897068847989093,
      "eval_loss": 0.17550139129161835,
      "eval_runtime": 133.7198,
      "eval_samples_per_second": 2729.028,
      "eval_steps_per_second": 5.332,
      "step": 8500
    },
    {
      "epoch": 2.931152010906612,
      "grad_norm": 1.0680649280548096,
      "learning_rate": 2.2949329697795956e-07,
      "loss": 0.0926,
      "step": 8600
    },
    {
      "epoch": 2.965235173824131,
      "grad_norm": 1.1272894144058228,
      "learning_rate": 1.1588275391956375e-07,
      "loss": 0.0963,
      "step": 8700
    },
    {
      "epoch": 2.9993183367416494,
      "grad_norm": 1.5708293914794922,
      "learning_rate": 2.2722108611679166e-09,
      "loss": 0.0891,
      "step": 8800
    }
  ],
  "logging_steps": 100,
  "max_steps": 8802,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4490386148766588.0,
  "train_batch_size": 256,
  "trial_name": null,
  "trial_params": null
}