trainer_state.json · Omartificial-Intelligence-Space/AraEuroBert-610M at main

Omartificial-Intelligence-Space's picture

upload 16 files

8567b6f verified about 1 year ago

69.2 kB

	{
	"best_metric": 0.8299749701259963,
	"best_model_checkpoint": "output/marbert_simce_EuroBERT-EuroBERT-610M_16_bs_1_e/checkpoint-25000",
	"epoch": 0.8139208532135841,
	"eval_steps": 500,
	"global_step": 29000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.005613247263541959,
	"grad_norm": 98309536.0,
	"learning_rate": 2.8066236317709794e-06,
	"loss": 7.8472,
	"step": 200
	},
	{
	"epoch": 0.011226494527083918,
	"grad_norm": 18181398.0,
	"learning_rate": 5.613247263541959e-06,
	"loss": 1.8133,
	"step": 400
	},
	{
	"epoch": 0.014033118158854897,
	"eval_loss": 4.332894802093506,
	"eval_runtime": 80.7749,
	"eval_samples_per_second": 81.82,
	"eval_sequential_score": 0.8033767514947983,
	"eval_steps_per_second": 1.288,
	"eval_sts-dev-1152_pearson_cosine": 0.8060511562516744,
	"eval_sts-dev-1152_spearman_cosine": 0.8033767514947983,
	"eval_sts-dev-512_pearson_cosine": 0.8032161700580676,
	"eval_sts-dev-512_spearman_cosine": 0.8009572819138866,
	"eval_sts-dev-768_pearson_cosine": 0.8037436235908193,
	"eval_sts-dev-768_spearman_cosine": 0.8010140475354219,
	"eval_sts-dev-960_pearson_cosine": 0.8052857547543548,
	"eval_sts-dev-960_spearman_cosine": 0.8024252040181402,
	"step": 500
	},
	{
	"epoch": 0.016839741790625876,
	"grad_norm": 4002785.75,
	"learning_rate": 8.41987089531294e-06,
	"loss": 1.2257,
	"step": 600
	},
	{
	"epoch": 0.022452989054167836,
	"grad_norm": 14975067.0,
	"learning_rate": 1.1226494527083917e-05,
	"loss": 1.0662,
	"step": 800
	},
	{
	"epoch": 0.028066236317709794,
	"grad_norm": 8259098.0,
	"learning_rate": 1.4033118158854899e-05,
	"loss": 1.0452,
	"step": 1000
	},
	{
	"epoch": 0.028066236317709794,
	"eval_loss": 4.0553975105285645,
	"eval_runtime": 83.8854,
	"eval_samples_per_second": 78.786,
	"eval_sequential_score": 0.8152056130630069,
	"eval_steps_per_second": 1.24,
	"eval_sts-dev-1152_pearson_cosine": 0.8162027650076662,
	"eval_sts-dev-1152_spearman_cosine": 0.8152056130630069,
	"eval_sts-dev-512_pearson_cosine": 0.8109347704147131,
	"eval_sts-dev-512_spearman_cosine": 0.811300104502657,
	"eval_sts-dev-768_pearson_cosine": 0.8133183334539484,
	"eval_sts-dev-768_spearman_cosine": 0.8130045482521145,
	"eval_sts-dev-960_pearson_cosine": 0.8156636692837823,
	"eval_sts-dev-960_spearman_cosine": 0.814950405147375,
	"step": 1000
	},
	{
	"epoch": 0.03367948358125175,
	"grad_norm": 4874028.5,
	"learning_rate": 1.683974179062588e-05,
	"loss": 1.0306,
	"step": 1200
	},
	{
	"epoch": 0.03929273084479371,
	"grad_norm": 4182119.25,
	"learning_rate": 1.9646365422396855e-05,
	"loss": 1.0223,
	"step": 1400
	},
	{
	"epoch": 0.042099354476564696,
	"eval_loss": 4.015018939971924,
	"eval_runtime": 84.6437,
	"eval_samples_per_second": 78.08,
	"eval_sequential_score": 0.7963919935425935,
	"eval_steps_per_second": 1.229,
	"eval_sts-dev-1152_pearson_cosine": 0.7984721704385993,
	"eval_sts-dev-1152_spearman_cosine": 0.7963919935425935,
	"eval_sts-dev-512_pearson_cosine": 0.7945396929823907,
	"eval_sts-dev-512_spearman_cosine": 0.7938897942194647,
	"eval_sts-dev-768_pearson_cosine": 0.796786289376193,
	"eval_sts-dev-768_spearman_cosine": 0.7957412002954445,
	"eval_sts-dev-960_pearson_cosine": 0.7984310473849502,
	"eval_sts-dev-960_spearman_cosine": 0.7964965649245895,
	"step": 1500
	},
	{
	"epoch": 0.04490597810833567,
	"grad_norm": 4491974.5,
	"learning_rate": 2.2452989054167835e-05,
	"loss": 0.9923,
	"step": 1600
	},
	{
	"epoch": 0.050519225371877634,
	"grad_norm": 2410247.5,
	"learning_rate": 2.5259612685938815e-05,
	"loss": 1.007,
	"step": 1800
	},
	{
	"epoch": 0.05613247263541959,
	"grad_norm": 3212723.25,
	"learning_rate": 2.8066236317709798e-05,
	"loss": 0.9898,
	"step": 2000
	},
	{
	"epoch": 0.05613247263541959,
	"eval_loss": 4.562768459320068,
	"eval_runtime": 84.3142,
	"eval_samples_per_second": 78.385,
	"eval_sequential_score": 0.7838450146591204,
	"eval_steps_per_second": 1.233,
	"eval_sts-dev-1152_pearson_cosine": 0.7765908851768635,
	"eval_sts-dev-1152_spearman_cosine": 0.7838450146591204,
	"eval_sts-dev-512_pearson_cosine": 0.7672097671946088,
	"eval_sts-dev-512_spearman_cosine": 0.7778618805232163,
	"eval_sts-dev-768_pearson_cosine": 0.7696489245819802,
	"eval_sts-dev-768_spearman_cosine": 0.7793358424223233,
	"eval_sts-dev-960_pearson_cosine": 0.7741670009813553,
	"eval_sts-dev-960_spearman_cosine": 0.7829158933416259,
	"step": 2000
	},
	{
	"epoch": 0.06174571989896155,
	"grad_norm": 1835005.25,
	"learning_rate": 3.087285994948078e-05,
	"loss": 1.033,
	"step": 2200
	},
	{
	"epoch": 0.0673589671625035,
	"grad_norm": 2749047.0,
	"learning_rate": 3.367948358125176e-05,
	"loss": 1.0091,
	"step": 2400
	},
	{
	"epoch": 0.0701655907942745,
	"eval_loss": 4.613296985626221,
	"eval_runtime": 81.7193,
	"eval_samples_per_second": 80.874,
	"eval_sequential_score": 0.7854737360223817,
	"eval_steps_per_second": 1.273,
	"eval_sts-dev-1152_pearson_cosine": 0.7821361682028354,
	"eval_sts-dev-1152_spearman_cosine": 0.7854737360223817,
	"eval_sts-dev-512_pearson_cosine": 0.7723481989731885,
	"eval_sts-dev-512_spearman_cosine": 0.7767002410536074,
	"eval_sts-dev-768_pearson_cosine": 0.7752960500176977,
	"eval_sts-dev-768_spearman_cosine": 0.7801463868858681,
	"eval_sts-dev-960_pearson_cosine": 0.779209273182729,
	"eval_sts-dev-960_spearman_cosine": 0.7833584025542436,
	"step": 2500
	},
	{
	"epoch": 0.07297221442604547,
	"grad_norm": 2484525.5,
	"learning_rate": 3.648610721302274e-05,
	"loss": 1.046,
	"step": 2600
	},
	{
	"epoch": 0.07858546168958742,
	"grad_norm": 2774297.5,
	"learning_rate": 3.929273084479371e-05,
	"loss": 1.0212,
	"step": 2800
	},
	{
	"epoch": 0.08419870895312939,
	"grad_norm": 3957846.75,
	"learning_rate": 4.20993544765647e-05,
	"loss": 1.0923,
	"step": 3000
	},
	{
	"epoch": 0.08419870895312939,
	"eval_loss": 5.038168430328369,
	"eval_runtime": 81.5206,
	"eval_samples_per_second": 81.071,
	"eval_sequential_score": 0.769819909731699,
	"eval_steps_per_second": 1.276,
	"eval_sts-dev-1152_pearson_cosine": 0.7639981739632917,
	"eval_sts-dev-1152_spearman_cosine": 0.769819909731699,
	"eval_sts-dev-512_pearson_cosine": 0.7557090629225184,
	"eval_sts-dev-512_spearman_cosine": 0.7642757401766183,
	"eval_sts-dev-768_pearson_cosine": 0.7573996144114894,
	"eval_sts-dev-768_spearman_cosine": 0.7655547584963449,
	"eval_sts-dev-960_pearson_cosine": 0.761317538183819,
	"eval_sts-dev-960_spearman_cosine": 0.7681871634317281,
	"step": 3000
	},
	{
	"epoch": 0.08981195621667135,
	"grad_norm": 2094610.625,
	"learning_rate": 4.490597810833567e-05,
	"loss": 1.0542,
	"step": 3200
	},
	{
	"epoch": 0.0954252034802133,
	"grad_norm": 1429313.5,
	"learning_rate": 4.7712601740106656e-05,
	"loss": 1.025,
	"step": 3400
	},
	{
	"epoch": 0.09823182711198428,
	"eval_loss": 4.955362319946289,
	"eval_runtime": 78.4429,
	"eval_samples_per_second": 84.252,
	"eval_sequential_score": 0.773224539195293,
	"eval_steps_per_second": 1.326,
	"eval_sts-dev-1152_pearson_cosine": 0.7657713900430686,
	"eval_sts-dev-1152_spearman_cosine": 0.773224539195293,
	"eval_sts-dev-512_pearson_cosine": 0.7600635376400412,
	"eval_sts-dev-512_spearman_cosine": 0.7680689406591721,
	"eval_sts-dev-768_pearson_cosine": 0.7604851132447141,
	"eval_sts-dev-768_spearman_cosine": 0.7693172932298855,
	"eval_sts-dev-960_pearson_cosine": 0.7631668495431749,
	"eval_sts-dev-960_spearman_cosine": 0.7712486101715305,
	"step": 3500
	},
	{
	"epoch": 0.10103845074375527,
	"grad_norm": 993321.0,
	"learning_rate": 4.99423082920136e-05,
	"loss": 1.0056,
	"step": 3600
	},
	{
	"epoch": 0.10665169800729722,
	"grad_norm": 13974978.0,
	"learning_rate": 4.963046122181682e-05,
	"loss": 1.0689,
	"step": 3800
	},
	{
	"epoch": 0.11226494527083918,
	"grad_norm": 6447055.0,
	"learning_rate": 4.931861415162005e-05,
	"loss": 1.0453,
	"step": 4000
	},
	{
	"epoch": 0.11226494527083918,
	"eval_loss": 5.834151268005371,
	"eval_runtime": 77.2575,
	"eval_samples_per_second": 85.545,
	"eval_sequential_score": 0.7656099368624604,
	"eval_steps_per_second": 1.346,
	"eval_sts-dev-1152_pearson_cosine": 0.7552591908965304,
	"eval_sts-dev-1152_spearman_cosine": 0.7656099368624604,
	"eval_sts-dev-512_pearson_cosine": 0.7502607892289657,
	"eval_sts-dev-512_spearman_cosine": 0.7606979870614468,
	"eval_sts-dev-768_pearson_cosine": 0.7475751433884098,
	"eval_sts-dev-768_spearman_cosine": 0.7607444598882842,
	"eval_sts-dev-960_pearson_cosine": 0.7529520081710266,
	"eval_sts-dev-960_spearman_cosine": 0.764507705472108,
	"step": 4000
	},
	{
	"epoch": 0.11787819253438114,
	"grad_norm": 1890051.125,
	"learning_rate": 4.9006767081423274e-05,
	"loss": 1.0874,
	"step": 4200
	},
	{
	"epoch": 0.1234914397979231,
	"grad_norm": 1684058.0,
	"learning_rate": 4.8694920011226495e-05,
	"loss": 1.0051,
	"step": 4400
	},
	{
	"epoch": 0.12629806342969407,
	"eval_loss": 5.076698303222656,
	"eval_runtime": 79.9271,
	"eval_samples_per_second": 82.688,
	"eval_sequential_score": 0.7752075113901122,
	"eval_steps_per_second": 1.301,
	"eval_sts-dev-1152_pearson_cosine": 0.7719939114671934,
	"eval_sts-dev-1152_spearman_cosine": 0.7752075113901122,
	"eval_sts-dev-512_pearson_cosine": 0.7652586024520893,
	"eval_sts-dev-512_spearman_cosine": 0.7706670879702195,
	"eval_sts-dev-768_pearson_cosine": 0.7663537315286835,
	"eval_sts-dev-768_spearman_cosine": 0.771176148682848,
	"eval_sts-dev-960_pearson_cosine": 0.7691859699812915,
	"eval_sts-dev-960_spearman_cosine": 0.7728489604857174,
	"step": 4500
	},
	{
	"epoch": 0.12910468706146505,
	"grad_norm": 1788628.75,
	"learning_rate": 4.838307294102972e-05,
	"loss": 1.0007,
	"step": 4600
	},
	{
	"epoch": 0.134717934325007,
	"grad_norm": 1246448.375,
	"learning_rate": 4.807122587083295e-05,
	"loss": 0.9307,
	"step": 4800
	},
	{
	"epoch": 0.140331181588549,
	"grad_norm": 1078949.875,
	"learning_rate": 4.775937880063617e-05,
	"loss": 0.9642,
	"step": 5000
	},
	{
	"epoch": 0.140331181588549,
	"eval_loss": 5.198572158813477,
	"eval_runtime": 77.2033,
	"eval_samples_per_second": 85.605,
	"eval_sequential_score": 0.7683338860401957,
	"eval_steps_per_second": 1.347,
	"eval_sts-dev-1152_pearson_cosine": 0.7579755842587974,
	"eval_sts-dev-1152_spearman_cosine": 0.7683338860401957,
	"eval_sts-dev-512_pearson_cosine": 0.7497028852140948,
	"eval_sts-dev-512_spearman_cosine": 0.761778428268311,
	"eval_sts-dev-768_pearson_cosine": 0.7527948972243363,
	"eval_sts-dev-768_spearman_cosine": 0.7652442137002148,
	"eval_sts-dev-960_pearson_cosine": 0.7555515440882907,
	"eval_sts-dev-960_spearman_cosine": 0.7666530937388959,
	"step": 5000
	},
	{
	"epoch": 0.14594442885209094,
	"grad_norm": 1531033.125,
	"learning_rate": 4.744753173043939e-05,
	"loss": 0.9259,
	"step": 5200
	},
	{
	"epoch": 0.1515576761156329,
	"grad_norm": 2660688.5,
	"learning_rate": 4.713568466024262e-05,
	"loss": 0.8908,
	"step": 5400
	},
	{
	"epoch": 0.15436429974740387,
	"eval_loss": 5.210824966430664,
	"eval_runtime": 78.072,
	"eval_samples_per_second": 84.653,
	"eval_sequential_score": 0.7761786001654587,
	"eval_steps_per_second": 1.332,
	"eval_sts-dev-1152_pearson_cosine": 0.7628982988651709,
	"eval_sts-dev-1152_spearman_cosine": 0.7761786001654587,
	"eval_sts-dev-512_pearson_cosine": 0.7563657029921103,
	"eval_sts-dev-512_spearman_cosine": 0.7711187793718405,
	"eval_sts-dev-768_pearson_cosine": 0.7545503313040781,
	"eval_sts-dev-768_spearman_cosine": 0.7713354514018652,
	"eval_sts-dev-960_pearson_cosine": 0.7595387577495225,
	"eval_sts-dev-960_spearman_cosine": 0.774137594546881,
	"step": 5500
	},
	{
	"epoch": 0.15717092337917485,
	"grad_norm": 1493755.375,
	"learning_rate": 4.6823837590045846e-05,
	"loss": 0.8812,
	"step": 5600
	},
	{
	"epoch": 0.1627841706427168,
	"grad_norm": 1185704.125,
	"learning_rate": 4.651199051984907e-05,
	"loss": 0.8544,
	"step": 5800
	},
	{
	"epoch": 0.16839741790625878,
	"grad_norm": 1171420.375,
	"learning_rate": 4.6200143449652295e-05,
	"loss": 0.8314,
	"step": 6000
	},
	{
	"epoch": 0.16839741790625878,
	"eval_loss": 5.24008321762085,
	"eval_runtime": 77.1769,
	"eval_samples_per_second": 85.634,
	"eval_sequential_score": 0.7731812487805466,
	"eval_steps_per_second": 1.348,
	"eval_sts-dev-1152_pearson_cosine": 0.7629915610098019,
	"eval_sts-dev-1152_spearman_cosine": 0.7731812487805466,
	"eval_sts-dev-512_pearson_cosine": 0.7548517081547739,
	"eval_sts-dev-512_spearman_cosine": 0.7660070542727266,
	"eval_sts-dev-768_pearson_cosine": 0.7552724107119573,
	"eval_sts-dev-768_spearman_cosine": 0.7688482677049882,
	"eval_sts-dev-960_pearson_cosine": 0.7593839964325895,
	"eval_sts-dev-960_spearman_cosine": 0.7709090473847962,
	"step": 6000
	},
	{
	"epoch": 0.17401066516980074,
	"grad_norm": 20138014.0,
	"learning_rate": 4.588829637945552e-05,
	"loss": 0.8258,
	"step": 6200
	},
	{
	"epoch": 0.1796239124333427,
	"grad_norm": 936058.875,
	"learning_rate": 4.557644930925874e-05,
	"loss": 0.8083,
	"step": 6400
	},
	{
	"epoch": 0.18243053606511367,
	"eval_loss": 5.270838260650635,
	"eval_runtime": 76.7742,
	"eval_samples_per_second": 86.084,
	"eval_sequential_score": 0.7680196935178831,
	"eval_steps_per_second": 1.355,
	"eval_sts-dev-1152_pearson_cosine": 0.7542454277081971,
	"eval_sts-dev-1152_spearman_cosine": 0.7680196935178831,
	"eval_sts-dev-512_pearson_cosine": 0.7491425293129472,
	"eval_sts-dev-512_spearman_cosine": 0.7637887014241396,
	"eval_sts-dev-768_pearson_cosine": 0.7462311896234177,
	"eval_sts-dev-768_spearman_cosine": 0.7621924407912392,
	"eval_sts-dev-960_pearson_cosine": 0.7506447400007437,
	"eval_sts-dev-960_spearman_cosine": 0.7656016598904541,
	"step": 6500
	},
	{
	"epoch": 0.18523715969688465,
	"grad_norm": 15407098.0,
	"learning_rate": 4.5264602239061963e-05,
	"loss": 0.8373,
	"step": 6600
	},
	{
	"epoch": 0.1908504069604266,
	"grad_norm": 1347636.375,
	"learning_rate": 4.495275516886519e-05,
	"loss": 0.8031,
	"step": 6800
	},
	{
	"epoch": 0.19646365422396855,
	"grad_norm": 1346039.0,
	"learning_rate": 4.464090809866842e-05,
	"loss": 0.7375,
	"step": 7000
	},
	{
	"epoch": 0.19646365422396855,
	"eval_loss": 5.154874801635742,
	"eval_runtime": 77.428,
	"eval_samples_per_second": 85.357,
	"eval_sequential_score": 0.776258910277576,
	"eval_steps_per_second": 1.343,
	"eval_sts-dev-1152_pearson_cosine": 0.7608005418896666,
	"eval_sts-dev-1152_spearman_cosine": 0.776258910277576,
	"eval_sts-dev-512_pearson_cosine": 0.7589220526161604,
	"eval_sts-dev-512_spearman_cosine": 0.773786883290433,
	"eval_sts-dev-768_pearson_cosine": 0.7534825416262227,
	"eval_sts-dev-768_spearman_cosine": 0.7718540709899384,
	"eval_sts-dev-960_pearson_cosine": 0.7570206619012192,
	"eval_sts-dev-960_spearman_cosine": 0.7739587544161404,
	"step": 7000
	},
	{
	"epoch": 0.20207690148751054,
	"grad_norm": 1730871.5,
	"learning_rate": 4.432906102847164e-05,
	"loss": 0.743,
	"step": 7200
	},
	{
	"epoch": 0.2076901487510525,
	"grad_norm": 610056.0,
	"learning_rate": 4.4017213958274867e-05,
	"loss": 0.739,
	"step": 7400
	},
	{
	"epoch": 0.21049677238282347,
	"eval_loss": 4.818795204162598,
	"eval_runtime": 78.238,
	"eval_samples_per_second": 84.473,
	"eval_sequential_score": 0.7867819228719439,
	"eval_steps_per_second": 1.329,
	"eval_sts-dev-1152_pearson_cosine": 0.7777460591194046,
	"eval_sts-dev-1152_spearman_cosine": 0.7867819228719439,
	"eval_sts-dev-512_pearson_cosine": 0.7742009652343147,
	"eval_sts-dev-512_spearman_cosine": 0.7834916540309068,
	"eval_sts-dev-768_pearson_cosine": 0.771136418007053,
	"eval_sts-dev-768_spearman_cosine": 0.7825233109168519,
	"eval_sts-dev-960_pearson_cosine": 0.7749317385070862,
	"eval_sts-dev-960_spearman_cosine": 0.7849087778447466,
	"step": 7500
	},
	{
	"epoch": 0.21330339601459444,
	"grad_norm": 816702.6875,
	"learning_rate": 4.370536688807809e-05,
	"loss": 0.7399,
	"step": 7600
	},
	{
	"epoch": 0.2189166432781364,
	"grad_norm": 984849.5625,
	"learning_rate": 4.3393519817881315e-05,
	"loss": 0.6723,
	"step": 7800
	},
	{
	"epoch": 0.22452989054167835,
	"grad_norm": 2291592.5,
	"learning_rate": 4.3081672747684535e-05,
	"loss": 0.6866,
	"step": 8000
	},
	{
	"epoch": 0.22452989054167835,
	"eval_loss": 5.077595233917236,
	"eval_runtime": 81.793,
	"eval_samples_per_second": 80.802,
	"eval_sequential_score": 0.7714443289674112,
	"eval_steps_per_second": 1.272,
	"eval_sts-dev-1152_pearson_cosine": 0.7519731587462412,
	"eval_sts-dev-1152_spearman_cosine": 0.7714443289674112,
	"eval_sts-dev-512_pearson_cosine": 0.74485948560521,
	"eval_sts-dev-512_spearman_cosine": 0.7666552681351647,
	"eval_sts-dev-768_pearson_cosine": 0.7434046002477062,
	"eval_sts-dev-768_spearman_cosine": 0.7663030810953583,
	"eval_sts-dev-960_pearson_cosine": 0.7477923465698348,
	"eval_sts-dev-960_spearman_cosine": 0.7687824273352952,
	"step": 8000
	},
	{
	"epoch": 0.23014313780522033,
	"grad_norm": 854538.25,
	"learning_rate": 4.276982567748776e-05,
	"loss": 0.6556,
	"step": 8200
	},
	{
	"epoch": 0.2357563850687623,
	"grad_norm": 567974.3125,
	"learning_rate": 4.245797860729099e-05,
	"loss": 0.6886,
	"step": 8400
	},
	{
	"epoch": 0.23856300870053326,
	"eval_loss": 4.77580451965332,
	"eval_runtime": 81.3533,
	"eval_samples_per_second": 81.238,
	"eval_sequential_score": 0.7845369317488485,
	"eval_steps_per_second": 1.278,
	"eval_sts-dev-1152_pearson_cosine": 0.7759169223036488,
	"eval_sts-dev-1152_spearman_cosine": 0.7845369317488485,
	"eval_sts-dev-512_pearson_cosine": 0.7701848660015407,
	"eval_sts-dev-512_spearman_cosine": 0.7810897586341158,
	"eval_sts-dev-768_pearson_cosine": 0.7706226329945012,
	"eval_sts-dev-768_spearman_cosine": 0.7807681848391878,
	"eval_sts-dev-960_pearson_cosine": 0.7736197337766615,
	"eval_sts-dev-960_spearman_cosine": 0.7827940121873471,
	"step": 8500
	},
	{
	"epoch": 0.24136963233230424,
	"grad_norm": 984615.125,
	"learning_rate": 4.214613153709421e-05,
	"loss": 0.685,
	"step": 8600
	},
	{
	"epoch": 0.2469828795958462,
	"grad_norm": 891299.0625,
	"learning_rate": 4.183428446689743e-05,
	"loss": 0.6401,
	"step": 8800
	},
	{
	"epoch": 0.25259612685938815,
	"grad_norm": 815193.5,
	"learning_rate": 4.152243739670066e-05,
	"loss": 0.6617,
	"step": 9000
	},
	{
	"epoch": 0.25259612685938815,
	"eval_loss": 4.602816581726074,
	"eval_runtime": 78.6877,
	"eval_samples_per_second": 83.99,
	"eval_sequential_score": 0.7821317387888623,
	"eval_steps_per_second": 1.322,
	"eval_sts-dev-1152_pearson_cosine": 0.7751221600500908,
	"eval_sts-dev-1152_spearman_cosine": 0.7821317387888623,
	"eval_sts-dev-512_pearson_cosine": 0.7694106022891276,
	"eval_sts-dev-512_spearman_cosine": 0.7776661813002868,
	"eval_sts-dev-768_pearson_cosine": 0.7688507047470482,
	"eval_sts-dev-768_spearman_cosine": 0.7773842606816174,
	"eval_sts-dev-960_pearson_cosine": 0.772897246519623,
	"eval_sts-dev-960_spearman_cosine": 0.7804687323409016,
	"step": 9000
	},
	{
	"epoch": 0.2582093741229301,
	"grad_norm": 677073.1875,
	"learning_rate": 4.121059032650389e-05,
	"loss": 0.6208,
	"step": 9200
	},
	{
	"epoch": 0.26382262138647206,
	"grad_norm": 998130.3125,
	"learning_rate": 4.089874325630711e-05,
	"loss": 0.6307,
	"step": 9400
	},
	{
	"epoch": 0.26662924501824303,
	"eval_loss": 4.539032459259033,
	"eval_runtime": 78.0206,
	"eval_samples_per_second": 84.708,
	"eval_sequential_score": 0.7853296979011097,
	"eval_steps_per_second": 1.333,
	"eval_sts-dev-1152_pearson_cosine": 0.7765914965051797,
	"eval_sts-dev-1152_spearman_cosine": 0.7853296979011097,
	"eval_sts-dev-512_pearson_cosine": 0.7723537190754219,
	"eval_sts-dev-512_spearman_cosine": 0.7823374065712144,
	"eval_sts-dev-768_pearson_cosine": 0.7715991971997825,
	"eval_sts-dev-768_spearman_cosine": 0.7821482216403839,
	"eval_sts-dev-960_pearson_cosine": 0.7750935828664101,
	"eval_sts-dev-960_spearman_cosine": 0.7843683074967508,
	"step": 9500
	},
	{
	"epoch": 0.269435868650014,
	"grad_norm": 4926974.0,
	"learning_rate": 4.0586896186110335e-05,
	"loss": 0.6557,
	"step": 9600
	},
	{
	"epoch": 0.275049115913556,
	"grad_norm": 1349007.875,
	"learning_rate": 4.027504911591356e-05,
	"loss": 0.6102,
	"step": 9800
	},
	{
	"epoch": 0.280662363177098,
	"grad_norm": 4552381.5,
	"learning_rate": 3.996320204571678e-05,
	"loss": 0.5917,
	"step": 10000
	},
	{
	"epoch": 0.280662363177098,
	"eval_loss": 4.608828067779541,
	"eval_runtime": 77.5783,
	"eval_samples_per_second": 85.191,
	"eval_sequential_score": 0.7826250058709692,
	"eval_steps_per_second": 1.341,
	"eval_sts-dev-1152_pearson_cosine": 0.7759367710047786,
	"eval_sts-dev-1152_spearman_cosine": 0.7826250058709692,
	"eval_sts-dev-512_pearson_cosine": 0.7683710236695287,
	"eval_sts-dev-512_spearman_cosine": 0.7770467944017624,
	"eval_sts-dev-768_pearson_cosine": 0.7700346176363122,
	"eval_sts-dev-768_spearman_cosine": 0.7779312583550618,
	"eval_sts-dev-960_pearson_cosine": 0.7737155642846232,
	"eval_sts-dev-960_spearman_cosine": 0.7807350237124752,
	"step": 10000
	},
	{
	"epoch": 0.2862756104406399,
	"grad_norm": 836897.8125,
	"learning_rate": 3.9651354975520004e-05,
	"loss": 0.5845,
	"step": 10200
	},
	{
	"epoch": 0.2918888577041819,
	"grad_norm": 735510.0625,
	"learning_rate": 3.933950790532323e-05,
	"loss": 0.6018,
	"step": 10400
	},
	{
	"epoch": 0.29469548133595286,
	"eval_loss": 4.563432216644287,
	"eval_runtime": 77.4091,
	"eval_samples_per_second": 85.378,
	"eval_sequential_score": 0.7901603432215759,
	"eval_steps_per_second": 1.344,
	"eval_sts-dev-1152_pearson_cosine": 0.7810780782124218,
	"eval_sts-dev-1152_spearman_cosine": 0.7901603432215759,
	"eval_sts-dev-512_pearson_cosine": 0.7767016322826037,
	"eval_sts-dev-512_spearman_cosine": 0.787071277210133,
	"eval_sts-dev-768_pearson_cosine": 0.7756406085198688,
	"eval_sts-dev-768_spearman_cosine": 0.786612173354875,
	"eval_sts-dev-960_pearson_cosine": 0.7789839662649704,
	"eval_sts-dev-960_spearman_cosine": 0.7885719593916782,
	"step": 10500
	},
	{
	"epoch": 0.29750210496772383,
	"grad_norm": 1244390.5,
	"learning_rate": 3.902766083512646e-05,
	"loss": 0.5859,
	"step": 10600
	},
	{
	"epoch": 0.3031153522312658,
	"grad_norm": 1826701.25,
	"learning_rate": 3.871581376492968e-05,
	"loss": 0.5933,
	"step": 10800
	},
	{
	"epoch": 0.30872859949480774,
	"grad_norm": 1036837.75,
	"learning_rate": 3.840396669473291e-05,
	"loss": 0.5717,
	"step": 11000
	},
	{
	"epoch": 0.30872859949480774,
	"eval_loss": 4.405139446258545,
	"eval_runtime": 80.2702,
	"eval_samples_per_second": 82.334,
	"eval_sequential_score": 0.7930013510501455,
	"eval_steps_per_second": 1.296,
	"eval_sts-dev-1152_pearson_cosine": 0.7842500678425964,
	"eval_sts-dev-1152_spearman_cosine": 0.7930013510501455,
	"eval_sts-dev-512_pearson_cosine": 0.7804560477931245,
	"eval_sts-dev-512_spearman_cosine": 0.790194108314055,
	"eval_sts-dev-768_pearson_cosine": 0.7795286908922767,
	"eval_sts-dev-768_spearman_cosine": 0.7903488938053814,
	"eval_sts-dev-960_pearson_cosine": 0.7823368063838988,
	"eval_sts-dev-960_spearman_cosine": 0.7916644882542199,
	"step": 11000
	},
	{
	"epoch": 0.3143418467583497,
	"grad_norm": 505930.4375,
	"learning_rate": 3.809211962453613e-05,
	"loss": 0.5719,
	"step": 11200
	},
	{
	"epoch": 0.31995509402189165,
	"grad_norm": 573586.3125,
	"learning_rate": 3.7780272554339355e-05,
	"loss": 0.5422,
	"step": 11400
	},
	{
	"epoch": 0.3227617176536626,
	"eval_loss": 4.44298791885376,
	"eval_runtime": 79.3492,
	"eval_samples_per_second": 83.29,
	"eval_sequential_score": 0.7942242704582879,
	"eval_steps_per_second": 1.311,
	"eval_sts-dev-1152_pearson_cosine": 0.7875744329285601,
	"eval_sts-dev-1152_spearman_cosine": 0.7942242704582879,
	"eval_sts-dev-512_pearson_cosine": 0.7840443572822089,
	"eval_sts-dev-512_spearman_cosine": 0.7920209001098614,
	"eval_sts-dev-768_pearson_cosine": 0.7834004871669387,
	"eval_sts-dev-768_spearman_cosine": 0.7917739294182365,
	"eval_sts-dev-960_pearson_cosine": 0.7857857853856216,
	"eval_sts-dev-960_spearman_cosine": 0.7931912176322746,
	"step": 11500
	},
	{
	"epoch": 0.3255683412854336,
	"grad_norm": 2376617.5,
	"learning_rate": 3.7468425484142576e-05,
	"loss": 0.527,
	"step": 11600
	},
	{
	"epoch": 0.33118158854897556,
	"grad_norm": 1004661.5,
	"learning_rate": 3.7156578413945803e-05,
	"loss": 0.5291,
	"step": 11800
	},
	{
	"epoch": 0.33679483581251757,
	"grad_norm": 681331.25,
	"learning_rate": 3.684473134374903e-05,
	"loss": 0.542,
	"step": 12000
	},
	{
	"epoch": 0.33679483581251757,
	"eval_loss": 4.3000807762146,
	"eval_runtime": 78.0165,
	"eval_samples_per_second": 84.713,
	"eval_sequential_score": 0.7933961511062919,
	"eval_steps_per_second": 1.333,
	"eval_sts-dev-1152_pearson_cosine": 0.7901723077330912,
	"eval_sts-dev-1152_spearman_cosine": 0.7933961511062919,
	"eval_sts-dev-512_pearson_cosine": 0.7863821340291279,
	"eval_sts-dev-512_spearman_cosine": 0.7907396171652296,
	"eval_sts-dev-768_pearson_cosine": 0.7861497979708226,
	"eval_sts-dev-768_spearman_cosine": 0.7905983485083213,
	"eval_sts-dev-960_pearson_cosine": 0.7892627814382922,
	"eval_sts-dev-960_spearman_cosine": 0.7927711835546136,
	"step": 12000
	},
	{
	"epoch": 0.3424080830760595,
	"grad_norm": 339770.1875,
	"learning_rate": 3.653288427355225e-05,
	"loss": 0.5213,
	"step": 12200
	},
	{
	"epoch": 0.3480213303396015,
	"grad_norm": 16329254.0,
	"learning_rate": 3.622103720335547e-05,
	"loss": 0.5226,
	"step": 12400
	},
	{
	"epoch": 0.35082795397137245,
	"eval_loss": 4.8531880378723145,
	"eval_runtime": 78.4497,
	"eval_samples_per_second": 84.245,
	"eval_sequential_score": 0.7723953575556768,
	"eval_steps_per_second": 1.326,
	"eval_sts-dev-1152_pearson_cosine": 0.7559096984425644,
	"eval_sts-dev-1152_spearman_cosine": 0.7723953575556768,
	"eval_sts-dev-512_pearson_cosine": 0.7513107904922858,
	"eval_sts-dev-512_spearman_cosine": 0.7687285653830139,
	"eval_sts-dev-768_pearson_cosine": 0.7485837494255871,
	"eval_sts-dev-768_spearman_cosine": 0.7673974329389454,
	"eval_sts-dev-960_pearson_cosine": 0.7527733497014006,
	"eval_sts-dev-960_spearman_cosine": 0.7700910811459013,
	"step": 12500
	},
	{
	"epoch": 0.35363457760314343,
	"grad_norm": 751577.375,
	"learning_rate": 3.59091901331587e-05,
	"loss": 0.5111,
	"step": 12600
	},
	{
	"epoch": 0.3592478248666854,
	"grad_norm": 1020267.75,
	"learning_rate": 3.559734306296193e-05,
	"loss": 0.51,
	"step": 12800
	},
	{
	"epoch": 0.36486107213022734,
	"grad_norm": 2245223.25,
	"learning_rate": 3.528549599276515e-05,
	"loss": 0.5439,
	"step": 13000
	},
	{
	"epoch": 0.36486107213022734,
	"eval_loss": 4.562457084655762,
	"eval_runtime": 76.5025,
	"eval_samples_per_second": 86.389,
	"eval_sequential_score": 0.7871283857415448,
	"eval_steps_per_second": 1.359,
	"eval_sts-dev-1152_pearson_cosine": 0.7813516950726106,
	"eval_sts-dev-1152_spearman_cosine": 0.7871283857415448,
	"eval_sts-dev-512_pearson_cosine": 0.7790901108872998,
	"eval_sts-dev-512_spearman_cosine": 0.785904654893658,
	"eval_sts-dev-768_pearson_cosine": 0.7768149257929241,
	"eval_sts-dev-768_spearman_cosine": 0.7839641875290246,
	"eval_sts-dev-960_pearson_cosine": 0.7799312425424749,
	"eval_sts-dev-960_spearman_cosine": 0.7859198424326749,
	"step": 13000
	},
	{
	"epoch": 0.3704743193937693,
	"grad_norm": 295381.71875,
	"learning_rate": 3.4973648922568375e-05,
	"loss": 0.4944,
	"step": 13200
	},
	{
	"epoch": 0.37608756665731125,
	"grad_norm": 258496.15625,
	"learning_rate": 3.46618018523716e-05,
	"loss": 0.5055,
	"step": 13400
	},
	{
	"epoch": 0.3788941902890822,
	"eval_loss": 4.690097808837891,
	"eval_runtime": 77.0112,
	"eval_samples_per_second": 85.819,
	"eval_sequential_score": 0.7716690451444436,
	"eval_steps_per_second": 1.35,
	"eval_sts-dev-1152_pearson_cosine": 0.7550740608400445,
	"eval_sts-dev-1152_spearman_cosine": 0.7716690451444436,
	"eval_sts-dev-512_pearson_cosine": 0.7512508042826231,
	"eval_sts-dev-512_spearman_cosine": 0.7686861357730667,
	"eval_sts-dev-768_pearson_cosine": 0.7485196351380123,
	"eval_sts-dev-768_spearman_cosine": 0.7674469031229442,
	"eval_sts-dev-960_pearson_cosine": 0.7531056155361794,
	"eval_sts-dev-960_spearman_cosine": 0.770399492414998,
	"step": 13500
	},
	{
	"epoch": 0.3817008139208532,
	"grad_norm": 1523134.625,
	"learning_rate": 3.4349954782174824e-05,
	"loss": 0.4914,
	"step": 13600
	},
	{
	"epoch": 0.38731406118439515,
	"grad_norm": 824847.5625,
	"learning_rate": 3.4038107711978044e-05,
	"loss": 0.4832,
	"step": 13800
	},
	{
	"epoch": 0.3929273084479371,
	"grad_norm": 942315.875,
	"learning_rate": 3.372626064178127e-05,
	"loss": 0.4974,
	"step": 14000
	},
	{
	"epoch": 0.3929273084479371,
	"eval_loss": 4.3223676681518555,
	"eval_runtime": 76.7925,
	"eval_samples_per_second": 86.063,
	"eval_sequential_score": 0.7833165592743722,
	"eval_steps_per_second": 1.354,
	"eval_sts-dev-1152_pearson_cosine": 0.7744088760069867,
	"eval_sts-dev-1152_spearman_cosine": 0.7833165592743722,
	"eval_sts-dev-512_pearson_cosine": 0.7698343591511576,
	"eval_sts-dev-512_spearman_cosine": 0.7802103790467256,
	"eval_sts-dev-768_pearson_cosine": 0.7695304076449843,
	"eval_sts-dev-768_spearman_cosine": 0.780087860180158,
	"eval_sts-dev-960_pearson_cosine": 0.7727501854173389,
	"eval_sts-dev-960_spearman_cosine": 0.7819591085796292,
	"step": 14000
	},
	{
	"epoch": 0.3985405557114791,
	"grad_norm": 755688.0625,
	"learning_rate": 3.34144135715845e-05,
	"loss": 0.4834,
	"step": 14200
	},
	{
	"epoch": 0.40415380297502107,
	"grad_norm": 1176346.25,
	"learning_rate": 3.310256650138772e-05,
	"loss": 0.4526,
	"step": 14400
	},
	{
	"epoch": 0.40696042660679205,
	"eval_loss": 4.603125095367432,
	"eval_runtime": 77.0079,
	"eval_samples_per_second": 85.822,
	"eval_sequential_score": 0.7798168210294973,
	"eval_steps_per_second": 1.351,
	"eval_sts-dev-1152_pearson_cosine": 0.7695286357100837,
	"eval_sts-dev-1152_spearman_cosine": 0.7798168210294973,
	"eval_sts-dev-512_pearson_cosine": 0.7680031892756588,
	"eval_sts-dev-512_spearman_cosine": 0.7793198654141038,
	"eval_sts-dev-768_pearson_cosine": 0.765316531020936,
	"eval_sts-dev-768_spearman_cosine": 0.7771469239892022,
	"eval_sts-dev-960_pearson_cosine": 0.7678963030870366,
	"eval_sts-dev-960_spearman_cosine": 0.7788543197202844,
	"step": 14500
	},
	{
	"epoch": 0.409767050238563,
	"grad_norm": 555539.0625,
	"learning_rate": 3.279071943119095e-05,
	"loss": 0.4621,
	"step": 14600
	},
	{
	"epoch": 0.415380297502105,
	"grad_norm": 293199.1875,
	"learning_rate": 3.2478872360994175e-05,
	"loss": 0.4483,
	"step": 14800
	},
	{
	"epoch": 0.42099354476564693,
	"grad_norm": 1106311.5,
	"learning_rate": 3.2167025290797396e-05,
	"loss": 0.4422,
	"step": 15000
	},
	{
	"epoch": 0.42099354476564693,
	"eval_loss": 4.340238094329834,
	"eval_runtime": 78.5719,
	"eval_samples_per_second": 84.114,
	"eval_sequential_score": 0.7852896447445069,
	"eval_steps_per_second": 1.324,
	"eval_sts-dev-1152_pearson_cosine": 0.7790739260952181,
	"eval_sts-dev-1152_spearman_cosine": 0.7852896447445069,
	"eval_sts-dev-512_pearson_cosine": 0.7764628401440794,
	"eval_sts-dev-512_spearman_cosine": 0.7835744067282309,
	"eval_sts-dev-768_pearson_cosine": 0.7743919883086495,
	"eval_sts-dev-768_spearman_cosine": 0.7820714131385429,
	"eval_sts-dev-960_pearson_cosine": 0.7773513056662522,
	"eval_sts-dev-960_spearman_cosine": 0.7840212510775064,
	"step": 15000
	},
	{
	"epoch": 0.4266067920291889,
	"grad_norm": 610679.5625,
	"learning_rate": 3.1855178220600616e-05,
	"loss": 0.4144,
	"step": 15200
	},
	{
	"epoch": 0.43222003929273084,
	"grad_norm": 687958.4375,
	"learning_rate": 3.1543331150403844e-05,
	"loss": 0.4099,
	"step": 15400
	},
	{
	"epoch": 0.4350266629245018,
	"eval_loss": 4.453821182250977,
	"eval_runtime": 77.8538,
	"eval_samples_per_second": 84.89,
	"eval_sequential_score": 0.7885469182471105,
	"eval_steps_per_second": 1.336,
	"eval_sts-dev-1152_pearson_cosine": 0.7803450152456344,
	"eval_sts-dev-1152_spearman_cosine": 0.7885469182471105,
	"eval_sts-dev-512_pearson_cosine": 0.7769126522889329,
	"eval_sts-dev-512_spearman_cosine": 0.7860781907940958,
	"eval_sts-dev-768_pearson_cosine": 0.7768788991918325,
	"eval_sts-dev-768_spearman_cosine": 0.7860822710268899,
	"eval_sts-dev-960_pearson_cosine": 0.7790539464640599,
	"eval_sts-dev-960_spearman_cosine": 0.7873534072847509,
	"step": 15500
	},
	{
	"epoch": 0.4378332865562728,
	"grad_norm": 465139.34375,
	"learning_rate": 3.123148408020707e-05,
	"loss": 0.4196,
	"step": 15600
	},
	{
	"epoch": 0.44344653381981475,
	"grad_norm": 1473414.0,
	"learning_rate": 3.091963701001029e-05,
	"loss": 0.4273,
	"step": 15800
	},
	{
	"epoch": 0.4490597810833567,
	"grad_norm": 1426157.25,
	"learning_rate": 3.060778993981352e-05,
	"loss": 1.9924,
	"step": 16000
	},
	{
	"epoch": 0.4490597810833567,
	"eval_loss": 3.5090487003326416,
	"eval_runtime": 79.6383,
	"eval_samples_per_second": 82.988,
	"eval_sequential_score": 0.7927361346499643,
	"eval_steps_per_second": 1.306,
	"eval_sts-dev-1152_pearson_cosine": 0.790420349742375,
	"eval_sts-dev-1152_spearman_cosine": 0.7927361346499643,
	"eval_sts-dev-512_pearson_cosine": 0.7865016349246065,
	"eval_sts-dev-512_spearman_cosine": 0.7896668024220279,
	"eval_sts-dev-768_pearson_cosine": 0.7865658784180989,
	"eval_sts-dev-768_spearman_cosine": 0.7894374189283365,
	"eval_sts-dev-960_pearson_cosine": 0.78835917820683,
	"eval_sts-dev-960_spearman_cosine": 0.7907010125477784,
	"step": 16000
	},
	{
	"epoch": 0.45467302834689866,
	"grad_norm": 2128073.0,
	"learning_rate": 3.029594286961674e-05,
	"loss": 2.0174,
	"step": 16200
	},
	{
	"epoch": 0.46028627561044066,
	"grad_norm": 1494404.25,
	"learning_rate": 2.9984095799419964e-05,
	"loss": 1.9566,
	"step": 16400
	},
	{
	"epoch": 0.46309289924221164,
	"eval_loss": 3.305478572845459,
	"eval_runtime": 76.7558,
	"eval_samples_per_second": 86.104,
	"eval_sequential_score": 0.8035377612749389,
	"eval_steps_per_second": 1.355,
	"eval_sts-dev-1152_pearson_cosine": 0.7997045755932278,
	"eval_sts-dev-1152_spearman_cosine": 0.8035377612749389,
	"eval_sts-dev-512_pearson_cosine": 0.7962257322892368,
	"eval_sts-dev-512_spearman_cosine": 0.8010941658538488,
	"eval_sts-dev-768_pearson_cosine": 0.7967126438007915,
	"eval_sts-dev-768_spearman_cosine": 0.8016654322418212,
	"eval_sts-dev-960_pearson_cosine": 0.7985639882269593,
	"eval_sts-dev-960_spearman_cosine": 0.8025996694295968,
	"step": 16500
	},
	{
	"epoch": 0.4658995228739826,
	"grad_norm": 21955176.0,
	"learning_rate": 2.967224872922319e-05,
	"loss": 1.8733,
	"step": 16600
	},
	{
	"epoch": 0.4715127701375246,
	"grad_norm": 1634486.5,
	"learning_rate": 2.9360401659026416e-05,
	"loss": 1.8465,
	"step": 16800
	},
	{
	"epoch": 0.4771260174010665,
	"grad_norm": 1099246.25,
	"learning_rate": 2.904855458882964e-05,
	"loss": 1.8083,
	"step": 17000
	},
	{
	"epoch": 0.4771260174010665,
	"eval_loss": 3.1462347507476807,
	"eval_runtime": 76.7838,
	"eval_samples_per_second": 86.073,
	"eval_sequential_score": 0.8044901468397658,
	"eval_steps_per_second": 1.354,
	"eval_sts-dev-1152_pearson_cosine": 0.8003150062678777,
	"eval_sts-dev-1152_spearman_cosine": 0.8044901468397658,
	"eval_sts-dev-512_pearson_cosine": 0.7967573482929446,
	"eval_sts-dev-512_spearman_cosine": 0.8015237418575695,
	"eval_sts-dev-768_pearson_cosine": 0.7971621831925142,
	"eval_sts-dev-768_spearman_cosine": 0.801918123779033,
	"eval_sts-dev-960_pearson_cosine": 0.7989525078627395,
	"eval_sts-dev-960_spearman_cosine": 0.8033675149464842,
	"step": 17000
	},
	{
	"epoch": 0.4827392646646085,
	"grad_norm": 1532188.125,
	"learning_rate": 2.8736707518632867e-05,
	"loss": 1.7193,
	"step": 17200
	},
	{
	"epoch": 0.48835251192815043,
	"grad_norm": 1495786.125,
	"learning_rate": 2.8424860448436085e-05,
	"loss": 1.7423,
	"step": 17400
	},
	{
	"epoch": 0.4911591355599214,
	"eval_loss": 3.0544025897979736,
	"eval_runtime": 77.4424,
	"eval_samples_per_second": 85.341,
	"eval_sequential_score": 0.8085294051469485,
	"eval_steps_per_second": 1.343,
	"eval_sts-dev-1152_pearson_cosine": 0.806796528773235,
	"eval_sts-dev-1152_spearman_cosine": 0.8085294051469485,
	"eval_sts-dev-512_pearson_cosine": 0.8042370140263899,
	"eval_sts-dev-512_spearman_cosine": 0.8066761351903039,
	"eval_sts-dev-768_pearson_cosine": 0.8033611078675769,
	"eval_sts-dev-768_spearman_cosine": 0.8060225357046799,
	"eval_sts-dev-960_pearson_cosine": 0.8053597943880864,
	"eval_sts-dev-960_spearman_cosine": 0.8073196764122358,
	"step": 17500
	},
	{
	"epoch": 0.4939657591916924,
	"grad_norm": 1554646.625,
	"learning_rate": 2.8113013378239312e-05,
	"loss": 1.6114,
	"step": 17600
	},
	{
	"epoch": 0.49957900645523434,
	"grad_norm": 1555168.625,
	"learning_rate": 2.7801166308042536e-05,
	"loss": 1.6524,
	"step": 17800
	},
	{
	"epoch": 0.5051922537187763,
	"grad_norm": 2316977.25,
	"learning_rate": 2.748931923784576e-05,
	"loss": 1.568,
	"step": 18000
	},
	{
	"epoch": 0.5051922537187763,
	"eval_loss": 3.023185968399048,
	"eval_runtime": 77.2548,
	"eval_samples_per_second": 85.548,
	"eval_sequential_score": 0.8160116208449028,
	"eval_steps_per_second": 1.346,
	"eval_sts-dev-1152_pearson_cosine": 0.8098685109159951,
	"eval_sts-dev-1152_spearman_cosine": 0.8160116208449028,
	"eval_sts-dev-512_pearson_cosine": 0.8067482146442919,
	"eval_sts-dev-512_spearman_cosine": 0.8138083394885887,
	"eval_sts-dev-768_pearson_cosine": 0.8066934851514658,
	"eval_sts-dev-768_spearman_cosine": 0.8137348986202628,
	"eval_sts-dev-960_pearson_cosine": 0.8086043862820518,
	"eval_sts-dev-960_spearman_cosine": 0.8147544112729422,
	"step": 18000
	},
	{
	"epoch": 0.5108055009823183,
	"grad_norm": 1329637.625,
	"learning_rate": 2.7177472167648988e-05,
	"loss": 1.5263,
	"step": 18200
	},
	{
	"epoch": 0.5164187482458602,
	"grad_norm": 1966328.0,
	"learning_rate": 2.6865625097452212e-05,
	"loss": 1.5547,
	"step": 18400
	},
	{
	"epoch": 0.5192253718776312,
	"eval_loss": 2.870816469192505,
	"eval_runtime": 76.6326,
	"eval_samples_per_second": 86.243,
	"eval_sequential_score": 0.8176598949005246,
	"eval_steps_per_second": 1.357,
	"eval_sts-dev-1152_pearson_cosine": 0.814666190335647,
	"eval_sts-dev-1152_spearman_cosine": 0.8176598949005246,
	"eval_sts-dev-512_pearson_cosine": 0.8121636324942605,
	"eval_sts-dev-512_spearman_cosine": 0.8159107971728017,
	"eval_sts-dev-768_pearson_cosine": 0.8122018182896737,
	"eval_sts-dev-768_spearman_cosine": 0.816248481623874,
	"eval_sts-dev-960_pearson_cosine": 0.813853882558624,
	"eval_sts-dev-960_spearman_cosine": 0.8171316174695632,
	"step": 18500
	},
	{
	"epoch": 0.5220319955094022,
	"grad_norm": 1405333.625,
	"learning_rate": 2.6553778027255433e-05,
	"loss": 1.5059,
	"step": 18600
	},
	{
	"epoch": 0.5276452427729441,
	"grad_norm": 2138761.0,
	"learning_rate": 2.6241930957058657e-05,
	"loss": 1.4385,
	"step": 18800
	},
	{
	"epoch": 0.5332584900364861,
	"grad_norm": 2403917.0,
	"learning_rate": 2.5930083886861884e-05,
	"loss": 1.476,
	"step": 19000
	},
	{
	"epoch": 0.5332584900364861,
	"eval_loss": 2.9468226432800293,
	"eval_runtime": 76.877,
	"eval_samples_per_second": 85.969,
	"eval_sequential_score": 0.81019252718923,
	"eval_steps_per_second": 1.353,
	"eval_sts-dev-1152_pearson_cosine": 0.8023306627696717,
	"eval_sts-dev-1152_spearman_cosine": 0.81019252718923,
	"eval_sts-dev-512_pearson_cosine": 0.8017622030828988,
	"eval_sts-dev-512_spearman_cosine": 0.8093692797674851,
	"eval_sts-dev-768_pearson_cosine": 0.8003993423781782,
	"eval_sts-dev-768_spearman_cosine": 0.8091560440850984,
	"eval_sts-dev-960_pearson_cosine": 0.8019211195358515,
	"eval_sts-dev-960_spearman_cosine": 0.8101363718932728,
	"step": 19000
	},
	{
	"epoch": 0.538871737300028,
	"grad_norm": 1055316.25,
	"learning_rate": 2.561823681666511e-05,
	"loss": 1.4558,
	"step": 19200
	},
	{
	"epoch": 0.54448498456357,
	"grad_norm": 1079136.125,
	"learning_rate": 2.5306389746468333e-05,
	"loss": 1.4557,
	"step": 19400
	},
	{
	"epoch": 0.547291608195341,
	"eval_loss": 2.8981781005859375,
	"eval_runtime": 79.4411,
	"eval_samples_per_second": 83.194,
	"eval_sequential_score": 0.8094444352298047,
	"eval_steps_per_second": 1.309,
	"eval_sts-dev-1152_pearson_cosine": 0.8031328356570406,
	"eval_sts-dev-1152_spearman_cosine": 0.8094444352298047,
	"eval_sts-dev-512_pearson_cosine": 0.8001098459602658,
	"eval_sts-dev-512_spearman_cosine": 0.8070996808860118,
	"eval_sts-dev-768_pearson_cosine": 0.8001671724511775,
	"eval_sts-dev-768_spearman_cosine": 0.807121764709248,
	"eval_sts-dev-960_pearson_cosine": 0.8020898505862861,
	"eval_sts-dev-960_spearman_cosine": 0.8084113769099328,
	"step": 19500
	},
	{
	"epoch": 0.550098231827112,
	"grad_norm": 1276695.375,
	"learning_rate": 2.4994542676271557e-05,
	"loss": 1.4552,
	"step": 19600
	},
	{
	"epoch": 0.555711479090654,
	"grad_norm": 1328590.75,
	"learning_rate": 2.468269560607478e-05,
	"loss": 1.4342,
	"step": 19800
	},
	{
	"epoch": 0.561324726354196,
	"grad_norm": 1148225.75,
	"learning_rate": 2.4370848535878008e-05,
	"loss": 1.4503,
	"step": 20000
	},
	{
	"epoch": 0.561324726354196,
	"eval_loss": 2.807321310043335,
	"eval_runtime": 77.894,
	"eval_samples_per_second": 84.846,
	"eval_sequential_score": 0.8179010934691895,
	"eval_steps_per_second": 1.335,
	"eval_sts-dev-1152_pearson_cosine": 0.8140052747106419,
	"eval_sts-dev-1152_spearman_cosine": 0.8179010934691895,
	"eval_sts-dev-512_pearson_cosine": 0.8113404216022915,
	"eval_sts-dev-512_spearman_cosine": 0.8159118696426358,
	"eval_sts-dev-768_pearson_cosine": 0.8108446270228379,
	"eval_sts-dev-768_spearman_cosine": 0.815575862581075,
	"eval_sts-dev-960_pearson_cosine": 0.8128306079700292,
	"eval_sts-dev-960_spearman_cosine": 0.8169448135786315,
	"step": 20000
	},
	{
	"epoch": 0.5669379736177379,
	"grad_norm": 1494490.25,
	"learning_rate": 2.405900146568123e-05,
	"loss": 1.391,
	"step": 20200
	},
	{
	"epoch": 0.5725512208812799,
	"grad_norm": 1219068.5,
	"learning_rate": 2.3747154395484456e-05,
	"loss": 1.3529,
	"step": 20400
	},
	{
	"epoch": 0.5753578445130508,
	"eval_loss": 2.697373151779175,
	"eval_runtime": 77.2603,
	"eval_samples_per_second": 85.542,
	"eval_sequential_score": 0.818387454814582,
	"eval_steps_per_second": 1.346,
	"eval_sts-dev-1152_pearson_cosine": 0.814425658636787,
	"eval_sts-dev-1152_spearman_cosine": 0.818387454814582,
	"eval_sts-dev-512_pearson_cosine": 0.8114864131532289,
	"eval_sts-dev-512_spearman_cosine": 0.816474256076468,
	"eval_sts-dev-768_pearson_cosine": 0.8111751402507601,
	"eval_sts-dev-768_spearman_cosine": 0.8161965909973262,
	"eval_sts-dev-960_pearson_cosine": 0.8133366326386466,
	"eval_sts-dev-960_spearman_cosine": 0.817509136299924,
	"step": 20500
	},
	{
	"epoch": 0.5781644681448218,
	"grad_norm": 1434187.0,
	"learning_rate": 2.343530732528768e-05,
	"loss": 1.3428,
	"step": 20600
	},
	{
	"epoch": 0.5837777154083638,
	"grad_norm": 9602563.0,
	"learning_rate": 2.3123460255090905e-05,
	"loss": 1.3401,
	"step": 20800
	},
	{
	"epoch": 0.5893909626719057,
	"grad_norm": 1751803.25,
	"learning_rate": 2.281161318489413e-05,
	"loss": 1.3809,
	"step": 21000
	},
	{
	"epoch": 0.5893909626719057,
	"eval_loss": 2.703920602798462,
	"eval_runtime": 77.5938,
	"eval_samples_per_second": 85.174,
	"eval_sequential_score": 0.8188296877385577,
	"eval_steps_per_second": 1.34,
	"eval_sts-dev-1152_pearson_cosine": 0.8145212969625442,
	"eval_sts-dev-1152_spearman_cosine": 0.8188296877385577,
	"eval_sts-dev-512_pearson_cosine": 0.8121156149968475,
	"eval_sts-dev-512_spearman_cosine": 0.8170665731423932,
	"eval_sts-dev-768_pearson_cosine": 0.8113063721736813,
	"eval_sts-dev-768_spearman_cosine": 0.8162345284905963,
	"eval_sts-dev-960_pearson_cosine": 0.813392544100018,
	"eval_sts-dev-960_spearman_cosine": 0.8177012935138736,
	"step": 21000
	},
	{
	"epoch": 0.5950042099354477,
	"grad_norm": 1005006.3125,
	"learning_rate": 2.2499766114697353e-05,
	"loss": 1.3193,
	"step": 21200
	},
	{
	"epoch": 0.6006174571989896,
	"grad_norm": 2510840.0,
	"learning_rate": 2.2187919044500577e-05,
	"loss": 1.2531,
	"step": 21400
	},
	{
	"epoch": 0.6034240808307606,
	"eval_loss": 2.6553146839141846,
	"eval_runtime": 76.7412,
	"eval_samples_per_second": 86.121,
	"eval_sequential_score": 0.8132629704436432,
	"eval_steps_per_second": 1.355,
	"eval_sts-dev-1152_pearson_cosine": 0.8100792978741007,
	"eval_sts-dev-1152_spearman_cosine": 0.8132629704436432,
	"eval_sts-dev-512_pearson_cosine": 0.8064513413918455,
	"eval_sts-dev-512_spearman_cosine": 0.810722844279224,
	"eval_sts-dev-768_pearson_cosine": 0.8070561573065372,
	"eval_sts-dev-768_spearman_cosine": 0.8113323371597876,
	"eval_sts-dev-960_pearson_cosine": 0.8088718794978185,
	"eval_sts-dev-960_spearman_cosine": 0.812389308544286,
	"step": 21500
	},
	{
	"epoch": 0.6062307044625316,
	"grad_norm": 919804.125,
	"learning_rate": 2.18760719743038e-05,
	"loss": 1.3294,
	"step": 21600
	},
	{
	"epoch": 0.6118439517260735,
	"grad_norm": 1363194.375,
	"learning_rate": 2.156422490410703e-05,
	"loss": 1.3076,
	"step": 21800
	},
	{
	"epoch": 0.6174571989896155,
	"grad_norm": 1170667.75,
	"learning_rate": 2.125237783391025e-05,
	"loss": 1.2634,
	"step": 22000
	},
	{
	"epoch": 0.6174571989896155,
	"eval_loss": 2.615736484527588,
	"eval_runtime": 77.1191,
	"eval_samples_per_second": 85.699,
	"eval_sequential_score": 0.8135000785581838,
	"eval_steps_per_second": 1.349,
	"eval_sts-dev-1152_pearson_cosine": 0.8105061703368251,
	"eval_sts-dev-1152_spearman_cosine": 0.8135000785581838,
	"eval_sts-dev-512_pearson_cosine": 0.8074183216846054,
	"eval_sts-dev-512_spearman_cosine": 0.8123168589567965,
	"eval_sts-dev-768_pearson_cosine": 0.808323777710555,
	"eval_sts-dev-768_spearman_cosine": 0.8122644439071114,
	"eval_sts-dev-960_pearson_cosine": 0.809931025467389,
	"eval_sts-dev-960_spearman_cosine": 0.8131210124611652,
	"step": 22000
	},
	{
	"epoch": 0.6230704462531574,
	"grad_norm": 2690514.75,
	"learning_rate": 2.0940530763713477e-05,
	"loss": 1.242,
	"step": 22200
	},
	{
	"epoch": 0.6286836935166994,
	"grad_norm": 687846.625,
	"learning_rate": 2.06286836935167e-05,
	"loss": 1.2545,
	"step": 22400
	},
	{
	"epoch": 0.6314903171484704,
	"eval_loss": 2.6083288192749023,
	"eval_runtime": 76.9345,
	"eval_samples_per_second": 85.904,
	"eval_sequential_score": 0.8198803113021629,
	"eval_steps_per_second": 1.352,
	"eval_sts-dev-1152_pearson_cosine": 0.8155088381997109,
	"eval_sts-dev-1152_spearman_cosine": 0.8198803113021629,
	"eval_sts-dev-512_pearson_cosine": 0.8119264111774269,
	"eval_sts-dev-512_spearman_cosine": 0.817475857375689,
	"eval_sts-dev-768_pearson_cosine": 0.8125582626459574,
	"eval_sts-dev-768_spearman_cosine": 0.8178761844864308,
	"eval_sts-dev-960_pearson_cosine": 0.8147256189246097,
	"eval_sts-dev-960_spearman_cosine": 0.8192721867604403,
	"step": 22500
	},
	{
	"epoch": 0.6342969407802413,
	"grad_norm": 1860284.25,
	"learning_rate": 2.0316836623319925e-05,
	"loss": 1.2362,
	"step": 22600
	},
	{
	"epoch": 0.6399101880437833,
	"grad_norm": 7078587.0,
	"learning_rate": 2.000498955312315e-05,
	"loss": 1.1474,
	"step": 22800
	},
	{
	"epoch": 0.6455234353073253,
	"grad_norm": 1408995.125,
	"learning_rate": 1.9693142482926373e-05,
	"loss": 1.2125,
	"step": 23000
	},
	{
	"epoch": 0.6455234353073253,
	"eval_loss": 2.5617470741271973,
	"eval_runtime": 76.5184,
	"eval_samples_per_second": 86.371,
	"eval_sequential_score": 0.8207731554186944,
	"eval_steps_per_second": 1.359,
	"eval_sts-dev-1152_pearson_cosine": 0.8178959248835184,
	"eval_sts-dev-1152_spearman_cosine": 0.8207731554186944,
	"eval_sts-dev-512_pearson_cosine": 0.8140061268760344,
	"eval_sts-dev-512_spearman_cosine": 0.8180611571485459,
	"eval_sts-dev-768_pearson_cosine": 0.8150538202678299,
	"eval_sts-dev-768_spearman_cosine": 0.8188299877250856,
	"eval_sts-dev-960_pearson_cosine": 0.8170381399447351,
	"eval_sts-dev-960_spearman_cosine": 0.8200353073212047,
	"step": 23000
	},
	{
	"epoch": 0.6511366825708672,
	"grad_norm": 1224838.5,
	"learning_rate": 1.9381295412729597e-05,
	"loss": 1.206,
	"step": 23200
	},
	{
	"epoch": 0.6567499298344092,
	"grad_norm": 855258.6875,
	"learning_rate": 1.906944834253282e-05,
	"loss": 1.1236,
	"step": 23400
	},
	{
	"epoch": 0.6595565534661801,
	"eval_loss": 2.5598337650299072,
	"eval_runtime": 77.1811,
	"eval_samples_per_second": 85.63,
	"eval_sequential_score": 0.8251304266663447,
	"eval_steps_per_second": 1.347,
	"eval_sts-dev-1152_pearson_cosine": 0.8201666525971009,
	"eval_sts-dev-1152_spearman_cosine": 0.8251304266663447,
	"eval_sts-dev-512_pearson_cosine": 0.8165225072856572,
	"eval_sts-dev-512_spearman_cosine": 0.8231945111392679,
	"eval_sts-dev-768_pearson_cosine": 0.8174329120885295,
	"eval_sts-dev-768_spearman_cosine": 0.8234756819083271,
	"eval_sts-dev-960_pearson_cosine": 0.8193489194006733,
	"eval_sts-dev-960_spearman_cosine": 0.8246625530393321,
	"step": 23500
	},
	{
	"epoch": 0.6623631770979511,
	"grad_norm": 919016.75,
	"learning_rate": 1.875760127233605e-05,
	"loss": 1.1785,
	"step": 23600
	},
	{
	"epoch": 0.6679764243614931,
	"grad_norm": 757121.4375,
	"learning_rate": 1.844575420213927e-05,
	"loss": 1.1376,
	"step": 23800
	},
	{
	"epoch": 0.6735896716250351,
	"grad_norm": 844441.125,
	"learning_rate": 1.8133907131942497e-05,
	"loss": 1.1386,
	"step": 24000
	},
	{
	"epoch": 0.6735896716250351,
	"eval_loss": 2.522897958755493,
	"eval_runtime": 79.1821,
	"eval_samples_per_second": 83.466,
	"eval_sequential_score": 0.8207794501178992,
	"eval_steps_per_second": 1.313,
	"eval_sts-dev-1152_pearson_cosine": 0.8186757389035366,
	"eval_sts-dev-1152_spearman_cosine": 0.8207794501178992,
	"eval_sts-dev-512_pearson_cosine": 0.8149579009500032,
	"eval_sts-dev-512_spearman_cosine": 0.8186514991034529,
	"eval_sts-dev-768_pearson_cosine": 0.8158079152733716,
	"eval_sts-dev-768_spearman_cosine": 0.8186101448904235,
	"eval_sts-dev-960_pearson_cosine": 0.8173995719285795,
	"eval_sts-dev-960_spearman_cosine": 0.8198375969222076,
	"step": 24000
	},
	{
	"epoch": 0.6792029188885771,
	"grad_norm": 2238345.25,
	"learning_rate": 1.782206006174572e-05,
	"loss": 1.1293,
	"step": 24200
	},
	{
	"epoch": 0.684816166152119,
	"grad_norm": 1067979.625,
	"learning_rate": 1.7510212991548945e-05,
	"loss": 1.101,
	"step": 24400
	},
	{
	"epoch": 0.68762278978389,
	"eval_loss": 2.542306661605835,
	"eval_runtime": 78.4755,
	"eval_samples_per_second": 84.217,
	"eval_sequential_score": 0.8273983158949195,
	"eval_steps_per_second": 1.325,
	"eval_sts-dev-1152_pearson_cosine": 0.8233467985109526,
	"eval_sts-dev-1152_spearman_cosine": 0.8273983158949195,
	"eval_sts-dev-512_pearson_cosine": 0.8191791525417332,
	"eval_sts-dev-512_spearman_cosine": 0.8241280875045953,
	"eval_sts-dev-768_pearson_cosine": 0.8205748238510661,
	"eval_sts-dev-768_spearman_cosine": 0.8253162521368189,
	"eval_sts-dev-960_pearson_cosine": 0.8223154809807092,
	"eval_sts-dev-960_spearman_cosine": 0.8263287206559005,
	"step": 24500
	},
	{
	"epoch": 0.690429413415661,
	"grad_norm": 1075801.875,
	"learning_rate": 1.719836592135217e-05,
	"loss": 1.1306,
	"step": 24600
	},
	{
	"epoch": 0.696042660679203,
	"grad_norm": 1117327.75,
	"learning_rate": 1.6886518851155393e-05,
	"loss": 1.0517,
	"step": 24800
	},
	{
	"epoch": 0.7016559079427449,
	"grad_norm": 1052429.25,
	"learning_rate": 1.657467178095862e-05,
	"loss": 1.0617,
	"step": 25000
	},
	{
	"epoch": 0.7016559079427449,
	"eval_loss": 2.4987776279449463,
	"eval_runtime": 78.7361,
	"eval_samples_per_second": 83.939,
	"eval_sequential_score": 0.8318737027912343,
	"eval_steps_per_second": 1.321,
	"eval_sts-dev-1152_pearson_cosine": 0.828742240805668,
	"eval_sts-dev-1152_spearman_cosine": 0.8318737027912343,
	"eval_sts-dev-512_pearson_cosine": 0.8253460176937367,
	"eval_sts-dev-512_spearman_cosine": 0.8296126954497343,
	"eval_sts-dev-768_pearson_cosine": 0.8260069313893207,
	"eval_sts-dev-768_spearman_cosine": 0.8299749701259963,
	"eval_sts-dev-960_pearson_cosine": 0.8277316254972338,
	"eval_sts-dev-960_spearman_cosine": 0.8309505358919553,
	"step": 25000
	},
	{
	"epoch": 0.7072691552062869,
	"grad_norm": 1933842.375,
	"learning_rate": 1.626282471076184e-05,
	"loss": 1.0408,
	"step": 25200
	},
	{
	"epoch": 0.7128824024698288,
	"grad_norm": 1313519.75,
	"learning_rate": 1.595097764056507e-05,
	"loss": 1.0741,
	"step": 25400
	},
	{
	"epoch": 0.7156890261015998,
	"eval_loss": 2.4365484714508057,
	"eval_runtime": 76.9868,
	"eval_samples_per_second": 85.846,
	"eval_sequential_score": 0.8275808733889652,
	"eval_steps_per_second": 1.351,
	"eval_sts-dev-1152_pearson_cosine": 0.8235693092621815,
	"eval_sts-dev-1152_spearman_cosine": 0.8275808733889652,
	"eval_sts-dev-512_pearson_cosine": 0.8200900106962739,
	"eval_sts-dev-512_spearman_cosine": 0.8251150183246924,
	"eval_sts-dev-768_pearson_cosine": 0.8206274312682788,
	"eval_sts-dev-768_spearman_cosine": 0.8253381212332793,
	"eval_sts-dev-960_pearson_cosine": 0.8226055577499416,
	"eval_sts-dev-960_spearman_cosine": 0.8267093188750975,
	"step": 25500
	},
	{
	"epoch": 0.7184956497333708,
	"grad_norm": 2527256.75,
	"learning_rate": 1.5639130570368293e-05,
	"loss": 1.0373,
	"step": 25600
	},
	{
	"epoch": 0.7241088969969127,
	"grad_norm": 1548847.25,
	"learning_rate": 1.5327283500171517e-05,
	"loss": 1.0239,
	"step": 25800
	},
	{
	"epoch": 0.7297221442604547,
	"grad_norm": 771091.3125,
	"learning_rate": 1.5015436429974741e-05,
	"loss": 0.9982,
	"step": 26000
	},
	{
	"epoch": 0.7297221442604547,
	"eval_loss": 2.417414903640747,
	"eval_runtime": 76.5981,
	"eval_samples_per_second": 86.282,
	"eval_sequential_score": 0.8253319450226069,
	"eval_steps_per_second": 1.358,
	"eval_sts-dev-1152_pearson_cosine": 0.8229695273001155,
	"eval_sts-dev-1152_spearman_cosine": 0.8253319450226069,
	"eval_sts-dev-512_pearson_cosine": 0.8186723943926887,
	"eval_sts-dev-512_spearman_cosine": 0.8223105621184139,
	"eval_sts-dev-768_pearson_cosine": 0.8198835227077859,
	"eval_sts-dev-768_spearman_cosine": 0.8231779055377496,
	"eval_sts-dev-960_pearson_cosine": 0.8221140652235788,
	"eval_sts-dev-960_spearman_cosine": 0.8246685858536678,
	"step": 26000
	},
	{
	"epoch": 0.7353353915239966,
	"grad_norm": 1151759.625,
	"learning_rate": 1.4703589359777967e-05,
	"loss": 0.9829,
	"step": 26200
	},
	{
	"epoch": 0.7409486387875386,
	"grad_norm": 1203075.5,
	"learning_rate": 1.439174228958119e-05,
	"loss": 0.9758,
	"step": 26400
	},
	{
	"epoch": 0.7437552624193096,
	"eval_loss": 2.421391010284424,
	"eval_runtime": 78.2685,
	"eval_samples_per_second": 84.44,
	"eval_sequential_score": 0.8273907944767567,
	"eval_steps_per_second": 1.329,
	"eval_sts-dev-1152_pearson_cosine": 0.8245632242048817,
	"eval_sts-dev-1152_spearman_cosine": 0.8273907944767567,
	"eval_sts-dev-512_pearson_cosine": 0.821320018207968,
	"eval_sts-dev-512_spearman_cosine": 0.8249051957336987,
	"eval_sts-dev-768_pearson_cosine": 0.8222668265396057,
	"eval_sts-dev-768_spearman_cosine": 0.8258229540823162,
	"eval_sts-dev-960_pearson_cosine": 0.8239329103520061,
	"eval_sts-dev-960_spearman_cosine": 0.8268971547689833,
	"step": 26500
	},
	{
	"epoch": 0.7465618860510805,
	"grad_norm": 873702.5625,
	"learning_rate": 1.4079895219384415e-05,
	"loss": 1.0123,
	"step": 26600
	},
	{
	"epoch": 0.7521751333146225,
	"grad_norm": 1191796.125,
	"learning_rate": 1.3768048149187641e-05,
	"loss": 1.0156,
	"step": 26800
	},
	{
	"epoch": 0.7577883805781644,
	"grad_norm": 3614394.75,
	"learning_rate": 1.3456201078990863e-05,
	"loss": 0.9687,
	"step": 27000
	},
	{
	"epoch": 0.7577883805781644,
	"eval_loss": 2.381603240966797,
	"eval_runtime": 76.1545,
	"eval_samples_per_second": 86.784,
	"eval_sequential_score": 0.822164187171298,
	"eval_steps_per_second": 1.366,
	"eval_sts-dev-1152_pearson_cosine": 0.8179990780257289,
	"eval_sts-dev-1152_spearman_cosine": 0.822164187171298,
	"eval_sts-dev-512_pearson_cosine": 0.8141681847358285,
	"eval_sts-dev-512_spearman_cosine": 0.8190636570312585,
	"eval_sts-dev-768_pearson_cosine": 0.8154464750993287,
	"eval_sts-dev-768_spearman_cosine": 0.8202098023000759,
	"eval_sts-dev-960_pearson_cosine": 0.8171115628702965,
	"eval_sts-dev-960_spearman_cosine": 0.821364481930215,
	"step": 27000
	},
	{
	"epoch": 0.7634016278417064,
	"grad_norm": 1148854.5,
	"learning_rate": 1.3144354008794087e-05,
	"loss": 0.9569,
	"step": 27200
	},
	{
	"epoch": 0.7690148751052484,
	"grad_norm": 1114442.0,
	"learning_rate": 1.2832506938597313e-05,
	"loss": 0.9543,
	"step": 27400
	},
	{
	"epoch": 0.7718214987370193,
	"eval_loss": 2.355195999145508,
	"eval_runtime": 76.6074,
	"eval_samples_per_second": 86.271,
	"eval_sequential_score": 0.8289062223349991,
	"eval_steps_per_second": 1.358,
	"eval_sts-dev-1152_pearson_cosine": 0.8234371744631814,
	"eval_sts-dev-1152_spearman_cosine": 0.8289062223349991,
	"eval_sts-dev-512_pearson_cosine": 0.8207871259825303,
	"eval_sts-dev-512_spearman_cosine": 0.8272360451735147,
	"eval_sts-dev-768_pearson_cosine": 0.8214215565214141,
	"eval_sts-dev-768_spearman_cosine": 0.8275606625119857,
	"eval_sts-dev-960_pearson_cosine": 0.8229212299901374,
	"eval_sts-dev-960_spearman_cosine": 0.8283389770018872,
	"step": 27500
	},
	{
	"epoch": 0.7746281223687903,
	"grad_norm": 1473106.125,
	"learning_rate": 1.2520659868400536e-05,
	"loss": 0.9453,
	"step": 27600
	},
	{
	"epoch": 0.7802413696323323,
	"grad_norm": 1301560.0,
	"learning_rate": 1.2208812798203761e-05,
	"loss": 0.9948,
	"step": 27800
	},
	{
	"epoch": 0.7858546168958742,
	"grad_norm": 689391.125,
	"learning_rate": 1.1896965728006985e-05,
	"loss": 0.9874,
	"step": 28000
	},
	{
	"epoch": 0.7858546168958742,
	"eval_loss": 2.3867998123168945,
	"eval_runtime": 77.0268,
	"eval_samples_per_second": 85.801,
	"eval_sequential_score": 0.8280466360566167,
	"eval_steps_per_second": 1.35,
	"eval_sts-dev-1152_pearson_cosine": 0.8240164476876701,
	"eval_sts-dev-1152_spearman_cosine": 0.8280466360566167,
	"eval_sts-dev-512_pearson_cosine": 0.8215847717028831,
	"eval_sts-dev-512_spearman_cosine": 0.8264438807620287,
	"eval_sts-dev-768_pearson_cosine": 0.8221793287179034,
	"eval_sts-dev-768_spearman_cosine": 0.8268230282109075,
	"eval_sts-dev-960_pearson_cosine": 0.8233492812551204,
	"eval_sts-dev-960_spearman_cosine": 0.8274233448566846,
	"step": 28000
	},
	{
	"epoch": 0.7914678641594162,
	"grad_norm": 1482000.5,
	"learning_rate": 1.1585118657810211e-05,
	"loss": 0.8872,
	"step": 28200
	},
	{
	"epoch": 0.7970811114229582,
	"grad_norm": 11877957.0,
	"learning_rate": 1.1273271587613435e-05,
	"loss": 0.9327,
	"step": 28400
	},
	{
	"epoch": 0.7998877350547292,
	"eval_loss": 2.3834006786346436,
	"eval_runtime": 76.4589,
	"eval_samples_per_second": 86.439,
	"eval_sequential_score": 0.8250187145214471,
	"eval_steps_per_second": 1.36,
	"eval_sts-dev-1152_pearson_cosine": 0.821012856551093,
	"eval_sts-dev-1152_spearman_cosine": 0.8250187145214471,
	"eval_sts-dev-512_pearson_cosine": 0.8184871654411439,
	"eval_sts-dev-512_spearman_cosine": 0.823483460862761,
	"eval_sts-dev-768_pearson_cosine": 0.8190353483169376,
	"eval_sts-dev-768_spearman_cosine": 0.8237308290024404,
	"eval_sts-dev-960_pearson_cosine": 0.8205974063302174,
	"eval_sts-dev-960_spearman_cosine": 0.8245795527826257,
	"step": 28500
	},
	{
	"epoch": 0.8026943586865002,
	"grad_norm": 993543.625,
	"learning_rate": 1.096142451741666e-05,
	"loss": 0.8715,
	"step": 28600
	},
	{
	"epoch": 0.8083076059500421,
	"grad_norm": 1650682.25,
	"learning_rate": 1.0649577447219884e-05,
	"loss": 0.9566,
	"step": 28800
	},
	{
	"epoch": 0.8139208532135841,
	"grad_norm": 1086581.625,
	"learning_rate": 1.0337730377023108e-05,
	"loss": 0.9265,
	"step": 29000
	},
	{
	"epoch": 0.8139208532135841,
	"eval_loss": 2.345508337020874,
	"eval_runtime": 78.2528,
	"eval_samples_per_second": 84.457,
	"eval_sequential_score": 0.8306689922163598,
	"eval_steps_per_second": 1.329,
	"eval_sts-dev-1152_pearson_cosine": 0.8264443610084379,
	"eval_sts-dev-1152_spearman_cosine": 0.8306689922163598,
	"eval_sts-dev-512_pearson_cosine": 0.8238103920299558,
	"eval_sts-dev-512_spearman_cosine": 0.8293245725151981,
	"eval_sts-dev-768_pearson_cosine": 0.8243518007889306,
	"eval_sts-dev-768_spearman_cosine": 0.8293091429698137,
	"eval_sts-dev-960_pearson_cosine": 0.8258566703064338,
	"eval_sts-dev-960_spearman_cosine": 0.830247434103489,
	"step": 29000
	}
	],
	"logging_steps": 200,
	"max_steps": 35630,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}