Training in progress, step 405, checkpoint

bb182c7 verified about 1 year ago

71.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 9.200557103064067,
	"eval_steps": 5,
	"global_step": 405,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.11142061281337047,
	"eval_loss": 0.037675488740205765,
	"eval_runtime": 6.7342,
	"eval_samples_per_second": 222.743,
	"eval_steps_per_second": 27.917,
	"eval_sts_dev_pearson_cosine": 0.7494115429773479,
	"eval_sts_dev_pearson_dot": 0.6583752142885668,
	"eval_sts_dev_pearson_euclidean": 0.6941454281465765,
	"eval_sts_dev_pearson_manhattan": 0.6964259759684527,
	"eval_sts_dev_pearson_max": 0.7494115429773479,
	"eval_sts_dev_spearman_cosine": 0.7470700524367354,
	"eval_sts_dev_spearman_dot": 0.6497928276890669,
	"eval_sts_dev_spearman_euclidean": 0.684590776689316,
	"eval_sts_dev_spearman_manhattan": 0.6873610947323412,
	"eval_sts_dev_spearman_max": 0.7470700524367354,
	"step": 5
	},
	{
	"epoch": 0.22284122562674094,
	"grad_norm": 6.7429633140563965,
	"learning_rate": 6.957731779439903e-08,
	"loss": 0.6923,
	"step": 10
	},
	{
	"epoch": 0.22284122562674094,
	"eval_loss": 0.0376589335501194,
	"eval_runtime": 6.8403,
	"eval_samples_per_second": 219.29,
	"eval_steps_per_second": 27.484,
	"eval_sts_dev_pearson_cosine": 0.7494940477075391,
	"eval_sts_dev_pearson_dot": 0.6584328702717946,
	"eval_sts_dev_pearson_euclidean": 0.6942213054869852,
	"eval_sts_dev_pearson_manhattan": 0.6965001647458872,
	"eval_sts_dev_pearson_max": 0.7494940477075391,
	"eval_sts_dev_spearman_cosine": 0.7471377072884906,
	"eval_sts_dev_spearman_dot": 0.6498755431337675,
	"eval_sts_dev_spearman_euclidean": 0.6846545112671376,
	"eval_sts_dev_spearman_manhattan": 0.687454500948251,
	"eval_sts_dev_spearman_max": 0.7471377072884906,
	"step": 10
	},
	{
	"epoch": 0.3342618384401114,
	"eval_loss": 0.03763080760836601,
	"eval_runtime": 6.9686,
	"eval_samples_per_second": 215.253,
	"eval_steps_per_second": 26.978,
	"eval_sts_dev_pearson_cosine": 0.7496395035968593,
	"eval_sts_dev_pearson_dot": 0.6585292611324672,
	"eval_sts_dev_pearson_euclidean": 0.6943597344549325,
	"eval_sts_dev_pearson_manhattan": 0.6966356509027943,
	"eval_sts_dev_pearson_max": 0.7496395035968593,
	"eval_sts_dev_spearman_cosine": 0.747293071934341,
	"eval_sts_dev_spearman_dot": 0.6499672916131112,
	"eval_sts_dev_spearman_euclidean": 0.6848464778088699,
	"eval_sts_dev_spearman_manhattan": 0.6875927784863133,
	"eval_sts_dev_spearman_max": 0.747293071934341,
	"step": 15
	},
	{
	"epoch": 0.4456824512534819,
	"grad_norm": 7.523725986480713,
	"learning_rate": 1.3915463558879807e-07,
	"loss": 0.6832,
	"step": 20
	},
	{
	"epoch": 0.4456824512534819,
	"eval_loss": 0.03759082034230232,
	"eval_runtime": 6.9891,
	"eval_samples_per_second": 214.62,
	"eval_steps_per_second": 26.899,
	"eval_sts_dev_pearson_cosine": 0.7498515127163549,
	"eval_sts_dev_pearson_dot": 0.6586892126695529,
	"eval_sts_dev_pearson_euclidean": 0.6945632277600391,
	"eval_sts_dev_pearson_manhattan": 0.6968351270246123,
	"eval_sts_dev_pearson_max": 0.7498515127163549,
	"eval_sts_dev_spearman_cosine": 0.7475384213284385,
	"eval_sts_dev_spearman_dot": 0.6500677799755323,
	"eval_sts_dev_spearman_euclidean": 0.6850767084625934,
	"eval_sts_dev_spearman_manhattan": 0.6877654793239389,
	"eval_sts_dev_spearman_max": 0.7475384213284385,
	"step": 20
	},
	{
	"epoch": 0.5571030640668524,
	"eval_loss": 0.03754143416881561,
	"eval_runtime": 6.8247,
	"eval_samples_per_second": 219.79,
	"eval_steps_per_second": 27.547,
	"eval_sts_dev_pearson_cosine": 0.7501122656435163,
	"eval_sts_dev_pearson_dot": 0.6588212748683685,
	"eval_sts_dev_pearson_euclidean": 0.6948708332777139,
	"eval_sts_dev_pearson_manhattan": 0.6971351224061912,
	"eval_sts_dev_pearson_max": 0.7501122656435163,
	"eval_sts_dev_spearman_cosine": 0.7478755024321192,
	"eval_sts_dev_spearman_dot": 0.6502167543650381,
	"eval_sts_dev_spearman_euclidean": 0.6854436169483377,
	"eval_sts_dev_spearman_manhattan": 0.6880846722054696,
	"eval_sts_dev_spearman_max": 0.7478755024321192,
	"step": 25
	},
	{
	"epoch": 0.6685236768802229,
	"grad_norm": 7.176445960998535,
	"learning_rate": 2.0873195338319708e-07,
	"loss": 0.6787,
	"step": 30
	},
	{
	"epoch": 0.6685236768802229,
	"eval_loss": 0.037479061633348465,
	"eval_runtime": 6.9898,
	"eval_samples_per_second": 214.598,
	"eval_steps_per_second": 26.896,
	"eval_sts_dev_pearson_cosine": 0.7504502235424245,
	"eval_sts_dev_pearson_dot": 0.6589729935526047,
	"eval_sts_dev_pearson_euclidean": 0.6952782546669927,
	"eval_sts_dev_pearson_manhattan": 0.6975315748701472,
	"eval_sts_dev_pearson_max": 0.7504502235424245,
	"eval_sts_dev_spearman_cosine": 0.7483727549578874,
	"eval_sts_dev_spearman_dot": 0.6502927839552382,
	"eval_sts_dev_spearman_euclidean": 0.6858779938781956,
	"eval_sts_dev_spearman_manhattan": 0.6885426870287449,
	"eval_sts_dev_spearman_max": 0.7483727549578874,
	"step": 30
	},
	{
	"epoch": 0.7799442896935933,
	"eval_loss": 0.03741108253598213,
	"eval_runtime": 7.0272,
	"eval_samples_per_second": 213.456,
	"eval_steps_per_second": 26.753,
	"eval_sts_dev_pearson_cosine": 0.7508317539918448,
	"eval_sts_dev_pearson_dot": 0.6592089487188968,
	"eval_sts_dev_pearson_euclidean": 0.6957145823768739,
	"eval_sts_dev_pearson_manhattan": 0.6979566424519045,
	"eval_sts_dev_pearson_max": 0.7508317539918448,
	"eval_sts_dev_spearman_cosine": 0.7488095875667629,
	"eval_sts_dev_spearman_dot": 0.6505123414164061,
	"eval_sts_dev_spearman_euclidean": 0.6863890021142346,
	"eval_sts_dev_spearman_manhattan": 0.6889574531430644,
	"eval_sts_dev_spearman_max": 0.7488095875667629,
	"step": 35
	},
	{
	"epoch": 0.8913649025069638,
	"grad_norm": 5.811614036560059,
	"learning_rate": 2.7830927117759614e-07,
	"loss": 0.6154,
	"step": 40
	},
	{
	"epoch": 0.8913649025069638,
	"eval_loss": 0.03732568398118019,
	"eval_runtime": 6.9675,
	"eval_samples_per_second": 215.286,
	"eval_steps_per_second": 26.983,
	"eval_sts_dev_pearson_cosine": 0.7512943163494744,
	"eval_sts_dev_pearson_dot": 0.6595252251920851,
	"eval_sts_dev_pearson_euclidean": 0.6961931337237875,
	"eval_sts_dev_pearson_manhattan": 0.6984244275683631,
	"eval_sts_dev_pearson_max": 0.7512943163494744,
	"eval_sts_dev_spearman_cosine": 0.7494136836534844,
	"eval_sts_dev_spearman_dot": 0.6507477353375185,
	"eval_sts_dev_spearman_euclidean": 0.6869101418254764,
	"eval_sts_dev_spearman_manhattan": 0.6894841894318411,
	"eval_sts_dev_spearman_max": 0.7494136836534844,
	"step": 40
	},
	{
	"epoch": 1.0222841225626742,
	"eval_loss": 0.03723177686333656,
	"eval_runtime": 6.807,
	"eval_samples_per_second": 220.362,
	"eval_steps_per_second": 27.619,
	"eval_sts_dev_pearson_cosine": 0.7518064092372247,
	"eval_sts_dev_pearson_dot": 0.659916579804052,
	"eval_sts_dev_pearson_euclidean": 0.6966963956623822,
	"eval_sts_dev_pearson_manhattan": 0.6989173818306955,
	"eval_sts_dev_pearson_max": 0.7518064092372247,
	"eval_sts_dev_spearman_cosine": 0.7499673977394428,
	"eval_sts_dev_spearman_dot": 0.6509971484372724,
	"eval_sts_dev_spearman_euclidean": 0.6874727739859278,
	"eval_sts_dev_spearman_manhattan": 0.6900562750157024,
	"eval_sts_dev_spearman_max": 0.7499673977394428,
	"step": 45
	},
	{
	"epoch": 1.1337047353760445,
	"grad_norm": 5.788002014160156,
	"learning_rate": 3.4788658897199517e-07,
	"loss": 0.6231,
	"step": 50
	},
	{
	"epoch": 1.1337047353760445,
	"eval_loss": 0.03712593764066696,
	"eval_runtime": 6.8692,
	"eval_samples_per_second": 218.366,
	"eval_steps_per_second": 27.369,
	"eval_sts_dev_pearson_cosine": 0.7523963675159875,
	"eval_sts_dev_pearson_dot": 0.6603951554863274,
	"eval_sts_dev_pearson_euclidean": 0.6972537699536556,
	"eval_sts_dev_pearson_manhattan": 0.6994643420859175,
	"eval_sts_dev_pearson_max": 0.7523963675159875,
	"eval_sts_dev_spearman_cosine": 0.750612531997651,
	"eval_sts_dev_spearman_dot": 0.6513909659491809,
	"eval_sts_dev_spearman_euclidean": 0.6881037653193015,
	"eval_sts_dev_spearman_manhattan": 0.690698809264565,
	"eval_sts_dev_spearman_max": 0.750612531997651,
	"step": 50
	},
	{
	"epoch": 1.2451253481894151,
	"eval_loss": 0.03701437637209892,
	"eval_runtime": 6.9079,
	"eval_samples_per_second": 217.142,
	"eval_steps_per_second": 27.215,
	"eval_sts_dev_pearson_cosine": 0.7530298660085821,
	"eval_sts_dev_pearson_dot": 0.6608066497022934,
	"eval_sts_dev_pearson_euclidean": 0.6979265726405308,
	"eval_sts_dev_pearson_manhattan": 0.7001220235641434,
	"eval_sts_dev_pearson_max": 0.7530298660085821,
	"eval_sts_dev_spearman_cosine": 0.7512373553393066,
	"eval_sts_dev_spearman_dot": 0.6517398579494034,
	"eval_sts_dev_spearman_euclidean": 0.6888011095183327,
	"eval_sts_dev_spearman_manhattan": 0.691414492932023,
	"eval_sts_dev_spearman_max": 0.7512373553393066,
	"step": 55
	},
	{
	"epoch": 1.3565459610027855,
	"grad_norm": 6.15402889251709,
	"learning_rate": 4.1746390676639416e-07,
	"loss": 0.6562,
	"step": 60
	},
	{
	"epoch": 1.3565459610027855,
	"eval_loss": 0.03689862787723541,
	"eval_runtime": 7.0618,
	"eval_samples_per_second": 212.409,
	"eval_steps_per_second": 26.622,
	"eval_sts_dev_pearson_cosine": 0.7536755590598476,
	"eval_sts_dev_pearson_dot": 0.6612397236569308,
	"eval_sts_dev_pearson_euclidean": 0.6986261571902858,
	"eval_sts_dev_pearson_manhattan": 0.7008037618197723,
	"eval_sts_dev_pearson_max": 0.7536755590598476,
	"eval_sts_dev_spearman_cosine": 0.7518746736763288,
	"eval_sts_dev_spearman_dot": 0.6520463167363649,
	"eval_sts_dev_spearman_euclidean": 0.6896250409475332,
	"eval_sts_dev_spearman_manhattan": 0.6921595229559657,
	"eval_sts_dev_spearman_max": 0.7518746736763288,
	"step": 60
	},
	{
	"epoch": 1.467966573816156,
	"eval_loss": 0.03677487000823021,
	"eval_runtime": 7.0563,
	"eval_samples_per_second": 212.575,
	"eval_steps_per_second": 26.643,
	"eval_sts_dev_pearson_cosine": 0.7543139332813571,
	"eval_sts_dev_pearson_dot": 0.6616585186532069,
	"eval_sts_dev_pearson_euclidean": 0.6993248351610868,
	"eval_sts_dev_pearson_manhattan": 0.701480628825091,
	"eval_sts_dev_pearson_max": 0.7543139332813571,
	"eval_sts_dev_spearman_cosine": 0.7525649831393398,
	"eval_sts_dev_spearman_dot": 0.6522844686788962,
	"eval_sts_dev_spearman_euclidean": 0.6904248656764869,
	"eval_sts_dev_spearman_manhattan": 0.6929891697203803,
	"eval_sts_dev_spearman_max": 0.7525649831393398,
	"step": 65
	},
	{
	"epoch": 1.5793871866295266,
	"grad_norm": 7.177963733673096,
	"learning_rate": 4.870412245607932e-07,
	"loss": 0.6578,
	"step": 70
	},
	{
	"epoch": 1.5793871866295266,
	"eval_loss": 0.036648884415626526,
	"eval_runtime": 6.959,
	"eval_samples_per_second": 215.549,
	"eval_steps_per_second": 27.015,
	"eval_sts_dev_pearson_cosine": 0.7550016826683398,
	"eval_sts_dev_pearson_dot": 0.6621754750211006,
	"eval_sts_dev_pearson_euclidean": 0.7000072525876023,
	"eval_sts_dev_pearson_manhattan": 0.7021439545430929,
	"eval_sts_dev_pearson_max": 0.7550016826683398,
	"eval_sts_dev_spearman_cosine": 0.7533627904462605,
	"eval_sts_dev_spearman_dot": 0.6528254486243784,
	"eval_sts_dev_spearman_euclidean": 0.6912255844955055,
	"eval_sts_dev_spearman_manhattan": 0.693756112728956,
	"eval_sts_dev_spearman_max": 0.7533627904462605,
	"step": 70
	},
	{
	"epoch": 1.690807799442897,
	"eval_loss": 0.03651271015405655,
	"eval_runtime": 7.007,
	"eval_samples_per_second": 214.073,
	"eval_steps_per_second": 26.83,
	"eval_sts_dev_pearson_cosine": 0.7558035417500417,
	"eval_sts_dev_pearson_dot": 0.6628193044191966,
	"eval_sts_dev_pearson_euclidean": 0.7007736916543533,
	"eval_sts_dev_pearson_manhattan": 0.7028932537624881,
	"eval_sts_dev_pearson_max": 0.7558035417500417,
	"eval_sts_dev_spearman_cosine": 0.7541058046949494,
	"eval_sts_dev_spearman_dot": 0.6534460767465545,
	"eval_sts_dev_spearman_euclidean": 0.6920637091980477,
	"eval_sts_dev_spearman_manhattan": 0.6945583716986528,
	"eval_sts_dev_spearman_max": 0.7541058046949494,
	"step": 75
	},
	{
	"epoch": 1.8022284122562673,
	"grad_norm": 5.0526251792907715,
	"learning_rate": 5.566185423551923e-07,
	"loss": 0.6669,
	"step": 80
	},
	{
	"epoch": 1.8022284122562673,
	"eval_loss": 0.03638559579849243,
	"eval_runtime": 6.7319,
	"eval_samples_per_second": 222.821,
	"eval_steps_per_second": 27.927,
	"eval_sts_dev_pearson_cosine": 0.7566016073951273,
	"eval_sts_dev_pearson_dot": 0.6635483139977033,
	"eval_sts_dev_pearson_euclidean": 0.7014893647689773,
	"eval_sts_dev_pearson_manhattan": 0.703594324322853,
	"eval_sts_dev_pearson_max": 0.7566016073951273,
	"eval_sts_dev_spearman_cosine": 0.7549242270132541,
	"eval_sts_dev_spearman_dot": 0.6540274190985176,
	"eval_sts_dev_spearman_euclidean": 0.6927527403904686,
	"eval_sts_dev_spearman_manhattan": 0.695333682691011,
	"eval_sts_dev_spearman_max": 0.7549242270132541,
	"step": 80
	},
	{
	"epoch": 1.9136490250696379,
	"eval_loss": 0.036259058862924576,
	"eval_runtime": 7.0619,
	"eval_samples_per_second": 212.407,
	"eval_steps_per_second": 26.622,
	"eval_sts_dev_pearson_cosine": 0.7574029038481553,
	"eval_sts_dev_pearson_dot": 0.6643528168117957,
	"eval_sts_dev_pearson_euclidean": 0.7021549030740968,
	"eval_sts_dev_pearson_manhattan": 0.7042456310839478,
	"eval_sts_dev_pearson_max": 0.7574029038481553,
	"eval_sts_dev_spearman_cosine": 0.7559011874733633,
	"eval_sts_dev_spearman_dot": 0.654608486564625,
	"eval_sts_dev_spearman_euclidean": 0.6934728497203049,
	"eval_sts_dev_spearman_manhattan": 0.696009977505159,
	"eval_sts_dev_spearman_max": 0.7559011874733633,
	"step": 85
	},
	{
	"epoch": 2.0445682451253484,
	"grad_norm": 7.539985656738281,
	"learning_rate": 6.261958601495913e-07,
	"loss": 0.6428,
	"step": 90
	},
	{
	"epoch": 2.0445682451253484,
	"eval_loss": 0.036127302795648575,
	"eval_runtime": 7.0107,
	"eval_samples_per_second": 213.958,
	"eval_steps_per_second": 26.816,
	"eval_sts_dev_pearson_cosine": 0.7582160683192293,
	"eval_sts_dev_pearson_dot": 0.6651865048982631,
	"eval_sts_dev_pearson_euclidean": 0.7028452108161203,
	"eval_sts_dev_pearson_manhattan": 0.7049193272018017,
	"eval_sts_dev_pearson_max": 0.7582160683192293,
	"eval_sts_dev_spearman_cosine": 0.756839547083474,
	"eval_sts_dev_spearman_dot": 0.6554766310741506,
	"eval_sts_dev_spearman_euclidean": 0.6942368514501571,
	"eval_sts_dev_spearman_manhattan": 0.6967968978437559,
	"eval_sts_dev_spearman_max": 0.756839547083474,
	"step": 90
	},
	{
	"epoch": 2.1559888579387185,
	"eval_loss": 0.03598429635167122,
	"eval_runtime": 6.8629,
	"eval_samples_per_second": 218.568,
	"eval_steps_per_second": 27.394,
	"eval_sts_dev_pearson_cosine": 0.7590157349155543,
	"eval_sts_dev_pearson_dot": 0.6664047922354215,
	"eval_sts_dev_pearson_euclidean": 0.7032597502450331,
	"eval_sts_dev_pearson_manhattan": 0.7053311453976816,
	"eval_sts_dev_pearson_max": 0.7590157349155543,
	"eval_sts_dev_spearman_cosine": 0.7577360756559688,
	"eval_sts_dev_spearman_dot": 0.6567130424552957,
	"eval_sts_dev_spearman_euclidean": 0.694683268380771,
	"eval_sts_dev_spearman_manhattan": 0.6973000099834088,
	"eval_sts_dev_spearman_max": 0.7577360756559688,
	"step": 95
	},
	{
	"epoch": 2.267409470752089,
	"grad_norm": 5.178345680236816,
	"learning_rate": 6.957731779439903e-07,
	"loss": 0.5854,
	"step": 100
	},
	{
	"epoch": 2.267409470752089,
	"eval_loss": 0.03583008423447609,
	"eval_runtime": 7.173,
	"eval_samples_per_second": 209.119,
	"eval_steps_per_second": 26.21,
	"eval_sts_dev_pearson_cosine": 0.7597921519073876,
	"eval_sts_dev_pearson_dot": 0.6678122125215467,
	"eval_sts_dev_pearson_euclidean": 0.7035339087302831,
	"eval_sts_dev_pearson_manhattan": 0.7056098859433702,
	"eval_sts_dev_pearson_max": 0.7597921519073876,
	"eval_sts_dev_spearman_cosine": 0.758602852970159,
	"eval_sts_dev_spearman_dot": 0.6582467955758544,
	"eval_sts_dev_spearman_euclidean": 0.6948605697617651,
	"eval_sts_dev_spearman_manhattan": 0.6975703877172783,
	"eval_sts_dev_spearman_max": 0.758602852970159,
	"step": 100
	},
	{
	"epoch": 2.3788300835654597,
	"eval_loss": 0.035686325281858444,
	"eval_runtime": 7.0872,
	"eval_samples_per_second": 211.649,
	"eval_steps_per_second": 26.527,
	"eval_sts_dev_pearson_cosine": 0.7606568693270315,
	"eval_sts_dev_pearson_dot": 0.6687514434055418,
	"eval_sts_dev_pearson_euclidean": 0.704286798579542,
	"eval_sts_dev_pearson_manhattan": 0.7063472791256069,
	"eval_sts_dev_pearson_max": 0.7606568693270315,
	"eval_sts_dev_spearman_cosine": 0.7597087921768803,
	"eval_sts_dev_spearman_dot": 0.658946428183679,
	"eval_sts_dev_spearman_euclidean": 0.695592274693547,
	"eval_sts_dev_spearman_manhattan": 0.6983308228030709,
	"eval_sts_dev_spearman_max": 0.7597087921768803,
	"step": 105
	},
	{
	"epoch": 2.4902506963788302,
	"grad_norm": 5.807418346405029,
	"learning_rate": 7.653504957383893e-07,
	"loss": 0.6027,
	"step": 110
	},
	{
	"epoch": 2.4902506963788302,
	"eval_loss": 0.035556692630052567,
	"eval_runtime": 7.0493,
	"eval_samples_per_second": 212.788,
	"eval_steps_per_second": 26.669,
	"eval_sts_dev_pearson_cosine": 0.761527279815679,
	"eval_sts_dev_pearson_dot": 0.6695555734987789,
	"eval_sts_dev_pearson_euclidean": 0.705168673869323,
	"eval_sts_dev_pearson_manhattan": 0.7072038979059934,
	"eval_sts_dev_pearson_max": 0.761527279815679,
	"eval_sts_dev_spearman_cosine": 0.760744250643423,
	"eval_sts_dev_spearman_dot": 0.6597526569449198,
	"eval_sts_dev_spearman_euclidean": 0.6967183194293859,
	"eval_sts_dev_spearman_manhattan": 0.6992467241695522,
	"eval_sts_dev_spearman_max": 0.760744250643423,
	"step": 110
	},
	{
	"epoch": 2.6016713091922004,
	"eval_loss": 0.03542407229542732,
	"eval_runtime": 6.8156,
	"eval_samples_per_second": 220.083,
	"eval_steps_per_second": 27.584,
	"eval_sts_dev_pearson_cosine": 0.7623648733142145,
	"eval_sts_dev_pearson_dot": 0.6704772598451654,
	"eval_sts_dev_pearson_euclidean": 0.7059197567148983,
	"eval_sts_dev_pearson_manhattan": 0.7079355090955533,
	"eval_sts_dev_pearson_max": 0.7623648733142145,
	"eval_sts_dev_spearman_cosine": 0.7618131283610858,
	"eval_sts_dev_spearman_dot": 0.6605908503497494,
	"eval_sts_dev_spearman_euclidean": 0.6976245585578177,
	"eval_sts_dev_spearman_manhattan": 0.7002055764519721,
	"eval_sts_dev_spearman_max": 0.7618131283610858,
	"step": 115
	},
	{
	"epoch": 2.713091922005571,
	"grad_norm": 4.760545253753662,
	"learning_rate": 8.349278135327883e-07,
	"loss": 0.6375,
	"step": 120
	},
	{
	"epoch": 2.713091922005571,
	"eval_loss": 0.03528669476509094,
	"eval_runtime": 6.9936,
	"eval_samples_per_second": 214.481,
	"eval_steps_per_second": 26.882,
	"eval_sts_dev_pearson_cosine": 0.7631052098822656,
	"eval_sts_dev_pearson_dot": 0.6714460378701741,
	"eval_sts_dev_pearson_euclidean": 0.7064722681555804,
	"eval_sts_dev_pearson_manhattan": 0.7084736073971417,
	"eval_sts_dev_pearson_max": 0.7631052098822656,
	"eval_sts_dev_spearman_cosine": 0.7627318359213398,
	"eval_sts_dev_spearman_dot": 0.6614807337490313,
	"eval_sts_dev_spearman_euclidean": 0.6982972981814837,
	"eval_sts_dev_spearman_manhattan": 0.7008247751818659,
	"eval_sts_dev_spearman_max": 0.7627318359213398,
	"step": 120
	},
	{
	"epoch": 2.8245125348189415,
	"eval_loss": 0.03514046594500542,
	"eval_runtime": 7.0888,
	"eval_samples_per_second": 211.601,
	"eval_steps_per_second": 26.521,
	"eval_sts_dev_pearson_cosine": 0.7638287349941795,
	"eval_sts_dev_pearson_dot": 0.6724854308235324,
	"eval_sts_dev_pearson_euclidean": 0.7068315364008582,
	"eval_sts_dev_pearson_manhattan": 0.7088273928548983,
	"eval_sts_dev_pearson_max": 0.7638287349941795,
	"eval_sts_dev_spearman_cosine": 0.7635020295116245,
	"eval_sts_dev_spearman_dot": 0.6624349213377722,
	"eval_sts_dev_spearman_euclidean": 0.6987404256446157,
	"eval_sts_dev_spearman_manhattan": 0.7011827796563965,
	"eval_sts_dev_spearman_max": 0.7635020295116245,
	"step": 125
	},
	{
	"epoch": 2.935933147632312,
	"grad_norm": 4.589956760406494,
	"learning_rate": 9.045051313271874e-07,
	"loss": 0.6204,
	"step": 130
	},
	{
	"epoch": 2.935933147632312,
	"eval_loss": 0.03499244153499603,
	"eval_runtime": 7.03,
	"eval_samples_per_second": 213.37,
	"eval_steps_per_second": 26.742,
	"eval_sts_dev_pearson_cosine": 0.7646248483324349,
	"eval_sts_dev_pearson_dot": 0.6736502017218999,
	"eval_sts_dev_pearson_euclidean": 0.707216661995043,
	"eval_sts_dev_pearson_manhattan": 0.709212008478957,
	"eval_sts_dev_pearson_max": 0.7646248483324349,
	"eval_sts_dev_spearman_cosine": 0.7643307027826172,
	"eval_sts_dev_spearman_dot": 0.6636213615361183,
	"eval_sts_dev_spearman_euclidean": 0.6991046333767655,
	"eval_sts_dev_spearman_manhattan": 0.7016301334896569,
	"eval_sts_dev_spearman_max": 0.7643307027826172,
	"step": 130
	},
	{
	"epoch": 3.066852367688022,
	"eval_loss": 0.0348396897315979,
	"eval_runtime": 6.8191,
	"eval_samples_per_second": 219.972,
	"eval_steps_per_second": 27.57,
	"eval_sts_dev_pearson_cosine": 0.7654784319525549,
	"eval_sts_dev_pearson_dot": 0.6748874130308962,
	"eval_sts_dev_pearson_euclidean": 0.707641103763532,
	"eval_sts_dev_pearson_manhattan": 0.7096402166194079,
	"eval_sts_dev_pearson_max": 0.7654784319525549,
	"eval_sts_dev_spearman_cosine": 0.7653040232955037,
	"eval_sts_dev_spearman_dot": 0.6648308844991435,
	"eval_sts_dev_spearman_euclidean": 0.6995286562724882,
	"eval_sts_dev_spearman_manhattan": 0.7020556361876031,
	"eval_sts_dev_spearman_max": 0.7653040232955037,
	"step": 135
	},
	{
	"epoch": 3.1782729805013927,
	"grad_norm": 5.2525177001953125,
	"learning_rate": 9.740824491215864e-07,
	"loss": 0.6077,
	"step": 140
	},
	{
	"epoch": 3.1782729805013927,
	"eval_loss": 0.034706421196460724,
	"eval_runtime": 6.9212,
	"eval_samples_per_second": 216.726,
	"eval_steps_per_second": 27.163,
	"eval_sts_dev_pearson_cosine": 0.766263287304504,
	"eval_sts_dev_pearson_dot": 0.675948414551205,
	"eval_sts_dev_pearson_euclidean": 0.7081178470450136,
	"eval_sts_dev_pearson_manhattan": 0.7101145234880011,
	"eval_sts_dev_pearson_max": 0.766263287304504,
	"eval_sts_dev_spearman_cosine": 0.7662688094783671,
	"eval_sts_dev_spearman_dot": 0.666010980931314,
	"eval_sts_dev_spearman_euclidean": 0.7000434625148538,
	"eval_sts_dev_spearman_manhattan": 0.7026795019088747,
	"eval_sts_dev_spearman_max": 0.7662688094783671,
	"step": 140
	},
	{
	"epoch": 3.2896935933147633,
	"eval_loss": 0.03455406054854393,
	"eval_runtime": 7.043,
	"eval_samples_per_second": 212.977,
	"eval_steps_per_second": 26.693,
	"eval_sts_dev_pearson_cosine": 0.7669976344527232,
	"eval_sts_dev_pearson_dot": 0.6772130506339817,
	"eval_sts_dev_pearson_euclidean": 0.708340308738127,
	"eval_sts_dev_pearson_manhattan": 0.7103439855119656,
	"eval_sts_dev_pearson_max": 0.7669976344527232,
	"eval_sts_dev_spearman_cosine": 0.7671727295922609,
	"eval_sts_dev_spearman_dot": 0.6673064034335351,
	"eval_sts_dev_spearman_euclidean": 0.7002877031846776,
	"eval_sts_dev_spearman_manhattan": 0.702790337375281,
	"eval_sts_dev_spearman_max": 0.7671727295922609,
	"step": 145
	},
	{
	"epoch": 3.401114206128134,
	"grad_norm": 4.290932655334473,
	"learning_rate": 1.0436597669159855e-06,
	"loss": 0.5772,
	"step": 150
	},
	{
	"epoch": 3.401114206128134,
	"eval_loss": 0.03440996631979942,
	"eval_runtime": 6.9991,
	"eval_samples_per_second": 214.314,
	"eval_steps_per_second": 26.861,
	"eval_sts_dev_pearson_cosine": 0.7678013334085165,
	"eval_sts_dev_pearson_dot": 0.6782264568419771,
	"eval_sts_dev_pearson_euclidean": 0.7088142668828982,
	"eval_sts_dev_pearson_manhattan": 0.7108177316956372,
	"eval_sts_dev_pearson_max": 0.7678013334085165,
	"eval_sts_dev_spearman_cosine": 0.7681151208619762,
	"eval_sts_dev_spearman_dot": 0.6684064347787971,
	"eval_sts_dev_spearman_euclidean": 0.7007326265687747,
	"eval_sts_dev_spearman_manhattan": 0.7034130912956567,
	"eval_sts_dev_spearman_max": 0.7681151208619762,
	"step": 150
	},
	{
	"epoch": 3.5125348189415044,
	"eval_loss": 0.03426254168152809,
	"eval_runtime": 6.9148,
	"eval_samples_per_second": 216.927,
	"eval_steps_per_second": 27.188,
	"eval_sts_dev_pearson_cosine": 0.7686124311956235,
	"eval_sts_dev_pearson_dot": 0.6794161416279998,
	"eval_sts_dev_pearson_euclidean": 0.709205498775362,
	"eval_sts_dev_pearson_manhattan": 0.7112097548871816,
	"eval_sts_dev_pearson_max": 0.7686124311956235,
	"eval_sts_dev_spearman_cosine": 0.7690103394236019,
	"eval_sts_dev_spearman_dot": 0.6696872196092013,
	"eval_sts_dev_spearman_euclidean": 0.7011801292985436,
	"eval_sts_dev_spearman_manhattan": 0.7038459216523878,
	"eval_sts_dev_spearman_max": 0.7690103394236019,
	"step": 155
	},
	{
	"epoch": 3.6239554317548746,
	"grad_norm": 4.819970607757568,
	"learning_rate": 1.1132370847103846e-06,
	"loss": 0.5793,
	"step": 160
	},
	{
	"epoch": 3.6239554317548746,
	"eval_loss": 0.034103069454431534,
	"eval_runtime": 6.9114,
	"eval_samples_per_second": 217.034,
	"eval_steps_per_second": 27.202,
	"eval_sts_dev_pearson_cosine": 0.7693080146114311,
	"eval_sts_dev_pearson_dot": 0.6808270827318879,
	"eval_sts_dev_pearson_euclidean": 0.7092760536788121,
	"eval_sts_dev_pearson_manhattan": 0.7112999822871733,
	"eval_sts_dev_pearson_max": 0.7693080146114311,
	"eval_sts_dev_spearman_cosine": 0.7697572707961111,
	"eval_sts_dev_spearman_dot": 0.6712211078819724,
	"eval_sts_dev_spearman_euclidean": 0.7012923239631217,
	"eval_sts_dev_spearman_manhattan": 0.7039518721666204,
	"eval_sts_dev_spearman_max": 0.7697572707961111,
	"step": 160
	},
	{
	"epoch": 3.735376044568245,
	"eval_loss": 0.0339648611843586,
	"eval_runtime": 7.0549,
	"eval_samples_per_second": 212.619,
	"eval_steps_per_second": 26.648,
	"eval_sts_dev_pearson_cosine": 0.7699086602747196,
	"eval_sts_dev_pearson_dot": 0.6821532615290817,
	"eval_sts_dev_pearson_euclidean": 0.7093076470422841,
	"eval_sts_dev_pearson_manhattan": 0.7113457981900373,
	"eval_sts_dev_pearson_max": 0.7699086602747196,
	"eval_sts_dev_spearman_cosine": 0.7705074022984313,
	"eval_sts_dev_spearman_dot": 0.672703308451007,
	"eval_sts_dev_spearman_euclidean": 0.7012209819190688,
	"eval_sts_dev_spearman_manhattan": 0.7040382275601695,
	"eval_sts_dev_spearman_max": 0.7705074022984313,
	"step": 165
	},
	{
	"epoch": 3.8467966573816157,
	"grad_norm": 4.6819539070129395,
	"learning_rate": 1.1828144025047836e-06,
	"loss": 0.5807,
	"step": 170
	},
	{
	"epoch": 3.8467966573816157,
	"eval_loss": 0.033846523612737656,
	"eval_runtime": 7.007,
	"eval_samples_per_second": 214.071,
	"eval_steps_per_second": 26.83,
	"eval_sts_dev_pearson_cosine": 0.7705963307037736,
	"eval_sts_dev_pearson_dot": 0.6833451512490409,
	"eval_sts_dev_pearson_euclidean": 0.7096001250212141,
	"eval_sts_dev_pearson_manhattan": 0.711632091113557,
	"eval_sts_dev_pearson_max": 0.7705963307037736,
	"eval_sts_dev_spearman_cosine": 0.7712362988663569,
	"eval_sts_dev_spearman_dot": 0.6739107651886832,
	"eval_sts_dev_spearman_euclidean": 0.7015732848026783,
	"eval_sts_dev_spearman_manhattan": 0.7044555432408592,
	"eval_sts_dev_spearman_max": 0.7712362988663569,
	"step": 170
	},
	{
	"epoch": 3.958217270194986,
	"eval_loss": 0.03373364359140396,
	"eval_runtime": 7.0142,
	"eval_samples_per_second": 213.851,
	"eval_steps_per_second": 26.803,
	"eval_sts_dev_pearson_cosine": 0.7712791156976446,
	"eval_sts_dev_pearson_dot": 0.684640185733316,
	"eval_sts_dev_pearson_euclidean": 0.7099359677821528,
	"eval_sts_dev_pearson_manhattan": 0.7119586396389017,
	"eval_sts_dev_pearson_max": 0.7712791156976446,
	"eval_sts_dev_spearman_cosine": 0.7720608877912845,
	"eval_sts_dev_spearman_dot": 0.6752035487866894,
	"eval_sts_dev_spearman_euclidean": 0.702006901214985,
	"eval_sts_dev_spearman_manhattan": 0.7046928888569776,
	"eval_sts_dev_spearman_max": 0.7720608877912845,
	"step": 175
	},
	{
	"epoch": 4.089136490250697,
	"grad_norm": 5.301053524017334,
	"learning_rate": 1.2523917202991825e-06,
	"loss": 0.5576,
	"step": 180
	},
	{
	"epoch": 4.089136490250697,
	"eval_loss": 0.03359239175915718,
	"eval_runtime": 6.9089,
	"eval_samples_per_second": 217.11,
	"eval_steps_per_second": 27.211,
	"eval_sts_dev_pearson_cosine": 0.7720094084547121,
	"eval_sts_dev_pearson_dot": 0.6861711141593462,
	"eval_sts_dev_pearson_euclidean": 0.7101810374908146,
	"eval_sts_dev_pearson_manhattan": 0.7122008904979185,
	"eval_sts_dev_pearson_max": 0.7720094084547121,
	"eval_sts_dev_spearman_cosine": 0.7729262262575222,
	"eval_sts_dev_spearman_dot": 0.6768691715243821,
	"eval_sts_dev_spearman_euclidean": 0.7021927194762703,
	"eval_sts_dev_spearman_manhattan": 0.7048656110976538,
	"eval_sts_dev_spearman_max": 0.7729262262575222,
	"step": 180
	},
	{
	"epoch": 4.2005571030640665,
	"eval_loss": 0.03344343975186348,
	"eval_runtime": 6.9828,
	"eval_samples_per_second": 214.815,
	"eval_steps_per_second": 26.923,
	"eval_sts_dev_pearson_cosine": 0.7726659560898915,
	"eval_sts_dev_pearson_dot": 0.687537592193805,
	"eval_sts_dev_pearson_euclidean": 0.7102002040734198,
	"eval_sts_dev_pearson_manhattan": 0.7122330129546837,
	"eval_sts_dev_pearson_max": 0.7726659560898915,
	"eval_sts_dev_spearman_cosine": 0.773425201401485,
	"eval_sts_dev_spearman_dot": 0.6783853594387605,
	"eval_sts_dev_spearman_euclidean": 0.7021304440842328,
	"eval_sts_dev_spearman_manhattan": 0.7048113806985111,
	"eval_sts_dev_spearman_max": 0.773425201401485,
	"step": 185
	},
	{
	"epoch": 4.311977715877437,
	"grad_norm": 6.004096984863281,
	"learning_rate": 1.3219690380935816e-06,
	"loss": 0.5244,
	"step": 190
	},
	{
	"epoch": 4.311977715877437,
	"eval_loss": 0.033325061202049255,
	"eval_runtime": 7.0443,
	"eval_samples_per_second": 212.938,
	"eval_steps_per_second": 26.688,
	"eval_sts_dev_pearson_cosine": 0.7733338124006317,
	"eval_sts_dev_pearson_dot": 0.6884427467691409,
	"eval_sts_dev_pearson_euclidean": 0.7104572948924557,
	"eval_sts_dev_pearson_manhattan": 0.7124982272648852,
	"eval_sts_dev_pearson_max": 0.7733338124006317,
	"eval_sts_dev_spearman_cosine": 0.7740160113372371,
	"eval_sts_dev_spearman_dot": 0.679314640853313,
	"eval_sts_dev_spearman_euclidean": 0.7022600917103325,
	"eval_sts_dev_spearman_manhattan": 0.7049775652371025,
	"eval_sts_dev_spearman_max": 0.7740160113372371,
	"step": 190
	},
	{
	"epoch": 4.423398328690808,
	"eval_loss": 0.03322310745716095,
	"eval_runtime": 7.0234,
	"eval_samples_per_second": 213.573,
	"eval_steps_per_second": 26.768,
	"eval_sts_dev_pearson_cosine": 0.7739695721631923,
	"eval_sts_dev_pearson_dot": 0.6893517389464994,
	"eval_sts_dev_pearson_euclidean": 0.7107902241882483,
	"eval_sts_dev_pearson_manhattan": 0.7128377305936389,
	"eval_sts_dev_pearson_max": 0.7739695721631923,
	"eval_sts_dev_spearman_cosine": 0.7747804094168401,
	"eval_sts_dev_spearman_dot": 0.68031602482782,
	"eval_sts_dev_spearman_euclidean": 0.702670109171386,
	"eval_sts_dev_spearman_manhattan": 0.7052134150159887,
	"eval_sts_dev_spearman_max": 0.7747804094168401,
	"step": 195
	},
	{
	"epoch": 4.534818941504178,
	"grad_norm": 4.593257427215576,
	"learning_rate": 1.3915463558879807e-06,
	"loss": 0.539,
	"step": 200
	},
	{
	"epoch": 4.534818941504178,
	"eval_loss": 0.033111851662397385,
	"eval_runtime": 6.8979,
	"eval_samples_per_second": 217.459,
	"eval_steps_per_second": 27.255,
	"eval_sts_dev_pearson_cosine": 0.7745730498768191,
	"eval_sts_dev_pearson_dot": 0.6906339428851104,
	"eval_sts_dev_pearson_euclidean": 0.7109426833835167,
	"eval_sts_dev_pearson_manhattan": 0.7130040632760261,
	"eval_sts_dev_pearson_max": 0.7745730498768191,
	"eval_sts_dev_spearman_cosine": 0.775379074216674,
	"eval_sts_dev_spearman_dot": 0.6818359626434134,
	"eval_sts_dev_spearman_euclidean": 0.7027815708069985,
	"eval_sts_dev_spearman_manhattan": 0.7054772962806527,
	"eval_sts_dev_spearman_max": 0.775379074216674,
	"step": 200
	},
	{
	"epoch": 4.646239554317549,
	"eval_loss": 0.03302275016903877,
	"eval_runtime": 6.926,
	"eval_samples_per_second": 216.576,
	"eval_steps_per_second": 27.144,
	"eval_sts_dev_pearson_cosine": 0.7750720264452357,
	"eval_sts_dev_pearson_dot": 0.6916453477028499,
	"eval_sts_dev_pearson_euclidean": 0.7112190933233568,
	"eval_sts_dev_pearson_manhattan": 0.7132769890476369,
	"eval_sts_dev_pearson_max": 0.7750720264452357,
	"eval_sts_dev_spearman_cosine": 0.7760014955136583,
	"eval_sts_dev_spearman_dot": 0.6829098752509514,
	"eval_sts_dev_spearman_euclidean": 0.7030344024642863,
	"eval_sts_dev_spearman_manhattan": 0.7059066267642276,
	"eval_sts_dev_spearman_max": 0.7760014955136583,
	"step": 205
	},
	{
	"epoch": 4.757660167130919,
	"grad_norm": 4.035131931304932,
	"learning_rate": 1.4611236736823798e-06,
	"loss": 0.5517,
	"step": 210
	},
	{
	"epoch": 4.757660167130919,
	"eval_loss": 0.032943133264780045,
	"eval_runtime": 7.07,
	"eval_samples_per_second": 212.164,
	"eval_steps_per_second": 26.591,
	"eval_sts_dev_pearson_cosine": 0.775436879881936,
	"eval_sts_dev_pearson_dot": 0.6925918600460864,
	"eval_sts_dev_pearson_euclidean": 0.7113376814593186,
	"eval_sts_dev_pearson_manhattan": 0.7133931376814393,
	"eval_sts_dev_pearson_max": 0.775436879881936,
	"eval_sts_dev_spearman_cosine": 0.7764792385291549,
	"eval_sts_dev_spearman_dot": 0.6839147456943953,
	"eval_sts_dev_spearman_euclidean": 0.703141329969615,
	"eval_sts_dev_spearman_manhattan": 0.7059362250994191,
	"eval_sts_dev_spearman_max": 0.7764792385291549,
	"step": 210
	},
	{
	"epoch": 4.86908077994429,
	"eval_loss": 0.03284618631005287,
	"eval_runtime": 6.8565,
	"eval_samples_per_second": 218.77,
	"eval_steps_per_second": 27.419,
	"eval_sts_dev_pearson_cosine": 0.775910266044483,
	"eval_sts_dev_pearson_dot": 0.6934614331040406,
	"eval_sts_dev_pearson_euclidean": 0.711548659602332,
	"eval_sts_dev_pearson_manhattan": 0.7136048948232416,
	"eval_sts_dev_pearson_max": 0.775910266044483,
	"eval_sts_dev_spearman_cosine": 0.7769479258303382,
	"eval_sts_dev_spearman_dot": 0.6848713805423069,
	"eval_sts_dev_spearman_euclidean": 0.7033494094042918,
	"eval_sts_dev_spearman_manhattan": 0.7060255698767176,
	"eval_sts_dev_spearman_max": 0.7769479258303382,
	"step": 215
	},
	{
	"epoch": 4.9805013927576605,
	"grad_norm": 4.164207458496094,
	"learning_rate": 1.5307009914767787e-06,
	"loss": 0.5265,
	"step": 220
	},
	{
	"epoch": 4.9805013927576605,
	"eval_loss": 0.0327322892844677,
	"eval_runtime": 6.9904,
	"eval_samples_per_second": 214.58,
	"eval_steps_per_second": 26.894,
	"eval_sts_dev_pearson_cosine": 0.7764785690089298,
	"eval_sts_dev_pearson_dot": 0.6942342520710683,
	"eval_sts_dev_pearson_euclidean": 0.7119234281148877,
	"eval_sts_dev_pearson_manhattan": 0.7139725405773478,
	"eval_sts_dev_pearson_max": 0.7764785690089298,
	"eval_sts_dev_spearman_cosine": 0.7776377175908147,
	"eval_sts_dev_spearman_dot": 0.6856461394544989,
	"eval_sts_dev_spearman_euclidean": 0.7037087745638393,
	"eval_sts_dev_spearman_manhattan": 0.7064702298285305,
	"eval_sts_dev_spearman_max": 0.7776377175908147,
	"step": 220
	},
	{
	"epoch": 5.111420612813371,
	"eval_loss": 0.032635681331157684,
	"eval_runtime": 6.8033,
	"eval_samples_per_second": 220.482,
	"eval_steps_per_second": 27.634,
	"eval_sts_dev_pearson_cosine": 0.7768906949758223,
	"eval_sts_dev_pearson_dot": 0.695219441450241,
	"eval_sts_dev_pearson_euclidean": 0.7119427716298626,
	"eval_sts_dev_pearson_manhattan": 0.7139906781614199,
	"eval_sts_dev_pearson_max": 0.7768906949758223,
	"eval_sts_dev_spearman_cosine": 0.7779652464100915,
	"eval_sts_dev_spearman_dot": 0.6869571731826094,
	"eval_sts_dev_spearman_euclidean": 0.7036077013230951,
	"eval_sts_dev_spearman_manhattan": 0.7064509076431469,
	"eval_sts_dev_spearman_max": 0.7779652464100915,
	"step": 225
	},
	{
	"epoch": 5.222841225626741,
	"grad_norm": 4.008439064025879,
	"learning_rate": 1.6002783092711777e-06,
	"loss": 0.5285,
	"step": 230
	},
	{
	"epoch": 5.222841225626741,
	"eval_loss": 0.03253428637981415,
	"eval_runtime": 6.8983,
	"eval_samples_per_second": 217.445,
	"eval_steps_per_second": 27.253,
	"eval_sts_dev_pearson_cosine": 0.7772382339972829,
	"eval_sts_dev_pearson_dot": 0.6962971989781661,
	"eval_sts_dev_pearson_euclidean": 0.7116605569376889,
	"eval_sts_dev_pearson_manhattan": 0.7137176755568332,
	"eval_sts_dev_pearson_max": 0.7772382339972829,
	"eval_sts_dev_spearman_cosine": 0.7783426175116597,
	"eval_sts_dev_spearman_dot": 0.6882750477744878,
	"eval_sts_dev_spearman_euclidean": 0.7031754685029606,
	"eval_sts_dev_spearman_manhattan": 0.7062052563630147,
	"eval_sts_dev_spearman_max": 0.7783426175116597,
	"step": 230
	},
	{
	"epoch": 5.334261838440112,
	"eval_loss": 0.032446879893541336,
	"eval_runtime": 7.1024,
	"eval_samples_per_second": 211.195,
	"eval_steps_per_second": 26.47,
	"eval_sts_dev_pearson_cosine": 0.7776669424440168,
	"eval_sts_dev_pearson_dot": 0.6970405122472402,
	"eval_sts_dev_pearson_euclidean": 0.7117722670287954,
	"eval_sts_dev_pearson_manhattan": 0.7138312835497453,
	"eval_sts_dev_pearson_max": 0.7776669424440168,
	"eval_sts_dev_spearman_cosine": 0.7789160171177805,
	"eval_sts_dev_spearman_dot": 0.6891076670812013,
	"eval_sts_dev_spearman_euclidean": 0.7033258975002282,
	"eval_sts_dev_spearman_manhattan": 0.7062752235073074,
	"eval_sts_dev_spearman_max": 0.7789160171177805,
	"step": 235
	},
	{
	"epoch": 5.445682451253482,
	"grad_norm": 3.6369762420654297,
	"learning_rate": 1.6698556270655766e-06,
	"loss": 0.4697,
	"step": 240
	},
	{
	"epoch": 5.445682451253482,
	"eval_loss": 0.03234243392944336,
	"eval_runtime": 6.782,
	"eval_samples_per_second": 221.172,
	"eval_steps_per_second": 27.72,
	"eval_sts_dev_pearson_cosine": 0.7781440012528016,
	"eval_sts_dev_pearson_dot": 0.6975764419235699,
	"eval_sts_dev_pearson_euclidean": 0.712024820219635,
	"eval_sts_dev_pearson_manhattan": 0.7140934326314853,
	"eval_sts_dev_pearson_max": 0.7781440012528016,
	"eval_sts_dev_spearman_cosine": 0.779282426254369,
	"eval_sts_dev_spearman_dot": 0.6897740636983543,
	"eval_sts_dev_spearman_euclidean": 0.7035466980830317,
	"eval_sts_dev_spearman_manhattan": 0.706402706407244,
	"eval_sts_dev_spearman_max": 0.779282426254369,
	"step": 240
	},
	{
	"epoch": 5.557103064066853,
	"eval_loss": 0.0322665236890316,
	"eval_runtime": 7.0287,
	"eval_samples_per_second": 213.412,
	"eval_steps_per_second": 26.748,
	"eval_sts_dev_pearson_cosine": 0.7787273229273541,
	"eval_sts_dev_pearson_dot": 0.6977971151317023,
	"eval_sts_dev_pearson_euclidean": 0.7128704818639644,
	"eval_sts_dev_pearson_manhattan": 0.7149352374625544,
	"eval_sts_dev_pearson_max": 0.7787273229273541,
	"eval_sts_dev_spearman_cosine": 0.77981903098488,
	"eval_sts_dev_spearman_dot": 0.6899867909899472,
	"eval_sts_dev_spearman_euclidean": 0.7044750738813548,
	"eval_sts_dev_spearman_manhattan": 0.707203879577786,
	"eval_sts_dev_spearman_max": 0.77981903098488,
	"step": 245
	},
	{
	"epoch": 5.6685236768802225,
	"grad_norm": 3.939344882965088,
	"learning_rate": 1.739432944859976e-06,
	"loss": 0.4913,
	"step": 250
	},
	{
	"epoch": 5.6685236768802225,
	"eval_loss": 0.03220539167523384,
	"eval_runtime": 6.7653,
	"eval_samples_per_second": 221.72,
	"eval_steps_per_second": 27.789,
	"eval_sts_dev_pearson_cosine": 0.7791771917276973,
	"eval_sts_dev_pearson_dot": 0.6981160056071188,
	"eval_sts_dev_pearson_euclidean": 0.713488315174772,
	"eval_sts_dev_pearson_manhattan": 0.7155411689371374,
	"eval_sts_dev_pearson_max": 0.7791771917276973,
	"eval_sts_dev_spearman_cosine": 0.7803556746575578,
	"eval_sts_dev_spearman_dot": 0.6902449156806119,
	"eval_sts_dev_spearman_euclidean": 0.7052006351141208,
	"eval_sts_dev_spearman_manhattan": 0.7079806405930662,
	"eval_sts_dev_spearman_max": 0.7803556746575578,
	"step": 250
	},
	{
	"epoch": 5.779944289693593,
	"eval_loss": 0.0321136973798275,
	"eval_runtime": 6.8852,
	"eval_samples_per_second": 217.857,
	"eval_steps_per_second": 27.305,
	"eval_sts_dev_pearson_cosine": 0.7795408783298017,
	"eval_sts_dev_pearson_dot": 0.698621796206566,
	"eval_sts_dev_pearson_euclidean": 0.713845705178594,
	"eval_sts_dev_pearson_manhattan": 0.7158847989781144,
	"eval_sts_dev_pearson_max": 0.7795408783298017,
	"eval_sts_dev_spearman_cosine": 0.7808851254829866,
	"eval_sts_dev_spearman_dot": 0.6910441279803855,
	"eval_sts_dev_spearman_euclidean": 0.7057147472696849,
	"eval_sts_dev_spearman_manhattan": 0.7084308417857139,
	"eval_sts_dev_spearman_max": 0.7808851254829866,
	"step": 255
	},
	{
	"epoch": 5.891364902506964,
	"grad_norm": 4.813522815704346,
	"learning_rate": 1.8090102626543748e-06,
	"loss": 0.5253,
	"step": 260
	},
	{
	"epoch": 5.891364902506964,
	"eval_loss": 0.03203197568655014,
	"eval_runtime": 7.0476,
	"eval_samples_per_second": 212.839,
	"eval_steps_per_second": 26.676,
	"eval_sts_dev_pearson_cosine": 0.7799732728461426,
	"eval_sts_dev_pearson_dot": 0.6992354089058229,
	"eval_sts_dev_pearson_euclidean": 0.7142404896335972,
	"eval_sts_dev_pearson_manhattan": 0.716270082443381,
	"eval_sts_dev_pearson_max": 0.7799732728461426,
	"eval_sts_dev_spearman_cosine": 0.7812777358255738,
	"eval_sts_dev_spearman_dot": 0.6917093769490908,
	"eval_sts_dev_spearman_euclidean": 0.7062223056881557,
	"eval_sts_dev_spearman_manhattan": 0.7089598550457142,
	"eval_sts_dev_spearman_max": 0.7812777358255738,
	"step": 260
	},
	{
	"epoch": 6.022284122562674,
	"eval_loss": 0.03195018321275711,
	"eval_runtime": 7.099,
	"eval_samples_per_second": 211.299,
	"eval_steps_per_second": 26.483,
	"eval_sts_dev_pearson_cosine": 0.7803233438802165,
	"eval_sts_dev_pearson_dot": 0.6999738035020234,
	"eval_sts_dev_pearson_euclidean": 0.7143605362249807,
	"eval_sts_dev_pearson_manhattan": 0.7163833317778756,
	"eval_sts_dev_pearson_max": 0.7803233438802165,
	"eval_sts_dev_spearman_cosine": 0.7817289518382318,
	"eval_sts_dev_spearman_dot": 0.692658440982393,
	"eval_sts_dev_spearman_euclidean": 0.7062913822145624,
	"eval_sts_dev_spearman_manhattan": 0.7091007508962174,
	"eval_sts_dev_spearman_max": 0.7817289518382318,
	"step": 265
	},
	{
	"epoch": 6.133704735376044,
	"grad_norm": 3.873243570327759,
	"learning_rate": 1.8785875804487739e-06,
	"loss": 0.4924,
	"step": 270
	},
	{
	"epoch": 6.133704735376044,
	"eval_loss": 0.031853143125772476,
	"eval_runtime": 7.045,
	"eval_samples_per_second": 212.918,
	"eval_steps_per_second": 26.686,
	"eval_sts_dev_pearson_cosine": 0.7805555688659683,
	"eval_sts_dev_pearson_dot": 0.7005444051022546,
	"eval_sts_dev_pearson_euclidean": 0.7142124903197049,
	"eval_sts_dev_pearson_manhattan": 0.716248059084913,
	"eval_sts_dev_pearson_max": 0.7805555688659683,
	"eval_sts_dev_spearman_cosine": 0.7818561644430513,
	"eval_sts_dev_spearman_dot": 0.6936098988133554,
	"eval_sts_dev_spearman_euclidean": 0.7060309965817769,
	"eval_sts_dev_spearman_manhattan": 0.7089509487437853,
	"eval_sts_dev_spearman_max": 0.7818561644430513,
	"step": 270
	},
	{
	"epoch": 6.245125348189415,
	"eval_loss": 0.031787075102329254,
	"eval_runtime": 7.0799,
	"eval_samples_per_second": 211.867,
	"eval_steps_per_second": 26.554,
	"eval_sts_dev_pearson_cosine": 0.7807075804252084,
	"eval_sts_dev_pearson_dot": 0.7015197969666243,
	"eval_sts_dev_pearson_euclidean": 0.713830705347577,
	"eval_sts_dev_pearson_manhattan": 0.7158793994538133,
	"eval_sts_dev_pearson_max": 0.7807075804252084,
	"eval_sts_dev_spearman_cosine": 0.7819875621854264,
	"eval_sts_dev_spearman_dot": 0.694826261852757,
	"eval_sts_dev_spearman_euclidean": 0.7053731328646764,
	"eval_sts_dev_spearman_manhattan": 0.7083527948173437,
	"eval_sts_dev_spearman_max": 0.7819875621854264,
	"step": 275
	},
	{
	"epoch": 6.3565459610027855,
	"grad_norm": 4.469658374786377,
	"learning_rate": 1.9481648982431728e-06,
	"loss": 0.4844,
	"step": 280
	},
	{
	"epoch": 6.3565459610027855,
	"eval_loss": 0.031746331602334976,
	"eval_runtime": 6.7748,
	"eval_samples_per_second": 221.41,
	"eval_steps_per_second": 27.75,
	"eval_sts_dev_pearson_cosine": 0.7808289673024869,
	"eval_sts_dev_pearson_dot": 0.702423126121021,
	"eval_sts_dev_pearson_euclidean": 0.7134962000576563,
	"eval_sts_dev_pearson_manhattan": 0.7155503733116253,
	"eval_sts_dev_pearson_max": 0.7808289673024869,
	"eval_sts_dev_spearman_cosine": 0.7822111314547963,
	"eval_sts_dev_spearman_dot": 0.6958278382473629,
	"eval_sts_dev_spearman_euclidean": 0.7049726585244658,
	"eval_sts_dev_spearman_manhattan": 0.7078651037745494,
	"eval_sts_dev_spearman_max": 0.7822111314547963,
	"step": 280
	},
	{
	"epoch": 6.467966573816156,
	"eval_loss": 0.0316670723259449,
	"eval_runtime": 7.0619,
	"eval_samples_per_second": 212.406,
	"eval_steps_per_second": 26.622,
	"eval_sts_dev_pearson_cosine": 0.781180936397055,
	"eval_sts_dev_pearson_dot": 0.7027629453006121,
	"eval_sts_dev_pearson_euclidean": 0.7136902176147873,
	"eval_sts_dev_pearson_manhattan": 0.715757628364657,
	"eval_sts_dev_pearson_max": 0.781180936397055,
	"eval_sts_dev_spearman_cosine": 0.78250079334828,
	"eval_sts_dev_spearman_dot": 0.6962981450393402,
	"eval_sts_dev_spearman_euclidean": 0.7051141445683561,
	"eval_sts_dev_spearman_manhattan": 0.70821885209965,
	"eval_sts_dev_spearman_max": 0.78250079334828,
	"step": 285
	},
	{
	"epoch": 6.579387186629527,
	"grad_norm": 4.325808048248291,
	"learning_rate": 2.017742216037572e-06,
	"loss": 0.442,
	"step": 290
	},
	{
	"epoch": 6.579387186629527,
	"eval_loss": 0.03155314922332764,
	"eval_runtime": 6.933,
	"eval_samples_per_second": 216.356,
	"eval_steps_per_second": 27.117,
	"eval_sts_dev_pearson_cosine": 0.781592834547759,
	"eval_sts_dev_pearson_dot": 0.7030321075873802,
	"eval_sts_dev_pearson_euclidean": 0.7138293804278546,
	"eval_sts_dev_pearson_manhattan": 0.7159175761814789,
	"eval_sts_dev_pearson_max": 0.781592834547759,
	"eval_sts_dev_spearman_cosine": 0.7827403875693918,
	"eval_sts_dev_spearman_dot": 0.6966818933630766,
	"eval_sts_dev_spearman_euclidean": 0.705222522900883,
	"eval_sts_dev_spearman_manhattan": 0.7082679375517423,
	"eval_sts_dev_spearman_max": 0.7827403875693918,
	"step": 290
	},
	{
	"epoch": 6.690807799442897,
	"eval_loss": 0.0314662829041481,
	"eval_runtime": 7.0474,
	"eval_samples_per_second": 212.844,
	"eval_steps_per_second": 26.676,
	"eval_sts_dev_pearson_cosine": 0.7820122068864954,
	"eval_sts_dev_pearson_dot": 0.703421139648371,
	"eval_sts_dev_pearson_euclidean": 0.7141068771656474,
	"eval_sts_dev_pearson_manhattan": 0.7162068261112142,
	"eval_sts_dev_pearson_max": 0.7820122068864954,
	"eval_sts_dev_spearman_cosine": 0.7829970553896861,
	"eval_sts_dev_spearman_dot": 0.6970113959506001,
	"eval_sts_dev_spearman_euclidean": 0.7054796488454884,
	"eval_sts_dev_spearman_manhattan": 0.7085587324330124,
	"eval_sts_dev_spearman_max": 0.7829970553896861,
	"step": 295
	},
	{
	"epoch": 6.802228412256268,
	"grad_norm": 3.6315908432006836,
	"learning_rate": 2.087319533831971e-06,
	"loss": 0.4665,
	"step": 300
	},
	{
	"epoch": 6.802228412256268,
	"eval_loss": 0.03142312169075012,
	"eval_runtime": 6.9811,
	"eval_samples_per_second": 214.864,
	"eval_steps_per_second": 26.93,
	"eval_sts_dev_pearson_cosine": 0.7823768397963167,
	"eval_sts_dev_pearson_dot": 0.7038756871911903,
	"eval_sts_dev_pearson_euclidean": 0.7145009916374723,
	"eval_sts_dev_pearson_manhattan": 0.7165993081434159,
	"eval_sts_dev_pearson_max": 0.7823768397963167,
	"eval_sts_dev_spearman_cosine": 0.7834457731278,
	"eval_sts_dev_spearman_dot": 0.6973417239926998,
	"eval_sts_dev_spearman_euclidean": 0.7059158400220358,
	"eval_sts_dev_spearman_manhattan": 0.7090603670611569,
	"eval_sts_dev_spearman_max": 0.7834457731278,
	"step": 300
	},
	{
	"epoch": 6.913649025069638,
	"eval_loss": 0.03140180557966232,
	"eval_runtime": 7.0935,
	"eval_samples_per_second": 211.462,
	"eval_steps_per_second": 26.503,
	"eval_sts_dev_pearson_cosine": 0.7827189612475338,
	"eval_sts_dev_pearson_dot": 0.7043799909167585,
	"eval_sts_dev_pearson_euclidean": 0.715034388904346,
	"eval_sts_dev_pearson_manhattan": 0.7171022025564596,
	"eval_sts_dev_pearson_max": 0.7827189612475338,
	"eval_sts_dev_spearman_cosine": 0.7839004976206189,
	"eval_sts_dev_spearman_dot": 0.6975156259478882,
	"eval_sts_dev_spearman_euclidean": 0.7065303588201288,
	"eval_sts_dev_spearman_manhattan": 0.7095736568498506,
	"eval_sts_dev_spearman_max": 0.7839004976206189,
	"step": 305
	},
	{
	"epoch": 7.044568245125348,
	"grad_norm": 4.26026725769043,
	"learning_rate": 2.15689685162637e-06,
	"loss": 0.4672,
	"step": 310
	},
	{
	"epoch": 7.044568245125348,
	"eval_loss": 0.03136160969734192,
	"eval_runtime": 6.6776,
	"eval_samples_per_second": 224.63,
	"eval_steps_per_second": 28.154,
	"eval_sts_dev_pearson_cosine": 0.7831698418188764,
	"eval_sts_dev_pearson_dot": 0.7044122663834302,
	"eval_sts_dev_pearson_euclidean": 0.7156598421085834,
	"eval_sts_dev_pearson_manhattan": 0.7176890258722983,
	"eval_sts_dev_pearson_max": 0.7831698418188764,
	"eval_sts_dev_spearman_cosine": 0.7843284949390994,
	"eval_sts_dev_spearman_dot": 0.697639093220699,
	"eval_sts_dev_spearman_euclidean": 0.7073241375609828,
	"eval_sts_dev_spearman_manhattan": 0.710185012169815,
	"eval_sts_dev_spearman_max": 0.7843284949390994,
	"step": 310
	},
	{
	"epoch": 7.155988857938719,
	"eval_loss": 0.031366512179374695,
	"eval_runtime": 6.9924,
	"eval_samples_per_second": 214.518,
	"eval_steps_per_second": 26.886,
	"eval_sts_dev_pearson_cosine": 0.7835832006721541,
	"eval_sts_dev_pearson_dot": 0.7043934252027199,
	"eval_sts_dev_pearson_euclidean": 0.7164264689263184,
	"eval_sts_dev_pearson_manhattan": 0.7184030248845167,
	"eval_sts_dev_pearson_max": 0.7835832006721541,
	"eval_sts_dev_spearman_cosine": 0.7850548943796795,
	"eval_sts_dev_spearman_dot": 0.6977756771302583,
	"eval_sts_dev_spearman_euclidean": 0.708343725874613,
	"eval_sts_dev_spearman_manhattan": 0.7111504960736558,
	"eval_sts_dev_spearman_max": 0.7850548943796795,
	"step": 315
	},
	{
	"epoch": 7.2674094707520895,
	"grad_norm": 3.808695077896118,
	"learning_rate": 2.226474169420769e-06,
	"loss": 0.4131,
	"step": 320
	},
	{
	"epoch": 7.2674094707520895,
	"eval_loss": 0.03135285899043083,
	"eval_runtime": 6.9057,
	"eval_samples_per_second": 217.213,
	"eval_steps_per_second": 27.224,
	"eval_sts_dev_pearson_cosine": 0.7836045257427042,
	"eval_sts_dev_pearson_dot": 0.7048735903915628,
	"eval_sts_dev_pearson_euclidean": 0.7161062363729224,
	"eval_sts_dev_pearson_manhattan": 0.7180798998241316,
	"eval_sts_dev_pearson_max": 0.7836045257427042,
	"eval_sts_dev_spearman_cosine": 0.7849975337135177,
	"eval_sts_dev_spearman_dot": 0.6982899839848741,
	"eval_sts_dev_spearman_euclidean": 0.7079431278357644,
	"eval_sts_dev_spearman_manhattan": 0.710852480857077,
	"eval_sts_dev_spearman_max": 0.7849975337135177,
	"step": 320
	},
	{
	"epoch": 7.378830083565459,
	"eval_loss": 0.03127756714820862,
	"eval_runtime": 6.9241,
	"eval_samples_per_second": 216.634,
	"eval_steps_per_second": 27.151,
	"eval_sts_dev_pearson_cosine": 0.7836610063557831,
	"eval_sts_dev_pearson_dot": 0.705409260823171,
	"eval_sts_dev_pearson_euclidean": 0.7154023331837831,
	"eval_sts_dev_pearson_manhattan": 0.717401985035912,
	"eval_sts_dev_pearson_max": 0.7836610063557831,
	"eval_sts_dev_spearman_cosine": 0.7848718916416149,
	"eval_sts_dev_spearman_dot": 0.6991510364393221,
	"eval_sts_dev_spearman_euclidean": 0.7071171759954781,
	"eval_sts_dev_spearman_manhattan": 0.709827734664151,
	"eval_sts_dev_spearman_max": 0.7848718916416149,
	"step": 325
	},
	{
	"epoch": 7.49025069637883,
	"grad_norm": 3.8009250164031982,
	"learning_rate": 2.2960514872151678e-06,
	"loss": 0.4221,
	"step": 330
	},
	{
	"epoch": 7.49025069637883,
	"eval_loss": 0.031188100576400757,
	"eval_runtime": 7.0999,
	"eval_samples_per_second": 211.272,
	"eval_steps_per_second": 26.479,
	"eval_sts_dev_pearson_cosine": 0.7838825238345812,
	"eval_sts_dev_pearson_dot": 0.7057496676467132,
	"eval_sts_dev_pearson_euclidean": 0.7150892410708943,
	"eval_sts_dev_pearson_manhattan": 0.7171064711121474,
	"eval_sts_dev_pearson_max": 0.7838825238345812,
	"eval_sts_dev_spearman_cosine": 0.784820320759411,
	"eval_sts_dev_spearman_dot": 0.6997042671311072,
	"eval_sts_dev_spearman_euclidean": 0.7065608619879493,
	"eval_sts_dev_spearman_manhattan": 0.7094620852598932,
	"eval_sts_dev_spearman_max": 0.784820320759411,
	"step": 330
	},
	{
	"epoch": 7.6016713091922,
	"eval_loss": 0.0310923233628273,
	"eval_runtime": 6.9662,
	"eval_samples_per_second": 215.326,
	"eval_steps_per_second": 26.987,
	"eval_sts_dev_pearson_cosine": 0.7843923769897447,
	"eval_sts_dev_pearson_dot": 0.7058530968248947,
	"eval_sts_dev_pearson_euclidean": 0.7155332189451762,
	"eval_sts_dev_pearson_manhattan": 0.7175425736786123,
	"eval_sts_dev_pearson_max": 0.7843923769897447,
	"eval_sts_dev_spearman_cosine": 0.7853756910328091,
	"eval_sts_dev_spearman_dot": 0.6999248217974418,
	"eval_sts_dev_spearman_euclidean": 0.7071685659073802,
	"eval_sts_dev_spearman_manhattan": 0.7099135119853421,
	"eval_sts_dev_spearman_max": 0.7853756910328091,
	"step": 335
	},
	{
	"epoch": 7.713091922005571,
	"grad_norm": 4.329479694366455,
	"learning_rate": 2.3656288050095673e-06,
	"loss": 0.4268,
	"step": 340
	},
	{
	"epoch": 7.713091922005571,
	"eval_loss": 0.031015686690807343,
	"eval_runtime": 6.8718,
	"eval_samples_per_second": 218.283,
	"eval_steps_per_second": 27.358,
	"eval_sts_dev_pearson_cosine": 0.7848078944075182,
	"eval_sts_dev_pearson_dot": 0.7062611613987171,
	"eval_sts_dev_pearson_euclidean": 0.7156669541008578,
	"eval_sts_dev_pearson_manhattan": 0.7176849379592309,
	"eval_sts_dev_pearson_max": 0.7848078944075182,
	"eval_sts_dev_spearman_cosine": 0.7857175803487115,
	"eval_sts_dev_spearman_dot": 0.7006071388870717,
	"eval_sts_dev_spearman_euclidean": 0.7074396606352066,
	"eval_sts_dev_spearman_manhattan": 0.7101303213368534,
	"eval_sts_dev_spearman_max": 0.7857175803487115,
	"step": 340
	},
	{
	"epoch": 7.8245125348189415,
	"eval_loss": 0.030945729464292526,
	"eval_runtime": 6.9722,
	"eval_samples_per_second": 215.14,
	"eval_steps_per_second": 26.964,
	"eval_sts_dev_pearson_cosine": 0.7852280992749574,
	"eval_sts_dev_pearson_dot": 0.7063015365766652,
	"eval_sts_dev_pearson_euclidean": 0.71618048050416,
	"eval_sts_dev_pearson_manhattan": 0.7181959951306995,
	"eval_sts_dev_pearson_max": 0.7852280992749574,
	"eval_sts_dev_spearman_cosine": 0.7861447827888495,
	"eval_sts_dev_spearman_dot": 0.7007253260607372,
	"eval_sts_dev_spearman_euclidean": 0.7080307843557273,
	"eval_sts_dev_spearman_manhattan": 0.710707788624518,
	"eval_sts_dev_spearman_max": 0.7861447827888495,
	"step": 345
	},
	{
	"epoch": 7.935933147632312,
	"grad_norm": 4.521576881408691,
	"learning_rate": 2.435206122803966e-06,
	"loss": 0.4316,
	"step": 350
	},
	{
	"epoch": 7.935933147632312,
	"eval_loss": 0.030903467908501625,
	"eval_runtime": 6.8754,
	"eval_samples_per_second": 218.169,
	"eval_steps_per_second": 27.344,
	"eval_sts_dev_pearson_cosine": 0.7857408106817081,
	"eval_sts_dev_pearson_dot": 0.7063227803586387,
	"eval_sts_dev_pearson_euclidean": 0.7171064497768416,
	"eval_sts_dev_pearson_manhattan": 0.7190977579026478,
	"eval_sts_dev_pearson_max": 0.7857408106817081,
	"eval_sts_dev_spearman_cosine": 0.786647063435545,
	"eval_sts_dev_spearman_dot": 0.7004210617791904,
	"eval_sts_dev_spearman_euclidean": 0.7090060931384192,
	"eval_sts_dev_spearman_manhattan": 0.7117304388117395,
	"eval_sts_dev_spearman_max": 0.786647063435545,
	"step": 350
	},
	{
	"epoch": 8.066852367688023,
	"eval_loss": 0.03090326115489006,
	"eval_runtime": 6.7967,
	"eval_samples_per_second": 220.696,
	"eval_steps_per_second": 27.661,
	"eval_sts_dev_pearson_cosine": 0.7860914327083659,
	"eval_sts_dev_pearson_dot": 0.7067109311815922,
	"eval_sts_dev_pearson_euclidean": 0.7179978723314155,
	"eval_sts_dev_pearson_manhattan": 0.7199506434198831,
	"eval_sts_dev_pearson_max": 0.7860914327083659,
	"eval_sts_dev_spearman_cosine": 0.7871799411716375,
	"eval_sts_dev_spearman_dot": 0.7005966817709771,
	"eval_sts_dev_spearman_euclidean": 0.7099849983444726,
	"eval_sts_dev_spearman_manhattan": 0.7126081974741519,
	"eval_sts_dev_spearman_max": 0.7871799411716375,
	"step": 355
	},
	{
	"epoch": 8.178272980501394,
	"grad_norm": 3.464381217956543,
	"learning_rate": 2.504783440598365e-06,
	"loss": 0.4277,
	"step": 360
	},
	{
	"epoch": 8.178272980501394,
	"eval_loss": 0.030861668288707733,
	"eval_runtime": 6.8952,
	"eval_samples_per_second": 217.544,
	"eval_steps_per_second": 27.265,
	"eval_sts_dev_pearson_cosine": 0.7862113365203784,
	"eval_sts_dev_pearson_dot": 0.7070142268847368,
	"eval_sts_dev_pearson_euclidean": 0.7181137478219999,
	"eval_sts_dev_pearson_manhattan": 0.7200573508948256,
	"eval_sts_dev_pearson_max": 0.7862113365203784,
	"eval_sts_dev_spearman_cosine": 0.7873051906331155,
	"eval_sts_dev_spearman_dot": 0.700851803333668,
	"eval_sts_dev_spearman_euclidean": 0.7101326235059475,
	"eval_sts_dev_spearman_manhattan": 0.7126791959108771,
	"eval_sts_dev_spearman_max": 0.7873051906331155,
	"step": 360
	},
	{
	"epoch": 8.289693593314762,
	"eval_loss": 0.03079277276992798,
	"eval_runtime": 7.0041,
	"eval_samples_per_second": 214.159,
	"eval_steps_per_second": 26.841,
	"eval_sts_dev_pearson_cosine": 0.7861051555153227,
	"eval_sts_dev_pearson_dot": 0.7077462081618229,
	"eval_sts_dev_pearson_euclidean": 0.7175047036545574,
	"eval_sts_dev_pearson_manhattan": 0.7194616943503004,
	"eval_sts_dev_pearson_max": 0.7861051555153227,
	"eval_sts_dev_spearman_cosine": 0.7869754283660466,
	"eval_sts_dev_spearman_dot": 0.7018953525077267,
	"eval_sts_dev_spearman_euclidean": 0.7093618435488815,
	"eval_sts_dev_spearman_manhattan": 0.7120432245619701,
	"eval_sts_dev_spearman_max": 0.7869754283660466,
	"step": 365
	},
	{
	"epoch": 8.401114206128133,
	"grad_norm": 3.629032850265503,
	"learning_rate": 2.5743607583927645e-06,
	"loss": 0.3925,
	"step": 370
	},
	{
	"epoch": 8.401114206128133,
	"eval_loss": 0.03077574074268341,
	"eval_runtime": 6.9569,
	"eval_samples_per_second": 215.613,
	"eval_steps_per_second": 27.024,
	"eval_sts_dev_pearson_cosine": 0.7860927703016911,
	"eval_sts_dev_pearson_dot": 0.7084805810982604,
	"eval_sts_dev_pearson_euclidean": 0.7171292733763057,
	"eval_sts_dev_pearson_manhattan": 0.7191008391698412,
	"eval_sts_dev_pearson_max": 0.7860927703016911,
	"eval_sts_dev_spearman_cosine": 0.7868465023058949,
	"eval_sts_dev_spearman_dot": 0.7026257860756843,
	"eval_sts_dev_spearman_euclidean": 0.7087433915922463,
	"eval_sts_dev_spearman_manhattan": 0.7115662090675204,
	"eval_sts_dev_spearman_max": 0.7868465023058949,
	"step": 370
	},
	{
	"epoch": 8.512534818941504,
	"eval_loss": 0.03077036887407303,
	"eval_runtime": 6.8481,
	"eval_samples_per_second": 219.038,
	"eval_steps_per_second": 27.453,
	"eval_sts_dev_pearson_cosine": 0.7860543259557101,
	"eval_sts_dev_pearson_dot": 0.7090029747286515,
	"eval_sts_dev_pearson_euclidean": 0.7168001987123229,
	"eval_sts_dev_pearson_manhattan": 0.7187912798445806,
	"eval_sts_dev_pearson_max": 0.7860543259557101,
	"eval_sts_dev_spearman_cosine": 0.786577121013552,
	"eval_sts_dev_spearman_dot": 0.7032207123703509,
	"eval_sts_dev_spearman_euclidean": 0.7083026579268292,
	"eval_sts_dev_spearman_manhattan": 0.7111138102646555,
	"eval_sts_dev_spearman_max": 0.786577121013552,
	"step": 375
	},
	{
	"epoch": 8.623955431754874,
	"grad_norm": 4.5424346923828125,
	"learning_rate": 2.643938076187163e-06,
	"loss": 0.4049,
	"step": 380
	},
	{
	"epoch": 8.623955431754874,
	"eval_loss": 0.030785972252488136,
	"eval_runtime": 6.9052,
	"eval_samples_per_second": 217.228,
	"eval_steps_per_second": 27.226,
	"eval_sts_dev_pearson_cosine": 0.786338341456081,
	"eval_sts_dev_pearson_dot": 0.7090251722360976,
	"eval_sts_dev_pearson_euclidean": 0.7176375494602096,
	"eval_sts_dev_pearson_manhattan": 0.7195903686388057,
	"eval_sts_dev_pearson_max": 0.786338341456081,
	"eval_sts_dev_spearman_cosine": 0.7869461186588641,
	"eval_sts_dev_spearman_dot": 0.7030353980707192,
	"eval_sts_dev_spearman_euclidean": 0.7093240329985625,
	"eval_sts_dev_spearman_manhattan": 0.7120013731894795,
	"eval_sts_dev_spearman_max": 0.7869461186588641,
	"step": 380
	},
	{
	"epoch": 8.735376044568245,
	"eval_loss": 0.03077947534620762,
	"eval_runtime": 6.94,
	"eval_samples_per_second": 216.137,
	"eval_steps_per_second": 27.089,
	"eval_sts_dev_pearson_cosine": 0.7867836664964302,
	"eval_sts_dev_pearson_dot": 0.7089649699768177,
	"eval_sts_dev_pearson_euclidean": 0.7185998785212442,
	"eval_sts_dev_pearson_manhattan": 0.7205256023581162,
	"eval_sts_dev_pearson_max": 0.7867836664964302,
	"eval_sts_dev_spearman_cosine": 0.7875195626790124,
	"eval_sts_dev_spearman_dot": 0.7028351666319841,
	"eval_sts_dev_spearman_euclidean": 0.7105482738364566,
	"eval_sts_dev_spearman_manhattan": 0.7132642042369475,
	"eval_sts_dev_spearman_max": 0.7875195626790124,
	"step": 385
	},
	{
	"epoch": 8.846796657381615,
	"grad_norm": 3.7269480228424072,
	"learning_rate": 2.7135153939815623e-06,
	"loss": 0.3742,
	"step": 390
	},
	{
	"epoch": 8.846796657381615,
	"eval_loss": 0.030757909640669823,
	"eval_runtime": 6.912,
	"eval_samples_per_second": 217.015,
	"eval_steps_per_second": 27.199,
	"eval_sts_dev_pearson_cosine": 0.7873307957198338,
	"eval_sts_dev_pearson_dot": 0.7087450117938812,
	"eval_sts_dev_pearson_euclidean": 0.7199394166229915,
	"eval_sts_dev_pearson_manhattan": 0.7218118008402783,
	"eval_sts_dev_pearson_max": 0.7873307957198338,
	"eval_sts_dev_spearman_cosine": 0.7883481466120934,
	"eval_sts_dev_spearman_dot": 0.702431533404311,
	"eval_sts_dev_spearman_euclidean": 0.7122286167501692,
	"eval_sts_dev_spearman_manhattan": 0.7149544811678771,
	"eval_sts_dev_spearman_max": 0.7883481466120934,
	"step": 390
	},
	{
	"epoch": 8.958217270194986,
	"eval_loss": 0.03074067085981369,
	"eval_runtime": 7.0786,
	"eval_samples_per_second": 211.905,
	"eval_steps_per_second": 26.559,
	"eval_sts_dev_pearson_cosine": 0.7875281932009626,
	"eval_sts_dev_pearson_dot": 0.7091183187974348,
	"eval_sts_dev_pearson_euclidean": 0.720306579358833,
	"eval_sts_dev_pearson_manhattan": 0.7221545912209083,
	"eval_sts_dev_pearson_max": 0.7875281932009626,
	"eval_sts_dev_spearman_cosine": 0.7884911216315376,
	"eval_sts_dev_spearman_dot": 0.7026504547905195,
	"eval_sts_dev_spearman_euclidean": 0.7125846397557779,
	"eval_sts_dev_spearman_manhattan": 0.7153917764693033,
	"eval_sts_dev_spearman_max": 0.7884911216315376,
	"step": 395
	},
	{
	"epoch": 9.089136490250697,
	"grad_norm": 3.8048255443573,
	"learning_rate": 2.7830927117759614e-06,
	"loss": 0.3498,
	"step": 400
	},
	{
	"epoch": 9.089136490250697,
	"eval_loss": 0.03073756769299507,
	"eval_runtime": 7.1819,
	"eval_samples_per_second": 208.858,
	"eval_steps_per_second": 26.177,
	"eval_sts_dev_pearson_cosine": 0.7875285006609543,
	"eval_sts_dev_pearson_dot": 0.709718276464936,
	"eval_sts_dev_pearson_euclidean": 0.7202436438310591,
	"eval_sts_dev_pearson_manhattan": 0.7220766094080024,
	"eval_sts_dev_pearson_max": 0.7875285006609543,
	"eval_sts_dev_spearman_cosine": 0.7885939335328866,
	"eval_sts_dev_spearman_dot": 0.7032536436958657,
	"eval_sts_dev_spearman_euclidean": 0.7124855846354039,
	"eval_sts_dev_spearman_manhattan": 0.7153797502128406,
	"eval_sts_dev_spearman_max": 0.7885939335328866,
	"step": 400
	},
	{
	"epoch": 9.200557103064067,
	"eval_loss": 0.03071259893476963,
	"eval_runtime": 6.8201,
	"eval_samples_per_second": 219.938,
	"eval_steps_per_second": 27.566,
	"eval_sts_dev_pearson_cosine": 0.787184477170156,
	"eval_sts_dev_pearson_dot": 0.7102603851217889,
	"eval_sts_dev_pearson_euclidean": 0.7195444208609296,
	"eval_sts_dev_pearson_manhattan": 0.7213936268781151,
	"eval_sts_dev_pearson_max": 0.787184477170156,
	"eval_sts_dev_spearman_cosine": 0.78809909542145,
	"eval_sts_dev_spearman_dot": 0.7036724949513745,
	"eval_sts_dev_spearman_euclidean": 0.7115938480269084,
	"eval_sts_dev_spearman_manhattan": 0.7143300985487689,
	"eval_sts_dev_spearman_max": 0.78809909542145,
	"step": 405
	}
	],
	"logging_steps": 10,
	"max_steps": 440,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 5,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}