Convert model to bfloat16 and fix total_parameters metadata

aee3614 verified 3 months ago

54.9 kB

	{
	"best_global_step": null,
	"best_metric": 0.9005018183708923,
	"best_model_checkpoint": null,
	"epoch": 0.9947643979057592,
	"eval_steps": 16,
	"global_step": 760,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.005235602094240838,
	"grad_norm": 433.5572204589844,
	"learning_rate": 5.217391304347826e-07,
	"loss": 5.5489,
	"step": 4
	},
	{
	"epoch": 0.005235602094240838,
	"eval_F1_err_corr": 0.2899344909681993,
	"eval_accuracy": 0.33964423820572315,
	"eval_correct_accuracy": 0.21863927522501062,
	"eval_error_accuracy": 0.4302247894550517,
	"eval_f1": 0.2573237770510055,
	"eval_loss": 1.461071491241455,
	"eval_pr_auc": 0.16429768646454848,
	"eval_precision": 0.15202466598150052,
	"eval_recall": 0.8372198324654743,
	"eval_runtime": 24.9385,
	"eval_samples_per_second": 196.202,
	"eval_steps_per_second": 0.802,
	"step": 4
	},
	{
	"epoch": 0.010471204188481676,
	"grad_norm": 424.1092834472656,
	"learning_rate": 1.2173913043478262e-06,
	"loss": 5.392,
	"step": 8
	},
	{
	"epoch": 0.010471204188481676,
	"eval_F1_err_corr": 0.321098900363111,
	"eval_accuracy": 0.3666511987625677,
	"eval_correct_accuracy": 0.2498037913412515,
	"eval_error_accuracy": 0.4493435370426137,
	"eval_f1": 0.25948565848012445,
	"eval_loss": 1.3678739070892334,
	"eval_pr_auc": 0.16391947366452397,
	"eval_precision": 0.15441239776151527,
	"eval_recall": 0.8120896536110482,
	"eval_runtime": 24.8266,
	"eval_samples_per_second": 197.087,
	"eval_steps_per_second": 0.806,
	"step": 8
	},
	{
	"epoch": 0.015706806282722512,
	"grad_norm": 328.165771484375,
	"learning_rate": 1.9130434782608697e-06,
	"loss": 4.6674,
	"step": 12
	},
	{
	"epoch": 0.015706806282722512,
	"eval_F1_err_corr": 0.42193034247158306,
	"eval_accuracy": 0.4537664346481052,
	"eval_correct_accuracy": 0.36420961710522887,
	"eval_error_accuracy": 0.5013920328557274,
	"eval_f1": 0.25876327610091937,
	"eval_loss": 1.08595609664917,
	"eval_pr_auc": 0.16343108665970787,
	"eval_precision": 0.15883323026180168,
	"eval_recall": 0.6977586597237945,
	"eval_runtime": 24.7964,
	"eval_samples_per_second": 197.327,
	"eval_steps_per_second": 0.807,
	"step": 12
	},
	{
	"epoch": 0.020942408376963352,
	"grad_norm": 121.70630645751953,
	"learning_rate": 2.6086956521739132e-06,
	"loss": 3.0944,
	"step": 16
	},
	{
	"epoch": 0.020942408376963352,
	"eval_F1_err_corr": 0.721921189250657,
	"eval_accuracy": 0.7358391337973704,
	"eval_correct_accuracy": 0.7870115524045516,
	"eval_error_accuracy": 0.6667750717278245,
	"eval_f1": 0.1906928253246138,
	"eval_loss": 0.5721015334129333,
	"eval_pr_auc": 0.16146374192556026,
	"eval_precision": 0.16400391261819366,
	"eval_recall": 0.22775639574371745,
	"eval_runtime": 24.8528,
	"eval_samples_per_second": 196.879,
	"eval_steps_per_second": 0.805,
	"step": 16
	},
	{
	"epoch": 0.02617801047120419,
	"grad_norm": 18.458759307861328,
	"learning_rate": 3.3043478260869567e-06,
	"loss": 2.002,
	"step": 20
	},
	{
	"epoch": 0.02617801047120419,
	"eval_F1_err_corr": 0.8402340555989792,
	"eval_accuracy": 0.8622119102861562,
	"eval_correct_accuracy": 0.9922276019965096,
	"eval_error_accuracy": 0.728620881787505,
	"eval_f1": 0.0035794183445190158,
	"eval_loss": 0.7684443593025208,
	"eval_pr_auc": 0.17251592682571912,
	"eval_precision": 0.1509433962264151,
	"eval_recall": 0.001811184061580258,
	"eval_runtime": 24.8601,
	"eval_samples_per_second": 196.822,
	"eval_steps_per_second": 0.805,
	"step": 20
	},
	{
	"epoch": 0.031413612565445025,
	"grad_norm": 115.0860595703125,
	"learning_rate": 4.000000000000001e-06,
	"loss": 3.383,
	"step": 24
	},
	{
	"epoch": 0.031413612565445025,
	"eval_F1_err_corr": 0.8378682847250856,
	"eval_accuracy": 0.8620881670533642,
	"eval_correct_accuracy": 0.9842169035446346,
	"eval_error_accuracy": 0.7294085238385144,
	"eval_f1": 0.008451957295373666,
	"eval_loss": 0.8194268941879272,
	"eval_pr_auc": 0.18009572056722223,
	"eval_precision": 0.24050632911392406,
	"eval_recall": 0.004301562146253113,
	"eval_runtime": 24.8294,
	"eval_samples_per_second": 197.065,
	"eval_steps_per_second": 0.805,
	"step": 24
	},
	{
	"epoch": 0.03664921465968586,
	"grad_norm": 99.96025848388672,
	"learning_rate": 4.695652173913044e-06,
	"loss": 3.1857,
	"step": 28
	},
	{
	"epoch": 0.03664921465968586,
	"eval_F1_err_corr": 0.8207683484774771,
	"eval_accuracy": 0.8591492652745553,
	"eval_correct_accuracy": 0.9328157189465495,
	"eval_error_accuracy": 0.7327520943454843,
	"eval_f1": 0.060268317853457175,
	"eval_loss": 0.6408756971359253,
	"eval_pr_auc": 0.19809419361676622,
	"eval_precision": 0.3411214953271028,
	"eval_recall": 0.03305410912383971,
	"eval_runtime": 24.8048,
	"eval_samples_per_second": 197.261,
	"eval_steps_per_second": 0.806,
	"step": 28
	},
	{
	"epoch": 0.041884816753926704,
	"grad_norm": 48.16204071044922,
	"learning_rate": 5.391304347826088e-06,
	"loss": 2.1498,
	"step": 32
	},
	{
	"epoch": 0.041884816753926704,
	"eval_F1_err_corr": 0.7694538304703895,
	"eval_accuracy": 0.837370456303171,
	"eval_correct_accuracy": 0.8088768689020601,
	"eval_error_accuracy": 0.7336950054749075,
	"eval_f1": 0.21148942552872357,
	"eval_loss": 0.44809016585350037,
	"eval_pr_auc": 0.2318064013915099,
	"eval_precision": 0.31333333333333335,
	"eval_recall": 0.15961059542676023,
	"eval_runtime": 24.8313,
	"eval_samples_per_second": 197.05,
	"eval_steps_per_second": 0.805,
	"step": 32
	},
	{
	"epoch": 0.04712041884816754,
	"grad_norm": 169.05667114257812,
	"learning_rate": 6.086956521739132e-06,
	"loss": 1.9176,
	"step": 36
	},
	{
	"epoch": 0.04712041884816754,
	"eval_F1_err_corr": 0.6219027098098009,
	"eval_accuracy": 0.7121732405259087,
	"eval_correct_accuracy": 0.5674362971053744,
	"eval_error_accuracy": 0.687935454975843,
	"eval_f1": 0.33722752528850264,
	"eval_loss": 0.5731640458106995,
	"eval_pr_auc": 0.2788670530837179,
	"eval_precision": 0.2460243217960711,
	"eval_recall": 0.5358840842200588,
	"eval_runtime": 24.8463,
	"eval_samples_per_second": 196.931,
	"eval_steps_per_second": 0.805,
	"step": 36
	},
	{
	"epoch": 0.05235602094240838,
	"grad_norm": 114.60936737060547,
	"learning_rate": 6.782608695652174e-06,
	"loss": 2.0171,
	"step": 40
	},
	{
	"epoch": 0.05235602094240838,
	"eval_F1_err_corr": 0.7430224807525013,
	"eval_accuracy": 0.7990719257540603,
	"eval_correct_accuracy": 0.7547544657206874,
	"eval_error_accuracy": 0.7316496396965659,
	"eval_f1": 0.35211970074812965,
	"eval_loss": 0.4375106692314148,
	"eval_pr_auc": 0.3012571706540082,
	"eval_precision": 0.3147289586305278,
	"eval_recall": 0.39959248358614446,
	"eval_runtime": 24.8039,
	"eval_samples_per_second": 197.268,
	"eval_steps_per_second": 0.806,
	"step": 40
	},
	{
	"epoch": 0.05759162303664921,
	"grad_norm": 32.457340240478516,
	"learning_rate": 7.478260869565218e-06,
	"loss": 1.611,
	"step": 44
	},
	{
	"epoch": 0.05759162303664921,
	"eval_F1_err_corr": 0.8419241583637731,
	"eval_accuracy": 0.862830626450116,
	"eval_correct_accuracy": 0.9871360561186291,
	"eval_error_accuracy": 0.7339561045659535,
	"eval_f1": 0.09914668833807395,
	"eval_loss": 0.38381654024124146,
	"eval_pr_auc": 0.3152015073109494,
	"eval_precision": 0.48316831683168315,
	"eval_recall": 0.05524111387819787,
	"eval_runtime": 24.832,
	"eval_samples_per_second": 197.044,
	"eval_steps_per_second": 0.805,
	"step": 44
	},
	{
	"epoch": 0.06282722513089005,
	"grad_norm": 22.770957946777344,
	"learning_rate": 8.173913043478263e-06,
	"loss": 1.5516,
	"step": 48
	},
	{
	"epoch": 0.06282722513089005,
	"eval_F1_err_corr": 0.8403483674599067,
	"eval_accuracy": 0.859891724671307,
	"eval_correct_accuracy": 0.9726090387657613,
	"eval_error_accuracy": 0.7397527603961362,
	"eval_f1": 0.19484444444444443,
	"eval_loss": 0.355484277009964,
	"eval_pr_auc": 0.3399032342610957,
	"eval_precision": 0.45364238410596025,
	"eval_recall": 0.12406610821824768,
	"eval_runtime": 24.7998,
	"eval_samples_per_second": 197.3,
	"eval_steps_per_second": 0.806,
	"step": 48
	},
	{
	"epoch": 0.06806282722513089,
	"grad_norm": 69.65153503417969,
	"learning_rate": 8.869565217391306e-06,
	"loss": 1.4648,
	"step": 52
	},
	{
	"epoch": 0.06806282722513089,
	"eval_F1_err_corr": 0.8036896045473728,
	"eval_accuracy": 0.8478267594740913,
	"eval_correct_accuracy": 0.8494371774369468,
	"eval_error_accuracy": 0.762617804842102,
	"eval_f1": 0.38658186806334954,
	"eval_loss": 0.36472800374031067,
	"eval_pr_auc": 0.38944473786040484,
	"eval_precision": 0.4303164908384231,
	"eval_recall": 0.350916911931175,
	"eval_runtime": 24.8345,
	"eval_samples_per_second": 197.025,
	"eval_steps_per_second": 0.805,
	"step": 52
	},
	{
	"epoch": 0.07329842931937172,
	"grad_norm": 9.83507251739502,
	"learning_rate": 9.565217391304349e-06,
	"loss": 1.3967,
	"step": 56
	},
	{
	"epoch": 0.07329842931937172,
	"eval_F1_err_corr": 0.8296970467203022,
	"eval_accuracy": 0.8688321732405259,
	"eval_correct_accuracy": 0.9181484628791651,
	"eval_error_accuracy": 0.7567903433781845,
	"eval_f1": 0.29262595929262597,
	"eval_loss": 0.33204466104507446,
	"eval_pr_auc": 0.41163972835541246,
	"eval_precision": 0.5561192136968929,
	"eval_recall": 0.19855105275073578,
	"eval_runtime": 24.8293,
	"eval_samples_per_second": 197.066,
	"eval_steps_per_second": 0.805,
	"step": 56
	},
	{
	"epoch": 0.07853403141361257,
	"grad_norm": 16.36752700805664,
	"learning_rate": 1.0260869565217393e-05,
	"loss": 1.2944,
	"step": 60
	},
	{
	"epoch": 0.07853403141361257,
	"eval_F1_err_corr": 0.8421678884358804,
	"eval_accuracy": 0.8736581593194123,
	"eval_correct_accuracy": 0.9276144097142335,
	"eval_error_accuracy": 0.7711353234659966,
	"eval_f1": 0.38438347904733194,
	"eval_loss": 0.31788310408592224,
	"eval_pr_auc": 0.4608372769142751,
	"eval_precision": 0.5751014884979703,
	"eval_recall": 0.28865745981435365,
	"eval_runtime": 24.8595,
	"eval_samples_per_second": 196.826,
	"eval_steps_per_second": 0.805,
	"step": 60
	},
	{
	"epoch": 0.08376963350785341,
	"grad_norm": 17.503982543945312,
	"learning_rate": 1.0956521739130435e-05,
	"loss": 1.284,
	"step": 64
	},
	{
	"epoch": 0.08376963350785341,
	"eval_F1_err_corr": 0.8579401681935629,
	"eval_accuracy": 0.8769682907965971,
	"eval_correct_accuracy": 0.9478163203454459,
	"eval_error_accuracy": 0.7836326415058088,
	"eval_f1": 0.4385147536354652,
	"eval_loss": 0.30793023109436035,
	"eval_pr_auc": 0.49259983395831536,
	"eval_precision": 0.5825206301575394,
	"eval_recall": 0.3515961059542676,
	"eval_runtime": 24.8423,
	"eval_samples_per_second": 196.962,
	"eval_steps_per_second": 0.805,
	"step": 64
	},
	{
	"epoch": 0.08900523560209424,
	"grad_norm": 18.571523666381836,
	"learning_rate": 1.1652173913043478e-05,
	"loss": 1.191,
	"step": 68
	},
	{
	"epoch": 0.08900523560209424,
	"eval_F1_err_corr": 0.8618882109239977,
	"eval_accuracy": 0.8807424593967518,
	"eval_correct_accuracy": 0.9652649658606812,
	"eval_error_accuracy": 0.7785120852969489,
	"eval_f1": 0.38741458763705705,
	"eval_loss": 0.30222997069358826,
	"eval_pr_auc": 0.5105597340335465,
	"eval_precision": 0.6497867803837953,
	"eval_recall": 0.2759791713832918,
	"eval_runtime": 24.8386,
	"eval_samples_per_second": 196.992,
	"eval_steps_per_second": 0.805,
	"step": 68
	},
	{
	"epoch": 0.09424083769633508,
	"grad_norm": 19.51681900024414,
	"learning_rate": 1.2347826086956523e-05,
	"loss": 1.1905,
	"step": 72
	},
	{
	"epoch": 0.09424083769633508,
	"eval_F1_err_corr": 0.8556927040319808,
	"eval_accuracy": 0.8829079659706109,
	"eval_correct_accuracy": 0.9252440207528985,
	"eval_error_accuracy": 0.7958667759923117,
	"eval_f1": 0.46682631356529086,
	"eval_loss": 0.2958272099494934,
	"eval_pr_auc": 0.5272941790977752,
	"eval_precision": 0.6178225205070843,
	"eval_recall": 0.37514149875481095,
	"eval_runtime": 24.8293,
	"eval_samples_per_second": 197.065,
	"eval_steps_per_second": 0.805,
	"step": 72
	},
	{
	"epoch": 0.09947643979057591,
	"grad_norm": 21.868053436279297,
	"learning_rate": 1.3043478260869566e-05,
	"loss": 1.1759,
	"step": 76
	},
	{
	"epoch": 0.09947643979057591,
	"eval_F1_err_corr": 0.8671239387996902,
	"eval_accuracy": 0.8833720030935808,
	"eval_correct_accuracy": 0.965744942725071,
	"eval_error_accuracy": 0.7867787965661607,
	"eval_f1": 0.43932183224271265,
	"eval_loss": 0.2900922894477844,
	"eval_pr_auc": 0.5398410773230814,
	"eval_precision": 0.6402254009536195,
	"eval_recall": 0.33438985736925514,
	"eval_runtime": 24.826,
	"eval_samples_per_second": 197.092,
	"eval_steps_per_second": 0.806,
	"step": 76
	},
	{
	"epoch": 0.10471204188481675,
	"grad_norm": 11.858696937561035,
	"learning_rate": 1.373913043478261e-05,
	"loss": 1.1804,
	"step": 80
	},
	{
	"epoch": 0.10471204188481675,
	"eval_F1_err_corr": 0.8643274810534162,
	"eval_accuracy": 0.8850425367362722,
	"eval_correct_accuracy": 0.951882356363745,
	"eval_error_accuracy": 0.7915226184557567,
	"eval_f1": 0.4779432424838438,
	"eval_loss": 0.2871633768081665,
	"eval_pr_auc": 0.5513156434574297,
	"eval_precision": 0.6297667530544243,
	"eval_recall": 0.38510301109350237,
	"eval_runtime": 24.8425,
	"eval_samples_per_second": 196.96,
	"eval_steps_per_second": 0.805,
	"step": 80
	},
	{
	"epoch": 0.1099476439790576,
	"grad_norm": 8.166620254516602,
	"learning_rate": 1.4434782608695654e-05,
	"loss": 1.1212,
	"step": 84
	},
	{
	"epoch": 0.11518324607329843,
	"grad_norm": 4.340336799621582,
	"learning_rate": 1.5130434782608697e-05,
	"loss": 1.1325,
	"step": 88
	},
	{
	"epoch": 0.12041884816753927,
	"grad_norm": 27.051570892333984,
	"learning_rate": 1.582608695652174e-05,
	"loss": 1.1218,
	"step": 92
	},
	{
	"epoch": 0.1256544502617801,
	"grad_norm": 22.343820571899414,
	"learning_rate": 1.6521739130434785e-05,
	"loss": 1.1068,
	"step": 96
	},
	{
	"epoch": 0.13089005235602094,
	"grad_norm": 47.00363540649414,
	"learning_rate": 1.721739130434783e-05,
	"loss": 1.1034,
	"step": 100
	},
	{
	"epoch": 0.13612565445026178,
	"grad_norm": 40.41328048706055,
	"learning_rate": 1.791304347826087e-05,
	"loss": 1.1235,
	"step": 104
	},
	{
	"epoch": 0.14136125654450263,
	"grad_norm": 31.55730628967285,
	"learning_rate": 1.8608695652173912e-05,
	"loss": 1.0747,
	"step": 108
	},
	{
	"epoch": 0.14659685863874344,
	"grad_norm": 2.652536392211914,
	"learning_rate": 1.9304347826086957e-05,
	"loss": 0.9891,
	"step": 112
	},
	{
	"epoch": 0.1518324607329843,
	"grad_norm": 3.2267162799835205,
	"learning_rate": 2e-05,
	"loss": 0.9607,
	"step": 116
	},
	{
	"epoch": 0.15706806282722513,
	"grad_norm": 21.89421272277832,
	"learning_rate": 1.9999942480792804e-05,
	"loss": 1.0643,
	"step": 120
	},
	{
	"epoch": 0.15706806282722513,
	"eval_F1_err_corr": 0.8734264964691199,
	"eval_accuracy": 0.8929311678267595,
	"eval_correct_accuracy": 0.9278371473433551,
	"eval_error_accuracy": 0.8250438945941904,
	"eval_f1": 0.5815499939547818,
	"eval_loss": 0.2678382694721222,
	"eval_pr_auc": 0.6347920534332054,
	"eval_precision": 0.6240269849507005,
	"eval_recall": 0.544487208512565,
	"eval_runtime": 24.8153,
	"eval_samples_per_second": 197.177,
	"eval_steps_per_second": 0.806,
	"step": 120
	},
	{
	"epoch": 0.16230366492146597,
	"grad_norm": 8.081486701965332,
	"learning_rate": 1.999976992383291e-05,
	"loss": 1.0189,
	"step": 124
	},
	{
	"epoch": 0.16753926701570682,
	"grad_norm": 17.748775482177734,
	"learning_rate": 1.9999482331105377e-05,
	"loss": 0.9898,
	"step": 128
	},
	{
	"epoch": 0.17277486910994763,
	"grad_norm": 41.294334411621094,
	"learning_rate": 1.9999079705918636e-05,
	"loss": 1.0795,
	"step": 132
	},
	{
	"epoch": 0.17801047120418848,
	"grad_norm": 4.425788879394531,
	"learning_rate": 1.999856205290442e-05,
	"loss": 1.0274,
	"step": 136
	},
	{
	"epoch": 0.18324607329842932,
	"grad_norm": 26.085590362548828,
	"learning_rate": 1.9997929378017723e-05,
	"loss": 0.9516,
	"step": 140
	},
	{
	"epoch": 0.18848167539267016,
	"grad_norm": 18.811126708984375,
	"learning_rate": 1.9997181688536746e-05,
	"loss": 0.966,
	"step": 144
	},
	{
	"epoch": 0.193717277486911,
	"grad_norm": 22.464527130126953,
	"learning_rate": 1.999631899306278e-05,
	"loss": 0.8932,
	"step": 148
	},
	{
	"epoch": 0.19895287958115182,
	"grad_norm": 8.309951782226562,
	"learning_rate": 1.999534130152014e-05,
	"loss": 0.9756,
	"step": 152
	},
	{
	"epoch": 0.20418848167539266,
	"grad_norm": 4.516532897949219,
	"learning_rate": 1.999424862515604e-05,
	"loss": 0.998,
	"step": 156
	},
	{
	"epoch": 0.2094240837696335,
	"grad_norm": 10.015279769897461,
	"learning_rate": 1.999304097654045e-05,
	"loss": 0.9015,
	"step": 160
	},
	{
	"epoch": 0.2094240837696335,
	"eval_F1_err_corr": 0.885087159946509,
	"eval_accuracy": 0.9020572312451662,
	"eval_correct_accuracy": 0.95333342698488,
	"eval_error_accuracy": 0.8259592279571245,
	"eval_f1": 0.5984271943176053,
	"eval_loss": 0.24851758778095245,
	"eval_pr_auc": 0.6675246054619536,
	"eval_precision": 0.6804153446783963,
	"eval_recall": 0.5340729001584786,
	"eval_runtime": 24.8104,
	"eval_samples_per_second": 197.216,
	"eval_steps_per_second": 0.806,
	"step": 160
	},
	{
	"epoch": 0.21465968586387435,
	"grad_norm": 14.583905220031738,
	"learning_rate": 1.999171836956597e-05,
	"loss": 0.9587,
	"step": 164
	},
	{
	"epoch": 0.2198952879581152,
	"grad_norm": 9.168513298034668,
	"learning_rate": 1.9990280819447662e-05,
	"loss": 0.9663,
	"step": 168
	},
	{
	"epoch": 0.225130890052356,
	"grad_norm": 24.278688430786133,
	"learning_rate": 1.998872834272287e-05,
	"loss": 0.9679,
	"step": 172
	},
	{
	"epoch": 0.23036649214659685,
	"grad_norm": 23.693418502807617,
	"learning_rate": 1.9987060957251047e-05,
	"loss": 0.9541,
	"step": 176
	},
	{
	"epoch": 0.2356020942408377,
	"grad_norm": 34.47703170776367,
	"learning_rate": 1.9985278682213525e-05,
	"loss": 0.8988,
	"step": 180
	},
	{
	"epoch": 0.24083769633507854,
	"grad_norm": 17.93362045288086,
	"learning_rate": 1.9983381538113317e-05,
	"loss": 0.9296,
	"step": 184
	},
	{
	"epoch": 0.24607329842931938,
	"grad_norm": 23.294275283813477,
	"learning_rate": 1.998136954677487e-05,
	"loss": 0.9337,
	"step": 188
	},
	{
	"epoch": 0.2513089005235602,
	"grad_norm": 19.78593635559082,
	"learning_rate": 1.9979242731343803e-05,
	"loss": 0.8976,
	"step": 192
	},
	{
	"epoch": 0.25654450261780104,
	"grad_norm": 16.300464630126953,
	"learning_rate": 1.9977001116286675e-05,
	"loss": 0.8705,
	"step": 196
	},
	{
	"epoch": 0.2617801047120419,
	"grad_norm": 26.935935974121094,
	"learning_rate": 1.9974644727390665e-05,
	"loss": 0.8758,
	"step": 200
	},
	{
	"epoch": 0.2617801047120419,
	"eval_F1_err_corr": 0.8910747356279248,
	"eval_accuracy": 0.9052126836813612,
	"eval_correct_accuracy": 0.9761037985940583,
	"eval_error_accuracy": 0.819672508302841,
	"eval_f1": 0.558119411595039,
	"eval_loss": 0.24936090409755707,
	"eval_pr_auc": 0.6830633725429478,
	"eval_precision": 0.768772348033373,
	"eval_recall": 0.4380801448947249,
	"eval_runtime": 24.8593,
	"eval_samples_per_second": 196.827,
	"eval_steps_per_second": 0.805,
	"step": 200
	},
	{
	"epoch": 0.2670157068062827,
	"grad_norm": 26.804174423217773,
	"learning_rate": 1.9972173591763297e-05,
	"loss": 0.9957,
	"step": 204
	},
	{
	"epoch": 0.27225130890052357,
	"grad_norm": 12.255861282348633,
	"learning_rate": 1.996958773783213e-05,
	"loss": 0.8614,
	"step": 208
	},
	{
	"epoch": 0.2774869109947644,
	"grad_norm": 10.577012062072754,
	"learning_rate": 1.9966887195344403e-05,
	"loss": 0.8539,
	"step": 212
	},
	{
	"epoch": 0.28272251308900526,
	"grad_norm": 9.850268363952637,
	"learning_rate": 1.9964071995366744e-05,
	"loss": 0.8184,
	"step": 216
	},
	{
	"epoch": 0.2879581151832461,
	"grad_norm": 4.022161960601807,
	"learning_rate": 1.9961142170284762e-05,
	"loss": 0.783,
	"step": 220
	},
	{
	"epoch": 0.2931937172774869,
	"grad_norm": 4.174556732177734,
	"learning_rate": 1.9958097753802693e-05,
	"loss": 0.8355,
	"step": 224
	},
	{
	"epoch": 0.29842931937172773,
	"grad_norm": 8.559288024902344,
	"learning_rate": 1.9954938780943034e-05,
	"loss": 0.8081,
	"step": 228
	},
	{
	"epoch": 0.3036649214659686,
	"grad_norm": 11.881876945495605,
	"learning_rate": 1.9951665288046098e-05,
	"loss": 0.8846,
	"step": 232
	},
	{
	"epoch": 0.3089005235602094,
	"grad_norm": 9.480097770690918,
	"learning_rate": 1.994827731276963e-05,
	"loss": 0.869,
	"step": 236
	},
	{
	"epoch": 0.31413612565445026,
	"grad_norm": 18.96599006652832,
	"learning_rate": 1.9944774894088367e-05,
	"loss": 0.9044,
	"step": 240
	},
	{
	"epoch": 0.31413612565445026,
	"eval_F1_err_corr": 0.8903583524392616,
	"eval_accuracy": 0.8976334106728538,
	"eval_correct_accuracy": 0.9422891260099501,
	"eval_error_accuracy": 0.8438525462118894,
	"eval_f1": 0.6341625207296849,
	"eval_loss": 0.25486111640930176,
	"eval_pr_auc": 0.6936322312463549,
	"eval_precision": 0.6197061365600691,
	"eval_recall": 0.6493094860765225,
	"eval_runtime": 24.7931,
	"eval_samples_per_second": 197.353,
	"eval_steps_per_second": 0.807,
	"step": 240
	},
	{
	"epoch": 0.3193717277486911,
	"grad_norm": 7.49755859375,
	"learning_rate": 1.994115807229357e-05,
	"loss": 0.8702,
	"step": 244
	},
	{
	"epoch": 0.32460732984293195,
	"grad_norm": 19.93411636352539,
	"learning_rate": 1.993742688899259e-05,
	"loss": 0.8357,
	"step": 248
	},
	{
	"epoch": 0.3298429319371728,
	"grad_norm": 18.435436248779297,
	"learning_rate": 1.9933581387108358e-05,
	"loss": 0.8185,
	"step": 252
	},
	{
	"epoch": 0.33507853403141363,
	"grad_norm": 23.072092056274414,
	"learning_rate": 1.992962161087893e-05,
	"loss": 0.8371,
	"step": 256
	},
	{
	"epoch": 0.3403141361256545,
	"grad_norm": 11.625171661376953,
	"learning_rate": 1.9925547605856937e-05,
	"loss": 0.8276,
	"step": 260
	},
	{
	"epoch": 0.34554973821989526,
	"grad_norm": 18.671037673950195,
	"learning_rate": 1.992135941890909e-05,
	"loss": 0.8253,
	"step": 264
	},
	{
	"epoch": 0.3507853403141361,
	"grad_norm": 15.393129348754883,
	"learning_rate": 1.9917057098215624e-05,
	"loss": 0.8245,
	"step": 268
	},
	{
	"epoch": 0.35602094240837695,
	"grad_norm": 9.267082214355469,
	"learning_rate": 1.9912640693269754e-05,
	"loss": 0.8451,
	"step": 272
	},
	{
	"epoch": 0.3612565445026178,
	"grad_norm": 5.4926252365112305,
	"learning_rate": 1.9908110254877107e-05,
	"loss": 0.813,
	"step": 276
	},
	{
	"epoch": 0.36649214659685864,
	"grad_norm": 6.064371585845947,
	"learning_rate": 1.9903465835155124e-05,
	"loss": 0.7553,
	"step": 280
	},
	{
	"epoch": 0.36649214659685864,
	"eval_F1_err_corr": 0.898106732050316,
	"eval_accuracy": 0.9078112915699923,
	"eval_correct_accuracy": 0.9649030769491357,
	"eval_error_accuracy": 0.8399597119400094,
	"eval_f1": 0.624117053481332,
	"eval_loss": 0.23855358362197876,
	"eval_pr_auc": 0.697922245841014,
	"eval_precision": 0.704642551979493,
	"eval_recall": 0.5601086710436948,
	"eval_runtime": 24.8196,
	"eval_samples_per_second": 197.143,
	"eval_steps_per_second": 0.806,
	"step": 280
	},
	{
	"epoch": 0.3717277486910995,
	"grad_norm": 11.443989753723145,
	"learning_rate": 1.9898707487532475e-05,
	"loss": 0.7992,
	"step": 284
	},
	{
	"epoch": 0.3769633507853403,
	"grad_norm": 9.889354705810547,
	"learning_rate": 1.9893835266748437e-05,
	"loss": 0.8425,
	"step": 288
	},
	{
	"epoch": 0.38219895287958117,
	"grad_norm": 6.687994480133057,
	"learning_rate": 1.9888849228852262e-05,
	"loss": 0.8465,
	"step": 292
	},
	{
	"epoch": 0.387434554973822,
	"grad_norm": 3.455092430114746,
	"learning_rate": 1.988374943120254e-05,
	"loss": 0.8098,
	"step": 296
	},
	{
	"epoch": 0.39267015706806285,
	"grad_norm": 4.258669376373291,
	"learning_rate": 1.987853593246654e-05,
	"loss": 0.8263,
	"step": 300
	},
	{
	"epoch": 0.39790575916230364,
	"grad_norm": 5.940682888031006,
	"learning_rate": 1.9873208792619517e-05,
	"loss": 0.7651,
	"step": 304
	},
	{
	"epoch": 0.4031413612565445,
	"grad_norm": 5.644289493560791,
	"learning_rate": 1.9867768072944047e-05,
	"loss": 0.7919,
	"step": 308
	},
	{
	"epoch": 0.4083769633507853,
	"grad_norm": 6.426525115966797,
	"learning_rate": 1.9862213836029308e-05,
	"loss": 0.7661,
	"step": 312
	},
	{
	"epoch": 0.41361256544502617,
	"grad_norm": 7.790468215942383,
	"learning_rate": 1.985654614577036e-05,
	"loss": 0.7592,
	"step": 316
	},
	{
	"epoch": 0.418848167539267,
	"grad_norm": 8.240925788879395,
	"learning_rate": 1.985076506736741e-05,
	"loss": 0.7935,
	"step": 320
	},
	{
	"epoch": 0.418848167539267,
	"eval_F1_err_corr": 0.8892707173263128,
	"eval_accuracy": 0.900108275328693,
	"eval_correct_accuracy": 0.9416031342860438,
	"eval_error_accuracy": 0.8424490839609798,
	"eval_f1": 0.636169014084507,
	"eval_loss": 0.24991166591644287,
	"eval_pr_auc": 0.6999774937080984,
	"eval_precision": 0.6332436069986541,
	"eval_recall": 0.6391215757301336,
	"eval_runtime": 24.8123,
	"eval_samples_per_second": 197.2,
	"eval_steps_per_second": 0.806,
	"step": 320
	},
	{
	"epoch": 0.42408376963350786,
	"grad_norm": 6.823334217071533,
	"learning_rate": 1.9844870667325073e-05,
	"loss": 0.7347,
	"step": 324
	},
	{
	"epoch": 0.4293193717277487,
	"grad_norm": 4.039069175720215,
	"learning_rate": 1.9838863013451587e-05,
	"loss": 0.7886,
	"step": 328
	},
	{
	"epoch": 0.43455497382198954,
	"grad_norm": 7.6934380531311035,
	"learning_rate": 1.9832742174858052e-05,
	"loss": 0.7608,
	"step": 332
	},
	{
	"epoch": 0.4397905759162304,
	"grad_norm": 9.409914016723633,
	"learning_rate": 1.9826508221957624e-05,
	"loss": 0.7466,
	"step": 336
	},
	{
	"epoch": 0.44502617801047123,
	"grad_norm": 7.726130962371826,
	"learning_rate": 1.9820161226464708e-05,
	"loss": 0.7023,
	"step": 340
	},
	{
	"epoch": 0.450261780104712,
	"grad_norm": 3.726100206375122,
	"learning_rate": 1.9813701261394136e-05,
	"loss": 0.7078,
	"step": 344
	},
	{
	"epoch": 0.45549738219895286,
	"grad_norm": 12.017361640930176,
	"learning_rate": 1.980712840106032e-05,
	"loss": 0.7383,
	"step": 348
	},
	{
	"epoch": 0.4607329842931937,
	"grad_norm": 5.709269046783447,
	"learning_rate": 1.9800442721076406e-05,
	"loss": 0.7215,
	"step": 352
	},
	{
	"epoch": 0.46596858638743455,
	"grad_norm": 12.649430274963379,
	"learning_rate": 1.979364429835339e-05,
	"loss": 0.7111,
	"step": 356
	},
	{
	"epoch": 0.4712041884816754,
	"grad_norm": 16.15489959716797,
	"learning_rate": 1.9786733211099257e-05,
	"loss": 0.7764,
	"step": 360
	},
	{
	"epoch": 0.4712041884816754,
	"eval_F1_err_corr": 0.894511960241892,
	"eval_accuracy": 0.9100077339520495,
	"eval_correct_accuracy": 0.9712793351142024,
	"eval_error_accuracy": 0.8289907059644579,
	"eval_f1": 0.5971472095277662,
	"eval_loss": 0.2414369434118271,
	"eval_pr_auc": 0.7108638111158798,
	"eval_precision": 0.7689015691868759,
	"eval_recall": 0.48811410459587956,
	"eval_runtime": 25.0196,
	"eval_samples_per_second": 195.567,
	"eval_steps_per_second": 0.799,
	"step": 360
	},
	{
	"epoch": 0.47643979057591623,
	"grad_norm": 12.530599594116211,
	"learning_rate": 1.9779709538818052e-05,
	"loss": 0.7715,
	"step": 364
	},
	{
	"epoch": 0.4816753926701571,
	"grad_norm": 6.7939605712890625,
	"learning_rate": 1.9772573362308992e-05,
	"loss": 0.7522,
	"step": 368
	},
	{
	"epoch": 0.4869109947643979,
	"grad_norm": 3.4304537773132324,
	"learning_rate": 1.9765324763665516e-05,
	"loss": 0.7511,
	"step": 372
	},
	{
	"epoch": 0.49214659685863876,
	"grad_norm": 6.636844158172607,
	"learning_rate": 1.9757963826274357e-05,
	"loss": 0.7121,
	"step": 376
	},
	{
	"epoch": 0.4973821989528796,
	"grad_norm": 4.51839017868042,
	"learning_rate": 1.975049063481457e-05,
	"loss": 0.7231,
	"step": 380
	},
	{
	"epoch": 0.5026178010471204,
	"grad_norm": 9.865214347839355,
	"learning_rate": 1.974290527525657e-05,
	"loss": 0.762,
	"step": 384
	},
	{
	"epoch": 0.5078534031413613,
	"grad_norm": 3.440359592437744,
	"learning_rate": 1.9735207834861117e-05,
	"loss": 0.7169,
	"step": 388
	},
	{
	"epoch": 0.5130890052356021,
	"grad_norm": 3.5312769412994385,
	"learning_rate": 1.972739840217836e-05,
	"loss": 0.73,
	"step": 392
	},
	{
	"epoch": 0.518324607329843,
	"grad_norm": 4.723533630371094,
	"learning_rate": 1.9719477067046768e-05,
	"loss": 0.6783,
	"step": 396
	},
	{
	"epoch": 0.5235602094240838,
	"grad_norm": 3.5356740951538086,
	"learning_rate": 1.971144392059212e-05,
	"loss": 0.7155,
	"step": 400
	},
	{
	"epoch": 0.5235602094240838,
	"eval_F1_err_corr": 0.893120798984817,
	"eval_accuracy": 0.902954369682908,
	"eval_correct_accuracy": 0.9461320280124133,
	"eval_error_accuracy": 0.8457347701138861,
	"eval_f1": 0.639051892762628,
	"eval_loss": 0.24243153631687164,
	"eval_pr_auc": 0.7029855391245526,
	"eval_precision": 0.6497426298549368,
	"eval_recall": 0.6287072673760471,
	"eval_runtime": 24.8233,
	"eval_samples_per_second": 197.113,
	"eval_steps_per_second": 0.806,
	"step": 400
	},
	{
	"epoch": 0.5287958115183246,
	"grad_norm": 13.087606430053711,
	"learning_rate": 1.970329905522647e-05,
	"loss": 0.7007,
	"step": 404
	},
	{
	"epoch": 0.5340314136125655,
	"grad_norm": 14.260698318481445,
	"learning_rate": 1.9695042564647045e-05,
	"loss": 0.6817,
	"step": 408
	},
	{
	"epoch": 0.5392670157068062,
	"grad_norm": 9.661425590515137,
	"learning_rate": 1.9686674543835208e-05,
	"loss": 0.7358,
	"step": 412
	},
	{
	"epoch": 0.5445026178010471,
	"grad_norm": 5.698840618133545,
	"learning_rate": 1.9678195089055347e-05,
	"loss": 0.6646,
	"step": 416
	},
	{
	"epoch": 0.5497382198952879,
	"grad_norm": 5.9759907722473145,
	"learning_rate": 1.9669604297853766e-05,
	"loss": 0.73,
	"step": 420
	},
	{
	"epoch": 0.5549738219895288,
	"grad_norm": 4.276744842529297,
	"learning_rate": 1.9660902269057558e-05,
	"loss": 0.712,
	"step": 424
	},
	{
	"epoch": 0.5602094240837696,
	"grad_norm": 4.572305679321289,
	"learning_rate": 1.9652089102773487e-05,
	"loss": 0.7033,
	"step": 428
	},
	{
	"epoch": 0.5654450261780105,
	"grad_norm": 3.9941539764404297,
	"learning_rate": 1.9643164900386824e-05,
	"loss": 0.6695,
	"step": 432
	},
	{
	"epoch": 0.5706806282722513,
	"grad_norm": 4.321977138519287,
	"learning_rate": 1.963412976456017e-05,
	"loss": 0.709,
	"step": 436
	},
	{
	"epoch": 0.5759162303664922,
	"grad_norm": 4.374669551849365,
	"learning_rate": 1.96249837992323e-05,
	"loss": 0.6815,
	"step": 440
	},
	{
	"epoch": 0.5759162303664922,
	"eval_F1_err_corr": 0.8937597915811933,
	"eval_accuracy": 0.9036968290796598,
	"eval_correct_accuracy": 0.9500814005540427,
	"eval_error_accuracy": 0.8437420660571459,
	"eval_f1": 0.6368832380730199,
	"eval_loss": 0.24286404252052307,
	"eval_pr_auc": 0.7035206327309997,
	"eval_precision": 0.6568816169393648,
	"eval_recall": 0.618066561014263,
	"eval_runtime": 24.8231,
	"eval_samples_per_second": 197.115,
	"eval_steps_per_second": 0.806,
	"step": 440
	},
	{
	"epoch": 0.581151832460733,
	"grad_norm": 3.3900415897369385,
	"learning_rate": 1.961572710961695e-05,
	"loss": 0.6042,
	"step": 444
	},
	{
	"epoch": 0.5863874345549738,
	"grad_norm": 3.9020636081695557,
	"learning_rate": 1.9606359802201608e-05,
	"loss": 0.6541,
	"step": 448
	},
	{
	"epoch": 0.5916230366492147,
	"grad_norm": 3.2324304580688477,
	"learning_rate": 1.9596881984746288e-05,
	"loss": 0.664,
	"step": 452
	},
	{
	"epoch": 0.5968586387434555,
	"grad_norm": 3.6972060203552246,
	"learning_rate": 1.958729376628231e-05,
	"loss": 0.6325,
	"step": 456
	},
	{
	"epoch": 0.6020942408376964,
	"grad_norm": 4.679067134857178,
	"learning_rate": 1.957759525711101e-05,
	"loss": 0.6851,
	"step": 460
	},
	{
	"epoch": 0.6073298429319371,
	"grad_norm": 6.575286865234375,
	"learning_rate": 1.9567786568802503e-05,
	"loss": 0.6266,
	"step": 464
	},
	{
	"epoch": 0.612565445026178,
	"grad_norm": 6.148586273193359,
	"learning_rate": 1.9557867814194385e-05,
	"loss": 0.6887,
	"step": 468
	},
	{
	"epoch": 0.6178010471204188,
	"grad_norm": 3.9649710655212402,
	"learning_rate": 1.9547839107390435e-05,
	"loss": 0.6448,
	"step": 472
	},
	{
	"epoch": 0.6230366492146597,
	"grad_norm": 3.5095326900482178,
	"learning_rate": 1.9537700563759303e-05,
	"loss": 0.6793,
	"step": 476
	},
	{
	"epoch": 0.6282722513089005,
	"grad_norm": 5.709955215454102,
	"learning_rate": 1.9527452299933192e-05,
	"loss": 0.6321,
	"step": 480
	},
	{
	"epoch": 0.6282722513089005,
	"eval_F1_err_corr": 0.8922176723044,
	"eval_accuracy": 0.8975096674400619,
	"eval_correct_accuracy": 0.9449689114373253,
	"eval_error_accuracy": 0.8450445368681248,
	"eval_f1": 0.6403994355801584,
	"eval_loss": 0.25328728556632996,
	"eval_pr_auc": 0.6997538853349474,
	"eval_precision": 0.6150959132610508,
	"eval_recall": 0.6678741227077202,
	"eval_runtime": 24.8167,
	"eval_samples_per_second": 197.166,
	"eval_steps_per_second": 0.806,
	"step": 480
	},
	{
	"epoch": 0.6335078534031413,
	"grad_norm": 3.6896157264709473,
	"learning_rate": 1.95170944338065e-05,
	"loss": 0.6806,
	"step": 484
	},
	{
	"epoch": 0.6387434554973822,
	"grad_norm": 4.03073263168335,
	"learning_rate": 1.9506627084534486e-05,
	"loss": 0.6133,
	"step": 488
	},
	{
	"epoch": 0.643979057591623,
	"grad_norm": 6.4314751625061035,
	"learning_rate": 1.9496050372531864e-05,
	"loss": 0.6098,
	"step": 492
	},
	{
	"epoch": 0.6492146596858639,
	"grad_norm": 3.8455100059509277,
	"learning_rate": 1.9485364419471454e-05,
	"loss": 0.6306,
	"step": 496
	},
	{
	"epoch": 0.6544502617801047,
	"grad_norm": 3.8784000873565674,
	"learning_rate": 1.9474569348282774e-05,
	"loss": 0.6104,
	"step": 500
	},
	{
	"epoch": 0.6596858638743456,
	"grad_norm": 5.018595218658447,
	"learning_rate": 1.9463665283150604e-05,
	"loss": 0.6592,
	"step": 504
	},
	{
	"epoch": 0.6649214659685864,
	"grad_norm": 3.5282726287841797,
	"learning_rate": 1.9452652349513587e-05,
	"loss": 0.621,
	"step": 508
	},
	{
	"epoch": 0.6701570680628273,
	"grad_norm": 3.4036905765533447,
	"learning_rate": 1.9441530674062754e-05,
	"loss": 0.6744,
	"step": 512
	},
	{
	"epoch": 0.675392670157068,
	"grad_norm": 4.95082950592041,
	"learning_rate": 1.9430300384740108e-05,
	"loss": 0.5925,
	"step": 516
	},
	{
	"epoch": 0.680628272251309,
	"grad_norm": 5.078342437744141,
	"learning_rate": 1.941896161073711e-05,
	"loss": 0.5913,
	"step": 520
	},
	{
	"epoch": 0.680628272251309,
	"eval_F1_err_corr": 0.885156181305656,
	"eval_accuracy": 0.8942304717710751,
	"eval_correct_accuracy": 0.9306883336673133,
	"eval_error_accuracy": 0.8438713827505521,
	"eval_f1": 0.6393079438759363,
	"eval_loss": 0.27150195837020874,
	"eval_pr_auc": 0.6992222071782436,
	"eval_precision": 0.5985776372975109,
	"eval_recall": 0.6859859633235228,
	"eval_runtime": 24.819,
	"eval_samples_per_second": 197.147,
	"eval_steps_per_second": 0.806,
	"step": 520
	},
	{
	"epoch": 0.6858638743455497,
	"grad_norm": 5.81033182144165,
	"learning_rate": 1.9407514482493214e-05,
	"loss": 0.6133,
	"step": 524
	},
	{
	"epoch": 0.6910994764397905,
	"grad_norm": 4.901327133178711,
	"learning_rate": 1.939595913169438e-05,
	"loss": 0.6121,
	"step": 528
	},
	{
	"epoch": 0.6963350785340314,
	"grad_norm": 3.7869937419891357,
	"learning_rate": 1.9384295691271523e-05,
	"loss": 0.5822,
	"step": 532
	},
	{
	"epoch": 0.7015706806282722,
	"grad_norm": 3.8648629188537598,
	"learning_rate": 1.9372524295399014e-05,
	"loss": 0.6032,
	"step": 536
	},
	{
	"epoch": 0.7068062827225131,
	"grad_norm": 3.9610342979431152,
	"learning_rate": 1.9360645079493126e-05,
	"loss": 0.59,
	"step": 540
	},
	{
	"epoch": 0.7120418848167539,
	"grad_norm": 5.623746395111084,
	"learning_rate": 1.9348658180210473e-05,
	"loss": 0.5835,
	"step": 544
	},
	{
	"epoch": 0.7172774869109948,
	"grad_norm": 6.02370548248291,
	"learning_rate": 1.933656373544645e-05,
	"loss": 0.6003,
	"step": 548
	},
	{
	"epoch": 0.7225130890052356,
	"grad_norm": 5.652750492095947,
	"learning_rate": 1.932436188433362e-05,
	"loss": 0.5958,
	"step": 552
	},
	{
	"epoch": 0.7277486910994765,
	"grad_norm": 7.355208396911621,
	"learning_rate": 1.9312052767240153e-05,
	"loss": 0.5677,
	"step": 556
	},
	{
	"epoch": 0.7329842931937173,
	"grad_norm": 4.652146339416504,
	"learning_rate": 1.9299636525768176e-05,
	"loss": 0.5649,
	"step": 560
	},
	{
	"epoch": 0.7329842931937173,
	"eval_F1_err_corr": 0.8974946334360716,
	"eval_accuracy": 0.9049033255993812,
	"eval_correct_accuracy": 0.9592731998252757,
	"eval_error_accuracy": 0.843191870706177,
	"eval_f1": 0.6410555815039701,
	"eval_loss": 0.24959486722946167,
	"eval_pr_auc": 0.6979561382710899,
	"eval_precision": 0.6619242826139378,
	"eval_recall": 0.621462531129726,
	"eval_runtime": 24.817,
	"eval_samples_per_second": 197.163,
	"eval_steps_per_second": 0.806,
	"step": 560
	},
	{
	"epoch": 0.7382198952879581,
	"grad_norm": 5.073575019836426,
	"learning_rate": 1.9287113302752167e-05,
	"loss": 0.5491,
	"step": 564
	},
	{
	"epoch": 0.743455497382199,
	"grad_norm": 4.796985149383545,
	"learning_rate": 1.927448324225729e-05,
	"loss": 0.5849,
	"step": 568
	},
	{
	"epoch": 0.7486910994764397,
	"grad_norm": 6.055835247039795,
	"learning_rate": 1.9261746489577767e-05,
	"loss": 0.5721,
	"step": 572
	},
	{
	"epoch": 0.7539267015706806,
	"grad_norm": 7.7210893630981445,
	"learning_rate": 1.9248903191235177e-05,
	"loss": 0.5749,
	"step": 576
	},
	{
	"epoch": 0.7591623036649214,
	"grad_norm": 3.5172553062438965,
	"learning_rate": 1.9235953494976786e-05,
	"loss": 0.6009,
	"step": 580
	},
	{
	"epoch": 0.7643979057591623,
	"grad_norm": 5.326947212219238,
	"learning_rate": 1.922289754977385e-05,
	"loss": 0.5896,
	"step": 584
	},
	{
	"epoch": 0.7696335078534031,
	"grad_norm": 3.990248203277588,
	"learning_rate": 1.920973550581989e-05,
	"loss": 0.578,
	"step": 588
	},
	{
	"epoch": 0.774869109947644,
	"grad_norm": 3.6598334312438965,
	"learning_rate": 1.9196467514528973e-05,
	"loss": 0.567,
	"step": 592
	},
	{
	"epoch": 0.7801047120418848,
	"grad_norm": 5.096114635467529,
	"learning_rate": 1.9183093728533966e-05,
	"loss": 0.5847,
	"step": 596
	},
	{
	"epoch": 0.7853403141361257,
	"grad_norm": 5.4809889793396,
	"learning_rate": 1.9169614301684786e-05,
	"loss": 0.5934,
	"step": 600
	},
	{
	"epoch": 0.7853403141361257,
	"eval_F1_err_corr": 0.8959803504098618,
	"eval_accuracy": 0.9018097447795823,
	"eval_correct_accuracy": 0.9504131731842577,
	"eval_error_accuracy": 0.8474448138009186,
	"eval_f1": 0.6463115667483842,
	"eval_loss": 0.2541360855102539,
	"eval_pr_auc": 0.7031337927296945,
	"eval_precision": 0.6363835856923414,
	"eval_recall": 0.6565542223228436,
	"eval_runtime": 24.8027,
	"eval_samples_per_second": 197.277,
	"eval_steps_per_second": 0.806,
	"step": 600
	},
	{
	"epoch": 0.7905759162303665,
	"grad_norm": 3.492452621459961,
	"learning_rate": 1.915602938904662e-05,
	"loss": 0.5974,
	"step": 604
	},
	{
	"epoch": 0.7958115183246073,
	"grad_norm": 4.485317707061768,
	"learning_rate": 1.914233914689815e-05,
	"loss": 0.5269,
	"step": 608
	},
	{
	"epoch": 0.8010471204188482,
	"grad_norm": 4.36208438873291,
	"learning_rate": 1.912854373272975e-05,
	"loss": 0.5794,
	"step": 612
	},
	{
	"epoch": 0.806282722513089,
	"grad_norm": 4.126212120056152,
	"learning_rate": 1.9114643305241678e-05,
	"loss": 0.5454,
	"step": 616
	},
	{
	"epoch": 0.8115183246073299,
	"grad_norm": 3.9140942096710205,
	"learning_rate": 1.9100638024342245e-05,
	"loss": 0.5615,
	"step": 620
	},
	{
	"epoch": 0.8167539267015707,
	"grad_norm": 9.218249320983887,
	"learning_rate": 1.908652805114598e-05,
	"loss": 0.564,
	"step": 624
	},
	{
	"epoch": 0.8219895287958116,
	"grad_norm": 4.118100166320801,
	"learning_rate": 1.907231354797179e-05,
	"loss": 0.5406,
	"step": 628
	},
	{
	"epoch": 0.8272251308900523,
	"grad_norm": 3.917045831680298,
	"learning_rate": 1.9057994678341053e-05,
	"loss": 0.5581,
	"step": 632
	},
	{
	"epoch": 0.8324607329842932,
	"grad_norm": 4.272670745849609,
	"learning_rate": 1.9043571606975776e-05,
	"loss": 0.5761,
	"step": 636
	},
	{
	"epoch": 0.837696335078534,
	"grad_norm": 4.809320449829102,
	"learning_rate": 1.902904449979669e-05,
	"loss": 0.5422,
	"step": 640
	},
	{
	"epoch": 0.837696335078534,
	"eval_F1_err_corr": 0.899383774542208,
	"eval_accuracy": 0.905769528228925,
	"eval_correct_accuracy": 0.9610494803595725,
	"eval_error_accuracy": 0.8451544680769811,
	"eval_f1": 0.6363419293218721,
	"eval_loss": 0.2484092116355896,
	"eval_pr_auc": 0.6976824941932482,
	"eval_precision": 0.673149785299318,
	"eval_recall": 0.6033506905139234,
	"eval_runtime": 24.8065,
	"eval_samples_per_second": 197.247,
	"eval_steps_per_second": 0.806,
	"step": 640
	},
	{
	"epoch": 0.8429319371727748,
	"grad_norm": 5.909646511077881,
	"learning_rate": 1.901441352392133e-05,
	"loss": 0.5825,
	"step": 644
	},
	{
	"epoch": 0.8481675392670157,
	"grad_norm": 4.255792140960693,
	"learning_rate": 1.8999678847662124e-05,
	"loss": 0.5576,
	"step": 648
	},
	{
	"epoch": 0.8534031413612565,
	"grad_norm": 6.5200114250183105,
	"learning_rate": 1.8984840640524445e-05,
	"loss": 0.5296,
	"step": 652
	},
	{
	"epoch": 0.8586387434554974,
	"grad_norm": 8.32865047454834,
	"learning_rate": 1.8969899073204687e-05,
	"loss": 0.5655,
	"step": 656
	},
	{
	"epoch": 0.8638743455497382,
	"grad_norm": 9.28367805480957,
	"learning_rate": 1.8954854317588262e-05,
	"loss": 0.5791,
	"step": 660
	},
	{
	"epoch": 0.8691099476439791,
	"grad_norm": 4.166441917419434,
	"learning_rate": 1.8939706546747656e-05,
	"loss": 0.5214,
	"step": 664
	},
	{
	"epoch": 0.8743455497382199,
	"grad_norm": 3.7278671264648438,
	"learning_rate": 1.8924455934940424e-05,
	"loss": 0.5087,
	"step": 668
	},
	{
	"epoch": 0.8795811518324608,
	"grad_norm": 6.253541469573975,
	"learning_rate": 1.8909102657607182e-05,
	"loss": 0.5476,
	"step": 672
	},
	{
	"epoch": 0.8848167539267016,
	"grad_norm": 9.273209571838379,
	"learning_rate": 1.88936468913696e-05,
	"loss": 0.4928,
	"step": 676
	},
	{
	"epoch": 0.8900523560209425,
	"grad_norm": 5.4465532302856445,
	"learning_rate": 1.8878088814028365e-05,
	"loss": 0.4909,
	"step": 680
	},
	{
	"epoch": 0.8900523560209425,
	"eval_F1_err_corr": 0.8973571707111299,
	"eval_accuracy": 0.9004485692188708,
	"eval_correct_accuracy": 0.9515640305646176,
	"eval_error_accuracy": 0.8489933585798806,
	"eval_f1": 0.6449691085613416,
	"eval_loss": 0.25420647859573364,
	"eval_pr_auc": 0.7006737583541583,
	"eval_precision": 0.6290079621261029,
	"eval_recall": 0.6617613764998868,
	"eval_runtime": 24.8354,
	"eval_samples_per_second": 197.017,
	"eval_steps_per_second": 0.805,
	"step": 680
	},
	{
	"epoch": 0.8952879581151832,
	"grad_norm": 3.929280996322632,
	"learning_rate": 1.886242860456113e-05,
	"loss": 0.518,
	"step": 684
	},
	{
	"epoch": 0.900523560209424,
	"grad_norm": 3.3221724033355713,
	"learning_rate": 1.884666644312046e-05,
	"loss": 0.474,
	"step": 688
	},
	{
	"epoch": 0.9057591623036649,
	"grad_norm": 4.1775126457214355,
	"learning_rate": 1.8830802511031763e-05,
	"loss": 0.513,
	"step": 692
	},
	{
	"epoch": 0.9109947643979057,
	"grad_norm": 4.372125148773193,
	"learning_rate": 1.88148369907912e-05,
	"loss": 0.4958,
	"step": 696
	},
	{
	"epoch": 0.9162303664921466,
	"grad_norm": 4.19729471206665,
	"learning_rate": 1.8798770066063577e-05,
	"loss": 0.5178,
	"step": 700
	},
	{
	"epoch": 0.9214659685863874,
	"grad_norm": 4.332755088806152,
	"learning_rate": 1.8782601921680258e-05,
	"loss": 0.525,
	"step": 704
	},
	{
	"epoch": 0.9267015706806283,
	"grad_norm": 4.065849304199219,
	"learning_rate": 1.8766332743637002e-05,
	"loss": 0.4692,
	"step": 708
	},
	{
	"epoch": 0.9319371727748691,
	"grad_norm": 4.974046230316162,
	"learning_rate": 1.8749962719091864e-05,
	"loss": 0.4973,
	"step": 712
	},
	{
	"epoch": 0.93717277486911,
	"grad_norm": 4.961699962615967,
	"learning_rate": 1.8733492036363007e-05,
	"loss": 0.5204,
	"step": 716
	},
	{
	"epoch": 0.9424083769633508,
	"grad_norm": 4.140364646911621,
	"learning_rate": 1.871692088492655e-05,
	"loss": 0.4905,
	"step": 720
	},
	{
	"epoch": 0.9424083769633508,
	"eval_F1_err_corr": 0.8932916712717729,
	"eval_accuracy": 0.8947254447022428,
	"eval_correct_accuracy": 0.9452793616476387,
	"eval_error_accuracy": 0.8467242340670772,
	"eval_f1": 0.6396272371068517,
	"eval_loss": 0.2594238817691803,
	"eval_pr_auc": 0.7027911559368634,
	"eval_precision": 0.6008754476721051,
	"eval_recall": 0.6837219832465474,
	"eval_runtime": 24.8417,
	"eval_samples_per_second": 196.967,
	"eval_steps_per_second": 0.805,
	"step": 720
	},
	{
	"epoch": 0.9476439790575916,
	"grad_norm": 8.625274658203125,
	"learning_rate": 1.8700249455414394e-05,
	"loss": 0.4686,
	"step": 724
	},
	{
	"epoch": 0.9528795811518325,
	"grad_norm": 6.383296966552734,
	"learning_rate": 1.8683477939612024e-05,
	"loss": 0.4764,
	"step": 728
	},
	{
	"epoch": 0.9581151832460733,
	"grad_norm": 7.345070838928223,
	"learning_rate": 1.866660653045629e-05,
	"loss": 0.4823,
	"step": 732
	},
	{
	"epoch": 0.9633507853403142,
	"grad_norm": 4.40362548828125,
	"learning_rate": 1.8649635422033218e-05,
	"loss": 0.49,
	"step": 736
	},
	{
	"epoch": 0.9685863874345549,
	"grad_norm": 3.8177592754364014,
	"learning_rate": 1.863256480957574e-05,
	"loss": 0.5004,
	"step": 740
	},
	{
	"epoch": 0.9738219895287958,
	"grad_norm": 3.5552761554718018,
	"learning_rate": 1.861539488946148e-05,
	"loss": 0.4967,
	"step": 744
	},
	{
	"epoch": 0.9790575916230366,
	"grad_norm": 3.948543071746826,
	"learning_rate": 1.8598125859210475e-05,
	"loss": 0.5106,
	"step": 748
	},
	{
	"epoch": 0.9842931937172775,
	"grad_norm": 4.415132999420166,
	"learning_rate": 1.858075791748291e-05,
	"loss": 0.4919,
	"step": 752
	},
	{
	"epoch": 0.9895287958115183,
	"grad_norm": 4.514105319976807,
	"learning_rate": 1.8563291264076834e-05,
	"loss": 0.4947,
	"step": 756
	},
	{
	"epoch": 0.9947643979057592,
	"grad_norm": 6.685056209564209,
	"learning_rate": 1.854572609992586e-05,
	"loss": 0.4892,
	"step": 760
	},
	{
	"epoch": 0.9947643979057592,
	"eval_F1_err_corr": 0.9005018183708923,
	"eval_accuracy": 0.9076256767208043,
	"eval_correct_accuracy": 0.9694615035570632,
	"eval_error_accuracy": 0.8407011107412775,
	"eval_f1": 0.6246857717445953,
	"eval_loss": 0.24942660331726074,
	"eval_pr_auc": 0.6972885689682531,
	"eval_precision": 0.7021757558632382,
	"eval_recall": 0.5625990491283677,
	"eval_runtime": 24.7945,
	"eval_samples_per_second": 197.342,
	"eval_steps_per_second": 0.807,
	"step": 760
	}
	],
	"logging_steps": 4,
	"max_steps": 3820,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 16,
	"stateful_callbacks": {
	"MinEpochEarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.001
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.37033143972266e+17,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}