Model-Focalnet-Base-82 / checkpoint-1224 /trainer_state.json

Upload 13 files

e7ed158 verified 4 months ago

48.3 kB

	{
	"best_metric": 0.6602770090103149,
	"best_model_checkpoint": "Model-Focalnet-Base-\\checkpoint-1224",
	"epoch": 24.0,
	"eval_steps": 7,
	"global_step": 1224,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.1390728476821192,
	"grad_norm": 2.261648416519165,
	"learning_rate": 7.000000000000001e-07,
	"loss": 5.3125,
	"step": 7
	},
	{
	"epoch": 0.2781456953642384,
	"grad_norm": 2.211456537246704,
	"learning_rate": 1.4000000000000001e-06,
	"loss": 5.3234,
	"step": 14
	},
	{
	"epoch": 0.41721854304635764,
	"grad_norm": 2.1140072345733643,
	"learning_rate": 2.1000000000000002e-06,
	"loss": 5.308,
	"step": 21
	},
	{
	"epoch": 0.5562913907284768,
	"grad_norm": 2.2730369567871094,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 5.3189,
	"step": 28
	},
	{
	"epoch": 0.695364238410596,
	"grad_norm": 2.2154030799865723,
	"learning_rate": 3.5000000000000004e-06,
	"loss": 5.2991,
	"step": 35
	},
	{
	"epoch": 0.8344370860927153,
	"grad_norm": 1.887474536895752,
	"learning_rate": 4.2000000000000004e-06,
	"loss": 5.3036,
	"step": 42
	},
	{
	"epoch": 0.9735099337748344,
	"grad_norm": 2.4402565956115723,
	"learning_rate": 4.9000000000000005e-06,
	"loss": 5.2965,
	"step": 49
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.00819672131147541,
	"eval_f1_macro": 0.00337801133638995,
	"eval_f1_micro": 0.00819672131147541,
	"eval_f1_weighted": 0.0035373101357153293,
	"eval_loss": 5.291137218475342,
	"eval_precision_macro": 0.0028020831663437863,
	"eval_precision_micro": 0.00819672131147541,
	"eval_precision_weighted": 0.002911205169282775,
	"eval_recall_macro": 0.008023809523809523,
	"eval_recall_micro": 0.00819672131147541,
	"eval_recall_weighted": 0.00819672131147541,
	"eval_runtime": 65.9936,
	"eval_samples_per_second": 18.487,
	"eval_steps_per_second": 0.303,
	"step": 51
	},
	{
	"epoch": 1.099337748344371,
	"grad_norm": 2.17191219329834,
	"learning_rate": 5.600000000000001e-06,
	"loss": 4.7769,
	"step": 56
	},
	{
	"epoch": 1.23841059602649,
	"grad_norm": 2.5151634216308594,
	"learning_rate": 6.300000000000001e-06,
	"loss": 5.2913,
	"step": 63
	},
	{
	"epoch": 1.3774834437086092,
	"grad_norm": 2.353184938430786,
	"learning_rate": 7.000000000000001e-06,
	"loss": 5.2925,
	"step": 70
	},
	{
	"epoch": 1.5165562913907285,
	"grad_norm": 2.138894557952881,
	"learning_rate": 7.7e-06,
	"loss": 5.2627,
	"step": 77
	},
	{
	"epoch": 1.6556291390728477,
	"grad_norm": 2.234560012817383,
	"learning_rate": 8.400000000000001e-06,
	"loss": 5.2627,
	"step": 84
	},
	{
	"epoch": 1.794701986754967,
	"grad_norm": 2.210279703140259,
	"learning_rate": 9.100000000000001e-06,
	"loss": 5.2633,
	"step": 91
	},
	{
	"epoch": 1.9337748344370862,
	"grad_norm": 2.9447083473205566,
	"learning_rate": 9.800000000000001e-06,
	"loss": 5.2558,
	"step": 98
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.01557377049180328,
	"eval_f1_macro": 0.006874468130470725,
	"eval_f1_micro": 0.01557377049180328,
	"eval_f1_weighted": 0.007013333548104455,
	"eval_loss": 5.22589635848999,
	"eval_precision_macro": 0.006156529662888035,
	"eval_precision_micro": 0.01557377049180328,
	"eval_precision_weighted": 0.006207445270776915,
	"eval_recall_macro": 0.01500595238095238,
	"eval_recall_micro": 0.01557377049180328,
	"eval_recall_weighted": 0.01557377049180328,
	"eval_runtime": 56.5165,
	"eval_samples_per_second": 21.587,
	"eval_steps_per_second": 0.354,
	"step": 102
	},
	{
	"epoch": 2.0596026490066226,
	"grad_norm": 2.3659451007843018,
	"learning_rate": 1.05e-05,
	"loss": 4.7295,
	"step": 105
	},
	{
	"epoch": 2.198675496688742,
	"grad_norm": 2.9902284145355225,
	"learning_rate": 1.1200000000000001e-05,
	"loss": 5.2129,
	"step": 112
	},
	{
	"epoch": 2.337748344370861,
	"grad_norm": 4.189450740814209,
	"learning_rate": 1.19e-05,
	"loss": 5.1816,
	"step": 119
	},
	{
	"epoch": 2.47682119205298,
	"grad_norm": 4.748580455780029,
	"learning_rate": 1.2600000000000001e-05,
	"loss": 5.1931,
	"step": 126
	},
	{
	"epoch": 2.6158940397350996,
	"grad_norm": 3.579268455505371,
	"learning_rate": 1.3300000000000001e-05,
	"loss": 5.164,
	"step": 133
	},
	{
	"epoch": 2.7549668874172184,
	"grad_norm": 4.054067611694336,
	"learning_rate": 1.4000000000000001e-05,
	"loss": 5.1483,
	"step": 140
	},
	{
	"epoch": 2.8940397350993377,
	"grad_norm": 3.84291410446167,
	"learning_rate": 1.47e-05,
	"loss": 5.1257,
	"step": 147
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.051639344262295085,
	"eval_f1_macro": 0.03261693581398834,
	"eval_f1_micro": 0.051639344262295085,
	"eval_f1_weighted": 0.03516077511642792,
	"eval_loss": 5.062410354614258,
	"eval_precision_macro": 0.03239256187924794,
	"eval_precision_micro": 0.051639344262295085,
	"eval_precision_weighted": 0.034858832269066796,
	"eval_recall_macro": 0.047523809523809524,
	"eval_recall_micro": 0.051639344262295085,
	"eval_recall_weighted": 0.051639344262295085,
	"eval_runtime": 63.3821,
	"eval_samples_per_second": 19.248,
	"eval_steps_per_second": 0.316,
	"step": 153
	},
	{
	"epoch": 3.019867549668874,
	"grad_norm": 4.443902492523193,
	"learning_rate": 1.54e-05,
	"loss": 4.6257,
	"step": 154
	},
	{
	"epoch": 3.1589403973509933,
	"grad_norm": 5.521849155426025,
	"learning_rate": 1.6100000000000002e-05,
	"loss": 5.0162,
	"step": 161
	},
	{
	"epoch": 3.2980132450331126,
	"grad_norm": 6.407104969024658,
	"learning_rate": 1.6800000000000002e-05,
	"loss": 4.9824,
	"step": 168
	},
	{
	"epoch": 3.437086092715232,
	"grad_norm": 5.278021335601807,
	"learning_rate": 1.75e-05,
	"loss": 4.96,
	"step": 175
	},
	{
	"epoch": 3.576158940397351,
	"grad_norm": 7.5942182540893555,
	"learning_rate": 1.8200000000000002e-05,
	"loss": 4.898,
	"step": 182
	},
	{
	"epoch": 3.7152317880794703,
	"grad_norm": 6.050070285797119,
	"learning_rate": 1.8900000000000002e-05,
	"loss": 4.8774,
	"step": 189
	},
	{
	"epoch": 3.8543046357615895,
	"grad_norm": 6.589919567108154,
	"learning_rate": 1.9600000000000002e-05,
	"loss": 4.7924,
	"step": 196
	},
	{
	"epoch": 3.993377483443709,
	"grad_norm": 8.232624053955078,
	"learning_rate": 2.0300000000000002e-05,
	"loss": 4.6994,
	"step": 203
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.11721311475409836,
	"eval_f1_macro": 0.08082684992031455,
	"eval_f1_micro": 0.11721311475409836,
	"eval_f1_weighted": 0.08625745944487533,
	"eval_loss": 4.516047477722168,
	"eval_precision_macro": 0.0960521320476185,
	"eval_precision_micro": 0.11721311475409836,
	"eval_precision_weighted": 0.10289070402055932,
	"eval_recall_macro": 0.1088095238095238,
	"eval_recall_micro": 0.11721311475409836,
	"eval_recall_weighted": 0.11721311475409836,
	"eval_runtime": 81.067,
	"eval_samples_per_second": 15.049,
	"eval_steps_per_second": 0.247,
	"step": 204
	},
	{
	"epoch": 4.119205298013245,
	"grad_norm": 7.674986362457275,
	"learning_rate": 2.1e-05,
	"loss": 4.1019,
	"step": 210
	},
	{
	"epoch": 4.258278145695364,
	"grad_norm": 7.877310276031494,
	"learning_rate": 2.1700000000000002e-05,
	"loss": 4.4153,
	"step": 217
	},
	{
	"epoch": 4.397350993377484,
	"grad_norm": 9.657820701599121,
	"learning_rate": 2.2400000000000002e-05,
	"loss": 4.2469,
	"step": 224
	},
	{
	"epoch": 4.5364238410596025,
	"grad_norm": 11.347479820251465,
	"learning_rate": 2.3100000000000002e-05,
	"loss": 4.1469,
	"step": 231
	},
	{
	"epoch": 4.675496688741722,
	"grad_norm": 12.215789794921875,
	"learning_rate": 2.38e-05,
	"loss": 4.0285,
	"step": 238
	},
	{
	"epoch": 4.814569536423841,
	"grad_norm": 10.887558937072754,
	"learning_rate": 2.45e-05,
	"loss": 4.0269,
	"step": 245
	},
	{
	"epoch": 4.95364238410596,
	"grad_norm": 12.850284576416016,
	"learning_rate": 2.5200000000000003e-05,
	"loss": 3.7643,
	"step": 252
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.2680327868852459,
	"eval_f1_macro": 0.22529862929165922,
	"eval_f1_micro": 0.2680327868852459,
	"eval_f1_weighted": 0.23166885649403285,
	"eval_loss": 3.3234214782714844,
	"eval_precision_macro": 0.25987233164420576,
	"eval_precision_micro": 0.2680327868852459,
	"eval_precision_weighted": 0.26332140193762377,
	"eval_recall_macro": 0.2577738095238095,
	"eval_recall_micro": 0.2680327868852459,
	"eval_recall_weighted": 0.2680327868852459,
	"eval_runtime": 77.8338,
	"eval_samples_per_second": 15.674,
	"eval_steps_per_second": 0.257,
	"step": 255
	},
	{
	"epoch": 5.079470198675497,
	"grad_norm": 11.808965682983398,
	"learning_rate": 2.5900000000000003e-05,
	"loss": 3.1734,
	"step": 259
	},
	{
	"epoch": 5.218543046357616,
	"grad_norm": 17.217893600463867,
	"learning_rate": 2.6600000000000003e-05,
	"loss": 3.3163,
	"step": 266
	},
	{
	"epoch": 5.357615894039735,
	"grad_norm": 14.96292495727539,
	"learning_rate": 2.7300000000000003e-05,
	"loss": 3.3328,
	"step": 273
	},
	{
	"epoch": 5.496688741721854,
	"grad_norm": 11.553727149963379,
	"learning_rate": 2.8000000000000003e-05,
	"loss": 3.2036,
	"step": 280
	},
	{
	"epoch": 5.635761589403973,
	"grad_norm": 12.452818870544434,
	"learning_rate": 2.87e-05,
	"loss": 3.1867,
	"step": 287
	},
	{
	"epoch": 5.774834437086093,
	"grad_norm": 13.04163646697998,
	"learning_rate": 2.94e-05,
	"loss": 3.0558,
	"step": 294
	},
	{
	"epoch": 5.913907284768212,
	"grad_norm": 12.779662132263184,
	"learning_rate": 3.01e-05,
	"loss": 2.9603,
	"step": 301
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.40327868852459015,
	"eval_f1_macro": 0.3522325245599723,
	"eval_f1_micro": 0.40327868852459015,
	"eval_f1_weighted": 0.36290227384056034,
	"eval_loss": 2.3593220710754395,
	"eval_precision_macro": 0.4013160035627141,
	"eval_precision_micro": 0.40327868852459015,
	"eval_precision_weighted": 0.40977942860114985,
	"eval_recall_macro": 0.38851190476190484,
	"eval_recall_micro": 0.40327868852459015,
	"eval_recall_weighted": 0.40327868852459015,
	"eval_runtime": 71.8317,
	"eval_samples_per_second": 16.984,
	"eval_steps_per_second": 0.278,
	"step": 306
	},
	{
	"epoch": 6.039735099337748,
	"grad_norm": 13.623518943786621,
	"learning_rate": 3.08e-05,
	"loss": 2.4678,
	"step": 308
	},
	{
	"epoch": 6.178807947019868,
	"grad_norm": 13.266014099121094,
	"learning_rate": 3.15e-05,
	"loss": 2.6213,
	"step": 315
	},
	{
	"epoch": 6.317880794701987,
	"grad_norm": 13.395142555236816,
	"learning_rate": 3.2200000000000003e-05,
	"loss": 2.4566,
	"step": 322
	},
	{
	"epoch": 6.456953642384106,
	"grad_norm": 13.428766250610352,
	"learning_rate": 3.29e-05,
	"loss": 2.3462,
	"step": 329
	},
	{
	"epoch": 6.596026490066225,
	"grad_norm": 11.362808227539062,
	"learning_rate": 3.3600000000000004e-05,
	"loss": 2.3357,
	"step": 336
	},
	{
	"epoch": 6.735099337748345,
	"grad_norm": 11.982301712036133,
	"learning_rate": 3.430000000000001e-05,
	"loss": 2.2728,
	"step": 343
	},
	{
	"epoch": 6.874172185430464,
	"grad_norm": 15.563032150268555,
	"learning_rate": 3.5e-05,
	"loss": 2.3091,
	"step": 350
	},
	{
	"epoch": 7.0,
	"grad_norm": 10.777310371398926,
	"learning_rate": 3.57e-05,
	"loss": 1.9475,
	"step": 357
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.5336065573770492,
	"eval_f1_macro": 0.5010502512573436,
	"eval_f1_micro": 0.5336065573770492,
	"eval_f1_weighted": 0.5078295641241183,
	"eval_loss": 1.7169982194900513,
	"eval_precision_macro": 0.570199926363626,
	"eval_precision_micro": 0.5336065573770492,
	"eval_precision_weighted": 0.5742672096804716,
	"eval_recall_macro": 0.5233749999999999,
	"eval_recall_micro": 0.5336065573770492,
	"eval_recall_weighted": 0.5336065573770492,
	"eval_runtime": 63.8109,
	"eval_samples_per_second": 19.119,
	"eval_steps_per_second": 0.313,
	"step": 357
	},
	{
	"epoch": 7.139072847682119,
	"grad_norm": 12.829914093017578,
	"learning_rate": 3.6400000000000004e-05,
	"loss": 1.9122,
	"step": 364
	},
	{
	"epoch": 7.2781456953642385,
	"grad_norm": 15.254327774047852,
	"learning_rate": 3.71e-05,
	"loss": 1.9511,
	"step": 371
	},
	{
	"epoch": 7.417218543046357,
	"grad_norm": 13.248723030090332,
	"learning_rate": 3.7800000000000004e-05,
	"loss": 1.921,
	"step": 378
	},
	{
	"epoch": 7.556291390728477,
	"grad_norm": 14.405394554138184,
	"learning_rate": 3.85e-05,
	"loss": 1.8447,
	"step": 385
	},
	{
	"epoch": 7.695364238410596,
	"grad_norm": 13.432222366333008,
	"learning_rate": 3.9200000000000004e-05,
	"loss": 1.7079,
	"step": 392
	},
	{
	"epoch": 7.8344370860927155,
	"grad_norm": 13.591761589050293,
	"learning_rate": 3.99e-05,
	"loss": 1.7888,
	"step": 399
	},
	{
	"epoch": 7.973509933774834,
	"grad_norm": 12.760810852050781,
	"learning_rate": 4.0600000000000004e-05,
	"loss": 1.8494,
	"step": 406
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.6360655737704918,
	"eval_f1_macro": 0.6127611312020431,
	"eval_f1_micro": 0.6360655737704918,
	"eval_f1_weighted": 0.6178432613234403,
	"eval_loss": 1.343964695930481,
	"eval_precision_macro": 0.6623227605727605,
	"eval_precision_micro": 0.6360655737704918,
	"eval_precision_weighted": 0.6653364258692127,
	"eval_recall_macro": 0.6304523809523809,
	"eval_recall_micro": 0.6360655737704918,
	"eval_recall_weighted": 0.6360655737704918,
	"eval_runtime": 79.4787,
	"eval_samples_per_second": 15.35,
	"eval_steps_per_second": 0.252,
	"step": 408
	},
	{
	"epoch": 8.099337748344372,
	"grad_norm": 11.729964256286621,
	"learning_rate": 4.13e-05,
	"loss": 1.4108,
	"step": 413
	},
	{
	"epoch": 8.23841059602649,
	"grad_norm": 12.144929885864258,
	"learning_rate": 4.2e-05,
	"loss": 1.5489,
	"step": 420
	},
	{
	"epoch": 8.37748344370861,
	"grad_norm": 13.483667373657227,
	"learning_rate": 4.27e-05,
	"loss": 1.5863,
	"step": 427
	},
	{
	"epoch": 8.516556291390728,
	"grad_norm": 16.043304443359375,
	"learning_rate": 4.3400000000000005e-05,
	"loss": 1.4405,
	"step": 434
	},
	{
	"epoch": 8.655629139072847,
	"grad_norm": 15.305998802185059,
	"learning_rate": 4.41e-05,
	"loss": 1.4753,
	"step": 441
	},
	{
	"epoch": 8.794701986754967,
	"grad_norm": 13.507715225219727,
	"learning_rate": 4.4800000000000005e-05,
	"loss": 1.4817,
	"step": 448
	},
	{
	"epoch": 8.933774834437086,
	"grad_norm": 13.252425193786621,
	"learning_rate": 4.55e-05,
	"loss": 1.5227,
	"step": 455
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.6786885245901639,
	"eval_f1_macro": 0.6571807258516,
	"eval_f1_micro": 0.6786885245901639,
	"eval_f1_weighted": 0.6634537879698879,
	"eval_loss": 1.1470587253570557,
	"eval_precision_macro": 0.7084700165031047,
	"eval_precision_micro": 0.6786885245901639,
	"eval_precision_weighted": 0.7094984540397994,
	"eval_recall_macro": 0.6691130952380953,
	"eval_recall_micro": 0.6786885245901639,
	"eval_recall_weighted": 0.6786885245901639,
	"eval_runtime": 69.8414,
	"eval_samples_per_second": 17.468,
	"eval_steps_per_second": 0.286,
	"step": 459
	},
	{
	"epoch": 9.059602649006623,
	"grad_norm": 11.350573539733887,
	"learning_rate": 4.6200000000000005e-05,
	"loss": 1.352,
	"step": 462
	},
	{
	"epoch": 9.198675496688741,
	"grad_norm": 11.896257400512695,
	"learning_rate": 4.69e-05,
	"loss": 1.2096,
	"step": 469
	},
	{
	"epoch": 9.33774834437086,
	"grad_norm": 14.927756309509277,
	"learning_rate": 4.76e-05,
	"loss": 1.3018,
	"step": 476
	},
	{
	"epoch": 9.47682119205298,
	"grad_norm": 14.38377571105957,
	"learning_rate": 4.83e-05,
	"loss": 1.2997,
	"step": 483
	},
	{
	"epoch": 9.6158940397351,
	"grad_norm": 10.836702346801758,
	"learning_rate": 4.9e-05,
	"loss": 1.2053,
	"step": 490
	},
	{
	"epoch": 9.754966887417218,
	"grad_norm": 13.384648323059082,
	"learning_rate": 4.97e-05,
	"loss": 1.2461,
	"step": 497
	},
	{
	"epoch": 9.894039735099337,
	"grad_norm": 12.859415054321289,
	"learning_rate": 4.995555555555556e-05,
	"loss": 1.2476,
	"step": 504
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.7295081967213115,
	"eval_f1_macro": 0.7136993719988303,
	"eval_f1_micro": 0.7295081967213115,
	"eval_f1_weighted": 0.7185265127973471,
	"eval_loss": 0.9676371812820435,
	"eval_precision_macro": 0.7655571405718464,
	"eval_precision_micro": 0.7295081967213115,
	"eval_precision_weighted": 0.7658903327466492,
	"eval_recall_macro": 0.7218452380952379,
	"eval_recall_micro": 0.7295081967213115,
	"eval_recall_weighted": 0.7295081967213115,
	"eval_runtime": 64.0687,
	"eval_samples_per_second": 19.042,
	"eval_steps_per_second": 0.312,
	"step": 510
	},
	{
	"epoch": 10.019867549668874,
	"grad_norm": 11.940890312194824,
	"learning_rate": 4.987777777777778e-05,
	"loss": 1.0087,
	"step": 511
	},
	{
	"epoch": 10.158940397350994,
	"grad_norm": 11.370889663696289,
	"learning_rate": 4.9800000000000004e-05,
	"loss": 1.0759,
	"step": 518
	},
	{
	"epoch": 10.298013245033113,
	"grad_norm": 11.712719917297363,
	"learning_rate": 4.972222222222223e-05,
	"loss": 1.0388,
	"step": 525
	},
	{
	"epoch": 10.437086092715232,
	"grad_norm": 15.134650230407715,
	"learning_rate": 4.964444444444445e-05,
	"loss": 1.0933,
	"step": 532
	},
	{
	"epoch": 10.57615894039735,
	"grad_norm": 11.481903076171875,
	"learning_rate": 4.956666666666667e-05,
	"loss": 1.0236,
	"step": 539
	},
	{
	"epoch": 10.71523178807947,
	"grad_norm": 11.978276252746582,
	"learning_rate": 4.948888888888889e-05,
	"loss": 1.1232,
	"step": 546
	},
	{
	"epoch": 10.85430463576159,
	"grad_norm": 12.34005355834961,
	"learning_rate": 4.9411111111111114e-05,
	"loss": 1.0067,
	"step": 553
	},
	{
	"epoch": 10.993377483443709,
	"grad_norm": 11.154061317443848,
	"learning_rate": 4.933333333333334e-05,
	"loss": 1.1001,
	"step": 560
	},
	{
	"epoch": 11.0,
	"eval_accuracy": 0.7385245901639345,
	"eval_f1_macro": 0.7282043296830448,
	"eval_f1_micro": 0.7385245901639345,
	"eval_f1_weighted": 0.732015719256241,
	"eval_loss": 0.8772674798965454,
	"eval_precision_macro": 0.7795788517038517,
	"eval_precision_micro": 0.7385245901639345,
	"eval_precision_weighted": 0.7814253801753802,
	"eval_recall_macro": 0.733672619047619,
	"eval_recall_micro": 0.7385245901639345,
	"eval_recall_weighted": 0.7385245901639345,
	"eval_runtime": 60.2253,
	"eval_samples_per_second": 20.257,
	"eval_steps_per_second": 0.332,
	"step": 561
	},
	{
	"epoch": 11.119205298013245,
	"grad_norm": 8.575409889221191,
	"learning_rate": 4.925555555555556e-05,
	"loss": 0.8726,
	"step": 567
	},
	{
	"epoch": 11.258278145695364,
	"grad_norm": 12.448003768920898,
	"learning_rate": 4.917777777777778e-05,
	"loss": 0.9765,
	"step": 574
	},
	{
	"epoch": 11.397350993377483,
	"grad_norm": 10.99142837524414,
	"learning_rate": 4.91e-05,
	"loss": 0.8438,
	"step": 581
	},
	{
	"epoch": 11.536423841059603,
	"grad_norm": 9.985913276672363,
	"learning_rate": 4.9022222222222224e-05,
	"loss": 0.863,
	"step": 588
	},
	{
	"epoch": 11.675496688741722,
	"grad_norm": 14.102209091186523,
	"learning_rate": 4.894444444444445e-05,
	"loss": 0.9674,
	"step": 595
	},
	{
	"epoch": 11.814569536423841,
	"grad_norm": 10.937699317932129,
	"learning_rate": 4.886666666666667e-05,
	"loss": 0.9521,
	"step": 602
	},
	{
	"epoch": 11.95364238410596,
	"grad_norm": 10.190333366394043,
	"learning_rate": 4.878888888888889e-05,
	"loss": 0.8804,
	"step": 609
	},
	{
	"epoch": 12.0,
	"eval_accuracy": 0.759016393442623,
	"eval_f1_macro": 0.7427500998456881,
	"eval_f1_micro": 0.759016393442623,
	"eval_f1_weighted": 0.7456563548213297,
	"eval_loss": 0.8271353840827942,
	"eval_precision_macro": 0.7684717300243616,
	"eval_precision_micro": 0.759016393442623,
	"eval_precision_weighted": 0.7719776994647571,
	"eval_recall_macro": 0.756702380952381,
	"eval_recall_micro": 0.759016393442623,
	"eval_recall_weighted": 0.759016393442623,
	"eval_runtime": 58.6516,
	"eval_samples_per_second": 20.801,
	"eval_steps_per_second": 0.341,
	"step": 612
	},
	{
	"epoch": 12.079470198675496,
	"grad_norm": 14.1576509475708,
	"learning_rate": 4.871111111111111e-05,
	"loss": 0.719,
	"step": 616
	},
	{
	"epoch": 12.218543046357617,
	"grad_norm": 11.829643249511719,
	"learning_rate": 4.8633333333333334e-05,
	"loss": 0.9113,
	"step": 623
	},
	{
	"epoch": 12.357615894039736,
	"grad_norm": 9.620296478271484,
	"learning_rate": 4.855555555555556e-05,
	"loss": 0.8671,
	"step": 630
	},
	{
	"epoch": 12.496688741721854,
	"grad_norm": 10.44937801361084,
	"learning_rate": 4.847777777777778e-05,
	"loss": 0.8422,
	"step": 637
	},
	{
	"epoch": 12.635761589403973,
	"grad_norm": 7.808290958404541,
	"learning_rate": 4.8400000000000004e-05,
	"loss": 0.8018,
	"step": 644
	},
	{
	"epoch": 12.774834437086092,
	"grad_norm": 9.790284156799316,
	"learning_rate": 4.832222222222223e-05,
	"loss": 0.8626,
	"step": 651
	},
	{
	"epoch": 12.913907284768213,
	"grad_norm": 12.296673774719238,
	"learning_rate": 4.824444444444445e-05,
	"loss": 0.9596,
	"step": 658
	},
	{
	"epoch": 13.0,
	"eval_accuracy": 0.7622950819672131,
	"eval_f1_macro": 0.7541482304589116,
	"eval_f1_micro": 0.7622950819672131,
	"eval_f1_weighted": 0.7581034870800643,
	"eval_loss": 0.8282718062400818,
	"eval_precision_macro": 0.7943097392803276,
	"eval_precision_micro": 0.7622950819672131,
	"eval_precision_weighted": 0.7971667340748826,
	"eval_recall_macro": 0.7580535714285713,
	"eval_recall_micro": 0.7622950819672131,
	"eval_recall_weighted": 0.7622950819672131,
	"eval_runtime": 59.927,
	"eval_samples_per_second": 20.358,
	"eval_steps_per_second": 0.334,
	"step": 663
	},
	{
	"epoch": 13.039735099337749,
	"grad_norm": 18.717695236206055,
	"learning_rate": 4.8166666666666674e-05,
	"loss": 0.7906,
	"step": 665
	},
	{
	"epoch": 13.178807947019868,
	"grad_norm": 14.046932220458984,
	"learning_rate": 4.808888888888889e-05,
	"loss": 0.7326,
	"step": 672
	},
	{
	"epoch": 13.317880794701987,
	"grad_norm": 11.162008285522461,
	"learning_rate": 4.8011111111111114e-05,
	"loss": 0.8299,
	"step": 679
	},
	{
	"epoch": 13.456953642384105,
	"grad_norm": 9.34903335571289,
	"learning_rate": 4.793333333333334e-05,
	"loss": 0.7046,
	"step": 686
	},
	{
	"epoch": 13.596026490066226,
	"grad_norm": 8.978596687316895,
	"learning_rate": 4.785555555555556e-05,
	"loss": 0.672,
	"step": 693
	},
	{
	"epoch": 13.735099337748345,
	"grad_norm": 9.649175643920898,
	"learning_rate": 4.7777777777777784e-05,
	"loss": 0.7706,
	"step": 700
	},
	{
	"epoch": 13.874172185430464,
	"grad_norm": 9.140443801879883,
	"learning_rate": 4.77e-05,
	"loss": 0.7734,
	"step": 707
	},
	{
	"epoch": 14.0,
	"grad_norm": 6.996921062469482,
	"learning_rate": 4.7622222222222224e-05,
	"loss": 0.6202,
	"step": 714
	},
	{
	"epoch": 14.0,
	"eval_accuracy": 0.7754098360655738,
	"eval_f1_macro": 0.765805670364494,
	"eval_f1_micro": 0.7754098360655738,
	"eval_f1_weighted": 0.7695095891286827,
	"eval_loss": 0.7957718372344971,
	"eval_precision_macro": 0.8098741258741259,
	"eval_precision_micro": 0.7754098360655738,
	"eval_precision_weighted": 0.8099575401829501,
	"eval_recall_macro": 0.769452380952381,
	"eval_recall_micro": 0.7754098360655738,
	"eval_recall_weighted": 0.7754098360655738,
	"eval_runtime": 58.8988,
	"eval_samples_per_second": 20.713,
	"eval_steps_per_second": 0.34,
	"step": 714
	},
	{
	"epoch": 14.139072847682119,
	"grad_norm": 11.548070907592773,
	"learning_rate": 4.754444444444445e-05,
	"loss": 0.7968,
	"step": 721
	},
	{
	"epoch": 14.278145695364238,
	"grad_norm": 11.0925874710083,
	"learning_rate": 4.746666666666667e-05,
	"loss": 0.6864,
	"step": 728
	},
	{
	"epoch": 14.417218543046358,
	"grad_norm": 9.538455963134766,
	"learning_rate": 4.7388888888888894e-05,
	"loss": 0.6766,
	"step": 735
	},
	{
	"epoch": 14.556291390728477,
	"grad_norm": 7.995402812957764,
	"learning_rate": 4.731111111111111e-05,
	"loss": 0.7023,
	"step": 742
	},
	{
	"epoch": 14.695364238410596,
	"grad_norm": 10.825759887695312,
	"learning_rate": 4.7233333333333334e-05,
	"loss": 0.6883,
	"step": 749
	},
	{
	"epoch": 14.834437086092715,
	"grad_norm": 14.279191017150879,
	"learning_rate": 4.715555555555556e-05,
	"loss": 0.6533,
	"step": 756
	},
	{
	"epoch": 14.973509933774835,
	"grad_norm": 8.562923431396484,
	"learning_rate": 4.707777777777778e-05,
	"loss": 0.6466,
	"step": 763
	},
	{
	"epoch": 15.0,
	"eval_accuracy": 0.7967213114754098,
	"eval_f1_macro": 0.7874462737947056,
	"eval_f1_micro": 0.7967213114754098,
	"eval_f1_weighted": 0.7923798470661948,
	"eval_loss": 0.7445575594902039,
	"eval_precision_macro": 0.8216799295475766,
	"eval_precision_micro": 0.7967213114754098,
	"eval_precision_weighted": 0.8259746225862427,
	"eval_recall_macro": 0.7922261904761905,
	"eval_recall_micro": 0.7967213114754098,
	"eval_recall_weighted": 0.7967213114754098,
	"eval_runtime": 59.8003,
	"eval_samples_per_second": 20.401,
	"eval_steps_per_second": 0.334,
	"step": 765
	},
	{
	"epoch": 15.099337748344372,
	"grad_norm": 9.65889835357666,
	"learning_rate": 4.7e-05,
	"loss": 0.6024,
	"step": 770
	},
	{
	"epoch": 15.23841059602649,
	"grad_norm": 8.170406341552734,
	"learning_rate": 4.692222222222222e-05,
	"loss": 0.5263,
	"step": 777
	},
	{
	"epoch": 15.37748344370861,
	"grad_norm": 8.782620429992676,
	"learning_rate": 4.6844444444444444e-05,
	"loss": 0.552,
	"step": 784
	},
	{
	"epoch": 15.516556291390728,
	"grad_norm": 11.878396034240723,
	"learning_rate": 4.676666666666667e-05,
	"loss": 0.6127,
	"step": 791
	},
	{
	"epoch": 15.655629139072847,
	"grad_norm": 8.88171672821045,
	"learning_rate": 4.668888888888889e-05,
	"loss": 0.6756,
	"step": 798
	},
	{
	"epoch": 15.794701986754967,
	"grad_norm": 11.983383178710938,
	"learning_rate": 4.6611111111111114e-05,
	"loss": 0.664,
	"step": 805
	},
	{
	"epoch": 15.933774834437086,
	"grad_norm": 10.409689903259277,
	"learning_rate": 4.653333333333334e-05,
	"loss": 0.6436,
	"step": 812
	},
	{
	"epoch": 16.0,
	"eval_accuracy": 0.7918032786885246,
	"eval_f1_macro": 0.7815447427921685,
	"eval_f1_micro": 0.7918032786885246,
	"eval_f1_weighted": 0.7856156314459259,
	"eval_loss": 0.7297011017799377,
	"eval_precision_macro": 0.8101799866799867,
	"eval_precision_micro": 0.7918032786885246,
	"eval_precision_weighted": 0.8123722907329464,
	"eval_recall_macro": 0.7866488095238096,
	"eval_recall_micro": 0.7918032786885246,
	"eval_recall_weighted": 0.7918032786885246,
	"eval_runtime": 60.0895,
	"eval_samples_per_second": 20.303,
	"eval_steps_per_second": 0.333,
	"step": 816
	},
	{
	"epoch": 16.05960264900662,
	"grad_norm": 10.903715133666992,
	"learning_rate": 4.645555555555556e-05,
	"loss": 0.5591,
	"step": 819
	},
	{
	"epoch": 16.198675496688743,
	"grad_norm": 8.767610549926758,
	"learning_rate": 4.6377777777777784e-05,
	"loss": 0.5711,
	"step": 826
	},
	{
	"epoch": 16.337748344370862,
	"grad_norm": 8.273555755615234,
	"learning_rate": 4.630000000000001e-05,
	"loss": 0.5811,
	"step": 833
	},
	{
	"epoch": 16.47682119205298,
	"grad_norm": 12.013016700744629,
	"learning_rate": 4.6222222222222224e-05,
	"loss": 0.6443,
	"step": 840
	},
	{
	"epoch": 16.6158940397351,
	"grad_norm": 7.874364376068115,
	"learning_rate": 4.614444444444445e-05,
	"loss": 0.5073,
	"step": 847
	},
	{
	"epoch": 16.75496688741722,
	"grad_norm": 9.01498031616211,
	"learning_rate": 4.606666666666667e-05,
	"loss": 0.608,
	"step": 854
	},
	{
	"epoch": 16.894039735099337,
	"grad_norm": 9.848909378051758,
	"learning_rate": 4.5988888888888894e-05,
	"loss": 0.5929,
	"step": 861
	},
	{
	"epoch": 17.0,
	"eval_accuracy": 0.7959016393442623,
	"eval_f1_macro": 0.7867938321138785,
	"eval_f1_micro": 0.7959016393442623,
	"eval_f1_weighted": 0.7917754148114372,
	"eval_loss": 0.7077643871307373,
	"eval_precision_macro": 0.8185556526806528,
	"eval_precision_micro": 0.7959016393442623,
	"eval_precision_weighted": 0.8217451378312034,
	"eval_recall_macro": 0.7902916666666667,
	"eval_recall_micro": 0.7959016393442623,
	"eval_recall_weighted": 0.7959016393442623,
	"eval_runtime": 59.7504,
	"eval_samples_per_second": 20.418,
	"eval_steps_per_second": 0.335,
	"step": 867
	},
	{
	"epoch": 17.019867549668874,
	"grad_norm": 9.507264137268066,
	"learning_rate": 4.591111111111112e-05,
	"loss": 0.5247,
	"step": 868
	},
	{
	"epoch": 17.158940397350992,
	"grad_norm": 7.274167537689209,
	"learning_rate": 4.5833333333333334e-05,
	"loss": 0.5212,
	"step": 875
	},
	{
	"epoch": 17.29801324503311,
	"grad_norm": 8.040386199951172,
	"learning_rate": 4.575555555555556e-05,
	"loss": 0.4957,
	"step": 882
	},
	{
	"epoch": 17.437086092715234,
	"grad_norm": 10.34827709197998,
	"learning_rate": 4.567777777777778e-05,
	"loss": 0.4938,
	"step": 889
	},
	{
	"epoch": 17.576158940397352,
	"grad_norm": 9.062361717224121,
	"learning_rate": 4.5600000000000004e-05,
	"loss": 0.5341,
	"step": 896
	},
	{
	"epoch": 17.71523178807947,
	"grad_norm": 7.889723777770996,
	"learning_rate": 4.552222222222222e-05,
	"loss": 0.5407,
	"step": 903
	},
	{
	"epoch": 17.85430463576159,
	"grad_norm": 7.329662799835205,
	"learning_rate": 4.5444444444444444e-05,
	"loss": 0.5344,
	"step": 910
	},
	{
	"epoch": 17.99337748344371,
	"grad_norm": 10.251781463623047,
	"learning_rate": 4.536666666666667e-05,
	"loss": 0.5108,
	"step": 917
	},
	{
	"epoch": 18.0,
	"eval_accuracy": 0.8,
	"eval_f1_macro": 0.7904420722323199,
	"eval_f1_micro": 0.8,
	"eval_f1_weighted": 0.794189161749749,
	"eval_loss": 0.7119916081428528,
	"eval_precision_macro": 0.8223463203463203,
	"eval_precision_micro": 0.8,
	"eval_precision_weighted": 0.8258165377427673,
	"eval_recall_macro": 0.7962023809523809,
	"eval_recall_micro": 0.8,
	"eval_recall_weighted": 0.8,
	"eval_runtime": 58.9812,
	"eval_samples_per_second": 20.685,
	"eval_steps_per_second": 0.339,
	"step": 918
	},
	{
	"epoch": 18.119205298013245,
	"grad_norm": 7.837319374084473,
	"learning_rate": 4.528888888888889e-05,
	"loss": 0.4401,
	"step": 924
	},
	{
	"epoch": 18.258278145695364,
	"grad_norm": 7.545521259307861,
	"learning_rate": 4.5211111111111114e-05,
	"loss": 0.4821,
	"step": 931
	},
	{
	"epoch": 18.397350993377483,
	"grad_norm": 7.626832962036133,
	"learning_rate": 4.513333333333333e-05,
	"loss": 0.4991,
	"step": 938
	},
	{
	"epoch": 18.5364238410596,
	"grad_norm": 7.265345573425293,
	"learning_rate": 4.5055555555555554e-05,
	"loss": 0.5936,
	"step": 945
	},
	{
	"epoch": 18.67549668874172,
	"grad_norm": 6.648807525634766,
	"learning_rate": 4.497777777777778e-05,
	"loss": 0.4418,
	"step": 952
	},
	{
	"epoch": 18.814569536423843,
	"grad_norm": 6.413826942443848,
	"learning_rate": 4.49e-05,
	"loss": 0.4185,
	"step": 959
	},
	{
	"epoch": 18.95364238410596,
	"grad_norm": 9.378252029418945,
	"learning_rate": 4.4822222222222224e-05,
	"loss": 0.5109,
	"step": 966
	},
	{
	"epoch": 19.0,
	"eval_accuracy": 0.8106557377049181,
	"eval_f1_macro": 0.8023834074422309,
	"eval_f1_micro": 0.8106557377049181,
	"eval_f1_weighted": 0.8054703936104611,
	"eval_loss": 0.671293318271637,
	"eval_precision_macro": 0.8325211038961038,
	"eval_precision_micro": 0.8106557377049181,
	"eval_precision_weighted": 0.8349751023111679,
	"eval_recall_macro": 0.8078333333333333,
	"eval_recall_micro": 0.8106557377049181,
	"eval_recall_weighted": 0.8106557377049181,
	"eval_runtime": 60.0408,
	"eval_samples_per_second": 20.32,
	"eval_steps_per_second": 0.333,
	"step": 969
	},
	{
	"epoch": 19.079470198675498,
	"grad_norm": 6.43688440322876,
	"learning_rate": 4.474444444444445e-05,
	"loss": 0.401,
	"step": 973
	},
	{
	"epoch": 19.218543046357617,
	"grad_norm": 10.133489608764648,
	"learning_rate": 4.466666666666667e-05,
	"loss": 0.4449,
	"step": 980
	},
	{
	"epoch": 19.357615894039736,
	"grad_norm": 9.007479667663574,
	"learning_rate": 4.4588888888888894e-05,
	"loss": 0.5457,
	"step": 987
	},
	{
	"epoch": 19.496688741721854,
	"grad_norm": 10.912771224975586,
	"learning_rate": 4.451111111111112e-05,
	"loss": 0.5306,
	"step": 994
	},
	{
	"epoch": 19.635761589403973,
	"grad_norm": 6.615180492401123,
	"learning_rate": 4.443333333333334e-05,
	"loss": 0.4925,
	"step": 1001
	},
	{
	"epoch": 19.774834437086092,
	"grad_norm": 7.076197147369385,
	"learning_rate": 4.435555555555556e-05,
	"loss": 0.4787,
	"step": 1008
	},
	{
	"epoch": 19.91390728476821,
	"grad_norm": 7.040290832519531,
	"learning_rate": 4.427777777777778e-05,
	"loss": 0.4809,
	"step": 1015
	},
	{
	"epoch": 20.0,
	"eval_accuracy": 0.8139344262295082,
	"eval_f1_macro": 0.8081211352716771,
	"eval_f1_micro": 0.8139344262295082,
	"eval_f1_weighted": 0.8116663019924579,
	"eval_loss": 0.6667141914367676,
	"eval_precision_macro": 0.8430578726828728,
	"eval_precision_micro": 0.8139344262295082,
	"eval_precision_weighted": 0.8445454568200469,
	"eval_recall_macro": 0.8106190476190476,
	"eval_recall_micro": 0.8139344262295082,
	"eval_recall_weighted": 0.8139344262295082,
	"eval_runtime": 58.7404,
	"eval_samples_per_second": 20.769,
	"eval_steps_per_second": 0.34,
	"step": 1020
	},
	{
	"epoch": 20.039735099337747,
	"grad_norm": 9.023087501525879,
	"learning_rate": 4.4200000000000004e-05,
	"loss": 0.386,
	"step": 1022
	},
	{
	"epoch": 20.178807947019866,
	"grad_norm": 7.4928178787231445,
	"learning_rate": 4.412222222222223e-05,
	"loss": 0.4569,
	"step": 1029
	},
	{
	"epoch": 20.31788079470199,
	"grad_norm": 8.090821266174316,
	"learning_rate": 4.404444444444445e-05,
	"loss": 0.4778,
	"step": 1036
	},
	{
	"epoch": 20.456953642384107,
	"grad_norm": 8.650497436523438,
	"learning_rate": 4.396666666666667e-05,
	"loss": 0.4786,
	"step": 1043
	},
	{
	"epoch": 20.596026490066226,
	"grad_norm": 6.049080848693848,
	"learning_rate": 4.388888888888889e-05,
	"loss": 0.4975,
	"step": 1050
	},
	{
	"epoch": 20.735099337748345,
	"grad_norm": 10.202515602111816,
	"learning_rate": 4.3811111111111114e-05,
	"loss": 0.4035,
	"step": 1057
	},
	{
	"epoch": 20.874172185430464,
	"grad_norm": 7.0871429443359375,
	"learning_rate": 4.373333333333334e-05,
	"loss": 0.4274,
	"step": 1064
	},
	{
	"epoch": 21.0,
	"grad_norm": 6.111388206481934,
	"learning_rate": 4.3655555555555554e-05,
	"loss": 0.3576,
	"step": 1071
	},
	{
	"epoch": 21.0,
	"eval_accuracy": 0.8073770491803278,
	"eval_f1_macro": 0.7980818380535872,
	"eval_f1_micro": 0.8073770491803278,
	"eval_f1_weighted": 0.8027800592784986,
	"eval_loss": 0.6649746298789978,
	"eval_precision_macro": 0.8290474247974248,
	"eval_precision_micro": 0.8073770491803278,
	"eval_precision_weighted": 0.8307658143313881,
	"eval_recall_macro": 0.8019166666666666,
	"eval_recall_micro": 0.8073770491803278,
	"eval_recall_weighted": 0.8073770491803278,
	"eval_runtime": 60.057,
	"eval_samples_per_second": 20.314,
	"eval_steps_per_second": 0.333,
	"step": 1071
	},
	{
	"epoch": 21.13907284768212,
	"grad_norm": 9.059436798095703,
	"learning_rate": 4.357777777777778e-05,
	"loss": 0.4775,
	"step": 1078
	},
	{
	"epoch": 21.278145695364238,
	"grad_norm": 9.497885704040527,
	"learning_rate": 4.35e-05,
	"loss": 0.4531,
	"step": 1085
	},
	{
	"epoch": 21.417218543046356,
	"grad_norm": 10.471771240234375,
	"learning_rate": 4.3422222222222224e-05,
	"loss": 0.479,
	"step": 1092
	},
	{
	"epoch": 21.556291390728475,
	"grad_norm": 6.627233505249023,
	"learning_rate": 4.334444444444445e-05,
	"loss": 0.4332,
	"step": 1099
	},
	{
	"epoch": 21.695364238410598,
	"grad_norm": 9.046399116516113,
	"learning_rate": 4.3266666666666664e-05,
	"loss": 0.4767,
	"step": 1106
	},
	{
	"epoch": 21.834437086092716,
	"grad_norm": 6.7745513916015625,
	"learning_rate": 4.318888888888889e-05,
	"loss": 0.5137,
	"step": 1113
	},
	{
	"epoch": 21.973509933774835,
	"grad_norm": 8.061189651489258,
	"learning_rate": 4.311111111111111e-05,
	"loss": 0.4877,
	"step": 1120
	},
	{
	"epoch": 22.0,
	"eval_accuracy": 0.8114754098360656,
	"eval_f1_macro": 0.8045914526649821,
	"eval_f1_micro": 0.8114754098360656,
	"eval_f1_weighted": 0.8078734461991453,
	"eval_loss": 0.6778721809387207,
	"eval_precision_macro": 0.836376651126651,
	"eval_precision_micro": 0.8114754098360656,
	"eval_precision_weighted": 0.8366239998617048,
	"eval_recall_macro": 0.806404761904762,
	"eval_recall_micro": 0.8114754098360656,
	"eval_recall_weighted": 0.8114754098360656,
	"eval_runtime": 59.185,
	"eval_samples_per_second": 20.613,
	"eval_steps_per_second": 0.338,
	"step": 1122
	},
	{
	"epoch": 22.09933774834437,
	"grad_norm": 9.460957527160645,
	"learning_rate": 4.3033333333333334e-05,
	"loss": 0.4915,
	"step": 1127
	},
	{
	"epoch": 22.23841059602649,
	"grad_norm": 9.026511192321777,
	"learning_rate": 4.295555555555556e-05,
	"loss": 0.4157,
	"step": 1134
	},
	{
	"epoch": 22.37748344370861,
	"grad_norm": 9.733258247375488,
	"learning_rate": 4.287777777777778e-05,
	"loss": 0.3564,
	"step": 1141
	},
	{
	"epoch": 22.516556291390728,
	"grad_norm": 9.269991874694824,
	"learning_rate": 4.2800000000000004e-05,
	"loss": 0.4707,
	"step": 1148
	},
	{
	"epoch": 22.655629139072847,
	"grad_norm": 7.8387041091918945,
	"learning_rate": 4.272222222222223e-05,
	"loss": 0.4902,
	"step": 1155
	},
	{
	"epoch": 22.794701986754966,
	"grad_norm": 10.261953353881836,
	"learning_rate": 4.264444444444445e-05,
	"loss": 0.4656,
	"step": 1162
	},
	{
	"epoch": 22.933774834437084,
	"grad_norm": 9.317761421203613,
	"learning_rate": 4.2566666666666674e-05,
	"loss": 0.4705,
	"step": 1169
	},
	{
	"epoch": 23.0,
	"eval_accuracy": 0.8131147540983606,
	"eval_f1_macro": 0.8073761565232153,
	"eval_f1_micro": 0.8131147540983606,
	"eval_f1_weighted": 0.8111283224168953,
	"eval_loss": 0.6698673963546753,
	"eval_precision_macro": 0.8399364801864801,
	"eval_precision_micro": 0.8131147540983606,
	"eval_precision_weighted": 0.8420730703722508,
	"eval_recall_macro": 0.808672619047619,
	"eval_recall_micro": 0.8131147540983606,
	"eval_recall_weighted": 0.8131147540983606,
	"eval_runtime": 59.9539,
	"eval_samples_per_second": 20.349,
	"eval_steps_per_second": 0.334,
	"step": 1173
	},
	{
	"epoch": 23.05960264900662,
	"grad_norm": 9.809006690979004,
	"learning_rate": 4.248888888888889e-05,
	"loss": 0.3833,
	"step": 1176
	},
	{
	"epoch": 23.198675496688743,
	"grad_norm": 8.9915132522583,
	"learning_rate": 4.2411111111111114e-05,
	"loss": 0.4552,
	"step": 1183
	},
	{
	"epoch": 23.337748344370862,
	"grad_norm": 10.036259651184082,
	"learning_rate": 4.233333333333334e-05,
	"loss": 0.3869,
	"step": 1190
	},
	{
	"epoch": 23.47682119205298,
	"grad_norm": 10.57496166229248,
	"learning_rate": 4.225555555555556e-05,
	"loss": 0.4003,
	"step": 1197
	},
	{
	"epoch": 23.6158940397351,
	"grad_norm": 9.061355590820312,
	"learning_rate": 4.217777777777778e-05,
	"loss": 0.4654,
	"step": 1204
	},
	{
	"epoch": 23.75496688741722,
	"grad_norm": 7.108461380004883,
	"learning_rate": 4.21e-05,
	"loss": 0.4085,
	"step": 1211
	},
	{
	"epoch": 23.894039735099337,
	"grad_norm": 5.542710781097412,
	"learning_rate": 4.2022222222222223e-05,
	"loss": 0.4358,
	"step": 1218
	},
	{
	"epoch": 24.0,
	"eval_accuracy": 0.8262295081967214,
	"eval_f1_macro": 0.8156689398492805,
	"eval_f1_micro": 0.8262295081967214,
	"eval_f1_weighted": 0.8195565714293827,
	"eval_loss": 0.6602770090103149,
	"eval_precision_macro": 0.8476504329004328,
	"eval_precision_micro": 0.8262295081967214,
	"eval_precision_weighted": 0.849387256641355,
	"eval_recall_macro": 0.8219166666666666,
	"eval_recall_micro": 0.8262295081967214,
	"eval_recall_weighted": 0.8262295081967214,
	"eval_runtime": 58.671,
	"eval_samples_per_second": 20.794,
	"eval_steps_per_second": 0.341,
	"step": 1224
	}
	],
	"logging_steps": 7,
	"max_steps": 5000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 100,
	"save_steps": 7,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.01
	},
	"attributes": {
	"early_stopping_patience_counter": 5
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.1899638530382496e+19,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}