xblock-base-patch1-224 / checkpoint-2253 /trainer_state.json

Upload folder using huggingface_hub

327ffdb verified almost 2 years ago

16.8 kB

	{
	"best_metric": 0.4469132423400879,
	"best_model_checkpoint": "xblock-base-patch1-224/checkpoint-2253",
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 2253,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.03,
	"grad_norm": 9.94556713104248,
	"learning_rate": 5.088495575221239e-06,
	"loss": 1.5614,
	"step": 25
	},
	{
	"epoch": 0.07,
	"grad_norm": 9.733675956726074,
	"learning_rate": 1.0619469026548673e-05,
	"loss": 1.4735,
	"step": 50
	},
	{
	"epoch": 0.1,
	"grad_norm": 9.123199462890625,
	"learning_rate": 1.6150442477876106e-05,
	"loss": 1.3293,
	"step": 75
	},
	{
	"epoch": 0.13,
	"grad_norm": 10.894118309020996,
	"learning_rate": 2.1681415929203542e-05,
	"loss": 1.2442,
	"step": 100
	},
	{
	"epoch": 0.17,
	"grad_norm": 8.819581985473633,
	"learning_rate": 2.721238938053097e-05,
	"loss": 1.0742,
	"step": 125
	},
	{
	"epoch": 0.2,
	"grad_norm": 13.125239372253418,
	"learning_rate": 3.274336283185841e-05,
	"loss": 1.1571,
	"step": 150
	},
	{
	"epoch": 0.23,
	"grad_norm": 8.423856735229492,
	"learning_rate": 3.827433628318584e-05,
	"loss": 1.1193,
	"step": 175
	},
	{
	"epoch": 0.27,
	"grad_norm": 11.360130310058594,
	"learning_rate": 4.380530973451328e-05,
	"loss": 1.0605,
	"step": 200
	},
	{
	"epoch": 0.3,
	"grad_norm": 7.3759379386901855,
	"learning_rate": 4.9336283185840707e-05,
	"loss": 0.9883,
	"step": 225
	},
	{
	"epoch": 0.33,
	"grad_norm": 12.12755298614502,
	"learning_rate": 4.9457326097681306e-05,
	"loss": 0.9764,
	"step": 250
	},
	{
	"epoch": 0.37,
	"grad_norm": 5.0697712898254395,
	"learning_rate": 4.884065120868278e-05,
	"loss": 1.1213,
	"step": 275
	},
	{
	"epoch": 0.4,
	"grad_norm": 8.178693771362305,
	"learning_rate": 4.822397631968427e-05,
	"loss": 0.9683,
	"step": 300
	},
	{
	"epoch": 0.43,
	"grad_norm": 7.6824846267700195,
	"learning_rate": 4.7607301430685744e-05,
	"loss": 1.0408,
	"step": 325
	},
	{
	"epoch": 0.47,
	"grad_norm": 10.855768203735352,
	"learning_rate": 4.699062654168723e-05,
	"loss": 0.9092,
	"step": 350
	},
	{
	"epoch": 0.5,
	"grad_norm": 6.187016487121582,
	"learning_rate": 4.6373951652688704e-05,
	"loss": 1.0058,
	"step": 375
	},
	{
	"epoch": 0.53,
	"grad_norm": 8.00668716430664,
	"learning_rate": 4.575727676369018e-05,
	"loss": 0.8086,
	"step": 400
	},
	{
	"epoch": 0.57,
	"grad_norm": 5.1038336753845215,
	"learning_rate": 4.5140601874691665e-05,
	"loss": 0.9027,
	"step": 425
	},
	{
	"epoch": 0.6,
	"grad_norm": 10.569095611572266,
	"learning_rate": 4.452392698569314e-05,
	"loss": 0.8234,
	"step": 450
	},
	{
	"epoch": 0.63,
	"grad_norm": 8.256200790405273,
	"learning_rate": 4.3907252096694626e-05,
	"loss": 0.9163,
	"step": 475
	},
	{
	"epoch": 0.67,
	"grad_norm": 11.042557716369629,
	"learning_rate": 4.32905772076961e-05,
	"loss": 0.8243,
	"step": 500
	},
	{
	"epoch": 0.7,
	"grad_norm": 18.462459564208984,
	"learning_rate": 4.267390231869759e-05,
	"loss": 0.8703,
	"step": 525
	},
	{
	"epoch": 0.73,
	"grad_norm": 12.024648666381836,
	"learning_rate": 4.2057227429699064e-05,
	"loss": 0.991,
	"step": 550
	},
	{
	"epoch": 0.77,
	"grad_norm": 11.26354694366455,
	"learning_rate": 4.144055254070055e-05,
	"loss": 0.8402,
	"step": 575
	},
	{
	"epoch": 0.8,
	"grad_norm": 8.839094161987305,
	"learning_rate": 4.0823877651702024e-05,
	"loss": 0.7653,
	"step": 600
	},
	{
	"epoch": 0.83,
	"grad_norm": 10.799356460571289,
	"learning_rate": 4.020720276270351e-05,
	"loss": 0.7787,
	"step": 625
	},
	{
	"epoch": 0.87,
	"grad_norm": 12.935748100280762,
	"learning_rate": 3.9590527873704985e-05,
	"loss": 0.7738,
	"step": 650
	},
	{
	"epoch": 0.9,
	"grad_norm": 4.829887866973877,
	"learning_rate": 3.897385298470647e-05,
	"loss": 0.8329,
	"step": 675
	},
	{
	"epoch": 0.93,
	"grad_norm": 4.532620429992676,
	"learning_rate": 3.8357178095707946e-05,
	"loss": 0.9689,
	"step": 700
	},
	{
	"epoch": 0.97,
	"grad_norm": 8.8261079788208,
	"learning_rate": 3.774050320670943e-05,
	"loss": 0.7615,
	"step": 725
	},
	{
	"epoch": 1.0,
	"grad_norm": 3.9906632900238037,
	"learning_rate": 3.712382831771091e-05,
	"loss": 0.8284,
	"step": 750
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.7503328894806924,
	"eval_f1_macro": 0.7379493476306923,
	"eval_f1_micro": 0.7503328894806925,
	"eval_f1_weighted": 0.7478927601803307,
	"eval_loss": 0.6315314769744873,
	"eval_precision_macro": 0.7619988736851466,
	"eval_precision_micro": 0.7503328894806924,
	"eval_precision_weighted": 0.7668596523942972,
	"eval_recall_macro": 0.7356084437086093,
	"eval_recall_micro": 0.7503328894806924,
	"eval_recall_weighted": 0.7503328894806924,
	"eval_runtime": 103.3083,
	"eval_samples_per_second": 14.539,
	"eval_steps_per_second": 0.91,
	"step": 751
	},
	{
	"epoch": 1.03,
	"grad_norm": 7.72317361831665,
	"learning_rate": 3.650715342871239e-05,
	"loss": 0.8196,
	"step": 775
	},
	{
	"epoch": 1.07,
	"grad_norm": 6.5625152587890625,
	"learning_rate": 3.589047853971386e-05,
	"loss": 0.7794,
	"step": 800
	},
	{
	"epoch": 1.1,
	"grad_norm": 5.599926948547363,
	"learning_rate": 3.5273803650715344e-05,
	"loss": 0.6632,
	"step": 825
	},
	{
	"epoch": 1.13,
	"grad_norm": 9.425518989562988,
	"learning_rate": 3.465712876171682e-05,
	"loss": 0.7074,
	"step": 850
	},
	{
	"epoch": 1.17,
	"grad_norm": 8.80082893371582,
	"learning_rate": 3.4040453872718305e-05,
	"loss": 0.7325,
	"step": 875
	},
	{
	"epoch": 1.2,
	"grad_norm": 11.81970500946045,
	"learning_rate": 3.342377898371978e-05,
	"loss": 0.8574,
	"step": 900
	},
	{
	"epoch": 1.23,
	"grad_norm": 8.871489524841309,
	"learning_rate": 3.2807104094721266e-05,
	"loss": 0.8407,
	"step": 925
	},
	{
	"epoch": 1.26,
	"grad_norm": 7.296131610870361,
	"learning_rate": 3.219042920572274e-05,
	"loss": 0.6962,
	"step": 950
	},
	{
	"epoch": 1.3,
	"grad_norm": 8.161062240600586,
	"learning_rate": 3.1573754316724227e-05,
	"loss": 0.8163,
	"step": 975
	},
	{
	"epoch": 1.33,
	"grad_norm": 14.00735092163086,
	"learning_rate": 3.0957079427725704e-05,
	"loss": 0.6706,
	"step": 1000
	},
	{
	"epoch": 1.36,
	"grad_norm": 10.980608940124512,
	"learning_rate": 3.0340404538727184e-05,
	"loss": 0.6639,
	"step": 1025
	},
	{
	"epoch": 1.4,
	"grad_norm": 6.72366189956665,
	"learning_rate": 2.9723729649728664e-05,
	"loss": 0.7,
	"step": 1050
	},
	{
	"epoch": 1.43,
	"grad_norm": 24.283390045166016,
	"learning_rate": 2.9107054760730145e-05,
	"loss": 0.7156,
	"step": 1075
	},
	{
	"epoch": 1.46,
	"grad_norm": 4.696579933166504,
	"learning_rate": 2.8490379871731625e-05,
	"loss": 0.5984,
	"step": 1100
	},
	{
	"epoch": 1.5,
	"grad_norm": 6.687375545501709,
	"learning_rate": 2.7873704982733105e-05,
	"loss": 0.6752,
	"step": 1125
	},
	{
	"epoch": 1.53,
	"grad_norm": 12.651863098144531,
	"learning_rate": 2.7257030093734586e-05,
	"loss": 0.8265,
	"step": 1150
	},
	{
	"epoch": 1.56,
	"grad_norm": 5.703587532043457,
	"learning_rate": 2.6640355204736066e-05,
	"loss": 0.6061,
	"step": 1175
	},
	{
	"epoch": 1.6,
	"grad_norm": 12.219403266906738,
	"learning_rate": 2.6023680315737543e-05,
	"loss": 0.5414,
	"step": 1200
	},
	{
	"epoch": 1.63,
	"grad_norm": 13.479424476623535,
	"learning_rate": 2.5407005426739024e-05,
	"loss": 0.6115,
	"step": 1225
	},
	{
	"epoch": 1.66,
	"grad_norm": 2.6645803451538086,
	"learning_rate": 2.4790330537740504e-05,
	"loss": 0.7061,
	"step": 1250
	},
	{
	"epoch": 1.7,
	"grad_norm": 7.649036884307861,
	"learning_rate": 2.4173655648741984e-05,
	"loss": 0.5908,
	"step": 1275
	},
	{
	"epoch": 1.73,
	"grad_norm": 7.877263069152832,
	"learning_rate": 2.3556980759743465e-05,
	"loss": 0.5877,
	"step": 1300
	},
	{
	"epoch": 1.76,
	"grad_norm": 3.582003355026245,
	"learning_rate": 2.2940305870744945e-05,
	"loss": 0.6062,
	"step": 1325
	},
	{
	"epoch": 1.8,
	"grad_norm": 11.514890670776367,
	"learning_rate": 2.2323630981746425e-05,
	"loss": 0.5983,
	"step": 1350
	},
	{
	"epoch": 1.83,
	"grad_norm": 14.150575637817383,
	"learning_rate": 2.1706956092747906e-05,
	"loss": 0.6691,
	"step": 1375
	},
	{
	"epoch": 1.86,
	"grad_norm": 5.117061138153076,
	"learning_rate": 2.1090281203749386e-05,
	"loss": 0.6876,
	"step": 1400
	},
	{
	"epoch": 1.9,
	"grad_norm": 6.246029376983643,
	"learning_rate": 2.0473606314750867e-05,
	"loss": 0.6186,
	"step": 1425
	},
	{
	"epoch": 1.93,
	"grad_norm": 8.04295825958252,
	"learning_rate": 1.9856931425752347e-05,
	"loss": 0.7033,
	"step": 1450
	},
	{
	"epoch": 1.96,
	"grad_norm": 6.798038482666016,
	"learning_rate": 1.9240256536753827e-05,
	"loss": 0.6698,
	"step": 1475
	},
	{
	"epoch": 2.0,
	"grad_norm": 7.464223384857178,
	"learning_rate": 1.8623581647755304e-05,
	"loss": 0.6421,
	"step": 1500
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.8062583222370173,
	"eval_f1_macro": 0.8030885441145199,
	"eval_f1_micro": 0.8062583222370173,
	"eval_f1_weighted": 0.8081177448606712,
	"eval_loss": 0.49981948733329773,
	"eval_precision_macro": 0.8105725964724615,
	"eval_precision_micro": 0.8062583222370173,
	"eval_precision_weighted": 0.8226218541008891,
	"eval_recall_macro": 0.8098096026490066,
	"eval_recall_micro": 0.8062583222370173,
	"eval_recall_weighted": 0.8062583222370173,
	"eval_runtime": 108.6859,
	"eval_samples_per_second": 13.82,
	"eval_steps_per_second": 0.865,
	"step": 1502
	},
	{
	"epoch": 2.03,
	"grad_norm": 7.260876655578613,
	"learning_rate": 1.8006906758756785e-05,
	"loss": 0.6168,
	"step": 1525
	},
	{
	"epoch": 2.06,
	"grad_norm": 10.966588973999023,
	"learning_rate": 1.7390231869758265e-05,
	"loss": 0.6235,
	"step": 1550
	},
	{
	"epoch": 2.1,
	"grad_norm": 7.024848937988281,
	"learning_rate": 1.6773556980759745e-05,
	"loss": 0.5583,
	"step": 1575
	},
	{
	"epoch": 2.13,
	"grad_norm": 7.464731693267822,
	"learning_rate": 1.6156882091761226e-05,
	"loss": 0.5755,
	"step": 1600
	},
	{
	"epoch": 2.16,
	"grad_norm": 3.144723892211914,
	"learning_rate": 1.5540207202762706e-05,
	"loss": 0.5972,
	"step": 1625
	},
	{
	"epoch": 2.2,
	"grad_norm": 10.064537048339844,
	"learning_rate": 1.4923532313764185e-05,
	"loss": 0.583,
	"step": 1650
	},
	{
	"epoch": 2.23,
	"grad_norm": 8.008367538452148,
	"learning_rate": 1.4306857424765665e-05,
	"loss": 0.5201,
	"step": 1675
	},
	{
	"epoch": 2.26,
	"grad_norm": 6.358066082000732,
	"learning_rate": 1.3690182535767144e-05,
	"loss": 0.5662,
	"step": 1700
	},
	{
	"epoch": 2.3,
	"grad_norm": 6.239820957183838,
	"learning_rate": 1.3073507646768624e-05,
	"loss": 0.5854,
	"step": 1725
	},
	{
	"epoch": 2.33,
	"grad_norm": 6.083053112030029,
	"learning_rate": 1.2456832757770105e-05,
	"loss": 0.5655,
	"step": 1750
	},
	{
	"epoch": 2.36,
	"grad_norm": 17.246747970581055,
	"learning_rate": 1.1840157868771585e-05,
	"loss": 0.6351,
	"step": 1775
	},
	{
	"epoch": 2.4,
	"grad_norm": 11.279265403747559,
	"learning_rate": 1.1223482979773065e-05,
	"loss": 0.5639,
	"step": 1800
	},
	{
	"epoch": 2.43,
	"grad_norm": 6.290694713592529,
	"learning_rate": 1.0606808090774544e-05,
	"loss": 0.5125,
	"step": 1825
	},
	{
	"epoch": 2.46,
	"grad_norm": 12.703798294067383,
	"learning_rate": 9.990133201776024e-06,
	"loss": 0.6839,
	"step": 1850
	},
	{
	"epoch": 2.5,
	"grad_norm": 5.460929870605469,
	"learning_rate": 9.373458312777505e-06,
	"loss": 0.5766,
	"step": 1875
	},
	{
	"epoch": 2.53,
	"grad_norm": 8.471376419067383,
	"learning_rate": 8.756783423778985e-06,
	"loss": 0.5011,
	"step": 1900
	},
	{
	"epoch": 2.56,
	"grad_norm": 5.83112096786499,
	"learning_rate": 8.140108534780466e-06,
	"loss": 0.4984,
	"step": 1925
	},
	{
	"epoch": 2.6,
	"grad_norm": 7.202915668487549,
	"learning_rate": 7.523433645781943e-06,
	"loss": 0.6013,
	"step": 1950
	},
	{
	"epoch": 2.63,
	"grad_norm": 7.630007266998291,
	"learning_rate": 6.906758756783424e-06,
	"loss": 0.4976,
	"step": 1975
	},
	{
	"epoch": 2.66,
	"grad_norm": 2.946850061416626,
	"learning_rate": 6.290083867784904e-06,
	"loss": 0.4218,
	"step": 2000
	},
	{
	"epoch": 2.7,
	"grad_norm": 12.109963417053223,
	"learning_rate": 5.6734089787863845e-06,
	"loss": 0.5818,
	"step": 2025
	},
	{
	"epoch": 2.73,
	"grad_norm": 12.913744926452637,
	"learning_rate": 5.056734089787865e-06,
	"loss": 0.5638,
	"step": 2050
	},
	{
	"epoch": 2.76,
	"grad_norm": 21.241952896118164,
	"learning_rate": 4.464726196349285e-06,
	"loss": 0.6451,
	"step": 2075
	},
	{
	"epoch": 2.8,
	"grad_norm": 10.033452987670898,
	"learning_rate": 3.848051307350765e-06,
	"loss": 0.5067,
	"step": 2100
	},
	{
	"epoch": 2.83,
	"grad_norm": 15.357681274414062,
	"learning_rate": 3.231376418352245e-06,
	"loss": 0.6292,
	"step": 2125
	},
	{
	"epoch": 2.86,
	"grad_norm": 10.886502265930176,
	"learning_rate": 2.614701529353725e-06,
	"loss": 0.6365,
	"step": 2150
	},
	{
	"epoch": 2.9,
	"grad_norm": 6.1179986000061035,
	"learning_rate": 1.998026640355205e-06,
	"loss": 0.5717,
	"step": 2175
	},
	{
	"epoch": 2.93,
	"grad_norm": 8.245763778686523,
	"learning_rate": 1.381351751356685e-06,
	"loss": 0.5669,
	"step": 2200
	},
	{
	"epoch": 2.96,
	"grad_norm": 9.85698413848877,
	"learning_rate": 7.646768623581648e-07,
	"loss": 0.4571,
	"step": 2225
	},
	{
	"epoch": 3.0,
	"grad_norm": 16.406970977783203,
	"learning_rate": 1.480019733596448e-07,
	"loss": 0.5549,
	"step": 2250
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.829560585885486,
	"eval_f1_macro": 0.8236777117298302,
	"eval_f1_micro": 0.829560585885486,
	"eval_f1_weighted": 0.8289271724966029,
	"eval_loss": 0.4469132423400879,
	"eval_precision_macro": 0.8243514221166717,
	"eval_precision_micro": 0.829560585885486,
	"eval_precision_weighted": 0.8313607282611274,
	"eval_recall_macro": 0.8260057947019868,
	"eval_recall_micro": 0.829560585885486,
	"eval_recall_weighted": 0.829560585885486,
	"eval_runtime": 107.4762,
	"eval_samples_per_second": 13.975,
	"eval_steps_per_second": 0.875,
	"step": 2253
	}
	],
	"logging_steps": 25,
	"max_steps": 2253,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"total_flos": 1.3962756971819336e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}