polyglot-tagger-66L-3M / trainer_state.json

End of training

02285cd verified 2 days ago

85.5 kB

	{
	"best_global_step": 35000,
	"best_metric": 0.89652071512686,
	"best_model_checkpoint": "./lang-ner-xlmr/checkpoint-35000",
	"epoch": 2.0,
	"eval_steps": 2500,
	"global_step": 41460,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004824043030463832,
	"grad_norm": 2.7279021739959717,
	"learning_rate": 4.988060781476121e-05,
	"loss": 3.1182174682617188,
	"step": 100
	},
	{
	"epoch": 0.009648086060927664,
	"grad_norm": 0.8386039137840271,
	"learning_rate": 4.9760009647853356e-05,
	"loss": 0.2861482620239258,
	"step": 200
	},
	{
	"epoch": 0.014472129091391495,
	"grad_norm": 1.9196710586547852,
	"learning_rate": 4.963941148094549e-05,
	"loss": 0.12070045471191407,
	"step": 300
	},
	{
	"epoch": 0.019296172121855328,
	"grad_norm": 6.516495227813721,
	"learning_rate": 4.951881331403763e-05,
	"loss": 0.09790064811706543,
	"step": 400
	},
	{
	"epoch": 0.024120215152319158,
	"grad_norm": 1.2043635845184326,
	"learning_rate": 4.939821514712977e-05,
	"loss": 0.09528629302978515,
	"step": 500
	},
	{
	"epoch": 0.02894425818278299,
	"grad_norm": 0.529084324836731,
	"learning_rate": 4.92776169802219e-05,
	"loss": 0.06706910610198974,
	"step": 600
	},
	{
	"epoch": 0.033768301213246824,
	"grad_norm": 1.108811616897583,
	"learning_rate": 4.9157018813314036e-05,
	"loss": 0.07001821517944336,
	"step": 700
	},
	{
	"epoch": 0.038592344243710656,
	"grad_norm": 1.234101414680481,
	"learning_rate": 4.903642064640618e-05,
	"loss": 0.07005959987640381,
	"step": 800
	},
	{
	"epoch": 0.04341638727417448,
	"grad_norm": 0.6574804782867432,
	"learning_rate": 4.8915822479498315e-05,
	"loss": 0.06500310897827148,
	"step": 900
	},
	{
	"epoch": 0.048240430304638315,
	"grad_norm": 0.6550615429878235,
	"learning_rate": 4.879522431259045e-05,
	"loss": 0.05578082084655762,
	"step": 1000
	},
	{
	"epoch": 0.05306447333510215,
	"grad_norm": 0.9701142907142639,
	"learning_rate": 4.867462614568259e-05,
	"loss": 0.05476199150085449,
	"step": 1100
	},
	{
	"epoch": 0.05788851636556598,
	"grad_norm": 0.3067728579044342,
	"learning_rate": 4.855402797877472e-05,
	"loss": 0.04951910972595215,
	"step": 1200
	},
	{
	"epoch": 0.06271255939602981,
	"grad_norm": 0.4835965037345886,
	"learning_rate": 4.843342981186686e-05,
	"loss": 0.05270035743713379,
	"step": 1300
	},
	{
	"epoch": 0.06753660242649365,
	"grad_norm": 0.9019619822502136,
	"learning_rate": 4.8312831644959e-05,
	"loss": 0.05690920352935791,
	"step": 1400
	},
	{
	"epoch": 0.07236064545695747,
	"grad_norm": 1.7734606266021729,
	"learning_rate": 4.819223347805114e-05,
	"loss": 0.05044642925262451,
	"step": 1500
	},
	{
	"epoch": 0.07718468848742131,
	"grad_norm": 1.1853278875350952,
	"learning_rate": 4.8071635311143274e-05,
	"loss": 0.056004085540771485,
	"step": 1600
	},
	{
	"epoch": 0.08200873151788514,
	"grad_norm": 0.5660464763641357,
	"learning_rate": 4.795103714423541e-05,
	"loss": 0.0493979024887085,
	"step": 1700
	},
	{
	"epoch": 0.08683277454834896,
	"grad_norm": 1.2197043895721436,
	"learning_rate": 4.7830438977327546e-05,
	"loss": 0.04784996509552002,
	"step": 1800
	},
	{
	"epoch": 0.0916568175788128,
	"grad_norm": 1.1459959745407104,
	"learning_rate": 4.770984081041968e-05,
	"loss": 0.049839210510253903,
	"step": 1900
	},
	{
	"epoch": 0.09648086060927663,
	"grad_norm": 0.3328426778316498,
	"learning_rate": 4.7589242643511825e-05,
	"loss": 0.04329806327819824,
	"step": 2000
	},
	{
	"epoch": 0.10130490363974047,
	"grad_norm": 1.718967080116272,
	"learning_rate": 4.746864447660396e-05,
	"loss": 0.047143783569335934,
	"step": 2100
	},
	{
	"epoch": 0.1061289466702043,
	"grad_norm": 0.7338983416557312,
	"learning_rate": 4.734804630969609e-05,
	"loss": 0.04436909198760986,
	"step": 2200
	},
	{
	"epoch": 0.11095298970066814,
	"grad_norm": 0.5654782652854919,
	"learning_rate": 4.722744814278823e-05,
	"loss": 0.04844902515411377,
	"step": 2300
	},
	{
	"epoch": 0.11577703273113196,
	"grad_norm": 0.4302056133747101,
	"learning_rate": 4.710684997588037e-05,
	"loss": 0.04093062400817871,
	"step": 2400
	},
	{
	"epoch": 0.12060107576159579,
	"grad_norm": 0.554361879825592,
	"learning_rate": 4.6986251808972505e-05,
	"loss": 0.040434646606445315,
	"step": 2500
	},
	{
	"epoch": 0.12060107576159579,
	"eval_accuracy": 0.9867528880759852,
	"eval_f1": 0.8265977004331162,
	"eval_loss": 0.06485302746295929,
	"eval_precision": 0.7943624857764557,
	"eval_recall": 0.8615597800199195,
	"eval_runtime": 67.6547,
	"eval_samples_per_second": 221.714,
	"eval_steps_per_second": 6.164,
	"step": 2500
	},
	{
	"epoch": 0.12542511879205961,
	"grad_norm": 0.8634827136993408,
	"learning_rate": 4.686565364206465e-05,
	"loss": 0.04507491588592529,
	"step": 2600
	},
	{
	"epoch": 0.13024916182252347,
	"grad_norm": 0.6373780965805054,
	"learning_rate": 4.674505547515678e-05,
	"loss": 0.04472970962524414,
	"step": 2700
	},
	{
	"epoch": 0.1350732048529873,
	"grad_norm": 0.35323283076286316,
	"learning_rate": 4.662445730824891e-05,
	"loss": 0.03842374086380005,
	"step": 2800
	},
	{
	"epoch": 0.13989724788345112,
	"grad_norm": 0.8187289834022522,
	"learning_rate": 4.6503859141341056e-05,
	"loss": 0.04050546646118164,
	"step": 2900
	},
	{
	"epoch": 0.14472129091391495,
	"grad_norm": 0.2180730253458023,
	"learning_rate": 4.638326097443319e-05,
	"loss": 0.04304762363433838,
	"step": 3000
	},
	{
	"epoch": 0.14954533394437877,
	"grad_norm": 0.6171498894691467,
	"learning_rate": 4.626266280752533e-05,
	"loss": 0.03792398929595947,
	"step": 3100
	},
	{
	"epoch": 0.15436937697484263,
	"grad_norm": 1.4763296842575073,
	"learning_rate": 4.6142064640617464e-05,
	"loss": 0.04089127063751221,
	"step": 3200
	},
	{
	"epoch": 0.15919342000530645,
	"grad_norm": 0.36483830213546753,
	"learning_rate": 4.60214664737096e-05,
	"loss": 0.04075708866119385,
	"step": 3300
	},
	{
	"epoch": 0.16401746303577028,
	"grad_norm": 0.32734522223472595,
	"learning_rate": 4.5900868306801736e-05,
	"loss": 0.03913374423980713,
	"step": 3400
	},
	{
	"epoch": 0.1688415060662341,
	"grad_norm": 0.27289167046546936,
	"learning_rate": 4.578027013989388e-05,
	"loss": 0.039629595279693605,
	"step": 3500
	},
	{
	"epoch": 0.17366554909669793,
	"grad_norm": 1.4992765188217163,
	"learning_rate": 4.5659671972986015e-05,
	"loss": 0.03849426031112671,
	"step": 3600
	},
	{
	"epoch": 0.17848959212716178,
	"grad_norm": 0.7519832849502563,
	"learning_rate": 4.553907380607815e-05,
	"loss": 0.03754171133041382,
	"step": 3700
	},
	{
	"epoch": 0.1833136351576256,
	"grad_norm": 1.4542765617370605,
	"learning_rate": 4.541847563917029e-05,
	"loss": 0.038514294624328614,
	"step": 3800
	},
	{
	"epoch": 0.18813767818808944,
	"grad_norm": 1.8106330633163452,
	"learning_rate": 4.529787747226242e-05,
	"loss": 0.03961650609970093,
	"step": 3900
	},
	{
	"epoch": 0.19296172121855326,
	"grad_norm": 0.3401031196117401,
	"learning_rate": 4.517727930535456e-05,
	"loss": 0.0379714560508728,
	"step": 4000
	},
	{
	"epoch": 0.1977857642490171,
	"grad_norm": 3.1147701740264893,
	"learning_rate": 4.50566811384467e-05,
	"loss": 0.03555563688278198,
	"step": 4100
	},
	{
	"epoch": 0.20260980727948094,
	"grad_norm": 0.3068256676197052,
	"learning_rate": 4.493608297153884e-05,
	"loss": 0.040891532897949216,
	"step": 4200
	},
	{
	"epoch": 0.20743385030994477,
	"grad_norm": 0.22388258576393127,
	"learning_rate": 4.481548480463097e-05,
	"loss": 0.042806510925292966,
	"step": 4300
	},
	{
	"epoch": 0.2122578933404086,
	"grad_norm": 1.0851870775222778,
	"learning_rate": 4.469488663772311e-05,
	"loss": 0.03217351198196411,
	"step": 4400
	},
	{
	"epoch": 0.21708193637087242,
	"grad_norm": 0.14333230257034302,
	"learning_rate": 4.4574288470815246e-05,
	"loss": 0.036145191192626956,
	"step": 4500
	},
	{
	"epoch": 0.22190597940133627,
	"grad_norm": 0.5196163654327393,
	"learning_rate": 4.445369030390738e-05,
	"loss": 0.04708011627197266,
	"step": 4600
	},
	{
	"epoch": 0.2267300224318001,
	"grad_norm": 0.18328827619552612,
	"learning_rate": 4.4333092136999525e-05,
	"loss": 0.040124249458312986,
	"step": 4700
	},
	{
	"epoch": 0.23155406546226392,
	"grad_norm": 0.31492918729782104,
	"learning_rate": 4.4212493970091654e-05,
	"loss": 0.041497902870178224,
	"step": 4800
	},
	{
	"epoch": 0.23637810849272775,
	"grad_norm": 0.4818204939365387,
	"learning_rate": 4.409189580318379e-05,
	"loss": 0.04126156330108643,
	"step": 4900
	},
	{
	"epoch": 0.24120215152319158,
	"grad_norm": 0.20825903117656708,
	"learning_rate": 4.397129763627593e-05,
	"loss": 0.03939923524856567,
	"step": 5000
	},
	{
	"epoch": 0.24120215152319158,
	"eval_accuracy": 0.9893252582883119,
	"eval_f1": 0.84304320903433,
	"eval_loss": 0.05377783998847008,
	"eval_precision": 0.8180670129341073,
	"eval_recall": 0.8695925172130082,
	"eval_runtime": 51.5792,
	"eval_samples_per_second": 290.815,
	"eval_steps_per_second": 8.085,
	"step": 5000
	},
	{
	"epoch": 0.24602619455365543,
	"grad_norm": 0.20790189504623413,
	"learning_rate": 4.385069946936807e-05,
	"loss": 0.03445266008377075,
	"step": 5100
	},
	{
	"epoch": 0.25085023758411923,
	"grad_norm": 0.2234453707933426,
	"learning_rate": 4.3730101302460205e-05,
	"loss": 0.03056433916091919,
	"step": 5200
	},
	{
	"epoch": 0.2556742806145831,
	"grad_norm": 0.5091524124145508,
	"learning_rate": 4.360950313555234e-05,
	"loss": 0.03808696031570435,
	"step": 5300
	},
	{
	"epoch": 0.26049832364504694,
	"grad_norm": 0.7598561644554138,
	"learning_rate": 4.348890496864448e-05,
	"loss": 0.03501533508300781,
	"step": 5400
	},
	{
	"epoch": 0.26532236667551073,
	"grad_norm": 0.2233390510082245,
	"learning_rate": 4.336830680173661e-05,
	"loss": 0.03836148738861084,
	"step": 5500
	},
	{
	"epoch": 0.2701464097059746,
	"grad_norm": 0.4892669916152954,
	"learning_rate": 4.3247708634828756e-05,
	"loss": 0.03670140504837036,
	"step": 5600
	},
	{
	"epoch": 0.2749704527364384,
	"grad_norm": 0.3863944411277771,
	"learning_rate": 4.312711046792089e-05,
	"loss": 0.03313957452774048,
	"step": 5700
	},
	{
	"epoch": 0.27979449576690224,
	"grad_norm": 0.457960844039917,
	"learning_rate": 4.300651230101303e-05,
	"loss": 0.03517037630081177,
	"step": 5800
	},
	{
	"epoch": 0.2846185387973661,
	"grad_norm": 0.3622528314590454,
	"learning_rate": 4.2885914134105164e-05,
	"loss": 0.0420029878616333,
	"step": 5900
	},
	{
	"epoch": 0.2894425818278299,
	"grad_norm": 0.9826716780662537,
	"learning_rate": 4.27653159671973e-05,
	"loss": 0.03928417205810547,
	"step": 6000
	},
	{
	"epoch": 0.29426662485829375,
	"grad_norm": 0.3126944303512573,
	"learning_rate": 4.2644717800289436e-05,
	"loss": 0.03383539915084839,
	"step": 6100
	},
	{
	"epoch": 0.29909066788875754,
	"grad_norm": 1.1283291578292847,
	"learning_rate": 4.252411963338158e-05,
	"loss": 0.034748728275299075,
	"step": 6200
	},
	{
	"epoch": 0.3039147109192214,
	"grad_norm": 0.2550179958343506,
	"learning_rate": 4.2403521466473715e-05,
	"loss": 0.03332434177398682,
	"step": 6300
	},
	{
	"epoch": 0.30873875394968525,
	"grad_norm": 0.6041121482849121,
	"learning_rate": 4.2282923299565844e-05,
	"loss": 0.03864547491073608,
	"step": 6400
	},
	{
	"epoch": 0.31356279698014905,
	"grad_norm": 0.3217807412147522,
	"learning_rate": 4.216232513265799e-05,
	"loss": 0.03896953821182251,
	"step": 6500
	},
	{
	"epoch": 0.3183868400106129,
	"grad_norm": 0.22055508196353912,
	"learning_rate": 4.204172696575012e-05,
	"loss": 0.03473591566085815,
	"step": 6600
	},
	{
	"epoch": 0.3232108830410767,
	"grad_norm": 0.9059926271438599,
	"learning_rate": 4.192112879884226e-05,
	"loss": 0.0373721718788147,
	"step": 6700
	},
	{
	"epoch": 0.32803492607154056,
	"grad_norm": 0.2131674885749817,
	"learning_rate": 4.1800530631934395e-05,
	"loss": 0.031450369358062745,
	"step": 6800
	},
	{
	"epoch": 0.3328589691020044,
	"grad_norm": 0.1497948318719864,
	"learning_rate": 4.167993246502653e-05,
	"loss": 0.03357296228408813,
	"step": 6900
	},
	{
	"epoch": 0.3376830121324682,
	"grad_norm": 0.3575536012649536,
	"learning_rate": 4.155933429811867e-05,
	"loss": 0.03312770128250122,
	"step": 7000
	},
	{
	"epoch": 0.34250705516293206,
	"grad_norm": 0.27300477027893066,
	"learning_rate": 4.143873613121081e-05,
	"loss": 0.036876497268676756,
	"step": 7100
	},
	{
	"epoch": 0.34733109819339586,
	"grad_norm": 0.36355310678482056,
	"learning_rate": 4.1318137964302946e-05,
	"loss": 0.034904708862304686,
	"step": 7200
	},
	{
	"epoch": 0.3521551412238597,
	"grad_norm": 0.444167822599411,
	"learning_rate": 4.119753979739508e-05,
	"loss": 0.030987234115600587,
	"step": 7300
	},
	{
	"epoch": 0.35697918425432357,
	"grad_norm": 0.22657343745231628,
	"learning_rate": 4.107694163048722e-05,
	"loss": 0.03171445846557617,
	"step": 7400
	},
	{
	"epoch": 0.36180322728478737,
	"grad_norm": 0.3570277988910675,
	"learning_rate": 4.0956343463579354e-05,
	"loss": 0.03453096866607666,
	"step": 7500
	},
	{
	"epoch": 0.36180322728478737,
	"eval_accuracy": 0.9905638698370478,
	"eval_f1": 0.8562651098466053,
	"eval_loss": 0.045637115836143494,
	"eval_precision": 0.8355275356944187,
	"eval_recall": 0.878058286060711,
	"eval_runtime": 52.1242,
	"eval_samples_per_second": 287.774,
	"eval_steps_per_second": 8.0,
	"step": 7500
	},
	{
	"epoch": 0.3666272703152512,
	"grad_norm": 0.4932907819747925,
	"learning_rate": 4.083574529667149e-05,
	"loss": 0.030991692543029786,
	"step": 7600
	},
	{
	"epoch": 0.371451313345715,
	"grad_norm": 0.6475630402565002,
	"learning_rate": 4.071514712976363e-05,
	"loss": 0.03562487840652466,
	"step": 7700
	},
	{
	"epoch": 0.37627535637617887,
	"grad_norm": 0.2954416871070862,
	"learning_rate": 4.059454896285577e-05,
	"loss": 0.03147151708602905,
	"step": 7800
	},
	{
	"epoch": 0.3810993994066427,
	"grad_norm": 0.6999800205230713,
	"learning_rate": 4.0473950795947905e-05,
	"loss": 0.03395595073699951,
	"step": 7900
	},
	{
	"epoch": 0.3859234424371065,
	"grad_norm": 1.9642822742462158,
	"learning_rate": 4.035335262904004e-05,
	"loss": 0.034128406047821046,
	"step": 8000
	},
	{
	"epoch": 0.3907474854675704,
	"grad_norm": 0.8058770298957825,
	"learning_rate": 4.023275446213218e-05,
	"loss": 0.02912992238998413,
	"step": 8100
	},
	{
	"epoch": 0.3955715284980342,
	"grad_norm": 0.5513653755187988,
	"learning_rate": 4.011215629522431e-05,
	"loss": 0.033489227294921875,
	"step": 8200
	},
	{
	"epoch": 0.40039557152849803,
	"grad_norm": 0.5218818783760071,
	"learning_rate": 3.9991558128316456e-05,
	"loss": 0.03587050437927246,
	"step": 8300
	},
	{
	"epoch": 0.4052196145589619,
	"grad_norm": 0.231138676404953,
	"learning_rate": 3.987095996140859e-05,
	"loss": 0.02900606632232666,
	"step": 8400
	},
	{
	"epoch": 0.4100436575894257,
	"grad_norm": 0.941376268863678,
	"learning_rate": 3.975036179450072e-05,
	"loss": 0.032960660457611084,
	"step": 8500
	},
	{
	"epoch": 0.41486770061988953,
	"grad_norm": 0.3743444085121155,
	"learning_rate": 3.9629763627592864e-05,
	"loss": 0.034282689094543455,
	"step": 8600
	},
	{
	"epoch": 0.4196917436503534,
	"grad_norm": 0.20511318743228912,
	"learning_rate": 3.9509165460685e-05,
	"loss": 0.03301868677139282,
	"step": 8700
	},
	{
	"epoch": 0.4245157866808172,
	"grad_norm": 0.5028975605964661,
	"learning_rate": 3.9388567293777136e-05,
	"loss": 0.030978357791900633,
	"step": 8800
	},
	{
	"epoch": 0.42933982971128104,
	"grad_norm": 0.5793830752372742,
	"learning_rate": 3.926796912686927e-05,
	"loss": 0.03107161045074463,
	"step": 8900
	},
	{
	"epoch": 0.43416387274174484,
	"grad_norm": 0.5201826095581055,
	"learning_rate": 3.914737095996141e-05,
	"loss": 0.03163294792175293,
	"step": 9000
	},
	{
	"epoch": 0.4389879157722087,
	"grad_norm": 0.40996044874191284,
	"learning_rate": 3.9026772793053544e-05,
	"loss": 0.03236435651779175,
	"step": 9100
	},
	{
	"epoch": 0.44381195880267255,
	"grad_norm": 0.32939156889915466,
	"learning_rate": 3.890617462614569e-05,
	"loss": 0.03099562406539917,
	"step": 9200
	},
	{
	"epoch": 0.44863600183313634,
	"grad_norm": 0.5146192312240601,
	"learning_rate": 3.878557645923782e-05,
	"loss": 0.032382268905639645,
	"step": 9300
	},
	{
	"epoch": 0.4534600448636002,
	"grad_norm": 0.6972792148590088,
	"learning_rate": 3.866497829232996e-05,
	"loss": 0.0357794189453125,
	"step": 9400
	},
	{
	"epoch": 0.458284087894064,
	"grad_norm": 0.4266366958618164,
	"learning_rate": 3.8544380125422095e-05,
	"loss": 0.02773923635482788,
	"step": 9500
	},
	{
	"epoch": 0.46310813092452785,
	"grad_norm": 0.18275046348571777,
	"learning_rate": 3.842378195851423e-05,
	"loss": 0.029792981147766115,
	"step": 9600
	},
	{
	"epoch": 0.4679321739549917,
	"grad_norm": 0.19641897082328796,
	"learning_rate": 3.830318379160637e-05,
	"loss": 0.0328049373626709,
	"step": 9700
	},
	{
	"epoch": 0.4727562169854555,
	"grad_norm": 0.5207920670509338,
	"learning_rate": 3.818258562469851e-05,
	"loss": 0.028371200561523438,
	"step": 9800
	},
	{
	"epoch": 0.47758026001591936,
	"grad_norm": 1.656972050666809,
	"learning_rate": 3.8061987457790646e-05,
	"loss": 0.029215424060821532,
	"step": 9900
	},
	{
	"epoch": 0.48240430304638315,
	"grad_norm": 0.6870591044425964,
	"learning_rate": 3.794138929088278e-05,
	"loss": 0.02802006721496582,
	"step": 10000
	},
	{
	"epoch": 0.48240430304638315,
	"eval_accuracy": 0.989747898374386,
	"eval_f1": 0.8614309687905686,
	"eval_loss": 0.04934614896774292,
	"eval_precision": 0.8403657255822574,
	"eval_recall": 0.8835794396570389,
	"eval_runtime": 51.7386,
	"eval_samples_per_second": 289.919,
	"eval_steps_per_second": 8.06,
	"step": 10000
	},
	{
	"epoch": 0.487228346076847,
	"grad_norm": 0.1405647099018097,
	"learning_rate": 3.782079112397492e-05,
	"loss": 0.035042920112609864,
	"step": 10100
	},
	{
	"epoch": 0.49205238910731086,
	"grad_norm": 0.4331558346748352,
	"learning_rate": 3.7700192957067054e-05,
	"loss": 0.032286217212677,
	"step": 10200
	},
	{
	"epoch": 0.49687643213777466,
	"grad_norm": 0.3009164035320282,
	"learning_rate": 3.757959479015919e-05,
	"loss": 0.028717076778411864,
	"step": 10300
	},
	{
	"epoch": 0.5017004751682385,
	"grad_norm": 0.3064032196998596,
	"learning_rate": 3.745899662325133e-05,
	"loss": 0.029738368988037108,
	"step": 10400
	},
	{
	"epoch": 0.5065245181987024,
	"grad_norm": 0.34859976172447205,
	"learning_rate": 3.733839845634346e-05,
	"loss": 0.030203399658203126,
	"step": 10500
	},
	{
	"epoch": 0.5113485612291662,
	"grad_norm": 0.4682078957557678,
	"learning_rate": 3.72178002894356e-05,
	"loss": 0.033402538299560545,
	"step": 10600
	},
	{
	"epoch": 0.51617260425963,
	"grad_norm": 0.43761882185935974,
	"learning_rate": 3.709720212252774e-05,
	"loss": 0.029749608039855956,
	"step": 10700
	},
	{
	"epoch": 0.5209966472900939,
	"grad_norm": 1.6429039239883423,
	"learning_rate": 3.697660395561988e-05,
	"loss": 0.03141383647918701,
	"step": 10800
	},
	{
	"epoch": 0.5258206903205577,
	"grad_norm": 0.8676751852035522,
	"learning_rate": 3.685600578871201e-05,
	"loss": 0.028559036254882812,
	"step": 10900
	},
	{
	"epoch": 0.5306447333510215,
	"grad_norm": 0.31465840339660645,
	"learning_rate": 3.673540762180415e-05,
	"loss": 0.033083460330963134,
	"step": 11000
	},
	{
	"epoch": 0.5354687763814853,
	"grad_norm": 0.36446070671081543,
	"learning_rate": 3.6614809454896285e-05,
	"loss": 0.031009881496429442,
	"step": 11100
	},
	{
	"epoch": 0.5402928194119492,
	"grad_norm": 1.3212252855300903,
	"learning_rate": 3.649421128798842e-05,
	"loss": 0.029797291755676268,
	"step": 11200
	},
	{
	"epoch": 0.545116862442413,
	"grad_norm": 0.5250455141067505,
	"learning_rate": 3.6373613121080564e-05,
	"loss": 0.02991886615753174,
	"step": 11300
	},
	{
	"epoch": 0.5499409054728768,
	"grad_norm": 1.0622237920761108,
	"learning_rate": 3.62530149541727e-05,
	"loss": 0.03123067855834961,
	"step": 11400
	},
	{
	"epoch": 0.5547649485033407,
	"grad_norm": 0.3193683624267578,
	"learning_rate": 3.6132416787264836e-05,
	"loss": 0.026964287757873535,
	"step": 11500
	},
	{
	"epoch": 0.5595889915338045,
	"grad_norm": 0.20829251408576965,
	"learning_rate": 3.601181862035697e-05,
	"loss": 0.023649635314941405,
	"step": 11600
	},
	{
	"epoch": 0.5644130345642683,
	"grad_norm": 0.6939885020256042,
	"learning_rate": 3.589122045344911e-05,
	"loss": 0.03190106630325317,
	"step": 11700
	},
	{
	"epoch": 0.5692370775947322,
	"grad_norm": 0.28773602843284607,
	"learning_rate": 3.5770622286541244e-05,
	"loss": 0.030272600650787355,
	"step": 11800
	},
	{
	"epoch": 0.574061120625196,
	"grad_norm": 0.19230112433433533,
	"learning_rate": 3.565002411963339e-05,
	"loss": 0.02647350788116455,
	"step": 11900
	},
	{
	"epoch": 0.5788851636556598,
	"grad_norm": 0.27152901887893677,
	"learning_rate": 3.552942595272552e-05,
	"loss": 0.025423860549926756,
	"step": 12000
	},
	{
	"epoch": 0.5837092066861237,
	"grad_norm": 1.2988700866699219,
	"learning_rate": 3.540882778581766e-05,
	"loss": 0.03884052515029907,
	"step": 12100
	},
	{
	"epoch": 0.5885332497165875,
	"grad_norm": 0.35957372188568115,
	"learning_rate": 3.5288229618909795e-05,
	"loss": 0.030858025550842286,
	"step": 12200
	},
	{
	"epoch": 0.5933572927470513,
	"grad_norm": 1.2661397457122803,
	"learning_rate": 3.516763145200193e-05,
	"loss": 0.0320624303817749,
	"step": 12300
	},
	{
	"epoch": 0.5981813357775151,
	"grad_norm": 0.9611783623695374,
	"learning_rate": 3.504703328509407e-05,
	"loss": 0.02826552391052246,
	"step": 12400
	},
	{
	"epoch": 0.603005378807979,
	"grad_norm": 0.500732421875,
	"learning_rate": 3.492643511818621e-05,
	"loss": 0.02862701892852783,
	"step": 12500
	},
	{
	"epoch": 0.603005378807979,
	"eval_accuracy": 0.9889094144247274,
	"eval_f1": 0.8610719994918431,
	"eval_loss": 0.051548413932323456,
	"eval_precision": 0.8424585171835187,
	"eval_recall": 0.8805265664920106,
	"eval_runtime": 52.2114,
	"eval_samples_per_second": 287.293,
	"eval_steps_per_second": 7.987,
	"step": 12500
	},
	{
	"epoch": 0.6078294218384428,
	"grad_norm": 0.2507345378398895,
	"learning_rate": 3.480583695127834e-05,
	"loss": 0.030443539619445802,
	"step": 12600
	},
	{
	"epoch": 0.6126534648689066,
	"grad_norm": 1.4359475374221802,
	"learning_rate": 3.4685238784370475e-05,
	"loss": 0.027371883392333984,
	"step": 12700
	},
	{
	"epoch": 0.6174775078993705,
	"grad_norm": 0.9925899505615234,
	"learning_rate": 3.456464061746262e-05,
	"loss": 0.03037006616592407,
	"step": 12800
	},
	{
	"epoch": 0.6223015509298343,
	"grad_norm": 0.3496329188346863,
	"learning_rate": 3.4444042450554754e-05,
	"loss": 0.027849619388580323,
	"step": 12900
	},
	{
	"epoch": 0.6271255939602981,
	"grad_norm": 0.5233566761016846,
	"learning_rate": 3.432344428364689e-05,
	"loss": 0.02637479543685913,
	"step": 13000
	},
	{
	"epoch": 0.631949636990762,
	"grad_norm": 0.2668863832950592,
	"learning_rate": 3.4202846116739026e-05,
	"loss": 0.02920179605484009,
	"step": 13100
	},
	{
	"epoch": 0.6367736800212258,
	"grad_norm": 0.20490218698978424,
	"learning_rate": 3.408224794983116e-05,
	"loss": 0.02677285432815552,
	"step": 13200
	},
	{
	"epoch": 0.6415977230516896,
	"grad_norm": 0.3680262565612793,
	"learning_rate": 3.39616497829233e-05,
	"loss": 0.029742326736450195,
	"step": 13300
	},
	{
	"epoch": 0.6464217660821534,
	"grad_norm": 0.4216366112232208,
	"learning_rate": 3.384105161601544e-05,
	"loss": 0.027399771213531494,
	"step": 13400
	},
	{
	"epoch": 0.6512458091126173,
	"grad_norm": 0.13440310955047607,
	"learning_rate": 3.372045344910758e-05,
	"loss": 0.030674426555633544,
	"step": 13500
	},
	{
	"epoch": 0.6560698521430811,
	"grad_norm": 0.14363612234592438,
	"learning_rate": 3.359985528219971e-05,
	"loss": 0.030937159061431886,
	"step": 13600
	},
	{
	"epoch": 0.6608938951735449,
	"grad_norm": 0.7481242418289185,
	"learning_rate": 3.347925711529185e-05,
	"loss": 0.03099170923233032,
	"step": 13700
	},
	{
	"epoch": 0.6657179382040088,
	"grad_norm": 0.2472449243068695,
	"learning_rate": 3.3358658948383985e-05,
	"loss": 0.028668901920318603,
	"step": 13800
	},
	{
	"epoch": 0.6705419812344726,
	"grad_norm": 0.23963682353496552,
	"learning_rate": 3.323806078147612e-05,
	"loss": 0.026947088241577148,
	"step": 13900
	},
	{
	"epoch": 0.6753660242649364,
	"grad_norm": 0.5909916758537292,
	"learning_rate": 3.3117462614568264e-05,
	"loss": 0.032423651218414305,
	"step": 14000
	},
	{
	"epoch": 0.6801900672954003,
	"grad_norm": 0.9357315301895142,
	"learning_rate": 3.29968644476604e-05,
	"loss": 0.029326210021972655,
	"step": 14100
	},
	{
	"epoch": 0.6850141103258641,
	"grad_norm": 0.6866487264633179,
	"learning_rate": 3.2876266280752536e-05,
	"loss": 0.02546304702758789,
	"step": 14200
	},
	{
	"epoch": 0.6898381533563279,
	"grad_norm": 0.15798236429691315,
	"learning_rate": 3.275566811384467e-05,
	"loss": 0.022423455715179442,
	"step": 14300
	},
	{
	"epoch": 0.6946621963867917,
	"grad_norm": 0.4801422357559204,
	"learning_rate": 3.263506994693681e-05,
	"loss": 0.02844859838485718,
	"step": 14400
	},
	{
	"epoch": 0.6994862394172556,
	"grad_norm": 2.1221346855163574,
	"learning_rate": 3.2514471780028944e-05,
	"loss": 0.028370687961578368,
	"step": 14500
	},
	{
	"epoch": 0.7043102824477194,
	"grad_norm": 0.604657769203186,
	"learning_rate": 3.239387361312109e-05,
	"loss": 0.031170213222503663,
	"step": 14600
	},
	{
	"epoch": 0.7091343254781832,
	"grad_norm": 0.7991030812263489,
	"learning_rate": 3.2273275446213216e-05,
	"loss": 0.02627355098724365,
	"step": 14700
	},
	{
	"epoch": 0.7139583685086471,
	"grad_norm": 3.5704472064971924,
	"learning_rate": 3.215267727930535e-05,
	"loss": 0.025982840061187742,
	"step": 14800
	},
	{
	"epoch": 0.7187824115391109,
	"grad_norm": 0.49702438712120056,
	"learning_rate": 3.2032079112397495e-05,
	"loss": 0.029045536518096923,
	"step": 14900
	},
	{
	"epoch": 0.7236064545695747,
	"grad_norm": 0.6950443387031555,
	"learning_rate": 3.191148094548963e-05,
	"loss": 0.027498562335968018,
	"step": 15000
	},
	{
	"epoch": 0.7236064545695747,
	"eval_accuracy": 0.9904670236665706,
	"eval_f1": 0.8604773530897457,
	"eval_loss": 0.04225612059235573,
	"eval_precision": 0.837114541955035,
	"eval_recall": 0.8851816567791105,
	"eval_runtime": 51.3305,
	"eval_samples_per_second": 292.224,
	"eval_steps_per_second": 8.124,
	"step": 15000
	},
	{
	"epoch": 0.7284304976000386,
	"grad_norm": 0.28991585969924927,
	"learning_rate": 3.179088277858177e-05,
	"loss": 0.026163406372070312,
	"step": 15100
	},
	{
	"epoch": 0.7332545406305024,
	"grad_norm": 0.08772952854633331,
	"learning_rate": 3.16702846116739e-05,
	"loss": 0.02845370292663574,
	"step": 15200
	},
	{
	"epoch": 0.7380785836609662,
	"grad_norm": 1.0799998044967651,
	"learning_rate": 3.154968644476604e-05,
	"loss": 0.02897960424423218,
	"step": 15300
	},
	{
	"epoch": 0.74290262669143,
	"grad_norm": 0.2629171311855316,
	"learning_rate": 3.1429088277858175e-05,
	"loss": 0.025154874324798585,
	"step": 15400
	},
	{
	"epoch": 0.7477266697218939,
	"grad_norm": 0.9425322413444519,
	"learning_rate": 3.130849011095032e-05,
	"loss": 0.02195771932601929,
	"step": 15500
	},
	{
	"epoch": 0.7525507127523577,
	"grad_norm": 0.2703983187675476,
	"learning_rate": 3.1187891944042454e-05,
	"loss": 0.02711749792098999,
	"step": 15600
	},
	{
	"epoch": 0.7573747557828215,
	"grad_norm": 0.2081318199634552,
	"learning_rate": 3.106729377713459e-05,
	"loss": 0.0264898681640625,
	"step": 15700
	},
	{
	"epoch": 0.7621987988132854,
	"grad_norm": 0.41779956221580505,
	"learning_rate": 3.0946695610226726e-05,
	"loss": 0.027609102725982666,
	"step": 15800
	},
	{
	"epoch": 0.7670228418437492,
	"grad_norm": 0.19405648112297058,
	"learning_rate": 3.082609744331886e-05,
	"loss": 0.029054667949676514,
	"step": 15900
	},
	{
	"epoch": 0.771846884874213,
	"grad_norm": 0.3789653182029724,
	"learning_rate": 3.0705499276411e-05,
	"loss": 0.02560849666595459,
	"step": 16000
	},
	{
	"epoch": 0.776670927904677,
	"grad_norm": 0.18012675642967224,
	"learning_rate": 3.058490110950314e-05,
	"loss": 0.025810339450836182,
	"step": 16100
	},
	{
	"epoch": 0.7814949709351408,
	"grad_norm": 0.21590501070022583,
	"learning_rate": 3.0464302942595273e-05,
	"loss": 0.026955347061157226,
	"step": 16200
	},
	{
	"epoch": 0.7863190139656046,
	"grad_norm": 1.0594650506973267,
	"learning_rate": 3.034370477568741e-05,
	"loss": 0.02850575923919678,
	"step": 16300
	},
	{
	"epoch": 0.7911430569960684,
	"grad_norm": 0.512518048286438,
	"learning_rate": 3.022310660877955e-05,
	"loss": 0.02473912000656128,
	"step": 16400
	},
	{
	"epoch": 0.7959671000265323,
	"grad_norm": 0.4950084388256073,
	"learning_rate": 3.0102508441871685e-05,
	"loss": 0.029167954921722413,
	"step": 16500
	},
	{
	"epoch": 0.8007911430569961,
	"grad_norm": 0.2222454696893692,
	"learning_rate": 2.998191027496382e-05,
	"loss": 0.02336118459701538,
	"step": 16600
	},
	{
	"epoch": 0.8056151860874599,
	"grad_norm": 0.30645573139190674,
	"learning_rate": 2.986131210805596e-05,
	"loss": 0.026411423683166502,
	"step": 16700
	},
	{
	"epoch": 0.8104392291179238,
	"grad_norm": 0.13581427931785583,
	"learning_rate": 2.9740713941148096e-05,
	"loss": 0.027823078632354736,
	"step": 16800
	},
	{
	"epoch": 0.8152632721483876,
	"grad_norm": 0.37023600935935974,
	"learning_rate": 2.9620115774240232e-05,
	"loss": 0.025036261081695557,
	"step": 16900
	},
	{
	"epoch": 0.8200873151788514,
	"grad_norm": 0.18537591397762299,
	"learning_rate": 2.9499517607332372e-05,
	"loss": 0.025412650108337403,
	"step": 17000
	},
	{
	"epoch": 0.8249113582093153,
	"grad_norm": 0.3948329985141754,
	"learning_rate": 2.9378919440424508e-05,
	"loss": 0.03059415817260742,
	"step": 17100
	},
	{
	"epoch": 0.8297354012397791,
	"grad_norm": 1.1231082677841187,
	"learning_rate": 2.9258321273516644e-05,
	"loss": 0.027097015380859374,
	"step": 17200
	},
	{
	"epoch": 0.8345594442702429,
	"grad_norm": 0.1559356451034546,
	"learning_rate": 2.9137723106608783e-05,
	"loss": 0.025851171016693115,
	"step": 17300
	},
	{
	"epoch": 0.8393834873007068,
	"grad_norm": 0.4749973714351654,
	"learning_rate": 2.901712493970092e-05,
	"loss": 0.02509115219116211,
	"step": 17400
	},
	{
	"epoch": 0.8442075303311706,
	"grad_norm": 0.24519965052604675,
	"learning_rate": 2.8896526772793052e-05,
	"loss": 0.020944011211395264,
	"step": 17500
	},
	{
	"epoch": 0.8442075303311706,
	"eval_accuracy": 0.9910574454953576,
	"eval_f1": 0.8787765520040154,
	"eval_loss": 0.042865537106990814,
	"eval_precision": 0.8670628648500558,
	"eval_recall": 0.890811068289092,
	"eval_runtime": 51.479,
	"eval_samples_per_second": 291.381,
	"eval_steps_per_second": 8.1,
	"step": 17500
	},
	{
	"epoch": 0.8490315733616344,
	"grad_norm": 0.36921805143356323,
	"learning_rate": 2.8775928605885195e-05,
	"loss": 0.029057729244232177,
	"step": 17600
	},
	{
	"epoch": 0.8538556163920982,
	"grad_norm": 0.19858281314373016,
	"learning_rate": 2.865533043897733e-05,
	"loss": 0.029160046577453615,
	"step": 17700
	},
	{
	"epoch": 0.8586796594225621,
	"grad_norm": 0.2647104561328888,
	"learning_rate": 2.8534732272069463e-05,
	"loss": 0.024375016689300536,
	"step": 17800
	},
	{
	"epoch": 0.8635037024530259,
	"grad_norm": 0.24766811728477478,
	"learning_rate": 2.8414134105161606e-05,
	"loss": 0.028258707523345947,
	"step": 17900
	},
	{
	"epoch": 0.8683277454834897,
	"grad_norm": 0.14881408214569092,
	"learning_rate": 2.829353593825374e-05,
	"loss": 0.02677877902984619,
	"step": 18000
	},
	{
	"epoch": 0.8731517885139536,
	"grad_norm": 0.36174142360687256,
	"learning_rate": 2.8172937771345875e-05,
	"loss": 0.02804037570953369,
	"step": 18100
	},
	{
	"epoch": 0.8779758315444174,
	"grad_norm": 0.8773052096366882,
	"learning_rate": 2.8052339604438018e-05,
	"loss": 0.022985424995422363,
	"step": 18200
	},
	{
	"epoch": 0.8827998745748812,
	"grad_norm": 0.14455021917819977,
	"learning_rate": 2.793174143753015e-05,
	"loss": 0.02391258955001831,
	"step": 18300
	},
	{
	"epoch": 0.8876239176053451,
	"grad_norm": 0.19167733192443848,
	"learning_rate": 2.7811143270622286e-05,
	"loss": 0.02640686750411987,
	"step": 18400
	},
	{
	"epoch": 0.8924479606358089,
	"grad_norm": 0.3121378719806671,
	"learning_rate": 2.7690545103714426e-05,
	"loss": 0.02407193899154663,
	"step": 18500
	},
	{
	"epoch": 0.8972720036662727,
	"grad_norm": 0.4771701991558075,
	"learning_rate": 2.7569946936806562e-05,
	"loss": 0.02530348062515259,
	"step": 18600
	},
	{
	"epoch": 0.9020960466967365,
	"grad_norm": 0.31514617800712585,
	"learning_rate": 2.7449348769898698e-05,
	"loss": 0.025359327793121337,
	"step": 18700
	},
	{
	"epoch": 0.9069200897272004,
	"grad_norm": 0.2182740867137909,
	"learning_rate": 2.7328750602990837e-05,
	"loss": 0.025950465202331543,
	"step": 18800
	},
	{
	"epoch": 0.9117441327576642,
	"grad_norm": 0.3909512758255005,
	"learning_rate": 2.7208152436082973e-05,
	"loss": 0.024720582962036133,
	"step": 18900
	},
	{
	"epoch": 0.916568175788128,
	"grad_norm": 0.1596415936946869,
	"learning_rate": 2.708755426917511e-05,
	"loss": 0.025378565788269043,
	"step": 19000
	},
	{
	"epoch": 0.9213922188185919,
	"grad_norm": 0.1132221445441246,
	"learning_rate": 2.696695610226725e-05,
	"loss": 0.02627143621444702,
	"step": 19100
	},
	{
	"epoch": 0.9262162618490557,
	"grad_norm": 0.38963910937309265,
	"learning_rate": 2.6846357935359385e-05,
	"loss": 0.026437394618988037,
	"step": 19200
	},
	{
	"epoch": 0.9310403048795195,
	"grad_norm": 1.0219396352767944,
	"learning_rate": 2.672575976845152e-05,
	"loss": 0.02680544376373291,
	"step": 19300
	},
	{
	"epoch": 0.9358643479099834,
	"grad_norm": 0.1513880342245102,
	"learning_rate": 2.660516160154366e-05,
	"loss": 0.02793146848678589,
	"step": 19400
	},
	{
	"epoch": 0.9406883909404472,
	"grad_norm": 8.48257064819336,
	"learning_rate": 2.6484563434635796e-05,
	"loss": 0.026851544380187987,
	"step": 19500
	},
	{
	"epoch": 0.945512433970911,
	"grad_norm": 0.12812338769435883,
	"learning_rate": 2.636396526772793e-05,
	"loss": 0.026399703025817872,
	"step": 19600
	},
	{
	"epoch": 0.9503364770013748,
	"grad_norm": 1.4106616973876953,
	"learning_rate": 2.6243367100820072e-05,
	"loss": 0.026023907661437987,
	"step": 19700
	},
	{
	"epoch": 0.9551605200318387,
	"grad_norm": 0.12191484868526459,
	"learning_rate": 2.6122768933912208e-05,
	"loss": 0.025158686637878416,
	"step": 19800
	},
	{
	"epoch": 0.9599845630623025,
	"grad_norm": 0.3431759774684906,
	"learning_rate": 2.600217076700434e-05,
	"loss": 0.023687126636505126,
	"step": 19900
	},
	{
	"epoch": 0.9648086060927663,
	"grad_norm": 0.2409236878156662,
	"learning_rate": 2.5881572600096483e-05,
	"loss": 0.02651404857635498,
	"step": 20000
	},
	{
	"epoch": 0.9648086060927663,
	"eval_accuracy": 0.991921840043258,
	"eval_f1": 0.8712219366623479,
	"eval_loss": 0.037873830646276474,
	"eval_precision": 0.8549691512422878,
	"eval_recall": 0.8881046204477547,
	"eval_runtime": 51.9311,
	"eval_samples_per_second": 288.844,
	"eval_steps_per_second": 8.03,
	"step": 20000
	},
	{
	"epoch": 0.9696326491232302,
	"grad_norm": 0.2915472686290741,
	"learning_rate": 2.5760974433188616e-05,
	"loss": 0.02347031593322754,
	"step": 20100
	},
	{
	"epoch": 0.974456692153694,
	"grad_norm": 0.4358366131782532,
	"learning_rate": 2.5640376266280752e-05,
	"loss": 0.025518434047698976,
	"step": 20200
	},
	{
	"epoch": 0.9792807351841578,
	"grad_norm": 0.33405473828315735,
	"learning_rate": 2.551977809937289e-05,
	"loss": 0.027425525188446046,
	"step": 20300
	},
	{
	"epoch": 0.9841047782146217,
	"grad_norm": 0.33355358242988586,
	"learning_rate": 2.5399179932465027e-05,
	"loss": 0.025573320388793945,
	"step": 20400
	},
	{
	"epoch": 0.9889288212450855,
	"grad_norm": 0.7017316818237305,
	"learning_rate": 2.5278581765557163e-05,
	"loss": 0.027230489253997802,
	"step": 20500
	},
	{
	"epoch": 0.9937528642755493,
	"grad_norm": 0.26649072766304016,
	"learning_rate": 2.5157983598649303e-05,
	"loss": 0.024173839092254637,
	"step": 20600
	},
	{
	"epoch": 0.9985769073060131,
	"grad_norm": 1.540326714515686,
	"learning_rate": 2.503738543174144e-05,
	"loss": 0.02483781099319458,
	"step": 20700
	},
	{
	"epoch": 1.0033768301213246,
	"grad_norm": 0.19430163502693176,
	"learning_rate": 2.4916787264833578e-05,
	"loss": 0.02256415843963623,
	"step": 20800
	},
	{
	"epoch": 1.0082008731517884,
	"grad_norm": 0.12203595787286758,
	"learning_rate": 2.479618909792571e-05,
	"loss": 0.019598615169525147,
	"step": 20900
	},
	{
	"epoch": 1.0130249161822524,
	"grad_norm": 0.26934438943862915,
	"learning_rate": 2.467559093101785e-05,
	"loss": 0.021361682415008545,
	"step": 21000
	},
	{
	"epoch": 1.0178489592127162,
	"grad_norm": 0.13813284039497375,
	"learning_rate": 2.455499276410999e-05,
	"loss": 0.021079394817352295,
	"step": 21100
	},
	{
	"epoch": 1.02267300224318,
	"grad_norm": 0.1430957019329071,
	"learning_rate": 2.4434394597202122e-05,
	"loss": 0.020538933277130127,
	"step": 21200
	},
	{
	"epoch": 1.0274970452736438,
	"grad_norm": 0.7105738520622253,
	"learning_rate": 2.4313796430294262e-05,
	"loss": 0.021446900367736818,
	"step": 21300
	},
	{
	"epoch": 1.0323210883041076,
	"grad_norm": 0.3810221552848816,
	"learning_rate": 2.4193198263386398e-05,
	"loss": 0.020385611057281493,
	"step": 21400
	},
	{
	"epoch": 1.0371451313345714,
	"grad_norm": 0.14890126883983612,
	"learning_rate": 2.4072600096478534e-05,
	"loss": 0.021193060874938965,
	"step": 21500
	},
	{
	"epoch": 1.0419691743650352,
	"grad_norm": 0.465364009141922,
	"learning_rate": 2.3952001929570673e-05,
	"loss": 0.02409552574157715,
	"step": 21600
	},
	{
	"epoch": 1.0467932173954992,
	"grad_norm": 0.18177862465381622,
	"learning_rate": 2.383140376266281e-05,
	"loss": 0.024446609020233153,
	"step": 21700
	},
	{
	"epoch": 1.051617260425963,
	"grad_norm": 0.38837435841560364,
	"learning_rate": 2.3710805595754945e-05,
	"loss": 0.02129380464553833,
	"step": 21800
	},
	{
	"epoch": 1.0564413034564268,
	"grad_norm": 0.13987022638320923,
	"learning_rate": 2.3590207428847085e-05,
	"loss": 0.022437899112701415,
	"step": 21900
	},
	{
	"epoch": 1.0612653464868906,
	"grad_norm": 0.21862603724002838,
	"learning_rate": 2.3469609261939217e-05,
	"loss": 0.02214601993560791,
	"step": 22000
	},
	{
	"epoch": 1.0660893895173544,
	"grad_norm": 0.18493451178073883,
	"learning_rate": 2.3349011095031357e-05,
	"loss": 0.022123863697052003,
	"step": 22100
	},
	{
	"epoch": 1.0709134325478182,
	"grad_norm": 0.44324392080307007,
	"learning_rate": 2.3228412928123493e-05,
	"loss": 0.01999701380729675,
	"step": 22200
	},
	{
	"epoch": 1.0757374755782823,
	"grad_norm": 0.13552401959896088,
	"learning_rate": 2.310781476121563e-05,
	"loss": 0.018710813522338866,
	"step": 22300
	},
	{
	"epoch": 1.080561518608746,
	"grad_norm": 0.5217646360397339,
	"learning_rate": 2.298721659430777e-05,
	"loss": 0.022998554706573485,
	"step": 22400
	},
	{
	"epoch": 1.0853855616392099,
	"grad_norm": 0.13017535209655762,
	"learning_rate": 2.2866618427399904e-05,
	"loss": 0.022265849113464357,
	"step": 22500
	},
	{
	"epoch": 1.0853855616392099,
	"eval_accuracy": 0.9918296662757423,
	"eval_f1": 0.881381541146177,
	"eval_loss": 0.03710692375898361,
	"eval_precision": 0.8665369486986358,
	"eval_recall": 0.8967436019573031,
	"eval_runtime": 51.6329,
	"eval_samples_per_second": 290.512,
	"eval_steps_per_second": 8.076,
	"step": 22500
	},
	{
	"epoch": 1.0902096046696736,
	"grad_norm": 0.26805901527404785,
	"learning_rate": 2.274602026049204e-05,
	"loss": 0.02201695680618286,
	"step": 22600
	},
	{
	"epoch": 1.0950336477001374,
	"grad_norm": 0.20556294918060303,
	"learning_rate": 2.262542209358418e-05,
	"loss": 0.018640589714050294,
	"step": 22700
	},
	{
	"epoch": 1.0998576907306012,
	"grad_norm": 0.16025076806545258,
	"learning_rate": 2.2504823926676316e-05,
	"loss": 0.02018498182296753,
	"step": 22800
	},
	{
	"epoch": 1.104681733761065,
	"grad_norm": 0.22326083481311798,
	"learning_rate": 2.2384225759768452e-05,
	"loss": 0.020831646919250487,
	"step": 22900
	},
	{
	"epoch": 1.109505776791529,
	"grad_norm": 0.18669798970222473,
	"learning_rate": 2.2263627592860588e-05,
	"loss": 0.020945420265197755,
	"step": 23000
	},
	{
	"epoch": 1.1143298198219929,
	"grad_norm": 0.22091829776763916,
	"learning_rate": 2.2143029425952727e-05,
	"loss": 0.019859465360641478,
	"step": 23100
	},
	{
	"epoch": 1.1191538628524567,
	"grad_norm": 0.28057217597961426,
	"learning_rate": 2.2022431259044863e-05,
	"loss": 0.022815022468566894,
	"step": 23200
	},
	{
	"epoch": 1.1239779058829205,
	"grad_norm": 0.2595389187335968,
	"learning_rate": 2.1901833092137e-05,
	"loss": 0.021522111892700195,
	"step": 23300
	},
	{
	"epoch": 1.1288019489133843,
	"grad_norm": 0.5332016348838806,
	"learning_rate": 2.178123492522914e-05,
	"loss": 0.019616042375564576,
	"step": 23400
	},
	{
	"epoch": 1.133625991943848,
	"grad_norm": 0.10604680329561234,
	"learning_rate": 2.1660636758321275e-05,
	"loss": 0.022921762466430663,
	"step": 23500
	},
	{
	"epoch": 1.138450034974312,
	"grad_norm": 0.3797323703765869,
	"learning_rate": 2.154003859141341e-05,
	"loss": 0.021188838481903075,
	"step": 23600
	},
	{
	"epoch": 1.1432740780047759,
	"grad_norm": 0.3557288348674774,
	"learning_rate": 2.141944042450555e-05,
	"loss": 0.020320808887481688,
	"step": 23700
	},
	{
	"epoch": 1.1480981210352397,
	"grad_norm": 0.5364207029342651,
	"learning_rate": 2.1298842257597683e-05,
	"loss": 0.02103010892868042,
	"step": 23800
	},
	{
	"epoch": 1.1529221640657035,
	"grad_norm": 0.20504723489284515,
	"learning_rate": 2.1178244090689822e-05,
	"loss": 0.024899210929870606,
	"step": 23900
	},
	{
	"epoch": 1.1577462070961673,
	"grad_norm": 0.3030504882335663,
	"learning_rate": 2.1057645923781962e-05,
	"loss": 0.018901402950286864,
	"step": 24000
	},
	{
	"epoch": 1.162570250126631,
	"grad_norm": 0.2158869206905365,
	"learning_rate": 2.0937047756874094e-05,
	"loss": 0.018166555166244505,
	"step": 24100
	},
	{
	"epoch": 1.1673942931570949,
	"grad_norm": 0.2794812321662903,
	"learning_rate": 2.0816449589966234e-05,
	"loss": 0.0199416983127594,
	"step": 24200
	},
	{
	"epoch": 1.1722183361875589,
	"grad_norm": 0.10596510767936707,
	"learning_rate": 2.069585142305837e-05,
	"loss": 0.019620640277862547,
	"step": 24300
	},
	{
	"epoch": 1.1770423792180227,
	"grad_norm": 1.3163063526153564,
	"learning_rate": 2.0575253256150506e-05,
	"loss": 0.021227221488952636,
	"step": 24400
	},
	{
	"epoch": 1.1818664222484865,
	"grad_norm": 0.29747480154037476,
	"learning_rate": 2.0454655089242645e-05,
	"loss": 0.02037898302078247,
	"step": 24500
	},
	{
	"epoch": 1.1866904652789503,
	"grad_norm": 0.722373902797699,
	"learning_rate": 2.033405692233478e-05,
	"loss": 0.020667204856872557,
	"step": 24600
	},
	{
	"epoch": 1.191514508309414,
	"grad_norm": 0.12926365435123444,
	"learning_rate": 2.0213458755426917e-05,
	"loss": 0.018228678703308104,
	"step": 24700
	},
	{
	"epoch": 1.1963385513398779,
	"grad_norm": 0.33814650774002075,
	"learning_rate": 2.0092860588519057e-05,
	"loss": 0.022069990634918213,
	"step": 24800
	},
	{
	"epoch": 1.201162594370342,
	"grad_norm": 0.1276799589395523,
	"learning_rate": 1.9972262421611193e-05,
	"loss": 0.022927966117858887,
	"step": 24900
	},
	{
	"epoch": 1.2059866374008057,
	"grad_norm": 0.18511514365673065,
	"learning_rate": 1.985166425470333e-05,
	"loss": 0.02195762872695923,
	"step": 25000
	},
	{
	"epoch": 1.2059866374008057,
	"eval_accuracy": 0.9925814983886582,
	"eval_f1": 0.8818330116962181,
	"eval_loss": 0.034407418221235275,
	"eval_precision": 0.8686902636277702,
	"eval_recall": 0.8953795522452691,
	"eval_runtime": 51.6069,
	"eval_samples_per_second": 290.659,
	"eval_steps_per_second": 8.08,
	"step": 25000
	},
	{
	"epoch": 1.2108106804312695,
	"grad_norm": 0.28672105073928833,
	"learning_rate": 1.9731066087795465e-05,
	"loss": 0.022950747013092042,
	"step": 25100
	},
	{
	"epoch": 1.2156347234617333,
	"grad_norm": 0.15472128987312317,
	"learning_rate": 1.9610467920887604e-05,
	"loss": 0.01865388870239258,
	"step": 25200
	},
	{
	"epoch": 1.220458766492197,
	"grad_norm": 0.26068541407585144,
	"learning_rate": 1.948986975397974e-05,
	"loss": 0.021750383377075196,
	"step": 25300
	},
	{
	"epoch": 1.2252828095226609,
	"grad_norm": 1.417925238609314,
	"learning_rate": 1.9369271587071876e-05,
	"loss": 0.021318423748016357,
	"step": 25400
	},
	{
	"epoch": 1.2301068525531247,
	"grad_norm": 0.7924548387527466,
	"learning_rate": 1.9248673420164016e-05,
	"loss": 0.01893375873565674,
	"step": 25500
	},
	{
	"epoch": 1.2349308955835885,
	"grad_norm": 0.17900590598583221,
	"learning_rate": 1.9128075253256152e-05,
	"loss": 0.01870368480682373,
	"step": 25600
	},
	{
	"epoch": 1.2397549386140525,
	"grad_norm": 0.1943436861038208,
	"learning_rate": 1.9007477086348288e-05,
	"loss": 0.021407904624938964,
	"step": 25700
	},
	{
	"epoch": 1.2445789816445163,
	"grad_norm": 0.1924910992383957,
	"learning_rate": 1.8886878919440427e-05,
	"loss": 0.02078892707824707,
	"step": 25800
	},
	{
	"epoch": 1.24940302467498,
	"grad_norm": 0.1958584040403366,
	"learning_rate": 1.876628075253256e-05,
	"loss": 0.018969409465789795,
	"step": 25900
	},
	{
	"epoch": 1.254227067705444,
	"grad_norm": 0.0961497351527214,
	"learning_rate": 1.86456825856247e-05,
	"loss": 0.024467270374298095,
	"step": 26000
	},
	{
	"epoch": 1.2590511107359077,
	"grad_norm": 0.43624669313430786,
	"learning_rate": 1.8525084418716835e-05,
	"loss": 0.022932977676391603,
	"step": 26100
	},
	{
	"epoch": 1.2638751537663717,
	"grad_norm": 0.17412593960762024,
	"learning_rate": 1.840448625180897e-05,
	"loss": 0.017692303657531737,
	"step": 26200
	},
	{
	"epoch": 1.2686991967968355,
	"grad_norm": 0.4037439227104187,
	"learning_rate": 1.828388808490111e-05,
	"loss": 0.02168938159942627,
	"step": 26300
	},
	{
	"epoch": 1.2735232398272993,
	"grad_norm": 0.20430967211723328,
	"learning_rate": 1.8163289917993247e-05,
	"loss": 0.018443295955657957,
	"step": 26400
	},
	{
	"epoch": 1.2783472828577631,
	"grad_norm": 0.2996050715446472,
	"learning_rate": 1.8042691751085383e-05,
	"loss": 0.019166781902313232,
	"step": 26500
	},
	{
	"epoch": 1.283171325888227,
	"grad_norm": 0.3298969864845276,
	"learning_rate": 1.7922093584177522e-05,
	"loss": 0.01918817639350891,
	"step": 26600
	},
	{
	"epoch": 1.2879953689186907,
	"grad_norm": 0.28155457973480225,
	"learning_rate": 1.780149541726966e-05,
	"loss": 0.021806249618530272,
	"step": 26700
	},
	{
	"epoch": 1.2928194119491545,
	"grad_norm": 0.2508911192417145,
	"learning_rate": 1.7680897250361794e-05,
	"loss": 0.020128331184387206,
	"step": 26800
	},
	{
	"epoch": 1.2976434549796183,
	"grad_norm": 0.2319284975528717,
	"learning_rate": 1.7560299083453934e-05,
	"loss": 0.018995124101638793,
	"step": 26900
	},
	{
	"epoch": 1.3024674980100823,
	"grad_norm": 0.12885890901088715,
	"learning_rate": 1.743970091654607e-05,
	"loss": 0.019624507427215575,
	"step": 27000
	},
	{
	"epoch": 1.3072915410405461,
	"grad_norm": 0.1364358514547348,
	"learning_rate": 1.7319102749638206e-05,
	"loss": 0.01931032657623291,
	"step": 27100
	},
	{
	"epoch": 1.31211558407101,
	"grad_norm": 1.741729974746704,
	"learning_rate": 1.7198504582730342e-05,
	"loss": 0.020110676288604735,
	"step": 27200
	},
	{
	"epoch": 1.3169396271014737,
	"grad_norm": 0.5716229677200317,
	"learning_rate": 1.707790641582248e-05,
	"loss": 0.01891273021697998,
	"step": 27300
	},
	{
	"epoch": 1.3217636701319375,
	"grad_norm": 0.9453685879707336,
	"learning_rate": 1.6957308248914617e-05,
	"loss": 0.020238091945648195,
	"step": 27400
	},
	{
	"epoch": 1.3265877131624015,
	"grad_norm": 0.14117585122585297,
	"learning_rate": 1.6836710082006753e-05,
	"loss": 0.022481341361999512,
	"step": 27500
	},
	{
	"epoch": 1.3265877131624015,
	"eval_accuracy": 0.992788783174592,
	"eval_f1": 0.889221237047324,
	"eval_loss": 0.03323497995734215,
	"eval_precision": 0.877614709851552,
	"eval_recall": 0.9011388732516347,
	"eval_runtime": 52.1434,
	"eval_samples_per_second": 287.668,
	"eval_steps_per_second": 7.997,
	"step": 27500
	},
	{
	"epoch": 1.3314117561928653,
	"grad_norm": 0.25555455684661865,
	"learning_rate": 1.6716111915098893e-05,
	"loss": 0.018107813596725465,
	"step": 27600
	},
	{
	"epoch": 1.3362357992233291,
	"grad_norm": 0.20916156470775604,
	"learning_rate": 1.659551374819103e-05,
	"loss": 0.019892256259918212,
	"step": 27700
	},
	{
	"epoch": 1.341059842253793,
	"grad_norm": 0.15623128414154053,
	"learning_rate": 1.6474915581283165e-05,
	"loss": 0.017413014173507692,
	"step": 27800
	},
	{
	"epoch": 1.3458838852842567,
	"grad_norm": 0.15014760196208954,
	"learning_rate": 1.6354317414375304e-05,
	"loss": 0.020558416843414307,
	"step": 27900
	},
	{
	"epoch": 1.3507079283147205,
	"grad_norm": 0.4308200180530548,
	"learning_rate": 1.6233719247467437e-05,
	"loss": 0.017611211538314818,
	"step": 28000
	},
	{
	"epoch": 1.3555319713451843,
	"grad_norm": 0.15497736632823944,
	"learning_rate": 1.6113121080559576e-05,
	"loss": 0.017815752029418944,
	"step": 28100
	},
	{
	"epoch": 1.3603560143756481,
	"grad_norm": 0.4078068733215332,
	"learning_rate": 1.5992522913651712e-05,
	"loss": 0.01794821858406067,
	"step": 28200
	},
	{
	"epoch": 1.365180057406112,
	"grad_norm": 0.44584575295448303,
	"learning_rate": 1.587192474674385e-05,
	"loss": 0.019282504320144653,
	"step": 28300
	},
	{
	"epoch": 1.370004100436576,
	"grad_norm": 0.550137460231781,
	"learning_rate": 1.5751326579835988e-05,
	"loss": 0.020532405376434325,
	"step": 28400
	},
	{
	"epoch": 1.3748281434670397,
	"grad_norm": 0.15548627078533173,
	"learning_rate": 1.5630728412928124e-05,
	"loss": 0.02003218173980713,
	"step": 28500
	},
	{
	"epoch": 1.3796521864975035,
	"grad_norm": 0.15787184238433838,
	"learning_rate": 1.551013024602026e-05,
	"loss": 0.017421540021896362,
	"step": 28600
	},
	{
	"epoch": 1.3844762295279673,
	"grad_norm": 0.1659448891878128,
	"learning_rate": 1.53895320791124e-05,
	"loss": 0.019184736013412477,
	"step": 28700
	},
	{
	"epoch": 1.3893002725584314,
	"grad_norm": 0.45317932963371277,
	"learning_rate": 1.5268933912204535e-05,
	"loss": 0.018715277910232545,
	"step": 28800
	},
	{
	"epoch": 1.3941243155888952,
	"grad_norm": 0.16978032886981964,
	"learning_rate": 1.5148335745296671e-05,
	"loss": 0.019075859785079956,
	"step": 28900
	},
	{
	"epoch": 1.398948358619359,
	"grad_norm": 0.31665724515914917,
	"learning_rate": 1.502773757838881e-05,
	"loss": 0.018271996974945068,
	"step": 29000
	},
	{
	"epoch": 1.4037724016498228,
	"grad_norm": 0.3004429042339325,
	"learning_rate": 1.4907139411480947e-05,
	"loss": 0.019862807989120483,
	"step": 29100
	},
	{
	"epoch": 1.4085964446802866,
	"grad_norm": 0.20420145988464355,
	"learning_rate": 1.4786541244573083e-05,
	"loss": 0.018257253170013428,
	"step": 29200
	},
	{
	"epoch": 1.4134204877107504,
	"grad_norm": 0.122472383081913,
	"learning_rate": 1.466594307766522e-05,
	"loss": 0.025323121547698973,
	"step": 29300
	},
	{
	"epoch": 1.4182445307412141,
	"grad_norm": 0.9836609363555908,
	"learning_rate": 1.4545344910757358e-05,
	"loss": 0.019051806926727297,
	"step": 29400
	},
	{
	"epoch": 1.423068573771678,
	"grad_norm": 0.16322240233421326,
	"learning_rate": 1.4424746743849493e-05,
	"loss": 0.019138084650039675,
	"step": 29500
	},
	{
	"epoch": 1.4278926168021417,
	"grad_norm": 0.2133868932723999,
	"learning_rate": 1.430414857694163e-05,
	"loss": 0.017339247465133666,
	"step": 29600
	},
	{
	"epoch": 1.4327166598326058,
	"grad_norm": 0.2609802186489105,
	"learning_rate": 1.418355041003377e-05,
	"loss": 0.01856675386428833,
	"step": 29700
	},
	{
	"epoch": 1.4375407028630696,
	"grad_norm": 0.2504105269908905,
	"learning_rate": 1.4062952243125904e-05,
	"loss": 0.022142369747161866,
	"step": 29800
	},
	{
	"epoch": 1.4423647458935334,
	"grad_norm": 0.24993453919887543,
	"learning_rate": 1.3942354076218042e-05,
	"loss": 0.01751198887825012,
	"step": 29900
	},
	{
	"epoch": 1.4471887889239972,
	"grad_norm": 0.126504585146904,
	"learning_rate": 1.382175590931018e-05,
	"loss": 0.018583767414093018,
	"step": 30000
	},
	{
	"epoch": 1.4471887889239972,
	"eval_accuracy": 0.9919800326983255,
	"eval_f1": 0.8861820618929587,
	"eval_loss": 0.03896835818886757,
	"eval_precision": 0.8710864791383457,
	"eval_recall": 0.9018100723162863,
	"eval_runtime": 51.5929,
	"eval_samples_per_second": 290.738,
	"eval_steps_per_second": 8.083,
	"step": 30000
	},
	{
	"epoch": 1.452012831954461,
	"grad_norm": 0.7999847531318665,
	"learning_rate": 1.3701157742402316e-05,
	"loss": 0.02096844673156738,
	"step": 30100
	},
	{
	"epoch": 1.456836874984925,
	"grad_norm": 0.11665287613868713,
	"learning_rate": 1.3580559575494453e-05,
	"loss": 0.01827834129333496,
	"step": 30200
	},
	{
	"epoch": 1.4616609180153888,
	"grad_norm": 0.22630015015602112,
	"learning_rate": 1.3459961408586591e-05,
	"loss": 0.017943538427352905,
	"step": 30300
	},
	{
	"epoch": 1.4664849610458526,
	"grad_norm": 0.21670867502689362,
	"learning_rate": 1.3339363241678725e-05,
	"loss": 0.020002198219299317,
	"step": 30400
	},
	{
	"epoch": 1.4713090040763164,
	"grad_norm": 0.25701120495796204,
	"learning_rate": 1.3218765074770865e-05,
	"loss": 0.01862887978553772,
	"step": 30500
	},
	{
	"epoch": 1.4761330471067802,
	"grad_norm": 0.14079546928405762,
	"learning_rate": 1.3098166907863003e-05,
	"loss": 0.02005054712295532,
	"step": 30600
	},
	{
	"epoch": 1.480957090137244,
	"grad_norm": 0.31404340267181396,
	"learning_rate": 1.2977568740955137e-05,
	"loss": 0.018181434869766235,
	"step": 30700
	},
	{
	"epoch": 1.4857811331677078,
	"grad_norm": 0.1643984615802765,
	"learning_rate": 1.2856970574047275e-05,
	"loss": 0.01885037899017334,
	"step": 30800
	},
	{
	"epoch": 1.4906051761981716,
	"grad_norm": 0.1323440670967102,
	"learning_rate": 1.2736372407139412e-05,
	"loss": 0.018592065572738646,
	"step": 30900
	},
	{
	"epoch": 1.4954292192286356,
	"grad_norm": 0.2534601092338562,
	"learning_rate": 1.2615774240231548e-05,
	"loss": 0.018988220691680907,
	"step": 31000
	},
	{
	"epoch": 1.5002532622590994,
	"grad_norm": 0.2373075932264328,
	"learning_rate": 1.2495176073323686e-05,
	"loss": 0.019056109189987184,
	"step": 31100
	},
	{
	"epoch": 1.5050773052895632,
	"grad_norm": 0.151611328125,
	"learning_rate": 1.2374577906415822e-05,
	"loss": 0.018509570360183716,
	"step": 31200
	},
	{
	"epoch": 1.509901348320027,
	"grad_norm": 0.8050407767295837,
	"learning_rate": 1.225397973950796e-05,
	"loss": 0.01847294807434082,
	"step": 31300
	},
	{
	"epoch": 1.514725391350491,
	"grad_norm": 0.4117303788661957,
	"learning_rate": 1.2133381572600098e-05,
	"loss": 0.016792016029357912,
	"step": 31400
	},
	{
	"epoch": 1.5195494343809548,
	"grad_norm": 0.3043079674243927,
	"learning_rate": 1.2012783405692234e-05,
	"loss": 0.02204496622085571,
	"step": 31500
	},
	{
	"epoch": 1.5243734774114186,
	"grad_norm": 0.14158490300178528,
	"learning_rate": 1.1892185238784371e-05,
	"loss": 0.020702006816864012,
	"step": 31600
	},
	{
	"epoch": 1.5291975204418824,
	"grad_norm": 0.4225039482116699,
	"learning_rate": 1.1771587071876507e-05,
	"loss": 0.019063092470169067,
	"step": 31700
	},
	{
	"epoch": 1.5340215634723462,
	"grad_norm": 0.3363790810108185,
	"learning_rate": 1.1650988904968645e-05,
	"loss": 0.017193055152893065,
	"step": 31800
	},
	{
	"epoch": 1.53884560650281,
	"grad_norm": 0.12055296450853348,
	"learning_rate": 1.1530390738060783e-05,
	"loss": 0.019255086183547973,
	"step": 31900
	},
	{
	"epoch": 1.5436696495332738,
	"grad_norm": 0.20997734367847443,
	"learning_rate": 1.1409792571152919e-05,
	"loss": 0.020008976459503173,
	"step": 32000
	},
	{
	"epoch": 1.5484936925637376,
	"grad_norm": 0.25966885685920715,
	"learning_rate": 1.1289194404245055e-05,
	"loss": 0.018391019105911253,
	"step": 32100
	},
	{
	"epoch": 1.5533177355942014,
	"grad_norm": 1.1394667625427246,
	"learning_rate": 1.1168596237337194e-05,
	"loss": 0.02040395259857178,
	"step": 32200
	},
	{
	"epoch": 1.5581417786246652,
	"grad_norm": 0.11998942494392395,
	"learning_rate": 1.104799807042933e-05,
	"loss": 0.017555311918258668,
	"step": 32300
	},
	{
	"epoch": 1.5629658216551292,
	"grad_norm": 0.11283577978610992,
	"learning_rate": 1.0927399903521466e-05,
	"loss": 0.018316521644592285,
	"step": 32400
	},
	{
	"epoch": 1.567789864685593,
	"grad_norm": 0.8829536437988281,
	"learning_rate": 1.0806801736613604e-05,
	"loss": 0.019955469369888304,
	"step": 32500
	},
	{
	"epoch": 1.567789864685593,
	"eval_accuracy": 0.9931243466600177,
	"eval_f1": 0.8941826120457173,
	"eval_loss": 0.031499363481998444,
	"eval_precision": 0.8840407973253206,
	"eval_recall": 0.9045598233230849,
	"eval_runtime": 52.2852,
	"eval_samples_per_second": 286.888,
	"eval_steps_per_second": 7.975,
	"step": 32500
	},
	{
	"epoch": 1.5726139077160568,
	"grad_norm": 0.6669954061508179,
	"learning_rate": 1.0686203569705742e-05,
	"loss": 0.018743941783905028,
	"step": 32600
	},
	{
	"epoch": 1.5774379507465208,
	"grad_norm": 0.2682594358921051,
	"learning_rate": 1.0565605402797878e-05,
	"loss": 0.018420085906982422,
	"step": 32700
	},
	{
	"epoch": 1.5822619937769846,
	"grad_norm": 0.16349567472934723,
	"learning_rate": 1.0445007235890016e-05,
	"loss": 0.02064610242843628,
	"step": 32800
	},
	{
	"epoch": 1.5870860368074484,
	"grad_norm": 0.6123493313789368,
	"learning_rate": 1.0324409068982152e-05,
	"loss": 0.0181715726852417,
	"step": 32900
	},
	{
	"epoch": 1.5919100798379122,
	"grad_norm": 0.2621537744998932,
	"learning_rate": 1.020381090207429e-05,
	"loss": 0.01923044562339783,
	"step": 33000
	},
	{
	"epoch": 1.596734122868376,
	"grad_norm": 0.09542077034711838,
	"learning_rate": 1.0083212735166427e-05,
	"loss": 0.017349140644073488,
	"step": 33100
	},
	{
	"epoch": 1.6015581658988398,
	"grad_norm": 0.18252168595790863,
	"learning_rate": 9.962614568258563e-06,
	"loss": 0.019681899547576903,
	"step": 33200
	},
	{
	"epoch": 1.6063822089293036,
	"grad_norm": 0.19957713782787323,
	"learning_rate": 9.8420164013507e-06,
	"loss": 0.019357409477233887,
	"step": 33300
	},
	{
	"epoch": 1.6112062519597674,
	"grad_norm": 0.5182835459709167,
	"learning_rate": 9.721418234442837e-06,
	"loss": 0.01951758861541748,
	"step": 33400
	},
	{
	"epoch": 1.6160302949902312,
	"grad_norm": 0.4481932520866394,
	"learning_rate": 9.600820067534975e-06,
	"loss": 0.017961139678955077,
	"step": 33500
	},
	{
	"epoch": 1.620854338020695,
	"grad_norm": 0.15489070117473602,
	"learning_rate": 9.48022190062711e-06,
	"loss": 0.0193113911151886,
	"step": 33600
	},
	{
	"epoch": 1.625678381051159,
	"grad_norm": 0.2616223394870758,
	"learning_rate": 9.359623733719248e-06,
	"loss": 0.022246689796447755,
	"step": 33700
	},
	{
	"epoch": 1.6305024240816228,
	"grad_norm": 0.12462881952524185,
	"learning_rate": 9.239025566811384e-06,
	"loss": 0.01692581295967102,
	"step": 33800
	},
	{
	"epoch": 1.6353264671120866,
	"grad_norm": 0.48885273933410645,
	"learning_rate": 9.118427399903522e-06,
	"loss": 0.017899035215377807,
	"step": 33900
	},
	{
	"epoch": 1.6401505101425504,
	"grad_norm": 1.0648194551467896,
	"learning_rate": 8.99782923299566e-06,
	"loss": 0.01802402377128601,
	"step": 34000
	},
	{
	"epoch": 1.6449745531730144,
	"grad_norm": 0.2746858298778534,
	"learning_rate": 8.877231066087796e-06,
	"loss": 0.020917999744415283,
	"step": 34100
	},
	{
	"epoch": 1.6497985962034782,
	"grad_norm": 0.12474814057350159,
	"learning_rate": 8.756632899179932e-06,
	"loss": 0.015847266912460328,
	"step": 34200
	},
	{
	"epoch": 1.654622639233942,
	"grad_norm": 0.11499933153390884,
	"learning_rate": 8.63603473227207e-06,
	"loss": 0.017190442085266114,
	"step": 34300
	},
	{
	"epoch": 1.6594466822644058,
	"grad_norm": 0.1851770579814911,
	"learning_rate": 8.515436565364207e-06,
	"loss": 0.018469662666320802,
	"step": 34400
	},
	{
	"epoch": 1.6642707252948696,
	"grad_norm": 0.2300252914428711,
	"learning_rate": 8.394838398456343e-06,
	"loss": 0.01794400453567505,
	"step": 34500
	},
	{
	"epoch": 1.6690947683253334,
	"grad_norm": 0.11766080558300018,
	"learning_rate": 8.274240231548481e-06,
	"loss": 0.018363571166992186,
	"step": 34600
	},
	{
	"epoch": 1.6739188113557972,
	"grad_norm": 0.20575584471225739,
	"learning_rate": 8.153642064640619e-06,
	"loss": 0.016927268505096436,
	"step": 34700
	},
	{
	"epoch": 1.678742854386261,
	"grad_norm": 0.35185614228248596,
	"learning_rate": 8.033043897732755e-06,
	"loss": 0.01612231135368347,
	"step": 34800
	},
	{
	"epoch": 1.6835668974167248,
	"grad_norm": 0.1776873916387558,
	"learning_rate": 7.912445730824891e-06,
	"loss": 0.01680509090423584,
	"step": 34900
	},
	{
	"epoch": 1.6883909404471886,
	"grad_norm": 0.25137367844581604,
	"learning_rate": 7.791847563917029e-06,
	"loss": 0.016988718509674074,
	"step": 35000
	},
	{
	"epoch": 1.6883909404471886,
	"eval_accuracy": 0.993225440469551,
	"eval_f1": 0.89652071512686,
	"eval_loss": 0.031313586980104446,
	"eval_precision": 0.886667796035914,
	"eval_recall": 0.9065950720997705,
	"eval_runtime": 51.6493,
	"eval_samples_per_second": 290.42,
	"eval_steps_per_second": 8.074,
	"step": 35000
	},
	{
	"epoch": 1.6932149834776526,
	"grad_norm": 0.14376111328601837,
	"learning_rate": 7.671249397009166e-06,
	"loss": 0.019529181718826293,
	"step": 35100
	},
	{
	"epoch": 1.6980390265081164,
	"grad_norm": 0.8683088421821594,
	"learning_rate": 7.5506512301013025e-06,
	"loss": 0.019479182958602907,
	"step": 35200
	},
	{
	"epoch": 1.7028630695385802,
	"grad_norm": 0.11346932500600815,
	"learning_rate": 7.43005306319344e-06,
	"loss": 0.01975212812423706,
	"step": 35300
	},
	{
	"epoch": 1.7076871125690443,
	"grad_norm": 0.8985689282417297,
	"learning_rate": 7.309454896285576e-06,
	"loss": 0.016446800231933595,
	"step": 35400
	},
	{
	"epoch": 1.712511155599508,
	"grad_norm": 0.6181161403656006,
	"learning_rate": 7.188856729377713e-06,
	"loss": 0.016956570148468016,
	"step": 35500
	},
	{
	"epoch": 1.7173351986299719,
	"grad_norm": 0.27897560596466064,
	"learning_rate": 7.068258562469851e-06,
	"loss": 0.020130460262298585,
	"step": 35600
	},
	{
	"epoch": 1.7221592416604357,
	"grad_norm": 0.15588901937007904,
	"learning_rate": 6.947660395561988e-06,
	"loss": 0.016974217891693115,
	"step": 35700
	},
	{
	"epoch": 1.7269832846908995,
	"grad_norm": 0.5564957857131958,
	"learning_rate": 6.827062228654124e-06,
	"loss": 0.017226357460021973,
	"step": 35800
	},
	{
	"epoch": 1.7318073277213633,
	"grad_norm": 0.12989383935928345,
	"learning_rate": 6.706464061746262e-06,
	"loss": 0.015787020921707154,
	"step": 35900
	},
	{
	"epoch": 1.736631370751827,
	"grad_norm": 0.24173200130462646,
	"learning_rate": 6.585865894838398e-06,
	"loss": 0.01873793125152588,
	"step": 36000
	},
	{
	"epoch": 1.7414554137822909,
	"grad_norm": 0.21657347679138184,
	"learning_rate": 6.465267727930535e-06,
	"loss": 0.01680638313293457,
	"step": 36100
	},
	{
	"epoch": 1.7462794568127546,
	"grad_norm": 0.12039454281330109,
	"learning_rate": 6.344669561022673e-06,
	"loss": 0.017534868717193605,
	"step": 36200
	},
	{
	"epoch": 1.7511034998432184,
	"grad_norm": 0.08835107833147049,
	"learning_rate": 6.22407139411481e-06,
	"loss": 0.015722684860229492,
	"step": 36300
	},
	{
	"epoch": 1.7559275428736825,
	"grad_norm": 0.15494988858699799,
	"learning_rate": 6.103473227206947e-06,
	"loss": 0.01669602155685425,
	"step": 36400
	},
	{
	"epoch": 1.7607515859041463,
	"grad_norm": 0.2613168954849243,
	"learning_rate": 5.9828750602990845e-06,
	"loss": 0.018969074487686158,
	"step": 36500
	},
	{
	"epoch": 1.76557562893461,
	"grad_norm": 0.26860108971595764,
	"learning_rate": 5.8622768933912205e-06,
	"loss": 0.018860089778900146,
	"step": 36600
	},
	{
	"epoch": 1.770399671965074,
	"grad_norm": 0.3160684406757355,
	"learning_rate": 5.741678726483358e-06,
	"loss": 0.017936546802520752,
	"step": 36700
	},
	{
	"epoch": 1.7752237149955379,
	"grad_norm": 0.16905085742473602,
	"learning_rate": 5.621080559575495e-06,
	"loss": 0.018141812086105345,
	"step": 36800
	},
	{
	"epoch": 1.7800477580260017,
	"grad_norm": 0.23327182233333588,
	"learning_rate": 5.500482392667632e-06,
	"loss": 0.01744183659553528,
	"step": 36900
	},
	{
	"epoch": 1.7848718010564655,
	"grad_norm": 0.15902255475521088,
	"learning_rate": 5.379884225759769e-06,
	"loss": 0.017776939868927002,
	"step": 37000
	},
	{
	"epoch": 1.7896958440869293,
	"grad_norm": 0.240287646651268,
	"learning_rate": 5.259286058851906e-06,
	"loss": 0.01649364709854126,
	"step": 37100
	},
	{
	"epoch": 1.794519887117393,
	"grad_norm": 0.13150164484977722,
	"learning_rate": 5.138687891944043e-06,
	"loss": 0.01930005669593811,
	"step": 37200
	},
	{
	"epoch": 1.7993439301478569,
	"grad_norm": 0.25998786091804504,
	"learning_rate": 5.0180897250361795e-06,
	"loss": 0.016344897747039795,
	"step": 37300
	},
	{
	"epoch": 1.8041679731783207,
	"grad_norm": 0.12845446169376373,
	"learning_rate": 4.897491558128316e-06,
	"loss": 0.019464727640151978,
	"step": 37400
	},
	{
	"epoch": 1.8089920162087845,
	"grad_norm": 0.21504537761211395,
	"learning_rate": 4.776893391220453e-06,
	"loss": 0.017011468410491944,
	"step": 37500
	},
	{
	"epoch": 1.8089920162087845,
	"eval_accuracy": 0.9933099684867659,
	"eval_f1": 0.8917599033971296,
	"eval_loss": 0.030537979677319527,
	"eval_precision": 0.8804042791129492,
	"eval_recall": 0.9034122894383579,
	"eval_runtime": 51.6005,
	"eval_samples_per_second": 290.695,
	"eval_steps_per_second": 8.081,
	"step": 37500
	},
	{
	"epoch": 1.8138160592392483,
	"grad_norm": 0.11677803844213486,
	"learning_rate": 4.656295224312591e-06,
	"loss": 0.016575688123703004,
	"step": 37600
	},
	{
	"epoch": 1.8186401022697123,
	"grad_norm": 0.280719131231308,
	"learning_rate": 4.535697057404727e-06,
	"loss": 0.01687091827392578,
	"step": 37700
	},
	{
	"epoch": 1.823464145300176,
	"grad_norm": 0.2764016389846802,
	"learning_rate": 4.415098890496865e-06,
	"loss": 0.016562118530273437,
	"step": 37800
	},
	{
	"epoch": 1.8282881883306399,
	"grad_norm": 0.632255494594574,
	"learning_rate": 4.294500723589002e-06,
	"loss": 0.01787501573562622,
	"step": 37900
	},
	{
	"epoch": 1.833112231361104,
	"grad_norm": 0.09340863674879074,
	"learning_rate": 4.1739025566811385e-06,
	"loss": 0.01698790192604065,
	"step": 38000
	},
	{
	"epoch": 1.8379362743915677,
	"grad_norm": 0.1588761806488037,
	"learning_rate": 4.053304389773275e-06,
	"loss": 0.01741109848022461,
	"step": 38100
	},
	{
	"epoch": 1.8427603174220315,
	"grad_norm": 0.10772903263568878,
	"learning_rate": 3.932706222865413e-06,
	"loss": 0.016634883880615233,
	"step": 38200
	},
	{
	"epoch": 1.8475843604524953,
	"grad_norm": 0.22126013040542603,
	"learning_rate": 3.8121080559575496e-06,
	"loss": 0.01804221987724304,
	"step": 38300
	},
	{
	"epoch": 1.852408403482959,
	"grad_norm": 0.3740140497684479,
	"learning_rate": 3.6915098890496864e-06,
	"loss": 0.01612048625946045,
	"step": 38400
	},
	{
	"epoch": 1.857232446513423,
	"grad_norm": 0.13352862000465393,
	"learning_rate": 3.5709117221418237e-06,
	"loss": 0.01714093804359436,
	"step": 38500
	},
	{
	"epoch": 1.8620564895438867,
	"grad_norm": 0.27527081966400146,
	"learning_rate": 3.45031355523396e-06,
	"loss": 0.01763258218765259,
	"step": 38600
	},
	{
	"epoch": 1.8668805325743505,
	"grad_norm": 0.28769898414611816,
	"learning_rate": 3.3297153883260975e-06,
	"loss": 0.02112499475479126,
	"step": 38700
	},
	{
	"epoch": 1.8717045756048143,
	"grad_norm": 0.15282955765724182,
	"learning_rate": 3.209117221418235e-06,
	"loss": 0.01631925821304321,
	"step": 38800
	},
	{
	"epoch": 1.876528618635278,
	"grad_norm": 0.12284864485263824,
	"learning_rate": 3.0885190545103717e-06,
	"loss": 0.01694957971572876,
	"step": 38900
	},
	{
	"epoch": 1.881352661665742,
	"grad_norm": 0.1236443966627121,
	"learning_rate": 2.9679208876025086e-06,
	"loss": 0.017817366123199462,
	"step": 39000
	},
	{
	"epoch": 1.886176704696206,
	"grad_norm": 0.11388445645570755,
	"learning_rate": 2.8473227206946454e-06,
	"loss": 0.01580065131187439,
	"step": 39100
	},
	{
	"epoch": 1.8910007477266697,
	"grad_norm": 0.2738426625728607,
	"learning_rate": 2.7267245537867828e-06,
	"loss": 0.01646868109703064,
	"step": 39200
	},
	{
	"epoch": 1.8958247907571335,
	"grad_norm": 0.6833071112632751,
	"learning_rate": 2.6061263868789196e-06,
	"loss": 0.017300838232040407,
	"step": 39300
	},
	{
	"epoch": 1.9006488337875975,
	"grad_norm": 0.12390507757663727,
	"learning_rate": 2.4855282199710565e-06,
	"loss": 0.017689213752746583,
	"step": 39400
	},
	{
	"epoch": 1.9054728768180613,
	"grad_norm": 0.5947756171226501,
	"learning_rate": 2.364930053063194e-06,
	"loss": 0.016457540988922117,
	"step": 39500
	},
	{
	"epoch": 1.9102969198485251,
	"grad_norm": 0.11591579020023346,
	"learning_rate": 2.2443318861553307e-06,
	"loss": 0.01735694646835327,
	"step": 39600
	},
	{
	"epoch": 1.915120962878989,
	"grad_norm": 0.14687402546405792,
	"learning_rate": 2.1237337192474676e-06,
	"loss": 0.01619683623313904,
	"step": 39700
	},
	{
	"epoch": 1.9199450059094527,
	"grad_norm": 0.14690209925174713,
	"learning_rate": 2.003135552339605e-06,
	"loss": 0.016990303993225098,
	"step": 39800
	},
	{
	"epoch": 1.9247690489399165,
	"grad_norm": 0.5243352055549622,
	"learning_rate": 1.8825373854317415e-06,
	"loss": 0.015626425743103026,
	"step": 39900
	},
	{
	"epoch": 1.9295930919703803,
	"grad_norm": 0.9058519601821899,
	"learning_rate": 1.7619392185238784e-06,
	"loss": 0.017552192211151122,
	"step": 40000
	},
	{
	"epoch": 1.9295930919703803,
	"eval_accuracy": 0.9934548129785762,
	"eval_f1": 0.8960502077710661,
	"eval_loss": 0.030458878725767136,
	"eval_precision": 0.8865553342092993,
	"eval_recall": 0.9057506603732732,
	"eval_runtime": 52.2526,
	"eval_samples_per_second": 287.067,
	"eval_steps_per_second": 7.98,
	"step": 40000
	},
	{
	"epoch": 1.9344171350008441,
	"grad_norm": 0.2622898817062378,
	"learning_rate": 1.6413410516160157e-06,
	"loss": 0.016480473279953004,
	"step": 40100
	},
	{
	"epoch": 1.939241178031308,
	"grad_norm": 0.1672438383102417,
	"learning_rate": 1.5207428847081526e-06,
	"loss": 0.018291155099868773,
	"step": 40200
	},
	{
	"epoch": 1.9440652210617717,
	"grad_norm": 0.39425408840179443,
	"learning_rate": 1.4001447178002895e-06,
	"loss": 0.01858603596687317,
	"step": 40300
	},
	{
	"epoch": 1.9488892640922357,
	"grad_norm": 0.2491266131401062,
	"learning_rate": 1.2795465508924266e-06,
	"loss": 0.016655097007751463,
	"step": 40400
	},
	{
	"epoch": 1.9537133071226995,
	"grad_norm": 0.2883985638618469,
	"learning_rate": 1.1589483839845637e-06,
	"loss": 0.018044712543487548,
	"step": 40500
	},
	{
	"epoch": 1.9585373501531633,
	"grad_norm": 0.1521671712398529,
	"learning_rate": 1.0383502170767006e-06,
	"loss": 0.019449379444122315,
	"step": 40600
	},
	{
	"epoch": 1.9633613931836273,
	"grad_norm": 0.1477108597755432,
	"learning_rate": 9.177520501688375e-07,
	"loss": 0.016478629112243653,
	"step": 40700
	},
	{
	"epoch": 1.9681854362140911,
	"grad_norm": 0.18148507177829742,
	"learning_rate": 7.971538832609744e-07,
	"loss": 0.016618763208389283,
	"step": 40800
	},
	{
	"epoch": 1.973009479244555,
	"grad_norm": 0.17074325680732727,
	"learning_rate": 6.765557163531114e-07,
	"loss": 0.01620419979095459,
	"step": 40900
	},
	{
	"epoch": 1.9778335222750187,
	"grad_norm": 0.23663687705993652,
	"learning_rate": 5.559575494452484e-07,
	"loss": 0.01673411011695862,
	"step": 41000
	},
	{
	"epoch": 1.9826575653054825,
	"grad_norm": 0.1981934756040573,
	"learning_rate": 4.353593825373855e-07,
	"loss": 0.015512742996215821,
	"step": 41100
	},
	{
	"epoch": 1.9874816083359463,
	"grad_norm": 0.19588832557201385,
	"learning_rate": 3.1476121562952246e-07,
	"loss": 0.017852275371551513,
	"step": 41200
	},
	{
	"epoch": 1.9923056513664101,
	"grad_norm": 0.11776227504014969,
	"learning_rate": 1.9416304872165945e-07,
	"loss": 0.017226353883743287,
	"step": 41300
	},
	{
	"epoch": 1.997129694396874,
	"grad_norm": 0.20195287466049194,
	"learning_rate": 7.356488181379644e-08,
	"loss": 0.016260911226272583,
	"step": 41400
	},
	{
	"epoch": 2.0,
	"step": 41460,
	"total_flos": 1.525095272976519e+18,
	"train_loss": 0.03464991324659827,
	"train_runtime": 20225.5982,
	"train_samples_per_second": 295.171,
	"train_steps_per_second": 2.05
	}
	],
	"logging_steps": 100,
	"max_steps": 41460,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 2500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.525095272976519e+18,
	"train_batch_size": 72,
	"trial_name": null,
	"trial_params": null
	}