Qwen_finetuned / trainer_state.json

Upload 14 files

30e4ea9 verified about 1 year ago

78.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9792492422476101,
	"eval_steps": 300,
	"global_step": 4200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0023315458148752623,
	"grad_norm": 58.996910095214844,
	"learning_rate": 4.997668454185125e-05,
	"loss": 2.8188,
	"step": 10
	},
	{
	"epoch": 0.004663091629750525,
	"grad_norm": 46.450401306152344,
	"learning_rate": 4.995336908370249e-05,
	"loss": 2.2969,
	"step": 20
	},
	{
	"epoch": 0.006994637444625787,
	"grad_norm": 20.279075622558594,
	"learning_rate": 4.993005362555374e-05,
	"loss": 2.2492,
	"step": 30
	},
	{
	"epoch": 0.00932618325950105,
	"grad_norm": 54.02119445800781,
	"learning_rate": 4.9906738167404995e-05,
	"loss": 2.0938,
	"step": 40
	},
	{
	"epoch": 0.011657729074376311,
	"grad_norm": 20.223501205444336,
	"learning_rate": 4.988342270925624e-05,
	"loss": 1.9648,
	"step": 50
	},
	{
	"epoch": 0.013989274889251575,
	"grad_norm": 32.29741668701172,
	"learning_rate": 4.9860107251107484e-05,
	"loss": 1.8797,
	"step": 60
	},
	{
	"epoch": 0.016320820704126836,
	"grad_norm": 36.739723205566406,
	"learning_rate": 4.983679179295873e-05,
	"loss": 1.6664,
	"step": 70
	},
	{
	"epoch": 0.0186523665190021,
	"grad_norm": 53.299015045166016,
	"learning_rate": 4.981347633480998e-05,
	"loss": 1.6,
	"step": 80
	},
	{
	"epoch": 0.02098391233387736,
	"grad_norm": 25.623676300048828,
	"learning_rate": 4.979016087666123e-05,
	"loss": 1.6898,
	"step": 90
	},
	{
	"epoch": 0.023315458148752622,
	"grad_norm": 34.87362289428711,
	"learning_rate": 4.9766845418512476e-05,
	"loss": 1.5578,
	"step": 100
	},
	{
	"epoch": 0.025647003963627884,
	"grad_norm": 25.20810317993164,
	"learning_rate": 4.974352996036372e-05,
	"loss": 1.5078,
	"step": 110
	},
	{
	"epoch": 0.02797854977850315,
	"grad_norm": 43.89160919189453,
	"learning_rate": 4.972021450221497e-05,
	"loss": 1.4242,
	"step": 120
	},
	{
	"epoch": 0.03031009559337841,
	"grad_norm": 43.445186614990234,
	"learning_rate": 4.969689904406622e-05,
	"loss": 1.3207,
	"step": 130
	},
	{
	"epoch": 0.03264164140825367,
	"grad_norm": 49.01000213623047,
	"learning_rate": 4.967358358591747e-05,
	"loss": 1.1633,
	"step": 140
	},
	{
	"epoch": 0.034973187223128935,
	"grad_norm": 32.247344970703125,
	"learning_rate": 4.9650268127768713e-05,
	"loss": 0.9754,
	"step": 150
	},
	{
	"epoch": 0.0373047330380042,
	"grad_norm": 37.74547576904297,
	"learning_rate": 4.962695266961996e-05,
	"loss": 0.9918,
	"step": 160
	},
	{
	"epoch": 0.03963627885287946,
	"grad_norm": 29.272994995117188,
	"learning_rate": 4.960363721147121e-05,
	"loss": 1.132,
	"step": 170
	},
	{
	"epoch": 0.04196782466775472,
	"grad_norm": 34.0861930847168,
	"learning_rate": 4.9580321753322454e-05,
	"loss": 1.0285,
	"step": 180
	},
	{
	"epoch": 0.04429937048262998,
	"grad_norm": 41.01604461669922,
	"learning_rate": 4.95570062951737e-05,
	"loss": 0.9484,
	"step": 190
	},
	{
	"epoch": 0.046630916297505244,
	"grad_norm": 27.387298583984375,
	"learning_rate": 4.953369083702495e-05,
	"loss": 0.9852,
	"step": 200
	},
	{
	"epoch": 0.048962462112380506,
	"grad_norm": 27.99677848815918,
	"learning_rate": 4.9510375378876195e-05,
	"loss": 0.6836,
	"step": 210
	},
	{
	"epoch": 0.05129400792725577,
	"grad_norm": 26.071035385131836,
	"learning_rate": 4.948705992072745e-05,
	"loss": 0.8875,
	"step": 220
	},
	{
	"epoch": 0.05362555374213103,
	"grad_norm": 29.15469741821289,
	"learning_rate": 4.946374446257869e-05,
	"loss": 0.893,
	"step": 230
	},
	{
	"epoch": 0.0559570995570063,
	"grad_norm": 39.19640350341797,
	"learning_rate": 4.9440429004429936e-05,
	"loss": 0.8641,
	"step": 240
	},
	{
	"epoch": 0.05828864537188156,
	"grad_norm": 24.756563186645508,
	"learning_rate": 4.941711354628119e-05,
	"loss": 0.9574,
	"step": 250
	},
	{
	"epoch": 0.06062019118675682,
	"grad_norm": 33.53086471557617,
	"learning_rate": 4.939379808813244e-05,
	"loss": 0.8523,
	"step": 260
	},
	{
	"epoch": 0.06295173700163208,
	"grad_norm": 14.436066627502441,
	"learning_rate": 4.9370482629983684e-05,
	"loss": 0.7646,
	"step": 270
	},
	{
	"epoch": 0.06528328281650735,
	"grad_norm": 20.99724769592285,
	"learning_rate": 4.934716717183493e-05,
	"loss": 0.8172,
	"step": 280
	},
	{
	"epoch": 0.0676148286313826,
	"grad_norm": 27.321861267089844,
	"learning_rate": 4.932385171368617e-05,
	"loss": 0.8965,
	"step": 290
	},
	{
	"epoch": 0.06994637444625787,
	"grad_norm": 14.228981971740723,
	"learning_rate": 4.9300536255537425e-05,
	"loss": 0.8838,
	"step": 300
	},
	{
	"epoch": 0.06994637444625787,
	"eval_accuracy": 0.6251025430680885,
	"eval_f1": 0.6198441320333742,
	"eval_loss": 0.9746333956718445,
	"eval_precision": 0.6288553718864676,
	"eval_recall": 0.6346714934867023,
	"eval_runtime": 32.8297,
	"eval_samples_per_second": 37.131,
	"eval_steps_per_second": 2.345,
	"step": 300
	},
	{
	"epoch": 0.07227792026113312,
	"grad_norm": 11.636761665344238,
	"learning_rate": 4.9277220797388676e-05,
	"loss": 0.6803,
	"step": 310
	},
	{
	"epoch": 0.0746094660760084,
	"grad_norm": 28.35625457763672,
	"learning_rate": 4.925390533923992e-05,
	"loss": 0.7066,
	"step": 320
	},
	{
	"epoch": 0.07694101189088366,
	"grad_norm": 34.743988037109375,
	"learning_rate": 4.9230589881091165e-05,
	"loss": 0.6387,
	"step": 330
	},
	{
	"epoch": 0.07927255770575892,
	"grad_norm": 27.67451286315918,
	"learning_rate": 4.920727442294241e-05,
	"loss": 0.8309,
	"step": 340
	},
	{
	"epoch": 0.08160410352063419,
	"grad_norm": 35.13928985595703,
	"learning_rate": 4.918395896479366e-05,
	"loss": 0.8715,
	"step": 350
	},
	{
	"epoch": 0.08393564933550944,
	"grad_norm": 35.64329147338867,
	"learning_rate": 4.916064350664491e-05,
	"loss": 0.6961,
	"step": 360
	},
	{
	"epoch": 0.08626719515038471,
	"grad_norm": 26.17702293395996,
	"learning_rate": 4.913732804849616e-05,
	"loss": 0.7254,
	"step": 370
	},
	{
	"epoch": 0.08859874096525996,
	"grad_norm": 26.370773315429688,
	"learning_rate": 4.91140125903474e-05,
	"loss": 0.7217,
	"step": 380
	},
	{
	"epoch": 0.09093028678013523,
	"grad_norm": 34.7267951965332,
	"learning_rate": 4.909069713219865e-05,
	"loss": 0.7297,
	"step": 390
	},
	{
	"epoch": 0.09326183259501049,
	"grad_norm": 40.13215637207031,
	"learning_rate": 4.906738167404989e-05,
	"loss": 0.865,
	"step": 400
	},
	{
	"epoch": 0.09559337840988576,
	"grad_norm": 31.081972122192383,
	"learning_rate": 4.904406621590114e-05,
	"loss": 0.7848,
	"step": 410
	},
	{
	"epoch": 0.09792492422476101,
	"grad_norm": 29.940229415893555,
	"learning_rate": 4.9020750757752395e-05,
	"loss": 0.7045,
	"step": 420
	},
	{
	"epoch": 0.10025647003963628,
	"grad_norm": 28.462858200073242,
	"learning_rate": 4.899743529960364e-05,
	"loss": 0.5851,
	"step": 430
	},
	{
	"epoch": 0.10258801585451154,
	"grad_norm": 26.055572509765625,
	"learning_rate": 4.8974119841454884e-05,
	"loss": 0.6502,
	"step": 440
	},
	{
	"epoch": 0.1049195616693868,
	"grad_norm": 31.78554344177246,
	"learning_rate": 4.8950804383306136e-05,
	"loss": 0.8398,
	"step": 450
	},
	{
	"epoch": 0.10725110748426206,
	"grad_norm": 27.621715545654297,
	"learning_rate": 4.892748892515738e-05,
	"loss": 0.6201,
	"step": 460
	},
	{
	"epoch": 0.10958265329913733,
	"grad_norm": 46.45154571533203,
	"learning_rate": 4.890417346700863e-05,
	"loss": 0.8129,
	"step": 470
	},
	{
	"epoch": 0.1119141991140126,
	"grad_norm": 30.32659339904785,
	"learning_rate": 4.8880858008859876e-05,
	"loss": 0.8564,
	"step": 480
	},
	{
	"epoch": 0.11424574492888785,
	"grad_norm": 11.306530952453613,
	"learning_rate": 4.885754255071112e-05,
	"loss": 0.7492,
	"step": 490
	},
	{
	"epoch": 0.11657729074376312,
	"grad_norm": 33.427490234375,
	"learning_rate": 4.883422709256237e-05,
	"loss": 0.6204,
	"step": 500
	},
	{
	"epoch": 0.11890883655863838,
	"grad_norm": 28.030242919921875,
	"learning_rate": 4.881091163441362e-05,
	"loss": 0.6666,
	"step": 510
	},
	{
	"epoch": 0.12124038237351364,
	"grad_norm": 26.319486618041992,
	"learning_rate": 4.878759617626487e-05,
	"loss": 0.6586,
	"step": 520
	},
	{
	"epoch": 0.1235719281883889,
	"grad_norm": 25.426727294921875,
	"learning_rate": 4.8764280718116114e-05,
	"loss": 0.7229,
	"step": 530
	},
	{
	"epoch": 0.12590347400326415,
	"grad_norm": 27.011367797851562,
	"learning_rate": 4.874096525996736e-05,
	"loss": 0.8982,
	"step": 540
	},
	{
	"epoch": 0.12823501981813942,
	"grad_norm": 18.395326614379883,
	"learning_rate": 4.871764980181861e-05,
	"loss": 0.7205,
	"step": 550
	},
	{
	"epoch": 0.1305665656330147,
	"grad_norm": 21.085630416870117,
	"learning_rate": 4.8694334343669854e-05,
	"loss": 0.582,
	"step": 560
	},
	{
	"epoch": 0.13289811144788996,
	"grad_norm": 38.923683166503906,
	"learning_rate": 4.86710188855211e-05,
	"loss": 0.5496,
	"step": 570
	},
	{
	"epoch": 0.1352296572627652,
	"grad_norm": 39.22763442993164,
	"learning_rate": 4.864770342737235e-05,
	"loss": 0.734,
	"step": 580
	},
	{
	"epoch": 0.13756120307764047,
	"grad_norm": 22.916170120239258,
	"learning_rate": 4.8624387969223595e-05,
	"loss": 0.6928,
	"step": 590
	},
	{
	"epoch": 0.13989274889251574,
	"grad_norm": 19.733055114746094,
	"learning_rate": 4.860107251107485e-05,
	"loss": 0.4986,
	"step": 600
	},
	{
	"epoch": 0.13989274889251574,
	"eval_accuracy": 0.7456931911402789,
	"eval_f1": 0.7266139292840452,
	"eval_loss": 0.7722646594047546,
	"eval_precision": 0.7451348277162813,
	"eval_recall": 0.7211806530410576,
	"eval_runtime": 32.3956,
	"eval_samples_per_second": 37.629,
	"eval_steps_per_second": 2.377,
	"step": 600
	},
	{
	"epoch": 0.142224294707391,
	"grad_norm": 17.900259017944336,
	"learning_rate": 4.857775705292609e-05,
	"loss": 0.5705,
	"step": 610
	},
	{
	"epoch": 0.14455584052226625,
	"grad_norm": 26.365203857421875,
	"learning_rate": 4.8554441594777336e-05,
	"loss": 0.5932,
	"step": 620
	},
	{
	"epoch": 0.14688738633714152,
	"grad_norm": 20.65036392211914,
	"learning_rate": 4.853112613662859e-05,
	"loss": 0.6246,
	"step": 630
	},
	{
	"epoch": 0.1492189321520168,
	"grad_norm": 20.070476531982422,
	"learning_rate": 4.850781067847984e-05,
	"loss": 0.7621,
	"step": 640
	},
	{
	"epoch": 0.15155047796689206,
	"grad_norm": 27.528751373291016,
	"learning_rate": 4.8484495220331084e-05,
	"loss": 0.7121,
	"step": 650
	},
	{
	"epoch": 0.15388202378176732,
	"grad_norm": 30.218090057373047,
	"learning_rate": 4.846117976218233e-05,
	"loss": 0.7557,
	"step": 660
	},
	{
	"epoch": 0.15621356959664257,
	"grad_norm": 32.3998908996582,
	"learning_rate": 4.843786430403357e-05,
	"loss": 0.5539,
	"step": 670
	},
	{
	"epoch": 0.15854511541151783,
	"grad_norm": 26.95191192626953,
	"learning_rate": 4.8414548845884825e-05,
	"loss": 0.5303,
	"step": 680
	},
	{
	"epoch": 0.1608766612263931,
	"grad_norm": 30.945283889770508,
	"learning_rate": 4.8391233387736076e-05,
	"loss": 0.6001,
	"step": 690
	},
	{
	"epoch": 0.16320820704126837,
	"grad_norm": 29.30241584777832,
	"learning_rate": 4.836791792958732e-05,
	"loss": 0.7291,
	"step": 700
	},
	{
	"epoch": 0.1655397528561436,
	"grad_norm": 13.888816833496094,
	"learning_rate": 4.8344602471438565e-05,
	"loss": 0.8428,
	"step": 710
	},
	{
	"epoch": 0.16787129867101888,
	"grad_norm": 29.725255966186523,
	"learning_rate": 4.832128701328981e-05,
	"loss": 0.6883,
	"step": 720
	},
	{
	"epoch": 0.17020284448589415,
	"grad_norm": 42.3590202331543,
	"learning_rate": 4.829797155514106e-05,
	"loss": 0.6275,
	"step": 730
	},
	{
	"epoch": 0.17253439030076942,
	"grad_norm": 23.562644958496094,
	"learning_rate": 4.827465609699231e-05,
	"loss": 0.5752,
	"step": 740
	},
	{
	"epoch": 0.17486593611564466,
	"grad_norm": 32.83530044555664,
	"learning_rate": 4.825134063884356e-05,
	"loss": 0.6953,
	"step": 750
	},
	{
	"epoch": 0.17719748193051993,
	"grad_norm": 12.841109275817871,
	"learning_rate": 4.82280251806948e-05,
	"loss": 0.4848,
	"step": 760
	},
	{
	"epoch": 0.1795290277453952,
	"grad_norm": 22.86924171447754,
	"learning_rate": 4.820470972254605e-05,
	"loss": 0.6314,
	"step": 770
	},
	{
	"epoch": 0.18186057356027047,
	"grad_norm": 16.436222076416016,
	"learning_rate": 4.81813942643973e-05,
	"loss": 0.6568,
	"step": 780
	},
	{
	"epoch": 0.18419211937514574,
	"grad_norm": 13.749951362609863,
	"learning_rate": 4.815807880624854e-05,
	"loss": 0.7607,
	"step": 790
	},
	{
	"epoch": 0.18652366519002098,
	"grad_norm": 42.645729064941406,
	"learning_rate": 4.8134763348099795e-05,
	"loss": 0.536,
	"step": 800
	},
	{
	"epoch": 0.18885521100489625,
	"grad_norm": 25.09123420715332,
	"learning_rate": 4.811144788995104e-05,
	"loss": 0.6258,
	"step": 810
	},
	{
	"epoch": 0.19118675681977151,
	"grad_norm": 24.370229721069336,
	"learning_rate": 4.8088132431802284e-05,
	"loss": 0.4913,
	"step": 820
	},
	{
	"epoch": 0.19351830263464678,
	"grad_norm": 34.05779266357422,
	"learning_rate": 4.8064816973653536e-05,
	"loss": 0.8139,
	"step": 830
	},
	{
	"epoch": 0.19584984844952202,
	"grad_norm": 24.232662200927734,
	"learning_rate": 4.804150151550478e-05,
	"loss": 0.7322,
	"step": 840
	},
	{
	"epoch": 0.1981813942643973,
	"grad_norm": 20.707740783691406,
	"learning_rate": 4.801818605735603e-05,
	"loss": 0.591,
	"step": 850
	},
	{
	"epoch": 0.20051294007927256,
	"grad_norm": 26.865257263183594,
	"learning_rate": 4.7994870599207277e-05,
	"loss": 0.6098,
	"step": 860
	},
	{
	"epoch": 0.20284448589414783,
	"grad_norm": 10.35026741027832,
	"learning_rate": 4.797155514105852e-05,
	"loss": 0.6383,
	"step": 870
	},
	{
	"epoch": 0.20517603170902307,
	"grad_norm": 23.788137435913086,
	"learning_rate": 4.794823968290977e-05,
	"loss": 0.7854,
	"step": 880
	},
	{
	"epoch": 0.20750757752389834,
	"grad_norm": 21.079648971557617,
	"learning_rate": 4.792492422476102e-05,
	"loss": 0.6371,
	"step": 890
	},
	{
	"epoch": 0.2098391233387736,
	"grad_norm": 34.78284454345703,
	"learning_rate": 4.790160876661227e-05,
	"loss": 0.6078,
	"step": 900
	},
	{
	"epoch": 0.2098391233387736,
	"eval_accuracy": 0.689909762100082,
	"eval_f1": 0.6883721016902948,
	"eval_loss": 0.8121763467788696,
	"eval_precision": 0.7020681280584337,
	"eval_recall": 0.7085581473429932,
	"eval_runtime": 32.2791,
	"eval_samples_per_second": 37.764,
	"eval_steps_per_second": 2.385,
	"step": 900
	},
	{
	"epoch": 0.21217066915364888,
	"grad_norm": 38.722511291503906,
	"learning_rate": 4.7878293308463514e-05,
	"loss": 0.6371,
	"step": 910
	},
	{
	"epoch": 0.21450221496852412,
	"grad_norm": 30.822816848754883,
	"learning_rate": 4.785497785031476e-05,
	"loss": 0.6244,
	"step": 920
	},
	{
	"epoch": 0.2168337607833994,
	"grad_norm": 46.684818267822266,
	"learning_rate": 4.783166239216601e-05,
	"loss": 0.7515,
	"step": 930
	},
	{
	"epoch": 0.21916530659827466,
	"grad_norm": 23.10223960876465,
	"learning_rate": 4.7808346934017254e-05,
	"loss": 0.5434,
	"step": 940
	},
	{
	"epoch": 0.22149685241314993,
	"grad_norm": 20.43950080871582,
	"learning_rate": 4.77850314758685e-05,
	"loss": 0.5672,
	"step": 950
	},
	{
	"epoch": 0.2238283982280252,
	"grad_norm": 33.358795166015625,
	"learning_rate": 4.776171601771975e-05,
	"loss": 0.6576,
	"step": 960
	},
	{
	"epoch": 0.22615994404290043,
	"grad_norm": 25.824260711669922,
	"learning_rate": 4.7738400559571e-05,
	"loss": 0.6646,
	"step": 970
	},
	{
	"epoch": 0.2284914898577757,
	"grad_norm": 21.079469680786133,
	"learning_rate": 4.771508510142225e-05,
	"loss": 0.5052,
	"step": 980
	},
	{
	"epoch": 0.23082303567265097,
	"grad_norm": 15.477420806884766,
	"learning_rate": 4.769176964327349e-05,
	"loss": 0.6392,
	"step": 990
	},
	{
	"epoch": 0.23315458148752624,
	"grad_norm": 21.481847763061523,
	"learning_rate": 4.7668454185124736e-05,
	"loss": 0.6549,
	"step": 1000
	},
	{
	"epoch": 0.23548612730240148,
	"grad_norm": 14.648496627807617,
	"learning_rate": 4.764513872697599e-05,
	"loss": 0.5125,
	"step": 1010
	},
	{
	"epoch": 0.23781767311727675,
	"grad_norm": 17.860349655151367,
	"learning_rate": 4.762182326882724e-05,
	"loss": 0.5947,
	"step": 1020
	},
	{
	"epoch": 0.24014921893215202,
	"grad_norm": 30.999217987060547,
	"learning_rate": 4.7598507810678484e-05,
	"loss": 0.5108,
	"step": 1030
	},
	{
	"epoch": 0.2424807647470273,
	"grad_norm": 33.350311279296875,
	"learning_rate": 4.757519235252973e-05,
	"loss": 0.5957,
	"step": 1040
	},
	{
	"epoch": 0.24481231056190253,
	"grad_norm": 50.07561111450195,
	"learning_rate": 4.755187689438097e-05,
	"loss": 0.6289,
	"step": 1050
	},
	{
	"epoch": 0.2471438563767778,
	"grad_norm": 20.572126388549805,
	"learning_rate": 4.7528561436232225e-05,
	"loss": 0.6101,
	"step": 1060
	},
	{
	"epoch": 0.24947540219165307,
	"grad_norm": 31.299867630004883,
	"learning_rate": 4.7505245978083476e-05,
	"loss": 0.7346,
	"step": 1070
	},
	{
	"epoch": 0.2518069480065283,
	"grad_norm": 22.430063247680664,
	"learning_rate": 4.748193051993472e-05,
	"loss": 0.5229,
	"step": 1080
	},
	{
	"epoch": 0.2541384938214036,
	"grad_norm": 27.95315933227539,
	"learning_rate": 4.7458615061785966e-05,
	"loss": 0.6457,
	"step": 1090
	},
	{
	"epoch": 0.25647003963627885,
	"grad_norm": 20.998676300048828,
	"learning_rate": 4.743529960363721e-05,
	"loss": 0.6852,
	"step": 1100
	},
	{
	"epoch": 0.2588015854511541,
	"grad_norm": 28.259180068969727,
	"learning_rate": 4.741198414548846e-05,
	"loss": 0.6709,
	"step": 1110
	},
	{
	"epoch": 0.2611331312660294,
	"grad_norm": 29.109024047851562,
	"learning_rate": 4.738866868733971e-05,
	"loss": 0.5709,
	"step": 1120
	},
	{
	"epoch": 0.26346467708090465,
	"grad_norm": 25.32686996459961,
	"learning_rate": 4.736535322919096e-05,
	"loss": 0.5139,
	"step": 1130
	},
	{
	"epoch": 0.2657962228957799,
	"grad_norm": 19.918743133544922,
	"learning_rate": 4.73420377710422e-05,
	"loss": 0.6274,
	"step": 1140
	},
	{
	"epoch": 0.2681277687106552,
	"grad_norm": 27.803632736206055,
	"learning_rate": 4.731872231289345e-05,
	"loss": 0.7746,
	"step": 1150
	},
	{
	"epoch": 0.2704593145255304,
	"grad_norm": 51.257896423339844,
	"learning_rate": 4.72954068547447e-05,
	"loss": 0.6581,
	"step": 1160
	},
	{
	"epoch": 0.27279086034040567,
	"grad_norm": 25.976425170898438,
	"learning_rate": 4.7272091396595943e-05,
	"loss": 0.5674,
	"step": 1170
	},
	{
	"epoch": 0.27512240615528094,
	"grad_norm": 20.14984703063965,
	"learning_rate": 4.7248775938447195e-05,
	"loss": 0.5609,
	"step": 1180
	},
	{
	"epoch": 0.2774539519701562,
	"grad_norm": 21.2273006439209,
	"learning_rate": 4.722546048029844e-05,
	"loss": 0.5842,
	"step": 1190
	},
	{
	"epoch": 0.2797854977850315,
	"grad_norm": 31.50432014465332,
	"learning_rate": 4.7202145022149684e-05,
	"loss": 0.5867,
	"step": 1200
	},
	{
	"epoch": 0.2797854977850315,
	"eval_accuracy": 0.7227235438884332,
	"eval_f1": 0.7223497656011426,
	"eval_loss": 0.7796285152435303,
	"eval_precision": 0.7239042036307864,
	"eval_recall": 0.7433241953688237,
	"eval_runtime": 32.4272,
	"eval_samples_per_second": 37.592,
	"eval_steps_per_second": 2.375,
	"step": 1200
	},
	{
	"epoch": 0.28211704359990675,
	"grad_norm": 32.188232421875,
	"learning_rate": 4.7178829564000936e-05,
	"loss": 0.6986,
	"step": 1210
	},
	{
	"epoch": 0.284448589414782,
	"grad_norm": 21.2509708404541,
	"learning_rate": 4.715551410585218e-05,
	"loss": 0.5578,
	"step": 1220
	},
	{
	"epoch": 0.2867801352296573,
	"grad_norm": 36.59361267089844,
	"learning_rate": 4.713219864770343e-05,
	"loss": 0.6035,
	"step": 1230
	},
	{
	"epoch": 0.2891116810445325,
	"grad_norm": 23.820602416992188,
	"learning_rate": 4.7108883189554677e-05,
	"loss": 0.672,
	"step": 1240
	},
	{
	"epoch": 0.29144322685940777,
	"grad_norm": 9.917643547058105,
	"learning_rate": 4.708556773140592e-05,
	"loss": 0.5623,
	"step": 1250
	},
	{
	"epoch": 0.29377477267428304,
	"grad_norm": 23.47327423095703,
	"learning_rate": 4.706225227325717e-05,
	"loss": 0.5947,
	"step": 1260
	},
	{
	"epoch": 0.2961063184891583,
	"grad_norm": 20.891555786132812,
	"learning_rate": 4.703893681510842e-05,
	"loss": 0.5065,
	"step": 1270
	},
	{
	"epoch": 0.2984378643040336,
	"grad_norm": 20.379684448242188,
	"learning_rate": 4.701562135695967e-05,
	"loss": 0.4707,
	"step": 1280
	},
	{
	"epoch": 0.30076941011890884,
	"grad_norm": 23.66413688659668,
	"learning_rate": 4.6992305898810914e-05,
	"loss": 0.7354,
	"step": 1290
	},
	{
	"epoch": 0.3031009559337841,
	"grad_norm": 82.15457916259766,
	"learning_rate": 4.6968990440662165e-05,
	"loss": 0.6615,
	"step": 1300
	},
	{
	"epoch": 0.3054325017486594,
	"grad_norm": 43.44639587402344,
	"learning_rate": 4.694567498251341e-05,
	"loss": 0.7217,
	"step": 1310
	},
	{
	"epoch": 0.30776404756353465,
	"grad_norm": 27.2445125579834,
	"learning_rate": 4.6922359524364654e-05,
	"loss": 0.7379,
	"step": 1320
	},
	{
	"epoch": 0.31009559337840986,
	"grad_norm": 23.97974395751953,
	"learning_rate": 4.68990440662159e-05,
	"loss": 0.6117,
	"step": 1330
	},
	{
	"epoch": 0.31242713919328513,
	"grad_norm": 20.4930362701416,
	"learning_rate": 4.687572860806715e-05,
	"loss": 0.6047,
	"step": 1340
	},
	{
	"epoch": 0.3147586850081604,
	"grad_norm": 36.909305572509766,
	"learning_rate": 4.68524131499184e-05,
	"loss": 0.5695,
	"step": 1350
	},
	{
	"epoch": 0.31709023082303567,
	"grad_norm": 13.219598770141602,
	"learning_rate": 4.682909769176965e-05,
	"loss": 0.61,
	"step": 1360
	},
	{
	"epoch": 0.31942177663791094,
	"grad_norm": 37.49195861816406,
	"learning_rate": 4.680578223362089e-05,
	"loss": 0.6959,
	"step": 1370
	},
	{
	"epoch": 0.3217533224527862,
	"grad_norm": 21.94476890563965,
	"learning_rate": 4.6782466775472136e-05,
	"loss": 0.5361,
	"step": 1380
	},
	{
	"epoch": 0.3240848682676615,
	"grad_norm": 15.76740837097168,
	"learning_rate": 4.675915131732339e-05,
	"loss": 0.5799,
	"step": 1390
	},
	{
	"epoch": 0.32641641408253674,
	"grad_norm": 16.694778442382812,
	"learning_rate": 4.673583585917464e-05,
	"loss": 0.5195,
	"step": 1400
	},
	{
	"epoch": 0.32874795989741196,
	"grad_norm": 17.327856063842773,
	"learning_rate": 4.6712520401025884e-05,
	"loss": 0.4577,
	"step": 1410
	},
	{
	"epoch": 0.3310795057122872,
	"grad_norm": 19.089357376098633,
	"learning_rate": 4.668920494287713e-05,
	"loss": 0.5473,
	"step": 1420
	},
	{
	"epoch": 0.3334110515271625,
	"grad_norm": 20.266950607299805,
	"learning_rate": 4.666588948472837e-05,
	"loss": 0.5861,
	"step": 1430
	},
	{
	"epoch": 0.33574259734203776,
	"grad_norm": 14.822595596313477,
	"learning_rate": 4.6642574026579625e-05,
	"loss": 0.4603,
	"step": 1440
	},
	{
	"epoch": 0.33807414315691303,
	"grad_norm": 14.292266845703125,
	"learning_rate": 4.6619258568430876e-05,
	"loss": 0.5209,
	"step": 1450
	},
	{
	"epoch": 0.3404056889717883,
	"grad_norm": 15.99500560760498,
	"learning_rate": 4.659594311028212e-05,
	"loss": 0.5721,
	"step": 1460
	},
	{
	"epoch": 0.34273723478666357,
	"grad_norm": 15.458304405212402,
	"learning_rate": 4.6572627652133366e-05,
	"loss": 0.5798,
	"step": 1470
	},
	{
	"epoch": 0.34506878060153884,
	"grad_norm": 22.426408767700195,
	"learning_rate": 4.654931219398461e-05,
	"loss": 0.6674,
	"step": 1480
	},
	{
	"epoch": 0.3474003264164141,
	"grad_norm": 16.9567928314209,
	"learning_rate": 4.652599673583586e-05,
	"loss": 0.6049,
	"step": 1490
	},
	{
	"epoch": 0.3497318722312893,
	"grad_norm": 39.44313430786133,
	"learning_rate": 4.650268127768711e-05,
	"loss": 0.5684,
	"step": 1500
	},
	{
	"epoch": 0.3497318722312893,
	"eval_accuracy": 0.7506152584085316,
	"eval_f1": 0.7356563013468664,
	"eval_loss": 0.7205380797386169,
	"eval_precision": 0.7489548577706214,
	"eval_recall": 0.7325100738137515,
	"eval_runtime": 32.4911,
	"eval_samples_per_second": 37.518,
	"eval_steps_per_second": 2.37,
	"step": 1500
	},
	{
	"epoch": 0.3520634180461646,
	"grad_norm": 27.17556381225586,
	"learning_rate": 4.647936581953836e-05,
	"loss": 0.5555,
	"step": 1510
	},
	{
	"epoch": 0.35439496386103986,
	"grad_norm": 21.439729690551758,
	"learning_rate": 4.64560503613896e-05,
	"loss": 0.6018,
	"step": 1520
	},
	{
	"epoch": 0.3567265096759151,
	"grad_norm": 27.142850875854492,
	"learning_rate": 4.643273490324085e-05,
	"loss": 0.6183,
	"step": 1530
	},
	{
	"epoch": 0.3590580554907904,
	"grad_norm": 26.709306716918945,
	"learning_rate": 4.64094194450921e-05,
	"loss": 0.5238,
	"step": 1540
	},
	{
	"epoch": 0.36138960130566566,
	"grad_norm": 18.24578857421875,
	"learning_rate": 4.6386103986943343e-05,
	"loss": 0.6221,
	"step": 1550
	},
	{
	"epoch": 0.36372114712054093,
	"grad_norm": 16.884159088134766,
	"learning_rate": 4.6362788528794595e-05,
	"loss": 0.577,
	"step": 1560
	},
	{
	"epoch": 0.3660526929354162,
	"grad_norm": 27.92196273803711,
	"learning_rate": 4.633947307064584e-05,
	"loss": 0.4804,
	"step": 1570
	},
	{
	"epoch": 0.36838423875029147,
	"grad_norm": 19.397260665893555,
	"learning_rate": 4.6316157612497084e-05,
	"loss": 0.5586,
	"step": 1580
	},
	{
	"epoch": 0.3707157845651667,
	"grad_norm": 20.426605224609375,
	"learning_rate": 4.6292842154348336e-05,
	"loss": 0.7078,
	"step": 1590
	},
	{
	"epoch": 0.37304733038004195,
	"grad_norm": 16.057165145874023,
	"learning_rate": 4.626952669619958e-05,
	"loss": 0.4367,
	"step": 1600
	},
	{
	"epoch": 0.3753788761949172,
	"grad_norm": 15.59145450592041,
	"learning_rate": 4.624621123805083e-05,
	"loss": 0.4379,
	"step": 1610
	},
	{
	"epoch": 0.3777104220097925,
	"grad_norm": 11.662853240966797,
	"learning_rate": 4.622289577990208e-05,
	"loss": 0.4041,
	"step": 1620
	},
	{
	"epoch": 0.38004196782466776,
	"grad_norm": 27.15912628173828,
	"learning_rate": 4.619958032175333e-05,
	"loss": 0.5678,
	"step": 1630
	},
	{
	"epoch": 0.38237351363954303,
	"grad_norm": 18.558469772338867,
	"learning_rate": 4.617626486360457e-05,
	"loss": 0.5907,
	"step": 1640
	},
	{
	"epoch": 0.3847050594544183,
	"grad_norm": 32.28955078125,
	"learning_rate": 4.615294940545582e-05,
	"loss": 0.592,
	"step": 1650
	},
	{
	"epoch": 0.38703660526929357,
	"grad_norm": 19.484052658081055,
	"learning_rate": 4.612963394730707e-05,
	"loss": 0.5517,
	"step": 1660
	},
	{
	"epoch": 0.3893681510841688,
	"grad_norm": 19.991775512695312,
	"learning_rate": 4.6106318489158314e-05,
	"loss": 0.4574,
	"step": 1670
	},
	{
	"epoch": 0.39169969689904405,
	"grad_norm": 19.2491455078125,
	"learning_rate": 4.6083003031009565e-05,
	"loss": 0.5324,
	"step": 1680
	},
	{
	"epoch": 0.3940312427139193,
	"grad_norm": 26.1087646484375,
	"learning_rate": 4.605968757286081e-05,
	"loss": 0.5405,
	"step": 1690
	},
	{
	"epoch": 0.3963627885287946,
	"grad_norm": 28.05010986328125,
	"learning_rate": 4.6036372114712055e-05,
	"loss": 0.6015,
	"step": 1700
	},
	{
	"epoch": 0.39869433434366985,
	"grad_norm": 24.019983291625977,
	"learning_rate": 4.60130566565633e-05,
	"loss": 0.4885,
	"step": 1710
	},
	{
	"epoch": 0.4010258801585451,
	"grad_norm": 43.11894607543945,
	"learning_rate": 4.598974119841455e-05,
	"loss": 0.6539,
	"step": 1720
	},
	{
	"epoch": 0.4033574259734204,
	"grad_norm": 23.700422286987305,
	"learning_rate": 4.59664257402658e-05,
	"loss": 0.4439,
	"step": 1730
	},
	{
	"epoch": 0.40568897178829566,
	"grad_norm": 29.97321319580078,
	"learning_rate": 4.594311028211705e-05,
	"loss": 0.493,
	"step": 1740
	},
	{
	"epoch": 0.40802051760317093,
	"grad_norm": 32.946022033691406,
	"learning_rate": 4.591979482396829e-05,
	"loss": 0.6301,
	"step": 1750
	},
	{
	"epoch": 0.41035206341804614,
	"grad_norm": 16.01514434814453,
	"learning_rate": 4.5896479365819536e-05,
	"loss": 0.4617,
	"step": 1760
	},
	{
	"epoch": 0.4126836092329214,
	"grad_norm": 21.685338973999023,
	"learning_rate": 4.587316390767079e-05,
	"loss": 0.6289,
	"step": 1770
	},
	{
	"epoch": 0.4150151550477967,
	"grad_norm": 28.99067497253418,
	"learning_rate": 4.584984844952204e-05,
	"loss": 0.4477,
	"step": 1780
	},
	{
	"epoch": 0.41734670086267195,
	"grad_norm": 35.17900085449219,
	"learning_rate": 4.5826532991373284e-05,
	"loss": 0.4637,
	"step": 1790
	},
	{
	"epoch": 0.4196782466775472,
	"grad_norm": 33.74941635131836,
	"learning_rate": 4.580321753322453e-05,
	"loss": 0.6002,
	"step": 1800
	},
	{
	"epoch": 0.4196782466775472,
	"eval_accuracy": 0.7506152584085316,
	"eval_f1": 0.7449892374013476,
	"eval_loss": 0.7239476442337036,
	"eval_precision": 0.7453346607126952,
	"eval_recall": 0.7541687656017055,
	"eval_runtime": 32.6118,
	"eval_samples_per_second": 37.379,
	"eval_steps_per_second": 2.361,
	"step": 1800
	},
	{
	"epoch": 0.4220097924924225,
	"grad_norm": 13.531204223632812,
	"learning_rate": 4.577990207507577e-05,
	"loss": 0.5473,
	"step": 1810
	},
	{
	"epoch": 0.42434133830729776,
	"grad_norm": 16.84659194946289,
	"learning_rate": 4.5756586616927025e-05,
	"loss": 0.5308,
	"step": 1820
	},
	{
	"epoch": 0.426672884122173,
	"grad_norm": 34.70216369628906,
	"learning_rate": 4.5733271158778276e-05,
	"loss": 0.7112,
	"step": 1830
	},
	{
	"epoch": 0.42900442993704824,
	"grad_norm": 18.915586471557617,
	"learning_rate": 4.570995570062952e-05,
	"loss": 0.6053,
	"step": 1840
	},
	{
	"epoch": 0.4313359757519235,
	"grad_norm": 19.790071487426758,
	"learning_rate": 4.5686640242480766e-05,
	"loss": 0.4516,
	"step": 1850
	},
	{
	"epoch": 0.4336675215667988,
	"grad_norm": 19.730384826660156,
	"learning_rate": 4.566332478433201e-05,
	"loss": 0.6088,
	"step": 1860
	},
	{
	"epoch": 0.43599906738167404,
	"grad_norm": 31.787572860717773,
	"learning_rate": 4.564000932618326e-05,
	"loss": 0.5709,
	"step": 1870
	},
	{
	"epoch": 0.4383306131965493,
	"grad_norm": 26.529708862304688,
	"learning_rate": 4.561669386803451e-05,
	"loss": 0.5072,
	"step": 1880
	},
	{
	"epoch": 0.4406621590114246,
	"grad_norm": 29.785123825073242,
	"learning_rate": 4.559337840988576e-05,
	"loss": 0.4786,
	"step": 1890
	},
	{
	"epoch": 0.44299370482629985,
	"grad_norm": 18.451383590698242,
	"learning_rate": 4.5570062951737e-05,
	"loss": 0.5377,
	"step": 1900
	},
	{
	"epoch": 0.4453252506411751,
	"grad_norm": 24.651517868041992,
	"learning_rate": 4.554674749358825e-05,
	"loss": 0.4759,
	"step": 1910
	},
	{
	"epoch": 0.4476567964560504,
	"grad_norm": 23.738956451416016,
	"learning_rate": 4.55234320354395e-05,
	"loss": 0.6059,
	"step": 1920
	},
	{
	"epoch": 0.4499883422709256,
	"grad_norm": 15.957860946655273,
	"learning_rate": 4.5500116577290743e-05,
	"loss": 0.5788,
	"step": 1930
	},
	{
	"epoch": 0.45231988808580087,
	"grad_norm": 18.671892166137695,
	"learning_rate": 4.5476801119141995e-05,
	"loss": 0.42,
	"step": 1940
	},
	{
	"epoch": 0.45465143390067614,
	"grad_norm": 20.396814346313477,
	"learning_rate": 4.545348566099324e-05,
	"loss": 0.5062,
	"step": 1950
	},
	{
	"epoch": 0.4569829797155514,
	"grad_norm": 35.40294647216797,
	"learning_rate": 4.5430170202844484e-05,
	"loss": 0.6339,
	"step": 1960
	},
	{
	"epoch": 0.4593145255304267,
	"grad_norm": 20.99814224243164,
	"learning_rate": 4.5406854744695736e-05,
	"loss": 0.4737,
	"step": 1970
	},
	{
	"epoch": 0.46164607134530194,
	"grad_norm": 19.0653133392334,
	"learning_rate": 4.538353928654698e-05,
	"loss": 0.4303,
	"step": 1980
	},
	{
	"epoch": 0.4639776171601772,
	"grad_norm": 25.659717559814453,
	"learning_rate": 4.536022382839823e-05,
	"loss": 0.4544,
	"step": 1990
	},
	{
	"epoch": 0.4663091629750525,
	"grad_norm": 15.122028350830078,
	"learning_rate": 4.533690837024948e-05,
	"loss": 0.4343,
	"step": 2000
	},
	{
	"epoch": 0.4686407087899277,
	"grad_norm": 18.79733657836914,
	"learning_rate": 4.531359291210073e-05,
	"loss": 0.598,
	"step": 2010
	},
	{
	"epoch": 0.47097225460480296,
	"grad_norm": 21.690399169921875,
	"learning_rate": 4.529027745395197e-05,
	"loss": 0.5553,
	"step": 2020
	},
	{
	"epoch": 0.47330380041967823,
	"grad_norm": 19.833171844482422,
	"learning_rate": 4.526696199580322e-05,
	"loss": 0.4684,
	"step": 2030
	},
	{
	"epoch": 0.4756353462345535,
	"grad_norm": 31.109315872192383,
	"learning_rate": 4.524364653765447e-05,
	"loss": 0.5953,
	"step": 2040
	},
	{
	"epoch": 0.47796689204942877,
	"grad_norm": 14.755363464355469,
	"learning_rate": 4.5220331079505714e-05,
	"loss": 0.4521,
	"step": 2050
	},
	{
	"epoch": 0.48029843786430404,
	"grad_norm": 19.60972785949707,
	"learning_rate": 4.5197015621356965e-05,
	"loss": 0.4349,
	"step": 2060
	},
	{
	"epoch": 0.4826299836791793,
	"grad_norm": 20.63113784790039,
	"learning_rate": 4.517370016320821e-05,
	"loss": 0.4893,
	"step": 2070
	},
	{
	"epoch": 0.4849615294940546,
	"grad_norm": 21.99651336669922,
	"learning_rate": 4.5150384705059455e-05,
	"loss": 0.535,
	"step": 2080
	},
	{
	"epoch": 0.48729307530892985,
	"grad_norm": 13.244401931762695,
	"learning_rate": 4.51270692469107e-05,
	"loss": 0.4573,
	"step": 2090
	},
	{
	"epoch": 0.48962462112380506,
	"grad_norm": 22.323959350585938,
	"learning_rate": 4.510375378876195e-05,
	"loss": 0.4974,
	"step": 2100
	},
	{
	"epoch": 0.48962462112380506,
	"eval_accuracy": 0.7497949138638228,
	"eval_f1": 0.7429285315686787,
	"eval_loss": 0.7164492011070251,
	"eval_precision": 0.7399478118312398,
	"eval_recall": 0.751867958660305,
	"eval_runtime": 32.6276,
	"eval_samples_per_second": 37.361,
	"eval_steps_per_second": 2.36,
	"step": 2100
	},
	{
	"epoch": 0.49195616693868033,
	"grad_norm": 14.91236400604248,
	"learning_rate": 4.50804383306132e-05,
	"loss": 0.4868,
	"step": 2110
	},
	{
	"epoch": 0.4942877127535556,
	"grad_norm": 14.522492408752441,
	"learning_rate": 4.505712287246445e-05,
	"loss": 0.517,
	"step": 2120
	},
	{
	"epoch": 0.49661925856843087,
	"grad_norm": 14.661904335021973,
	"learning_rate": 4.503380741431569e-05,
	"loss": 0.6969,
	"step": 2130
	},
	{
	"epoch": 0.49895080438330613,
	"grad_norm": 17.774005889892578,
	"learning_rate": 4.5010491956166936e-05,
	"loss": 0.3392,
	"step": 2140
	},
	{
	"epoch": 0.5012823501981813,
	"grad_norm": 20.338176727294922,
	"learning_rate": 4.498717649801819e-05,
	"loss": 0.5478,
	"step": 2150
	},
	{
	"epoch": 0.5036138960130566,
	"grad_norm": 23.17992401123047,
	"learning_rate": 4.496386103986944e-05,
	"loss": 0.4363,
	"step": 2160
	},
	{
	"epoch": 0.5059454418279319,
	"grad_norm": 26.9781494140625,
	"learning_rate": 4.4940545581720684e-05,
	"loss": 0.4991,
	"step": 2170
	},
	{
	"epoch": 0.5082769876428072,
	"grad_norm": 13.74269962310791,
	"learning_rate": 4.491723012357193e-05,
	"loss": 0.4789,
	"step": 2180
	},
	{
	"epoch": 0.5106085334576824,
	"grad_norm": 9.351542472839355,
	"learning_rate": 4.489391466542317e-05,
	"loss": 0.6222,
	"step": 2190
	},
	{
	"epoch": 0.5129400792725577,
	"grad_norm": 29.69098472595215,
	"learning_rate": 4.4870599207274425e-05,
	"loss": 0.5182,
	"step": 2200
	},
	{
	"epoch": 0.515271625087433,
	"grad_norm": 34.87522506713867,
	"learning_rate": 4.4847283749125676e-05,
	"loss": 0.4833,
	"step": 2210
	},
	{
	"epoch": 0.5176031709023082,
	"grad_norm": 16.882413864135742,
	"learning_rate": 4.482396829097692e-05,
	"loss": 0.4985,
	"step": 2220
	},
	{
	"epoch": 0.5199347167171835,
	"grad_norm": 18.16925621032715,
	"learning_rate": 4.4800652832828166e-05,
	"loss": 0.5125,
	"step": 2230
	},
	{
	"epoch": 0.5222662625320588,
	"grad_norm": 25.316865921020508,
	"learning_rate": 4.477733737467941e-05,
	"loss": 0.6061,
	"step": 2240
	},
	{
	"epoch": 0.524597808346934,
	"grad_norm": 24.0291690826416,
	"learning_rate": 4.475402191653066e-05,
	"loss": 0.5563,
	"step": 2250
	},
	{
	"epoch": 0.5269293541618093,
	"grad_norm": 18.830142974853516,
	"learning_rate": 4.473070645838191e-05,
	"loss": 0.34,
	"step": 2260
	},
	{
	"epoch": 0.5292608999766846,
	"grad_norm": 24.81058692932129,
	"learning_rate": 4.470739100023316e-05,
	"loss": 0.4322,
	"step": 2270
	},
	{
	"epoch": 0.5315924457915598,
	"grad_norm": 25.785091400146484,
	"learning_rate": 4.46840755420844e-05,
	"loss": 0.4726,
	"step": 2280
	},
	{
	"epoch": 0.5339239916064351,
	"grad_norm": 14.79159927368164,
	"learning_rate": 4.466076008393565e-05,
	"loss": 0.3366,
	"step": 2290
	},
	{
	"epoch": 0.5362555374213104,
	"grad_norm": 34.41261672973633,
	"learning_rate": 4.46374446257869e-05,
	"loss": 0.5926,
	"step": 2300
	},
	{
	"epoch": 0.5385870832361855,
	"grad_norm": 34.747901916503906,
	"learning_rate": 4.4614129167638144e-05,
	"loss": 0.6057,
	"step": 2310
	},
	{
	"epoch": 0.5409186290510608,
	"grad_norm": 17.471677780151367,
	"learning_rate": 4.4590813709489395e-05,
	"loss": 0.5399,
	"step": 2320
	},
	{
	"epoch": 0.5432501748659361,
	"grad_norm": 29.014802932739258,
	"learning_rate": 4.456749825134064e-05,
	"loss": 0.4637,
	"step": 2330
	},
	{
	"epoch": 0.5455817206808113,
	"grad_norm": 12.530820846557617,
	"learning_rate": 4.454418279319189e-05,
	"loss": 0.4172,
	"step": 2340
	},
	{
	"epoch": 0.5479132664956866,
	"grad_norm": 15.449395179748535,
	"learning_rate": 4.4520867335043136e-05,
	"loss": 0.5294,
	"step": 2350
	},
	{
	"epoch": 0.5502448123105619,
	"grad_norm": 26.869712829589844,
	"learning_rate": 4.449755187689438e-05,
	"loss": 0.5169,
	"step": 2360
	},
	{
	"epoch": 0.5525763581254372,
	"grad_norm": 17.471458435058594,
	"learning_rate": 4.447423641874563e-05,
	"loss": 0.4523,
	"step": 2370
	},
	{
	"epoch": 0.5549079039403124,
	"grad_norm": 24.529001235961914,
	"learning_rate": 4.445092096059688e-05,
	"loss": 0.4501,
	"step": 2380
	},
	{
	"epoch": 0.5572394497551877,
	"grad_norm": 22.41488265991211,
	"learning_rate": 4.442760550244813e-05,
	"loss": 0.5475,
	"step": 2390
	},
	{
	"epoch": 0.559570995570063,
	"grad_norm": 27.631166458129883,
	"learning_rate": 4.440429004429937e-05,
	"loss": 0.5527,
	"step": 2400
	},
	{
	"epoch": 0.559570995570063,
	"eval_accuracy": 0.7506152584085316,
	"eval_f1": 0.7474469925712124,
	"eval_loss": 0.7103798985481262,
	"eval_precision": 0.7429756390197679,
	"eval_recall": 0.7637649710650173,
	"eval_runtime": 32.5095,
	"eval_samples_per_second": 37.497,
	"eval_steps_per_second": 2.369,
	"step": 2400
	},
	{
	"epoch": 0.5619025413849382,
	"grad_norm": 25.045551300048828,
	"learning_rate": 4.438097458615062e-05,
	"loss": 0.641,
	"step": 2410
	},
	{
	"epoch": 0.5642340871998135,
	"grad_norm": 21.757932662963867,
	"learning_rate": 4.435765912800187e-05,
	"loss": 0.4971,
	"step": 2420
	},
	{
	"epoch": 0.5665656330146888,
	"grad_norm": 21.797353744506836,
	"learning_rate": 4.4334343669853114e-05,
	"loss": 0.4863,
	"step": 2430
	},
	{
	"epoch": 0.568897178829564,
	"grad_norm": 24.75421905517578,
	"learning_rate": 4.4311028211704365e-05,
	"loss": 0.49,
	"step": 2440
	},
	{
	"epoch": 0.5712287246444393,
	"grad_norm": 29.258378982543945,
	"learning_rate": 4.428771275355561e-05,
	"loss": 0.4736,
	"step": 2450
	},
	{
	"epoch": 0.5735602704593146,
	"grad_norm": 36.19465255737305,
	"learning_rate": 4.4264397295406855e-05,
	"loss": 0.4717,
	"step": 2460
	},
	{
	"epoch": 0.5758918162741898,
	"grad_norm": 25.283084869384766,
	"learning_rate": 4.42410818372581e-05,
	"loss": 0.5374,
	"step": 2470
	},
	{
	"epoch": 0.578223362089065,
	"grad_norm": 26.333541870117188,
	"learning_rate": 4.421776637910936e-05,
	"loss": 0.3847,
	"step": 2480
	},
	{
	"epoch": 0.5805549079039403,
	"grad_norm": 21.764862060546875,
	"learning_rate": 4.41944509209606e-05,
	"loss": 0.4232,
	"step": 2490
	},
	{
	"epoch": 0.5828864537188155,
	"grad_norm": 11.467122077941895,
	"learning_rate": 4.417113546281185e-05,
	"loss": 0.6221,
	"step": 2500
	},
	{
	"epoch": 0.5852179995336908,
	"grad_norm": 16.913673400878906,
	"learning_rate": 4.414782000466309e-05,
	"loss": 0.4062,
	"step": 2510
	},
	{
	"epoch": 0.5875495453485661,
	"grad_norm": 25.194719314575195,
	"learning_rate": 4.4124504546514336e-05,
	"loss": 0.4734,
	"step": 2520
	},
	{
	"epoch": 0.5898810911634413,
	"grad_norm": 16.23316764831543,
	"learning_rate": 4.410118908836559e-05,
	"loss": 0.413,
	"step": 2530
	},
	{
	"epoch": 0.5922126369783166,
	"grad_norm": 29.319387435913086,
	"learning_rate": 4.407787363021684e-05,
	"loss": 0.4903,
	"step": 2540
	},
	{
	"epoch": 0.5945441827931919,
	"grad_norm": 55.968284606933594,
	"learning_rate": 4.4054558172068084e-05,
	"loss": 0.5513,
	"step": 2550
	},
	{
	"epoch": 0.5968757286080671,
	"grad_norm": 19.242820739746094,
	"learning_rate": 4.403124271391933e-05,
	"loss": 0.4908,
	"step": 2560
	},
	{
	"epoch": 0.5992072744229424,
	"grad_norm": 23.568754196166992,
	"learning_rate": 4.400792725577057e-05,
	"loss": 0.585,
	"step": 2570
	},
	{
	"epoch": 0.6015388202378177,
	"grad_norm": 19.30316925048828,
	"learning_rate": 4.3984611797621825e-05,
	"loss": 0.5568,
	"step": 2580
	},
	{
	"epoch": 0.603870366052693,
	"grad_norm": 11.688234329223633,
	"learning_rate": 4.3961296339473076e-05,
	"loss": 0.4393,
	"step": 2590
	},
	{
	"epoch": 0.6062019118675682,
	"grad_norm": 18.595117568969727,
	"learning_rate": 4.393798088132432e-05,
	"loss": 0.3502,
	"step": 2600
	},
	{
	"epoch": 0.6085334576824435,
	"grad_norm": 30.775352478027344,
	"learning_rate": 4.3914665423175566e-05,
	"loss": 0.4952,
	"step": 2610
	},
	{
	"epoch": 0.6108650034973188,
	"grad_norm": 9.629733085632324,
	"learning_rate": 4.389134996502681e-05,
	"loss": 0.3984,
	"step": 2620
	},
	{
	"epoch": 0.613196549312194,
	"grad_norm": 27.071420669555664,
	"learning_rate": 4.386803450687806e-05,
	"loss": 0.5048,
	"step": 2630
	},
	{
	"epoch": 0.6155280951270693,
	"grad_norm": 18.72870445251465,
	"learning_rate": 4.384471904872931e-05,
	"loss": 0.5675,
	"step": 2640
	},
	{
	"epoch": 0.6178596409419445,
	"grad_norm": 16.282094955444336,
	"learning_rate": 4.382140359058056e-05,
	"loss": 0.3591,
	"step": 2650
	},
	{
	"epoch": 0.6201911867568197,
	"grad_norm": 17.249792098999023,
	"learning_rate": 4.37980881324318e-05,
	"loss": 0.4584,
	"step": 2660
	},
	{
	"epoch": 0.622522732571695,
	"grad_norm": 21.42504119873047,
	"learning_rate": 4.3774772674283054e-05,
	"loss": 0.4607,
	"step": 2670
	},
	{
	"epoch": 0.6248542783865703,
	"grad_norm": 30.91826820373535,
	"learning_rate": 4.37514572161343e-05,
	"loss": 0.6725,
	"step": 2680
	},
	{
	"epoch": 0.6271858242014455,
	"grad_norm": 20.925262451171875,
	"learning_rate": 4.3728141757985544e-05,
	"loss": 0.4768,
	"step": 2690
	},
	{
	"epoch": 0.6295173700163208,
	"grad_norm": 25.807174682617188,
	"learning_rate": 4.3704826299836795e-05,
	"loss": 0.4127,
	"step": 2700
	},
	{
	"epoch": 0.6295173700163208,
	"eval_accuracy": 0.7678424938474159,
	"eval_f1": 0.7584708782486864,
	"eval_loss": 0.6823632121086121,
	"eval_precision": 0.7601462178390429,
	"eval_recall": 0.7648942677055709,
	"eval_runtime": 32.4267,
	"eval_samples_per_second": 37.592,
	"eval_steps_per_second": 2.375,
	"step": 2700
	},
	{
	"epoch": 0.6318489158311961,
	"grad_norm": 20.336694717407227,
	"learning_rate": 4.368151084168804e-05,
	"loss": 0.4772,
	"step": 2710
	},
	{
	"epoch": 0.6341804616460713,
	"grad_norm": 15.894454956054688,
	"learning_rate": 4.365819538353929e-05,
	"loss": 0.5338,
	"step": 2720
	},
	{
	"epoch": 0.6365120074609466,
	"grad_norm": 45.088111877441406,
	"learning_rate": 4.3634879925390536e-05,
	"loss": 0.6168,
	"step": 2730
	},
	{
	"epoch": 0.6388435532758219,
	"grad_norm": 31.453920364379883,
	"learning_rate": 4.361156446724178e-05,
	"loss": 0.4662,
	"step": 2740
	},
	{
	"epoch": 0.6411750990906971,
	"grad_norm": 11.898534774780273,
	"learning_rate": 4.358824900909303e-05,
	"loss": 0.5345,
	"step": 2750
	},
	{
	"epoch": 0.6435066449055724,
	"grad_norm": 21.230201721191406,
	"learning_rate": 4.356493355094428e-05,
	"loss": 0.4006,
	"step": 2760
	},
	{
	"epoch": 0.6458381907204477,
	"grad_norm": 25.514484405517578,
	"learning_rate": 4.354161809279553e-05,
	"loss": 0.5164,
	"step": 2770
	},
	{
	"epoch": 0.648169736535323,
	"grad_norm": 20.121109008789062,
	"learning_rate": 4.351830263464677e-05,
	"loss": 0.4885,
	"step": 2780
	},
	{
	"epoch": 0.6505012823501982,
	"grad_norm": 11.797569274902344,
	"learning_rate": 4.349498717649802e-05,
	"loss": 0.5272,
	"step": 2790
	},
	{
	"epoch": 0.6528328281650735,
	"grad_norm": 22.636089324951172,
	"learning_rate": 4.347167171834927e-05,
	"loss": 0.5199,
	"step": 2800
	},
	{
	"epoch": 0.6551643739799488,
	"grad_norm": 29.251462936401367,
	"learning_rate": 4.3448356260200514e-05,
	"loss": 0.3558,
	"step": 2810
	},
	{
	"epoch": 0.6574959197948239,
	"grad_norm": 14.990754127502441,
	"learning_rate": 4.3425040802051765e-05,
	"loss": 0.5055,
	"step": 2820
	},
	{
	"epoch": 0.6598274656096992,
	"grad_norm": 15.994630813598633,
	"learning_rate": 4.340172534390301e-05,
	"loss": 0.3577,
	"step": 2830
	},
	{
	"epoch": 0.6621590114245745,
	"grad_norm": 25.580074310302734,
	"learning_rate": 4.3378409885754255e-05,
	"loss": 0.464,
	"step": 2840
	},
	{
	"epoch": 0.6644905572394497,
	"grad_norm": 19.915939331054688,
	"learning_rate": 4.33550944276055e-05,
	"loss": 0.3557,
	"step": 2850
	},
	{
	"epoch": 0.666822103054325,
	"grad_norm": 17.42690658569336,
	"learning_rate": 4.333177896945676e-05,
	"loss": 0.5423,
	"step": 2860
	},
	{
	"epoch": 0.6691536488692003,
	"grad_norm": 16.17222785949707,
	"learning_rate": 4.3308463511308e-05,
	"loss": 0.3552,
	"step": 2870
	},
	{
	"epoch": 0.6714851946840755,
	"grad_norm": 23.892414093017578,
	"learning_rate": 4.328514805315925e-05,
	"loss": 0.4097,
	"step": 2880
	},
	{
	"epoch": 0.6738167404989508,
	"grad_norm": 23.955047607421875,
	"learning_rate": 4.326183259501049e-05,
	"loss": 0.6225,
	"step": 2890
	},
	{
	"epoch": 0.6761482863138261,
	"grad_norm": 19.446603775024414,
	"learning_rate": 4.3238517136861736e-05,
	"loss": 0.5303,
	"step": 2900
	},
	{
	"epoch": 0.6784798321287013,
	"grad_norm": 15.906410217285156,
	"learning_rate": 4.321520167871299e-05,
	"loss": 0.4539,
	"step": 2910
	},
	{
	"epoch": 0.6808113779435766,
	"grad_norm": 30.294095993041992,
	"learning_rate": 4.319188622056424e-05,
	"loss": 0.6016,
	"step": 2920
	},
	{
	"epoch": 0.6831429237584519,
	"grad_norm": 22.50743865966797,
	"learning_rate": 4.3168570762415484e-05,
	"loss": 0.4718,
	"step": 2930
	},
	{
	"epoch": 0.6854744695733271,
	"grad_norm": 11.781279563903809,
	"learning_rate": 4.314525530426673e-05,
	"loss": 0.413,
	"step": 2940
	},
	{
	"epoch": 0.6878060153882024,
	"grad_norm": 10.89158821105957,
	"learning_rate": 4.3121939846117973e-05,
	"loss": 0.507,
	"step": 2950
	},
	{
	"epoch": 0.6901375612030777,
	"grad_norm": 13.030016899108887,
	"learning_rate": 4.3098624387969225e-05,
	"loss": 0.4475,
	"step": 2960
	},
	{
	"epoch": 0.692469107017953,
	"grad_norm": 15.248382568359375,
	"learning_rate": 4.3075308929820476e-05,
	"loss": 0.4741,
	"step": 2970
	},
	{
	"epoch": 0.6948006528328282,
	"grad_norm": 32.4050407409668,
	"learning_rate": 4.305199347167172e-05,
	"loss": 0.5675,
	"step": 2980
	},
	{
	"epoch": 0.6971321986477035,
	"grad_norm": 36.350406646728516,
	"learning_rate": 4.3028678013522966e-05,
	"loss": 0.584,
	"step": 2990
	},
	{
	"epoch": 0.6994637444625786,
	"grad_norm": 14.917610168457031,
	"learning_rate": 4.300536255537422e-05,
	"loss": 0.4201,
	"step": 3000
	},
	{
	"epoch": 0.6994637444625786,
	"eval_accuracy": 0.7768662838392125,
	"eval_f1": 0.7673956246919376,
	"eval_loss": 0.6402276158332825,
	"eval_precision": 0.7691001302569485,
	"eval_recall": 0.7679644214691466,
	"eval_runtime": 32.6299,
	"eval_samples_per_second": 37.358,
	"eval_steps_per_second": 2.36,
	"step": 3000
	},
	{
	"epoch": 0.7017952902774539,
	"grad_norm": 28.404804229736328,
	"learning_rate": 4.298204709722546e-05,
	"loss": 0.4424,
	"step": 3010
	},
	{
	"epoch": 0.7041268360923292,
	"grad_norm": 22.141082763671875,
	"learning_rate": 4.295873163907671e-05,
	"loss": 0.5042,
	"step": 3020
	},
	{
	"epoch": 0.7064583819072044,
	"grad_norm": 26.650156021118164,
	"learning_rate": 4.293541618092796e-05,
	"loss": 0.5509,
	"step": 3030
	},
	{
	"epoch": 0.7087899277220797,
	"grad_norm": 17.86048698425293,
	"learning_rate": 4.29121007227792e-05,
	"loss": 0.525,
	"step": 3040
	},
	{
	"epoch": 0.711121473536955,
	"grad_norm": 31.643362045288086,
	"learning_rate": 4.2888785264630454e-05,
	"loss": 0.4592,
	"step": 3050
	},
	{
	"epoch": 0.7134530193518303,
	"grad_norm": 25.388368606567383,
	"learning_rate": 4.28654698064817e-05,
	"loss": 0.6506,
	"step": 3060
	},
	{
	"epoch": 0.7157845651667055,
	"grad_norm": 20.75798225402832,
	"learning_rate": 4.2842154348332944e-05,
	"loss": 0.5776,
	"step": 3070
	},
	{
	"epoch": 0.7181161109815808,
	"grad_norm": 17.62347412109375,
	"learning_rate": 4.2818838890184195e-05,
	"loss": 0.497,
	"step": 3080
	},
	{
	"epoch": 0.7204476567964561,
	"grad_norm": 21.391613006591797,
	"learning_rate": 4.279552343203544e-05,
	"loss": 0.4536,
	"step": 3090
	},
	{
	"epoch": 0.7227792026113313,
	"grad_norm": 19.84242057800293,
	"learning_rate": 4.277220797388669e-05,
	"loss": 0.518,
	"step": 3100
	},
	{
	"epoch": 0.7251107484262066,
	"grad_norm": 25.691789627075195,
	"learning_rate": 4.2748892515737936e-05,
	"loss": 0.4864,
	"step": 3110
	},
	{
	"epoch": 0.7274422942410819,
	"grad_norm": 19.61354637145996,
	"learning_rate": 4.272557705758918e-05,
	"loss": 0.3578,
	"step": 3120
	},
	{
	"epoch": 0.7297738400559571,
	"grad_norm": 20.281843185424805,
	"learning_rate": 4.270226159944043e-05,
	"loss": 0.492,
	"step": 3130
	},
	{
	"epoch": 0.7321053858708324,
	"grad_norm": 19.12962532043457,
	"learning_rate": 4.267894614129168e-05,
	"loss": 0.4072,
	"step": 3140
	},
	{
	"epoch": 0.7344369316857077,
	"grad_norm": 22.840578079223633,
	"learning_rate": 4.265563068314293e-05,
	"loss": 0.5414,
	"step": 3150
	},
	{
	"epoch": 0.7367684775005829,
	"grad_norm": 30.5288028717041,
	"learning_rate": 4.263231522499417e-05,
	"loss": 0.518,
	"step": 3160
	},
	{
	"epoch": 0.7391000233154581,
	"grad_norm": 15.130803108215332,
	"learning_rate": 4.260899976684542e-05,
	"loss": 0.3736,
	"step": 3170
	},
	{
	"epoch": 0.7414315691303334,
	"grad_norm": 22.197586059570312,
	"learning_rate": 4.258568430869667e-05,
	"loss": 0.3704,
	"step": 3180
	},
	{
	"epoch": 0.7437631149452086,
	"grad_norm": 13.625364303588867,
	"learning_rate": 4.256236885054792e-05,
	"loss": 0.3927,
	"step": 3190
	},
	{
	"epoch": 0.7460946607600839,
	"grad_norm": 23.51502227783203,
	"learning_rate": 4.2539053392399165e-05,
	"loss": 0.4915,
	"step": 3200
	},
	{
	"epoch": 0.7484262065749592,
	"grad_norm": 19.06190299987793,
	"learning_rate": 4.251573793425041e-05,
	"loss": 0.5324,
	"step": 3210
	},
	{
	"epoch": 0.7507577523898344,
	"grad_norm": 16.512483596801758,
	"learning_rate": 4.2492422476101655e-05,
	"loss": 0.5011,
	"step": 3220
	},
	{
	"epoch": 0.7530892982047097,
	"grad_norm": 12.160454750061035,
	"learning_rate": 4.24691070179529e-05,
	"loss": 0.5847,
	"step": 3230
	},
	{
	"epoch": 0.755420844019585,
	"grad_norm": 14.771639823913574,
	"learning_rate": 4.244579155980416e-05,
	"loss": 0.3473,
	"step": 3240
	},
	{
	"epoch": 0.7577523898344602,
	"grad_norm": 25.87384605407715,
	"learning_rate": 4.24224761016554e-05,
	"loss": 0.4409,
	"step": 3250
	},
	{
	"epoch": 0.7600839356493355,
	"grad_norm": 30.41501235961914,
	"learning_rate": 4.239916064350665e-05,
	"loss": 0.6514,
	"step": 3260
	},
	{
	"epoch": 0.7624154814642108,
	"grad_norm": 20.601119995117188,
	"learning_rate": 4.237584518535789e-05,
	"loss": 0.5139,
	"step": 3270
	},
	{
	"epoch": 0.7647470272790861,
	"grad_norm": 12.452898979187012,
	"learning_rate": 4.2352529727209136e-05,
	"loss": 0.395,
	"step": 3280
	},
	{
	"epoch": 0.7670785730939613,
	"grad_norm": 23.974411010742188,
	"learning_rate": 4.232921426906039e-05,
	"loss": 0.4344,
	"step": 3290
	},
	{
	"epoch": 0.7694101189088366,
	"grad_norm": 27.8565616607666,
	"learning_rate": 4.230589881091164e-05,
	"loss": 0.4636,
	"step": 3300
	},
	{
	"epoch": 0.7694101189088366,
	"eval_accuracy": 0.7727645611156686,
	"eval_f1": 0.7628742718759469,
	"eval_loss": 0.673406720161438,
	"eval_precision": 0.7584650322424751,
	"eval_recall": 0.7751981038943103,
	"eval_runtime": 32.4265,
	"eval_samples_per_second": 37.593,
	"eval_steps_per_second": 2.375,
	"step": 3300
	},
	{
	"epoch": 0.7717416647237119,
	"grad_norm": 31.938621520996094,
	"learning_rate": 4.2282583352762884e-05,
	"loss": 0.5178,
	"step": 3310
	},
	{
	"epoch": 0.7740732105385871,
	"grad_norm": 14.094200134277344,
	"learning_rate": 4.225926789461413e-05,
	"loss": 0.3979,
	"step": 3320
	},
	{
	"epoch": 0.7764047563534624,
	"grad_norm": 14.13912582397461,
	"learning_rate": 4.2235952436465373e-05,
	"loss": 0.4894,
	"step": 3330
	},
	{
	"epoch": 0.7787363021683376,
	"grad_norm": 16.00527572631836,
	"learning_rate": 4.2212636978316625e-05,
	"loss": 0.3421,
	"step": 3340
	},
	{
	"epoch": 0.7810678479832128,
	"grad_norm": 14.035831451416016,
	"learning_rate": 4.2189321520167876e-05,
	"loss": 0.4204,
	"step": 3350
	},
	{
	"epoch": 0.7833993937980881,
	"grad_norm": 17.89393424987793,
	"learning_rate": 4.216600606201912e-05,
	"loss": 0.3081,
	"step": 3360
	},
	{
	"epoch": 0.7857309396129634,
	"grad_norm": 19.49710464477539,
	"learning_rate": 4.2142690603870366e-05,
	"loss": 0.497,
	"step": 3370
	},
	{
	"epoch": 0.7880624854278386,
	"grad_norm": 32.836326599121094,
	"learning_rate": 4.211937514572162e-05,
	"loss": 0.5676,
	"step": 3380
	},
	{
	"epoch": 0.7903940312427139,
	"grad_norm": 21.465435028076172,
	"learning_rate": 4.209605968757286e-05,
	"loss": 0.583,
	"step": 3390
	},
	{
	"epoch": 0.7927255770575892,
	"grad_norm": 19.0760440826416,
	"learning_rate": 4.2072744229424113e-05,
	"loss": 0.4606,
	"step": 3400
	},
	{
	"epoch": 0.7950571228724644,
	"grad_norm": 34.77079772949219,
	"learning_rate": 4.204942877127536e-05,
	"loss": 0.4716,
	"step": 3410
	},
	{
	"epoch": 0.7973886686873397,
	"grad_norm": 12.543126106262207,
	"learning_rate": 4.20261133131266e-05,
	"loss": 0.391,
	"step": 3420
	},
	{
	"epoch": 0.799720214502215,
	"grad_norm": 15.688311576843262,
	"learning_rate": 4.2002797854977854e-05,
	"loss": 0.5113,
	"step": 3430
	},
	{
	"epoch": 0.8020517603170902,
	"grad_norm": 11.053609848022461,
	"learning_rate": 4.19794823968291e-05,
	"loss": 0.3462,
	"step": 3440
	},
	{
	"epoch": 0.8043833061319655,
	"grad_norm": 21.625019073486328,
	"learning_rate": 4.1956166938680344e-05,
	"loss": 0.5507,
	"step": 3450
	},
	{
	"epoch": 0.8067148519468408,
	"grad_norm": 15.765186309814453,
	"learning_rate": 4.1932851480531595e-05,
	"loss": 0.5008,
	"step": 3460
	},
	{
	"epoch": 0.809046397761716,
	"grad_norm": 32.54380416870117,
	"learning_rate": 4.190953602238284e-05,
	"loss": 0.6183,
	"step": 3470
	},
	{
	"epoch": 0.8113779435765913,
	"grad_norm": 19.001272201538086,
	"learning_rate": 4.188622056423409e-05,
	"loss": 0.5258,
	"step": 3480
	},
	{
	"epoch": 0.8137094893914666,
	"grad_norm": 43.268978118896484,
	"learning_rate": 4.1862905106085336e-05,
	"loss": 0.5148,
	"step": 3490
	},
	{
	"epoch": 0.8160410352063419,
	"grad_norm": 15.338736534118652,
	"learning_rate": 4.183958964793658e-05,
	"loss": 0.4623,
	"step": 3500
	},
	{
	"epoch": 0.818372581021217,
	"grad_norm": 21.353567123413086,
	"learning_rate": 4.181627418978783e-05,
	"loss": 0.4635,
	"step": 3510
	},
	{
	"epoch": 0.8207041268360923,
	"grad_norm": 133.6362762451172,
	"learning_rate": 4.1792958731639084e-05,
	"loss": 0.4413,
	"step": 3520
	},
	{
	"epoch": 0.8230356726509676,
	"grad_norm": 32.99754333496094,
	"learning_rate": 4.176964327349033e-05,
	"loss": 0.4504,
	"step": 3530
	},
	{
	"epoch": 0.8253672184658428,
	"grad_norm": 27.58423614501953,
	"learning_rate": 4.174632781534157e-05,
	"loss": 0.6231,
	"step": 3540
	},
	{
	"epoch": 0.8276987642807181,
	"grad_norm": 25.30926513671875,
	"learning_rate": 4.172301235719282e-05,
	"loss": 0.3987,
	"step": 3550
	},
	{
	"epoch": 0.8300303100955934,
	"grad_norm": 21.798927307128906,
	"learning_rate": 4.169969689904407e-05,
	"loss": 0.4207,
	"step": 3560
	},
	{
	"epoch": 0.8323618559104686,
	"grad_norm": 27.713125228881836,
	"learning_rate": 4.167638144089532e-05,
	"loss": 0.5021,
	"step": 3570
	},
	{
	"epoch": 0.8346934017253439,
	"grad_norm": 12.710470199584961,
	"learning_rate": 4.1653065982746565e-05,
	"loss": 0.303,
	"step": 3580
	},
	{
	"epoch": 0.8370249475402192,
	"grad_norm": 24.33064079284668,
	"learning_rate": 4.162975052459781e-05,
	"loss": 0.4564,
	"step": 3590
	},
	{
	"epoch": 0.8393564933550944,
	"grad_norm": 12.85043716430664,
	"learning_rate": 4.1606435066449055e-05,
	"loss": 0.4887,
	"step": 3600
	},
	{
	"epoch": 0.8393564933550944,
	"eval_accuracy": 0.7637407711238721,
	"eval_f1": 0.7492356256854388,
	"eval_loss": 0.6969403624534607,
	"eval_precision": 0.7486500525258384,
	"eval_recall": 0.7582037541347775,
	"eval_runtime": 32.6493,
	"eval_samples_per_second": 37.336,
	"eval_steps_per_second": 2.358,
	"step": 3600
	},
	{
	"epoch": 0.8416880391699697,
	"grad_norm": 16.10417366027832,
	"learning_rate": 4.15831196083003e-05,
	"loss": 0.4708,
	"step": 3610
	},
	{
	"epoch": 0.844019584984845,
	"grad_norm": 23.369497299194336,
	"learning_rate": 4.155980415015156e-05,
	"loss": 0.5608,
	"step": 3620
	},
	{
	"epoch": 0.8463511307997202,
	"grad_norm": 19.515378952026367,
	"learning_rate": 4.15364886920028e-05,
	"loss": 0.5755,
	"step": 3630
	},
	{
	"epoch": 0.8486826766145955,
	"grad_norm": 11.91996955871582,
	"learning_rate": 4.151317323385405e-05,
	"loss": 0.3869,
	"step": 3640
	},
	{
	"epoch": 0.8510142224294708,
	"grad_norm": 21.93692398071289,
	"learning_rate": 4.148985777570529e-05,
	"loss": 0.484,
	"step": 3650
	},
	{
	"epoch": 0.853345768244346,
	"grad_norm": 21.24445343017578,
	"learning_rate": 4.1466542317556536e-05,
	"loss": 0.3958,
	"step": 3660
	},
	{
	"epoch": 0.8556773140592213,
	"grad_norm": 16.571958541870117,
	"learning_rate": 4.144322685940779e-05,
	"loss": 0.331,
	"step": 3670
	},
	{
	"epoch": 0.8580088598740965,
	"grad_norm": 32.600013732910156,
	"learning_rate": 4.141991140125904e-05,
	"loss": 0.5633,
	"step": 3680
	},
	{
	"epoch": 0.8603404056889717,
	"grad_norm": 22.03318977355957,
	"learning_rate": 4.1396595943110284e-05,
	"loss": 0.4267,
	"step": 3690
	},
	{
	"epoch": 0.862671951503847,
	"grad_norm": 22.175247192382812,
	"learning_rate": 4.137328048496153e-05,
	"loss": 0.5786,
	"step": 3700
	},
	{
	"epoch": 0.8650034973187223,
	"grad_norm": 16.111539840698242,
	"learning_rate": 4.134996502681278e-05,
	"loss": 0.313,
	"step": 3710
	},
	{
	"epoch": 0.8673350431335975,
	"grad_norm": 23.84856414794922,
	"learning_rate": 4.1326649568664025e-05,
	"loss": 0.5621,
	"step": 3720
	},
	{
	"epoch": 0.8696665889484728,
	"grad_norm": 27.550527572631836,
	"learning_rate": 4.1303334110515276e-05,
	"loss": 0.3678,
	"step": 3730
	},
	{
	"epoch": 0.8719981347633481,
	"grad_norm": 17.500328063964844,
	"learning_rate": 4.128001865236652e-05,
	"loss": 0.4118,
	"step": 3740
	},
	{
	"epoch": 0.8743296805782234,
	"grad_norm": 20.387914657592773,
	"learning_rate": 4.1256703194217766e-05,
	"loss": 0.4329,
	"step": 3750
	},
	{
	"epoch": 0.8766612263930986,
	"grad_norm": 28.69219970703125,
	"learning_rate": 4.123338773606902e-05,
	"loss": 0.5973,
	"step": 3760
	},
	{
	"epoch": 0.8789927722079739,
	"grad_norm": 67.64371490478516,
	"learning_rate": 4.121007227792026e-05,
	"loss": 0.439,
	"step": 3770
	},
	{
	"epoch": 0.8813243180228492,
	"grad_norm": 11.542470932006836,
	"learning_rate": 4.1186756819771513e-05,
	"loss": 0.439,
	"step": 3780
	},
	{
	"epoch": 0.8836558638377244,
	"grad_norm": 28.455219268798828,
	"learning_rate": 4.116344136162276e-05,
	"loss": 0.5973,
	"step": 3790
	},
	{
	"epoch": 0.8859874096525997,
	"grad_norm": 24.25450325012207,
	"learning_rate": 4.1140125903474e-05,
	"loss": 0.5056,
	"step": 3800
	},
	{
	"epoch": 0.888318955467475,
	"grad_norm": 27.57263946533203,
	"learning_rate": 4.1116810445325254e-05,
	"loss": 0.5563,
	"step": 3810
	},
	{
	"epoch": 0.8906505012823502,
	"grad_norm": 32.943077087402344,
	"learning_rate": 4.10934949871765e-05,
	"loss": 0.5166,
	"step": 3820
	},
	{
	"epoch": 0.8929820470972255,
	"grad_norm": 25.220003128051758,
	"learning_rate": 4.1070179529027744e-05,
	"loss": 0.4761,
	"step": 3830
	},
	{
	"epoch": 0.8953135929121008,
	"grad_norm": 19.925155639648438,
	"learning_rate": 4.1046864070878995e-05,
	"loss": 0.3266,
	"step": 3840
	},
	{
	"epoch": 0.8976451387269759,
	"grad_norm": 39.80344009399414,
	"learning_rate": 4.102354861273025e-05,
	"loss": 0.5011,
	"step": 3850
	},
	{
	"epoch": 0.8999766845418512,
	"grad_norm": 23.42641830444336,
	"learning_rate": 4.100023315458149e-05,
	"loss": 0.5182,
	"step": 3860
	},
	{
	"epoch": 0.9023082303567265,
	"grad_norm": 18.273305892944336,
	"learning_rate": 4.0976917696432736e-05,
	"loss": 0.4711,
	"step": 3870
	},
	{
	"epoch": 0.9046397761716017,
	"grad_norm": 27.585613250732422,
	"learning_rate": 4.095360223828398e-05,
	"loss": 0.4976,
	"step": 3880
	},
	{
	"epoch": 0.906971321986477,
	"grad_norm": 10.163019180297852,
	"learning_rate": 4.093028678013523e-05,
	"loss": 0.3424,
	"step": 3890
	},
	{
	"epoch": 0.9093028678013523,
	"grad_norm": 18.85008430480957,
	"learning_rate": 4.0906971321986484e-05,
	"loss": 0.358,
	"step": 3900
	},
	{
	"epoch": 0.9093028678013523,
	"eval_accuracy": 0.7456931911402789,
	"eval_f1": 0.7407595301719996,
	"eval_loss": 0.776879072189331,
	"eval_precision": 0.7366901226312517,
	"eval_recall": 0.7566993445706643,
	"eval_runtime": 32.6742,
	"eval_samples_per_second": 37.308,
	"eval_steps_per_second": 2.357,
	"step": 3900
	},
	{
	"epoch": 0.9116344136162275,
	"grad_norm": 32.68353271484375,
	"learning_rate": 4.088365586383773e-05,
	"loss": 0.4426,
	"step": 3910
	},
	{
	"epoch": 0.9139659594311028,
	"grad_norm": 23.773094177246094,
	"learning_rate": 4.086034040568897e-05,
	"loss": 0.6041,
	"step": 3920
	},
	{
	"epoch": 0.9162975052459781,
	"grad_norm": 18.2379093170166,
	"learning_rate": 4.083702494754022e-05,
	"loss": 0.4279,
	"step": 3930
	},
	{
	"epoch": 0.9186290510608534,
	"grad_norm": 20.479825973510742,
	"learning_rate": 4.081370948939147e-05,
	"loss": 0.4433,
	"step": 3940
	},
	{
	"epoch": 0.9209605968757286,
	"grad_norm": 32.64277648925781,
	"learning_rate": 4.079039403124272e-05,
	"loss": 0.4704,
	"step": 3950
	},
	{
	"epoch": 0.9232921426906039,
	"grad_norm": 23.21099090576172,
	"learning_rate": 4.0767078573093965e-05,
	"loss": 0.4129,
	"step": 3960
	},
	{
	"epoch": 0.9256236885054792,
	"grad_norm": 15.052021026611328,
	"learning_rate": 4.074376311494521e-05,
	"loss": 0.4739,
	"step": 3970
	},
	{
	"epoch": 0.9279552343203544,
	"grad_norm": 14.582944869995117,
	"learning_rate": 4.0720447656796455e-05,
	"loss": 0.4743,
	"step": 3980
	},
	{
	"epoch": 0.9302867801352297,
	"grad_norm": 20.65665626525879,
	"learning_rate": 4.06971321986477e-05,
	"loss": 0.465,
	"step": 3990
	},
	{
	"epoch": 0.932618325950105,
	"grad_norm": 20.397233963012695,
	"learning_rate": 4.067381674049896e-05,
	"loss": 0.5524,
	"step": 4000
	},
	{
	"epoch": 0.9349498717649802,
	"grad_norm": 6.327408313751221,
	"learning_rate": 4.06505012823502e-05,
	"loss": 0.3442,
	"step": 4010
	},
	{
	"epoch": 0.9372814175798554,
	"grad_norm": 9.921250343322754,
	"learning_rate": 4.062718582420145e-05,
	"loss": 0.3566,
	"step": 4020
	},
	{
	"epoch": 0.9396129633947307,
	"grad_norm": 17.692302703857422,
	"learning_rate": 4.060387036605269e-05,
	"loss": 0.4596,
	"step": 4030
	},
	{
	"epoch": 0.9419445092096059,
	"grad_norm": 2.8422834873199463,
	"learning_rate": 4.058055490790394e-05,
	"loss": 0.4456,
	"step": 4040
	},
	{
	"epoch": 0.9442760550244812,
	"grad_norm": 16.632015228271484,
	"learning_rate": 4.055723944975519e-05,
	"loss": 0.517,
	"step": 4050
	},
	{
	"epoch": 0.9466076008393565,
	"grad_norm": 23.965824127197266,
	"learning_rate": 4.053392399160644e-05,
	"loss": 0.538,
	"step": 4060
	},
	{
	"epoch": 0.9489391466542317,
	"grad_norm": 26.93478775024414,
	"learning_rate": 4.0510608533457684e-05,
	"loss": 0.6331,
	"step": 4070
	},
	{
	"epoch": 0.951270692469107,
	"grad_norm": 24.248111724853516,
	"learning_rate": 4.048729307530893e-05,
	"loss": 0.4971,
	"step": 4080
	},
	{
	"epoch": 0.9536022382839823,
	"grad_norm": 19.178695678710938,
	"learning_rate": 4.046397761716018e-05,
	"loss": 0.4324,
	"step": 4090
	},
	{
	"epoch": 0.9559337840988575,
	"grad_norm": 19.033815383911133,
	"learning_rate": 4.0440662159011425e-05,
	"loss": 0.4867,
	"step": 4100
	},
	{
	"epoch": 0.9582653299137328,
	"grad_norm": 30.779146194458008,
	"learning_rate": 4.0417346700862676e-05,
	"loss": 0.5852,
	"step": 4110
	},
	{
	"epoch": 0.9605968757286081,
	"grad_norm": 15.432817459106445,
	"learning_rate": 4.039403124271392e-05,
	"loss": 0.5479,
	"step": 4120
	},
	{
	"epoch": 0.9629284215434833,
	"grad_norm": 20.558475494384766,
	"learning_rate": 4.0370715784565166e-05,
	"loss": 0.4594,
	"step": 4130
	},
	{
	"epoch": 0.9652599673583586,
	"grad_norm": 12.561017990112305,
	"learning_rate": 4.034740032641642e-05,
	"loss": 0.4238,
	"step": 4140
	},
	{
	"epoch": 0.9675915131732339,
	"grad_norm": 20.812999725341797,
	"learning_rate": 4.032408486826766e-05,
	"loss": 0.5912,
	"step": 4150
	},
	{
	"epoch": 0.9699230589881092,
	"grad_norm": 15.587718963623047,
	"learning_rate": 4.0300769410118914e-05,
	"loss": 0.3111,
	"step": 4160
	},
	{
	"epoch": 0.9722546048029844,
	"grad_norm": 21.68885612487793,
	"learning_rate": 4.027745395197016e-05,
	"loss": 0.4421,
	"step": 4170
	},
	{
	"epoch": 0.9745861506178597,
	"grad_norm": 8.09349536895752,
	"learning_rate": 4.02541384938214e-05,
	"loss": 0.4447,
	"step": 4180
	},
	{
	"epoch": 0.9769176964327349,
	"grad_norm": 23.542570114135742,
	"learning_rate": 4.0230823035672654e-05,
	"loss": 0.4601,
	"step": 4190
	},
	{
	"epoch": 0.9792492422476101,
	"grad_norm": 20.75370216369629,
	"learning_rate": 4.02075075775239e-05,
	"loss": 0.4899,
	"step": 4200
	},
	{
	"epoch": 0.9792492422476101,
	"eval_accuracy": 0.7809680065627563,
	"eval_f1": 0.7694587436976446,
	"eval_loss": 0.6500813961029053,
	"eval_precision": 0.7664779373382287,
	"eval_recall": 0.7765403302363741,
	"eval_runtime": 32.5513,
	"eval_samples_per_second": 37.449,
	"eval_steps_per_second": 2.365,
	"step": 4200
	}
	],
	"logging_steps": 10,
	"max_steps": 21445,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 600,
	"total_flos": 1.439676695052288e+17,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}