DamCat / trainer_state.json

Upload 9 files

d5a88bb verified 2 months ago

39.3 kB

	{
	"best_global_step": 1380,
	"best_metric": 0.9760859393830551,
	"best_model_checkpoint": "./vitmodel-results3\\checkpoint-1380",
	"epoch": 8.0,
	"eval_steps": 500,
	"global_step": 1840,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.043478260869565216,
	"grad_norm": 6.461246490478516,
	"learning_rate": 1.9947826086956524e-05,
	"loss": 0.6514617919921875,
	"step": 10
	},
	{
	"epoch": 0.08695652173913043,
	"grad_norm": 3.8991446495056152,
	"learning_rate": 1.988985507246377e-05,
	"loss": 0.45957489013671876,
	"step": 20
	},
	{
	"epoch": 0.13043478260869565,
	"grad_norm": 2.4451658725738525,
	"learning_rate": 1.9831884057971015e-05,
	"loss": 0.3501922607421875,
	"step": 30
	},
	{
	"epoch": 0.17391304347826086,
	"grad_norm": 3.7429535388946533,
	"learning_rate": 1.9773913043478265e-05,
	"loss": 0.27413215637207033,
	"step": 40
	},
	{
	"epoch": 0.21739130434782608,
	"grad_norm": 12.403484344482422,
	"learning_rate": 1.971594202898551e-05,
	"loss": 0.45773887634277344,
	"step": 50
	},
	{
	"epoch": 0.2608695652173913,
	"grad_norm": 5.481701850891113,
	"learning_rate": 1.9657971014492755e-05,
	"loss": 0.23930573463439941,
	"step": 60
	},
	{
	"epoch": 0.30434782608695654,
	"grad_norm": 4.304569244384766,
	"learning_rate": 1.9600000000000002e-05,
	"loss": 0.2975881576538086,
	"step": 70
	},
	{
	"epoch": 0.34782608695652173,
	"grad_norm": 8.520660400390625,
	"learning_rate": 1.954202898550725e-05,
	"loss": 0.2244499921798706,
	"step": 80
	},
	{
	"epoch": 0.391304347826087,
	"grad_norm": 5.180691719055176,
	"learning_rate": 1.9484057971014492e-05,
	"loss": 0.17172325849533082,
	"step": 90
	},
	{
	"epoch": 0.43478260869565216,
	"grad_norm": 0.8175772428512573,
	"learning_rate": 1.9426086956521743e-05,
	"loss": 0.2387838363647461,
	"step": 100
	},
	{
	"epoch": 0.4782608695652174,
	"grad_norm": 0.4058602452278137,
	"learning_rate": 1.9368115942028986e-05,
	"loss": 0.10988756418228149,
	"step": 110
	},
	{
	"epoch": 0.5217391304347826,
	"grad_norm": 0.9439899921417236,
	"learning_rate": 1.9310144927536233e-05,
	"loss": 0.14697353839874266,
	"step": 120
	},
	{
	"epoch": 0.5652173913043478,
	"grad_norm": 0.6720163822174072,
	"learning_rate": 1.925217391304348e-05,
	"loss": 0.21182384490966796,
	"step": 130
	},
	{
	"epoch": 0.6086956521739131,
	"grad_norm": 0.371541291475296,
	"learning_rate": 1.9194202898550727e-05,
	"loss": 0.2180387258529663,
	"step": 140
	},
	{
	"epoch": 0.6521739130434783,
	"grad_norm": 1.6255207061767578,
	"learning_rate": 1.9136231884057973e-05,
	"loss": 0.20694243907928467,
	"step": 150
	},
	{
	"epoch": 0.6956521739130435,
	"grad_norm": 7.544068813323975,
	"learning_rate": 1.907826086956522e-05,
	"loss": 0.1606433391571045,
	"step": 160
	},
	{
	"epoch": 0.7391304347826086,
	"grad_norm": 0.549288272857666,
	"learning_rate": 1.9020289855072464e-05,
	"loss": 0.17944023609161378,
	"step": 170
	},
	{
	"epoch": 0.782608695652174,
	"grad_norm": 0.43946510553359985,
	"learning_rate": 1.896231884057971e-05,
	"loss": 0.2129380226135254,
	"step": 180
	},
	{
	"epoch": 0.8260869565217391,
	"grad_norm": 0.20731233060359955,
	"learning_rate": 1.8904347826086957e-05,
	"loss": 0.11439937353134155,
	"step": 190
	},
	{
	"epoch": 0.8695652173913043,
	"grad_norm": 0.1378840208053589,
	"learning_rate": 1.8846376811594204e-05,
	"loss": 0.21877152919769288,
	"step": 200
	},
	{
	"epoch": 0.9130434782608695,
	"grad_norm": 0.35801249742507935,
	"learning_rate": 1.878840579710145e-05,
	"loss": 0.10442726612091065,
	"step": 210
	},
	{
	"epoch": 0.9565217391304348,
	"grad_norm": 10.050288200378418,
	"learning_rate": 1.8730434782608698e-05,
	"loss": 0.19560953378677368,
	"step": 220
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.15084530413150787,
	"learning_rate": 1.867246376811594e-05,
	"loss": 0.02761389911174774,
	"step": 230
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.9521739130434783,
	"eval_f1": 0.9520642679853729,
	"eval_loss": 0.14785830676555634,
	"eval_runtime": 5.6109,
	"eval_samples_per_second": 81.984,
	"eval_steps_per_second": 10.337,
	"step": 230
	},
	{
	"epoch": 1.0434782608695652,
	"grad_norm": 0.186416894197464,
	"learning_rate": 1.861449275362319e-05,
	"loss": 0.04351995289325714,
	"step": 240
	},
	{
	"epoch": 1.0869565217391304,
	"grad_norm": 0.06740374863147736,
	"learning_rate": 1.8556521739130435e-05,
	"loss": 0.005690252780914307,
	"step": 250
	},
	{
	"epoch": 1.1304347826086956,
	"grad_norm": 6.0832743644714355,
	"learning_rate": 1.8498550724637682e-05,
	"loss": 0.016183775663375855,
	"step": 260
	},
	{
	"epoch": 1.1739130434782608,
	"grad_norm": 0.025469312444329262,
	"learning_rate": 1.844057971014493e-05,
	"loss": 0.025768563151359558,
	"step": 270
	},
	{
	"epoch": 1.2173913043478262,
	"grad_norm": 0.05013096332550049,
	"learning_rate": 1.8382608695652175e-05,
	"loss": 0.07644214630126953,
	"step": 280
	},
	{
	"epoch": 1.2608695652173914,
	"grad_norm": 0.19063518941402435,
	"learning_rate": 1.8324637681159422e-05,
	"loss": 0.06052442789077759,
	"step": 290
	},
	{
	"epoch": 1.3043478260869565,
	"grad_norm": 0.04668483883142471,
	"learning_rate": 1.826666666666667e-05,
	"loss": 0.0497345507144928,
	"step": 300
	},
	{
	"epoch": 1.3478260869565217,
	"grad_norm": 0.027216244488954544,
	"learning_rate": 1.8208695652173916e-05,
	"loss": 0.08886347413063049,
	"step": 310
	},
	{
	"epoch": 1.391304347826087,
	"grad_norm": 0.3011648952960968,
	"learning_rate": 1.815072463768116e-05,
	"loss": 0.0871780276298523,
	"step": 320
	},
	{
	"epoch": 1.434782608695652,
	"grad_norm": 9.434959411621094,
	"learning_rate": 1.809275362318841e-05,
	"loss": 0.06977825760841369,
	"step": 330
	},
	{
	"epoch": 1.4782608695652173,
	"grad_norm": 0.07939770817756653,
	"learning_rate": 1.8034782608695653e-05,
	"loss": 0.11019858121871948,
	"step": 340
	},
	{
	"epoch": 1.5217391304347827,
	"grad_norm": 6.755427837371826,
	"learning_rate": 1.79768115942029e-05,
	"loss": 0.07228946685791016,
	"step": 350
	},
	{
	"epoch": 1.5652173913043477,
	"grad_norm": 10.783921241760254,
	"learning_rate": 1.7918840579710147e-05,
	"loss": 0.06457504034042358,
	"step": 360
	},
	{
	"epoch": 1.608695652173913,
	"grad_norm": 0.10878543555736542,
	"learning_rate": 1.7860869565217394e-05,
	"loss": 0.021503202617168427,
	"step": 370
	},
	{
	"epoch": 1.6521739130434783,
	"grad_norm": 0.25200846791267395,
	"learning_rate": 1.780289855072464e-05,
	"loss": 0.06428139805793762,
	"step": 380
	},
	{
	"epoch": 1.6956521739130435,
	"grad_norm": 1.0684906244277954,
	"learning_rate": 1.7744927536231887e-05,
	"loss": 0.09642828106880189,
	"step": 390
	},
	{
	"epoch": 1.7391304347826086,
	"grad_norm": 12.593297004699707,
	"learning_rate": 1.768695652173913e-05,
	"loss": 0.028580766916275025,
	"step": 400
	},
	{
	"epoch": 1.7826086956521738,
	"grad_norm": 0.04352446645498276,
	"learning_rate": 1.7628985507246377e-05,
	"loss": 0.1266841173171997,
	"step": 410
	},
	{
	"epoch": 1.8260869565217392,
	"grad_norm": 0.03208275884389877,
	"learning_rate": 1.7571014492753624e-05,
	"loss": 0.0604109525680542,
	"step": 420
	},
	{
	"epoch": 1.8695652173913042,
	"grad_norm": 0.0292875487357378,
	"learning_rate": 1.751304347826087e-05,
	"loss": 0.08443626761436462,
	"step": 430
	},
	{
	"epoch": 1.9130434782608696,
	"grad_norm": 0.04183952882885933,
	"learning_rate": 1.7455072463768118e-05,
	"loss": 0.026611250638961793,
	"step": 440
	},
	{
	"epoch": 1.9565217391304348,
	"grad_norm": 0.419708788394928,
	"learning_rate": 1.7397101449275365e-05,
	"loss": 0.1165506362915039,
	"step": 450
	},
	{
	"epoch": 2.0,
	"grad_norm": 8.380155563354492,
	"learning_rate": 1.7339130434782608e-05,
	"loss": 0.041912269592285153,
	"step": 460
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.9565217391304348,
	"eval_f1": 0.9565184513006655,
	"eval_loss": 0.1165793240070343,
	"eval_runtime": 3.7298,
	"eval_samples_per_second": 123.331,
	"eval_steps_per_second": 15.55,
	"step": 460
	},
	{
	"epoch": 2.0434782608695654,
	"grad_norm": 0.07667429745197296,
	"learning_rate": 1.728115942028986e-05,
	"loss": 0.0013138219714164735,
	"step": 470
	},
	{
	"epoch": 2.0869565217391304,
	"grad_norm": 0.05316108465194702,
	"learning_rate": 1.7223188405797102e-05,
	"loss": 0.004785384237766266,
	"step": 480
	},
	{
	"epoch": 2.130434782608696,
	"grad_norm": 0.018993400037288666,
	"learning_rate": 1.716521739130435e-05,
	"loss": 0.0010403752326965331,
	"step": 490
	},
	{
	"epoch": 2.1739130434782608,
	"grad_norm": 0.005419578403234482,
	"learning_rate": 1.7107246376811596e-05,
	"loss": 0.0010405436158180236,
	"step": 500
	},
	{
	"epoch": 2.217391304347826,
	"grad_norm": 2.7880542278289795,
	"learning_rate": 1.7049275362318842e-05,
	"loss": 0.01008293330669403,
	"step": 510
	},
	{
	"epoch": 2.260869565217391,
	"grad_norm": 0.19926372170448303,
	"learning_rate": 1.6991304347826086e-05,
	"loss": 0.002237708866596222,
	"step": 520
	},
	{
	"epoch": 2.3043478260869565,
	"grad_norm": 0.006354826502501965,
	"learning_rate": 1.6933333333333336e-05,
	"loss": 0.015198694169521331,
	"step": 530
	},
	{
	"epoch": 2.3478260869565215,
	"grad_norm": 0.01782035082578659,
	"learning_rate": 1.687536231884058e-05,
	"loss": 0.0017350628972053529,
	"step": 540
	},
	{
	"epoch": 2.391304347826087,
	"grad_norm": 0.6461467742919922,
	"learning_rate": 1.6817391304347826e-05,
	"loss": 0.0012194350361824035,
	"step": 550
	},
	{
	"epoch": 2.4347826086956523,
	"grad_norm": 0.014753537252545357,
	"learning_rate": 1.6759420289855073e-05,
	"loss": 0.03461991548538208,
	"step": 560
	},
	{
	"epoch": 2.4782608695652173,
	"grad_norm": 0.015930302441120148,
	"learning_rate": 1.670144927536232e-05,
	"loss": 0.0030654460191726685,
	"step": 570
	},
	{
	"epoch": 2.5217391304347827,
	"grad_norm": 0.07892700284719467,
	"learning_rate": 1.6643478260869567e-05,
	"loss": 0.0017842918634414673,
	"step": 580
	},
	{
	"epoch": 2.5652173913043477,
	"grad_norm": 0.05785762518644333,
	"learning_rate": 1.6585507246376814e-05,
	"loss": 0.0016030147671699524,
	"step": 590
	},
	{
	"epoch": 2.608695652173913,
	"grad_norm": 0.051935892552137375,
	"learning_rate": 1.652753623188406e-05,
	"loss": 0.0006048619747161865,
	"step": 600
	},
	{
	"epoch": 2.6521739130434785,
	"grad_norm": 0.009883932769298553,
	"learning_rate": 1.6469565217391304e-05,
	"loss": 0.0022064462304115296,
	"step": 610
	},
	{
	"epoch": 2.6956521739130435,
	"grad_norm": 0.01653284765779972,
	"learning_rate": 1.6411594202898554e-05,
	"loss": 0.010119739174842834,
	"step": 620
	},
	{
	"epoch": 2.7391304347826084,
	"grad_norm": 0.013404067605733871,
	"learning_rate": 1.6353623188405798e-05,
	"loss": 0.004131542146205902,
	"step": 630
	},
	{
	"epoch": 2.782608695652174,
	"grad_norm": 0.009171389043331146,
	"learning_rate": 1.6295652173913044e-05,
	"loss": 0.08883790969848633,
	"step": 640
	},
	{
	"epoch": 2.8260869565217392,
	"grad_norm": 12.090933799743652,
	"learning_rate": 1.623768115942029e-05,
	"loss": 0.010134254395961762,
	"step": 650
	},
	{
	"epoch": 2.869565217391304,
	"grad_norm": 4.632288455963135,
	"learning_rate": 1.6179710144927538e-05,
	"loss": 0.003986392915248871,
	"step": 660
	},
	{
	"epoch": 2.9130434782608696,
	"grad_norm": 0.06515643000602722,
	"learning_rate": 1.6121739130434785e-05,
	"loss": 0.0041788950562477115,
	"step": 670
	},
	{
	"epoch": 2.9565217391304346,
	"grad_norm": 0.33638763427734375,
	"learning_rate": 1.6063768115942032e-05,
	"loss": 0.0013911113142967223,
	"step": 680
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.1827061027288437,
	"learning_rate": 1.6005797101449275e-05,
	"loss": 0.0004976257681846618,
	"step": 690
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.9695652173913043,
	"eval_f1": 0.9695652173913043,
	"eval_loss": 0.09442394226789474,
	"eval_runtime": 3.6984,
	"eval_samples_per_second": 124.377,
	"eval_steps_per_second": 15.682,
	"step": 690
	},
	{
	"epoch": 3.0434782608695654,
	"grad_norm": 0.04813811555504799,
	"learning_rate": 1.5947826086956522e-05,
	"loss": 0.0004477664828300476,
	"step": 700
	},
	{
	"epoch": 3.0869565217391304,
	"grad_norm": 0.0175640732049942,
	"learning_rate": 1.588985507246377e-05,
	"loss": 0.0004123836755752563,
	"step": 710
	},
	{
	"epoch": 3.130434782608696,
	"grad_norm": 0.008048221468925476,
	"learning_rate": 1.5831884057971016e-05,
	"loss": 0.0004120379686355591,
	"step": 720
	},
	{
	"epoch": 3.1739130434782608,
	"grad_norm": 0.0071647269651293755,
	"learning_rate": 1.5773913043478263e-05,
	"loss": 0.00032983869314193723,
	"step": 730
	},
	{
	"epoch": 3.217391304347826,
	"grad_norm": 0.015544029884040356,
	"learning_rate": 1.571594202898551e-05,
	"loss": 0.00034575462341308595,
	"step": 740
	},
	{
	"epoch": 3.260869565217391,
	"grad_norm": 0.004907351918518543,
	"learning_rate": 1.5657971014492753e-05,
	"loss": 0.00026599913835525515,
	"step": 750
	},
	{
	"epoch": 3.3043478260869565,
	"grad_norm": 0.013097843155264854,
	"learning_rate": 1.5600000000000003e-05,
	"loss": 0.0016580477356910705,
	"step": 760
	},
	{
	"epoch": 3.3478260869565215,
	"grad_norm": 0.004332110285758972,
	"learning_rate": 1.5542028985507247e-05,
	"loss": 0.00046425610780715943,
	"step": 770
	},
	{
	"epoch": 3.391304347826087,
	"grad_norm": 0.06276489794254303,
	"learning_rate": 1.5484057971014493e-05,
	"loss": 0.0007047504186630249,
	"step": 780
	},
	{
	"epoch": 3.4347826086956523,
	"grad_norm": 0.00449096504598856,
	"learning_rate": 1.542608695652174e-05,
	"loss": 0.0002553284168243408,
	"step": 790
	},
	{
	"epoch": 3.4782608695652173,
	"grad_norm": 0.011169650591909885,
	"learning_rate": 1.5368115942028987e-05,
	"loss": 0.0003493279218673706,
	"step": 800
	},
	{
	"epoch": 3.5217391304347827,
	"grad_norm": 0.025958970189094543,
	"learning_rate": 1.5310144927536234e-05,
	"loss": 0.0002732709050178528,
	"step": 810
	},
	{
	"epoch": 3.5652173913043477,
	"grad_norm": 0.01937592588365078,
	"learning_rate": 1.5252173913043479e-05,
	"loss": 0.000246034562587738,
	"step": 820
	},
	{
	"epoch": 3.608695652173913,
	"grad_norm": 0.00856866966933012,
	"learning_rate": 1.5194202898550726e-05,
	"loss": 0.00028263479471206664,
	"step": 830
	},
	{
	"epoch": 3.6521739130434785,
	"grad_norm": 0.12088195979595184,
	"learning_rate": 1.5136231884057973e-05,
	"loss": 0.0003507554531097412,
	"step": 840
	},
	{
	"epoch": 3.6956521739130435,
	"grad_norm": 0.02024533785879612,
	"learning_rate": 1.5078260869565218e-05,
	"loss": 0.00027790963649749757,
	"step": 850
	},
	{
	"epoch": 3.7391304347826084,
	"grad_norm": 0.0040628910064697266,
	"learning_rate": 1.5020289855072465e-05,
	"loss": 0.0002285495400428772,
	"step": 860
	},
	{
	"epoch": 3.782608695652174,
	"grad_norm": 0.0061136772856116295,
	"learning_rate": 1.496231884057971e-05,
	"loss": 0.00027128159999847414,
	"step": 870
	},
	{
	"epoch": 3.8260869565217392,
	"grad_norm": 0.012037448585033417,
	"learning_rate": 1.4904347826086958e-05,
	"loss": 0.0002808883786201477,
	"step": 880
	},
	{
	"epoch": 3.869565217391304,
	"grad_norm": 0.004823528695851564,
	"learning_rate": 1.4846376811594203e-05,
	"loss": 0.0005329117178916931,
	"step": 890
	},
	{
	"epoch": 3.9130434782608696,
	"grad_norm": 0.04427816718816757,
	"learning_rate": 1.478840579710145e-05,
	"loss": 0.00029876679182052614,
	"step": 900
	},
	{
	"epoch": 3.9565217391304346,
	"grad_norm": 0.04008401557803154,
	"learning_rate": 1.4730434782608695e-05,
	"loss": 0.00039345473051071166,
	"step": 910
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.010993687435984612,
	"learning_rate": 1.4672463768115944e-05,
	"loss": 0.00024021416902542114,
	"step": 920
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.967391304347826,
	"eval_f1": 0.967383751435824,
	"eval_loss": 0.10565203428268433,
	"eval_runtime": 3.7655,
	"eval_samples_per_second": 122.162,
	"eval_steps_per_second": 15.403,
	"step": 920
	},
	{
	"epoch": 4.043478260869565,
	"grad_norm": 0.009720547124743462,
	"learning_rate": 1.461449275362319e-05,
	"loss": 0.00024558454751968386,
	"step": 930
	},
	{
	"epoch": 4.086956521739131,
	"grad_norm": 0.017342587932944298,
	"learning_rate": 1.4556521739130436e-05,
	"loss": 0.00018810927867889403,
	"step": 940
	},
	{
	"epoch": 4.130434782608695,
	"grad_norm": 0.011509642004966736,
	"learning_rate": 1.4498550724637683e-05,
	"loss": 0.00023101717233657836,
	"step": 950
	},
	{
	"epoch": 4.173913043478261,
	"grad_norm": 0.0029383855871856213,
	"learning_rate": 1.4440579710144928e-05,
	"loss": 0.00020957440137863158,
	"step": 960
	},
	{
	"epoch": 4.217391304347826,
	"grad_norm": 0.016090553253889084,
	"learning_rate": 1.4382608695652176e-05,
	"loss": 0.0001988038420677185,
	"step": 970
	},
	{
	"epoch": 4.260869565217392,
	"grad_norm": 0.005717333406209946,
	"learning_rate": 1.4324637681159422e-05,
	"loss": 0.00017771720886230468,
	"step": 980
	},
	{
	"epoch": 4.304347826086957,
	"grad_norm": 0.0067417211830616,
	"learning_rate": 1.4266666666666668e-05,
	"loss": 0.0001595720648765564,
	"step": 990
	},
	{
	"epoch": 4.3478260869565215,
	"grad_norm": 0.014678889885544777,
	"learning_rate": 1.4208695652173914e-05,
	"loss": 0.00021335333585739135,
	"step": 1000
	},
	{
	"epoch": 4.391304347826087,
	"grad_norm": 0.015480758622288704,
	"learning_rate": 1.4150724637681162e-05,
	"loss": 0.00018725097179412843,
	"step": 1010
	},
	{
	"epoch": 4.434782608695652,
	"grad_norm": 0.009670041501522064,
	"learning_rate": 1.4092753623188407e-05,
	"loss": 0.00017006248235702516,
	"step": 1020
	},
	{
	"epoch": 4.478260869565218,
	"grad_norm": 0.004368505906313658,
	"learning_rate": 1.4034782608695654e-05,
	"loss": 0.00011847317218780518,
	"step": 1030
	},
	{
	"epoch": 4.521739130434782,
	"grad_norm": 0.00646650604903698,
	"learning_rate": 1.39768115942029e-05,
	"loss": 0.00011199414730072022,
	"step": 1040
	},
	{
	"epoch": 4.565217391304348,
	"grad_norm": 0.0032207826152443886,
	"learning_rate": 1.3918840579710146e-05,
	"loss": 0.0001057848334312439,
	"step": 1050
	},
	{
	"epoch": 4.608695652173913,
	"grad_norm": 0.004954950883984566,
	"learning_rate": 1.3860869565217391e-05,
	"loss": 0.00018178075551986695,
	"step": 1060
	},
	{
	"epoch": 4.6521739130434785,
	"grad_norm": 0.002452458254992962,
	"learning_rate": 1.380289855072464e-05,
	"loss": 0.00011045336723327636,
	"step": 1070
	},
	{
	"epoch": 4.695652173913043,
	"grad_norm": 0.008102525025606155,
	"learning_rate": 1.3744927536231885e-05,
	"loss": 0.00026093870401382445,
	"step": 1080
	},
	{
	"epoch": 4.739130434782608,
	"grad_norm": 0.010890824720263481,
	"learning_rate": 1.3686956521739132e-05,
	"loss": 0.0001526176929473877,
	"step": 1090
	},
	{
	"epoch": 4.782608695652174,
	"grad_norm": 0.004832288715988398,
	"learning_rate": 1.3628985507246377e-05,
	"loss": 0.0004844769835472107,
	"step": 1100
	},
	{
	"epoch": 4.826086956521739,
	"grad_norm": 0.0037648973520845175,
	"learning_rate": 1.3571014492753625e-05,
	"loss": 0.00011702477931976318,
	"step": 1110
	},
	{
	"epoch": 4.869565217391305,
	"grad_norm": 0.005592594854533672,
	"learning_rate": 1.351304347826087e-05,
	"loss": 0.00010377466678619384,
	"step": 1120
	},
	{
	"epoch": 4.913043478260869,
	"grad_norm": 0.007901474833488464,
	"learning_rate": 1.3455072463768117e-05,
	"loss": 0.00013610869646072388,
	"step": 1130
	},
	{
	"epoch": 4.956521739130435,
	"grad_norm": 0.01237920019775629,
	"learning_rate": 1.3397101449275362e-05,
	"loss": 0.00013603121042251586,
	"step": 1140
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.0020453499164432287,
	"learning_rate": 1.333913043478261e-05,
	"loss": 0.0001194879412651062,
	"step": 1150
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.9739130434782609,
	"eval_f1": 0.9739110707803992,
	"eval_loss": 0.10354098677635193,
	"eval_runtime": 3.6993,
	"eval_samples_per_second": 124.349,
	"eval_steps_per_second": 15.679,
	"step": 1150
	},
	{
	"epoch": 5.043478260869565,
	"grad_norm": 0.006073773372918367,
	"learning_rate": 1.3281159420289856e-05,
	"loss": 0.00012996643781661987,
	"step": 1160
	},
	{
	"epoch": 5.086956521739131,
	"grad_norm": 0.004777880851179361,
	"learning_rate": 1.3223188405797103e-05,
	"loss": 0.0001592189073562622,
	"step": 1170
	},
	{
	"epoch": 5.130434782608695,
	"grad_norm": 0.057864073663949966,
	"learning_rate": 1.3165217391304348e-05,
	"loss": 0.00019505620002746582,
	"step": 1180
	},
	{
	"epoch": 5.173913043478261,
	"grad_norm": 0.004903986118733883,
	"learning_rate": 1.3107246376811595e-05,
	"loss": 0.00014082193374633789,
	"step": 1190
	},
	{
	"epoch": 5.217391304347826,
	"grad_norm": 0.0034294510260224342,
	"learning_rate": 1.304927536231884e-05,
	"loss": 0.00015170425176620484,
	"step": 1200
	},
	{
	"epoch": 5.260869565217392,
	"grad_norm": 0.0011764679802581668,
	"learning_rate": 1.2991304347826089e-05,
	"loss": 7.397085428237916e-05,
	"step": 1210
	},
	{
	"epoch": 5.304347826086957,
	"grad_norm": 0.0015955602284520864,
	"learning_rate": 1.2933333333333334e-05,
	"loss": 0.00010628998279571533,
	"step": 1220
	},
	{
	"epoch": 5.3478260869565215,
	"grad_norm": 0.0054084137082099915,
	"learning_rate": 1.287536231884058e-05,
	"loss": 0.00010003894567489624,
	"step": 1230
	},
	{
	"epoch": 5.391304347826087,
	"grad_norm": 0.0409197136759758,
	"learning_rate": 1.2817391304347827e-05,
	"loss": 0.0001949608325958252,
	"step": 1240
	},
	{
	"epoch": 5.434782608695652,
	"grad_norm": 0.005638486705720425,
	"learning_rate": 1.2759420289855074e-05,
	"loss": 0.00010839402675628662,
	"step": 1250
	},
	{
	"epoch": 5.478260869565218,
	"grad_norm": 0.002196825807914138,
	"learning_rate": 1.2701449275362321e-05,
	"loss": 0.00011780411005020141,
	"step": 1260
	},
	{
	"epoch": 5.521739130434782,
	"grad_norm": 0.004170795436948538,
	"learning_rate": 1.2643478260869566e-05,
	"loss": 7.52761960029602e-05,
	"step": 1270
	},
	{
	"epoch": 5.565217391304348,
	"grad_norm": 0.0018888239283114672,
	"learning_rate": 1.2585507246376813e-05,
	"loss": 8.64073634147644e-05,
	"step": 1280
	},
	{
	"epoch": 5.608695652173913,
	"grad_norm": 0.004605341702699661,
	"learning_rate": 1.2527536231884058e-05,
	"loss": 0.00010445266962051391,
	"step": 1290
	},
	{
	"epoch": 5.6521739130434785,
	"grad_norm": 0.003109138226136565,
	"learning_rate": 1.2469565217391307e-05,
	"loss": 0.00017313212156295777,
	"step": 1300
	},
	{
	"epoch": 5.695652173913043,
	"grad_norm": 0.010427464731037617,
	"learning_rate": 1.2411594202898552e-05,
	"loss": 0.00013125985860824586,
	"step": 1310
	},
	{
	"epoch": 5.739130434782608,
	"grad_norm": 0.003667028620839119,
	"learning_rate": 1.2353623188405799e-05,
	"loss": 8.144229650497437e-05,
	"step": 1320
	},
	{
	"epoch": 5.782608695652174,
	"grad_norm": 0.0063975197263062,
	"learning_rate": 1.2295652173913044e-05,
	"loss": 8.790493011474609e-05,
	"step": 1330
	},
	{
	"epoch": 5.826086956521739,
	"grad_norm": 0.0025064516812562943,
	"learning_rate": 1.2237681159420292e-05,
	"loss": 9.892880916595459e-05,
	"step": 1340
	},
	{
	"epoch": 5.869565217391305,
	"grad_norm": 0.0023004047106951475,
	"learning_rate": 1.2179710144927537e-05,
	"loss": 8.99285078048706e-05,
	"step": 1350
	},
	{
	"epoch": 5.913043478260869,
	"grad_norm": 0.00247712479904294,
	"learning_rate": 1.2121739130434784e-05,
	"loss": 7.850229740142822e-05,
	"step": 1360
	},
	{
	"epoch": 5.956521739130435,
	"grad_norm": 0.004787979181855917,
	"learning_rate": 1.206376811594203e-05,
	"loss": 0.00013543367385864257,
	"step": 1370
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.0011665808269754052,
	"learning_rate": 1.2005797101449276e-05,
	"loss": 0.00010280609130859375,
	"step": 1380
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.9760869565217392,
	"eval_f1": 0.9760859393830551,
	"eval_loss": 0.10542083531618118,
	"eval_runtime": 3.6712,
	"eval_samples_per_second": 125.301,
	"eval_steps_per_second": 15.799,
	"step": 1380
	},
	{
	"epoch": 6.043478260869565,
	"grad_norm": 0.003608932951465249,
	"learning_rate": 1.1947826086956521e-05,
	"loss": 6.381869316101074e-05,
	"step": 1390
	},
	{
	"epoch": 6.086956521739131,
	"grad_norm": 0.001413961173966527,
	"learning_rate": 1.188985507246377e-05,
	"loss": 0.00011366158723831176,
	"step": 1400
	},
	{
	"epoch": 6.130434782608695,
	"grad_norm": 0.008014041930437088,
	"learning_rate": 1.1831884057971015e-05,
	"loss": 8.733570575714111e-05,
	"step": 1410
	},
	{
	"epoch": 6.173913043478261,
	"grad_norm": 0.003111343365162611,
	"learning_rate": 1.1773913043478262e-05,
	"loss": 8.406937122344971e-05,
	"step": 1420
	},
	{
	"epoch": 6.217391304347826,
	"grad_norm": 0.005770743824541569,
	"learning_rate": 1.1715942028985507e-05,
	"loss": 0.00010157078504562378,
	"step": 1430
	},
	{
	"epoch": 6.260869565217392,
	"grad_norm": 0.0032873093150556087,
	"learning_rate": 1.1657971014492756e-05,
	"loss": 0.00014556646347045897,
	"step": 1440
	},
	{
	"epoch": 6.304347826086957,
	"grad_norm": 0.001812812639400363,
	"learning_rate": 1.16e-05,
	"loss": 0.00010097324848175049,
	"step": 1450
	},
	{
	"epoch": 6.3478260869565215,
	"grad_norm": 0.004035606049001217,
	"learning_rate": 1.1542028985507248e-05,
	"loss": 9.941011667251587e-05,
	"step": 1460
	},
	{
	"epoch": 6.391304347826087,
	"grad_norm": 0.0012575940927490592,
	"learning_rate": 1.1484057971014493e-05,
	"loss": 6.15835189819336e-05,
	"step": 1470
	},
	{
	"epoch": 6.434782608695652,
	"grad_norm": 0.003833119058981538,
	"learning_rate": 1.142608695652174e-05,
	"loss": 8.669793605804443e-05,
	"step": 1480
	},
	{
	"epoch": 6.478260869565218,
	"grad_norm": 0.004782689735293388,
	"learning_rate": 1.1368115942028985e-05,
	"loss": 7.78600573539734e-05,
	"step": 1490
	},
	{
	"epoch": 6.521739130434782,
	"grad_norm": 0.001532797235995531,
	"learning_rate": 1.1310144927536233e-05,
	"loss": 6.358325481414795e-05,
	"step": 1500
	},
	{
	"epoch": 6.565217391304348,
	"grad_norm": 0.002565442817285657,
	"learning_rate": 1.1252173913043478e-05,
	"loss": 0.0001420259475708008,
	"step": 1510
	},
	{
	"epoch": 6.608695652173913,
	"grad_norm": 0.0025454177521169186,
	"learning_rate": 1.1194202898550725e-05,
	"loss": 8.515864610671997e-05,
	"step": 1520
	},
	{
	"epoch": 6.6521739130434785,
	"grad_norm": 0.0020964243449270725,
	"learning_rate": 1.113623188405797e-05,
	"loss": 6.471127271652221e-05,
	"step": 1530
	},
	{
	"epoch": 6.695652173913043,
	"grad_norm": 0.003716124454513192,
	"learning_rate": 1.1078260869565219e-05,
	"loss": 8.204132318496704e-05,
	"step": 1540
	},
	{
	"epoch": 6.739130434782608,
	"grad_norm": 0.008757402189075947,
	"learning_rate": 1.1020289855072466e-05,
	"loss": 8.024424314498902e-05,
	"step": 1550
	},
	{
	"epoch": 6.782608695652174,
	"grad_norm": 0.0014845369150862098,
	"learning_rate": 1.096231884057971e-05,
	"loss": 6.451904773712158e-05,
	"step": 1560
	},
	{
	"epoch": 6.826086956521739,
	"grad_norm": 0.008402503095567226,
	"learning_rate": 1.0904347826086958e-05,
	"loss": 0.00010472536087036133,
	"step": 1570
	},
	{
	"epoch": 6.869565217391305,
	"grad_norm": 0.0024845916777849197,
	"learning_rate": 1.0846376811594203e-05,
	"loss": 7.791221141815186e-05,
	"step": 1580
	},
	{
	"epoch": 6.913043478260869,
	"grad_norm": 0.0009611704736016691,
	"learning_rate": 1.0788405797101451e-05,
	"loss": 6.439834833145141e-05,
	"step": 1590
	},
	{
	"epoch": 6.956521739130435,
	"grad_norm": 0.002504365984350443,
	"learning_rate": 1.0730434782608696e-05,
	"loss": 0.00010657459497451783,
	"step": 1600
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.0028592213056981564,
	"learning_rate": 1.0672463768115943e-05,
	"loss": 6.621479988098145e-05,
	"step": 1610
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.9717391304347827,
	"eval_f1": 0.9717357910906297,
	"eval_loss": 0.10924158990383148,
	"eval_runtime": 3.7267,
	"eval_samples_per_second": 123.432,
	"eval_steps_per_second": 15.563,
	"step": 1610
	},
	{
	"epoch": 7.043478260869565,
	"grad_norm": 0.0038551699835807085,
	"learning_rate": 1.0614492753623188e-05,
	"loss": 6.931275129318237e-05,
	"step": 1620
	},
	{
	"epoch": 7.086956521739131,
	"grad_norm": 0.001955242594704032,
	"learning_rate": 1.0556521739130437e-05,
	"loss": 6.8606436252594e-05,
	"step": 1630
	},
	{
	"epoch": 7.130434782608695,
	"grad_norm": 0.0016041912604123354,
	"learning_rate": 1.0498550724637682e-05,
	"loss": 5.517750978469849e-05,
	"step": 1640
	},
	{
	"epoch": 7.173913043478261,
	"grad_norm": 0.00400899862870574,
	"learning_rate": 1.0440579710144929e-05,
	"loss": 6.250441074371338e-05,
	"step": 1650
	},
	{
	"epoch": 7.217391304347826,
	"grad_norm": 0.00452436925843358,
	"learning_rate": 1.0382608695652174e-05,
	"loss": 7.809549570083618e-05,
	"step": 1660
	},
	{
	"epoch": 7.260869565217392,
	"grad_norm": 0.004081172402948141,
	"learning_rate": 1.0324637681159423e-05,
	"loss": 6.081312894821167e-05,
	"step": 1670
	},
	{
	"epoch": 7.304347826086957,
	"grad_norm": 0.0009276916971430182,
	"learning_rate": 1.0266666666666668e-05,
	"loss": 7.750093936920166e-05,
	"step": 1680
	},
	{
	"epoch": 7.3478260869565215,
	"grad_norm": 0.0008240043534897268,
	"learning_rate": 1.0208695652173915e-05,
	"loss": 5.295425653457641e-05,
	"step": 1690
	},
	{
	"epoch": 7.391304347826087,
	"grad_norm": 0.0009307338623329997,
	"learning_rate": 1.015072463768116e-05,
	"loss": 4.418641328811646e-05,
	"step": 1700
	},
	{
	"epoch": 7.434782608695652,
	"grad_norm": 0.0026277746073901653,
	"learning_rate": 1.0092753623188407e-05,
	"loss": 7.459372282028198e-05,
	"step": 1710
	},
	{
	"epoch": 7.478260869565218,
	"grad_norm": 0.0009984400821849704,
	"learning_rate": 1.0034782608695652e-05,
	"loss": 5.8722496032714846e-05,
	"step": 1720
	},
	{
	"epoch": 7.521739130434782,
	"grad_norm": 0.006830462254583836,
	"learning_rate": 9.9768115942029e-06,
	"loss": 0.00010163038969039917,
	"step": 1730
	},
	{
	"epoch": 7.565217391304348,
	"grad_norm": 0.002571334131062031,
	"learning_rate": 9.918840579710145e-06,
	"loss": 4.719942808151245e-05,
	"step": 1740
	},
	{
	"epoch": 7.608695652173913,
	"grad_norm": 0.006324245594441891,
	"learning_rate": 9.860869565217392e-06,
	"loss": 0.00011334121227264404,
	"step": 1750
	},
	{
	"epoch": 7.6521739130434785,
	"grad_norm": 0.004802050068974495,
	"learning_rate": 9.802898550724639e-06,
	"loss": 7.033348083496094e-05,
	"step": 1760
	},
	{
	"epoch": 7.695652173913043,
	"grad_norm": 0.004078683443367481,
	"learning_rate": 9.744927536231886e-06,
	"loss": 7.486343383789062e-05,
	"step": 1770
	},
	{
	"epoch": 7.739130434782608,
	"grad_norm": 0.0017736013978719711,
	"learning_rate": 9.686956521739131e-06,
	"loss": 6.642341613769532e-05,
	"step": 1780
	},
	{
	"epoch": 7.782608695652174,
	"grad_norm": 0.0009903659811243415,
	"learning_rate": 9.628985507246378e-06,
	"loss": 6.065666675567627e-05,
	"step": 1790
	},
	{
	"epoch": 7.826086956521739,
	"grad_norm": 0.0012112981639802456,
	"learning_rate": 9.571014492753625e-06,
	"loss": 6.491392850875855e-05,
	"step": 1800
	},
	{
	"epoch": 7.869565217391305,
	"grad_norm": 0.0009230478899553418,
	"learning_rate": 9.51304347826087e-06,
	"loss": 5.654692649841309e-05,
	"step": 1810
	},
	{
	"epoch": 7.913043478260869,
	"grad_norm": 0.0006778881652280688,
	"learning_rate": 9.455072463768117e-06,
	"loss": 5.7981908321380614e-05,
	"step": 1820
	},
	{
	"epoch": 7.956521739130435,
	"grad_norm": 0.003380276495590806,
	"learning_rate": 9.397101449275363e-06,
	"loss": 0.00010381042957305909,
	"step": 1830
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.0043472591787576675,
	"learning_rate": 9.33913043478261e-06,
	"loss": 7.407516241073609e-05,
	"step": 1840
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.9717391304347827,
	"eval_f1": 0.9717357910906297,
	"eval_loss": 0.11276786029338837,
	"eval_runtime": 3.6362,
	"eval_samples_per_second": 126.506,
	"eval_steps_per_second": 15.951,
	"step": 1840
	}
	],
	"logging_steps": 10,
	"max_steps": 3450,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 15,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.1406820871267942e+18,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}