byt5-wsc / trainer_state.json

Upload folder using huggingface_hub

c852627 verified 7 months ago

123 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.2444444444444445,
	"eval_steps": 1000,
	"global_step": 7000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0017777777777777779,
	"grad_norm": 0.08699894696474075,
	"learning_rate": 0.000299952,
	"loss": 0.0382,
	"step": 10
	},
	{
	"epoch": 0.0035555555555555557,
	"grad_norm": 0.07960943877696991,
	"learning_rate": 0.00029989866666666664,
	"loss": 0.0469,
	"step": 20
	},
	{
	"epoch": 0.005333333333333333,
	"grad_norm": 0.10373344272375107,
	"learning_rate": 0.0002998453333333333,
	"loss": 0.0365,
	"step": 30
	},
	{
	"epoch": 0.0071111111111111115,
	"grad_norm": 0.06741292029619217,
	"learning_rate": 0.00029979199999999995,
	"loss": 0.0289,
	"step": 40
	},
	{
	"epoch": 0.008888888888888889,
	"grad_norm": 0.0950508564710617,
	"learning_rate": 0.0002997386666666666,
	"loss": 0.0301,
	"step": 50
	},
	{
	"epoch": 0.010666666666666666,
	"grad_norm": 0.09060576558113098,
	"learning_rate": 0.0002996853333333333,
	"loss": 0.0375,
	"step": 60
	},
	{
	"epoch": 0.012444444444444444,
	"grad_norm": 0.10300493985414505,
	"learning_rate": 0.000299632,
	"loss": 0.0355,
	"step": 70
	},
	{
	"epoch": 0.014222222222222223,
	"grad_norm": 0.09146833419799805,
	"learning_rate": 0.00029957866666666664,
	"loss": 0.0268,
	"step": 80
	},
	{
	"epoch": 0.016,
	"grad_norm": 0.04962315782904625,
	"learning_rate": 0.0002995253333333333,
	"loss": 0.0303,
	"step": 90
	},
	{
	"epoch": 0.017777777777777778,
	"grad_norm": 0.06788129359483719,
	"learning_rate": 0.00029947199999999995,
	"loss": 0.0344,
	"step": 100
	},
	{
	"epoch": 0.019555555555555555,
	"grad_norm": 0.08723676949739456,
	"learning_rate": 0.0002994186666666666,
	"loss": 0.031,
	"step": 110
	},
	{
	"epoch": 0.021333333333333333,
	"grad_norm": 0.07770177721977234,
	"learning_rate": 0.0002993653333333333,
	"loss": 0.0357,
	"step": 120
	},
	{
	"epoch": 0.02311111111111111,
	"grad_norm": 0.11762720346450806,
	"learning_rate": 0.000299312,
	"loss": 0.0368,
	"step": 130
	},
	{
	"epoch": 0.024888888888888887,
	"grad_norm": 0.18745559453964233,
	"learning_rate": 0.00029925866666666664,
	"loss": 0.0319,
	"step": 140
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 0.1387699544429779,
	"learning_rate": 0.0002992053333333333,
	"loss": 0.0314,
	"step": 150
	},
	{
	"epoch": 0.028444444444444446,
	"grad_norm": 0.08668556064367294,
	"learning_rate": 0.00029915199999999996,
	"loss": 0.0247,
	"step": 160
	},
	{
	"epoch": 0.030222222222222223,
	"grad_norm": 0.10908863693475723,
	"learning_rate": 0.0002990986666666666,
	"loss": 0.0206,
	"step": 170
	},
	{
	"epoch": 0.032,
	"grad_norm": 0.1083473190665245,
	"learning_rate": 0.00029904533333333333,
	"loss": 0.0293,
	"step": 180
	},
	{
	"epoch": 0.033777777777777775,
	"grad_norm": 0.0761309564113617,
	"learning_rate": 0.000298992,
	"loss": 0.0341,
	"step": 190
	},
	{
	"epoch": 0.035555555555555556,
	"grad_norm": 0.09856925159692764,
	"learning_rate": 0.00029893866666666664,
	"loss": 0.0406,
	"step": 200
	},
	{
	"epoch": 0.037333333333333336,
	"grad_norm": 0.24180924892425537,
	"learning_rate": 0.0002988853333333333,
	"loss": 0.0289,
	"step": 210
	},
	{
	"epoch": 0.03911111111111111,
	"grad_norm": 0.11392025649547577,
	"learning_rate": 0.00029883199999999996,
	"loss": 0.0292,
	"step": 220
	},
	{
	"epoch": 0.04088888888888889,
	"grad_norm": 0.05144877731800079,
	"learning_rate": 0.0002987786666666666,
	"loss": 0.0207,
	"step": 230
	},
	{
	"epoch": 0.042666666666666665,
	"grad_norm": 0.05780678242444992,
	"learning_rate": 0.00029872533333333333,
	"loss": 0.0323,
	"step": 240
	},
	{
	"epoch": 0.044444444444444446,
	"grad_norm": 0.08328460901975632,
	"learning_rate": 0.000298672,
	"loss": 0.0285,
	"step": 250
	},
	{
	"epoch": 0.04622222222222222,
	"grad_norm": 0.09992341697216034,
	"learning_rate": 0.00029861866666666665,
	"loss": 0.0304,
	"step": 260
	},
	{
	"epoch": 0.048,
	"grad_norm": 0.07704894989728928,
	"learning_rate": 0.0002985653333333333,
	"loss": 0.034,
	"step": 270
	},
	{
	"epoch": 0.049777777777777775,
	"grad_norm": 0.13885270059108734,
	"learning_rate": 0.00029851199999999996,
	"loss": 0.0272,
	"step": 280
	},
	{
	"epoch": 0.051555555555555556,
	"grad_norm": 0.26443561911582947,
	"learning_rate": 0.0002984586666666666,
	"loss": 0.03,
	"step": 290
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 0.0671650618314743,
	"learning_rate": 0.00029840533333333333,
	"loss": 0.0287,
	"step": 300
	},
	{
	"epoch": 0.05511111111111111,
	"grad_norm": 0.07168793678283691,
	"learning_rate": 0.000298352,
	"loss": 0.0327,
	"step": 310
	},
	{
	"epoch": 0.05688888888888889,
	"grad_norm": 0.18215090036392212,
	"learning_rate": 0.00029829866666666665,
	"loss": 0.0303,
	"step": 320
	},
	{
	"epoch": 0.058666666666666666,
	"grad_norm": 0.06032688915729523,
	"learning_rate": 0.0002982453333333333,
	"loss": 0.0274,
	"step": 330
	},
	{
	"epoch": 0.060444444444444446,
	"grad_norm": 0.12203675508499146,
	"learning_rate": 0.00029819199999999997,
	"loss": 0.0324,
	"step": 340
	},
	{
	"epoch": 0.06222222222222222,
	"grad_norm": 0.13374367356300354,
	"learning_rate": 0.0002981386666666666,
	"loss": 0.0304,
	"step": 350
	},
	{
	"epoch": 0.064,
	"grad_norm": 0.04323069378733635,
	"learning_rate": 0.00029808533333333334,
	"loss": 0.0297,
	"step": 360
	},
	{
	"epoch": 0.06577777777777778,
	"grad_norm": 0.09900318086147308,
	"learning_rate": 0.000298032,
	"loss": 0.0283,
	"step": 370
	},
	{
	"epoch": 0.06755555555555555,
	"grad_norm": 0.12863968312740326,
	"learning_rate": 0.00029797866666666665,
	"loss": 0.0306,
	"step": 380
	},
	{
	"epoch": 0.06933333333333333,
	"grad_norm": 0.11872851103544235,
	"learning_rate": 0.0002979253333333333,
	"loss": 0.0289,
	"step": 390
	},
	{
	"epoch": 0.07111111111111111,
	"grad_norm": 0.13416750729084015,
	"learning_rate": 0.00029787199999999997,
	"loss": 0.0402,
	"step": 400
	},
	{
	"epoch": 0.07288888888888889,
	"grad_norm": 0.1103440672159195,
	"learning_rate": 0.00029781866666666663,
	"loss": 0.0193,
	"step": 410
	},
	{
	"epoch": 0.07466666666666667,
	"grad_norm": 0.14888077974319458,
	"learning_rate": 0.00029776533333333334,
	"loss": 0.0317,
	"step": 420
	},
	{
	"epoch": 0.07644444444444444,
	"grad_norm": 0.13680554926395416,
	"learning_rate": 0.000297712,
	"loss": 0.0341,
	"step": 430
	},
	{
	"epoch": 0.07822222222222222,
	"grad_norm": 0.05971519276499748,
	"learning_rate": 0.00029765866666666666,
	"loss": 0.0327,
	"step": 440
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.15051446855068207,
	"learning_rate": 0.0002976053333333333,
	"loss": 0.028,
	"step": 450
	},
	{
	"epoch": 0.08177777777777778,
	"grad_norm": 0.07047642022371292,
	"learning_rate": 0.00029755199999999997,
	"loss": 0.0311,
	"step": 460
	},
	{
	"epoch": 0.08355555555555555,
	"grad_norm": 0.08709419518709183,
	"learning_rate": 0.00029749866666666663,
	"loss": 0.0351,
	"step": 470
	},
	{
	"epoch": 0.08533333333333333,
	"grad_norm": 0.12891785800457,
	"learning_rate": 0.0002974453333333333,
	"loss": 0.0268,
	"step": 480
	},
	{
	"epoch": 0.08711111111111111,
	"grad_norm": 0.1153012290596962,
	"learning_rate": 0.000297392,
	"loss": 0.0377,
	"step": 490
	},
	{
	"epoch": 0.08888888888888889,
	"grad_norm": 0.05062064900994301,
	"learning_rate": 0.0002973386666666666,
	"loss": 0.026,
	"step": 500
	},
	{
	"epoch": 0.09066666666666667,
	"grad_norm": 0.09977056831121445,
	"learning_rate": 0.0002972853333333333,
	"loss": 0.0278,
	"step": 510
	},
	{
	"epoch": 0.09244444444444444,
	"grad_norm": 0.0959126427769661,
	"learning_rate": 0.000297232,
	"loss": 0.0371,
	"step": 520
	},
	{
	"epoch": 0.09422222222222222,
	"grad_norm": 0.05825706198811531,
	"learning_rate": 0.00029717866666666663,
	"loss": 0.0306,
	"step": 530
	},
	{
	"epoch": 0.096,
	"grad_norm": 0.13851483166217804,
	"learning_rate": 0.0002971253333333333,
	"loss": 0.038,
	"step": 540
	},
	{
	"epoch": 0.09777777777777778,
	"grad_norm": 0.22746726870536804,
	"learning_rate": 0.00029707199999999995,
	"loss": 0.0209,
	"step": 550
	},
	{
	"epoch": 0.09955555555555555,
	"grad_norm": 0.06507899612188339,
	"learning_rate": 0.0002970186666666666,
	"loss": 0.0286,
	"step": 560
	},
	{
	"epoch": 0.10133333333333333,
	"grad_norm": 0.07220398634672165,
	"learning_rate": 0.0002969653333333333,
	"loss": 0.0279,
	"step": 570
	},
	{
	"epoch": 0.10311111111111111,
	"grad_norm": 0.06591857224702835,
	"learning_rate": 0.000296912,
	"loss": 0.03,
	"step": 580
	},
	{
	"epoch": 0.10488888888888889,
	"grad_norm": 0.06433718651533127,
	"learning_rate": 0.00029685866666666664,
	"loss": 0.0276,
	"step": 590
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 0.06255055963993073,
	"learning_rate": 0.0002968053333333333,
	"loss": 0.0219,
	"step": 600
	},
	{
	"epoch": 0.10844444444444444,
	"grad_norm": 0.25509411096572876,
	"learning_rate": 0.00029675199999999995,
	"loss": 0.0305,
	"step": 610
	},
	{
	"epoch": 0.11022222222222222,
	"grad_norm": 0.2092062085866928,
	"learning_rate": 0.0002966986666666666,
	"loss": 0.0293,
	"step": 620
	},
	{
	"epoch": 0.112,
	"grad_norm": 0.16890083253383636,
	"learning_rate": 0.0002966453333333333,
	"loss": 0.0289,
	"step": 630
	},
	{
	"epoch": 0.11377777777777778,
	"grad_norm": 0.16671471297740936,
	"learning_rate": 0.000296592,
	"loss": 0.0273,
	"step": 640
	},
	{
	"epoch": 0.11555555555555555,
	"grad_norm": 0.12516531348228455,
	"learning_rate": 0.00029653866666666664,
	"loss": 0.0262,
	"step": 650
	},
	{
	"epoch": 0.11733333333333333,
	"grad_norm": 0.07666122168302536,
	"learning_rate": 0.0002964853333333333,
	"loss": 0.03,
	"step": 660
	},
	{
	"epoch": 0.11911111111111111,
	"grad_norm": 0.1718071550130844,
	"learning_rate": 0.00029643199999999996,
	"loss": 0.0304,
	"step": 670
	},
	{
	"epoch": 0.12088888888888889,
	"grad_norm": 0.06207623705267906,
	"learning_rate": 0.0002963786666666666,
	"loss": 0.0333,
	"step": 680
	},
	{
	"epoch": 0.12266666666666666,
	"grad_norm": 0.28347769379615784,
	"learning_rate": 0.0002963253333333333,
	"loss": 0.0293,
	"step": 690
	},
	{
	"epoch": 0.12444444444444444,
	"grad_norm": 0.07060191035270691,
	"learning_rate": 0.000296272,
	"loss": 0.0326,
	"step": 700
	},
	{
	"epoch": 0.12622222222222224,
	"grad_norm": 0.09357782453298569,
	"learning_rate": 0.00029621866666666664,
	"loss": 0.0377,
	"step": 710
	},
	{
	"epoch": 0.128,
	"grad_norm": 0.06910397112369537,
	"learning_rate": 0.0002961653333333333,
	"loss": 0.0276,
	"step": 720
	},
	{
	"epoch": 0.12977777777777777,
	"grad_norm": 0.12975437939167023,
	"learning_rate": 0.00029611199999999996,
	"loss": 0.027,
	"step": 730
	},
	{
	"epoch": 0.13155555555555556,
	"grad_norm": 0.06548379361629486,
	"learning_rate": 0.0002960586666666666,
	"loss": 0.0204,
	"step": 740
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 0.14813624322414398,
	"learning_rate": 0.00029600533333333333,
	"loss": 0.028,
	"step": 750
	},
	{
	"epoch": 0.1351111111111111,
	"grad_norm": 0.22292684018611908,
	"learning_rate": 0.000295952,
	"loss": 0.0245,
	"step": 760
	},
	{
	"epoch": 0.1368888888888889,
	"grad_norm": 0.06060492619872093,
	"learning_rate": 0.00029589866666666665,
	"loss": 0.0282,
	"step": 770
	},
	{
	"epoch": 0.13866666666666666,
	"grad_norm": 0.05400988459587097,
	"learning_rate": 0.0002958453333333333,
	"loss": 0.0264,
	"step": 780
	},
	{
	"epoch": 0.14044444444444446,
	"grad_norm": 0.11169034242630005,
	"learning_rate": 0.00029579199999999996,
	"loss": 0.0327,
	"step": 790
	},
	{
	"epoch": 0.14222222222222222,
	"grad_norm": 0.09408850222826004,
	"learning_rate": 0.0002957386666666666,
	"loss": 0.0252,
	"step": 800
	},
	{
	"epoch": 0.144,
	"grad_norm": 0.0814380869269371,
	"learning_rate": 0.00029568533333333333,
	"loss": 0.0326,
	"step": 810
	},
	{
	"epoch": 0.14577777777777778,
	"grad_norm": 0.06769911199808121,
	"learning_rate": 0.000295632,
	"loss": 0.022,
	"step": 820
	},
	{
	"epoch": 0.14755555555555555,
	"grad_norm": 0.06367345154285431,
	"learning_rate": 0.00029557866666666665,
	"loss": 0.0293,
	"step": 830
	},
	{
	"epoch": 0.14933333333333335,
	"grad_norm": 0.07426635921001434,
	"learning_rate": 0.0002955253333333333,
	"loss": 0.0254,
	"step": 840
	},
	{
	"epoch": 0.1511111111111111,
	"grad_norm": 0.07864944636821747,
	"learning_rate": 0.00029547199999999997,
	"loss": 0.0238,
	"step": 850
	},
	{
	"epoch": 0.15288888888888888,
	"grad_norm": 0.06357907503843307,
	"learning_rate": 0.0002954186666666666,
	"loss": 0.0265,
	"step": 860
	},
	{
	"epoch": 0.15466666666666667,
	"grad_norm": 0.08894886076450348,
	"learning_rate": 0.00029536533333333334,
	"loss": 0.0244,
	"step": 870
	},
	{
	"epoch": 0.15644444444444444,
	"grad_norm": 0.12095648795366287,
	"learning_rate": 0.000295312,
	"loss": 0.0335,
	"step": 880
	},
	{
	"epoch": 0.1582222222222222,
	"grad_norm": 0.07614068686962128,
	"learning_rate": 0.00029525866666666665,
	"loss": 0.0397,
	"step": 890
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.12491751462221146,
	"learning_rate": 0.0002952053333333333,
	"loss": 0.0318,
	"step": 900
	},
	{
	"epoch": 0.16177777777777777,
	"grad_norm": 0.06847213953733444,
	"learning_rate": 0.00029515199999999997,
	"loss": 0.035,
	"step": 910
	},
	{
	"epoch": 0.16355555555555557,
	"grad_norm": 0.08039793372154236,
	"learning_rate": 0.0002950986666666666,
	"loss": 0.0321,
	"step": 920
	},
	{
	"epoch": 0.16533333333333333,
	"grad_norm": 0.14803963899612427,
	"learning_rate": 0.00029504533333333334,
	"loss": 0.0233,
	"step": 930
	},
	{
	"epoch": 0.1671111111111111,
	"grad_norm": 0.11538252979516983,
	"learning_rate": 0.000294992,
	"loss": 0.0325,
	"step": 940
	},
	{
	"epoch": 0.1688888888888889,
	"grad_norm": 0.16967880725860596,
	"learning_rate": 0.00029493866666666666,
	"loss": 0.0292,
	"step": 950
	},
	{
	"epoch": 0.17066666666666666,
	"grad_norm": 0.09237322211265564,
	"learning_rate": 0.0002948853333333333,
	"loss": 0.029,
	"step": 960
	},
	{
	"epoch": 0.17244444444444446,
	"grad_norm": 0.12154370546340942,
	"learning_rate": 0.00029483199999999997,
	"loss": 0.0152,
	"step": 970
	},
	{
	"epoch": 0.17422222222222222,
	"grad_norm": 0.17975209653377533,
	"learning_rate": 0.00029477866666666663,
	"loss": 0.0215,
	"step": 980
	},
	{
	"epoch": 0.176,
	"grad_norm": 0.14124400913715363,
	"learning_rate": 0.0002947253333333333,
	"loss": 0.0354,
	"step": 990
	},
	{
	"epoch": 0.17777777777777778,
	"grad_norm": 0.11977864801883698,
	"learning_rate": 0.000294672,
	"loss": 0.0442,
	"step": 1000
	},
	{
	"epoch": 0.17777777777777778,
	"eval_accuracy": 0.7478,
	"eval_f1": 0.945502736472486,
	"eval_loss": 0.0255670715123415,
	"eval_precision": 0.9439028048340548,
	"eval_recall": 0.9488640647510385,
	"eval_runtime": 639.8304,
	"eval_samples_per_second": 15.629,
	"eval_steps_per_second": 1.954,
	"step": 1000
	},
	{
	"epoch": 0.17955555555555555,
	"grad_norm": 0.055781953036785126,
	"learning_rate": 0.0002946186666666666,
	"loss": 0.0238,
	"step": 1010
	},
	{
	"epoch": 0.18133333333333335,
	"grad_norm": 0.0902746394276619,
	"learning_rate": 0.0002945653333333333,
	"loss": 0.037,
	"step": 1020
	},
	{
	"epoch": 0.1831111111111111,
	"grad_norm": 0.08535508811473846,
	"learning_rate": 0.000294512,
	"loss": 0.0374,
	"step": 1030
	},
	{
	"epoch": 0.18488888888888888,
	"grad_norm": 0.059737782925367355,
	"learning_rate": 0.00029445866666666663,
	"loss": 0.0266,
	"step": 1040
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 0.06842650473117828,
	"learning_rate": 0.0002944053333333333,
	"loss": 0.0234,
	"step": 1050
	},
	{
	"epoch": 0.18844444444444444,
	"grad_norm": 0.06363359093666077,
	"learning_rate": 0.000294352,
	"loss": 0.033,
	"step": 1060
	},
	{
	"epoch": 0.1902222222222222,
	"grad_norm": 0.06755832582712173,
	"learning_rate": 0.0002942986666666666,
	"loss": 0.0253,
	"step": 1070
	},
	{
	"epoch": 0.192,
	"grad_norm": 0.13304175436496735,
	"learning_rate": 0.0002942453333333333,
	"loss": 0.0272,
	"step": 1080
	},
	{
	"epoch": 0.19377777777777777,
	"grad_norm": 0.09009236842393875,
	"learning_rate": 0.000294192,
	"loss": 0.0291,
	"step": 1090
	},
	{
	"epoch": 0.19555555555555557,
	"grad_norm": 0.15461042523384094,
	"learning_rate": 0.00029413866666666664,
	"loss": 0.0251,
	"step": 1100
	},
	{
	"epoch": 0.19733333333333333,
	"grad_norm": 0.10490956902503967,
	"learning_rate": 0.0002940853333333333,
	"loss": 0.0189,
	"step": 1110
	},
	{
	"epoch": 0.1991111111111111,
	"grad_norm": 0.04693615809082985,
	"learning_rate": 0.00029403199999999995,
	"loss": 0.0297,
	"step": 1120
	},
	{
	"epoch": 0.2008888888888889,
	"grad_norm": 0.23660215735435486,
	"learning_rate": 0.0002939786666666666,
	"loss": 0.0253,
	"step": 1130
	},
	{
	"epoch": 0.20266666666666666,
	"grad_norm": 0.1499308943748474,
	"learning_rate": 0.0002939253333333333,
	"loss": 0.0152,
	"step": 1140
	},
	{
	"epoch": 0.20444444444444446,
	"grad_norm": 0.07655435055494308,
	"learning_rate": 0.000293872,
	"loss": 0.0338,
	"step": 1150
	},
	{
	"epoch": 0.20622222222222222,
	"grad_norm": 0.10019325464963913,
	"learning_rate": 0.00029381866666666664,
	"loss": 0.0191,
	"step": 1160
	},
	{
	"epoch": 0.208,
	"grad_norm": 0.11768526583909988,
	"learning_rate": 0.0002937653333333333,
	"loss": 0.0269,
	"step": 1170
	},
	{
	"epoch": 0.20977777777777779,
	"grad_norm": 0.1752464771270752,
	"learning_rate": 0.00029371199999999996,
	"loss": 0.03,
	"step": 1180
	},
	{
	"epoch": 0.21155555555555555,
	"grad_norm": 0.0824725404381752,
	"learning_rate": 0.0002936586666666666,
	"loss": 0.0263,
	"step": 1190
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 0.10733446478843689,
	"learning_rate": 0.0002936053333333333,
	"loss": 0.0316,
	"step": 1200
	},
	{
	"epoch": 0.21511111111111111,
	"grad_norm": 0.07831903547048569,
	"learning_rate": 0.000293552,
	"loss": 0.025,
	"step": 1210
	},
	{
	"epoch": 0.21688888888888888,
	"grad_norm": 0.05593474209308624,
	"learning_rate": 0.00029349866666666664,
	"loss": 0.028,
	"step": 1220
	},
	{
	"epoch": 0.21866666666666668,
	"grad_norm": 0.08755391836166382,
	"learning_rate": 0.0002934453333333333,
	"loss": 0.0278,
	"step": 1230
	},
	{
	"epoch": 0.22044444444444444,
	"grad_norm": 0.05314774066209793,
	"learning_rate": 0.00029339199999999996,
	"loss": 0.0249,
	"step": 1240
	},
	{
	"epoch": 0.2222222222222222,
	"grad_norm": 0.09742765128612518,
	"learning_rate": 0.0002933386666666666,
	"loss": 0.0351,
	"step": 1250
	},
	{
	"epoch": 0.224,
	"grad_norm": 0.08220130950212479,
	"learning_rate": 0.00029328533333333333,
	"loss": 0.0246,
	"step": 1260
	},
	{
	"epoch": 0.22577777777777777,
	"grad_norm": 0.12160548567771912,
	"learning_rate": 0.000293232,
	"loss": 0.0309,
	"step": 1270
	},
	{
	"epoch": 0.22755555555555557,
	"grad_norm": 0.04271721467375755,
	"learning_rate": 0.00029317866666666665,
	"loss": 0.0199,
	"step": 1280
	},
	{
	"epoch": 0.22933333333333333,
	"grad_norm": 0.10768424719572067,
	"learning_rate": 0.0002931253333333333,
	"loss": 0.0403,
	"step": 1290
	},
	{
	"epoch": 0.2311111111111111,
	"grad_norm": 0.10115483403205872,
	"learning_rate": 0.00029307199999999996,
	"loss": 0.0301,
	"step": 1300
	},
	{
	"epoch": 0.2328888888888889,
	"grad_norm": 0.06167054921388626,
	"learning_rate": 0.0002930186666666666,
	"loss": 0.022,
	"step": 1310
	},
	{
	"epoch": 0.23466666666666666,
	"grad_norm": 0.07526614516973495,
	"learning_rate": 0.00029296533333333333,
	"loss": 0.0247,
	"step": 1320
	},
	{
	"epoch": 0.23644444444444446,
	"grad_norm": 0.0718500167131424,
	"learning_rate": 0.000292912,
	"loss": 0.0306,
	"step": 1330
	},
	{
	"epoch": 0.23822222222222222,
	"grad_norm": 0.09048707038164139,
	"learning_rate": 0.00029285866666666665,
	"loss": 0.0342,
	"step": 1340
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.03385091572999954,
	"learning_rate": 0.0002928053333333333,
	"loss": 0.0133,
	"step": 1350
	},
	{
	"epoch": 0.24177777777777779,
	"grad_norm": 0.05868247151374817,
	"learning_rate": 0.00029275199999999996,
	"loss": 0.0233,
	"step": 1360
	},
	{
	"epoch": 0.24355555555555555,
	"grad_norm": 0.03412957862019539,
	"learning_rate": 0.0002926986666666666,
	"loss": 0.0207,
	"step": 1370
	},
	{
	"epoch": 0.24533333333333332,
	"grad_norm": 0.1037665456533432,
	"learning_rate": 0.00029264533333333334,
	"loss": 0.0245,
	"step": 1380
	},
	{
	"epoch": 0.24711111111111111,
	"grad_norm": 0.1433638036251068,
	"learning_rate": 0.000292592,
	"loss": 0.0337,
	"step": 1390
	},
	{
	"epoch": 0.24888888888888888,
	"grad_norm": 0.07344509661197662,
	"learning_rate": 0.00029253866666666665,
	"loss": 0.0259,
	"step": 1400
	},
	{
	"epoch": 0.25066666666666665,
	"grad_norm": 0.0688699260354042,
	"learning_rate": 0.0002924853333333333,
	"loss": 0.0255,
	"step": 1410
	},
	{
	"epoch": 0.25244444444444447,
	"grad_norm": 0.06304153054952621,
	"learning_rate": 0.00029243199999999997,
	"loss": 0.0313,
	"step": 1420
	},
	{
	"epoch": 0.25422222222222224,
	"grad_norm": 0.0799403265118599,
	"learning_rate": 0.0002923786666666666,
	"loss": 0.0293,
	"step": 1430
	},
	{
	"epoch": 0.256,
	"grad_norm": 0.05794990807771683,
	"learning_rate": 0.00029232533333333334,
	"loss": 0.0328,
	"step": 1440
	},
	{
	"epoch": 0.2577777777777778,
	"grad_norm": 0.10939860343933105,
	"learning_rate": 0.000292272,
	"loss": 0.0312,
	"step": 1450
	},
	{
	"epoch": 0.25955555555555554,
	"grad_norm": 0.1068209558725357,
	"learning_rate": 0.00029221866666666665,
	"loss": 0.0319,
	"step": 1460
	},
	{
	"epoch": 0.2613333333333333,
	"grad_norm": 0.0788411796092987,
	"learning_rate": 0.0002921653333333333,
	"loss": 0.0177,
	"step": 1470
	},
	{
	"epoch": 0.26311111111111113,
	"grad_norm": 0.08480872958898544,
	"learning_rate": 0.00029211199999999997,
	"loss": 0.0366,
	"step": 1480
	},
	{
	"epoch": 0.2648888888888889,
	"grad_norm": 0.11964548379182816,
	"learning_rate": 0.00029205866666666663,
	"loss": 0.0289,
	"step": 1490
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 0.09924939274787903,
	"learning_rate": 0.0002920053333333333,
	"loss": 0.0389,
	"step": 1500
	},
	{
	"epoch": 0.26844444444444443,
	"grad_norm": 0.1460910588502884,
	"learning_rate": 0.000291952,
	"loss": 0.0255,
	"step": 1510
	},
	{
	"epoch": 0.2702222222222222,
	"grad_norm": 0.07585305720567703,
	"learning_rate": 0.0002918986666666666,
	"loss": 0.0265,
	"step": 1520
	},
	{
	"epoch": 0.272,
	"grad_norm": 0.10140100866556168,
	"learning_rate": 0.0002918453333333333,
	"loss": 0.0218,
	"step": 1530
	},
	{
	"epoch": 0.2737777777777778,
	"grad_norm": 0.06293733417987823,
	"learning_rate": 0.000291792,
	"loss": 0.0229,
	"step": 1540
	},
	{
	"epoch": 0.27555555555555555,
	"grad_norm": 0.05778166651725769,
	"learning_rate": 0.00029173866666666663,
	"loss": 0.0189,
	"step": 1550
	},
	{
	"epoch": 0.2773333333333333,
	"grad_norm": 0.10015172511339188,
	"learning_rate": 0.0002916853333333333,
	"loss": 0.0265,
	"step": 1560
	},
	{
	"epoch": 0.2791111111111111,
	"grad_norm": 0.09747335314750671,
	"learning_rate": 0.000291632,
	"loss": 0.0237,
	"step": 1570
	},
	{
	"epoch": 0.2808888888888889,
	"grad_norm": 0.08547953516244888,
	"learning_rate": 0.0002915786666666666,
	"loss": 0.0265,
	"step": 1580
	},
	{
	"epoch": 0.2826666666666667,
	"grad_norm": 0.07761196047067642,
	"learning_rate": 0.0002915253333333333,
	"loss": 0.0251,
	"step": 1590
	},
	{
	"epoch": 0.28444444444444444,
	"grad_norm": 0.2071438729763031,
	"learning_rate": 0.000291472,
	"loss": 0.036,
	"step": 1600
	},
	{
	"epoch": 0.2862222222222222,
	"grad_norm": 0.1412833034992218,
	"learning_rate": 0.00029141866666666663,
	"loss": 0.031,
	"step": 1610
	},
	{
	"epoch": 0.288,
	"grad_norm": 0.18887145817279816,
	"learning_rate": 0.0002913653333333333,
	"loss": 0.0279,
	"step": 1620
	},
	{
	"epoch": 0.2897777777777778,
	"grad_norm": 0.24295015633106232,
	"learning_rate": 0.000291312,
	"loss": 0.0218,
	"step": 1630
	},
	{
	"epoch": 0.29155555555555557,
	"grad_norm": 0.05178207904100418,
	"learning_rate": 0.0002912586666666666,
	"loss": 0.0188,
	"step": 1640
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 0.08417447656393051,
	"learning_rate": 0.0002912053333333333,
	"loss": 0.0377,
	"step": 1650
	},
	{
	"epoch": 0.2951111111111111,
	"grad_norm": 0.1539195477962494,
	"learning_rate": 0.000291152,
	"loss": 0.0337,
	"step": 1660
	},
	{
	"epoch": 0.29688888888888887,
	"grad_norm": 0.08653148263692856,
	"learning_rate": 0.00029109866666666664,
	"loss": 0.0288,
	"step": 1670
	},
	{
	"epoch": 0.2986666666666667,
	"grad_norm": 0.06827989220619202,
	"learning_rate": 0.0002910453333333333,
	"loss": 0.033,
	"step": 1680
	},
	{
	"epoch": 0.30044444444444446,
	"grad_norm": 0.06921634823083878,
	"learning_rate": 0.00029099199999999995,
	"loss": 0.0342,
	"step": 1690
	},
	{
	"epoch": 0.3022222222222222,
	"grad_norm": 0.0933580994606018,
	"learning_rate": 0.0002909386666666666,
	"loss": 0.0264,
	"step": 1700
	},
	{
	"epoch": 0.304,
	"grad_norm": 0.06207526847720146,
	"learning_rate": 0.0002908853333333333,
	"loss": 0.0287,
	"step": 1710
	},
	{
	"epoch": 0.30577777777777776,
	"grad_norm": 0.06998030096292496,
	"learning_rate": 0.000290832,
	"loss": 0.0312,
	"step": 1720
	},
	{
	"epoch": 0.3075555555555556,
	"grad_norm": 0.06357523053884506,
	"learning_rate": 0.00029077866666666664,
	"loss": 0.0176,
	"step": 1730
	},
	{
	"epoch": 0.30933333333333335,
	"grad_norm": 0.0615546740591526,
	"learning_rate": 0.0002907253333333333,
	"loss": 0.0175,
	"step": 1740
	},
	{
	"epoch": 0.3111111111111111,
	"grad_norm": 0.08233962953090668,
	"learning_rate": 0.00029067199999999996,
	"loss": 0.0219,
	"step": 1750
	},
	{
	"epoch": 0.3128888888888889,
	"grad_norm": 0.11235872656106949,
	"learning_rate": 0.0002906186666666666,
	"loss": 0.0228,
	"step": 1760
	},
	{
	"epoch": 0.31466666666666665,
	"grad_norm": 0.07158353179693222,
	"learning_rate": 0.00029056533333333333,
	"loss": 0.025,
	"step": 1770
	},
	{
	"epoch": 0.3164444444444444,
	"grad_norm": 0.06164095178246498,
	"learning_rate": 0.000290512,
	"loss": 0.0372,
	"step": 1780
	},
	{
	"epoch": 0.31822222222222224,
	"grad_norm": 0.06013910844922066,
	"learning_rate": 0.00029045866666666664,
	"loss": 0.0217,
	"step": 1790
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.07148768752813339,
	"learning_rate": 0.0002904053333333333,
	"loss": 0.0255,
	"step": 1800
	},
	{
	"epoch": 0.3217777777777778,
	"grad_norm": 0.0596451498568058,
	"learning_rate": 0.00029035199999999996,
	"loss": 0.0271,
	"step": 1810
	},
	{
	"epoch": 0.32355555555555554,
	"grad_norm": 0.1655549556016922,
	"learning_rate": 0.0002902986666666666,
	"loss": 0.0284,
	"step": 1820
	},
	{
	"epoch": 0.3253333333333333,
	"grad_norm": 0.06064489856362343,
	"learning_rate": 0.00029024533333333333,
	"loss": 0.0295,
	"step": 1830
	},
	{
	"epoch": 0.32711111111111113,
	"grad_norm": 0.08867213875055313,
	"learning_rate": 0.000290192,
	"loss": 0.0346,
	"step": 1840
	},
	{
	"epoch": 0.3288888888888889,
	"grad_norm": 0.07153977453708649,
	"learning_rate": 0.00029013866666666665,
	"loss": 0.0181,
	"step": 1850
	},
	{
	"epoch": 0.33066666666666666,
	"grad_norm": 0.10434221476316452,
	"learning_rate": 0.0002900853333333333,
	"loss": 0.021,
	"step": 1860
	},
	{
	"epoch": 0.33244444444444443,
	"grad_norm": 0.18994474411010742,
	"learning_rate": 0.00029003199999999996,
	"loss": 0.0426,
	"step": 1870
	},
	{
	"epoch": 0.3342222222222222,
	"grad_norm": 0.14286014437675476,
	"learning_rate": 0.0002899786666666666,
	"loss": 0.0201,
	"step": 1880
	},
	{
	"epoch": 0.336,
	"grad_norm": 0.10460743308067322,
	"learning_rate": 0.00028992533333333333,
	"loss": 0.0237,
	"step": 1890
	},
	{
	"epoch": 0.3377777777777778,
	"grad_norm": 0.12452530115842819,
	"learning_rate": 0.000289872,
	"loss": 0.0434,
	"step": 1900
	},
	{
	"epoch": 0.33955555555555555,
	"grad_norm": 0.1265326738357544,
	"learning_rate": 0.00028981866666666665,
	"loss": 0.0251,
	"step": 1910
	},
	{
	"epoch": 0.3413333333333333,
	"grad_norm": 0.1008426696062088,
	"learning_rate": 0.0002897653333333333,
	"loss": 0.0219,
	"step": 1920
	},
	{
	"epoch": 0.3431111111111111,
	"grad_norm": 0.08846145123243332,
	"learning_rate": 0.00028971199999999997,
	"loss": 0.0329,
	"step": 1930
	},
	{
	"epoch": 0.3448888888888889,
	"grad_norm": 0.09375877678394318,
	"learning_rate": 0.0002896586666666666,
	"loss": 0.0303,
	"step": 1940
	},
	{
	"epoch": 0.3466666666666667,
	"grad_norm": 0.09024661034345627,
	"learning_rate": 0.00028960533333333334,
	"loss": 0.0227,
	"step": 1950
	},
	{
	"epoch": 0.34844444444444445,
	"grad_norm": 0.05938957259058952,
	"learning_rate": 0.000289552,
	"loss": 0.0226,
	"step": 1960
	},
	{
	"epoch": 0.3502222222222222,
	"grad_norm": 0.07051919400691986,
	"learning_rate": 0.00028949866666666665,
	"loss": 0.0283,
	"step": 1970
	},
	{
	"epoch": 0.352,
	"grad_norm": 0.04391910880804062,
	"learning_rate": 0.0002894453333333333,
	"loss": 0.0238,
	"step": 1980
	},
	{
	"epoch": 0.3537777777777778,
	"grad_norm": 0.074351005256176,
	"learning_rate": 0.00028939199999999997,
	"loss": 0.0263,
	"step": 1990
	},
	{
	"epoch": 0.35555555555555557,
	"grad_norm": 0.1263705939054489,
	"learning_rate": 0.00028933866666666663,
	"loss": 0.0209,
	"step": 2000
	},
	{
	"epoch": 0.35555555555555557,
	"eval_accuracy": 0.7627,
	"eval_f1": 0.9573098476657924,
	"eval_loss": 0.024347538128495216,
	"eval_precision": 0.9551886790986791,
	"eval_recall": 0.9610763042513043,
	"eval_runtime": 651.7148,
	"eval_samples_per_second": 15.344,
	"eval_steps_per_second": 1.918,
	"step": 2000
	},
	{
	"epoch": 0.35733333333333334,
	"grad_norm": 0.07733402401208878,
	"learning_rate": 0.00028928533333333334,
	"loss": 0.0286,
	"step": 2010
	},
	{
	"epoch": 0.3591111111111111,
	"grad_norm": 0.15344883501529694,
	"learning_rate": 0.000289232,
	"loss": 0.0354,
	"step": 2020
	},
	{
	"epoch": 0.36088888888888887,
	"grad_norm": 0.07696090638637543,
	"learning_rate": 0.0002891786666666666,
	"loss": 0.0255,
	"step": 2030
	},
	{
	"epoch": 0.3626666666666667,
	"grad_norm": 0.14050455391407013,
	"learning_rate": 0.0002891253333333333,
	"loss": 0.0306,
	"step": 2040
	},
	{
	"epoch": 0.36444444444444446,
	"grad_norm": 0.13546547293663025,
	"learning_rate": 0.00028907199999999997,
	"loss": 0.0333,
	"step": 2050
	},
	{
	"epoch": 0.3662222222222222,
	"grad_norm": 0.07343069463968277,
	"learning_rate": 0.00028901866666666663,
	"loss": 0.0333,
	"step": 2060
	},
	{
	"epoch": 0.368,
	"grad_norm": 0.0838441252708435,
	"learning_rate": 0.0002889653333333333,
	"loss": 0.0368,
	"step": 2070
	},
	{
	"epoch": 0.36977777777777776,
	"grad_norm": 0.0723879411816597,
	"learning_rate": 0.000288912,
	"loss": 0.0194,
	"step": 2080
	},
	{
	"epoch": 0.37155555555555553,
	"grad_norm": 0.08837046474218369,
	"learning_rate": 0.0002888586666666666,
	"loss": 0.0199,
	"step": 2090
	},
	{
	"epoch": 0.37333333333333335,
	"grad_norm": 0.08860599994659424,
	"learning_rate": 0.0002888053333333333,
	"loss": 0.0262,
	"step": 2100
	},
	{
	"epoch": 0.3751111111111111,
	"grad_norm": 0.06852641701698303,
	"learning_rate": 0.000288752,
	"loss": 0.0173,
	"step": 2110
	},
	{
	"epoch": 0.3768888888888889,
	"grad_norm": 0.08341096341609955,
	"learning_rate": 0.00028869866666666663,
	"loss": 0.0266,
	"step": 2120
	},
	{
	"epoch": 0.37866666666666665,
	"grad_norm": 0.09122495353221893,
	"learning_rate": 0.0002886453333333333,
	"loss": 0.0303,
	"step": 2130
	},
	{
	"epoch": 0.3804444444444444,
	"grad_norm": 0.05174389109015465,
	"learning_rate": 0.000288592,
	"loss": 0.0332,
	"step": 2140
	},
	{
	"epoch": 0.38222222222222224,
	"grad_norm": 0.16697311401367188,
	"learning_rate": 0.0002885386666666666,
	"loss": 0.0457,
	"step": 2150
	},
	{
	"epoch": 0.384,
	"grad_norm": 0.09387817233800888,
	"learning_rate": 0.0002884853333333333,
	"loss": 0.0296,
	"step": 2160
	},
	{
	"epoch": 0.3857777777777778,
	"grad_norm": 0.07832591980695724,
	"learning_rate": 0.000288432,
	"loss": 0.0254,
	"step": 2170
	},
	{
	"epoch": 0.38755555555555554,
	"grad_norm": 0.05770006775856018,
	"learning_rate": 0.00028837866666666664,
	"loss": 0.0289,
	"step": 2180
	},
	{
	"epoch": 0.3893333333333333,
	"grad_norm": 0.041991833597421646,
	"learning_rate": 0.0002883253333333333,
	"loss": 0.0259,
	"step": 2190
	},
	{
	"epoch": 0.39111111111111113,
	"grad_norm": 0.0862719863653183,
	"learning_rate": 0.000288272,
	"loss": 0.0293,
	"step": 2200
	},
	{
	"epoch": 0.3928888888888889,
	"grad_norm": 0.0876149982213974,
	"learning_rate": 0.0002882186666666666,
	"loss": 0.0318,
	"step": 2210
	},
	{
	"epoch": 0.39466666666666667,
	"grad_norm": 0.26843714714050293,
	"learning_rate": 0.0002881653333333333,
	"loss": 0.0275,
	"step": 2220
	},
	{
	"epoch": 0.39644444444444443,
	"grad_norm": 0.10490261763334274,
	"learning_rate": 0.000288112,
	"loss": 0.023,
	"step": 2230
	},
	{
	"epoch": 0.3982222222222222,
	"grad_norm": 0.043965961784124374,
	"learning_rate": 0.00028805866666666664,
	"loss": 0.0302,
	"step": 2240
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.11250148713588715,
	"learning_rate": 0.0002880053333333333,
	"loss": 0.0256,
	"step": 2250
	},
	{
	"epoch": 0.4017777777777778,
	"grad_norm": 0.14937596023082733,
	"learning_rate": 0.00028795199999999996,
	"loss": 0.0296,
	"step": 2260
	},
	{
	"epoch": 0.40355555555555556,
	"grad_norm": 0.07885195314884186,
	"learning_rate": 0.0002878986666666666,
	"loss": 0.0172,
	"step": 2270
	},
	{
	"epoch": 0.4053333333333333,
	"grad_norm": 0.204289972782135,
	"learning_rate": 0.0002878453333333333,
	"loss": 0.0406,
	"step": 2280
	},
	{
	"epoch": 0.4071111111111111,
	"grad_norm": 0.08917578309774399,
	"learning_rate": 0.000287792,
	"loss": 0.0302,
	"step": 2290
	},
	{
	"epoch": 0.4088888888888889,
	"grad_norm": 0.10555682331323624,
	"learning_rate": 0.00028773866666666664,
	"loss": 0.0271,
	"step": 2300
	},
	{
	"epoch": 0.4106666666666667,
	"grad_norm": 0.12323552370071411,
	"learning_rate": 0.0002876853333333333,
	"loss": 0.0272,
	"step": 2310
	},
	{
	"epoch": 0.41244444444444445,
	"grad_norm": 0.07189056277275085,
	"learning_rate": 0.00028763199999999996,
	"loss": 0.0258,
	"step": 2320
	},
	{
	"epoch": 0.4142222222222222,
	"grad_norm": 0.10721557587385178,
	"learning_rate": 0.0002875786666666666,
	"loss": 0.0219,
	"step": 2330
	},
	{
	"epoch": 0.416,
	"grad_norm": 0.15874731540679932,
	"learning_rate": 0.00028752533333333333,
	"loss": 0.0255,
	"step": 2340
	},
	{
	"epoch": 0.4177777777777778,
	"grad_norm": 0.0631805881857872,
	"learning_rate": 0.000287472,
	"loss": 0.0301,
	"step": 2350
	},
	{
	"epoch": 0.41955555555555557,
	"grad_norm": 0.08577944338321686,
	"learning_rate": 0.00028741866666666665,
	"loss": 0.0373,
	"step": 2360
	},
	{
	"epoch": 0.42133333333333334,
	"grad_norm": 0.03026222065091133,
	"learning_rate": 0.0002873653333333333,
	"loss": 0.0199,
	"step": 2370
	},
	{
	"epoch": 0.4231111111111111,
	"grad_norm": 0.059838082641363144,
	"learning_rate": 0.00028731199999999996,
	"loss": 0.0261,
	"step": 2380
	},
	{
	"epoch": 0.42488888888888887,
	"grad_norm": 0.06966649740934372,
	"learning_rate": 0.0002872586666666666,
	"loss": 0.0311,
	"step": 2390
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 0.058014433830976486,
	"learning_rate": 0.00028720533333333333,
	"loss": 0.0297,
	"step": 2400
	},
	{
	"epoch": 0.42844444444444446,
	"grad_norm": 0.16240113973617554,
	"learning_rate": 0.000287152,
	"loss": 0.0281,
	"step": 2410
	},
	{
	"epoch": 0.43022222222222223,
	"grad_norm": 0.03950966149568558,
	"learning_rate": 0.00028709866666666665,
	"loss": 0.0281,
	"step": 2420
	},
	{
	"epoch": 0.432,
	"grad_norm": 0.05715180188417435,
	"learning_rate": 0.0002870453333333333,
	"loss": 0.0198,
	"step": 2430
	},
	{
	"epoch": 0.43377777777777776,
	"grad_norm": 0.04981226474046707,
	"learning_rate": 0.00028699199999999997,
	"loss": 0.0233,
	"step": 2440
	},
	{
	"epoch": 0.43555555555555553,
	"grad_norm": 0.05428339168429375,
	"learning_rate": 0.0002869386666666666,
	"loss": 0.0221,
	"step": 2450
	},
	{
	"epoch": 0.43733333333333335,
	"grad_norm": 0.28096815943717957,
	"learning_rate": 0.00028688533333333334,
	"loss": 0.033,
	"step": 2460
	},
	{
	"epoch": 0.4391111111111111,
	"grad_norm": 0.05512421205639839,
	"learning_rate": 0.000286832,
	"loss": 0.0208,
	"step": 2470
	},
	{
	"epoch": 0.4408888888888889,
	"grad_norm": 0.05635492876172066,
	"learning_rate": 0.00028677866666666665,
	"loss": 0.0237,
	"step": 2480
	},
	{
	"epoch": 0.44266666666666665,
	"grad_norm": 0.12980712950229645,
	"learning_rate": 0.0002867253333333333,
	"loss": 0.0292,
	"step": 2490
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 0.06960833817720413,
	"learning_rate": 0.00028667199999999997,
	"loss": 0.0207,
	"step": 2500
	},
	{
	"epoch": 0.44622222222222224,
	"grad_norm": 0.09307900071144104,
	"learning_rate": 0.0002866186666666666,
	"loss": 0.0212,
	"step": 2510
	},
	{
	"epoch": 0.448,
	"grad_norm": 0.11810287088155746,
	"learning_rate": 0.00028656533333333334,
	"loss": 0.0207,
	"step": 2520
	},
	{
	"epoch": 0.4497777777777778,
	"grad_norm": 0.09437887370586395,
	"learning_rate": 0.000286512,
	"loss": 0.0301,
	"step": 2530
	},
	{
	"epoch": 0.45155555555555554,
	"grad_norm": 0.09049661457538605,
	"learning_rate": 0.0002864586666666666,
	"loss": 0.0296,
	"step": 2540
	},
	{
	"epoch": 0.4533333333333333,
	"grad_norm": 0.09026191383600235,
	"learning_rate": 0.0002864053333333333,
	"loss": 0.0346,
	"step": 2550
	},
	{
	"epoch": 0.45511111111111113,
	"grad_norm": 0.15376700460910797,
	"learning_rate": 0.00028635199999999997,
	"loss": 0.0293,
	"step": 2560
	},
	{
	"epoch": 0.4568888888888889,
	"grad_norm": 0.09648899734020233,
	"learning_rate": 0.00028629866666666663,
	"loss": 0.0253,
	"step": 2570
	},
	{
	"epoch": 0.45866666666666667,
	"grad_norm": 0.3402349352836609,
	"learning_rate": 0.0002862453333333333,
	"loss": 0.0227,
	"step": 2580
	},
	{
	"epoch": 0.46044444444444443,
	"grad_norm": 0.05629970133304596,
	"learning_rate": 0.000286192,
	"loss": 0.0197,
	"step": 2590
	},
	{
	"epoch": 0.4622222222222222,
	"grad_norm": 0.08770111948251724,
	"learning_rate": 0.0002861386666666666,
	"loss": 0.0272,
	"step": 2600
	},
	{
	"epoch": 0.464,
	"grad_norm": 0.05160212144255638,
	"learning_rate": 0.0002860853333333333,
	"loss": 0.0223,
	"step": 2610
	},
	{
	"epoch": 0.4657777777777778,
	"grad_norm": 0.05589841678738594,
	"learning_rate": 0.000286032,
	"loss": 0.0239,
	"step": 2620
	},
	{
	"epoch": 0.46755555555555556,
	"grad_norm": 0.07784659415483475,
	"learning_rate": 0.00028597866666666663,
	"loss": 0.0265,
	"step": 2630
	},
	{
	"epoch": 0.4693333333333333,
	"grad_norm": 0.04981613531708717,
	"learning_rate": 0.0002859253333333333,
	"loss": 0.0289,
	"step": 2640
	},
	{
	"epoch": 0.4711111111111111,
	"grad_norm": 0.07681208848953247,
	"learning_rate": 0.000285872,
	"loss": 0.0294,
	"step": 2650
	},
	{
	"epoch": 0.4728888888888889,
	"grad_norm": 0.05933229625225067,
	"learning_rate": 0.0002858186666666666,
	"loss": 0.0302,
	"step": 2660
	},
	{
	"epoch": 0.4746666666666667,
	"grad_norm": 0.049334846436977386,
	"learning_rate": 0.0002857653333333333,
	"loss": 0.0309,
	"step": 2670
	},
	{
	"epoch": 0.47644444444444445,
	"grad_norm": 0.1261008232831955,
	"learning_rate": 0.000285712,
	"loss": 0.0284,
	"step": 2680
	},
	{
	"epoch": 0.4782222222222222,
	"grad_norm": 0.061224110424518585,
	"learning_rate": 0.00028565866666666664,
	"loss": 0.0239,
	"step": 2690
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.09782722592353821,
	"learning_rate": 0.0002856053333333333,
	"loss": 0.0274,
	"step": 2700
	},
	{
	"epoch": 0.4817777777777778,
	"grad_norm": 0.08544397354125977,
	"learning_rate": 0.000285552,
	"loss": 0.0264,
	"step": 2710
	},
	{
	"epoch": 0.48355555555555557,
	"grad_norm": 0.06903214007616043,
	"learning_rate": 0.0002854986666666666,
	"loss": 0.0239,
	"step": 2720
	},
	{
	"epoch": 0.48533333333333334,
	"grad_norm": 0.1085357666015625,
	"learning_rate": 0.0002854453333333333,
	"loss": 0.0324,
	"step": 2730
	},
	{
	"epoch": 0.4871111111111111,
	"grad_norm": 0.19770896434783936,
	"learning_rate": 0.000285392,
	"loss": 0.0307,
	"step": 2740
	},
	{
	"epoch": 0.4888888888888889,
	"grad_norm": 0.07220843434333801,
	"learning_rate": 0.00028533866666666664,
	"loss": 0.0265,
	"step": 2750
	},
	{
	"epoch": 0.49066666666666664,
	"grad_norm": 0.0733049288392067,
	"learning_rate": 0.0002852853333333333,
	"loss": 0.0234,
	"step": 2760
	},
	{
	"epoch": 0.49244444444444446,
	"grad_norm": 0.05413531884551048,
	"learning_rate": 0.000285232,
	"loss": 0.0205,
	"step": 2770
	},
	{
	"epoch": 0.49422222222222223,
	"grad_norm": 0.11062481999397278,
	"learning_rate": 0.0002851786666666666,
	"loss": 0.0301,
	"step": 2780
	},
	{
	"epoch": 0.496,
	"grad_norm": 0.10900420695543289,
	"learning_rate": 0.0002851253333333333,
	"loss": 0.0215,
	"step": 2790
	},
	{
	"epoch": 0.49777777777777776,
	"grad_norm": 0.0699872151017189,
	"learning_rate": 0.000285072,
	"loss": 0.0303,
	"step": 2800
	},
	{
	"epoch": 0.49955555555555553,
	"grad_norm": 0.05985388159751892,
	"learning_rate": 0.00028501866666666664,
	"loss": 0.0293,
	"step": 2810
	},
	{
	"epoch": 0.5013333333333333,
	"grad_norm": 0.0919581800699234,
	"learning_rate": 0.0002849653333333333,
	"loss": 0.0248,
	"step": 2820
	},
	{
	"epoch": 0.5031111111111111,
	"grad_norm": 0.053666852414608,
	"learning_rate": 0.00028491199999999996,
	"loss": 0.021,
	"step": 2830
	},
	{
	"epoch": 0.5048888888888889,
	"grad_norm": 0.09157125651836395,
	"learning_rate": 0.0002848586666666666,
	"loss": 0.0339,
	"step": 2840
	},
	{
	"epoch": 0.5066666666666667,
	"grad_norm": 0.14482910931110382,
	"learning_rate": 0.00028480533333333333,
	"loss": 0.0163,
	"step": 2850
	},
	{
	"epoch": 0.5084444444444445,
	"grad_norm": 0.07155676931142807,
	"learning_rate": 0.000284752,
	"loss": 0.0274,
	"step": 2860
	},
	{
	"epoch": 0.5102222222222222,
	"grad_norm": 0.06836314499378204,
	"learning_rate": 0.00028469866666666665,
	"loss": 0.0224,
	"step": 2870
	},
	{
	"epoch": 0.512,
	"grad_norm": 0.04311711713671684,
	"learning_rate": 0.0002846453333333333,
	"loss": 0.0261,
	"step": 2880
	},
	{
	"epoch": 0.5137777777777778,
	"grad_norm": 0.05936416983604431,
	"learning_rate": 0.00028459199999999996,
	"loss": 0.0235,
	"step": 2890
	},
	{
	"epoch": 0.5155555555555555,
	"grad_norm": 0.0663696750998497,
	"learning_rate": 0.0002845386666666666,
	"loss": 0.0256,
	"step": 2900
	},
	{
	"epoch": 0.5173333333333333,
	"grad_norm": 0.1328098326921463,
	"learning_rate": 0.00028448533333333333,
	"loss": 0.03,
	"step": 2910
	},
	{
	"epoch": 0.5191111111111111,
	"grad_norm": 0.08240935951471329,
	"learning_rate": 0.000284432,
	"loss": 0.0284,
	"step": 2920
	},
	{
	"epoch": 0.5208888888888888,
	"grad_norm": 0.08728118240833282,
	"learning_rate": 0.00028437866666666665,
	"loss": 0.0221,
	"step": 2930
	},
	{
	"epoch": 0.5226666666666666,
	"grad_norm": 0.058592695742845535,
	"learning_rate": 0.0002843253333333333,
	"loss": 0.0282,
	"step": 2940
	},
	{
	"epoch": 0.5244444444444445,
	"grad_norm": 0.08862440288066864,
	"learning_rate": 0.00028427199999999996,
	"loss": 0.0297,
	"step": 2950
	},
	{
	"epoch": 0.5262222222222223,
	"grad_norm": 0.12409399449825287,
	"learning_rate": 0.0002842186666666666,
	"loss": 0.0281,
	"step": 2960
	},
	{
	"epoch": 0.528,
	"grad_norm": 0.0908299908041954,
	"learning_rate": 0.00028416533333333333,
	"loss": 0.0294,
	"step": 2970
	},
	{
	"epoch": 0.5297777777777778,
	"grad_norm": 0.10704029351472855,
	"learning_rate": 0.000284112,
	"loss": 0.0232,
	"step": 2980
	},
	{
	"epoch": 0.5315555555555556,
	"grad_norm": 0.050082478672266006,
	"learning_rate": 0.00028405866666666665,
	"loss": 0.0162,
	"step": 2990
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 0.17065931856632233,
	"learning_rate": 0.0002840053333333333,
	"loss": 0.0266,
	"step": 3000
	},
	{
	"epoch": 0.5333333333333333,
	"eval_accuracy": 0.7727,
	"eval_f1": 0.9574046882744435,
	"eval_loss": 0.023515120148658752,
	"eval_precision": 0.9558694061494062,
	"eval_recall": 0.960483739885845,
	"eval_runtime": 640.5512,
	"eval_samples_per_second": 15.612,
	"eval_steps_per_second": 1.951,
	"step": 3000
	},
	{
	"epoch": 0.5351111111111111,
	"grad_norm": 0.07140597701072693,
	"learning_rate": 0.00028395199999999997,
	"loss": 0.023,
	"step": 3010
	},
	{
	"epoch": 0.5368888888888889,
	"grad_norm": 0.07117987424135208,
	"learning_rate": 0.0002838986666666666,
	"loss": 0.0296,
	"step": 3020
	},
	{
	"epoch": 0.5386666666666666,
	"grad_norm": 0.14514616131782532,
	"learning_rate": 0.00028384533333333334,
	"loss": 0.024,
	"step": 3030
	},
	{
	"epoch": 0.5404444444444444,
	"grad_norm": 0.20337609946727753,
	"learning_rate": 0.000283792,
	"loss": 0.0382,
	"step": 3040
	},
	{
	"epoch": 0.5422222222222223,
	"grad_norm": 0.05621475353837013,
	"learning_rate": 0.0002837386666666666,
	"loss": 0.0248,
	"step": 3050
	},
	{
	"epoch": 0.544,
	"grad_norm": 0.0626642256975174,
	"learning_rate": 0.0002836853333333333,
	"loss": 0.0187,
	"step": 3060
	},
	{
	"epoch": 0.5457777777777778,
	"grad_norm": 0.1031564474105835,
	"learning_rate": 0.00028363199999999997,
	"loss": 0.0302,
	"step": 3070
	},
	{
	"epoch": 0.5475555555555556,
	"grad_norm": 0.06050852686166763,
	"learning_rate": 0.00028357866666666663,
	"loss": 0.011,
	"step": 3080
	},
	{
	"epoch": 0.5493333333333333,
	"grad_norm": 0.07742660492658615,
	"learning_rate": 0.0002835253333333333,
	"loss": 0.0239,
	"step": 3090
	},
	{
	"epoch": 0.5511111111111111,
	"grad_norm": 0.10780712962150574,
	"learning_rate": 0.000283472,
	"loss": 0.018,
	"step": 3100
	},
	{
	"epoch": 0.5528888888888889,
	"grad_norm": 0.18680323660373688,
	"learning_rate": 0.0002834186666666666,
	"loss": 0.0261,
	"step": 3110
	},
	{
	"epoch": 0.5546666666666666,
	"grad_norm": 0.07397971302270889,
	"learning_rate": 0.0002833653333333333,
	"loss": 0.029,
	"step": 3120
	},
	{
	"epoch": 0.5564444444444444,
	"grad_norm": 0.2938878834247589,
	"learning_rate": 0.000283312,
	"loss": 0.0282,
	"step": 3130
	},
	{
	"epoch": 0.5582222222222222,
	"grad_norm": 0.1269586980342865,
	"learning_rate": 0.00028325866666666663,
	"loss": 0.0281,
	"step": 3140
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.063466876745224,
	"learning_rate": 0.0002832053333333333,
	"loss": 0.0207,
	"step": 3150
	},
	{
	"epoch": 0.5617777777777778,
	"grad_norm": 0.06853649020195007,
	"learning_rate": 0.000283152,
	"loss": 0.0367,
	"step": 3160
	},
	{
	"epoch": 0.5635555555555556,
	"grad_norm": 0.11174353212118149,
	"learning_rate": 0.0002830986666666666,
	"loss": 0.0369,
	"step": 3170
	},
	{
	"epoch": 0.5653333333333334,
	"grad_norm": 0.09678266942501068,
	"learning_rate": 0.0002830453333333333,
	"loss": 0.0302,
	"step": 3180
	},
	{
	"epoch": 0.5671111111111111,
	"grad_norm": 0.07290956377983093,
	"learning_rate": 0.000282992,
	"loss": 0.0211,
	"step": 3190
	},
	{
	"epoch": 0.5688888888888889,
	"grad_norm": 0.1320604532957077,
	"learning_rate": 0.00028293866666666663,
	"loss": 0.0451,
	"step": 3200
	},
	{
	"epoch": 0.5706666666666667,
	"grad_norm": 0.053190432488918304,
	"learning_rate": 0.0002828853333333333,
	"loss": 0.0197,
	"step": 3210
	},
	{
	"epoch": 0.5724444444444444,
	"grad_norm": 0.06059429794549942,
	"learning_rate": 0.000282832,
	"loss": 0.0118,
	"step": 3220
	},
	{
	"epoch": 0.5742222222222222,
	"grad_norm": 0.03522539883852005,
	"learning_rate": 0.0002827786666666666,
	"loss": 0.0247,
	"step": 3230
	},
	{
	"epoch": 0.576,
	"grad_norm": 0.039473287761211395,
	"learning_rate": 0.0002827253333333333,
	"loss": 0.0202,
	"step": 3240
	},
	{
	"epoch": 0.5777777777777777,
	"grad_norm": 0.06863950192928314,
	"learning_rate": 0.000282672,
	"loss": 0.0225,
	"step": 3250
	},
	{
	"epoch": 0.5795555555555556,
	"grad_norm": 0.03817706182599068,
	"learning_rate": 0.00028261866666666664,
	"loss": 0.031,
	"step": 3260
	},
	{
	"epoch": 0.5813333333333334,
	"grad_norm": 0.04472897946834564,
	"learning_rate": 0.0002825653333333333,
	"loss": 0.0302,
	"step": 3270
	},
	{
	"epoch": 0.5831111111111111,
	"grad_norm": 0.06225752830505371,
	"learning_rate": 0.000282512,
	"loss": 0.0246,
	"step": 3280
	},
	{
	"epoch": 0.5848888888888889,
	"grad_norm": 0.059107642620801926,
	"learning_rate": 0.0002824586666666666,
	"loss": 0.0276,
	"step": 3290
	},
	{
	"epoch": 0.5866666666666667,
	"grad_norm": 0.06899523735046387,
	"learning_rate": 0.0002824053333333333,
	"loss": 0.0171,
	"step": 3300
	},
	{
	"epoch": 0.5884444444444444,
	"grad_norm": 0.06581231206655502,
	"learning_rate": 0.000282352,
	"loss": 0.0327,
	"step": 3310
	},
	{
	"epoch": 0.5902222222222222,
	"grad_norm": 0.045066848397254944,
	"learning_rate": 0.00028229866666666664,
	"loss": 0.0241,
	"step": 3320
	},
	{
	"epoch": 0.592,
	"grad_norm": 0.07268764078617096,
	"learning_rate": 0.0002822453333333333,
	"loss": 0.0331,
	"step": 3330
	},
	{
	"epoch": 0.5937777777777777,
	"grad_norm": 0.060960572212934494,
	"learning_rate": 0.000282192,
	"loss": 0.0256,
	"step": 3340
	},
	{
	"epoch": 0.5955555555555555,
	"grad_norm": 0.2513478994369507,
	"learning_rate": 0.0002821386666666666,
	"loss": 0.025,
	"step": 3350
	},
	{
	"epoch": 0.5973333333333334,
	"grad_norm": 0.06498312205076218,
	"learning_rate": 0.00028208533333333333,
	"loss": 0.0289,
	"step": 3360
	},
	{
	"epoch": 0.5991111111111111,
	"grad_norm": 0.09297536313533783,
	"learning_rate": 0.000282032,
	"loss": 0.0303,
	"step": 3370
	},
	{
	"epoch": 0.6008888888888889,
	"grad_norm": 0.13179464638233185,
	"learning_rate": 0.00028197866666666664,
	"loss": 0.0192,
	"step": 3380
	},
	{
	"epoch": 0.6026666666666667,
	"grad_norm": 0.10963452607393265,
	"learning_rate": 0.0002819253333333333,
	"loss": 0.0246,
	"step": 3390
	},
	{
	"epoch": 0.6044444444444445,
	"grad_norm": 0.09506689757108688,
	"learning_rate": 0.00028187199999999996,
	"loss": 0.0239,
	"step": 3400
	},
	{
	"epoch": 0.6062222222222222,
	"grad_norm": 0.04913311451673508,
	"learning_rate": 0.0002818186666666666,
	"loss": 0.0261,
	"step": 3410
	},
	{
	"epoch": 0.608,
	"grad_norm": 0.08195222169160843,
	"learning_rate": 0.00028176533333333333,
	"loss": 0.0247,
	"step": 3420
	},
	{
	"epoch": 0.6097777777777778,
	"grad_norm": 0.0691281408071518,
	"learning_rate": 0.000281712,
	"loss": 0.0207,
	"step": 3430
	},
	{
	"epoch": 0.6115555555555555,
	"grad_norm": 0.0718892365694046,
	"learning_rate": 0.00028165866666666665,
	"loss": 0.0241,
	"step": 3440
	},
	{
	"epoch": 0.6133333333333333,
	"grad_norm": 0.06909991800785065,
	"learning_rate": 0.0002816053333333333,
	"loss": 0.0272,
	"step": 3450
	},
	{
	"epoch": 0.6151111111111112,
	"grad_norm": 0.04485394060611725,
	"learning_rate": 0.00028155199999999996,
	"loss": 0.0215,
	"step": 3460
	},
	{
	"epoch": 0.6168888888888889,
	"grad_norm": 0.04724091663956642,
	"learning_rate": 0.0002814986666666666,
	"loss": 0.0212,
	"step": 3470
	},
	{
	"epoch": 0.6186666666666667,
	"grad_norm": 0.029085082933306694,
	"learning_rate": 0.00028144533333333333,
	"loss": 0.0196,
	"step": 3480
	},
	{
	"epoch": 0.6204444444444445,
	"grad_norm": 0.19220128655433655,
	"learning_rate": 0.000281392,
	"loss": 0.0247,
	"step": 3490
	},
	{
	"epoch": 0.6222222222222222,
	"grad_norm": 0.05309440195560455,
	"learning_rate": 0.00028133866666666665,
	"loss": 0.0244,
	"step": 3500
	},
	{
	"epoch": 0.624,
	"grad_norm": 0.07952793687582016,
	"learning_rate": 0.0002812853333333333,
	"loss": 0.0195,
	"step": 3510
	},
	{
	"epoch": 0.6257777777777778,
	"grad_norm": 0.3154834508895874,
	"learning_rate": 0.00028123199999999997,
	"loss": 0.0295,
	"step": 3520
	},
	{
	"epoch": 0.6275555555555555,
	"grad_norm": 0.0766853392124176,
	"learning_rate": 0.0002811786666666666,
	"loss": 0.0324,
	"step": 3530
	},
	{
	"epoch": 0.6293333333333333,
	"grad_norm": 0.08639875799417496,
	"learning_rate": 0.00028112533333333334,
	"loss": 0.0236,
	"step": 3540
	},
	{
	"epoch": 0.6311111111111111,
	"grad_norm": 0.08146939426660538,
	"learning_rate": 0.000281072,
	"loss": 0.0326,
	"step": 3550
	},
	{
	"epoch": 0.6328888888888888,
	"grad_norm": 0.05373803526163101,
	"learning_rate": 0.00028101866666666665,
	"loss": 0.0287,
	"step": 3560
	},
	{
	"epoch": 0.6346666666666667,
	"grad_norm": 0.07657090574502945,
	"learning_rate": 0.0002809653333333333,
	"loss": 0.0285,
	"step": 3570
	},
	{
	"epoch": 0.6364444444444445,
	"grad_norm": 0.06270106136798859,
	"learning_rate": 0.00028091199999999997,
	"loss": 0.0257,
	"step": 3580
	},
	{
	"epoch": 0.6382222222222222,
	"grad_norm": 0.08759273588657379,
	"learning_rate": 0.00028085866666666663,
	"loss": 0.0198,
	"step": 3590
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.11989719420671463,
	"learning_rate": 0.0002808053333333333,
	"loss": 0.0305,
	"step": 3600
	},
	{
	"epoch": 0.6417777777777778,
	"grad_norm": 0.0724174827337265,
	"learning_rate": 0.000280752,
	"loss": 0.0248,
	"step": 3610
	},
	{
	"epoch": 0.6435555555555555,
	"grad_norm": 0.03285994380712509,
	"learning_rate": 0.0002806986666666666,
	"loss": 0.0266,
	"step": 3620
	},
	{
	"epoch": 0.6453333333333333,
	"grad_norm": 0.07670129835605621,
	"learning_rate": 0.0002806453333333333,
	"loss": 0.0297,
	"step": 3630
	},
	{
	"epoch": 0.6471111111111111,
	"grad_norm": 0.08773159980773926,
	"learning_rate": 0.00028059199999999997,
	"loss": 0.0175,
	"step": 3640
	},
	{
	"epoch": 0.6488888888888888,
	"grad_norm": 0.061989523470401764,
	"learning_rate": 0.00028053866666666663,
	"loss": 0.019,
	"step": 3650
	},
	{
	"epoch": 0.6506666666666666,
	"grad_norm": 0.07524633407592773,
	"learning_rate": 0.0002804853333333333,
	"loss": 0.0236,
	"step": 3660
	},
	{
	"epoch": 0.6524444444444445,
	"grad_norm": 0.05378331243991852,
	"learning_rate": 0.000280432,
	"loss": 0.0245,
	"step": 3670
	},
	{
	"epoch": 0.6542222222222223,
	"grad_norm": 0.11779718846082687,
	"learning_rate": 0.0002803786666666666,
	"loss": 0.0367,
	"step": 3680
	},
	{
	"epoch": 0.656,
	"grad_norm": 0.0681007131934166,
	"learning_rate": 0.0002803253333333333,
	"loss": 0.0201,
	"step": 3690
	},
	{
	"epoch": 0.6577777777777778,
	"grad_norm": 0.07915254682302475,
	"learning_rate": 0.000280272,
	"loss": 0.0269,
	"step": 3700
	},
	{
	"epoch": 0.6595555555555556,
	"grad_norm": 0.08552742004394531,
	"learning_rate": 0.00028021866666666663,
	"loss": 0.0205,
	"step": 3710
	},
	{
	"epoch": 0.6613333333333333,
	"grad_norm": 0.2085397094488144,
	"learning_rate": 0.0002801653333333333,
	"loss": 0.0208,
	"step": 3720
	},
	{
	"epoch": 0.6631111111111111,
	"grad_norm": 0.1683596819639206,
	"learning_rate": 0.000280112,
	"loss": 0.0238,
	"step": 3730
	},
	{
	"epoch": 0.6648888888888889,
	"grad_norm": 0.10576564073562622,
	"learning_rate": 0.0002800586666666666,
	"loss": 0.0197,
	"step": 3740
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.08186109364032745,
	"learning_rate": 0.0002800053333333333,
	"loss": 0.0248,
	"step": 3750
	},
	{
	"epoch": 0.6684444444444444,
	"grad_norm": 0.18161682784557343,
	"learning_rate": 0.000279952,
	"loss": 0.0349,
	"step": 3760
	},
	{
	"epoch": 0.6702222222222223,
	"grad_norm": 0.09221694618463516,
	"learning_rate": 0.00027989866666666664,
	"loss": 0.0277,
	"step": 3770
	},
	{
	"epoch": 0.672,
	"grad_norm": 0.06621862202882767,
	"learning_rate": 0.0002798453333333333,
	"loss": 0.0156,
	"step": 3780
	},
	{
	"epoch": 0.6737777777777778,
	"grad_norm": 0.06530987471342087,
	"learning_rate": 0.000279792,
	"loss": 0.0261,
	"step": 3790
	},
	{
	"epoch": 0.6755555555555556,
	"grad_norm": 0.044641200453042984,
	"learning_rate": 0.0002797386666666666,
	"loss": 0.0312,
	"step": 3800
	},
	{
	"epoch": 0.6773333333333333,
	"grad_norm": 0.11770203709602356,
	"learning_rate": 0.0002796853333333333,
	"loss": 0.0193,
	"step": 3810
	},
	{
	"epoch": 0.6791111111111111,
	"grad_norm": 0.06111403554677963,
	"learning_rate": 0.000279632,
	"loss": 0.0242,
	"step": 3820
	},
	{
	"epoch": 0.6808888888888889,
	"grad_norm": 0.05925939977169037,
	"learning_rate": 0.00027957866666666664,
	"loss": 0.0257,
	"step": 3830
	},
	{
	"epoch": 0.6826666666666666,
	"grad_norm": 0.08108479529619217,
	"learning_rate": 0.0002795253333333333,
	"loss": 0.0424,
	"step": 3840
	},
	{
	"epoch": 0.6844444444444444,
	"grad_norm": 0.05645951256155968,
	"learning_rate": 0.000279472,
	"loss": 0.0248,
	"step": 3850
	},
	{
	"epoch": 0.6862222222222222,
	"grad_norm": 0.08995641767978668,
	"learning_rate": 0.0002794186666666666,
	"loss": 0.0215,
	"step": 3860
	},
	{
	"epoch": 0.688,
	"grad_norm": 0.0512068085372448,
	"learning_rate": 0.0002793653333333333,
	"loss": 0.0288,
	"step": 3870
	},
	{
	"epoch": 0.6897777777777778,
	"grad_norm": 0.12146838754415512,
	"learning_rate": 0.000279312,
	"loss": 0.0243,
	"step": 3880
	},
	{
	"epoch": 0.6915555555555556,
	"grad_norm": 0.04428360238671303,
	"learning_rate": 0.00027925866666666664,
	"loss": 0.0163,
	"step": 3890
	},
	{
	"epoch": 0.6933333333333334,
	"grad_norm": 0.0743410661816597,
	"learning_rate": 0.0002792053333333333,
	"loss": 0.026,
	"step": 3900
	},
	{
	"epoch": 0.6951111111111111,
	"grad_norm": 0.12399561703205109,
	"learning_rate": 0.000279152,
	"loss": 0.024,
	"step": 3910
	},
	{
	"epoch": 0.6968888888888889,
	"grad_norm": 0.06302154064178467,
	"learning_rate": 0.0002790986666666666,
	"loss": 0.0226,
	"step": 3920
	},
	{
	"epoch": 0.6986666666666667,
	"grad_norm": 0.21663370728492737,
	"learning_rate": 0.00027904533333333333,
	"loss": 0.0275,
	"step": 3930
	},
	{
	"epoch": 0.7004444444444444,
	"grad_norm": 0.06273024529218674,
	"learning_rate": 0.000278992,
	"loss": 0.0176,
	"step": 3940
	},
	{
	"epoch": 0.7022222222222222,
	"grad_norm": 0.08824668824672699,
	"learning_rate": 0.00027893866666666665,
	"loss": 0.0306,
	"step": 3950
	},
	{
	"epoch": 0.704,
	"grad_norm": 0.09272222965955734,
	"learning_rate": 0.0002788853333333333,
	"loss": 0.0215,
	"step": 3960
	},
	{
	"epoch": 0.7057777777777777,
	"grad_norm": 0.08313607424497604,
	"learning_rate": 0.00027883199999999996,
	"loss": 0.0342,
	"step": 3970
	},
	{
	"epoch": 0.7075555555555556,
	"grad_norm": 0.10409655421972275,
	"learning_rate": 0.0002787786666666666,
	"loss": 0.0225,
	"step": 3980
	},
	{
	"epoch": 0.7093333333333334,
	"grad_norm": 0.07407916337251663,
	"learning_rate": 0.00027872533333333333,
	"loss": 0.028,
	"step": 3990
	},
	{
	"epoch": 0.7111111111111111,
	"grad_norm": 0.10124842822551727,
	"learning_rate": 0.000278672,
	"loss": 0.0265,
	"step": 4000
	},
	{
	"epoch": 0.7111111111111111,
	"eval_accuracy": 0.7807,
	"eval_f1": 0.9520720583561755,
	"eval_loss": 0.024143511429429054,
	"eval_precision": 0.9509243568565938,
	"eval_recall": 0.954729496161733,
	"eval_runtime": 653.5539,
	"eval_samples_per_second": 15.301,
	"eval_steps_per_second": 1.913,
	"step": 4000
	},
	{
	"epoch": 0.7128888888888889,
	"grad_norm": 0.24815025925636292,
	"learning_rate": 0.00027861866666666665,
	"loss": 0.0284,
	"step": 4010
	},
	{
	"epoch": 0.7146666666666667,
	"grad_norm": 0.05122653767466545,
	"learning_rate": 0.0002785653333333333,
	"loss": 0.0235,
	"step": 4020
	},
	{
	"epoch": 0.7164444444444444,
	"grad_norm": 0.10150625556707382,
	"learning_rate": 0.00027851199999999997,
	"loss": 0.0254,
	"step": 4030
	},
	{
	"epoch": 0.7182222222222222,
	"grad_norm": 0.06908834725618362,
	"learning_rate": 0.0002784586666666666,
	"loss": 0.0236,
	"step": 4040
	},
	{
	"epoch": 0.72,
	"grad_norm": 0.04954081028699875,
	"learning_rate": 0.00027840533333333334,
	"loss": 0.0274,
	"step": 4050
	},
	{
	"epoch": 0.7217777777777777,
	"grad_norm": 0.05035025253891945,
	"learning_rate": 0.000278352,
	"loss": 0.0225,
	"step": 4060
	},
	{
	"epoch": 0.7235555555555555,
	"grad_norm": 0.11174604296684265,
	"learning_rate": 0.00027829866666666665,
	"loss": 0.0311,
	"step": 4070
	},
	{
	"epoch": 0.7253333333333334,
	"grad_norm": 0.09249529987573624,
	"learning_rate": 0.0002782453333333333,
	"loss": 0.0208,
	"step": 4080
	},
	{
	"epoch": 0.7271111111111112,
	"grad_norm": 0.06818148493766785,
	"learning_rate": 0.00027819199999999997,
	"loss": 0.0265,
	"step": 4090
	},
	{
	"epoch": 0.7288888888888889,
	"grad_norm": 0.15703712403774261,
	"learning_rate": 0.0002781386666666666,
	"loss": 0.0268,
	"step": 4100
	},
	{
	"epoch": 0.7306666666666667,
	"grad_norm": 0.1412905901670456,
	"learning_rate": 0.0002780853333333333,
	"loss": 0.0274,
	"step": 4110
	},
	{
	"epoch": 0.7324444444444445,
	"grad_norm": 0.10994693636894226,
	"learning_rate": 0.000278032,
	"loss": 0.0299,
	"step": 4120
	},
	{
	"epoch": 0.7342222222222222,
	"grad_norm": 0.05300424247980118,
	"learning_rate": 0.0002779786666666666,
	"loss": 0.0239,
	"step": 4130
	},
	{
	"epoch": 0.736,
	"grad_norm": 0.04120921716094017,
	"learning_rate": 0.0002779253333333333,
	"loss": 0.0184,
	"step": 4140
	},
	{
	"epoch": 0.7377777777777778,
	"grad_norm": 0.20823882520198822,
	"learning_rate": 0.00027787199999999997,
	"loss": 0.0252,
	"step": 4150
	},
	{
	"epoch": 0.7395555555555555,
	"grad_norm": 0.09810299426317215,
	"learning_rate": 0.00027781866666666663,
	"loss": 0.0227,
	"step": 4160
	},
	{
	"epoch": 0.7413333333333333,
	"grad_norm": 0.08327528834342957,
	"learning_rate": 0.0002777653333333333,
	"loss": 0.0216,
	"step": 4170
	},
	{
	"epoch": 0.7431111111111111,
	"grad_norm": 0.039426740258932114,
	"learning_rate": 0.000277712,
	"loss": 0.0234,
	"step": 4180
	},
	{
	"epoch": 0.7448888888888889,
	"grad_norm": 0.06340809911489487,
	"learning_rate": 0.0002776586666666666,
	"loss": 0.0241,
	"step": 4190
	},
	{
	"epoch": 0.7466666666666667,
	"grad_norm": 0.08526232838630676,
	"learning_rate": 0.0002776053333333333,
	"loss": 0.027,
	"step": 4200
	},
	{
	"epoch": 0.7484444444444445,
	"grad_norm": 0.044167906045913696,
	"learning_rate": 0.000277552,
	"loss": 0.0247,
	"step": 4210
	},
	{
	"epoch": 0.7502222222222222,
	"grad_norm": 0.08132551610469818,
	"learning_rate": 0.00027749866666666663,
	"loss": 0.0225,
	"step": 4220
	},
	{
	"epoch": 0.752,
	"grad_norm": 0.2031109631061554,
	"learning_rate": 0.0002774453333333333,
	"loss": 0.0147,
	"step": 4230
	},
	{
	"epoch": 0.7537777777777778,
	"grad_norm": 0.07283439487218857,
	"learning_rate": 0.000277392,
	"loss": 0.0209,
	"step": 4240
	},
	{
	"epoch": 0.7555555555555555,
	"grad_norm": 0.06650519371032715,
	"learning_rate": 0.0002773386666666666,
	"loss": 0.0274,
	"step": 4250
	},
	{
	"epoch": 0.7573333333333333,
	"grad_norm": 0.1117628887295723,
	"learning_rate": 0.0002772853333333333,
	"loss": 0.0233,
	"step": 4260
	},
	{
	"epoch": 0.7591111111111111,
	"grad_norm": 0.1228516548871994,
	"learning_rate": 0.000277232,
	"loss": 0.024,
	"step": 4270
	},
	{
	"epoch": 0.7608888888888888,
	"grad_norm": 0.2279478758573532,
	"learning_rate": 0.00027717866666666664,
	"loss": 0.0238,
	"step": 4280
	},
	{
	"epoch": 0.7626666666666667,
	"grad_norm": 0.06056941673159599,
	"learning_rate": 0.0002771253333333333,
	"loss": 0.0193,
	"step": 4290
	},
	{
	"epoch": 0.7644444444444445,
	"grad_norm": 0.0885508731007576,
	"learning_rate": 0.000277072,
	"loss": 0.0319,
	"step": 4300
	},
	{
	"epoch": 0.7662222222222222,
	"grad_norm": 0.07146623730659485,
	"learning_rate": 0.0002770186666666666,
	"loss": 0.015,
	"step": 4310
	},
	{
	"epoch": 0.768,
	"grad_norm": 0.03771064803004265,
	"learning_rate": 0.0002769653333333333,
	"loss": 0.016,
	"step": 4320
	},
	{
	"epoch": 0.7697777777777778,
	"grad_norm": 0.055286455899477005,
	"learning_rate": 0.000276912,
	"loss": 0.0204,
	"step": 4330
	},
	{
	"epoch": 0.7715555555555556,
	"grad_norm": 0.035712361335754395,
	"learning_rate": 0.00027685866666666664,
	"loss": 0.0208,
	"step": 4340
	},
	{
	"epoch": 0.7733333333333333,
	"grad_norm": 0.0691710114479065,
	"learning_rate": 0.0002768053333333333,
	"loss": 0.0263,
	"step": 4350
	},
	{
	"epoch": 0.7751111111111111,
	"grad_norm": 0.05109955370426178,
	"learning_rate": 0.000276752,
	"loss": 0.0237,
	"step": 4360
	},
	{
	"epoch": 0.7768888888888889,
	"grad_norm": 0.11392170935869217,
	"learning_rate": 0.0002766986666666666,
	"loss": 0.037,
	"step": 4370
	},
	{
	"epoch": 0.7786666666666666,
	"grad_norm": 0.03930488973855972,
	"learning_rate": 0.0002766453333333333,
	"loss": 0.0224,
	"step": 4380
	},
	{
	"epoch": 0.7804444444444445,
	"grad_norm": 0.1951311230659485,
	"learning_rate": 0.000276592,
	"loss": 0.0239,
	"step": 4390
	},
	{
	"epoch": 0.7822222222222223,
	"grad_norm": 0.1288134753704071,
	"learning_rate": 0.00027653866666666664,
	"loss": 0.0294,
	"step": 4400
	},
	{
	"epoch": 0.784,
	"grad_norm": 0.0636647418141365,
	"learning_rate": 0.0002764853333333333,
	"loss": 0.0159,
	"step": 4410
	},
	{
	"epoch": 0.7857777777777778,
	"grad_norm": 0.04233495146036148,
	"learning_rate": 0.000276432,
	"loss": 0.0191,
	"step": 4420
	},
	{
	"epoch": 0.7875555555555556,
	"grad_norm": 0.16061605513095856,
	"learning_rate": 0.0002763786666666666,
	"loss": 0.0276,
	"step": 4430
	},
	{
	"epoch": 0.7893333333333333,
	"grad_norm": 0.2412431836128235,
	"learning_rate": 0.00027632533333333333,
	"loss": 0.019,
	"step": 4440
	},
	{
	"epoch": 0.7911111111111111,
	"grad_norm": 0.11416659504175186,
	"learning_rate": 0.000276272,
	"loss": 0.0283,
	"step": 4450
	},
	{
	"epoch": 0.7928888888888889,
	"grad_norm": 0.03350535407662392,
	"learning_rate": 0.00027621866666666664,
	"loss": 0.0243,
	"step": 4460
	},
	{
	"epoch": 0.7946666666666666,
	"grad_norm": 0.0885830745100975,
	"learning_rate": 0.0002761653333333333,
	"loss": 0.02,
	"step": 4470
	},
	{
	"epoch": 0.7964444444444444,
	"grad_norm": 0.062161337584257126,
	"learning_rate": 0.000276112,
	"loss": 0.0207,
	"step": 4480
	},
	{
	"epoch": 0.7982222222222223,
	"grad_norm": 0.16883093118667603,
	"learning_rate": 0.0002760586666666666,
	"loss": 0.0287,
	"step": 4490
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.05297341197729111,
	"learning_rate": 0.00027600533333333333,
	"loss": 0.0272,
	"step": 4500
	},
	{
	"epoch": 0.8017777777777778,
	"grad_norm": 0.0917816013097763,
	"learning_rate": 0.000275952,
	"loss": 0.0357,
	"step": 4510
	},
	{
	"epoch": 0.8035555555555556,
	"grad_norm": 0.14493350684642792,
	"learning_rate": 0.00027589866666666665,
	"loss": 0.023,
	"step": 4520
	},
	{
	"epoch": 0.8053333333333333,
	"grad_norm": 0.09328983724117279,
	"learning_rate": 0.0002758453333333333,
	"loss": 0.028,
	"step": 4530
	},
	{
	"epoch": 0.8071111111111111,
	"grad_norm": 0.05816565826535225,
	"learning_rate": 0.00027579199999999996,
	"loss": 0.0205,
	"step": 4540
	},
	{
	"epoch": 0.8088888888888889,
	"grad_norm": 0.06090319901704788,
	"learning_rate": 0.0002757386666666666,
	"loss": 0.022,
	"step": 4550
	},
	{
	"epoch": 0.8106666666666666,
	"grad_norm": 0.05104518681764603,
	"learning_rate": 0.00027568533333333333,
	"loss": 0.0266,
	"step": 4560
	},
	{
	"epoch": 0.8124444444444444,
	"grad_norm": 0.053427401930093765,
	"learning_rate": 0.000275632,
	"loss": 0.0301,
	"step": 4570
	},
	{
	"epoch": 0.8142222222222222,
	"grad_norm": 0.06332672387361526,
	"learning_rate": 0.00027557866666666665,
	"loss": 0.021,
	"step": 4580
	},
	{
	"epoch": 0.816,
	"grad_norm": 0.11252682656049728,
	"learning_rate": 0.0002755253333333333,
	"loss": 0.0185,
	"step": 4590
	},
	{
	"epoch": 0.8177777777777778,
	"grad_norm": 0.05031600967049599,
	"learning_rate": 0.00027547199999999997,
	"loss": 0.028,
	"step": 4600
	},
	{
	"epoch": 0.8195555555555556,
	"grad_norm": 0.10952623188495636,
	"learning_rate": 0.0002754186666666666,
	"loss": 0.0315,
	"step": 4610
	},
	{
	"epoch": 0.8213333333333334,
	"grad_norm": 0.06622734665870667,
	"learning_rate": 0.0002753653333333333,
	"loss": 0.0277,
	"step": 4620
	},
	{
	"epoch": 0.8231111111111111,
	"grad_norm": 0.09400101751089096,
	"learning_rate": 0.000275312,
	"loss": 0.0307,
	"step": 4630
	},
	{
	"epoch": 0.8248888888888889,
	"grad_norm": 0.11097563058137894,
	"learning_rate": 0.00027525866666666665,
	"loss": 0.0359,
	"step": 4640
	},
	{
	"epoch": 0.8266666666666667,
	"grad_norm": 0.032760389149188995,
	"learning_rate": 0.0002752053333333333,
	"loss": 0.0308,
	"step": 4650
	},
	{
	"epoch": 0.8284444444444444,
	"grad_norm": 0.1319246143102646,
	"learning_rate": 0.00027515199999999997,
	"loss": 0.0198,
	"step": 4660
	},
	{
	"epoch": 0.8302222222222222,
	"grad_norm": 0.053603872656822205,
	"learning_rate": 0.00027509866666666663,
	"loss": 0.023,
	"step": 4670
	},
	{
	"epoch": 0.832,
	"grad_norm": 0.09825598448514938,
	"learning_rate": 0.0002750453333333333,
	"loss": 0.0257,
	"step": 4680
	},
	{
	"epoch": 0.8337777777777777,
	"grad_norm": 0.03865765780210495,
	"learning_rate": 0.000274992,
	"loss": 0.0156,
	"step": 4690
	},
	{
	"epoch": 0.8355555555555556,
	"grad_norm": 0.04348286986351013,
	"learning_rate": 0.0002749386666666666,
	"loss": 0.0242,
	"step": 4700
	},
	{
	"epoch": 0.8373333333333334,
	"grad_norm": 0.04887940734624863,
	"learning_rate": 0.0002748853333333333,
	"loss": 0.0258,
	"step": 4710
	},
	{
	"epoch": 0.8391111111111111,
	"grad_norm": 0.09802955389022827,
	"learning_rate": 0.000274832,
	"loss": 0.0228,
	"step": 4720
	},
	{
	"epoch": 0.8408888888888889,
	"grad_norm": 0.04323141649365425,
	"learning_rate": 0.00027477866666666663,
	"loss": 0.0183,
	"step": 4730
	},
	{
	"epoch": 0.8426666666666667,
	"grad_norm": 0.15568454563617706,
	"learning_rate": 0.0002747253333333333,
	"loss": 0.0263,
	"step": 4740
	},
	{
	"epoch": 0.8444444444444444,
	"grad_norm": 0.09386380016803741,
	"learning_rate": 0.000274672,
	"loss": 0.0248,
	"step": 4750
	},
	{
	"epoch": 0.8462222222222222,
	"grad_norm": 0.07869990915060043,
	"learning_rate": 0.0002746186666666666,
	"loss": 0.0276,
	"step": 4760
	},
	{
	"epoch": 0.848,
	"grad_norm": 0.08227825909852982,
	"learning_rate": 0.0002745653333333333,
	"loss": 0.0259,
	"step": 4770
	},
	{
	"epoch": 0.8497777777777777,
	"grad_norm": 0.1594904512166977,
	"learning_rate": 0.000274512,
	"loss": 0.023,
	"step": 4780
	},
	{
	"epoch": 0.8515555555555555,
	"grad_norm": 0.08040431141853333,
	"learning_rate": 0.00027445866666666663,
	"loss": 0.0285,
	"step": 4790
	},
	{
	"epoch": 0.8533333333333334,
	"grad_norm": 0.09920360893011093,
	"learning_rate": 0.0002744053333333333,
	"loss": 0.0263,
	"step": 4800
	},
	{
	"epoch": 0.8551111111111112,
	"grad_norm": 0.10600800812244415,
	"learning_rate": 0.000274352,
	"loss": 0.0263,
	"step": 4810
	},
	{
	"epoch": 0.8568888888888889,
	"grad_norm": 0.046839192509651184,
	"learning_rate": 0.0002742986666666666,
	"loss": 0.0288,
	"step": 4820
	},
	{
	"epoch": 0.8586666666666667,
	"grad_norm": 0.050161466002464294,
	"learning_rate": 0.0002742453333333333,
	"loss": 0.022,
	"step": 4830
	},
	{
	"epoch": 0.8604444444444445,
	"grad_norm": 0.03671692684292793,
	"learning_rate": 0.000274192,
	"loss": 0.0143,
	"step": 4840
	},
	{
	"epoch": 0.8622222222222222,
	"grad_norm": 0.04957146570086479,
	"learning_rate": 0.00027413866666666664,
	"loss": 0.0292,
	"step": 4850
	},
	{
	"epoch": 0.864,
	"grad_norm": 0.055758293718099594,
	"learning_rate": 0.0002740853333333333,
	"loss": 0.0274,
	"step": 4860
	},
	{
	"epoch": 0.8657777777777778,
	"grad_norm": 0.07606534659862518,
	"learning_rate": 0.000274032,
	"loss": 0.0278,
	"step": 4870
	},
	{
	"epoch": 0.8675555555555555,
	"grad_norm": 0.04726061224937439,
	"learning_rate": 0.0002739786666666666,
	"loss": 0.0129,
	"step": 4880
	},
	{
	"epoch": 0.8693333333333333,
	"grad_norm": 0.08245188742876053,
	"learning_rate": 0.0002739253333333333,
	"loss": 0.0305,
	"step": 4890
	},
	{
	"epoch": 0.8711111111111111,
	"grad_norm": 0.18735721707344055,
	"learning_rate": 0.000273872,
	"loss": 0.024,
	"step": 4900
	},
	{
	"epoch": 0.8728888888888889,
	"grad_norm": 0.05333717539906502,
	"learning_rate": 0.00027381866666666664,
	"loss": 0.0202,
	"step": 4910
	},
	{
	"epoch": 0.8746666666666667,
	"grad_norm": 0.10776514559984207,
	"learning_rate": 0.0002737653333333333,
	"loss": 0.0214,
	"step": 4920
	},
	{
	"epoch": 0.8764444444444445,
	"grad_norm": 0.06848230212926865,
	"learning_rate": 0.000273712,
	"loss": 0.029,
	"step": 4930
	},
	{
	"epoch": 0.8782222222222222,
	"grad_norm": 0.05506756529211998,
	"learning_rate": 0.0002736586666666666,
	"loss": 0.0353,
	"step": 4940
	},
	{
	"epoch": 0.88,
	"grad_norm": 0.08956385403871536,
	"learning_rate": 0.00027360533333333333,
	"loss": 0.0226,
	"step": 4950
	},
	{
	"epoch": 0.8817777777777778,
	"grad_norm": 0.05630868300795555,
	"learning_rate": 0.000273552,
	"loss": 0.0252,
	"step": 4960
	},
	{
	"epoch": 0.8835555555555555,
	"grad_norm": 0.10978707671165466,
	"learning_rate": 0.00027349866666666664,
	"loss": 0.0216,
	"step": 4970
	},
	{
	"epoch": 0.8853333333333333,
	"grad_norm": 0.07564612478017807,
	"learning_rate": 0.0002734453333333333,
	"loss": 0.0226,
	"step": 4980
	},
	{
	"epoch": 0.8871111111111111,
	"grad_norm": 0.04177866503596306,
	"learning_rate": 0.000273392,
	"loss": 0.0164,
	"step": 4990
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 0.0588146410882473,
	"learning_rate": 0.0002733386666666666,
	"loss": 0.0218,
	"step": 5000
	},
	{
	"epoch": 0.8888888888888888,
	"eval_accuracy": 0.7805,
	"eval_f1": 0.9489121749806473,
	"eval_loss": 0.022677874192595482,
	"eval_precision": 0.9481304534354534,
	"eval_recall": 0.9511378704774758,
	"eval_runtime": 650.1813,
	"eval_samples_per_second": 15.38,
	"eval_steps_per_second": 1.923,
	"step": 5000
	},
	{
	"epoch": 0.8906666666666667,
	"grad_norm": 0.0680263340473175,
	"learning_rate": 0.00027328533333333333,
	"loss": 0.022,
	"step": 5010
	},
	{
	"epoch": 0.8924444444444445,
	"grad_norm": 0.17622599005699158,
	"learning_rate": 0.000273232,
	"loss": 0.0283,
	"step": 5020
	},
	{
	"epoch": 0.8942222222222223,
	"grad_norm": 0.0849849283695221,
	"learning_rate": 0.00027317866666666665,
	"loss": 0.0375,
	"step": 5030
	},
	{
	"epoch": 0.896,
	"grad_norm": 0.06796667724847794,
	"learning_rate": 0.0002731253333333333,
	"loss": 0.0268,
	"step": 5040
	},
	{
	"epoch": 0.8977777777777778,
	"grad_norm": 0.140039324760437,
	"learning_rate": 0.000273072,
	"loss": 0.018,
	"step": 5050
	},
	{
	"epoch": 0.8995555555555556,
	"grad_norm": 0.08042261749505997,
	"learning_rate": 0.0002730186666666666,
	"loss": 0.0201,
	"step": 5060
	},
	{
	"epoch": 0.9013333333333333,
	"grad_norm": 0.08478634059429169,
	"learning_rate": 0.00027296533333333333,
	"loss": 0.0274,
	"step": 5070
	},
	{
	"epoch": 0.9031111111111111,
	"grad_norm": 0.06009805202484131,
	"learning_rate": 0.000272912,
	"loss": 0.0242,
	"step": 5080
	},
	{
	"epoch": 0.9048888888888889,
	"grad_norm": 0.04202135652303696,
	"learning_rate": 0.00027285866666666665,
	"loss": 0.0147,
	"step": 5090
	},
	{
	"epoch": 0.9066666666666666,
	"grad_norm": 0.07510834187269211,
	"learning_rate": 0.0002728053333333333,
	"loss": 0.0206,
	"step": 5100
	},
	{
	"epoch": 0.9084444444444445,
	"grad_norm": 0.08231019228696823,
	"learning_rate": 0.00027275199999999997,
	"loss": 0.0191,
	"step": 5110
	},
	{
	"epoch": 0.9102222222222223,
	"grad_norm": 0.11279986798763275,
	"learning_rate": 0.0002726986666666666,
	"loss": 0.0218,
	"step": 5120
	},
	{
	"epoch": 0.912,
	"grad_norm": 0.04988230764865875,
	"learning_rate": 0.0002726453333333333,
	"loss": 0.0196,
	"step": 5130
	},
	{
	"epoch": 0.9137777777777778,
	"grad_norm": 0.05115022882819176,
	"learning_rate": 0.000272592,
	"loss": 0.0203,
	"step": 5140
	},
	{
	"epoch": 0.9155555555555556,
	"grad_norm": 0.13574576377868652,
	"learning_rate": 0.00027253866666666665,
	"loss": 0.0251,
	"step": 5150
	},
	{
	"epoch": 0.9173333333333333,
	"grad_norm": 0.05182376131415367,
	"learning_rate": 0.0002724853333333333,
	"loss": 0.0201,
	"step": 5160
	},
	{
	"epoch": 0.9191111111111111,
	"grad_norm": 0.10832846164703369,
	"learning_rate": 0.00027243199999999997,
	"loss": 0.0249,
	"step": 5170
	},
	{
	"epoch": 0.9208888888888889,
	"grad_norm": 0.051869019865989685,
	"learning_rate": 0.00027237866666666663,
	"loss": 0.0308,
	"step": 5180
	},
	{
	"epoch": 0.9226666666666666,
	"grad_norm": 0.10531347990036011,
	"learning_rate": 0.0002723253333333333,
	"loss": 0.0202,
	"step": 5190
	},
	{
	"epoch": 0.9244444444444444,
	"grad_norm": 0.06323233991861343,
	"learning_rate": 0.000272272,
	"loss": 0.0201,
	"step": 5200
	},
	{
	"epoch": 0.9262222222222222,
	"grad_norm": 0.06002742797136307,
	"learning_rate": 0.00027221866666666666,
	"loss": 0.0223,
	"step": 5210
	},
	{
	"epoch": 0.928,
	"grad_norm": 0.06098544970154762,
	"learning_rate": 0.0002721653333333333,
	"loss": 0.0244,
	"step": 5220
	},
	{
	"epoch": 0.9297777777777778,
	"grad_norm": 0.06522677093744278,
	"learning_rate": 0.00027211199999999997,
	"loss": 0.0216,
	"step": 5230
	},
	{
	"epoch": 0.9315555555555556,
	"grad_norm": 0.06100668013095856,
	"learning_rate": 0.00027205866666666663,
	"loss": 0.0318,
	"step": 5240
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 0.06935697793960571,
	"learning_rate": 0.0002720053333333333,
	"loss": 0.0225,
	"step": 5250
	},
	{
	"epoch": 0.9351111111111111,
	"grad_norm": 0.05445867404341698,
	"learning_rate": 0.000271952,
	"loss": 0.0168,
	"step": 5260
	},
	{
	"epoch": 0.9368888888888889,
	"grad_norm": 0.08664330095052719,
	"learning_rate": 0.0002718986666666666,
	"loss": 0.0232,
	"step": 5270
	},
	{
	"epoch": 0.9386666666666666,
	"grad_norm": 0.072798952460289,
	"learning_rate": 0.0002718453333333333,
	"loss": 0.024,
	"step": 5280
	},
	{
	"epoch": 0.9404444444444444,
	"grad_norm": 0.08220954239368439,
	"learning_rate": 0.000271792,
	"loss": 0.024,
	"step": 5290
	},
	{
	"epoch": 0.9422222222222222,
	"grad_norm": 0.030204858630895615,
	"learning_rate": 0.00027173866666666663,
	"loss": 0.0259,
	"step": 5300
	},
	{
	"epoch": 0.944,
	"grad_norm": 0.03738045692443848,
	"learning_rate": 0.0002716853333333333,
	"loss": 0.0271,
	"step": 5310
	},
	{
	"epoch": 0.9457777777777778,
	"grad_norm": 0.08690766245126724,
	"learning_rate": 0.000271632,
	"loss": 0.0237,
	"step": 5320
	},
	{
	"epoch": 0.9475555555555556,
	"grad_norm": 0.1310735046863556,
	"learning_rate": 0.0002715786666666666,
	"loss": 0.0345,
	"step": 5330
	},
	{
	"epoch": 0.9493333333333334,
	"grad_norm": 0.10899726301431656,
	"learning_rate": 0.0002715253333333333,
	"loss": 0.0309,
	"step": 5340
	},
	{
	"epoch": 0.9511111111111111,
	"grad_norm": 0.1176820620894432,
	"learning_rate": 0.000271472,
	"loss": 0.029,
	"step": 5350
	},
	{
	"epoch": 0.9528888888888889,
	"grad_norm": 0.08592703938484192,
	"learning_rate": 0.00027141866666666664,
	"loss": 0.0252,
	"step": 5360
	},
	{
	"epoch": 0.9546666666666667,
	"grad_norm": 0.1073814332485199,
	"learning_rate": 0.0002713653333333333,
	"loss": 0.0237,
	"step": 5370
	},
	{
	"epoch": 0.9564444444444444,
	"grad_norm": 0.06471919268369675,
	"learning_rate": 0.000271312,
	"loss": 0.0235,
	"step": 5380
	},
	{
	"epoch": 0.9582222222222222,
	"grad_norm": 0.09008841961622238,
	"learning_rate": 0.0002712586666666666,
	"loss": 0.0224,
	"step": 5390
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.10253197699785233,
	"learning_rate": 0.0002712053333333333,
	"loss": 0.0268,
	"step": 5400
	},
	{
	"epoch": 0.9617777777777777,
	"grad_norm": 0.10255160927772522,
	"learning_rate": 0.000271152,
	"loss": 0.0243,
	"step": 5410
	},
	{
	"epoch": 0.9635555555555556,
	"grad_norm": 0.08443213999271393,
	"learning_rate": 0.00027109866666666664,
	"loss": 0.0274,
	"step": 5420
	},
	{
	"epoch": 0.9653333333333334,
	"grad_norm": 0.07566241919994354,
	"learning_rate": 0.0002710453333333333,
	"loss": 0.0206,
	"step": 5430
	},
	{
	"epoch": 0.9671111111111111,
	"grad_norm": 0.09296461194753647,
	"learning_rate": 0.000270992,
	"loss": 0.027,
	"step": 5440
	},
	{
	"epoch": 0.9688888888888889,
	"grad_norm": 0.07470197230577469,
	"learning_rate": 0.0002709386666666666,
	"loss": 0.0279,
	"step": 5450
	},
	{
	"epoch": 0.9706666666666667,
	"grad_norm": 0.05518031492829323,
	"learning_rate": 0.0002708853333333333,
	"loss": 0.024,
	"step": 5460
	},
	{
	"epoch": 0.9724444444444444,
	"grad_norm": 0.06700322777032852,
	"learning_rate": 0.000270832,
	"loss": 0.0239,
	"step": 5470
	},
	{
	"epoch": 0.9742222222222222,
	"grad_norm": 0.043132733553647995,
	"learning_rate": 0.00027077866666666664,
	"loss": 0.015,
	"step": 5480
	},
	{
	"epoch": 0.976,
	"grad_norm": 0.03849382698535919,
	"learning_rate": 0.0002707253333333333,
	"loss": 0.0314,
	"step": 5490
	},
	{
	"epoch": 0.9777777777777777,
	"grad_norm": 0.14933045208454132,
	"learning_rate": 0.000270672,
	"loss": 0.0249,
	"step": 5500
	},
	{
	"epoch": 0.9795555555555555,
	"grad_norm": 0.12208105623722076,
	"learning_rate": 0.0002706186666666666,
	"loss": 0.0216,
	"step": 5510
	},
	{
	"epoch": 0.9813333333333333,
	"grad_norm": 0.048986442387104034,
	"learning_rate": 0.00027056533333333333,
	"loss": 0.0275,
	"step": 5520
	},
	{
	"epoch": 0.9831111111111112,
	"grad_norm": 0.08445523679256439,
	"learning_rate": 0.000270512,
	"loss": 0.0217,
	"step": 5530
	},
	{
	"epoch": 0.9848888888888889,
	"grad_norm": 0.21780821681022644,
	"learning_rate": 0.00027045866666666665,
	"loss": 0.0296,
	"step": 5540
	},
	{
	"epoch": 0.9866666666666667,
	"grad_norm": 0.06558253616094589,
	"learning_rate": 0.0002704053333333333,
	"loss": 0.0258,
	"step": 5550
	},
	{
	"epoch": 0.9884444444444445,
	"grad_norm": 0.044081203639507294,
	"learning_rate": 0.000270352,
	"loss": 0.031,
	"step": 5560
	},
	{
	"epoch": 0.9902222222222222,
	"grad_norm": 0.055624719709157944,
	"learning_rate": 0.0002702986666666666,
	"loss": 0.0247,
	"step": 5570
	},
	{
	"epoch": 0.992,
	"grad_norm": 0.1662399172782898,
	"learning_rate": 0.00027024533333333333,
	"loss": 0.0251,
	"step": 5580
	},
	{
	"epoch": 0.9937777777777778,
	"grad_norm": 0.0771157369017601,
	"learning_rate": 0.000270192,
	"loss": 0.0207,
	"step": 5590
	},
	{
	"epoch": 0.9955555555555555,
	"grad_norm": 0.1563335508108139,
	"learning_rate": 0.00027013866666666665,
	"loss": 0.0201,
	"step": 5600
	},
	{
	"epoch": 0.9973333333333333,
	"grad_norm": 0.09246068447828293,
	"learning_rate": 0.0002700853333333333,
	"loss": 0.0184,
	"step": 5610
	},
	{
	"epoch": 0.9991111111111111,
	"grad_norm": 0.0873664990067482,
	"learning_rate": 0.000270032,
	"loss": 0.0155,
	"step": 5620
	},
	{
	"epoch": 1.000888888888889,
	"grad_norm": 0.09236636012792587,
	"learning_rate": 0.0002699786666666666,
	"loss": 0.0284,
	"step": 5630
	},
	{
	"epoch": 1.0026666666666666,
	"grad_norm": 0.08516989648342133,
	"learning_rate": 0.0002699253333333333,
	"loss": 0.0193,
	"step": 5640
	},
	{
	"epoch": 1.0044444444444445,
	"grad_norm": 0.10584837198257446,
	"learning_rate": 0.000269872,
	"loss": 0.019,
	"step": 5650
	},
	{
	"epoch": 1.0062222222222221,
	"grad_norm": 0.08721577376127243,
	"learning_rate": 0.00026981866666666665,
	"loss": 0.0155,
	"step": 5660
	},
	{
	"epoch": 1.008,
	"grad_norm": 0.1088644489645958,
	"learning_rate": 0.0002697653333333333,
	"loss": 0.0391,
	"step": 5670
	},
	{
	"epoch": 1.0097777777777779,
	"grad_norm": 0.09955207258462906,
	"learning_rate": 0.00026971199999999997,
	"loss": 0.0307,
	"step": 5680
	},
	{
	"epoch": 1.0115555555555555,
	"grad_norm": 0.06394711136817932,
	"learning_rate": 0.0002696586666666666,
	"loss": 0.0117,
	"step": 5690
	},
	{
	"epoch": 1.0133333333333334,
	"grad_norm": 0.07576421648263931,
	"learning_rate": 0.0002696053333333333,
	"loss": 0.0218,
	"step": 5700
	},
	{
	"epoch": 1.015111111111111,
	"grad_norm": 0.05984245240688324,
	"learning_rate": 0.000269552,
	"loss": 0.0188,
	"step": 5710
	},
	{
	"epoch": 1.016888888888889,
	"grad_norm": 0.13615387678146362,
	"learning_rate": 0.00026949866666666666,
	"loss": 0.0196,
	"step": 5720
	},
	{
	"epoch": 1.0186666666666666,
	"grad_norm": 0.11591221392154694,
	"learning_rate": 0.0002694453333333333,
	"loss": 0.0211,
	"step": 5730
	},
	{
	"epoch": 1.0204444444444445,
	"grad_norm": 0.03672238439321518,
	"learning_rate": 0.00026939199999999997,
	"loss": 0.0163,
	"step": 5740
	},
	{
	"epoch": 1.0222222222222221,
	"grad_norm": 0.07665427774190903,
	"learning_rate": 0.00026933866666666663,
	"loss": 0.0235,
	"step": 5750
	},
	{
	"epoch": 1.024,
	"grad_norm": 0.08643534779548645,
	"learning_rate": 0.0002692853333333333,
	"loss": 0.0196,
	"step": 5760
	},
	{
	"epoch": 1.0257777777777777,
	"grad_norm": 0.04845563322305679,
	"learning_rate": 0.000269232,
	"loss": 0.0222,
	"step": 5770
	},
	{
	"epoch": 1.0275555555555556,
	"grad_norm": 0.05832474306225777,
	"learning_rate": 0.00026917866666666666,
	"loss": 0.0151,
	"step": 5780
	},
	{
	"epoch": 1.0293333333333334,
	"grad_norm": 0.08152145892381668,
	"learning_rate": 0.0002691253333333333,
	"loss": 0.023,
	"step": 5790
	},
	{
	"epoch": 1.031111111111111,
	"grad_norm": 0.07723015546798706,
	"learning_rate": 0.000269072,
	"loss": 0.0194,
	"step": 5800
	},
	{
	"epoch": 1.032888888888889,
	"grad_norm": 0.08425486832857132,
	"learning_rate": 0.00026901866666666663,
	"loss": 0.0209,
	"step": 5810
	},
	{
	"epoch": 1.0346666666666666,
	"grad_norm": 0.16199788451194763,
	"learning_rate": 0.0002689653333333333,
	"loss": 0.0184,
	"step": 5820
	},
	{
	"epoch": 1.0364444444444445,
	"grad_norm": 0.0392846055328846,
	"learning_rate": 0.000268912,
	"loss": 0.0214,
	"step": 5830
	},
	{
	"epoch": 1.0382222222222222,
	"grad_norm": 0.0637868121266365,
	"learning_rate": 0.0002688586666666666,
	"loss": 0.0206,
	"step": 5840
	},
	{
	"epoch": 1.04,
	"grad_norm": 0.12309300899505615,
	"learning_rate": 0.0002688053333333333,
	"loss": 0.0194,
	"step": 5850
	},
	{
	"epoch": 1.0417777777777777,
	"grad_norm": 0.05401608720421791,
	"learning_rate": 0.000268752,
	"loss": 0.0237,
	"step": 5860
	},
	{
	"epoch": 1.0435555555555556,
	"grad_norm": 0.06477317214012146,
	"learning_rate": 0.00026869866666666664,
	"loss": 0.0162,
	"step": 5870
	},
	{
	"epoch": 1.0453333333333332,
	"grad_norm": 0.08347102254629135,
	"learning_rate": 0.0002686453333333333,
	"loss": 0.021,
	"step": 5880
	},
	{
	"epoch": 1.047111111111111,
	"grad_norm": 0.07340535521507263,
	"learning_rate": 0.000268592,
	"loss": 0.0237,
	"step": 5890
	},
	{
	"epoch": 1.048888888888889,
	"grad_norm": 0.03568523749709129,
	"learning_rate": 0.0002685386666666666,
	"loss": 0.0164,
	"step": 5900
	},
	{
	"epoch": 1.0506666666666666,
	"grad_norm": 0.08179934322834015,
	"learning_rate": 0.0002684853333333333,
	"loss": 0.0185,
	"step": 5910
	},
	{
	"epoch": 1.0524444444444445,
	"grad_norm": 0.07522140443325043,
	"learning_rate": 0.000268432,
	"loss": 0.0292,
	"step": 5920
	},
	{
	"epoch": 1.0542222222222222,
	"grad_norm": 0.12679794430732727,
	"learning_rate": 0.00026837866666666664,
	"loss": 0.0222,
	"step": 5930
	},
	{
	"epoch": 1.056,
	"grad_norm": 0.0890289843082428,
	"learning_rate": 0.0002683253333333333,
	"loss": 0.0226,
	"step": 5940
	},
	{
	"epoch": 1.0577777777777777,
	"grad_norm": 0.05332579463720322,
	"learning_rate": 0.000268272,
	"loss": 0.0198,
	"step": 5950
	},
	{
	"epoch": 1.0595555555555556,
	"grad_norm": 0.04473736509680748,
	"learning_rate": 0.0002682186666666666,
	"loss": 0.019,
	"step": 5960
	},
	{
	"epoch": 1.0613333333333332,
	"grad_norm": 0.13032497465610504,
	"learning_rate": 0.0002681653333333333,
	"loss": 0.0239,
	"step": 5970
	},
	{
	"epoch": 1.0631111111111111,
	"grad_norm": 0.08634962886571884,
	"learning_rate": 0.000268112,
	"loss": 0.0243,
	"step": 5980
	},
	{
	"epoch": 1.064888888888889,
	"grad_norm": 0.05588865652680397,
	"learning_rate": 0.00026805866666666664,
	"loss": 0.0234,
	"step": 5990
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 0.07553177326917648,
	"learning_rate": 0.0002680053333333333,
	"loss": 0.0211,
	"step": 6000
	},
	{
	"epoch": 1.0666666666666667,
	"eval_accuracy": 0.7888,
	"eval_f1": 0.9608752422852569,
	"eval_loss": 0.022772355005145073,
	"eval_precision": 0.9597344936642305,
	"eval_recall": 0.9634640968388336,
	"eval_runtime": 646.4114,
	"eval_samples_per_second": 15.47,
	"eval_steps_per_second": 1.934,
	"step": 6000
	},
	{
	"epoch": 1.0684444444444445,
	"grad_norm": 0.08226612955331802,
	"learning_rate": 0.000267952,
	"loss": 0.0237,
	"step": 6010
	},
	{
	"epoch": 1.0702222222222222,
	"grad_norm": 0.04895941540598869,
	"learning_rate": 0.0002678986666666666,
	"loss": 0.0187,
	"step": 6020
	},
	{
	"epoch": 1.072,
	"grad_norm": 0.07697124779224396,
	"learning_rate": 0.00026784533333333333,
	"loss": 0.0204,
	"step": 6030
	},
	{
	"epoch": 1.0737777777777777,
	"grad_norm": 0.07198483496904373,
	"learning_rate": 0.000267792,
	"loss": 0.0329,
	"step": 6040
	},
	{
	"epoch": 1.0755555555555556,
	"grad_norm": 0.14414814114570618,
	"learning_rate": 0.00026773866666666664,
	"loss": 0.0242,
	"step": 6050
	},
	{
	"epoch": 1.0773333333333333,
	"grad_norm": 0.07089535892009735,
	"learning_rate": 0.0002676853333333333,
	"loss": 0.0242,
	"step": 6060
	},
	{
	"epoch": 1.0791111111111111,
	"grad_norm": 0.07860027998685837,
	"learning_rate": 0.000267632,
	"loss": 0.0233,
	"step": 6070
	},
	{
	"epoch": 1.0808888888888888,
	"grad_norm": 0.024272069334983826,
	"learning_rate": 0.0002675786666666666,
	"loss": 0.0191,
	"step": 6080
	},
	{
	"epoch": 1.0826666666666667,
	"grad_norm": 0.20330259203910828,
	"learning_rate": 0.00026752533333333333,
	"loss": 0.0246,
	"step": 6090
	},
	{
	"epoch": 1.0844444444444445,
	"grad_norm": 0.056514300405979156,
	"learning_rate": 0.000267472,
	"loss": 0.0197,
	"step": 6100
	},
	{
	"epoch": 1.0862222222222222,
	"grad_norm": 0.09598847478628159,
	"learning_rate": 0.00026741866666666665,
	"loss": 0.0196,
	"step": 6110
	},
	{
	"epoch": 1.088,
	"grad_norm": 0.0808069035410881,
	"learning_rate": 0.0002673653333333333,
	"loss": 0.0174,
	"step": 6120
	},
	{
	"epoch": 1.0897777777777777,
	"grad_norm": 0.02423759177327156,
	"learning_rate": 0.000267312,
	"loss": 0.0223,
	"step": 6130
	},
	{
	"epoch": 1.0915555555555556,
	"grad_norm": 0.14889276027679443,
	"learning_rate": 0.0002672586666666666,
	"loss": 0.0222,
	"step": 6140
	},
	{
	"epoch": 1.0933333333333333,
	"grad_norm": 0.07997959852218628,
	"learning_rate": 0.0002672053333333333,
	"loss": 0.0236,
	"step": 6150
	},
	{
	"epoch": 1.0951111111111111,
	"grad_norm": 0.07679922878742218,
	"learning_rate": 0.000267152,
	"loss": 0.0179,
	"step": 6160
	},
	{
	"epoch": 1.0968888888888888,
	"grad_norm": 0.17518191039562225,
	"learning_rate": 0.00026709866666666665,
	"loss": 0.0138,
	"step": 6170
	},
	{
	"epoch": 1.0986666666666667,
	"grad_norm": 0.06905455142259598,
	"learning_rate": 0.0002670453333333333,
	"loss": 0.0111,
	"step": 6180
	},
	{
	"epoch": 1.1004444444444443,
	"grad_norm": 0.09649280458688736,
	"learning_rate": 0.00026699199999999997,
	"loss": 0.0246,
	"step": 6190
	},
	{
	"epoch": 1.1022222222222222,
	"grad_norm": 0.06124288961291313,
	"learning_rate": 0.0002669386666666666,
	"loss": 0.0191,
	"step": 6200
	},
	{
	"epoch": 1.104,
	"grad_norm": 0.05284019559621811,
	"learning_rate": 0.0002668853333333333,
	"loss": 0.0238,
	"step": 6210
	},
	{
	"epoch": 1.1057777777777777,
	"grad_norm": 0.07209029793739319,
	"learning_rate": 0.000266832,
	"loss": 0.023,
	"step": 6220
	},
	{
	"epoch": 1.1075555555555556,
	"grad_norm": 0.0753553956747055,
	"learning_rate": 0.00026677866666666665,
	"loss": 0.0227,
	"step": 6230
	},
	{
	"epoch": 1.1093333333333333,
	"grad_norm": 0.032091863453388214,
	"learning_rate": 0.0002667253333333333,
	"loss": 0.0218,
	"step": 6240
	},
	{
	"epoch": 1.1111111111111112,
	"grad_norm": 0.08066971600055695,
	"learning_rate": 0.00026667199999999997,
	"loss": 0.0198,
	"step": 6250
	},
	{
	"epoch": 1.1128888888888888,
	"grad_norm": 0.11901221424341202,
	"learning_rate": 0.00026661866666666663,
	"loss": 0.0239,
	"step": 6260
	},
	{
	"epoch": 1.1146666666666667,
	"grad_norm": 0.09724316000938416,
	"learning_rate": 0.0002665653333333333,
	"loss": 0.0284,
	"step": 6270
	},
	{
	"epoch": 1.1164444444444444,
	"grad_norm": 0.056774791330099106,
	"learning_rate": 0.000266512,
	"loss": 0.0187,
	"step": 6280
	},
	{
	"epoch": 1.1182222222222222,
	"grad_norm": 0.0744025856256485,
	"learning_rate": 0.00026645866666666666,
	"loss": 0.0252,
	"step": 6290
	},
	{
	"epoch": 1.12,
	"grad_norm": 0.0717066302895546,
	"learning_rate": 0.0002664053333333333,
	"loss": 0.0198,
	"step": 6300
	},
	{
	"epoch": 1.1217777777777778,
	"grad_norm": 0.05018769949674606,
	"learning_rate": 0.000266352,
	"loss": 0.0195,
	"step": 6310
	},
	{
	"epoch": 1.1235555555555556,
	"grad_norm": 0.07212472707033157,
	"learning_rate": 0.00026629866666666663,
	"loss": 0.0208,
	"step": 6320
	},
	{
	"epoch": 1.1253333333333333,
	"grad_norm": 0.09545619040727615,
	"learning_rate": 0.0002662453333333333,
	"loss": 0.0172,
	"step": 6330
	},
	{
	"epoch": 1.1271111111111112,
	"grad_norm": 0.1480916291475296,
	"learning_rate": 0.000266192,
	"loss": 0.023,
	"step": 6340
	},
	{
	"epoch": 1.1288888888888888,
	"grad_norm": 0.06415636837482452,
	"learning_rate": 0.00026613866666666666,
	"loss": 0.0175,
	"step": 6350
	},
	{
	"epoch": 1.1306666666666667,
	"grad_norm": 0.06716844439506531,
	"learning_rate": 0.0002660853333333333,
	"loss": 0.0203,
	"step": 6360
	},
	{
	"epoch": 1.1324444444444444,
	"grad_norm": 0.06009915471076965,
	"learning_rate": 0.000266032,
	"loss": 0.0112,
	"step": 6370
	},
	{
	"epoch": 1.1342222222222222,
	"grad_norm": 0.16594372689723969,
	"learning_rate": 0.00026597866666666663,
	"loss": 0.0277,
	"step": 6380
	},
	{
	"epoch": 1.1360000000000001,
	"grad_norm": 0.08360890299081802,
	"learning_rate": 0.0002659253333333333,
	"loss": 0.0217,
	"step": 6390
	},
	{
	"epoch": 1.1377777777777778,
	"grad_norm": 0.27243664860725403,
	"learning_rate": 0.000265872,
	"loss": 0.018,
	"step": 6400
	},
	{
	"epoch": 1.1395555555555554,
	"grad_norm": 0.21879877150058746,
	"learning_rate": 0.0002658186666666666,
	"loss": 0.0205,
	"step": 6410
	},
	{
	"epoch": 1.1413333333333333,
	"grad_norm": 0.04842181131243706,
	"learning_rate": 0.0002657653333333333,
	"loss": 0.03,
	"step": 6420
	},
	{
	"epoch": 1.1431111111111112,
	"grad_norm": 0.03564498573541641,
	"learning_rate": 0.000265712,
	"loss": 0.0176,
	"step": 6430
	},
	{
	"epoch": 1.1448888888888888,
	"grad_norm": 0.04952355474233627,
	"learning_rate": 0.00026565866666666664,
	"loss": 0.0193,
	"step": 6440
	},
	{
	"epoch": 1.1466666666666667,
	"grad_norm": 0.10026893764734268,
	"learning_rate": 0.0002656053333333333,
	"loss": 0.0206,
	"step": 6450
	},
	{
	"epoch": 1.1484444444444444,
	"grad_norm": 0.12454218417406082,
	"learning_rate": 0.000265552,
	"loss": 0.0112,
	"step": 6460
	},
	{
	"epoch": 1.1502222222222223,
	"grad_norm": 0.08369217067956924,
	"learning_rate": 0.0002654986666666666,
	"loss": 0.0155,
	"step": 6470
	},
	{
	"epoch": 1.152,
	"grad_norm": 0.028163114562630653,
	"learning_rate": 0.0002654453333333333,
	"loss": 0.0201,
	"step": 6480
	},
	{
	"epoch": 1.1537777777777778,
	"grad_norm": 0.09226653724908829,
	"learning_rate": 0.000265392,
	"loss": 0.0175,
	"step": 6490
	},
	{
	"epoch": 1.1555555555555554,
	"grad_norm": 0.04451766982674599,
	"learning_rate": 0.00026533866666666664,
	"loss": 0.0158,
	"step": 6500
	},
	{
	"epoch": 1.1573333333333333,
	"grad_norm": 0.04195033758878708,
	"learning_rate": 0.0002652853333333333,
	"loss": 0.0204,
	"step": 6510
	},
	{
	"epoch": 1.1591111111111112,
	"grad_norm": 0.06519827246665955,
	"learning_rate": 0.000265232,
	"loss": 0.0206,
	"step": 6520
	},
	{
	"epoch": 1.1608888888888889,
	"grad_norm": 0.06192832812666893,
	"learning_rate": 0.0002651786666666666,
	"loss": 0.0233,
	"step": 6530
	},
	{
	"epoch": 1.1626666666666667,
	"grad_norm": 0.04507620260119438,
	"learning_rate": 0.00026512533333333333,
	"loss": 0.025,
	"step": 6540
	},
	{
	"epoch": 1.1644444444444444,
	"grad_norm": 0.05026322603225708,
	"learning_rate": 0.000265072,
	"loss": 0.0255,
	"step": 6550
	},
	{
	"epoch": 1.1662222222222223,
	"grad_norm": 0.0816965252161026,
	"learning_rate": 0.00026501866666666664,
	"loss": 0.0162,
	"step": 6560
	},
	{
	"epoch": 1.168,
	"grad_norm": 0.11233066022396088,
	"learning_rate": 0.0002649653333333333,
	"loss": 0.028,
	"step": 6570
	},
	{
	"epoch": 1.1697777777777778,
	"grad_norm": 0.06947654485702515,
	"learning_rate": 0.000264912,
	"loss": 0.0169,
	"step": 6580
	},
	{
	"epoch": 1.1715555555555555,
	"grad_norm": 0.07992644608020782,
	"learning_rate": 0.0002648586666666666,
	"loss": 0.0241,
	"step": 6590
	},
	{
	"epoch": 1.1733333333333333,
	"grad_norm": 0.07435277849435806,
	"learning_rate": 0.00026480533333333333,
	"loss": 0.0152,
	"step": 6600
	},
	{
	"epoch": 1.1751111111111112,
	"grad_norm": 0.14906832575798035,
	"learning_rate": 0.000264752,
	"loss": 0.013,
	"step": 6610
	},
	{
	"epoch": 1.1768888888888889,
	"grad_norm": 0.026851756498217583,
	"learning_rate": 0.00026469866666666665,
	"loss": 0.0175,
	"step": 6620
	},
	{
	"epoch": 1.1786666666666668,
	"grad_norm": 0.13004520535469055,
	"learning_rate": 0.0002646453333333333,
	"loss": 0.0217,
	"step": 6630
	},
	{
	"epoch": 1.1804444444444444,
	"grad_norm": 0.09514859318733215,
	"learning_rate": 0.000264592,
	"loss": 0.0168,
	"step": 6640
	},
	{
	"epoch": 1.1822222222222223,
	"grad_norm": 0.058868490159511566,
	"learning_rate": 0.0002645386666666666,
	"loss": 0.0172,
	"step": 6650
	},
	{
	"epoch": 1.184,
	"grad_norm": 0.05696805194020271,
	"learning_rate": 0.0002644853333333333,
	"loss": 0.0238,
	"step": 6660
	},
	{
	"epoch": 1.1857777777777778,
	"grad_norm": 0.14026899635791779,
	"learning_rate": 0.000264432,
	"loss": 0.0252,
	"step": 6670
	},
	{
	"epoch": 1.1875555555555555,
	"grad_norm": 0.18993432819843292,
	"learning_rate": 0.00026437866666666665,
	"loss": 0.0227,
	"step": 6680
	},
	{
	"epoch": 1.1893333333333334,
	"grad_norm": 0.11388243734836578,
	"learning_rate": 0.0002643253333333333,
	"loss": 0.0229,
	"step": 6690
	},
	{
	"epoch": 1.1911111111111112,
	"grad_norm": 0.025548333302140236,
	"learning_rate": 0.00026427199999999997,
	"loss": 0.0205,
	"step": 6700
	},
	{
	"epoch": 1.1928888888888889,
	"grad_norm": 0.0805412083864212,
	"learning_rate": 0.0002642186666666666,
	"loss": 0.0227,
	"step": 6710
	},
	{
	"epoch": 1.1946666666666665,
	"grad_norm": 0.05033315345644951,
	"learning_rate": 0.0002641653333333333,
	"loss": 0.026,
	"step": 6720
	},
	{
	"epoch": 1.1964444444444444,
	"grad_norm": 0.12822557985782623,
	"learning_rate": 0.000264112,
	"loss": 0.0171,
	"step": 6730
	},
	{
	"epoch": 1.1982222222222223,
	"grad_norm": 0.05787438154220581,
	"learning_rate": 0.00026405866666666665,
	"loss": 0.0156,
	"step": 6740
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.03533678874373436,
	"learning_rate": 0.0002640053333333333,
	"loss": 0.0228,
	"step": 6750
	},
	{
	"epoch": 1.2017777777777778,
	"grad_norm": 0.07523424923419952,
	"learning_rate": 0.00026395199999999997,
	"loss": 0.0203,
	"step": 6760
	},
	{
	"epoch": 1.2035555555555555,
	"grad_norm": 0.07903579622507095,
	"learning_rate": 0.00026389866666666663,
	"loss": 0.0241,
	"step": 6770
	},
	{
	"epoch": 1.2053333333333334,
	"grad_norm": 0.05588415265083313,
	"learning_rate": 0.0002638453333333333,
	"loss": 0.0186,
	"step": 6780
	},
	{
	"epoch": 1.207111111111111,
	"grad_norm": 0.07310913503170013,
	"learning_rate": 0.000263792,
	"loss": 0.0172,
	"step": 6790
	},
	{
	"epoch": 1.208888888888889,
	"grad_norm": 0.10237371176481247,
	"learning_rate": 0.00026373866666666666,
	"loss": 0.0311,
	"step": 6800
	},
	{
	"epoch": 1.2106666666666666,
	"grad_norm": 0.08923070877790451,
	"learning_rate": 0.0002636853333333333,
	"loss": 0.0299,
	"step": 6810
	},
	{
	"epoch": 1.2124444444444444,
	"grad_norm": 0.05501580983400345,
	"learning_rate": 0.00026363199999999997,
	"loss": 0.0177,
	"step": 6820
	},
	{
	"epoch": 1.2142222222222223,
	"grad_norm": 0.11276847124099731,
	"learning_rate": 0.00026357866666666663,
	"loss": 0.0235,
	"step": 6830
	},
	{
	"epoch": 1.216,
	"grad_norm": 0.0540320947766304,
	"learning_rate": 0.0002635253333333333,
	"loss": 0.0211,
	"step": 6840
	},
	{
	"epoch": 1.2177777777777778,
	"grad_norm": 0.034252021461725235,
	"learning_rate": 0.000263472,
	"loss": 0.0247,
	"step": 6850
	},
	{
	"epoch": 1.2195555555555555,
	"grad_norm": 0.09573516249656677,
	"learning_rate": 0.00026341866666666666,
	"loss": 0.0186,
	"step": 6860
	},
	{
	"epoch": 1.2213333333333334,
	"grad_norm": 0.09865361452102661,
	"learning_rate": 0.0002633653333333333,
	"loss": 0.0174,
	"step": 6870
	},
	{
	"epoch": 1.223111111111111,
	"grad_norm": 0.13737502694129944,
	"learning_rate": 0.000263312,
	"loss": 0.016,
	"step": 6880
	},
	{
	"epoch": 1.224888888888889,
	"grad_norm": 0.06738601624965668,
	"learning_rate": 0.00026325866666666663,
	"loss": 0.0187,
	"step": 6890
	},
	{
	"epoch": 1.2266666666666666,
	"grad_norm": 0.08652956038713455,
	"learning_rate": 0.0002632053333333333,
	"loss": 0.0204,
	"step": 6900
	},
	{
	"epoch": 1.2284444444444444,
	"grad_norm": 0.10620912909507751,
	"learning_rate": 0.000263152,
	"loss": 0.0266,
	"step": 6910
	},
	{
	"epoch": 1.2302222222222223,
	"grad_norm": 0.06166858598589897,
	"learning_rate": 0.00026309866666666666,
	"loss": 0.0236,
	"step": 6920
	},
	{
	"epoch": 1.232,
	"grad_norm": 0.05199519917368889,
	"learning_rate": 0.0002630453333333333,
	"loss": 0.0302,
	"step": 6930
	},
	{
	"epoch": 1.2337777777777779,
	"grad_norm": 0.08725038170814514,
	"learning_rate": 0.000262992,
	"loss": 0.0175,
	"step": 6940
	},
	{
	"epoch": 1.2355555555555555,
	"grad_norm": 0.15823574364185333,
	"learning_rate": 0.00026293866666666664,
	"loss": 0.0126,
	"step": 6950
	},
	{
	"epoch": 1.2373333333333334,
	"grad_norm": 0.11322572827339172,
	"learning_rate": 0.0002628853333333333,
	"loss": 0.0171,
	"step": 6960
	},
	{
	"epoch": 1.239111111111111,
	"grad_norm": 0.05331611633300781,
	"learning_rate": 0.000262832,
	"loss": 0.0165,
	"step": 6970
	},
	{
	"epoch": 1.240888888888889,
	"grad_norm": 0.10290094465017319,
	"learning_rate": 0.0002627786666666666,
	"loss": 0.0352,
	"step": 6980
	},
	{
	"epoch": 1.2426666666666666,
	"grad_norm": 0.13865168392658234,
	"learning_rate": 0.0002627253333333333,
	"loss": 0.0221,
	"step": 6990
	},
	{
	"epoch": 1.2444444444444445,
	"grad_norm": 0.05420316383242607,
	"learning_rate": 0.000262672,
	"loss": 0.0168,
	"step": 7000
	},
	{
	"epoch": 1.2444444444444445,
	"eval_accuracy": 0.789,
	"eval_f1": 0.9604236614865518,
	"eval_loss": 0.02318185567855835,
	"eval_precision": 0.9584751671531083,
	"eval_recall": 0.9638210750506804,
	"eval_runtime": 695.9499,
	"eval_samples_per_second": 14.369,
	"eval_steps_per_second": 1.796,
	"step": 7000
	}
	],
	"logging_steps": 10,
	"max_steps": 56250,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.5724988162048e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}