byt5-wsc / trainer_state.json
zarus03's picture
Upload folder using huggingface_hub
c852627 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 1.2444444444444445,
"eval_steps": 1000,
"global_step": 7000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0017777777777777779,
"grad_norm": 0.08699894696474075,
"learning_rate": 0.000299952,
"loss": 0.0382,
"step": 10
},
{
"epoch": 0.0035555555555555557,
"grad_norm": 0.07960943877696991,
"learning_rate": 0.00029989866666666664,
"loss": 0.0469,
"step": 20
},
{
"epoch": 0.005333333333333333,
"grad_norm": 0.10373344272375107,
"learning_rate": 0.0002998453333333333,
"loss": 0.0365,
"step": 30
},
{
"epoch": 0.0071111111111111115,
"grad_norm": 0.06741292029619217,
"learning_rate": 0.00029979199999999995,
"loss": 0.0289,
"step": 40
},
{
"epoch": 0.008888888888888889,
"grad_norm": 0.0950508564710617,
"learning_rate": 0.0002997386666666666,
"loss": 0.0301,
"step": 50
},
{
"epoch": 0.010666666666666666,
"grad_norm": 0.09060576558113098,
"learning_rate": 0.0002996853333333333,
"loss": 0.0375,
"step": 60
},
{
"epoch": 0.012444444444444444,
"grad_norm": 0.10300493985414505,
"learning_rate": 0.000299632,
"loss": 0.0355,
"step": 70
},
{
"epoch": 0.014222222222222223,
"grad_norm": 0.09146833419799805,
"learning_rate": 0.00029957866666666664,
"loss": 0.0268,
"step": 80
},
{
"epoch": 0.016,
"grad_norm": 0.04962315782904625,
"learning_rate": 0.0002995253333333333,
"loss": 0.0303,
"step": 90
},
{
"epoch": 0.017777777777777778,
"grad_norm": 0.06788129359483719,
"learning_rate": 0.00029947199999999995,
"loss": 0.0344,
"step": 100
},
{
"epoch": 0.019555555555555555,
"grad_norm": 0.08723676949739456,
"learning_rate": 0.0002994186666666666,
"loss": 0.031,
"step": 110
},
{
"epoch": 0.021333333333333333,
"grad_norm": 0.07770177721977234,
"learning_rate": 0.0002993653333333333,
"loss": 0.0357,
"step": 120
},
{
"epoch": 0.02311111111111111,
"grad_norm": 0.11762720346450806,
"learning_rate": 0.000299312,
"loss": 0.0368,
"step": 130
},
{
"epoch": 0.024888888888888887,
"grad_norm": 0.18745559453964233,
"learning_rate": 0.00029925866666666664,
"loss": 0.0319,
"step": 140
},
{
"epoch": 0.02666666666666667,
"grad_norm": 0.1387699544429779,
"learning_rate": 0.0002992053333333333,
"loss": 0.0314,
"step": 150
},
{
"epoch": 0.028444444444444446,
"grad_norm": 0.08668556064367294,
"learning_rate": 0.00029915199999999996,
"loss": 0.0247,
"step": 160
},
{
"epoch": 0.030222222222222223,
"grad_norm": 0.10908863693475723,
"learning_rate": 0.0002990986666666666,
"loss": 0.0206,
"step": 170
},
{
"epoch": 0.032,
"grad_norm": 0.1083473190665245,
"learning_rate": 0.00029904533333333333,
"loss": 0.0293,
"step": 180
},
{
"epoch": 0.033777777777777775,
"grad_norm": 0.0761309564113617,
"learning_rate": 0.000298992,
"loss": 0.0341,
"step": 190
},
{
"epoch": 0.035555555555555556,
"grad_norm": 0.09856925159692764,
"learning_rate": 0.00029893866666666664,
"loss": 0.0406,
"step": 200
},
{
"epoch": 0.037333333333333336,
"grad_norm": 0.24180924892425537,
"learning_rate": 0.0002988853333333333,
"loss": 0.0289,
"step": 210
},
{
"epoch": 0.03911111111111111,
"grad_norm": 0.11392025649547577,
"learning_rate": 0.00029883199999999996,
"loss": 0.0292,
"step": 220
},
{
"epoch": 0.04088888888888889,
"grad_norm": 0.05144877731800079,
"learning_rate": 0.0002987786666666666,
"loss": 0.0207,
"step": 230
},
{
"epoch": 0.042666666666666665,
"grad_norm": 0.05780678242444992,
"learning_rate": 0.00029872533333333333,
"loss": 0.0323,
"step": 240
},
{
"epoch": 0.044444444444444446,
"grad_norm": 0.08328460901975632,
"learning_rate": 0.000298672,
"loss": 0.0285,
"step": 250
},
{
"epoch": 0.04622222222222222,
"grad_norm": 0.09992341697216034,
"learning_rate": 0.00029861866666666665,
"loss": 0.0304,
"step": 260
},
{
"epoch": 0.048,
"grad_norm": 0.07704894989728928,
"learning_rate": 0.0002985653333333333,
"loss": 0.034,
"step": 270
},
{
"epoch": 0.049777777777777775,
"grad_norm": 0.13885270059108734,
"learning_rate": 0.00029851199999999996,
"loss": 0.0272,
"step": 280
},
{
"epoch": 0.051555555555555556,
"grad_norm": 0.26443561911582947,
"learning_rate": 0.0002984586666666666,
"loss": 0.03,
"step": 290
},
{
"epoch": 0.05333333333333334,
"grad_norm": 0.0671650618314743,
"learning_rate": 0.00029840533333333333,
"loss": 0.0287,
"step": 300
},
{
"epoch": 0.05511111111111111,
"grad_norm": 0.07168793678283691,
"learning_rate": 0.000298352,
"loss": 0.0327,
"step": 310
},
{
"epoch": 0.05688888888888889,
"grad_norm": 0.18215090036392212,
"learning_rate": 0.00029829866666666665,
"loss": 0.0303,
"step": 320
},
{
"epoch": 0.058666666666666666,
"grad_norm": 0.06032688915729523,
"learning_rate": 0.0002982453333333333,
"loss": 0.0274,
"step": 330
},
{
"epoch": 0.060444444444444446,
"grad_norm": 0.12203675508499146,
"learning_rate": 0.00029819199999999997,
"loss": 0.0324,
"step": 340
},
{
"epoch": 0.06222222222222222,
"grad_norm": 0.13374367356300354,
"learning_rate": 0.0002981386666666666,
"loss": 0.0304,
"step": 350
},
{
"epoch": 0.064,
"grad_norm": 0.04323069378733635,
"learning_rate": 0.00029808533333333334,
"loss": 0.0297,
"step": 360
},
{
"epoch": 0.06577777777777778,
"grad_norm": 0.09900318086147308,
"learning_rate": 0.000298032,
"loss": 0.0283,
"step": 370
},
{
"epoch": 0.06755555555555555,
"grad_norm": 0.12863968312740326,
"learning_rate": 0.00029797866666666665,
"loss": 0.0306,
"step": 380
},
{
"epoch": 0.06933333333333333,
"grad_norm": 0.11872851103544235,
"learning_rate": 0.0002979253333333333,
"loss": 0.0289,
"step": 390
},
{
"epoch": 0.07111111111111111,
"grad_norm": 0.13416750729084015,
"learning_rate": 0.00029787199999999997,
"loss": 0.0402,
"step": 400
},
{
"epoch": 0.07288888888888889,
"grad_norm": 0.1103440672159195,
"learning_rate": 0.00029781866666666663,
"loss": 0.0193,
"step": 410
},
{
"epoch": 0.07466666666666667,
"grad_norm": 0.14888077974319458,
"learning_rate": 0.00029776533333333334,
"loss": 0.0317,
"step": 420
},
{
"epoch": 0.07644444444444444,
"grad_norm": 0.13680554926395416,
"learning_rate": 0.000297712,
"loss": 0.0341,
"step": 430
},
{
"epoch": 0.07822222222222222,
"grad_norm": 0.05971519276499748,
"learning_rate": 0.00029765866666666666,
"loss": 0.0327,
"step": 440
},
{
"epoch": 0.08,
"grad_norm": 0.15051446855068207,
"learning_rate": 0.0002976053333333333,
"loss": 0.028,
"step": 450
},
{
"epoch": 0.08177777777777778,
"grad_norm": 0.07047642022371292,
"learning_rate": 0.00029755199999999997,
"loss": 0.0311,
"step": 460
},
{
"epoch": 0.08355555555555555,
"grad_norm": 0.08709419518709183,
"learning_rate": 0.00029749866666666663,
"loss": 0.0351,
"step": 470
},
{
"epoch": 0.08533333333333333,
"grad_norm": 0.12891785800457,
"learning_rate": 0.0002974453333333333,
"loss": 0.0268,
"step": 480
},
{
"epoch": 0.08711111111111111,
"grad_norm": 0.1153012290596962,
"learning_rate": 0.000297392,
"loss": 0.0377,
"step": 490
},
{
"epoch": 0.08888888888888889,
"grad_norm": 0.05062064900994301,
"learning_rate": 0.0002973386666666666,
"loss": 0.026,
"step": 500
},
{
"epoch": 0.09066666666666667,
"grad_norm": 0.09977056831121445,
"learning_rate": 0.0002972853333333333,
"loss": 0.0278,
"step": 510
},
{
"epoch": 0.09244444444444444,
"grad_norm": 0.0959126427769661,
"learning_rate": 0.000297232,
"loss": 0.0371,
"step": 520
},
{
"epoch": 0.09422222222222222,
"grad_norm": 0.05825706198811531,
"learning_rate": 0.00029717866666666663,
"loss": 0.0306,
"step": 530
},
{
"epoch": 0.096,
"grad_norm": 0.13851483166217804,
"learning_rate": 0.0002971253333333333,
"loss": 0.038,
"step": 540
},
{
"epoch": 0.09777777777777778,
"grad_norm": 0.22746726870536804,
"learning_rate": 0.00029707199999999995,
"loss": 0.0209,
"step": 550
},
{
"epoch": 0.09955555555555555,
"grad_norm": 0.06507899612188339,
"learning_rate": 0.0002970186666666666,
"loss": 0.0286,
"step": 560
},
{
"epoch": 0.10133333333333333,
"grad_norm": 0.07220398634672165,
"learning_rate": 0.0002969653333333333,
"loss": 0.0279,
"step": 570
},
{
"epoch": 0.10311111111111111,
"grad_norm": 0.06591857224702835,
"learning_rate": 0.000296912,
"loss": 0.03,
"step": 580
},
{
"epoch": 0.10488888888888889,
"grad_norm": 0.06433718651533127,
"learning_rate": 0.00029685866666666664,
"loss": 0.0276,
"step": 590
},
{
"epoch": 0.10666666666666667,
"grad_norm": 0.06255055963993073,
"learning_rate": 0.0002968053333333333,
"loss": 0.0219,
"step": 600
},
{
"epoch": 0.10844444444444444,
"grad_norm": 0.25509411096572876,
"learning_rate": 0.00029675199999999995,
"loss": 0.0305,
"step": 610
},
{
"epoch": 0.11022222222222222,
"grad_norm": 0.2092062085866928,
"learning_rate": 0.0002966986666666666,
"loss": 0.0293,
"step": 620
},
{
"epoch": 0.112,
"grad_norm": 0.16890083253383636,
"learning_rate": 0.0002966453333333333,
"loss": 0.0289,
"step": 630
},
{
"epoch": 0.11377777777777778,
"grad_norm": 0.16671471297740936,
"learning_rate": 0.000296592,
"loss": 0.0273,
"step": 640
},
{
"epoch": 0.11555555555555555,
"grad_norm": 0.12516531348228455,
"learning_rate": 0.00029653866666666664,
"loss": 0.0262,
"step": 650
},
{
"epoch": 0.11733333333333333,
"grad_norm": 0.07666122168302536,
"learning_rate": 0.0002964853333333333,
"loss": 0.03,
"step": 660
},
{
"epoch": 0.11911111111111111,
"grad_norm": 0.1718071550130844,
"learning_rate": 0.00029643199999999996,
"loss": 0.0304,
"step": 670
},
{
"epoch": 0.12088888888888889,
"grad_norm": 0.06207623705267906,
"learning_rate": 0.0002963786666666666,
"loss": 0.0333,
"step": 680
},
{
"epoch": 0.12266666666666666,
"grad_norm": 0.28347769379615784,
"learning_rate": 0.0002963253333333333,
"loss": 0.0293,
"step": 690
},
{
"epoch": 0.12444444444444444,
"grad_norm": 0.07060191035270691,
"learning_rate": 0.000296272,
"loss": 0.0326,
"step": 700
},
{
"epoch": 0.12622222222222224,
"grad_norm": 0.09357782453298569,
"learning_rate": 0.00029621866666666664,
"loss": 0.0377,
"step": 710
},
{
"epoch": 0.128,
"grad_norm": 0.06910397112369537,
"learning_rate": 0.0002961653333333333,
"loss": 0.0276,
"step": 720
},
{
"epoch": 0.12977777777777777,
"grad_norm": 0.12975437939167023,
"learning_rate": 0.00029611199999999996,
"loss": 0.027,
"step": 730
},
{
"epoch": 0.13155555555555556,
"grad_norm": 0.06548379361629486,
"learning_rate": 0.0002960586666666666,
"loss": 0.0204,
"step": 740
},
{
"epoch": 0.13333333333333333,
"grad_norm": 0.14813624322414398,
"learning_rate": 0.00029600533333333333,
"loss": 0.028,
"step": 750
},
{
"epoch": 0.1351111111111111,
"grad_norm": 0.22292684018611908,
"learning_rate": 0.000295952,
"loss": 0.0245,
"step": 760
},
{
"epoch": 0.1368888888888889,
"grad_norm": 0.06060492619872093,
"learning_rate": 0.00029589866666666665,
"loss": 0.0282,
"step": 770
},
{
"epoch": 0.13866666666666666,
"grad_norm": 0.05400988459587097,
"learning_rate": 0.0002958453333333333,
"loss": 0.0264,
"step": 780
},
{
"epoch": 0.14044444444444446,
"grad_norm": 0.11169034242630005,
"learning_rate": 0.00029579199999999996,
"loss": 0.0327,
"step": 790
},
{
"epoch": 0.14222222222222222,
"grad_norm": 0.09408850222826004,
"learning_rate": 0.0002957386666666666,
"loss": 0.0252,
"step": 800
},
{
"epoch": 0.144,
"grad_norm": 0.0814380869269371,
"learning_rate": 0.00029568533333333333,
"loss": 0.0326,
"step": 810
},
{
"epoch": 0.14577777777777778,
"grad_norm": 0.06769911199808121,
"learning_rate": 0.000295632,
"loss": 0.022,
"step": 820
},
{
"epoch": 0.14755555555555555,
"grad_norm": 0.06367345154285431,
"learning_rate": 0.00029557866666666665,
"loss": 0.0293,
"step": 830
},
{
"epoch": 0.14933333333333335,
"grad_norm": 0.07426635921001434,
"learning_rate": 0.0002955253333333333,
"loss": 0.0254,
"step": 840
},
{
"epoch": 0.1511111111111111,
"grad_norm": 0.07864944636821747,
"learning_rate": 0.00029547199999999997,
"loss": 0.0238,
"step": 850
},
{
"epoch": 0.15288888888888888,
"grad_norm": 0.06357907503843307,
"learning_rate": 0.0002954186666666666,
"loss": 0.0265,
"step": 860
},
{
"epoch": 0.15466666666666667,
"grad_norm": 0.08894886076450348,
"learning_rate": 0.00029536533333333334,
"loss": 0.0244,
"step": 870
},
{
"epoch": 0.15644444444444444,
"grad_norm": 0.12095648795366287,
"learning_rate": 0.000295312,
"loss": 0.0335,
"step": 880
},
{
"epoch": 0.1582222222222222,
"grad_norm": 0.07614068686962128,
"learning_rate": 0.00029525866666666665,
"loss": 0.0397,
"step": 890
},
{
"epoch": 0.16,
"grad_norm": 0.12491751462221146,
"learning_rate": 0.0002952053333333333,
"loss": 0.0318,
"step": 900
},
{
"epoch": 0.16177777777777777,
"grad_norm": 0.06847213953733444,
"learning_rate": 0.00029515199999999997,
"loss": 0.035,
"step": 910
},
{
"epoch": 0.16355555555555557,
"grad_norm": 0.08039793372154236,
"learning_rate": 0.0002950986666666666,
"loss": 0.0321,
"step": 920
},
{
"epoch": 0.16533333333333333,
"grad_norm": 0.14803963899612427,
"learning_rate": 0.00029504533333333334,
"loss": 0.0233,
"step": 930
},
{
"epoch": 0.1671111111111111,
"grad_norm": 0.11538252979516983,
"learning_rate": 0.000294992,
"loss": 0.0325,
"step": 940
},
{
"epoch": 0.1688888888888889,
"grad_norm": 0.16967880725860596,
"learning_rate": 0.00029493866666666666,
"loss": 0.0292,
"step": 950
},
{
"epoch": 0.17066666666666666,
"grad_norm": 0.09237322211265564,
"learning_rate": 0.0002948853333333333,
"loss": 0.029,
"step": 960
},
{
"epoch": 0.17244444444444446,
"grad_norm": 0.12154370546340942,
"learning_rate": 0.00029483199999999997,
"loss": 0.0152,
"step": 970
},
{
"epoch": 0.17422222222222222,
"grad_norm": 0.17975209653377533,
"learning_rate": 0.00029477866666666663,
"loss": 0.0215,
"step": 980
},
{
"epoch": 0.176,
"grad_norm": 0.14124400913715363,
"learning_rate": 0.0002947253333333333,
"loss": 0.0354,
"step": 990
},
{
"epoch": 0.17777777777777778,
"grad_norm": 0.11977864801883698,
"learning_rate": 0.000294672,
"loss": 0.0442,
"step": 1000
},
{
"epoch": 0.17777777777777778,
"eval_accuracy": 0.7478,
"eval_f1": 0.945502736472486,
"eval_loss": 0.0255670715123415,
"eval_precision": 0.9439028048340548,
"eval_recall": 0.9488640647510385,
"eval_runtime": 639.8304,
"eval_samples_per_second": 15.629,
"eval_steps_per_second": 1.954,
"step": 1000
},
{
"epoch": 0.17955555555555555,
"grad_norm": 0.055781953036785126,
"learning_rate": 0.0002946186666666666,
"loss": 0.0238,
"step": 1010
},
{
"epoch": 0.18133333333333335,
"grad_norm": 0.0902746394276619,
"learning_rate": 0.0002945653333333333,
"loss": 0.037,
"step": 1020
},
{
"epoch": 0.1831111111111111,
"grad_norm": 0.08535508811473846,
"learning_rate": 0.000294512,
"loss": 0.0374,
"step": 1030
},
{
"epoch": 0.18488888888888888,
"grad_norm": 0.059737782925367355,
"learning_rate": 0.00029445866666666663,
"loss": 0.0266,
"step": 1040
},
{
"epoch": 0.18666666666666668,
"grad_norm": 0.06842650473117828,
"learning_rate": 0.0002944053333333333,
"loss": 0.0234,
"step": 1050
},
{
"epoch": 0.18844444444444444,
"grad_norm": 0.06363359093666077,
"learning_rate": 0.000294352,
"loss": 0.033,
"step": 1060
},
{
"epoch": 0.1902222222222222,
"grad_norm": 0.06755832582712173,
"learning_rate": 0.0002942986666666666,
"loss": 0.0253,
"step": 1070
},
{
"epoch": 0.192,
"grad_norm": 0.13304175436496735,
"learning_rate": 0.0002942453333333333,
"loss": 0.0272,
"step": 1080
},
{
"epoch": 0.19377777777777777,
"grad_norm": 0.09009236842393875,
"learning_rate": 0.000294192,
"loss": 0.0291,
"step": 1090
},
{
"epoch": 0.19555555555555557,
"grad_norm": 0.15461042523384094,
"learning_rate": 0.00029413866666666664,
"loss": 0.0251,
"step": 1100
},
{
"epoch": 0.19733333333333333,
"grad_norm": 0.10490956902503967,
"learning_rate": 0.0002940853333333333,
"loss": 0.0189,
"step": 1110
},
{
"epoch": 0.1991111111111111,
"grad_norm": 0.04693615809082985,
"learning_rate": 0.00029403199999999995,
"loss": 0.0297,
"step": 1120
},
{
"epoch": 0.2008888888888889,
"grad_norm": 0.23660215735435486,
"learning_rate": 0.0002939786666666666,
"loss": 0.0253,
"step": 1130
},
{
"epoch": 0.20266666666666666,
"grad_norm": 0.1499308943748474,
"learning_rate": 0.0002939253333333333,
"loss": 0.0152,
"step": 1140
},
{
"epoch": 0.20444444444444446,
"grad_norm": 0.07655435055494308,
"learning_rate": 0.000293872,
"loss": 0.0338,
"step": 1150
},
{
"epoch": 0.20622222222222222,
"grad_norm": 0.10019325464963913,
"learning_rate": 0.00029381866666666664,
"loss": 0.0191,
"step": 1160
},
{
"epoch": 0.208,
"grad_norm": 0.11768526583909988,
"learning_rate": 0.0002937653333333333,
"loss": 0.0269,
"step": 1170
},
{
"epoch": 0.20977777777777779,
"grad_norm": 0.1752464771270752,
"learning_rate": 0.00029371199999999996,
"loss": 0.03,
"step": 1180
},
{
"epoch": 0.21155555555555555,
"grad_norm": 0.0824725404381752,
"learning_rate": 0.0002936586666666666,
"loss": 0.0263,
"step": 1190
},
{
"epoch": 0.21333333333333335,
"grad_norm": 0.10733446478843689,
"learning_rate": 0.0002936053333333333,
"loss": 0.0316,
"step": 1200
},
{
"epoch": 0.21511111111111111,
"grad_norm": 0.07831903547048569,
"learning_rate": 0.000293552,
"loss": 0.025,
"step": 1210
},
{
"epoch": 0.21688888888888888,
"grad_norm": 0.05593474209308624,
"learning_rate": 0.00029349866666666664,
"loss": 0.028,
"step": 1220
},
{
"epoch": 0.21866666666666668,
"grad_norm": 0.08755391836166382,
"learning_rate": 0.0002934453333333333,
"loss": 0.0278,
"step": 1230
},
{
"epoch": 0.22044444444444444,
"grad_norm": 0.05314774066209793,
"learning_rate": 0.00029339199999999996,
"loss": 0.0249,
"step": 1240
},
{
"epoch": 0.2222222222222222,
"grad_norm": 0.09742765128612518,
"learning_rate": 0.0002933386666666666,
"loss": 0.0351,
"step": 1250
},
{
"epoch": 0.224,
"grad_norm": 0.08220130950212479,
"learning_rate": 0.00029328533333333333,
"loss": 0.0246,
"step": 1260
},
{
"epoch": 0.22577777777777777,
"grad_norm": 0.12160548567771912,
"learning_rate": 0.000293232,
"loss": 0.0309,
"step": 1270
},
{
"epoch": 0.22755555555555557,
"grad_norm": 0.04271721467375755,
"learning_rate": 0.00029317866666666665,
"loss": 0.0199,
"step": 1280
},
{
"epoch": 0.22933333333333333,
"grad_norm": 0.10768424719572067,
"learning_rate": 0.0002931253333333333,
"loss": 0.0403,
"step": 1290
},
{
"epoch": 0.2311111111111111,
"grad_norm": 0.10115483403205872,
"learning_rate": 0.00029307199999999996,
"loss": 0.0301,
"step": 1300
},
{
"epoch": 0.2328888888888889,
"grad_norm": 0.06167054921388626,
"learning_rate": 0.0002930186666666666,
"loss": 0.022,
"step": 1310
},
{
"epoch": 0.23466666666666666,
"grad_norm": 0.07526614516973495,
"learning_rate": 0.00029296533333333333,
"loss": 0.0247,
"step": 1320
},
{
"epoch": 0.23644444444444446,
"grad_norm": 0.0718500167131424,
"learning_rate": 0.000292912,
"loss": 0.0306,
"step": 1330
},
{
"epoch": 0.23822222222222222,
"grad_norm": 0.09048707038164139,
"learning_rate": 0.00029285866666666665,
"loss": 0.0342,
"step": 1340
},
{
"epoch": 0.24,
"grad_norm": 0.03385091572999954,
"learning_rate": 0.0002928053333333333,
"loss": 0.0133,
"step": 1350
},
{
"epoch": 0.24177777777777779,
"grad_norm": 0.05868247151374817,
"learning_rate": 0.00029275199999999996,
"loss": 0.0233,
"step": 1360
},
{
"epoch": 0.24355555555555555,
"grad_norm": 0.03412957862019539,
"learning_rate": 0.0002926986666666666,
"loss": 0.0207,
"step": 1370
},
{
"epoch": 0.24533333333333332,
"grad_norm": 0.1037665456533432,
"learning_rate": 0.00029264533333333334,
"loss": 0.0245,
"step": 1380
},
{
"epoch": 0.24711111111111111,
"grad_norm": 0.1433638036251068,
"learning_rate": 0.000292592,
"loss": 0.0337,
"step": 1390
},
{
"epoch": 0.24888888888888888,
"grad_norm": 0.07344509661197662,
"learning_rate": 0.00029253866666666665,
"loss": 0.0259,
"step": 1400
},
{
"epoch": 0.25066666666666665,
"grad_norm": 0.0688699260354042,
"learning_rate": 0.0002924853333333333,
"loss": 0.0255,
"step": 1410
},
{
"epoch": 0.25244444444444447,
"grad_norm": 0.06304153054952621,
"learning_rate": 0.00029243199999999997,
"loss": 0.0313,
"step": 1420
},
{
"epoch": 0.25422222222222224,
"grad_norm": 0.0799403265118599,
"learning_rate": 0.0002923786666666666,
"loss": 0.0293,
"step": 1430
},
{
"epoch": 0.256,
"grad_norm": 0.05794990807771683,
"learning_rate": 0.00029232533333333334,
"loss": 0.0328,
"step": 1440
},
{
"epoch": 0.2577777777777778,
"grad_norm": 0.10939860343933105,
"learning_rate": 0.000292272,
"loss": 0.0312,
"step": 1450
},
{
"epoch": 0.25955555555555554,
"grad_norm": 0.1068209558725357,
"learning_rate": 0.00029221866666666665,
"loss": 0.0319,
"step": 1460
},
{
"epoch": 0.2613333333333333,
"grad_norm": 0.0788411796092987,
"learning_rate": 0.0002921653333333333,
"loss": 0.0177,
"step": 1470
},
{
"epoch": 0.26311111111111113,
"grad_norm": 0.08480872958898544,
"learning_rate": 0.00029211199999999997,
"loss": 0.0366,
"step": 1480
},
{
"epoch": 0.2648888888888889,
"grad_norm": 0.11964548379182816,
"learning_rate": 0.00029205866666666663,
"loss": 0.0289,
"step": 1490
},
{
"epoch": 0.26666666666666666,
"grad_norm": 0.09924939274787903,
"learning_rate": 0.0002920053333333333,
"loss": 0.0389,
"step": 1500
},
{
"epoch": 0.26844444444444443,
"grad_norm": 0.1460910588502884,
"learning_rate": 0.000291952,
"loss": 0.0255,
"step": 1510
},
{
"epoch": 0.2702222222222222,
"grad_norm": 0.07585305720567703,
"learning_rate": 0.0002918986666666666,
"loss": 0.0265,
"step": 1520
},
{
"epoch": 0.272,
"grad_norm": 0.10140100866556168,
"learning_rate": 0.0002918453333333333,
"loss": 0.0218,
"step": 1530
},
{
"epoch": 0.2737777777777778,
"grad_norm": 0.06293733417987823,
"learning_rate": 0.000291792,
"loss": 0.0229,
"step": 1540
},
{
"epoch": 0.27555555555555555,
"grad_norm": 0.05778166651725769,
"learning_rate": 0.00029173866666666663,
"loss": 0.0189,
"step": 1550
},
{
"epoch": 0.2773333333333333,
"grad_norm": 0.10015172511339188,
"learning_rate": 0.0002916853333333333,
"loss": 0.0265,
"step": 1560
},
{
"epoch": 0.2791111111111111,
"grad_norm": 0.09747335314750671,
"learning_rate": 0.000291632,
"loss": 0.0237,
"step": 1570
},
{
"epoch": 0.2808888888888889,
"grad_norm": 0.08547953516244888,
"learning_rate": 0.0002915786666666666,
"loss": 0.0265,
"step": 1580
},
{
"epoch": 0.2826666666666667,
"grad_norm": 0.07761196047067642,
"learning_rate": 0.0002915253333333333,
"loss": 0.0251,
"step": 1590
},
{
"epoch": 0.28444444444444444,
"grad_norm": 0.2071438729763031,
"learning_rate": 0.000291472,
"loss": 0.036,
"step": 1600
},
{
"epoch": 0.2862222222222222,
"grad_norm": 0.1412833034992218,
"learning_rate": 0.00029141866666666663,
"loss": 0.031,
"step": 1610
},
{
"epoch": 0.288,
"grad_norm": 0.18887145817279816,
"learning_rate": 0.0002913653333333333,
"loss": 0.0279,
"step": 1620
},
{
"epoch": 0.2897777777777778,
"grad_norm": 0.24295015633106232,
"learning_rate": 0.000291312,
"loss": 0.0218,
"step": 1630
},
{
"epoch": 0.29155555555555557,
"grad_norm": 0.05178207904100418,
"learning_rate": 0.0002912586666666666,
"loss": 0.0188,
"step": 1640
},
{
"epoch": 0.29333333333333333,
"grad_norm": 0.08417447656393051,
"learning_rate": 0.0002912053333333333,
"loss": 0.0377,
"step": 1650
},
{
"epoch": 0.2951111111111111,
"grad_norm": 0.1539195477962494,
"learning_rate": 0.000291152,
"loss": 0.0337,
"step": 1660
},
{
"epoch": 0.29688888888888887,
"grad_norm": 0.08653148263692856,
"learning_rate": 0.00029109866666666664,
"loss": 0.0288,
"step": 1670
},
{
"epoch": 0.2986666666666667,
"grad_norm": 0.06827989220619202,
"learning_rate": 0.0002910453333333333,
"loss": 0.033,
"step": 1680
},
{
"epoch": 0.30044444444444446,
"grad_norm": 0.06921634823083878,
"learning_rate": 0.00029099199999999995,
"loss": 0.0342,
"step": 1690
},
{
"epoch": 0.3022222222222222,
"grad_norm": 0.0933580994606018,
"learning_rate": 0.0002909386666666666,
"loss": 0.0264,
"step": 1700
},
{
"epoch": 0.304,
"grad_norm": 0.06207526847720146,
"learning_rate": 0.0002908853333333333,
"loss": 0.0287,
"step": 1710
},
{
"epoch": 0.30577777777777776,
"grad_norm": 0.06998030096292496,
"learning_rate": 0.000290832,
"loss": 0.0312,
"step": 1720
},
{
"epoch": 0.3075555555555556,
"grad_norm": 0.06357523053884506,
"learning_rate": 0.00029077866666666664,
"loss": 0.0176,
"step": 1730
},
{
"epoch": 0.30933333333333335,
"grad_norm": 0.0615546740591526,
"learning_rate": 0.0002907253333333333,
"loss": 0.0175,
"step": 1740
},
{
"epoch": 0.3111111111111111,
"grad_norm": 0.08233962953090668,
"learning_rate": 0.00029067199999999996,
"loss": 0.0219,
"step": 1750
},
{
"epoch": 0.3128888888888889,
"grad_norm": 0.11235872656106949,
"learning_rate": 0.0002906186666666666,
"loss": 0.0228,
"step": 1760
},
{
"epoch": 0.31466666666666665,
"grad_norm": 0.07158353179693222,
"learning_rate": 0.00029056533333333333,
"loss": 0.025,
"step": 1770
},
{
"epoch": 0.3164444444444444,
"grad_norm": 0.06164095178246498,
"learning_rate": 0.000290512,
"loss": 0.0372,
"step": 1780
},
{
"epoch": 0.31822222222222224,
"grad_norm": 0.06013910844922066,
"learning_rate": 0.00029045866666666664,
"loss": 0.0217,
"step": 1790
},
{
"epoch": 0.32,
"grad_norm": 0.07148768752813339,
"learning_rate": 0.0002904053333333333,
"loss": 0.0255,
"step": 1800
},
{
"epoch": 0.3217777777777778,
"grad_norm": 0.0596451498568058,
"learning_rate": 0.00029035199999999996,
"loss": 0.0271,
"step": 1810
},
{
"epoch": 0.32355555555555554,
"grad_norm": 0.1655549556016922,
"learning_rate": 0.0002902986666666666,
"loss": 0.0284,
"step": 1820
},
{
"epoch": 0.3253333333333333,
"grad_norm": 0.06064489856362343,
"learning_rate": 0.00029024533333333333,
"loss": 0.0295,
"step": 1830
},
{
"epoch": 0.32711111111111113,
"grad_norm": 0.08867213875055313,
"learning_rate": 0.000290192,
"loss": 0.0346,
"step": 1840
},
{
"epoch": 0.3288888888888889,
"grad_norm": 0.07153977453708649,
"learning_rate": 0.00029013866666666665,
"loss": 0.0181,
"step": 1850
},
{
"epoch": 0.33066666666666666,
"grad_norm": 0.10434221476316452,
"learning_rate": 0.0002900853333333333,
"loss": 0.021,
"step": 1860
},
{
"epoch": 0.33244444444444443,
"grad_norm": 0.18994474411010742,
"learning_rate": 0.00029003199999999996,
"loss": 0.0426,
"step": 1870
},
{
"epoch": 0.3342222222222222,
"grad_norm": 0.14286014437675476,
"learning_rate": 0.0002899786666666666,
"loss": 0.0201,
"step": 1880
},
{
"epoch": 0.336,
"grad_norm": 0.10460743308067322,
"learning_rate": 0.00028992533333333333,
"loss": 0.0237,
"step": 1890
},
{
"epoch": 0.3377777777777778,
"grad_norm": 0.12452530115842819,
"learning_rate": 0.000289872,
"loss": 0.0434,
"step": 1900
},
{
"epoch": 0.33955555555555555,
"grad_norm": 0.1265326738357544,
"learning_rate": 0.00028981866666666665,
"loss": 0.0251,
"step": 1910
},
{
"epoch": 0.3413333333333333,
"grad_norm": 0.1008426696062088,
"learning_rate": 0.0002897653333333333,
"loss": 0.0219,
"step": 1920
},
{
"epoch": 0.3431111111111111,
"grad_norm": 0.08846145123243332,
"learning_rate": 0.00028971199999999997,
"loss": 0.0329,
"step": 1930
},
{
"epoch": 0.3448888888888889,
"grad_norm": 0.09375877678394318,
"learning_rate": 0.0002896586666666666,
"loss": 0.0303,
"step": 1940
},
{
"epoch": 0.3466666666666667,
"grad_norm": 0.09024661034345627,
"learning_rate": 0.00028960533333333334,
"loss": 0.0227,
"step": 1950
},
{
"epoch": 0.34844444444444445,
"grad_norm": 0.05938957259058952,
"learning_rate": 0.000289552,
"loss": 0.0226,
"step": 1960
},
{
"epoch": 0.3502222222222222,
"grad_norm": 0.07051919400691986,
"learning_rate": 0.00028949866666666665,
"loss": 0.0283,
"step": 1970
},
{
"epoch": 0.352,
"grad_norm": 0.04391910880804062,
"learning_rate": 0.0002894453333333333,
"loss": 0.0238,
"step": 1980
},
{
"epoch": 0.3537777777777778,
"grad_norm": 0.074351005256176,
"learning_rate": 0.00028939199999999997,
"loss": 0.0263,
"step": 1990
},
{
"epoch": 0.35555555555555557,
"grad_norm": 0.1263705939054489,
"learning_rate": 0.00028933866666666663,
"loss": 0.0209,
"step": 2000
},
{
"epoch": 0.35555555555555557,
"eval_accuracy": 0.7627,
"eval_f1": 0.9573098476657924,
"eval_loss": 0.024347538128495216,
"eval_precision": 0.9551886790986791,
"eval_recall": 0.9610763042513043,
"eval_runtime": 651.7148,
"eval_samples_per_second": 15.344,
"eval_steps_per_second": 1.918,
"step": 2000
},
{
"epoch": 0.35733333333333334,
"grad_norm": 0.07733402401208878,
"learning_rate": 0.00028928533333333334,
"loss": 0.0286,
"step": 2010
},
{
"epoch": 0.3591111111111111,
"grad_norm": 0.15344883501529694,
"learning_rate": 0.000289232,
"loss": 0.0354,
"step": 2020
},
{
"epoch": 0.36088888888888887,
"grad_norm": 0.07696090638637543,
"learning_rate": 0.0002891786666666666,
"loss": 0.0255,
"step": 2030
},
{
"epoch": 0.3626666666666667,
"grad_norm": 0.14050455391407013,
"learning_rate": 0.0002891253333333333,
"loss": 0.0306,
"step": 2040
},
{
"epoch": 0.36444444444444446,
"grad_norm": 0.13546547293663025,
"learning_rate": 0.00028907199999999997,
"loss": 0.0333,
"step": 2050
},
{
"epoch": 0.3662222222222222,
"grad_norm": 0.07343069463968277,
"learning_rate": 0.00028901866666666663,
"loss": 0.0333,
"step": 2060
},
{
"epoch": 0.368,
"grad_norm": 0.0838441252708435,
"learning_rate": 0.0002889653333333333,
"loss": 0.0368,
"step": 2070
},
{
"epoch": 0.36977777777777776,
"grad_norm": 0.0723879411816597,
"learning_rate": 0.000288912,
"loss": 0.0194,
"step": 2080
},
{
"epoch": 0.37155555555555553,
"grad_norm": 0.08837046474218369,
"learning_rate": 0.0002888586666666666,
"loss": 0.0199,
"step": 2090
},
{
"epoch": 0.37333333333333335,
"grad_norm": 0.08860599994659424,
"learning_rate": 0.0002888053333333333,
"loss": 0.0262,
"step": 2100
},
{
"epoch": 0.3751111111111111,
"grad_norm": 0.06852641701698303,
"learning_rate": 0.000288752,
"loss": 0.0173,
"step": 2110
},
{
"epoch": 0.3768888888888889,
"grad_norm": 0.08341096341609955,
"learning_rate": 0.00028869866666666663,
"loss": 0.0266,
"step": 2120
},
{
"epoch": 0.37866666666666665,
"grad_norm": 0.09122495353221893,
"learning_rate": 0.0002886453333333333,
"loss": 0.0303,
"step": 2130
},
{
"epoch": 0.3804444444444444,
"grad_norm": 0.05174389109015465,
"learning_rate": 0.000288592,
"loss": 0.0332,
"step": 2140
},
{
"epoch": 0.38222222222222224,
"grad_norm": 0.16697311401367188,
"learning_rate": 0.0002885386666666666,
"loss": 0.0457,
"step": 2150
},
{
"epoch": 0.384,
"grad_norm": 0.09387817233800888,
"learning_rate": 0.0002884853333333333,
"loss": 0.0296,
"step": 2160
},
{
"epoch": 0.3857777777777778,
"grad_norm": 0.07832591980695724,
"learning_rate": 0.000288432,
"loss": 0.0254,
"step": 2170
},
{
"epoch": 0.38755555555555554,
"grad_norm": 0.05770006775856018,
"learning_rate": 0.00028837866666666664,
"loss": 0.0289,
"step": 2180
},
{
"epoch": 0.3893333333333333,
"grad_norm": 0.041991833597421646,
"learning_rate": 0.0002883253333333333,
"loss": 0.0259,
"step": 2190
},
{
"epoch": 0.39111111111111113,
"grad_norm": 0.0862719863653183,
"learning_rate": 0.000288272,
"loss": 0.0293,
"step": 2200
},
{
"epoch": 0.3928888888888889,
"grad_norm": 0.0876149982213974,
"learning_rate": 0.0002882186666666666,
"loss": 0.0318,
"step": 2210
},
{
"epoch": 0.39466666666666667,
"grad_norm": 0.26843714714050293,
"learning_rate": 0.0002881653333333333,
"loss": 0.0275,
"step": 2220
},
{
"epoch": 0.39644444444444443,
"grad_norm": 0.10490261763334274,
"learning_rate": 0.000288112,
"loss": 0.023,
"step": 2230
},
{
"epoch": 0.3982222222222222,
"grad_norm": 0.043965961784124374,
"learning_rate": 0.00028805866666666664,
"loss": 0.0302,
"step": 2240
},
{
"epoch": 0.4,
"grad_norm": 0.11250148713588715,
"learning_rate": 0.0002880053333333333,
"loss": 0.0256,
"step": 2250
},
{
"epoch": 0.4017777777777778,
"grad_norm": 0.14937596023082733,
"learning_rate": 0.00028795199999999996,
"loss": 0.0296,
"step": 2260
},
{
"epoch": 0.40355555555555556,
"grad_norm": 0.07885195314884186,
"learning_rate": 0.0002878986666666666,
"loss": 0.0172,
"step": 2270
},
{
"epoch": 0.4053333333333333,
"grad_norm": 0.204289972782135,
"learning_rate": 0.0002878453333333333,
"loss": 0.0406,
"step": 2280
},
{
"epoch": 0.4071111111111111,
"grad_norm": 0.08917578309774399,
"learning_rate": 0.000287792,
"loss": 0.0302,
"step": 2290
},
{
"epoch": 0.4088888888888889,
"grad_norm": 0.10555682331323624,
"learning_rate": 0.00028773866666666664,
"loss": 0.0271,
"step": 2300
},
{
"epoch": 0.4106666666666667,
"grad_norm": 0.12323552370071411,
"learning_rate": 0.0002876853333333333,
"loss": 0.0272,
"step": 2310
},
{
"epoch": 0.41244444444444445,
"grad_norm": 0.07189056277275085,
"learning_rate": 0.00028763199999999996,
"loss": 0.0258,
"step": 2320
},
{
"epoch": 0.4142222222222222,
"grad_norm": 0.10721557587385178,
"learning_rate": 0.0002875786666666666,
"loss": 0.0219,
"step": 2330
},
{
"epoch": 0.416,
"grad_norm": 0.15874731540679932,
"learning_rate": 0.00028752533333333333,
"loss": 0.0255,
"step": 2340
},
{
"epoch": 0.4177777777777778,
"grad_norm": 0.0631805881857872,
"learning_rate": 0.000287472,
"loss": 0.0301,
"step": 2350
},
{
"epoch": 0.41955555555555557,
"grad_norm": 0.08577944338321686,
"learning_rate": 0.00028741866666666665,
"loss": 0.0373,
"step": 2360
},
{
"epoch": 0.42133333333333334,
"grad_norm": 0.03026222065091133,
"learning_rate": 0.0002873653333333333,
"loss": 0.0199,
"step": 2370
},
{
"epoch": 0.4231111111111111,
"grad_norm": 0.059838082641363144,
"learning_rate": 0.00028731199999999996,
"loss": 0.0261,
"step": 2380
},
{
"epoch": 0.42488888888888887,
"grad_norm": 0.06966649740934372,
"learning_rate": 0.0002872586666666666,
"loss": 0.0311,
"step": 2390
},
{
"epoch": 0.4266666666666667,
"grad_norm": 0.058014433830976486,
"learning_rate": 0.00028720533333333333,
"loss": 0.0297,
"step": 2400
},
{
"epoch": 0.42844444444444446,
"grad_norm": 0.16240113973617554,
"learning_rate": 0.000287152,
"loss": 0.0281,
"step": 2410
},
{
"epoch": 0.43022222222222223,
"grad_norm": 0.03950966149568558,
"learning_rate": 0.00028709866666666665,
"loss": 0.0281,
"step": 2420
},
{
"epoch": 0.432,
"grad_norm": 0.05715180188417435,
"learning_rate": 0.0002870453333333333,
"loss": 0.0198,
"step": 2430
},
{
"epoch": 0.43377777777777776,
"grad_norm": 0.04981226474046707,
"learning_rate": 0.00028699199999999997,
"loss": 0.0233,
"step": 2440
},
{
"epoch": 0.43555555555555553,
"grad_norm": 0.05428339168429375,
"learning_rate": 0.0002869386666666666,
"loss": 0.0221,
"step": 2450
},
{
"epoch": 0.43733333333333335,
"grad_norm": 0.28096815943717957,
"learning_rate": 0.00028688533333333334,
"loss": 0.033,
"step": 2460
},
{
"epoch": 0.4391111111111111,
"grad_norm": 0.05512421205639839,
"learning_rate": 0.000286832,
"loss": 0.0208,
"step": 2470
},
{
"epoch": 0.4408888888888889,
"grad_norm": 0.05635492876172066,
"learning_rate": 0.00028677866666666665,
"loss": 0.0237,
"step": 2480
},
{
"epoch": 0.44266666666666665,
"grad_norm": 0.12980712950229645,
"learning_rate": 0.0002867253333333333,
"loss": 0.0292,
"step": 2490
},
{
"epoch": 0.4444444444444444,
"grad_norm": 0.06960833817720413,
"learning_rate": 0.00028667199999999997,
"loss": 0.0207,
"step": 2500
},
{
"epoch": 0.44622222222222224,
"grad_norm": 0.09307900071144104,
"learning_rate": 0.0002866186666666666,
"loss": 0.0212,
"step": 2510
},
{
"epoch": 0.448,
"grad_norm": 0.11810287088155746,
"learning_rate": 0.00028656533333333334,
"loss": 0.0207,
"step": 2520
},
{
"epoch": 0.4497777777777778,
"grad_norm": 0.09437887370586395,
"learning_rate": 0.000286512,
"loss": 0.0301,
"step": 2530
},
{
"epoch": 0.45155555555555554,
"grad_norm": 0.09049661457538605,
"learning_rate": 0.0002864586666666666,
"loss": 0.0296,
"step": 2540
},
{
"epoch": 0.4533333333333333,
"grad_norm": 0.09026191383600235,
"learning_rate": 0.0002864053333333333,
"loss": 0.0346,
"step": 2550
},
{
"epoch": 0.45511111111111113,
"grad_norm": 0.15376700460910797,
"learning_rate": 0.00028635199999999997,
"loss": 0.0293,
"step": 2560
},
{
"epoch": 0.4568888888888889,
"grad_norm": 0.09648899734020233,
"learning_rate": 0.00028629866666666663,
"loss": 0.0253,
"step": 2570
},
{
"epoch": 0.45866666666666667,
"grad_norm": 0.3402349352836609,
"learning_rate": 0.0002862453333333333,
"loss": 0.0227,
"step": 2580
},
{
"epoch": 0.46044444444444443,
"grad_norm": 0.05629970133304596,
"learning_rate": 0.000286192,
"loss": 0.0197,
"step": 2590
},
{
"epoch": 0.4622222222222222,
"grad_norm": 0.08770111948251724,
"learning_rate": 0.0002861386666666666,
"loss": 0.0272,
"step": 2600
},
{
"epoch": 0.464,
"grad_norm": 0.05160212144255638,
"learning_rate": 0.0002860853333333333,
"loss": 0.0223,
"step": 2610
},
{
"epoch": 0.4657777777777778,
"grad_norm": 0.05589841678738594,
"learning_rate": 0.000286032,
"loss": 0.0239,
"step": 2620
},
{
"epoch": 0.46755555555555556,
"grad_norm": 0.07784659415483475,
"learning_rate": 0.00028597866666666663,
"loss": 0.0265,
"step": 2630
},
{
"epoch": 0.4693333333333333,
"grad_norm": 0.04981613531708717,
"learning_rate": 0.0002859253333333333,
"loss": 0.0289,
"step": 2640
},
{
"epoch": 0.4711111111111111,
"grad_norm": 0.07681208848953247,
"learning_rate": 0.000285872,
"loss": 0.0294,
"step": 2650
},
{
"epoch": 0.4728888888888889,
"grad_norm": 0.05933229625225067,
"learning_rate": 0.0002858186666666666,
"loss": 0.0302,
"step": 2660
},
{
"epoch": 0.4746666666666667,
"grad_norm": 0.049334846436977386,
"learning_rate": 0.0002857653333333333,
"loss": 0.0309,
"step": 2670
},
{
"epoch": 0.47644444444444445,
"grad_norm": 0.1261008232831955,
"learning_rate": 0.000285712,
"loss": 0.0284,
"step": 2680
},
{
"epoch": 0.4782222222222222,
"grad_norm": 0.061224110424518585,
"learning_rate": 0.00028565866666666664,
"loss": 0.0239,
"step": 2690
},
{
"epoch": 0.48,
"grad_norm": 0.09782722592353821,
"learning_rate": 0.0002856053333333333,
"loss": 0.0274,
"step": 2700
},
{
"epoch": 0.4817777777777778,
"grad_norm": 0.08544397354125977,
"learning_rate": 0.000285552,
"loss": 0.0264,
"step": 2710
},
{
"epoch": 0.48355555555555557,
"grad_norm": 0.06903214007616043,
"learning_rate": 0.0002854986666666666,
"loss": 0.0239,
"step": 2720
},
{
"epoch": 0.48533333333333334,
"grad_norm": 0.1085357666015625,
"learning_rate": 0.0002854453333333333,
"loss": 0.0324,
"step": 2730
},
{
"epoch": 0.4871111111111111,
"grad_norm": 0.19770896434783936,
"learning_rate": 0.000285392,
"loss": 0.0307,
"step": 2740
},
{
"epoch": 0.4888888888888889,
"grad_norm": 0.07220843434333801,
"learning_rate": 0.00028533866666666664,
"loss": 0.0265,
"step": 2750
},
{
"epoch": 0.49066666666666664,
"grad_norm": 0.0733049288392067,
"learning_rate": 0.0002852853333333333,
"loss": 0.0234,
"step": 2760
},
{
"epoch": 0.49244444444444446,
"grad_norm": 0.05413531884551048,
"learning_rate": 0.000285232,
"loss": 0.0205,
"step": 2770
},
{
"epoch": 0.49422222222222223,
"grad_norm": 0.11062481999397278,
"learning_rate": 0.0002851786666666666,
"loss": 0.0301,
"step": 2780
},
{
"epoch": 0.496,
"grad_norm": 0.10900420695543289,
"learning_rate": 0.0002851253333333333,
"loss": 0.0215,
"step": 2790
},
{
"epoch": 0.49777777777777776,
"grad_norm": 0.0699872151017189,
"learning_rate": 0.000285072,
"loss": 0.0303,
"step": 2800
},
{
"epoch": 0.49955555555555553,
"grad_norm": 0.05985388159751892,
"learning_rate": 0.00028501866666666664,
"loss": 0.0293,
"step": 2810
},
{
"epoch": 0.5013333333333333,
"grad_norm": 0.0919581800699234,
"learning_rate": 0.0002849653333333333,
"loss": 0.0248,
"step": 2820
},
{
"epoch": 0.5031111111111111,
"grad_norm": 0.053666852414608,
"learning_rate": 0.00028491199999999996,
"loss": 0.021,
"step": 2830
},
{
"epoch": 0.5048888888888889,
"grad_norm": 0.09157125651836395,
"learning_rate": 0.0002848586666666666,
"loss": 0.0339,
"step": 2840
},
{
"epoch": 0.5066666666666667,
"grad_norm": 0.14482910931110382,
"learning_rate": 0.00028480533333333333,
"loss": 0.0163,
"step": 2850
},
{
"epoch": 0.5084444444444445,
"grad_norm": 0.07155676931142807,
"learning_rate": 0.000284752,
"loss": 0.0274,
"step": 2860
},
{
"epoch": 0.5102222222222222,
"grad_norm": 0.06836314499378204,
"learning_rate": 0.00028469866666666665,
"loss": 0.0224,
"step": 2870
},
{
"epoch": 0.512,
"grad_norm": 0.04311711713671684,
"learning_rate": 0.0002846453333333333,
"loss": 0.0261,
"step": 2880
},
{
"epoch": 0.5137777777777778,
"grad_norm": 0.05936416983604431,
"learning_rate": 0.00028459199999999996,
"loss": 0.0235,
"step": 2890
},
{
"epoch": 0.5155555555555555,
"grad_norm": 0.0663696750998497,
"learning_rate": 0.0002845386666666666,
"loss": 0.0256,
"step": 2900
},
{
"epoch": 0.5173333333333333,
"grad_norm": 0.1328098326921463,
"learning_rate": 0.00028448533333333333,
"loss": 0.03,
"step": 2910
},
{
"epoch": 0.5191111111111111,
"grad_norm": 0.08240935951471329,
"learning_rate": 0.000284432,
"loss": 0.0284,
"step": 2920
},
{
"epoch": 0.5208888888888888,
"grad_norm": 0.08728118240833282,
"learning_rate": 0.00028437866666666665,
"loss": 0.0221,
"step": 2930
},
{
"epoch": 0.5226666666666666,
"grad_norm": 0.058592695742845535,
"learning_rate": 0.0002843253333333333,
"loss": 0.0282,
"step": 2940
},
{
"epoch": 0.5244444444444445,
"grad_norm": 0.08862440288066864,
"learning_rate": 0.00028427199999999996,
"loss": 0.0297,
"step": 2950
},
{
"epoch": 0.5262222222222223,
"grad_norm": 0.12409399449825287,
"learning_rate": 0.0002842186666666666,
"loss": 0.0281,
"step": 2960
},
{
"epoch": 0.528,
"grad_norm": 0.0908299908041954,
"learning_rate": 0.00028416533333333333,
"loss": 0.0294,
"step": 2970
},
{
"epoch": 0.5297777777777778,
"grad_norm": 0.10704029351472855,
"learning_rate": 0.000284112,
"loss": 0.0232,
"step": 2980
},
{
"epoch": 0.5315555555555556,
"grad_norm": 0.050082478672266006,
"learning_rate": 0.00028405866666666665,
"loss": 0.0162,
"step": 2990
},
{
"epoch": 0.5333333333333333,
"grad_norm": 0.17065931856632233,
"learning_rate": 0.0002840053333333333,
"loss": 0.0266,
"step": 3000
},
{
"epoch": 0.5333333333333333,
"eval_accuracy": 0.7727,
"eval_f1": 0.9574046882744435,
"eval_loss": 0.023515120148658752,
"eval_precision": 0.9558694061494062,
"eval_recall": 0.960483739885845,
"eval_runtime": 640.5512,
"eval_samples_per_second": 15.612,
"eval_steps_per_second": 1.951,
"step": 3000
},
{
"epoch": 0.5351111111111111,
"grad_norm": 0.07140597701072693,
"learning_rate": 0.00028395199999999997,
"loss": 0.023,
"step": 3010
},
{
"epoch": 0.5368888888888889,
"grad_norm": 0.07117987424135208,
"learning_rate": 0.0002838986666666666,
"loss": 0.0296,
"step": 3020
},
{
"epoch": 0.5386666666666666,
"grad_norm": 0.14514616131782532,
"learning_rate": 0.00028384533333333334,
"loss": 0.024,
"step": 3030
},
{
"epoch": 0.5404444444444444,
"grad_norm": 0.20337609946727753,
"learning_rate": 0.000283792,
"loss": 0.0382,
"step": 3040
},
{
"epoch": 0.5422222222222223,
"grad_norm": 0.05621475353837013,
"learning_rate": 0.0002837386666666666,
"loss": 0.0248,
"step": 3050
},
{
"epoch": 0.544,
"grad_norm": 0.0626642256975174,
"learning_rate": 0.0002836853333333333,
"loss": 0.0187,
"step": 3060
},
{
"epoch": 0.5457777777777778,
"grad_norm": 0.1031564474105835,
"learning_rate": 0.00028363199999999997,
"loss": 0.0302,
"step": 3070
},
{
"epoch": 0.5475555555555556,
"grad_norm": 0.06050852686166763,
"learning_rate": 0.00028357866666666663,
"loss": 0.011,
"step": 3080
},
{
"epoch": 0.5493333333333333,
"grad_norm": 0.07742660492658615,
"learning_rate": 0.0002835253333333333,
"loss": 0.0239,
"step": 3090
},
{
"epoch": 0.5511111111111111,
"grad_norm": 0.10780712962150574,
"learning_rate": 0.000283472,
"loss": 0.018,
"step": 3100
},
{
"epoch": 0.5528888888888889,
"grad_norm": 0.18680323660373688,
"learning_rate": 0.0002834186666666666,
"loss": 0.0261,
"step": 3110
},
{
"epoch": 0.5546666666666666,
"grad_norm": 0.07397971302270889,
"learning_rate": 0.0002833653333333333,
"loss": 0.029,
"step": 3120
},
{
"epoch": 0.5564444444444444,
"grad_norm": 0.2938878834247589,
"learning_rate": 0.000283312,
"loss": 0.0282,
"step": 3130
},
{
"epoch": 0.5582222222222222,
"grad_norm": 0.1269586980342865,
"learning_rate": 0.00028325866666666663,
"loss": 0.0281,
"step": 3140
},
{
"epoch": 0.56,
"grad_norm": 0.063466876745224,
"learning_rate": 0.0002832053333333333,
"loss": 0.0207,
"step": 3150
},
{
"epoch": 0.5617777777777778,
"grad_norm": 0.06853649020195007,
"learning_rate": 0.000283152,
"loss": 0.0367,
"step": 3160
},
{
"epoch": 0.5635555555555556,
"grad_norm": 0.11174353212118149,
"learning_rate": 0.0002830986666666666,
"loss": 0.0369,
"step": 3170
},
{
"epoch": 0.5653333333333334,
"grad_norm": 0.09678266942501068,
"learning_rate": 0.0002830453333333333,
"loss": 0.0302,
"step": 3180
},
{
"epoch": 0.5671111111111111,
"grad_norm": 0.07290956377983093,
"learning_rate": 0.000282992,
"loss": 0.0211,
"step": 3190
},
{
"epoch": 0.5688888888888889,
"grad_norm": 0.1320604532957077,
"learning_rate": 0.00028293866666666663,
"loss": 0.0451,
"step": 3200
},
{
"epoch": 0.5706666666666667,
"grad_norm": 0.053190432488918304,
"learning_rate": 0.0002828853333333333,
"loss": 0.0197,
"step": 3210
},
{
"epoch": 0.5724444444444444,
"grad_norm": 0.06059429794549942,
"learning_rate": 0.000282832,
"loss": 0.0118,
"step": 3220
},
{
"epoch": 0.5742222222222222,
"grad_norm": 0.03522539883852005,
"learning_rate": 0.0002827786666666666,
"loss": 0.0247,
"step": 3230
},
{
"epoch": 0.576,
"grad_norm": 0.039473287761211395,
"learning_rate": 0.0002827253333333333,
"loss": 0.0202,
"step": 3240
},
{
"epoch": 0.5777777777777777,
"grad_norm": 0.06863950192928314,
"learning_rate": 0.000282672,
"loss": 0.0225,
"step": 3250
},
{
"epoch": 0.5795555555555556,
"grad_norm": 0.03817706182599068,
"learning_rate": 0.00028261866666666664,
"loss": 0.031,
"step": 3260
},
{
"epoch": 0.5813333333333334,
"grad_norm": 0.04472897946834564,
"learning_rate": 0.0002825653333333333,
"loss": 0.0302,
"step": 3270
},
{
"epoch": 0.5831111111111111,
"grad_norm": 0.06225752830505371,
"learning_rate": 0.000282512,
"loss": 0.0246,
"step": 3280
},
{
"epoch": 0.5848888888888889,
"grad_norm": 0.059107642620801926,
"learning_rate": 0.0002824586666666666,
"loss": 0.0276,
"step": 3290
},
{
"epoch": 0.5866666666666667,
"grad_norm": 0.06899523735046387,
"learning_rate": 0.0002824053333333333,
"loss": 0.0171,
"step": 3300
},
{
"epoch": 0.5884444444444444,
"grad_norm": 0.06581231206655502,
"learning_rate": 0.000282352,
"loss": 0.0327,
"step": 3310
},
{
"epoch": 0.5902222222222222,
"grad_norm": 0.045066848397254944,
"learning_rate": 0.00028229866666666664,
"loss": 0.0241,
"step": 3320
},
{
"epoch": 0.592,
"grad_norm": 0.07268764078617096,
"learning_rate": 0.0002822453333333333,
"loss": 0.0331,
"step": 3330
},
{
"epoch": 0.5937777777777777,
"grad_norm": 0.060960572212934494,
"learning_rate": 0.000282192,
"loss": 0.0256,
"step": 3340
},
{
"epoch": 0.5955555555555555,
"grad_norm": 0.2513478994369507,
"learning_rate": 0.0002821386666666666,
"loss": 0.025,
"step": 3350
},
{
"epoch": 0.5973333333333334,
"grad_norm": 0.06498312205076218,
"learning_rate": 0.00028208533333333333,
"loss": 0.0289,
"step": 3360
},
{
"epoch": 0.5991111111111111,
"grad_norm": 0.09297536313533783,
"learning_rate": 0.000282032,
"loss": 0.0303,
"step": 3370
},
{
"epoch": 0.6008888888888889,
"grad_norm": 0.13179464638233185,
"learning_rate": 0.00028197866666666664,
"loss": 0.0192,
"step": 3380
},
{
"epoch": 0.6026666666666667,
"grad_norm": 0.10963452607393265,
"learning_rate": 0.0002819253333333333,
"loss": 0.0246,
"step": 3390
},
{
"epoch": 0.6044444444444445,
"grad_norm": 0.09506689757108688,
"learning_rate": 0.00028187199999999996,
"loss": 0.0239,
"step": 3400
},
{
"epoch": 0.6062222222222222,
"grad_norm": 0.04913311451673508,
"learning_rate": 0.0002818186666666666,
"loss": 0.0261,
"step": 3410
},
{
"epoch": 0.608,
"grad_norm": 0.08195222169160843,
"learning_rate": 0.00028176533333333333,
"loss": 0.0247,
"step": 3420
},
{
"epoch": 0.6097777777777778,
"grad_norm": 0.0691281408071518,
"learning_rate": 0.000281712,
"loss": 0.0207,
"step": 3430
},
{
"epoch": 0.6115555555555555,
"grad_norm": 0.0718892365694046,
"learning_rate": 0.00028165866666666665,
"loss": 0.0241,
"step": 3440
},
{
"epoch": 0.6133333333333333,
"grad_norm": 0.06909991800785065,
"learning_rate": 0.0002816053333333333,
"loss": 0.0272,
"step": 3450
},
{
"epoch": 0.6151111111111112,
"grad_norm": 0.04485394060611725,
"learning_rate": 0.00028155199999999996,
"loss": 0.0215,
"step": 3460
},
{
"epoch": 0.6168888888888889,
"grad_norm": 0.04724091663956642,
"learning_rate": 0.0002814986666666666,
"loss": 0.0212,
"step": 3470
},
{
"epoch": 0.6186666666666667,
"grad_norm": 0.029085082933306694,
"learning_rate": 0.00028144533333333333,
"loss": 0.0196,
"step": 3480
},
{
"epoch": 0.6204444444444445,
"grad_norm": 0.19220128655433655,
"learning_rate": 0.000281392,
"loss": 0.0247,
"step": 3490
},
{
"epoch": 0.6222222222222222,
"grad_norm": 0.05309440195560455,
"learning_rate": 0.00028133866666666665,
"loss": 0.0244,
"step": 3500
},
{
"epoch": 0.624,
"grad_norm": 0.07952793687582016,
"learning_rate": 0.0002812853333333333,
"loss": 0.0195,
"step": 3510
},
{
"epoch": 0.6257777777777778,
"grad_norm": 0.3154834508895874,
"learning_rate": 0.00028123199999999997,
"loss": 0.0295,
"step": 3520
},
{
"epoch": 0.6275555555555555,
"grad_norm": 0.0766853392124176,
"learning_rate": 0.0002811786666666666,
"loss": 0.0324,
"step": 3530
},
{
"epoch": 0.6293333333333333,
"grad_norm": 0.08639875799417496,
"learning_rate": 0.00028112533333333334,
"loss": 0.0236,
"step": 3540
},
{
"epoch": 0.6311111111111111,
"grad_norm": 0.08146939426660538,
"learning_rate": 0.000281072,
"loss": 0.0326,
"step": 3550
},
{
"epoch": 0.6328888888888888,
"grad_norm": 0.05373803526163101,
"learning_rate": 0.00028101866666666665,
"loss": 0.0287,
"step": 3560
},
{
"epoch": 0.6346666666666667,
"grad_norm": 0.07657090574502945,
"learning_rate": 0.0002809653333333333,
"loss": 0.0285,
"step": 3570
},
{
"epoch": 0.6364444444444445,
"grad_norm": 0.06270106136798859,
"learning_rate": 0.00028091199999999997,
"loss": 0.0257,
"step": 3580
},
{
"epoch": 0.6382222222222222,
"grad_norm": 0.08759273588657379,
"learning_rate": 0.00028085866666666663,
"loss": 0.0198,
"step": 3590
},
{
"epoch": 0.64,
"grad_norm": 0.11989719420671463,
"learning_rate": 0.0002808053333333333,
"loss": 0.0305,
"step": 3600
},
{
"epoch": 0.6417777777777778,
"grad_norm": 0.0724174827337265,
"learning_rate": 0.000280752,
"loss": 0.0248,
"step": 3610
},
{
"epoch": 0.6435555555555555,
"grad_norm": 0.03285994380712509,
"learning_rate": 0.0002806986666666666,
"loss": 0.0266,
"step": 3620
},
{
"epoch": 0.6453333333333333,
"grad_norm": 0.07670129835605621,
"learning_rate": 0.0002806453333333333,
"loss": 0.0297,
"step": 3630
},
{
"epoch": 0.6471111111111111,
"grad_norm": 0.08773159980773926,
"learning_rate": 0.00028059199999999997,
"loss": 0.0175,
"step": 3640
},
{
"epoch": 0.6488888888888888,
"grad_norm": 0.061989523470401764,
"learning_rate": 0.00028053866666666663,
"loss": 0.019,
"step": 3650
},
{
"epoch": 0.6506666666666666,
"grad_norm": 0.07524633407592773,
"learning_rate": 0.0002804853333333333,
"loss": 0.0236,
"step": 3660
},
{
"epoch": 0.6524444444444445,
"grad_norm": 0.05378331243991852,
"learning_rate": 0.000280432,
"loss": 0.0245,
"step": 3670
},
{
"epoch": 0.6542222222222223,
"grad_norm": 0.11779718846082687,
"learning_rate": 0.0002803786666666666,
"loss": 0.0367,
"step": 3680
},
{
"epoch": 0.656,
"grad_norm": 0.0681007131934166,
"learning_rate": 0.0002803253333333333,
"loss": 0.0201,
"step": 3690
},
{
"epoch": 0.6577777777777778,
"grad_norm": 0.07915254682302475,
"learning_rate": 0.000280272,
"loss": 0.0269,
"step": 3700
},
{
"epoch": 0.6595555555555556,
"grad_norm": 0.08552742004394531,
"learning_rate": 0.00028021866666666663,
"loss": 0.0205,
"step": 3710
},
{
"epoch": 0.6613333333333333,
"grad_norm": 0.2085397094488144,
"learning_rate": 0.0002801653333333333,
"loss": 0.0208,
"step": 3720
},
{
"epoch": 0.6631111111111111,
"grad_norm": 0.1683596819639206,
"learning_rate": 0.000280112,
"loss": 0.0238,
"step": 3730
},
{
"epoch": 0.6648888888888889,
"grad_norm": 0.10576564073562622,
"learning_rate": 0.0002800586666666666,
"loss": 0.0197,
"step": 3740
},
{
"epoch": 0.6666666666666666,
"grad_norm": 0.08186109364032745,
"learning_rate": 0.0002800053333333333,
"loss": 0.0248,
"step": 3750
},
{
"epoch": 0.6684444444444444,
"grad_norm": 0.18161682784557343,
"learning_rate": 0.000279952,
"loss": 0.0349,
"step": 3760
},
{
"epoch": 0.6702222222222223,
"grad_norm": 0.09221694618463516,
"learning_rate": 0.00027989866666666664,
"loss": 0.0277,
"step": 3770
},
{
"epoch": 0.672,
"grad_norm": 0.06621862202882767,
"learning_rate": 0.0002798453333333333,
"loss": 0.0156,
"step": 3780
},
{
"epoch": 0.6737777777777778,
"grad_norm": 0.06530987471342087,
"learning_rate": 0.000279792,
"loss": 0.0261,
"step": 3790
},
{
"epoch": 0.6755555555555556,
"grad_norm": 0.044641200453042984,
"learning_rate": 0.0002797386666666666,
"loss": 0.0312,
"step": 3800
},
{
"epoch": 0.6773333333333333,
"grad_norm": 0.11770203709602356,
"learning_rate": 0.0002796853333333333,
"loss": 0.0193,
"step": 3810
},
{
"epoch": 0.6791111111111111,
"grad_norm": 0.06111403554677963,
"learning_rate": 0.000279632,
"loss": 0.0242,
"step": 3820
},
{
"epoch": 0.6808888888888889,
"grad_norm": 0.05925939977169037,
"learning_rate": 0.00027957866666666664,
"loss": 0.0257,
"step": 3830
},
{
"epoch": 0.6826666666666666,
"grad_norm": 0.08108479529619217,
"learning_rate": 0.0002795253333333333,
"loss": 0.0424,
"step": 3840
},
{
"epoch": 0.6844444444444444,
"grad_norm": 0.05645951256155968,
"learning_rate": 0.000279472,
"loss": 0.0248,
"step": 3850
},
{
"epoch": 0.6862222222222222,
"grad_norm": 0.08995641767978668,
"learning_rate": 0.0002794186666666666,
"loss": 0.0215,
"step": 3860
},
{
"epoch": 0.688,
"grad_norm": 0.0512068085372448,
"learning_rate": 0.0002793653333333333,
"loss": 0.0288,
"step": 3870
},
{
"epoch": 0.6897777777777778,
"grad_norm": 0.12146838754415512,
"learning_rate": 0.000279312,
"loss": 0.0243,
"step": 3880
},
{
"epoch": 0.6915555555555556,
"grad_norm": 0.04428360238671303,
"learning_rate": 0.00027925866666666664,
"loss": 0.0163,
"step": 3890
},
{
"epoch": 0.6933333333333334,
"grad_norm": 0.0743410661816597,
"learning_rate": 0.0002792053333333333,
"loss": 0.026,
"step": 3900
},
{
"epoch": 0.6951111111111111,
"grad_norm": 0.12399561703205109,
"learning_rate": 0.000279152,
"loss": 0.024,
"step": 3910
},
{
"epoch": 0.6968888888888889,
"grad_norm": 0.06302154064178467,
"learning_rate": 0.0002790986666666666,
"loss": 0.0226,
"step": 3920
},
{
"epoch": 0.6986666666666667,
"grad_norm": 0.21663370728492737,
"learning_rate": 0.00027904533333333333,
"loss": 0.0275,
"step": 3930
},
{
"epoch": 0.7004444444444444,
"grad_norm": 0.06273024529218674,
"learning_rate": 0.000278992,
"loss": 0.0176,
"step": 3940
},
{
"epoch": 0.7022222222222222,
"grad_norm": 0.08824668824672699,
"learning_rate": 0.00027893866666666665,
"loss": 0.0306,
"step": 3950
},
{
"epoch": 0.704,
"grad_norm": 0.09272222965955734,
"learning_rate": 0.0002788853333333333,
"loss": 0.0215,
"step": 3960
},
{
"epoch": 0.7057777777777777,
"grad_norm": 0.08313607424497604,
"learning_rate": 0.00027883199999999996,
"loss": 0.0342,
"step": 3970
},
{
"epoch": 0.7075555555555556,
"grad_norm": 0.10409655421972275,
"learning_rate": 0.0002787786666666666,
"loss": 0.0225,
"step": 3980
},
{
"epoch": 0.7093333333333334,
"grad_norm": 0.07407916337251663,
"learning_rate": 0.00027872533333333333,
"loss": 0.028,
"step": 3990
},
{
"epoch": 0.7111111111111111,
"grad_norm": 0.10124842822551727,
"learning_rate": 0.000278672,
"loss": 0.0265,
"step": 4000
},
{
"epoch": 0.7111111111111111,
"eval_accuracy": 0.7807,
"eval_f1": 0.9520720583561755,
"eval_loss": 0.024143511429429054,
"eval_precision": 0.9509243568565938,
"eval_recall": 0.954729496161733,
"eval_runtime": 653.5539,
"eval_samples_per_second": 15.301,
"eval_steps_per_second": 1.913,
"step": 4000
},
{
"epoch": 0.7128888888888889,
"grad_norm": 0.24815025925636292,
"learning_rate": 0.00027861866666666665,
"loss": 0.0284,
"step": 4010
},
{
"epoch": 0.7146666666666667,
"grad_norm": 0.05122653767466545,
"learning_rate": 0.0002785653333333333,
"loss": 0.0235,
"step": 4020
},
{
"epoch": 0.7164444444444444,
"grad_norm": 0.10150625556707382,
"learning_rate": 0.00027851199999999997,
"loss": 0.0254,
"step": 4030
},
{
"epoch": 0.7182222222222222,
"grad_norm": 0.06908834725618362,
"learning_rate": 0.0002784586666666666,
"loss": 0.0236,
"step": 4040
},
{
"epoch": 0.72,
"grad_norm": 0.04954081028699875,
"learning_rate": 0.00027840533333333334,
"loss": 0.0274,
"step": 4050
},
{
"epoch": 0.7217777777777777,
"grad_norm": 0.05035025253891945,
"learning_rate": 0.000278352,
"loss": 0.0225,
"step": 4060
},
{
"epoch": 0.7235555555555555,
"grad_norm": 0.11174604296684265,
"learning_rate": 0.00027829866666666665,
"loss": 0.0311,
"step": 4070
},
{
"epoch": 0.7253333333333334,
"grad_norm": 0.09249529987573624,
"learning_rate": 0.0002782453333333333,
"loss": 0.0208,
"step": 4080
},
{
"epoch": 0.7271111111111112,
"grad_norm": 0.06818148493766785,
"learning_rate": 0.00027819199999999997,
"loss": 0.0265,
"step": 4090
},
{
"epoch": 0.7288888888888889,
"grad_norm": 0.15703712403774261,
"learning_rate": 0.0002781386666666666,
"loss": 0.0268,
"step": 4100
},
{
"epoch": 0.7306666666666667,
"grad_norm": 0.1412905901670456,
"learning_rate": 0.0002780853333333333,
"loss": 0.0274,
"step": 4110
},
{
"epoch": 0.7324444444444445,
"grad_norm": 0.10994693636894226,
"learning_rate": 0.000278032,
"loss": 0.0299,
"step": 4120
},
{
"epoch": 0.7342222222222222,
"grad_norm": 0.05300424247980118,
"learning_rate": 0.0002779786666666666,
"loss": 0.0239,
"step": 4130
},
{
"epoch": 0.736,
"grad_norm": 0.04120921716094017,
"learning_rate": 0.0002779253333333333,
"loss": 0.0184,
"step": 4140
},
{
"epoch": 0.7377777777777778,
"grad_norm": 0.20823882520198822,
"learning_rate": 0.00027787199999999997,
"loss": 0.0252,
"step": 4150
},
{
"epoch": 0.7395555555555555,
"grad_norm": 0.09810299426317215,
"learning_rate": 0.00027781866666666663,
"loss": 0.0227,
"step": 4160
},
{
"epoch": 0.7413333333333333,
"grad_norm": 0.08327528834342957,
"learning_rate": 0.0002777653333333333,
"loss": 0.0216,
"step": 4170
},
{
"epoch": 0.7431111111111111,
"grad_norm": 0.039426740258932114,
"learning_rate": 0.000277712,
"loss": 0.0234,
"step": 4180
},
{
"epoch": 0.7448888888888889,
"grad_norm": 0.06340809911489487,
"learning_rate": 0.0002776586666666666,
"loss": 0.0241,
"step": 4190
},
{
"epoch": 0.7466666666666667,
"grad_norm": 0.08526232838630676,
"learning_rate": 0.0002776053333333333,
"loss": 0.027,
"step": 4200
},
{
"epoch": 0.7484444444444445,
"grad_norm": 0.044167906045913696,
"learning_rate": 0.000277552,
"loss": 0.0247,
"step": 4210
},
{
"epoch": 0.7502222222222222,
"grad_norm": 0.08132551610469818,
"learning_rate": 0.00027749866666666663,
"loss": 0.0225,
"step": 4220
},
{
"epoch": 0.752,
"grad_norm": 0.2031109631061554,
"learning_rate": 0.0002774453333333333,
"loss": 0.0147,
"step": 4230
},
{
"epoch": 0.7537777777777778,
"grad_norm": 0.07283439487218857,
"learning_rate": 0.000277392,
"loss": 0.0209,
"step": 4240
},
{
"epoch": 0.7555555555555555,
"grad_norm": 0.06650519371032715,
"learning_rate": 0.0002773386666666666,
"loss": 0.0274,
"step": 4250
},
{
"epoch": 0.7573333333333333,
"grad_norm": 0.1117628887295723,
"learning_rate": 0.0002772853333333333,
"loss": 0.0233,
"step": 4260
},
{
"epoch": 0.7591111111111111,
"grad_norm": 0.1228516548871994,
"learning_rate": 0.000277232,
"loss": 0.024,
"step": 4270
},
{
"epoch": 0.7608888888888888,
"grad_norm": 0.2279478758573532,
"learning_rate": 0.00027717866666666664,
"loss": 0.0238,
"step": 4280
},
{
"epoch": 0.7626666666666667,
"grad_norm": 0.06056941673159599,
"learning_rate": 0.0002771253333333333,
"loss": 0.0193,
"step": 4290
},
{
"epoch": 0.7644444444444445,
"grad_norm": 0.0885508731007576,
"learning_rate": 0.000277072,
"loss": 0.0319,
"step": 4300
},
{
"epoch": 0.7662222222222222,
"grad_norm": 0.07146623730659485,
"learning_rate": 0.0002770186666666666,
"loss": 0.015,
"step": 4310
},
{
"epoch": 0.768,
"grad_norm": 0.03771064803004265,
"learning_rate": 0.0002769653333333333,
"loss": 0.016,
"step": 4320
},
{
"epoch": 0.7697777777777778,
"grad_norm": 0.055286455899477005,
"learning_rate": 0.000276912,
"loss": 0.0204,
"step": 4330
},
{
"epoch": 0.7715555555555556,
"grad_norm": 0.035712361335754395,
"learning_rate": 0.00027685866666666664,
"loss": 0.0208,
"step": 4340
},
{
"epoch": 0.7733333333333333,
"grad_norm": 0.0691710114479065,
"learning_rate": 0.0002768053333333333,
"loss": 0.0263,
"step": 4350
},
{
"epoch": 0.7751111111111111,
"grad_norm": 0.05109955370426178,
"learning_rate": 0.000276752,
"loss": 0.0237,
"step": 4360
},
{
"epoch": 0.7768888888888889,
"grad_norm": 0.11392170935869217,
"learning_rate": 0.0002766986666666666,
"loss": 0.037,
"step": 4370
},
{
"epoch": 0.7786666666666666,
"grad_norm": 0.03930488973855972,
"learning_rate": 0.0002766453333333333,
"loss": 0.0224,
"step": 4380
},
{
"epoch": 0.7804444444444445,
"grad_norm": 0.1951311230659485,
"learning_rate": 0.000276592,
"loss": 0.0239,
"step": 4390
},
{
"epoch": 0.7822222222222223,
"grad_norm": 0.1288134753704071,
"learning_rate": 0.00027653866666666664,
"loss": 0.0294,
"step": 4400
},
{
"epoch": 0.784,
"grad_norm": 0.0636647418141365,
"learning_rate": 0.0002764853333333333,
"loss": 0.0159,
"step": 4410
},
{
"epoch": 0.7857777777777778,
"grad_norm": 0.04233495146036148,
"learning_rate": 0.000276432,
"loss": 0.0191,
"step": 4420
},
{
"epoch": 0.7875555555555556,
"grad_norm": 0.16061605513095856,
"learning_rate": 0.0002763786666666666,
"loss": 0.0276,
"step": 4430
},
{
"epoch": 0.7893333333333333,
"grad_norm": 0.2412431836128235,
"learning_rate": 0.00027632533333333333,
"loss": 0.019,
"step": 4440
},
{
"epoch": 0.7911111111111111,
"grad_norm": 0.11416659504175186,
"learning_rate": 0.000276272,
"loss": 0.0283,
"step": 4450
},
{
"epoch": 0.7928888888888889,
"grad_norm": 0.03350535407662392,
"learning_rate": 0.00027621866666666664,
"loss": 0.0243,
"step": 4460
},
{
"epoch": 0.7946666666666666,
"grad_norm": 0.0885830745100975,
"learning_rate": 0.0002761653333333333,
"loss": 0.02,
"step": 4470
},
{
"epoch": 0.7964444444444444,
"grad_norm": 0.062161337584257126,
"learning_rate": 0.000276112,
"loss": 0.0207,
"step": 4480
},
{
"epoch": 0.7982222222222223,
"grad_norm": 0.16883093118667603,
"learning_rate": 0.0002760586666666666,
"loss": 0.0287,
"step": 4490
},
{
"epoch": 0.8,
"grad_norm": 0.05297341197729111,
"learning_rate": 0.00027600533333333333,
"loss": 0.0272,
"step": 4500
},
{
"epoch": 0.8017777777777778,
"grad_norm": 0.0917816013097763,
"learning_rate": 0.000275952,
"loss": 0.0357,
"step": 4510
},
{
"epoch": 0.8035555555555556,
"grad_norm": 0.14493350684642792,
"learning_rate": 0.00027589866666666665,
"loss": 0.023,
"step": 4520
},
{
"epoch": 0.8053333333333333,
"grad_norm": 0.09328983724117279,
"learning_rate": 0.0002758453333333333,
"loss": 0.028,
"step": 4530
},
{
"epoch": 0.8071111111111111,
"grad_norm": 0.05816565826535225,
"learning_rate": 0.00027579199999999996,
"loss": 0.0205,
"step": 4540
},
{
"epoch": 0.8088888888888889,
"grad_norm": 0.06090319901704788,
"learning_rate": 0.0002757386666666666,
"loss": 0.022,
"step": 4550
},
{
"epoch": 0.8106666666666666,
"grad_norm": 0.05104518681764603,
"learning_rate": 0.00027568533333333333,
"loss": 0.0266,
"step": 4560
},
{
"epoch": 0.8124444444444444,
"grad_norm": 0.053427401930093765,
"learning_rate": 0.000275632,
"loss": 0.0301,
"step": 4570
},
{
"epoch": 0.8142222222222222,
"grad_norm": 0.06332672387361526,
"learning_rate": 0.00027557866666666665,
"loss": 0.021,
"step": 4580
},
{
"epoch": 0.816,
"grad_norm": 0.11252682656049728,
"learning_rate": 0.0002755253333333333,
"loss": 0.0185,
"step": 4590
},
{
"epoch": 0.8177777777777778,
"grad_norm": 0.05031600967049599,
"learning_rate": 0.00027547199999999997,
"loss": 0.028,
"step": 4600
},
{
"epoch": 0.8195555555555556,
"grad_norm": 0.10952623188495636,
"learning_rate": 0.0002754186666666666,
"loss": 0.0315,
"step": 4610
},
{
"epoch": 0.8213333333333334,
"grad_norm": 0.06622734665870667,
"learning_rate": 0.0002753653333333333,
"loss": 0.0277,
"step": 4620
},
{
"epoch": 0.8231111111111111,
"grad_norm": 0.09400101751089096,
"learning_rate": 0.000275312,
"loss": 0.0307,
"step": 4630
},
{
"epoch": 0.8248888888888889,
"grad_norm": 0.11097563058137894,
"learning_rate": 0.00027525866666666665,
"loss": 0.0359,
"step": 4640
},
{
"epoch": 0.8266666666666667,
"grad_norm": 0.032760389149188995,
"learning_rate": 0.0002752053333333333,
"loss": 0.0308,
"step": 4650
},
{
"epoch": 0.8284444444444444,
"grad_norm": 0.1319246143102646,
"learning_rate": 0.00027515199999999997,
"loss": 0.0198,
"step": 4660
},
{
"epoch": 0.8302222222222222,
"grad_norm": 0.053603872656822205,
"learning_rate": 0.00027509866666666663,
"loss": 0.023,
"step": 4670
},
{
"epoch": 0.832,
"grad_norm": 0.09825598448514938,
"learning_rate": 0.0002750453333333333,
"loss": 0.0257,
"step": 4680
},
{
"epoch": 0.8337777777777777,
"grad_norm": 0.03865765780210495,
"learning_rate": 0.000274992,
"loss": 0.0156,
"step": 4690
},
{
"epoch": 0.8355555555555556,
"grad_norm": 0.04348286986351013,
"learning_rate": 0.0002749386666666666,
"loss": 0.0242,
"step": 4700
},
{
"epoch": 0.8373333333333334,
"grad_norm": 0.04887940734624863,
"learning_rate": 0.0002748853333333333,
"loss": 0.0258,
"step": 4710
},
{
"epoch": 0.8391111111111111,
"grad_norm": 0.09802955389022827,
"learning_rate": 0.000274832,
"loss": 0.0228,
"step": 4720
},
{
"epoch": 0.8408888888888889,
"grad_norm": 0.04323141649365425,
"learning_rate": 0.00027477866666666663,
"loss": 0.0183,
"step": 4730
},
{
"epoch": 0.8426666666666667,
"grad_norm": 0.15568454563617706,
"learning_rate": 0.0002747253333333333,
"loss": 0.0263,
"step": 4740
},
{
"epoch": 0.8444444444444444,
"grad_norm": 0.09386380016803741,
"learning_rate": 0.000274672,
"loss": 0.0248,
"step": 4750
},
{
"epoch": 0.8462222222222222,
"grad_norm": 0.07869990915060043,
"learning_rate": 0.0002746186666666666,
"loss": 0.0276,
"step": 4760
},
{
"epoch": 0.848,
"grad_norm": 0.08227825909852982,
"learning_rate": 0.0002745653333333333,
"loss": 0.0259,
"step": 4770
},
{
"epoch": 0.8497777777777777,
"grad_norm": 0.1594904512166977,
"learning_rate": 0.000274512,
"loss": 0.023,
"step": 4780
},
{
"epoch": 0.8515555555555555,
"grad_norm": 0.08040431141853333,
"learning_rate": 0.00027445866666666663,
"loss": 0.0285,
"step": 4790
},
{
"epoch": 0.8533333333333334,
"grad_norm": 0.09920360893011093,
"learning_rate": 0.0002744053333333333,
"loss": 0.0263,
"step": 4800
},
{
"epoch": 0.8551111111111112,
"grad_norm": 0.10600800812244415,
"learning_rate": 0.000274352,
"loss": 0.0263,
"step": 4810
},
{
"epoch": 0.8568888888888889,
"grad_norm": 0.046839192509651184,
"learning_rate": 0.0002742986666666666,
"loss": 0.0288,
"step": 4820
},
{
"epoch": 0.8586666666666667,
"grad_norm": 0.050161466002464294,
"learning_rate": 0.0002742453333333333,
"loss": 0.022,
"step": 4830
},
{
"epoch": 0.8604444444444445,
"grad_norm": 0.03671692684292793,
"learning_rate": 0.000274192,
"loss": 0.0143,
"step": 4840
},
{
"epoch": 0.8622222222222222,
"grad_norm": 0.04957146570086479,
"learning_rate": 0.00027413866666666664,
"loss": 0.0292,
"step": 4850
},
{
"epoch": 0.864,
"grad_norm": 0.055758293718099594,
"learning_rate": 0.0002740853333333333,
"loss": 0.0274,
"step": 4860
},
{
"epoch": 0.8657777777777778,
"grad_norm": 0.07606534659862518,
"learning_rate": 0.000274032,
"loss": 0.0278,
"step": 4870
},
{
"epoch": 0.8675555555555555,
"grad_norm": 0.04726061224937439,
"learning_rate": 0.0002739786666666666,
"loss": 0.0129,
"step": 4880
},
{
"epoch": 0.8693333333333333,
"grad_norm": 0.08245188742876053,
"learning_rate": 0.0002739253333333333,
"loss": 0.0305,
"step": 4890
},
{
"epoch": 0.8711111111111111,
"grad_norm": 0.18735721707344055,
"learning_rate": 0.000273872,
"loss": 0.024,
"step": 4900
},
{
"epoch": 0.8728888888888889,
"grad_norm": 0.05333717539906502,
"learning_rate": 0.00027381866666666664,
"loss": 0.0202,
"step": 4910
},
{
"epoch": 0.8746666666666667,
"grad_norm": 0.10776514559984207,
"learning_rate": 0.0002737653333333333,
"loss": 0.0214,
"step": 4920
},
{
"epoch": 0.8764444444444445,
"grad_norm": 0.06848230212926865,
"learning_rate": 0.000273712,
"loss": 0.029,
"step": 4930
},
{
"epoch": 0.8782222222222222,
"grad_norm": 0.05506756529211998,
"learning_rate": 0.0002736586666666666,
"loss": 0.0353,
"step": 4940
},
{
"epoch": 0.88,
"grad_norm": 0.08956385403871536,
"learning_rate": 0.00027360533333333333,
"loss": 0.0226,
"step": 4950
},
{
"epoch": 0.8817777777777778,
"grad_norm": 0.05630868300795555,
"learning_rate": 0.000273552,
"loss": 0.0252,
"step": 4960
},
{
"epoch": 0.8835555555555555,
"grad_norm": 0.10978707671165466,
"learning_rate": 0.00027349866666666664,
"loss": 0.0216,
"step": 4970
},
{
"epoch": 0.8853333333333333,
"grad_norm": 0.07564612478017807,
"learning_rate": 0.0002734453333333333,
"loss": 0.0226,
"step": 4980
},
{
"epoch": 0.8871111111111111,
"grad_norm": 0.04177866503596306,
"learning_rate": 0.000273392,
"loss": 0.0164,
"step": 4990
},
{
"epoch": 0.8888888888888888,
"grad_norm": 0.0588146410882473,
"learning_rate": 0.0002733386666666666,
"loss": 0.0218,
"step": 5000
},
{
"epoch": 0.8888888888888888,
"eval_accuracy": 0.7805,
"eval_f1": 0.9489121749806473,
"eval_loss": 0.022677874192595482,
"eval_precision": 0.9481304534354534,
"eval_recall": 0.9511378704774758,
"eval_runtime": 650.1813,
"eval_samples_per_second": 15.38,
"eval_steps_per_second": 1.923,
"step": 5000
},
{
"epoch": 0.8906666666666667,
"grad_norm": 0.0680263340473175,
"learning_rate": 0.00027328533333333333,
"loss": 0.022,
"step": 5010
},
{
"epoch": 0.8924444444444445,
"grad_norm": 0.17622599005699158,
"learning_rate": 0.000273232,
"loss": 0.0283,
"step": 5020
},
{
"epoch": 0.8942222222222223,
"grad_norm": 0.0849849283695221,
"learning_rate": 0.00027317866666666665,
"loss": 0.0375,
"step": 5030
},
{
"epoch": 0.896,
"grad_norm": 0.06796667724847794,
"learning_rate": 0.0002731253333333333,
"loss": 0.0268,
"step": 5040
},
{
"epoch": 0.8977777777777778,
"grad_norm": 0.140039324760437,
"learning_rate": 0.000273072,
"loss": 0.018,
"step": 5050
},
{
"epoch": 0.8995555555555556,
"grad_norm": 0.08042261749505997,
"learning_rate": 0.0002730186666666666,
"loss": 0.0201,
"step": 5060
},
{
"epoch": 0.9013333333333333,
"grad_norm": 0.08478634059429169,
"learning_rate": 0.00027296533333333333,
"loss": 0.0274,
"step": 5070
},
{
"epoch": 0.9031111111111111,
"grad_norm": 0.06009805202484131,
"learning_rate": 0.000272912,
"loss": 0.0242,
"step": 5080
},
{
"epoch": 0.9048888888888889,
"grad_norm": 0.04202135652303696,
"learning_rate": 0.00027285866666666665,
"loss": 0.0147,
"step": 5090
},
{
"epoch": 0.9066666666666666,
"grad_norm": 0.07510834187269211,
"learning_rate": 0.0002728053333333333,
"loss": 0.0206,
"step": 5100
},
{
"epoch": 0.9084444444444445,
"grad_norm": 0.08231019228696823,
"learning_rate": 0.00027275199999999997,
"loss": 0.0191,
"step": 5110
},
{
"epoch": 0.9102222222222223,
"grad_norm": 0.11279986798763275,
"learning_rate": 0.0002726986666666666,
"loss": 0.0218,
"step": 5120
},
{
"epoch": 0.912,
"grad_norm": 0.04988230764865875,
"learning_rate": 0.0002726453333333333,
"loss": 0.0196,
"step": 5130
},
{
"epoch": 0.9137777777777778,
"grad_norm": 0.05115022882819176,
"learning_rate": 0.000272592,
"loss": 0.0203,
"step": 5140
},
{
"epoch": 0.9155555555555556,
"grad_norm": 0.13574576377868652,
"learning_rate": 0.00027253866666666665,
"loss": 0.0251,
"step": 5150
},
{
"epoch": 0.9173333333333333,
"grad_norm": 0.05182376131415367,
"learning_rate": 0.0002724853333333333,
"loss": 0.0201,
"step": 5160
},
{
"epoch": 0.9191111111111111,
"grad_norm": 0.10832846164703369,
"learning_rate": 0.00027243199999999997,
"loss": 0.0249,
"step": 5170
},
{
"epoch": 0.9208888888888889,
"grad_norm": 0.051869019865989685,
"learning_rate": 0.00027237866666666663,
"loss": 0.0308,
"step": 5180
},
{
"epoch": 0.9226666666666666,
"grad_norm": 0.10531347990036011,
"learning_rate": 0.0002723253333333333,
"loss": 0.0202,
"step": 5190
},
{
"epoch": 0.9244444444444444,
"grad_norm": 0.06323233991861343,
"learning_rate": 0.000272272,
"loss": 0.0201,
"step": 5200
},
{
"epoch": 0.9262222222222222,
"grad_norm": 0.06002742797136307,
"learning_rate": 0.00027221866666666666,
"loss": 0.0223,
"step": 5210
},
{
"epoch": 0.928,
"grad_norm": 0.06098544970154762,
"learning_rate": 0.0002721653333333333,
"loss": 0.0244,
"step": 5220
},
{
"epoch": 0.9297777777777778,
"grad_norm": 0.06522677093744278,
"learning_rate": 0.00027211199999999997,
"loss": 0.0216,
"step": 5230
},
{
"epoch": 0.9315555555555556,
"grad_norm": 0.06100668013095856,
"learning_rate": 0.00027205866666666663,
"loss": 0.0318,
"step": 5240
},
{
"epoch": 0.9333333333333333,
"grad_norm": 0.06935697793960571,
"learning_rate": 0.0002720053333333333,
"loss": 0.0225,
"step": 5250
},
{
"epoch": 0.9351111111111111,
"grad_norm": 0.05445867404341698,
"learning_rate": 0.000271952,
"loss": 0.0168,
"step": 5260
},
{
"epoch": 0.9368888888888889,
"grad_norm": 0.08664330095052719,
"learning_rate": 0.0002718986666666666,
"loss": 0.0232,
"step": 5270
},
{
"epoch": 0.9386666666666666,
"grad_norm": 0.072798952460289,
"learning_rate": 0.0002718453333333333,
"loss": 0.024,
"step": 5280
},
{
"epoch": 0.9404444444444444,
"grad_norm": 0.08220954239368439,
"learning_rate": 0.000271792,
"loss": 0.024,
"step": 5290
},
{
"epoch": 0.9422222222222222,
"grad_norm": 0.030204858630895615,
"learning_rate": 0.00027173866666666663,
"loss": 0.0259,
"step": 5300
},
{
"epoch": 0.944,
"grad_norm": 0.03738045692443848,
"learning_rate": 0.0002716853333333333,
"loss": 0.0271,
"step": 5310
},
{
"epoch": 0.9457777777777778,
"grad_norm": 0.08690766245126724,
"learning_rate": 0.000271632,
"loss": 0.0237,
"step": 5320
},
{
"epoch": 0.9475555555555556,
"grad_norm": 0.1310735046863556,
"learning_rate": 0.0002715786666666666,
"loss": 0.0345,
"step": 5330
},
{
"epoch": 0.9493333333333334,
"grad_norm": 0.10899726301431656,
"learning_rate": 0.0002715253333333333,
"loss": 0.0309,
"step": 5340
},
{
"epoch": 0.9511111111111111,
"grad_norm": 0.1176820620894432,
"learning_rate": 0.000271472,
"loss": 0.029,
"step": 5350
},
{
"epoch": 0.9528888888888889,
"grad_norm": 0.08592703938484192,
"learning_rate": 0.00027141866666666664,
"loss": 0.0252,
"step": 5360
},
{
"epoch": 0.9546666666666667,
"grad_norm": 0.1073814332485199,
"learning_rate": 0.0002713653333333333,
"loss": 0.0237,
"step": 5370
},
{
"epoch": 0.9564444444444444,
"grad_norm": 0.06471919268369675,
"learning_rate": 0.000271312,
"loss": 0.0235,
"step": 5380
},
{
"epoch": 0.9582222222222222,
"grad_norm": 0.09008841961622238,
"learning_rate": 0.0002712586666666666,
"loss": 0.0224,
"step": 5390
},
{
"epoch": 0.96,
"grad_norm": 0.10253197699785233,
"learning_rate": 0.0002712053333333333,
"loss": 0.0268,
"step": 5400
},
{
"epoch": 0.9617777777777777,
"grad_norm": 0.10255160927772522,
"learning_rate": 0.000271152,
"loss": 0.0243,
"step": 5410
},
{
"epoch": 0.9635555555555556,
"grad_norm": 0.08443213999271393,
"learning_rate": 0.00027109866666666664,
"loss": 0.0274,
"step": 5420
},
{
"epoch": 0.9653333333333334,
"grad_norm": 0.07566241919994354,
"learning_rate": 0.0002710453333333333,
"loss": 0.0206,
"step": 5430
},
{
"epoch": 0.9671111111111111,
"grad_norm": 0.09296461194753647,
"learning_rate": 0.000270992,
"loss": 0.027,
"step": 5440
},
{
"epoch": 0.9688888888888889,
"grad_norm": 0.07470197230577469,
"learning_rate": 0.0002709386666666666,
"loss": 0.0279,
"step": 5450
},
{
"epoch": 0.9706666666666667,
"grad_norm": 0.05518031492829323,
"learning_rate": 0.0002708853333333333,
"loss": 0.024,
"step": 5460
},
{
"epoch": 0.9724444444444444,
"grad_norm": 0.06700322777032852,
"learning_rate": 0.000270832,
"loss": 0.0239,
"step": 5470
},
{
"epoch": 0.9742222222222222,
"grad_norm": 0.043132733553647995,
"learning_rate": 0.00027077866666666664,
"loss": 0.015,
"step": 5480
},
{
"epoch": 0.976,
"grad_norm": 0.03849382698535919,
"learning_rate": 0.0002707253333333333,
"loss": 0.0314,
"step": 5490
},
{
"epoch": 0.9777777777777777,
"grad_norm": 0.14933045208454132,
"learning_rate": 0.000270672,
"loss": 0.0249,
"step": 5500
},
{
"epoch": 0.9795555555555555,
"grad_norm": 0.12208105623722076,
"learning_rate": 0.0002706186666666666,
"loss": 0.0216,
"step": 5510
},
{
"epoch": 0.9813333333333333,
"grad_norm": 0.048986442387104034,
"learning_rate": 0.00027056533333333333,
"loss": 0.0275,
"step": 5520
},
{
"epoch": 0.9831111111111112,
"grad_norm": 0.08445523679256439,
"learning_rate": 0.000270512,
"loss": 0.0217,
"step": 5530
},
{
"epoch": 0.9848888888888889,
"grad_norm": 0.21780821681022644,
"learning_rate": 0.00027045866666666665,
"loss": 0.0296,
"step": 5540
},
{
"epoch": 0.9866666666666667,
"grad_norm": 0.06558253616094589,
"learning_rate": 0.0002704053333333333,
"loss": 0.0258,
"step": 5550
},
{
"epoch": 0.9884444444444445,
"grad_norm": 0.044081203639507294,
"learning_rate": 0.000270352,
"loss": 0.031,
"step": 5560
},
{
"epoch": 0.9902222222222222,
"grad_norm": 0.055624719709157944,
"learning_rate": 0.0002702986666666666,
"loss": 0.0247,
"step": 5570
},
{
"epoch": 0.992,
"grad_norm": 0.1662399172782898,
"learning_rate": 0.00027024533333333333,
"loss": 0.0251,
"step": 5580
},
{
"epoch": 0.9937777777777778,
"grad_norm": 0.0771157369017601,
"learning_rate": 0.000270192,
"loss": 0.0207,
"step": 5590
},
{
"epoch": 0.9955555555555555,
"grad_norm": 0.1563335508108139,
"learning_rate": 0.00027013866666666665,
"loss": 0.0201,
"step": 5600
},
{
"epoch": 0.9973333333333333,
"grad_norm": 0.09246068447828293,
"learning_rate": 0.0002700853333333333,
"loss": 0.0184,
"step": 5610
},
{
"epoch": 0.9991111111111111,
"grad_norm": 0.0873664990067482,
"learning_rate": 0.000270032,
"loss": 0.0155,
"step": 5620
},
{
"epoch": 1.000888888888889,
"grad_norm": 0.09236636012792587,
"learning_rate": 0.0002699786666666666,
"loss": 0.0284,
"step": 5630
},
{
"epoch": 1.0026666666666666,
"grad_norm": 0.08516989648342133,
"learning_rate": 0.0002699253333333333,
"loss": 0.0193,
"step": 5640
},
{
"epoch": 1.0044444444444445,
"grad_norm": 0.10584837198257446,
"learning_rate": 0.000269872,
"loss": 0.019,
"step": 5650
},
{
"epoch": 1.0062222222222221,
"grad_norm": 0.08721577376127243,
"learning_rate": 0.00026981866666666665,
"loss": 0.0155,
"step": 5660
},
{
"epoch": 1.008,
"grad_norm": 0.1088644489645958,
"learning_rate": 0.0002697653333333333,
"loss": 0.0391,
"step": 5670
},
{
"epoch": 1.0097777777777779,
"grad_norm": 0.09955207258462906,
"learning_rate": 0.00026971199999999997,
"loss": 0.0307,
"step": 5680
},
{
"epoch": 1.0115555555555555,
"grad_norm": 0.06394711136817932,
"learning_rate": 0.0002696586666666666,
"loss": 0.0117,
"step": 5690
},
{
"epoch": 1.0133333333333334,
"grad_norm": 0.07576421648263931,
"learning_rate": 0.0002696053333333333,
"loss": 0.0218,
"step": 5700
},
{
"epoch": 1.015111111111111,
"grad_norm": 0.05984245240688324,
"learning_rate": 0.000269552,
"loss": 0.0188,
"step": 5710
},
{
"epoch": 1.016888888888889,
"grad_norm": 0.13615387678146362,
"learning_rate": 0.00026949866666666666,
"loss": 0.0196,
"step": 5720
},
{
"epoch": 1.0186666666666666,
"grad_norm": 0.11591221392154694,
"learning_rate": 0.0002694453333333333,
"loss": 0.0211,
"step": 5730
},
{
"epoch": 1.0204444444444445,
"grad_norm": 0.03672238439321518,
"learning_rate": 0.00026939199999999997,
"loss": 0.0163,
"step": 5740
},
{
"epoch": 1.0222222222222221,
"grad_norm": 0.07665427774190903,
"learning_rate": 0.00026933866666666663,
"loss": 0.0235,
"step": 5750
},
{
"epoch": 1.024,
"grad_norm": 0.08643534779548645,
"learning_rate": 0.0002692853333333333,
"loss": 0.0196,
"step": 5760
},
{
"epoch": 1.0257777777777777,
"grad_norm": 0.04845563322305679,
"learning_rate": 0.000269232,
"loss": 0.0222,
"step": 5770
},
{
"epoch": 1.0275555555555556,
"grad_norm": 0.05832474306225777,
"learning_rate": 0.00026917866666666666,
"loss": 0.0151,
"step": 5780
},
{
"epoch": 1.0293333333333334,
"grad_norm": 0.08152145892381668,
"learning_rate": 0.0002691253333333333,
"loss": 0.023,
"step": 5790
},
{
"epoch": 1.031111111111111,
"grad_norm": 0.07723015546798706,
"learning_rate": 0.000269072,
"loss": 0.0194,
"step": 5800
},
{
"epoch": 1.032888888888889,
"grad_norm": 0.08425486832857132,
"learning_rate": 0.00026901866666666663,
"loss": 0.0209,
"step": 5810
},
{
"epoch": 1.0346666666666666,
"grad_norm": 0.16199788451194763,
"learning_rate": 0.0002689653333333333,
"loss": 0.0184,
"step": 5820
},
{
"epoch": 1.0364444444444445,
"grad_norm": 0.0392846055328846,
"learning_rate": 0.000268912,
"loss": 0.0214,
"step": 5830
},
{
"epoch": 1.0382222222222222,
"grad_norm": 0.0637868121266365,
"learning_rate": 0.0002688586666666666,
"loss": 0.0206,
"step": 5840
},
{
"epoch": 1.04,
"grad_norm": 0.12309300899505615,
"learning_rate": 0.0002688053333333333,
"loss": 0.0194,
"step": 5850
},
{
"epoch": 1.0417777777777777,
"grad_norm": 0.05401608720421791,
"learning_rate": 0.000268752,
"loss": 0.0237,
"step": 5860
},
{
"epoch": 1.0435555555555556,
"grad_norm": 0.06477317214012146,
"learning_rate": 0.00026869866666666664,
"loss": 0.0162,
"step": 5870
},
{
"epoch": 1.0453333333333332,
"grad_norm": 0.08347102254629135,
"learning_rate": 0.0002686453333333333,
"loss": 0.021,
"step": 5880
},
{
"epoch": 1.047111111111111,
"grad_norm": 0.07340535521507263,
"learning_rate": 0.000268592,
"loss": 0.0237,
"step": 5890
},
{
"epoch": 1.048888888888889,
"grad_norm": 0.03568523749709129,
"learning_rate": 0.0002685386666666666,
"loss": 0.0164,
"step": 5900
},
{
"epoch": 1.0506666666666666,
"grad_norm": 0.08179934322834015,
"learning_rate": 0.0002684853333333333,
"loss": 0.0185,
"step": 5910
},
{
"epoch": 1.0524444444444445,
"grad_norm": 0.07522140443325043,
"learning_rate": 0.000268432,
"loss": 0.0292,
"step": 5920
},
{
"epoch": 1.0542222222222222,
"grad_norm": 0.12679794430732727,
"learning_rate": 0.00026837866666666664,
"loss": 0.0222,
"step": 5930
},
{
"epoch": 1.056,
"grad_norm": 0.0890289843082428,
"learning_rate": 0.0002683253333333333,
"loss": 0.0226,
"step": 5940
},
{
"epoch": 1.0577777777777777,
"grad_norm": 0.05332579463720322,
"learning_rate": 0.000268272,
"loss": 0.0198,
"step": 5950
},
{
"epoch": 1.0595555555555556,
"grad_norm": 0.04473736509680748,
"learning_rate": 0.0002682186666666666,
"loss": 0.019,
"step": 5960
},
{
"epoch": 1.0613333333333332,
"grad_norm": 0.13032497465610504,
"learning_rate": 0.0002681653333333333,
"loss": 0.0239,
"step": 5970
},
{
"epoch": 1.0631111111111111,
"grad_norm": 0.08634962886571884,
"learning_rate": 0.000268112,
"loss": 0.0243,
"step": 5980
},
{
"epoch": 1.064888888888889,
"grad_norm": 0.05588865652680397,
"learning_rate": 0.00026805866666666664,
"loss": 0.0234,
"step": 5990
},
{
"epoch": 1.0666666666666667,
"grad_norm": 0.07553177326917648,
"learning_rate": 0.0002680053333333333,
"loss": 0.0211,
"step": 6000
},
{
"epoch": 1.0666666666666667,
"eval_accuracy": 0.7888,
"eval_f1": 0.9608752422852569,
"eval_loss": 0.022772355005145073,
"eval_precision": 0.9597344936642305,
"eval_recall": 0.9634640968388336,
"eval_runtime": 646.4114,
"eval_samples_per_second": 15.47,
"eval_steps_per_second": 1.934,
"step": 6000
},
{
"epoch": 1.0684444444444445,
"grad_norm": 0.08226612955331802,
"learning_rate": 0.000267952,
"loss": 0.0237,
"step": 6010
},
{
"epoch": 1.0702222222222222,
"grad_norm": 0.04895941540598869,
"learning_rate": 0.0002678986666666666,
"loss": 0.0187,
"step": 6020
},
{
"epoch": 1.072,
"grad_norm": 0.07697124779224396,
"learning_rate": 0.00026784533333333333,
"loss": 0.0204,
"step": 6030
},
{
"epoch": 1.0737777777777777,
"grad_norm": 0.07198483496904373,
"learning_rate": 0.000267792,
"loss": 0.0329,
"step": 6040
},
{
"epoch": 1.0755555555555556,
"grad_norm": 0.14414814114570618,
"learning_rate": 0.00026773866666666664,
"loss": 0.0242,
"step": 6050
},
{
"epoch": 1.0773333333333333,
"grad_norm": 0.07089535892009735,
"learning_rate": 0.0002676853333333333,
"loss": 0.0242,
"step": 6060
},
{
"epoch": 1.0791111111111111,
"grad_norm": 0.07860027998685837,
"learning_rate": 0.000267632,
"loss": 0.0233,
"step": 6070
},
{
"epoch": 1.0808888888888888,
"grad_norm": 0.024272069334983826,
"learning_rate": 0.0002675786666666666,
"loss": 0.0191,
"step": 6080
},
{
"epoch": 1.0826666666666667,
"grad_norm": 0.20330259203910828,
"learning_rate": 0.00026752533333333333,
"loss": 0.0246,
"step": 6090
},
{
"epoch": 1.0844444444444445,
"grad_norm": 0.056514300405979156,
"learning_rate": 0.000267472,
"loss": 0.0197,
"step": 6100
},
{
"epoch": 1.0862222222222222,
"grad_norm": 0.09598847478628159,
"learning_rate": 0.00026741866666666665,
"loss": 0.0196,
"step": 6110
},
{
"epoch": 1.088,
"grad_norm": 0.0808069035410881,
"learning_rate": 0.0002673653333333333,
"loss": 0.0174,
"step": 6120
},
{
"epoch": 1.0897777777777777,
"grad_norm": 0.02423759177327156,
"learning_rate": 0.000267312,
"loss": 0.0223,
"step": 6130
},
{
"epoch": 1.0915555555555556,
"grad_norm": 0.14889276027679443,
"learning_rate": 0.0002672586666666666,
"loss": 0.0222,
"step": 6140
},
{
"epoch": 1.0933333333333333,
"grad_norm": 0.07997959852218628,
"learning_rate": 0.0002672053333333333,
"loss": 0.0236,
"step": 6150
},
{
"epoch": 1.0951111111111111,
"grad_norm": 0.07679922878742218,
"learning_rate": 0.000267152,
"loss": 0.0179,
"step": 6160
},
{
"epoch": 1.0968888888888888,
"grad_norm": 0.17518191039562225,
"learning_rate": 0.00026709866666666665,
"loss": 0.0138,
"step": 6170
},
{
"epoch": 1.0986666666666667,
"grad_norm": 0.06905455142259598,
"learning_rate": 0.0002670453333333333,
"loss": 0.0111,
"step": 6180
},
{
"epoch": 1.1004444444444443,
"grad_norm": 0.09649280458688736,
"learning_rate": 0.00026699199999999997,
"loss": 0.0246,
"step": 6190
},
{
"epoch": 1.1022222222222222,
"grad_norm": 0.06124288961291313,
"learning_rate": 0.0002669386666666666,
"loss": 0.0191,
"step": 6200
},
{
"epoch": 1.104,
"grad_norm": 0.05284019559621811,
"learning_rate": 0.0002668853333333333,
"loss": 0.0238,
"step": 6210
},
{
"epoch": 1.1057777777777777,
"grad_norm": 0.07209029793739319,
"learning_rate": 0.000266832,
"loss": 0.023,
"step": 6220
},
{
"epoch": 1.1075555555555556,
"grad_norm": 0.0753553956747055,
"learning_rate": 0.00026677866666666665,
"loss": 0.0227,
"step": 6230
},
{
"epoch": 1.1093333333333333,
"grad_norm": 0.032091863453388214,
"learning_rate": 0.0002667253333333333,
"loss": 0.0218,
"step": 6240
},
{
"epoch": 1.1111111111111112,
"grad_norm": 0.08066971600055695,
"learning_rate": 0.00026667199999999997,
"loss": 0.0198,
"step": 6250
},
{
"epoch": 1.1128888888888888,
"grad_norm": 0.11901221424341202,
"learning_rate": 0.00026661866666666663,
"loss": 0.0239,
"step": 6260
},
{
"epoch": 1.1146666666666667,
"grad_norm": 0.09724316000938416,
"learning_rate": 0.0002665653333333333,
"loss": 0.0284,
"step": 6270
},
{
"epoch": 1.1164444444444444,
"grad_norm": 0.056774791330099106,
"learning_rate": 0.000266512,
"loss": 0.0187,
"step": 6280
},
{
"epoch": 1.1182222222222222,
"grad_norm": 0.0744025856256485,
"learning_rate": 0.00026645866666666666,
"loss": 0.0252,
"step": 6290
},
{
"epoch": 1.12,
"grad_norm": 0.0717066302895546,
"learning_rate": 0.0002664053333333333,
"loss": 0.0198,
"step": 6300
},
{
"epoch": 1.1217777777777778,
"grad_norm": 0.05018769949674606,
"learning_rate": 0.000266352,
"loss": 0.0195,
"step": 6310
},
{
"epoch": 1.1235555555555556,
"grad_norm": 0.07212472707033157,
"learning_rate": 0.00026629866666666663,
"loss": 0.0208,
"step": 6320
},
{
"epoch": 1.1253333333333333,
"grad_norm": 0.09545619040727615,
"learning_rate": 0.0002662453333333333,
"loss": 0.0172,
"step": 6330
},
{
"epoch": 1.1271111111111112,
"grad_norm": 0.1480916291475296,
"learning_rate": 0.000266192,
"loss": 0.023,
"step": 6340
},
{
"epoch": 1.1288888888888888,
"grad_norm": 0.06415636837482452,
"learning_rate": 0.00026613866666666666,
"loss": 0.0175,
"step": 6350
},
{
"epoch": 1.1306666666666667,
"grad_norm": 0.06716844439506531,
"learning_rate": 0.0002660853333333333,
"loss": 0.0203,
"step": 6360
},
{
"epoch": 1.1324444444444444,
"grad_norm": 0.06009915471076965,
"learning_rate": 0.000266032,
"loss": 0.0112,
"step": 6370
},
{
"epoch": 1.1342222222222222,
"grad_norm": 0.16594372689723969,
"learning_rate": 0.00026597866666666663,
"loss": 0.0277,
"step": 6380
},
{
"epoch": 1.1360000000000001,
"grad_norm": 0.08360890299081802,
"learning_rate": 0.0002659253333333333,
"loss": 0.0217,
"step": 6390
},
{
"epoch": 1.1377777777777778,
"grad_norm": 0.27243664860725403,
"learning_rate": 0.000265872,
"loss": 0.018,
"step": 6400
},
{
"epoch": 1.1395555555555554,
"grad_norm": 0.21879877150058746,
"learning_rate": 0.0002658186666666666,
"loss": 0.0205,
"step": 6410
},
{
"epoch": 1.1413333333333333,
"grad_norm": 0.04842181131243706,
"learning_rate": 0.0002657653333333333,
"loss": 0.03,
"step": 6420
},
{
"epoch": 1.1431111111111112,
"grad_norm": 0.03564498573541641,
"learning_rate": 0.000265712,
"loss": 0.0176,
"step": 6430
},
{
"epoch": 1.1448888888888888,
"grad_norm": 0.04952355474233627,
"learning_rate": 0.00026565866666666664,
"loss": 0.0193,
"step": 6440
},
{
"epoch": 1.1466666666666667,
"grad_norm": 0.10026893764734268,
"learning_rate": 0.0002656053333333333,
"loss": 0.0206,
"step": 6450
},
{
"epoch": 1.1484444444444444,
"grad_norm": 0.12454218417406082,
"learning_rate": 0.000265552,
"loss": 0.0112,
"step": 6460
},
{
"epoch": 1.1502222222222223,
"grad_norm": 0.08369217067956924,
"learning_rate": 0.0002654986666666666,
"loss": 0.0155,
"step": 6470
},
{
"epoch": 1.152,
"grad_norm": 0.028163114562630653,
"learning_rate": 0.0002654453333333333,
"loss": 0.0201,
"step": 6480
},
{
"epoch": 1.1537777777777778,
"grad_norm": 0.09226653724908829,
"learning_rate": 0.000265392,
"loss": 0.0175,
"step": 6490
},
{
"epoch": 1.1555555555555554,
"grad_norm": 0.04451766982674599,
"learning_rate": 0.00026533866666666664,
"loss": 0.0158,
"step": 6500
},
{
"epoch": 1.1573333333333333,
"grad_norm": 0.04195033758878708,
"learning_rate": 0.0002652853333333333,
"loss": 0.0204,
"step": 6510
},
{
"epoch": 1.1591111111111112,
"grad_norm": 0.06519827246665955,
"learning_rate": 0.000265232,
"loss": 0.0206,
"step": 6520
},
{
"epoch": 1.1608888888888889,
"grad_norm": 0.06192832812666893,
"learning_rate": 0.0002651786666666666,
"loss": 0.0233,
"step": 6530
},
{
"epoch": 1.1626666666666667,
"grad_norm": 0.04507620260119438,
"learning_rate": 0.00026512533333333333,
"loss": 0.025,
"step": 6540
},
{
"epoch": 1.1644444444444444,
"grad_norm": 0.05026322603225708,
"learning_rate": 0.000265072,
"loss": 0.0255,
"step": 6550
},
{
"epoch": 1.1662222222222223,
"grad_norm": 0.0816965252161026,
"learning_rate": 0.00026501866666666664,
"loss": 0.0162,
"step": 6560
},
{
"epoch": 1.168,
"grad_norm": 0.11233066022396088,
"learning_rate": 0.0002649653333333333,
"loss": 0.028,
"step": 6570
},
{
"epoch": 1.1697777777777778,
"grad_norm": 0.06947654485702515,
"learning_rate": 0.000264912,
"loss": 0.0169,
"step": 6580
},
{
"epoch": 1.1715555555555555,
"grad_norm": 0.07992644608020782,
"learning_rate": 0.0002648586666666666,
"loss": 0.0241,
"step": 6590
},
{
"epoch": 1.1733333333333333,
"grad_norm": 0.07435277849435806,
"learning_rate": 0.00026480533333333333,
"loss": 0.0152,
"step": 6600
},
{
"epoch": 1.1751111111111112,
"grad_norm": 0.14906832575798035,
"learning_rate": 0.000264752,
"loss": 0.013,
"step": 6610
},
{
"epoch": 1.1768888888888889,
"grad_norm": 0.026851756498217583,
"learning_rate": 0.00026469866666666665,
"loss": 0.0175,
"step": 6620
},
{
"epoch": 1.1786666666666668,
"grad_norm": 0.13004520535469055,
"learning_rate": 0.0002646453333333333,
"loss": 0.0217,
"step": 6630
},
{
"epoch": 1.1804444444444444,
"grad_norm": 0.09514859318733215,
"learning_rate": 0.000264592,
"loss": 0.0168,
"step": 6640
},
{
"epoch": 1.1822222222222223,
"grad_norm": 0.058868490159511566,
"learning_rate": 0.0002645386666666666,
"loss": 0.0172,
"step": 6650
},
{
"epoch": 1.184,
"grad_norm": 0.05696805194020271,
"learning_rate": 0.0002644853333333333,
"loss": 0.0238,
"step": 6660
},
{
"epoch": 1.1857777777777778,
"grad_norm": 0.14026899635791779,
"learning_rate": 0.000264432,
"loss": 0.0252,
"step": 6670
},
{
"epoch": 1.1875555555555555,
"grad_norm": 0.18993432819843292,
"learning_rate": 0.00026437866666666665,
"loss": 0.0227,
"step": 6680
},
{
"epoch": 1.1893333333333334,
"grad_norm": 0.11388243734836578,
"learning_rate": 0.0002643253333333333,
"loss": 0.0229,
"step": 6690
},
{
"epoch": 1.1911111111111112,
"grad_norm": 0.025548333302140236,
"learning_rate": 0.00026427199999999997,
"loss": 0.0205,
"step": 6700
},
{
"epoch": 1.1928888888888889,
"grad_norm": 0.0805412083864212,
"learning_rate": 0.0002642186666666666,
"loss": 0.0227,
"step": 6710
},
{
"epoch": 1.1946666666666665,
"grad_norm": 0.05033315345644951,
"learning_rate": 0.0002641653333333333,
"loss": 0.026,
"step": 6720
},
{
"epoch": 1.1964444444444444,
"grad_norm": 0.12822557985782623,
"learning_rate": 0.000264112,
"loss": 0.0171,
"step": 6730
},
{
"epoch": 1.1982222222222223,
"grad_norm": 0.05787438154220581,
"learning_rate": 0.00026405866666666665,
"loss": 0.0156,
"step": 6740
},
{
"epoch": 1.2,
"grad_norm": 0.03533678874373436,
"learning_rate": 0.0002640053333333333,
"loss": 0.0228,
"step": 6750
},
{
"epoch": 1.2017777777777778,
"grad_norm": 0.07523424923419952,
"learning_rate": 0.00026395199999999997,
"loss": 0.0203,
"step": 6760
},
{
"epoch": 1.2035555555555555,
"grad_norm": 0.07903579622507095,
"learning_rate": 0.00026389866666666663,
"loss": 0.0241,
"step": 6770
},
{
"epoch": 1.2053333333333334,
"grad_norm": 0.05588415265083313,
"learning_rate": 0.0002638453333333333,
"loss": 0.0186,
"step": 6780
},
{
"epoch": 1.207111111111111,
"grad_norm": 0.07310913503170013,
"learning_rate": 0.000263792,
"loss": 0.0172,
"step": 6790
},
{
"epoch": 1.208888888888889,
"grad_norm": 0.10237371176481247,
"learning_rate": 0.00026373866666666666,
"loss": 0.0311,
"step": 6800
},
{
"epoch": 1.2106666666666666,
"grad_norm": 0.08923070877790451,
"learning_rate": 0.0002636853333333333,
"loss": 0.0299,
"step": 6810
},
{
"epoch": 1.2124444444444444,
"grad_norm": 0.05501580983400345,
"learning_rate": 0.00026363199999999997,
"loss": 0.0177,
"step": 6820
},
{
"epoch": 1.2142222222222223,
"grad_norm": 0.11276847124099731,
"learning_rate": 0.00026357866666666663,
"loss": 0.0235,
"step": 6830
},
{
"epoch": 1.216,
"grad_norm": 0.0540320947766304,
"learning_rate": 0.0002635253333333333,
"loss": 0.0211,
"step": 6840
},
{
"epoch": 1.2177777777777778,
"grad_norm": 0.034252021461725235,
"learning_rate": 0.000263472,
"loss": 0.0247,
"step": 6850
},
{
"epoch": 1.2195555555555555,
"grad_norm": 0.09573516249656677,
"learning_rate": 0.00026341866666666666,
"loss": 0.0186,
"step": 6860
},
{
"epoch": 1.2213333333333334,
"grad_norm": 0.09865361452102661,
"learning_rate": 0.0002633653333333333,
"loss": 0.0174,
"step": 6870
},
{
"epoch": 1.223111111111111,
"grad_norm": 0.13737502694129944,
"learning_rate": 0.000263312,
"loss": 0.016,
"step": 6880
},
{
"epoch": 1.224888888888889,
"grad_norm": 0.06738601624965668,
"learning_rate": 0.00026325866666666663,
"loss": 0.0187,
"step": 6890
},
{
"epoch": 1.2266666666666666,
"grad_norm": 0.08652956038713455,
"learning_rate": 0.0002632053333333333,
"loss": 0.0204,
"step": 6900
},
{
"epoch": 1.2284444444444444,
"grad_norm": 0.10620912909507751,
"learning_rate": 0.000263152,
"loss": 0.0266,
"step": 6910
},
{
"epoch": 1.2302222222222223,
"grad_norm": 0.06166858598589897,
"learning_rate": 0.00026309866666666666,
"loss": 0.0236,
"step": 6920
},
{
"epoch": 1.232,
"grad_norm": 0.05199519917368889,
"learning_rate": 0.0002630453333333333,
"loss": 0.0302,
"step": 6930
},
{
"epoch": 1.2337777777777779,
"grad_norm": 0.08725038170814514,
"learning_rate": 0.000262992,
"loss": 0.0175,
"step": 6940
},
{
"epoch": 1.2355555555555555,
"grad_norm": 0.15823574364185333,
"learning_rate": 0.00026293866666666664,
"loss": 0.0126,
"step": 6950
},
{
"epoch": 1.2373333333333334,
"grad_norm": 0.11322572827339172,
"learning_rate": 0.0002628853333333333,
"loss": 0.0171,
"step": 6960
},
{
"epoch": 1.239111111111111,
"grad_norm": 0.05331611633300781,
"learning_rate": 0.000262832,
"loss": 0.0165,
"step": 6970
},
{
"epoch": 1.240888888888889,
"grad_norm": 0.10290094465017319,
"learning_rate": 0.0002627786666666666,
"loss": 0.0352,
"step": 6980
},
{
"epoch": 1.2426666666666666,
"grad_norm": 0.13865168392658234,
"learning_rate": 0.0002627253333333333,
"loss": 0.0221,
"step": 6990
},
{
"epoch": 1.2444444444444445,
"grad_norm": 0.05420316383242607,
"learning_rate": 0.000262672,
"loss": 0.0168,
"step": 7000
},
{
"epoch": 1.2444444444444445,
"eval_accuracy": 0.789,
"eval_f1": 0.9604236614865518,
"eval_loss": 0.02318185567855835,
"eval_precision": 0.9584751671531083,
"eval_recall": 0.9638210750506804,
"eval_runtime": 695.9499,
"eval_samples_per_second": 14.369,
"eval_steps_per_second": 1.796,
"step": 7000
}
],
"logging_steps": 10,
"max_steps": 56250,
"num_input_tokens_seen": 0,
"num_train_epochs": 10,
"save_steps": 1000,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 2.5724988162048e+16,
"train_batch_size": 8,
"trial_name": null,
"trial_params": null
}