AgThinker-14B / trainer_state.json

Add files using upload-large-folder tool

58be2dc verified 7 months ago

52.9 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.298368298368298,
	"eval_steps": 500,
	"global_step": 3000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.014344629729245113,
	"grad_norm": 2.1563808263401123,
	"learning_rate": 2.1479713603818614e-06,
	"loss": 0.9832,
	"step": 10
	},
	{
	"epoch": 0.028689259458490227,
	"grad_norm": 1.5376642197375787,
	"learning_rate": 4.5346062052505965e-06,
	"loss": 0.8531,
	"step": 20
	},
	{
	"epoch": 0.04303388918773534,
	"grad_norm": 0.7108211564362369,
	"learning_rate": 6.921241050119331e-06,
	"loss": 0.7191,
	"step": 30
	},
	{
	"epoch": 0.05737851891698045,
	"grad_norm": 0.5064006283904037,
	"learning_rate": 9.307875894988068e-06,
	"loss": 0.6532,
	"step": 40
	},
	{
	"epoch": 0.07172314864622557,
	"grad_norm": 0.5016524926299113,
	"learning_rate": 1.1694510739856803e-05,
	"loss": 0.6245,
	"step": 50
	},
	{
	"epoch": 0.08606777837547068,
	"grad_norm": 0.5064320977744877,
	"learning_rate": 1.4081145584725539e-05,
	"loss": 0.6017,
	"step": 60
	},
	{
	"epoch": 0.1004124081047158,
	"grad_norm": 0.4525315758811991,
	"learning_rate": 1.6467780429594274e-05,
	"loss": 0.5788,
	"step": 70
	},
	{
	"epoch": 0.1147570378339609,
	"grad_norm": 0.4891140282424216,
	"learning_rate": 1.885441527446301e-05,
	"loss": 0.5726,
	"step": 80
	},
	{
	"epoch": 0.129101667563206,
	"grad_norm": 0.5816465774117703,
	"learning_rate": 2.1241050119331742e-05,
	"loss": 0.5669,
	"step": 90
	},
	{
	"epoch": 0.14344629729245115,
	"grad_norm": 0.5416459422496235,
	"learning_rate": 2.3627684964200477e-05,
	"loss": 0.5621,
	"step": 100
	},
	{
	"epoch": 0.15779092702169625,
	"grad_norm": 0.5501550374753971,
	"learning_rate": 2.6014319809069216e-05,
	"loss": 0.5543,
	"step": 110
	},
	{
	"epoch": 0.17213555675094136,
	"grad_norm": 0.48897325487812016,
	"learning_rate": 2.840095465393795e-05,
	"loss": 0.5519,
	"step": 120
	},
	{
	"epoch": 0.1864801864801865,
	"grad_norm": 0.5193769497689257,
	"learning_rate": 3.0787589498806684e-05,
	"loss": 0.546,
	"step": 130
	},
	{
	"epoch": 0.2008248162094316,
	"grad_norm": 0.5100064220076413,
	"learning_rate": 3.3174224343675416e-05,
	"loss": 0.5454,
	"step": 140
	},
	{
	"epoch": 0.2151694459386767,
	"grad_norm": 0.4992592686432826,
	"learning_rate": 3.5560859188544155e-05,
	"loss": 0.5437,
	"step": 150
	},
	{
	"epoch": 0.2295140756679218,
	"grad_norm": 0.4838403686730783,
	"learning_rate": 3.794749403341289e-05,
	"loss": 0.5412,
	"step": 160
	},
	{
	"epoch": 0.24385870539716695,
	"grad_norm": 0.45590237103117387,
	"learning_rate": 4.0334128878281626e-05,
	"loss": 0.541,
	"step": 170
	},
	{
	"epoch": 0.258203335126412,
	"grad_norm": 0.44189108119445925,
	"learning_rate": 4.272076372315036e-05,
	"loss": 0.5328,
	"step": 180
	},
	{
	"epoch": 0.2725479648556572,
	"grad_norm": 0.4596950199469469,
	"learning_rate": 4.510739856801909e-05,
	"loss": 0.5328,
	"step": 190
	},
	{
	"epoch": 0.2868925945849023,
	"grad_norm": 0.4232582169854354,
	"learning_rate": 4.749403341288783e-05,
	"loss": 0.5331,
	"step": 200
	},
	{
	"epoch": 0.3012372243141474,
	"grad_norm": 0.47183677702470816,
	"learning_rate": 4.988066825775656e-05,
	"loss": 0.5405,
	"step": 210
	},
	{
	"epoch": 0.3155818540433925,
	"grad_norm": 0.510543623904468,
	"learning_rate": 5.22673031026253e-05,
	"loss": 0.5448,
	"step": 220
	},
	{
	"epoch": 0.3299264837726376,
	"grad_norm": 0.49518213450267645,
	"learning_rate": 5.465393794749404e-05,
	"loss": 0.5441,
	"step": 230
	},
	{
	"epoch": 0.3442711135018827,
	"grad_norm": 0.4081838992878798,
	"learning_rate": 5.7040572792362765e-05,
	"loss": 0.5342,
	"step": 240
	},
	{
	"epoch": 0.3586157432311278,
	"grad_norm": 0.45201996051478616,
	"learning_rate": 5.942720763723151e-05,
	"loss": 0.5379,
	"step": 250
	},
	{
	"epoch": 0.372960372960373,
	"grad_norm": 0.5163583891265898,
	"learning_rate": 6.181384248210024e-05,
	"loss": 0.5352,
	"step": 260
	},
	{
	"epoch": 0.3873050026896181,
	"grad_norm": 0.43220360318869133,
	"learning_rate": 6.420047732696898e-05,
	"loss": 0.5319,
	"step": 270
	},
	{
	"epoch": 0.4016496324188632,
	"grad_norm": 0.39341356230222857,
	"learning_rate": 6.65871121718377e-05,
	"loss": 0.531,
	"step": 280
	},
	{
	"epoch": 0.4159942621481083,
	"grad_norm": 0.4843450935832954,
	"learning_rate": 6.897374701670645e-05,
	"loss": 0.5247,
	"step": 290
	},
	{
	"epoch": 0.4303388918773534,
	"grad_norm": 0.43790304963108484,
	"learning_rate": 7.136038186157519e-05,
	"loss": 0.535,
	"step": 300
	},
	{
	"epoch": 0.4446835216065985,
	"grad_norm": 0.3679883238347063,
	"learning_rate": 7.374701670644391e-05,
	"loss": 0.529,
	"step": 310
	},
	{
	"epoch": 0.4590281513358436,
	"grad_norm": 0.38496528216858267,
	"learning_rate": 7.613365155131266e-05,
	"loss": 0.5358,
	"step": 320
	},
	{
	"epoch": 0.47337278106508873,
	"grad_norm": 0.3554015988338894,
	"learning_rate": 7.852028639618139e-05,
	"loss": 0.5366,
	"step": 330
	},
	{
	"epoch": 0.4877174107943339,
	"grad_norm": 0.3647316947863913,
	"learning_rate": 8.090692124105012e-05,
	"loss": 0.5305,
	"step": 340
	},
	{
	"epoch": 0.502062040523579,
	"grad_norm": 0.40796953260473273,
	"learning_rate": 8.329355608591885e-05,
	"loss": 0.5361,
	"step": 350
	},
	{
	"epoch": 0.516406670252824,
	"grad_norm": 0.345466577791704,
	"learning_rate": 8.56801909307876e-05,
	"loss": 0.5317,
	"step": 360
	},
	{
	"epoch": 0.5307512999820692,
	"grad_norm": 0.3897824320306703,
	"learning_rate": 8.806682577565633e-05,
	"loss": 0.5384,
	"step": 370
	},
	{
	"epoch": 0.5450959297113144,
	"grad_norm": 0.39750641265021325,
	"learning_rate": 9.045346062052506e-05,
	"loss": 0.5344,
	"step": 380
	},
	{
	"epoch": 0.5594405594405595,
	"grad_norm": 0.3294501292354428,
	"learning_rate": 9.28400954653938e-05,
	"loss": 0.531,
	"step": 390
	},
	{
	"epoch": 0.5737851891698046,
	"grad_norm": 0.3325704984940842,
	"learning_rate": 9.522673031026254e-05,
	"loss": 0.5282,
	"step": 400
	},
	{
	"epoch": 0.5881298188990497,
	"grad_norm": 0.37577078172283135,
	"learning_rate": 9.761336515513126e-05,
	"loss": 0.5289,
	"step": 410
	},
	{
	"epoch": 0.6024744486282948,
	"grad_norm": 0.32982285395946315,
	"learning_rate": 0.0001,
	"loss": 0.5326,
	"step": 420
	},
	{
	"epoch": 0.6168190783575399,
	"grad_norm": 0.315570817514683,
	"learning_rate": 9.999826305940802e-05,
	"loss": 0.5276,
	"step": 430
	},
	{
	"epoch": 0.631163708086785,
	"grad_norm": 0.32873479872603517,
	"learning_rate": 9.99930523583106e-05,
	"loss": 0.5329,
	"step": 440
	},
	{
	"epoch": 0.6455083378160301,
	"grad_norm": 0.3754610016068392,
	"learning_rate": 9.998436825873485e-05,
	"loss": 0.5339,
	"step": 450
	},
	{
	"epoch": 0.6598529675452752,
	"grad_norm": 0.2973537072730961,
	"learning_rate": 9.997221136403139e-05,
	"loss": 0.5249,
	"step": 460
	},
	{
	"epoch": 0.6741975972745203,
	"grad_norm": 0.33421087994681,
	"learning_rate": 9.995658251883237e-05,
	"loss": 0.5196,
	"step": 470
	},
	{
	"epoch": 0.6885422270037654,
	"grad_norm": 0.3120052809857615,
	"learning_rate": 9.993748280899279e-05,
	"loss": 0.5236,
	"step": 480
	},
	{
	"epoch": 0.7028868567330105,
	"grad_norm": 0.28477505127058517,
	"learning_rate": 9.991491356151515e-05,
	"loss": 0.5166,
	"step": 490
	},
	{
	"epoch": 0.7172314864622557,
	"grad_norm": 0.3282614273702267,
	"learning_rate": 9.988887634445711e-05,
	"loss": 0.5191,
	"step": 500
	},
	{
	"epoch": 0.7315761161915008,
	"grad_norm": 0.3018575266984723,
	"learning_rate": 9.985937296682264e-05,
	"loss": 0.52,
	"step": 510
	},
	{
	"epoch": 0.745920745920746,
	"grad_norm": 0.322642800391225,
	"learning_rate": 9.982640547843628e-05,
	"loss": 0.5193,
	"step": 520
	},
	{
	"epoch": 0.7602653756499911,
	"grad_norm": 0.29334428049579575,
	"learning_rate": 9.978997616980083e-05,
	"loss": 0.5173,
	"step": 530
	},
	{
	"epoch": 0.7746100053792362,
	"grad_norm": 0.30663608653187874,
	"learning_rate": 9.975008757193805e-05,
	"loss": 0.514,
	"step": 540
	},
	{
	"epoch": 0.7889546351084813,
	"grad_norm": 0.2902575349921672,
	"learning_rate": 9.970674245621296e-05,
	"loss": 0.5173,
	"step": 550
	},
	{
	"epoch": 0.8032992648377264,
	"grad_norm": 0.2750627268123107,
	"learning_rate": 9.965994383414116e-05,
	"loss": 0.5124,
	"step": 560
	},
	{
	"epoch": 0.8176438945669715,
	"grad_norm": 0.31846444500772264,
	"learning_rate": 9.960969495717975e-05,
	"loss": 0.5105,
	"step": 570
	},
	{
	"epoch": 0.8319885242962166,
	"grad_norm": 0.2850087845127407,
	"learning_rate": 9.955599931650127e-05,
	"loss": 0.505,
	"step": 580
	},
	{
	"epoch": 0.8463331540254617,
	"grad_norm": 0.3011934822435399,
	"learning_rate": 9.949886064275123e-05,
	"loss": 0.4997,
	"step": 590
	},
	{
	"epoch": 0.8606777837547068,
	"grad_norm": 0.28048546158040877,
	"learning_rate": 9.943828290578892e-05,
	"loss": 0.5039,
	"step": 600
	},
	{
	"epoch": 0.8750224134839519,
	"grad_norm": 0.29482418586801606,
	"learning_rate": 9.937427031441152e-05,
	"loss": 0.5068,
	"step": 610
	},
	{
	"epoch": 0.889367043213197,
	"grad_norm": 0.2868511054090736,
	"learning_rate": 9.93068273160618e-05,
	"loss": 0.5041,
	"step": 620
	},
	{
	"epoch": 0.9037116729424421,
	"grad_norm": 0.26871712641833934,
	"learning_rate": 9.9235958596519e-05,
	"loss": 0.5031,
	"step": 630
	},
	{
	"epoch": 0.9180563026716873,
	"grad_norm": 0.27176006324351715,
	"learning_rate": 9.916166907957336e-05,
	"loss": 0.4998,
	"step": 640
	},
	{
	"epoch": 0.9324009324009324,
	"grad_norm": 0.2916123334399884,
	"learning_rate": 9.908396392668397e-05,
	"loss": 0.5045,
	"step": 650
	},
	{
	"epoch": 0.9467455621301775,
	"grad_norm": 0.28657648009371867,
	"learning_rate": 9.90028485366202e-05,
	"loss": 0.5005,
	"step": 660
	},
	{
	"epoch": 0.9610901918594227,
	"grad_norm": 0.2616587253845151,
	"learning_rate": 9.891832854508661e-05,
	"loss": 0.5017,
	"step": 670
	},
	{
	"epoch": 0.9754348215886678,
	"grad_norm": 0.2642546302377749,
	"learning_rate": 9.883040982433133e-05,
	"loss": 0.492,
	"step": 680
	},
	{
	"epoch": 0.9897794513179129,
	"grad_norm": 0.255936110537566,
	"learning_rate": 9.87390984827382e-05,
	"loss": 0.4934,
	"step": 690
	},
	{
	"epoch": 1.002868925945849,
	"grad_norm": 0.3099905060480918,
	"learning_rate": 9.864440086440223e-05,
	"loss": 0.43,
	"step": 700
	},
	{
	"epoch": 1.017213555675094,
	"grad_norm": 0.25984643430841164,
	"learning_rate": 9.854632354868889e-05,
	"loss": 0.3695,
	"step": 710
	},
	{
	"epoch": 1.0315581854043392,
	"grad_norm": 0.28715953895875523,
	"learning_rate": 9.844487334977705e-05,
	"loss": 0.3792,
	"step": 720
	},
	{
	"epoch": 1.0459028151335843,
	"grad_norm": 0.2649853690140653,
	"learning_rate": 9.834005731618543e-05,
	"loss": 0.3737,
	"step": 730
	},
	{
	"epoch": 1.0602474448628294,
	"grad_norm": 0.26573177260306496,
	"learning_rate": 9.823188273028297e-05,
	"loss": 0.3771,
	"step": 740
	},
	{
	"epoch": 1.0745920745920745,
	"grad_norm": 0.26574383245031147,
	"learning_rate": 9.812035710778283e-05,
	"loss": 0.3741,
	"step": 750
	},
	{
	"epoch": 1.0889367043213196,
	"grad_norm": 0.28123208245100456,
	"learning_rate": 9.800548819722026e-05,
	"loss": 0.3731,
	"step": 760
	},
	{
	"epoch": 1.1032813340505647,
	"grad_norm": 0.28349060376734364,
	"learning_rate": 9.78872839794142e-05,
	"loss": 0.3778,
	"step": 770
	},
	{
	"epoch": 1.11762596377981,
	"grad_norm": 0.28893208285124705,
	"learning_rate": 9.776575266691279e-05,
	"loss": 0.3806,
	"step": 780
	},
	{
	"epoch": 1.1319705935090552,
	"grad_norm": 0.2860386213893016,
	"learning_rate": 9.764090270342286e-05,
	"loss": 0.3799,
	"step": 790
	},
	{
	"epoch": 1.1463152232383003,
	"grad_norm": 0.2460375162339276,
	"learning_rate": 9.751274276322316e-05,
	"loss": 0.3898,
	"step": 800
	},
	{
	"epoch": 1.1606598529675454,
	"grad_norm": 0.251720247858439,
	"learning_rate": 9.738128175056179e-05,
	"loss": 0.3821,
	"step": 810
	},
	{
	"epoch": 1.1750044826967905,
	"grad_norm": 0.25278081761302046,
	"learning_rate": 9.724652879903751e-05,
	"loss": 0.3798,
	"step": 820
	},
	{
	"epoch": 1.1893491124260356,
	"grad_norm": 0.2599296471651565,
	"learning_rate": 9.71084932709652e-05,
	"loss": 0.3828,
	"step": 830
	},
	{
	"epoch": 1.2036937421552807,
	"grad_norm": 0.2455565423628766,
	"learning_rate": 9.696718475672532e-05,
	"loss": 0.3743,
	"step": 840
	},
	{
	"epoch": 1.2180383718845258,
	"grad_norm": 0.2888176539405626,
	"learning_rate": 9.682261307409766e-05,
	"loss": 0.381,
	"step": 850
	},
	{
	"epoch": 1.232383001613771,
	"grad_norm": 0.25471629336116824,
	"learning_rate": 9.667478826757916e-05,
	"loss": 0.3832,
	"step": 860
	},
	{
	"epoch": 1.246727631343016,
	"grad_norm": 0.2614351769400213,
	"learning_rate": 9.652372060768608e-05,
	"loss": 0.3848,
	"step": 870
	},
	{
	"epoch": 1.2610722610722611,
	"grad_norm": 0.26412023986782596,
	"learning_rate": 9.63694205902405e-05,
	"loss": 0.3855,
	"step": 880
	},
	{
	"epoch": 1.2754168908015062,
	"grad_norm": 0.2429603634039349,
	"learning_rate": 9.621189893564092e-05,
	"loss": 0.3819,
	"step": 890
	},
	{
	"epoch": 1.2897615205307513,
	"grad_norm": 0.26829134565306034,
	"learning_rate": 9.605116658811759e-05,
	"loss": 0.3906,
	"step": 900
	},
	{
	"epoch": 1.3041061502599964,
	"grad_norm": 0.27364921782590684,
	"learning_rate": 9.588723471497208e-05,
	"loss": 0.3848,
	"step": 910
	},
	{
	"epoch": 1.3184507799892415,
	"grad_norm": 0.2515405826777948,
	"learning_rate": 9.572011470580136e-05,
	"loss": 0.3899,
	"step": 920
	},
	{
	"epoch": 1.3327954097184866,
	"grad_norm": 0.2513235427794581,
	"learning_rate": 9.554981817170655e-05,
	"loss": 0.3912,
	"step": 930
	},
	{
	"epoch": 1.3471400394477318,
	"grad_norm": 0.24955670786044107,
	"learning_rate": 9.537635694448615e-05,
	"loss": 0.3849,
	"step": 940
	},
	{
	"epoch": 1.3614846691769769,
	"grad_norm": 0.24538389153554718,
	"learning_rate": 9.519974307581404e-05,
	"loss": 0.3867,
	"step": 950
	},
	{
	"epoch": 1.375829298906222,
	"grad_norm": 0.25856641290644117,
	"learning_rate": 9.50199888364021e-05,
	"loss": 0.3899,
	"step": 960
	},
	{
	"epoch": 1.390173928635467,
	"grad_norm": 0.26645029754281746,
	"learning_rate": 9.483710671514777e-05,
	"loss": 0.386,
	"step": 970
	},
	{
	"epoch": 1.4045185583647122,
	"grad_norm": 0.25589965865278824,
	"learning_rate": 9.465110941826622e-05,
	"loss": 0.3856,
	"step": 980
	},
	{
	"epoch": 1.4188631880939573,
	"grad_norm": 0.27815251555263987,
	"learning_rate": 9.446200986840765e-05,
	"loss": 0.3881,
	"step": 990
	},
	{
	"epoch": 1.4332078178232024,
	"grad_norm": 0.26197920796578195,
	"learning_rate": 9.426982120375943e-05,
	"loss": 0.3878,
	"step": 1000
	},
	{
	"epoch": 1.4475524475524475,
	"grad_norm": 0.2606524388643148,
	"learning_rate": 9.407455677713328e-05,
	"loss": 0.3883,
	"step": 1010
	},
	{
	"epoch": 1.4618970772816926,
	"grad_norm": 0.2331343629588404,
	"learning_rate": 9.387623015503753e-05,
	"loss": 0.3848,
	"step": 1020
	},
	{
	"epoch": 1.4762417070109377,
	"grad_norm": 0.25873984889230295,
	"learning_rate": 9.367485511673462e-05,
	"loss": 0.3895,
	"step": 1030
	},
	{
	"epoch": 1.4905863367401828,
	"grad_norm": 0.2531065339256471,
	"learning_rate": 9.347044565328367e-05,
	"loss": 0.3937,
	"step": 1040
	},
	{
	"epoch": 1.504930966469428,
	"grad_norm": 0.26767841128977615,
	"learning_rate": 9.326301596656846e-05,
	"loss": 0.3894,
	"step": 1050
	},
	{
	"epoch": 1.519275596198673,
	"grad_norm": 0.2472066267101206,
	"learning_rate": 9.30525804683107e-05,
	"loss": 0.3889,
	"step": 1060
	},
	{
	"epoch": 1.5336202259279181,
	"grad_norm": 0.24916114849718174,
	"learning_rate": 9.283915377906875e-05,
	"loss": 0.3874,
	"step": 1070
	},
	{
	"epoch": 1.5479648556571632,
	"grad_norm": 0.24586564647507672,
	"learning_rate": 9.262275072722181e-05,
	"loss": 0.3899,
	"step": 1080
	},
	{
	"epoch": 1.5623094853864083,
	"grad_norm": 0.24194199620674006,
	"learning_rate": 9.240338634793969e-05,
	"loss": 0.3867,
	"step": 1090
	},
	{
	"epoch": 1.5766541151156535,
	"grad_norm": 0.24712089444412166,
	"learning_rate": 9.218107588213813e-05,
	"loss": 0.3902,
	"step": 1100
	},
	{
	"epoch": 1.5909987448448986,
	"grad_norm": 0.24987071841082312,
	"learning_rate": 9.195583477542009e-05,
	"loss": 0.3851,
	"step": 1110
	},
	{
	"epoch": 1.6053433745741437,
	"grad_norm": 0.2453499914136973,
	"learning_rate": 9.172767867700236e-05,
	"loss": 0.3906,
	"step": 1120
	},
	{
	"epoch": 1.6196880043033888,
	"grad_norm": 0.2453362805106032,
	"learning_rate": 9.149662343862851e-05,
	"loss": 0.3905,
	"step": 1130
	},
	{
	"epoch": 1.6340326340326339,
	"grad_norm": 0.23102523441076062,
	"learning_rate": 9.126268511346744e-05,
	"loss": 0.3903,
	"step": 1140
	},
	{
	"epoch": 1.648377263761879,
	"grad_norm": 0.2542501707506408,
	"learning_rate": 9.102587995499807e-05,
	"loss": 0.3953,
	"step": 1150
	},
	{
	"epoch": 1.6627218934911243,
	"grad_norm": 0.23285474972918488,
	"learning_rate": 9.078622441588009e-05,
	"loss": 0.391,
	"step": 1160
	},
	{
	"epoch": 1.6770665232203694,
	"grad_norm": 0.24565957619352327,
	"learning_rate": 9.054373514681085e-05,
	"loss": 0.3923,
	"step": 1170
	},
	{
	"epoch": 1.6914111529496145,
	"grad_norm": 0.2506739557436684,
	"learning_rate": 9.029842899536853e-05,
	"loss": 0.3909,
	"step": 1180
	},
	{
	"epoch": 1.7057557826788596,
	"grad_norm": 0.2441587365940751,
	"learning_rate": 9.005032300484162e-05,
	"loss": 0.3915,
	"step": 1190
	},
	{
	"epoch": 1.7201004124081047,
	"grad_norm": 0.26421110183322566,
	"learning_rate": 8.979943441304473e-05,
	"loss": 0.3904,
	"step": 1200
	},
	{
	"epoch": 1.7344450421373498,
	"grad_norm": 0.24194171269463752,
	"learning_rate": 8.954578065112107e-05,
	"loss": 0.3892,
	"step": 1210
	},
	{
	"epoch": 1.748789671866595,
	"grad_norm": 0.23054663152441476,
	"learning_rate": 8.928937934233123e-05,
	"loss": 0.3907,
	"step": 1220
	},
	{
	"epoch": 1.76313430159584,
	"grad_norm": 0.2369813966398001,
	"learning_rate": 8.903024830082887e-05,
	"loss": 0.3849,
	"step": 1230
	},
	{
	"epoch": 1.7774789313250852,
	"grad_norm": 0.24008220076352446,
	"learning_rate": 8.876840553042296e-05,
	"loss": 0.3904,
	"step": 1240
	},
	{
	"epoch": 1.7918235610543303,
	"grad_norm": 0.23428608617416669,
	"learning_rate": 8.850386922332696e-05,
	"loss": 0.387,
	"step": 1250
	},
	{
	"epoch": 1.8061681907835754,
	"grad_norm": 0.23331291847215246,
	"learning_rate": 8.823665775889486e-05,
	"loss": 0.3909,
	"step": 1260
	},
	{
	"epoch": 1.8205128205128205,
	"grad_norm": 0.23850242149763548,
	"learning_rate": 8.796678970234427e-05,
	"loss": 0.3833,
	"step": 1270
	},
	{
	"epoch": 1.8348574502420656,
	"grad_norm": 0.2219682422982644,
	"learning_rate": 8.769428380346642e-05,
	"loss": 0.3845,
	"step": 1280
	},
	{
	"epoch": 1.8492020799713107,
	"grad_norm": 0.22216238994388604,
	"learning_rate": 8.741915899532362e-05,
	"loss": 0.3865,
	"step": 1290
	},
	{
	"epoch": 1.8635467097005558,
	"grad_norm": 0.22824929990219722,
	"learning_rate": 8.714143439293376e-05,
	"loss": 0.3852,
	"step": 1300
	},
	{
	"epoch": 1.8778913394298011,
	"grad_norm": 0.24280880504252028,
	"learning_rate": 8.686112929194226e-05,
	"loss": 0.3861,
	"step": 1310
	},
	{
	"epoch": 1.8922359691590462,
	"grad_norm": 0.24001704017165865,
	"learning_rate": 8.657826316728142e-05,
	"loss": 0.3908,
	"step": 1320
	},
	{
	"epoch": 1.9065805988882913,
	"grad_norm": 0.22100828767921185,
	"learning_rate": 8.62928556718174e-05,
	"loss": 0.3871,
	"step": 1330
	},
	{
	"epoch": 1.9209252286175365,
	"grad_norm": 0.22202012109824457,
	"learning_rate": 8.600492663498477e-05,
	"loss": 0.3834,
	"step": 1340
	},
	{
	"epoch": 1.9352698583467816,
	"grad_norm": 0.21529127705519435,
	"learning_rate": 8.571449606140883e-05,
	"loss": 0.388,
	"step": 1350
	},
	{
	"epoch": 1.9496144880760267,
	"grad_norm": 0.23391440077905082,
	"learning_rate": 8.542158412951563e-05,
	"loss": 0.3844,
	"step": 1360
	},
	{
	"epoch": 1.9639591178052718,
	"grad_norm": 0.2331711540562185,
	"learning_rate": 8.512621119013013e-05,
	"loss": 0.393,
	"step": 1370
	},
	{
	"epoch": 1.9783037475345169,
	"grad_norm": 0.23305451446876246,
	"learning_rate": 8.482839776506232e-05,
	"loss": 0.3837,
	"step": 1380
	},
	{
	"epoch": 1.992648377263762,
	"grad_norm": 0.24517430064973736,
	"learning_rate": 8.452816454568124e-05,
	"loss": 0.3852,
	"step": 1390
	},
	{
	"epoch": 2.005737851891698,
	"grad_norm": 0.27916951560917247,
	"learning_rate": 8.422553239147754e-05,
	"loss": 0.2799,
	"step": 1400
	},
	{
	"epoch": 2.020082481620943,
	"grad_norm": 0.23593724272097047,
	"learning_rate": 8.392052232861411e-05,
	"loss": 0.201,
	"step": 1410
	},
	{
	"epoch": 2.034427111350188,
	"grad_norm": 0.23512809512185134,
	"learning_rate": 8.361315554846534e-05,
	"loss": 0.1983,
	"step": 1420
	},
	{
	"epoch": 2.0487717410794333,
	"grad_norm": 0.2286549447255431,
	"learning_rate": 8.330345340614471e-05,
	"loss": 0.1942,
	"step": 1430
	},
	{
	"epoch": 2.0631163708086784,
	"grad_norm": 0.24844506458021867,
	"learning_rate": 8.299143741902111e-05,
	"loss": 0.1943,
	"step": 1440
	},
	{
	"epoch": 2.0774610005379235,
	"grad_norm": 0.25585326293058985,
	"learning_rate": 8.267712926522389e-05,
	"loss": 0.1993,
	"step": 1450
	},
	{
	"epoch": 2.0918056302671686,
	"grad_norm": 0.2421387690266048,
	"learning_rate": 8.236055078213666e-05,
	"loss": 0.1965,
	"step": 1460
	},
	{
	"epoch": 2.1061502599964137,
	"grad_norm": 0.24707973152402415,
	"learning_rate": 8.204172396488013e-05,
	"loss": 0.1992,
	"step": 1470
	},
	{
	"epoch": 2.120494889725659,
	"grad_norm": 0.23509099311770917,
	"learning_rate": 8.172067096478395e-05,
	"loss": 0.2008,
	"step": 1480
	},
	{
	"epoch": 2.134839519454904,
	"grad_norm": 0.23605150518346998,
	"learning_rate": 8.139741408784764e-05,
	"loss": 0.2019,
	"step": 1490
	},
	{
	"epoch": 2.149184149184149,
	"grad_norm": 0.2546177191590111,
	"learning_rate": 8.107197579319082e-05,
	"loss": 0.2053,
	"step": 1500
	},
	{
	"epoch": 2.163528778913394,
	"grad_norm": 0.2353676242323245,
	"learning_rate": 8.074437869149288e-05,
	"loss": 0.204,
	"step": 1510
	},
	{
	"epoch": 2.1778734086426392,
	"grad_norm": 0.23401952893152606,
	"learning_rate": 8.041464554342197e-05,
	"loss": 0.2036,
	"step": 1520
	},
	{
	"epoch": 2.1922180383718843,
	"grad_norm": 0.23141975512545726,
	"learning_rate": 8.008279925805366e-05,
	"loss": 0.2033,
	"step": 1530
	},
	{
	"epoch": 2.2065626681011294,
	"grad_norm": 0.23587920943899052,
	"learning_rate": 7.974886289127927e-05,
	"loss": 0.2068,
	"step": 1540
	},
	{
	"epoch": 2.2209072978303745,
	"grad_norm": 0.2394814609218661,
	"learning_rate": 7.941285964420407e-05,
	"loss": 0.2049,
	"step": 1550
	},
	{
	"epoch": 2.23525192755962,
	"grad_norm": 0.2389110148718096,
	"learning_rate": 7.907481286153516e-05,
	"loss": 0.2116,
	"step": 1560
	},
	{
	"epoch": 2.249596557288865,
	"grad_norm": 0.2282395291006806,
	"learning_rate": 7.873474602995973e-05,
	"loss": 0.2088,
	"step": 1570
	},
	{
	"epoch": 2.2639411870181103,
	"grad_norm": 0.23275397540700887,
	"learning_rate": 7.839268277651311e-05,
	"loss": 0.2092,
	"step": 1580
	},
	{
	"epoch": 2.2782858167473554,
	"grad_norm": 0.22624466416184327,
	"learning_rate": 7.80486468669373e-05,
	"loss": 0.2088,
	"step": 1590
	},
	{
	"epoch": 2.2926304464766005,
	"grad_norm": 0.23126585599149074,
	"learning_rate": 7.770266220402977e-05,
	"loss": 0.2117,
	"step": 1600
	},
	{
	"epoch": 2.3069750762058456,
	"grad_norm": 0.226948134461606,
	"learning_rate": 7.735475282598271e-05,
	"loss": 0.2097,
	"step": 1610
	},
	{
	"epoch": 2.3213197059350907,
	"grad_norm": 0.22673465714008167,
	"learning_rate": 7.700494290471296e-05,
	"loss": 0.2104,
	"step": 1620
	},
	{
	"epoch": 2.335664335664336,
	"grad_norm": 0.2556824784968339,
	"learning_rate": 7.665325674418264e-05,
	"loss": 0.2136,
	"step": 1630
	},
	{
	"epoch": 2.350008965393581,
	"grad_norm": 0.25025658975825976,
	"learning_rate": 7.629971877871039e-05,
	"loss": 0.2084,
	"step": 1640
	},
	{
	"epoch": 2.364353595122826,
	"grad_norm": 0.22536490579422702,
	"learning_rate": 7.594435357127399e-05,
	"loss": 0.2089,
	"step": 1650
	},
	{
	"epoch": 2.378698224852071,
	"grad_norm": 0.2258065984765025,
	"learning_rate": 7.558718581180355e-05,
	"loss": 0.2067,
	"step": 1660
	},
	{
	"epoch": 2.3930428545813163,
	"grad_norm": 0.2464593742203822,
	"learning_rate": 7.522824031546629e-05,
	"loss": 0.2137,
	"step": 1670
	},
	{
	"epoch": 2.4073874843105614,
	"grad_norm": 0.24123071412945177,
	"learning_rate": 7.486754202094229e-05,
	"loss": 0.2115,
	"step": 1680
	},
	{
	"epoch": 2.4217321140398065,
	"grad_norm": 0.23105649429700748,
	"learning_rate": 7.450511598869194e-05,
	"loss": 0.2138,
	"step": 1690
	},
	{
	"epoch": 2.4360767437690516,
	"grad_norm": 0.22955721039077792,
	"learning_rate": 7.414098739921471e-05,
	"loss": 0.2125,
	"step": 1700
	},
	{
	"epoch": 2.4504213734982967,
	"grad_norm": 0.23154193335740872,
	"learning_rate": 7.377518155129973e-05,
	"loss": 0.2183,
	"step": 1710
	},
	{
	"epoch": 2.464766003227542,
	"grad_norm": 0.2340236121998045,
	"learning_rate": 7.340772386026801e-05,
	"loss": 0.2157,
	"step": 1720
	},
	{
	"epoch": 2.479110632956787,
	"grad_norm": 0.2250255353665983,
	"learning_rate": 7.303863985620676e-05,
	"loss": 0.2123,
	"step": 1730
	},
	{
	"epoch": 2.493455262686032,
	"grad_norm": 0.2283114308365594,
	"learning_rate": 7.266795518219548e-05,
	"loss": 0.2135,
	"step": 1740
	},
	{
	"epoch": 2.507799892415277,
	"grad_norm": 0.23546636465212323,
	"learning_rate": 7.22956955925245e-05,
	"loss": 0.214,
	"step": 1750
	},
	{
	"epoch": 2.5221445221445222,
	"grad_norm": 0.23275268765839288,
	"learning_rate": 7.192188695090545e-05,
	"loss": 0.2156,
	"step": 1760
	},
	{
	"epoch": 2.5364891518737673,
	"grad_norm": 0.2457436947556184,
	"learning_rate": 7.154655522867452e-05,
	"loss": 0.2189,
	"step": 1770
	},
	{
	"epoch": 2.5508337816030124,
	"grad_norm": 0.2385729628030818,
	"learning_rate": 7.116972650298782e-05,
	"loss": 0.2148,
	"step": 1780
	},
	{
	"epoch": 2.5651784113322575,
	"grad_norm": 0.2382827317725779,
	"learning_rate": 7.079142695500975e-05,
	"loss": 0.2127,
	"step": 1790
	},
	{
	"epoch": 2.5795230410615027,
	"grad_norm": 0.22496477508883403,
	"learning_rate": 7.041168286809397e-05,
	"loss": 0.2156,
	"step": 1800
	},
	{
	"epoch": 2.5938676707907478,
	"grad_norm": 0.2337756123669142,
	"learning_rate": 7.00305206259572e-05,
	"loss": 0.2163,
	"step": 1810
	},
	{
	"epoch": 2.608212300519993,
	"grad_norm": 0.23547675501490803,
	"learning_rate": 6.964796671084631e-05,
	"loss": 0.213,
	"step": 1820
	},
	{
	"epoch": 2.622556930249238,
	"grad_norm": 0.236949625863052,
	"learning_rate": 6.926404770169819e-05,
	"loss": 0.2108,
	"step": 1830
	},
	{
	"epoch": 2.636901559978483,
	"grad_norm": 0.22775808389184637,
	"learning_rate": 6.887879027229332e-05,
	"loss": 0.2131,
	"step": 1840
	},
	{
	"epoch": 2.651246189707728,
	"grad_norm": 0.25558095929144115,
	"learning_rate": 6.84922211894024e-05,
	"loss": 0.2146,
	"step": 1850
	},
	{
	"epoch": 2.6655908194369733,
	"grad_norm": 0.23865636643565702,
	"learning_rate": 6.810436731092671e-05,
	"loss": 0.2154,
	"step": 1860
	},
	{
	"epoch": 2.6799354491662184,
	"grad_norm": 0.23347390914436725,
	"learning_rate": 6.771525558403203e-05,
	"loss": 0.2145,
	"step": 1870
	},
	{
	"epoch": 2.6942800788954635,
	"grad_norm": 0.2311770851119529,
	"learning_rate": 6.73249130432765e-05,
	"loss": 0.2112,
	"step": 1880
	},
	{
	"epoch": 2.7086247086247086,
	"grad_norm": 0.2326246785839781,
	"learning_rate": 6.69333668087323e-05,
	"loss": 0.2133,
	"step": 1890
	},
	{
	"epoch": 2.7229693383539537,
	"grad_norm": 0.23563376415545254,
	"learning_rate": 6.654064408410132e-05,
	"loss": 0.2141,
	"step": 1900
	},
	{
	"epoch": 2.737313968083199,
	"grad_norm": 0.2298522950109398,
	"learning_rate": 6.614677215482527e-05,
	"loss": 0.2142,
	"step": 1910
	},
	{
	"epoch": 2.751658597812444,
	"grad_norm": 0.2364865163676101,
	"learning_rate": 6.57517783861898e-05,
	"loss": 0.2127,
	"step": 1920
	},
	{
	"epoch": 2.766003227541689,
	"grad_norm": 0.22837021217881728,
	"learning_rate": 6.535569022142335e-05,
	"loss": 0.2145,
	"step": 1930
	},
	{
	"epoch": 2.780347857270934,
	"grad_norm": 0.22749769763881308,
	"learning_rate": 6.495853517979035e-05,
	"loss": 0.2106,
	"step": 1940
	},
	{
	"epoch": 2.7946924870001792,
	"grad_norm": 0.21764981978938533,
	"learning_rate": 6.456034085467935e-05,
	"loss": 0.2125,
	"step": 1950
	},
	{
	"epoch": 2.8090371167294244,
	"grad_norm": 0.22774012921821585,
	"learning_rate": 6.416113491168581e-05,
	"loss": 0.213,
	"step": 1960
	},
	{
	"epoch": 2.8233817464586695,
	"grad_norm": 0.22793686074861258,
	"learning_rate": 6.376094508668999e-05,
	"loss": 0.2116,
	"step": 1970
	},
	{
	"epoch": 2.8377263761879146,
	"grad_norm": 0.24345345462191187,
	"learning_rate": 6.335979918392999e-05,
	"loss": 0.213,
	"step": 1980
	},
	{
	"epoch": 2.8520710059171597,
	"grad_norm": 0.230566718186529,
	"learning_rate": 6.295772507406982e-05,
	"loss": 0.2123,
	"step": 1990
	},
	{
	"epoch": 2.866415635646405,
	"grad_norm": 0.23922165240449358,
	"learning_rate": 6.255475069226326e-05,
	"loss": 0.211,
	"step": 2000
	},
	{
	"epoch": 2.88076026537565,
	"grad_norm": 0.22058336484670613,
	"learning_rate": 6.21509040362127e-05,
	"loss": 0.2122,
	"step": 2010
	},
	{
	"epoch": 2.895104895104895,
	"grad_norm": 0.2272702011851071,
	"learning_rate": 6.174621316422417e-05,
	"loss": 0.2147,
	"step": 2020
	},
	{
	"epoch": 2.90944952483414,
	"grad_norm": 0.23799805104509125,
	"learning_rate": 6.134070619325774e-05,
	"loss": 0.212,
	"step": 2030
	},
	{
	"epoch": 2.923794154563385,
	"grad_norm": 0.24608349983752625,
	"learning_rate": 6.0934411296974184e-05,
	"loss": 0.2122,
	"step": 2040
	},
	{
	"epoch": 2.9381387842926303,
	"grad_norm": 0.23079480496683127,
	"learning_rate": 6.052735670377736e-05,
	"loss": 0.211,
	"step": 2050
	},
	{
	"epoch": 2.9524834140218754,
	"grad_norm": 0.22680559271715478,
	"learning_rate": 6.0119570694853155e-05,
	"loss": 0.2102,
	"step": 2060
	},
	{
	"epoch": 2.9668280437511205,
	"grad_norm": 0.22760761484882805,
	"learning_rate": 5.97110816022044e-05,
	"loss": 0.2113,
	"step": 2070
	},
	{
	"epoch": 2.9811726734803656,
	"grad_norm": 0.23303799910976278,
	"learning_rate": 5.930191780668258e-05,
	"loss": 0.2088,
	"step": 2080
	},
	{
	"epoch": 2.9955173032096107,
	"grad_norm": 0.22946738031807773,
	"learning_rate": 5.88921077360159e-05,
	"loss": 0.2097,
	"step": 2090
	},
	{
	"epoch": 3.008606777837547,
	"grad_norm": 0.2697620900381124,
	"learning_rate": 5.848167986283421e-05,
	"loss": 0.1134,
	"step": 2100
	},
	{
	"epoch": 3.0229514075667923,
	"grad_norm": 0.1885938841096422,
	"learning_rate": 5.807066270269084e-05,
	"loss": 0.0763,
	"step": 2110
	},
	{
	"epoch": 3.0372960372960374,
	"grad_norm": 0.214693696805492,
	"learning_rate": 5.765908481208139e-05,
	"loss": 0.0756,
	"step": 2120
	},
	{
	"epoch": 3.0516406670252825,
	"grad_norm": 0.2339101871402584,
	"learning_rate": 5.724697478645963e-05,
	"loss": 0.0744,
	"step": 2130
	},
	{
	"epoch": 3.0659852967545276,
	"grad_norm": 0.1971755620952271,
	"learning_rate": 5.6834361258250844e-05,
	"loss": 0.072,
	"step": 2140
	},
	{
	"epoch": 3.0803299264837727,
	"grad_norm": 0.1981153430750115,
	"learning_rate": 5.642127289486246e-05,
	"loss": 0.0748,
	"step": 2150
	},
	{
	"epoch": 3.094674556213018,
	"grad_norm": 0.2172902671287561,
	"learning_rate": 5.600773839669237e-05,
	"loss": 0.0726,
	"step": 2160
	},
	{
	"epoch": 3.109019185942263,
	"grad_norm": 0.19669334061877888,
	"learning_rate": 5.559378649513478e-05,
	"loss": 0.0733,
	"step": 2170
	},
	{
	"epoch": 3.123363815671508,
	"grad_norm": 0.21027113699329436,
	"learning_rate": 5.517944595058413e-05,
	"loss": 0.0746,
	"step": 2180
	},
	{
	"epoch": 3.137708445400753,
	"grad_norm": 0.20204087893287273,
	"learning_rate": 5.476474555043688e-05,
	"loss": 0.0748,
	"step": 2190
	},
	{
	"epoch": 3.152053075129998,
	"grad_norm": 0.20638588917150788,
	"learning_rate": 5.4349714107091335e-05,
	"loss": 0.0744,
	"step": 2200
	},
	{
	"epoch": 3.1663977048592433,
	"grad_norm": 0.20367882761147596,
	"learning_rate": 5.393438045594595e-05,
	"loss": 0.0755,
	"step": 2210
	},
	{
	"epoch": 3.1807423345884884,
	"grad_norm": 0.20836979312681028,
	"learning_rate": 5.351877345339583e-05,
	"loss": 0.076,
	"step": 2220
	},
	{
	"epoch": 3.1950869643177335,
	"grad_norm": 0.19643695987807314,
	"learning_rate": 5.310292197482791e-05,
	"loss": 0.0733,
	"step": 2230
	},
	{
	"epoch": 3.2094315940469786,
	"grad_norm": 0.20621763947145422,
	"learning_rate": 5.268685491261472e-05,
	"loss": 0.075,
	"step": 2240
	},
	{
	"epoch": 3.2237762237762237,
	"grad_norm": 0.20777873086593704,
	"learning_rate": 5.227060117410702e-05,
	"loss": 0.0746,
	"step": 2250
	},
	{
	"epoch": 3.238120853505469,
	"grad_norm": 0.2021910407099938,
	"learning_rate": 5.185418967962543e-05,
	"loss": 0.0747,
	"step": 2260
	},
	{
	"epoch": 3.252465483234714,
	"grad_norm": 0.2016612434414281,
	"learning_rate": 5.143764936045106e-05,
	"loss": 0.0743,
	"step": 2270
	},
	{
	"epoch": 3.266810112963959,
	"grad_norm": 0.2180992659409795,
	"learning_rate": 5.1021009156815414e-05,
	"loss": 0.0744,
	"step": 2280
	},
	{
	"epoch": 3.281154742693204,
	"grad_norm": 0.2056058145565962,
	"learning_rate": 5.060429801588983e-05,
	"loss": 0.0744,
	"step": 2290
	},
	{
	"epoch": 3.2954993724224493,
	"grad_norm": 0.20164051829762908,
	"learning_rate": 5.018754488977409e-05,
	"loss": 0.0745,
	"step": 2300
	},
	{
	"epoch": 3.3098440021516944,
	"grad_norm": 0.2026538165933443,
	"learning_rate": 4.9770778733485065e-05,
	"loss": 0.074,
	"step": 2310
	},
	{
	"epoch": 3.3241886318809395,
	"grad_norm": 0.20427324673762595,
	"learning_rate": 4.935402850294494e-05,
	"loss": 0.0739,
	"step": 2320
	},
	{
	"epoch": 3.3385332616101846,
	"grad_norm": 0.20831211218540635,
	"learning_rate": 4.893732315296942e-05,
	"loss": 0.0748,
	"step": 2330
	},
	{
	"epoch": 3.3528778913394297,
	"grad_norm": 0.20740018500070947,
	"learning_rate": 4.852069163525595e-05,
	"loss": 0.0737,
	"step": 2340
	},
	{
	"epoch": 3.367222521068675,
	"grad_norm": 0.20060155886370676,
	"learning_rate": 4.810416289637234e-05,
	"loss": 0.0729,
	"step": 2350
	},
	{
	"epoch": 3.38156715079792,
	"grad_norm": 0.199826847154071,
	"learning_rate": 4.7687765875745574e-05,
	"loss": 0.0739,
	"step": 2360
	},
	{
	"epoch": 3.395911780527165,
	"grad_norm": 0.20063705204581495,
	"learning_rate": 4.727152950365117e-05,
	"loss": 0.0737,
	"step": 2370
	},
	{
	"epoch": 3.41025641025641,
	"grad_norm": 0.20947972363514977,
	"learning_rate": 4.685548269920312e-05,
	"loss": 0.0736,
	"step": 2380
	},
	{
	"epoch": 3.4246010399856552,
	"grad_norm": 0.2006701925989043,
	"learning_rate": 4.643965436834474e-05,
	"loss": 0.075,
	"step": 2390
	},
	{
	"epoch": 3.4389456697149003,
	"grad_norm": 0.20335025504735554,
	"learning_rate": 4.6024073401840336e-05,
	"loss": 0.0745,
	"step": 2400
	},
	{
	"epoch": 3.4532902994441455,
	"grad_norm": 0.2192162565442083,
	"learning_rate": 4.560876867326791e-05,
	"loss": 0.0738,
	"step": 2410
	},
	{
	"epoch": 3.4676349291733906,
	"grad_norm": 0.19858055523329815,
	"learning_rate": 4.5193769037013066e-05,
	"loss": 0.0732,
	"step": 2420
	},
	{
	"epoch": 3.4819795589026357,
	"grad_norm": 0.20485303414115183,
	"learning_rate": 4.477910332626438e-05,
	"loss": 0.0728,
	"step": 2430
	},
	{
	"epoch": 3.4963241886318808,
	"grad_norm": 0.19011594248287844,
	"learning_rate": 4.4364800351010066e-05,
	"loss": 0.0726,
	"step": 2440
	},
	{
	"epoch": 3.5106688183611263,
	"grad_norm": 0.20410603253979742,
	"learning_rate": 4.395088889603633e-05,
	"loss": 0.0736,
	"step": 2450
	},
	{
	"epoch": 3.5250134480903714,
	"grad_norm": 0.1994983957599032,
	"learning_rate": 4.353739771892746e-05,
	"loss": 0.073,
	"step": 2460
	},
	{
	"epoch": 3.5393580778196165,
	"grad_norm": 0.20349060401414618,
	"learning_rate": 4.312435554806787e-05,
	"loss": 0.0736,
	"step": 2470
	},
	{
	"epoch": 3.5537027075488616,
	"grad_norm": 0.20221336765718947,
	"learning_rate": 4.271179108064605e-05,
	"loss": 0.0713,
	"step": 2480
	},
	{
	"epoch": 3.5680473372781067,
	"grad_norm": 0.1920539935100462,
	"learning_rate": 4.229973298066083e-05,
	"loss": 0.0714,
	"step": 2490
	},
	{
	"epoch": 3.582391967007352,
	"grad_norm": 0.18514594535819984,
	"learning_rate": 4.188820987692981e-05,
	"loss": 0.0716,
	"step": 2500
	},
	{
	"epoch": 3.596736596736597,
	"grad_norm": 0.19390555703637974,
	"learning_rate": 4.1477250361100317e-05,
	"loss": 0.072,
	"step": 2510
	},
	{
	"epoch": 3.611081226465842,
	"grad_norm": 0.19881724163942532,
	"learning_rate": 4.106688298566295e-05,
	"loss": 0.0722,
	"step": 2520
	},
	{
	"epoch": 3.625425856195087,
	"grad_norm": 0.19864848134388496,
	"learning_rate": 4.065713626196778e-05,
	"loss": 0.0697,
	"step": 2530
	},
	{
	"epoch": 3.6397704859243323,
	"grad_norm": 0.20964033399772472,
	"learning_rate": 4.0248038658243515e-05,
	"loss": 0.0703,
	"step": 2540
	},
	{
	"epoch": 3.6541151156535774,
	"grad_norm": 0.1887224816930325,
	"learning_rate": 3.983961859761946e-05,
	"loss": 0.071,
	"step": 2550
	},
	{
	"epoch": 3.6684597453828225,
	"grad_norm": 0.1939910437911645,
	"learning_rate": 3.9431904456150914e-05,
	"loss": 0.0685,
	"step": 2560
	},
	{
	"epoch": 3.6828043751120676,
	"grad_norm": 0.1905566250106664,
	"learning_rate": 3.902492456084757e-05,
	"loss": 0.0709,
	"step": 2570
	},
	{
	"epoch": 3.6971490048413127,
	"grad_norm": 0.1954219594857734,
	"learning_rate": 3.861870718770545e-05,
	"loss": 0.0691,
	"step": 2580
	},
	{
	"epoch": 3.711493634570558,
	"grad_norm": 0.20129771340548336,
	"learning_rate": 3.821328055974231e-05,
	"loss": 0.0688,
	"step": 2590
	},
	{
	"epoch": 3.725838264299803,
	"grad_norm": 0.19424451985885532,
	"learning_rate": 3.780867284503685e-05,
	"loss": 0.0705,
	"step": 2600
	},
	{
	"epoch": 3.740182894029048,
	"grad_norm": 0.19307288848206286,
	"learning_rate": 3.7404912154771626e-05,
	"loss": 0.069,
	"step": 2610
	},
	{
	"epoch": 3.754527523758293,
	"grad_norm": 0.20224114631498458,
	"learning_rate": 3.7002026541279905e-05,
	"loss": 0.069,
	"step": 2620
	},
	{
	"epoch": 3.7688721534875382,
	"grad_norm": 0.19645086260070405,
	"learning_rate": 3.660004399609675e-05,
	"loss": 0.0693,
	"step": 2630
	},
	{
	"epoch": 3.7832167832167833,
	"grad_norm": 0.2009057118393354,
	"learning_rate": 3.619899244801414e-05,
	"loss": 0.0695,
	"step": 2640
	},
	{
	"epoch": 3.7975614129460284,
	"grad_norm": 0.20154345565922616,
	"learning_rate": 3.5798899761140626e-05,
	"loss": 0.0688,
	"step": 2650
	},
	{
	"epoch": 3.8119060426752736,
	"grad_norm": 0.19819908788727933,
	"learning_rate": 3.5399793732965324e-05,
	"loss": 0.0703,
	"step": 2660
	},
	{
	"epoch": 3.8262506724045187,
	"grad_norm": 0.19579772630914064,
	"learning_rate": 3.500170209242671e-05,
	"loss": 0.0673,
	"step": 2670
	},
	{
	"epoch": 3.8405953021337638,
	"grad_norm": 0.1930709905078437,
	"learning_rate": 3.460465249798592e-05,
	"loss": 0.068,
	"step": 2680
	},
	{
	"epoch": 3.854939931863009,
	"grad_norm": 0.19375769656837338,
	"learning_rate": 3.420867253570529e-05,
	"loss": 0.0668,
	"step": 2690
	},
	{
	"epoch": 3.869284561592254,
	"grad_norm": 0.19590535607906298,
	"learning_rate": 3.381378971733161e-05,
	"loss": 0.0658,
	"step": 2700
	},
	{
	"epoch": 3.883629191321499,
	"grad_norm": 0.19485732453673113,
	"learning_rate": 3.342003147838475e-05,
	"loss": 0.0671,
	"step": 2710
	},
	{
	"epoch": 3.897973821050744,
	"grad_norm": 0.19120048275674587,
	"learning_rate": 3.302742517625144e-05,
	"loss": 0.0665,
	"step": 2720
	},
	{
	"epoch": 3.9123184507799893,
	"grad_norm": 0.19464302345990753,
	"learning_rate": 3.2635998088284596e-05,
	"loss": 0.0662,
	"step": 2730
	},
	{
	"epoch": 3.9266630805092344,
	"grad_norm": 0.20017821890333443,
	"learning_rate": 3.224577740990814e-05,
	"loss": 0.0655,
	"step": 2740
	},
	{
	"epoch": 3.9410077102384795,
	"grad_norm": 0.18866754533216776,
	"learning_rate": 3.185679025272753e-05,
	"loss": 0.0663,
	"step": 2750
	},
	{
	"epoch": 3.9553523399677246,
	"grad_norm": 0.19243520237850759,
	"learning_rate": 3.146906364264606e-05,
	"loss": 0.0657,
	"step": 2760
	},
	{
	"epoch": 3.9696969696969697,
	"grad_norm": 0.1924186499329835,
	"learning_rate": 3.108262451798724e-05,
	"loss": 0.0651,
	"step": 2770
	},
	{
	"epoch": 3.984041599426215,
	"grad_norm": 0.21148279808210507,
	"learning_rate": 3.069749972762316e-05,
	"loss": 0.0648,
	"step": 2780
	},
	{
	"epoch": 3.99838622915546,
	"grad_norm": 0.19991640585361364,
	"learning_rate": 3.0313716029109064e-05,
	"loss": 0.0645,
	"step": 2790
	},
	{
	"epoch": 4.011475703783396,
	"grad_norm": 0.13064534629220334,
	"learning_rate": 2.993130008682436e-05,
	"loss": 0.0228,
	"step": 2800
	},
	{
	"epoch": 4.025820333512641,
	"grad_norm": 0.14874535281957305,
	"learning_rate": 2.955027847011993e-05,
	"loss": 0.0176,
	"step": 2810
	},
	{
	"epoch": 4.040164963241886,
	"grad_norm": 0.14336180228683498,
	"learning_rate": 2.917067765147229e-05,
	"loss": 0.0176,
	"step": 2820
	},
	{
	"epoch": 4.054509592971131,
	"grad_norm": 0.12559441494646076,
	"learning_rate": 2.8792524004644283e-05,
	"loss": 0.0167,
	"step": 2830
	},
	{
	"epoch": 4.068854222700376,
	"grad_norm": 0.12484448147694403,
	"learning_rate": 2.8415843802852672e-05,
	"loss": 0.0167,
	"step": 2840
	},
	{
	"epoch": 4.083198852429621,
	"grad_norm": 0.1337296091314726,
	"learning_rate": 2.8040663216942752e-05,
	"loss": 0.0169,
	"step": 2850
	},
	{
	"epoch": 4.0975434821588665,
	"grad_norm": 0.12242456577697475,
	"learning_rate": 2.7667008313570076e-05,
	"loss": 0.0161,
	"step": 2860
	},
	{
	"epoch": 4.111888111888112,
	"grad_norm": 0.13243095768870966,
	"learning_rate": 2.729490505338943e-05,
	"loss": 0.0161,
	"step": 2870
	},
	{
	"epoch": 4.126232741617357,
	"grad_norm": 0.12277718816926177,
	"learning_rate": 2.692437928925109e-05,
	"loss": 0.0157,
	"step": 2880
	},
	{
	"epoch": 4.140577371346602,
	"grad_norm": 0.137540991678628,
	"learning_rate": 2.655545676440464e-05,
	"loss": 0.0159,
	"step": 2890
	},
	{
	"epoch": 4.154922001075847,
	"grad_norm": 0.13131712471544715,
	"learning_rate": 2.6188163110710435e-05,
	"loss": 0.0161,
	"step": 2900
	},
	{
	"epoch": 4.169266630805092,
	"grad_norm": 0.13640835620647865,
	"learning_rate": 2.582252384685874e-05,
	"loss": 0.0164,
	"step": 2910
	},
	{
	"epoch": 4.183611260534337,
	"grad_norm": 0.12543818653508698,
	"learning_rate": 2.5458564376596732e-05,
	"loss": 0.0157,
	"step": 2920
	},
	{
	"epoch": 4.197955890263582,
	"grad_norm": 0.11736167137678152,
	"learning_rate": 2.509630998696349e-05,
	"loss": 0.0154,
	"step": 2930
	},
	{
	"epoch": 4.212300519992827,
	"grad_norm": 0.1245551329001544,
	"learning_rate": 2.473578584653321e-05,
	"loss": 0.0152,
	"step": 2940
	},
	{
	"epoch": 4.2266451497220725,
	"grad_norm": 0.12763631881000323,
	"learning_rate": 2.4377017003666413e-05,
	"loss": 0.0155,
	"step": 2950
	},
	{
	"epoch": 4.240989779451318,
	"grad_norm": 0.13313595943206588,
	"learning_rate": 2.4020028384769795e-05,
	"loss": 0.015,
	"step": 2960
	},
	{
	"epoch": 4.255334409180563,
	"grad_norm": 0.125069284406997,
	"learning_rate": 2.366484479256425e-05,
	"loss": 0.015,
	"step": 2970
	},
	{
	"epoch": 4.269679038909808,
	"grad_norm": 0.13167131954772826,
	"learning_rate": 2.3311490904361738e-05,
	"loss": 0.0159,
	"step": 2980
	},
	{
	"epoch": 4.284023668639053,
	"grad_norm": 0.11344149792986571,
	"learning_rate": 2.295999127035071e-05,
	"loss": 0.0147,
	"step": 2990
	},
	{
	"epoch": 4.298368298368298,
	"grad_norm": 0.1299095136285245,
	"learning_rate": 2.26103703118905e-05,
	"loss": 0.015,
	"step": 3000
	}
	],
	"logging_steps": 10,
	"max_steps": 4188,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 6,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 940152769216512.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}