officeuseaitf2024

Upload checkpoint-2754 from Kaggle training

7dfcd52 verified about 1 month ago

98.1 kB

	{
	"best_global_step": 2754,
	"best_metric": 1.0,
	"best_model_checkpoint": "./results/wallet_deberta_v10/checkpoint-2754",
	"epoch": 0.4001452960406829,
	"eval_steps": 1377,
	"global_step": 2754,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.000726480203414457,
	"grad_norm": 1.474841833114624,
	"learning_rate": 5.809731299927378e-07,
	"loss": 0.6929,
	"step": 5
	},
	{
	"epoch": 0.001452960406828914,
	"grad_norm": 0.7840715646743774,
	"learning_rate": 1.3071895424836602e-06,
	"loss": 0.6982,
	"step": 10
	},
	{
	"epoch": 0.002179440610243371,
	"grad_norm": 0.6173088550567627,
	"learning_rate": 2.0334059549745822e-06,
	"loss": 0.6906,
	"step": 15
	},
	{
	"epoch": 0.002905920813657828,
	"grad_norm": 1.7541619539260864,
	"learning_rate": 2.759622367465505e-06,
	"loss": 0.6917,
	"step": 20
	},
	{
	"epoch": 0.003632401017072285,
	"grad_norm": 1.0843828916549683,
	"learning_rate": 3.4858387799564276e-06,
	"loss": 0.6885,
	"step": 25
	},
	{
	"epoch": 0.004358881220486742,
	"grad_norm": 0.6747203469276428,
	"learning_rate": 4.212055192447349e-06,
	"loss": 0.6854,
	"step": 30
	},
	{
	"epoch": 0.005085361423901199,
	"grad_norm": 2.215040445327759,
	"learning_rate": 4.938271604938272e-06,
	"loss": 0.6895,
	"step": 35
	},
	{
	"epoch": 0.005811841627315656,
	"grad_norm": 1.2605243921279907,
	"learning_rate": 5.664488017429194e-06,
	"loss": 0.6914,
	"step": 40
	},
	{
	"epoch": 0.006538321830730113,
	"grad_norm": 1.5572800636291504,
	"learning_rate": 6.390704429920116e-06,
	"loss": 0.6913,
	"step": 45
	},
	{
	"epoch": 0.00726480203414457,
	"grad_norm": 0.5582659244537354,
	"learning_rate": 7.116920842411038e-06,
	"loss": 0.7015,
	"step": 50
	},
	{
	"epoch": 0.007991282237559027,
	"grad_norm": 2.64322829246521,
	"learning_rate": 7.84313725490196e-06,
	"loss": 0.6883,
	"step": 55
	},
	{
	"epoch": 0.008717762440973484,
	"grad_norm": 0.4942118525505066,
	"learning_rate": 8.569353667392883e-06,
	"loss": 0.6863,
	"step": 60
	},
	{
	"epoch": 0.00944424264438794,
	"grad_norm": 1.1258032321929932,
	"learning_rate": 9.295570079883805e-06,
	"loss": 0.6999,
	"step": 65
	},
	{
	"epoch": 0.010170722847802398,
	"grad_norm": 1.727752923965454,
	"learning_rate": 1.0021786492374727e-05,
	"loss": 0.6932,
	"step": 70
	},
	{
	"epoch": 0.010897203051216855,
	"grad_norm": 1.4421207904815674,
	"learning_rate": 1.0748002904865651e-05,
	"loss": 0.6898,
	"step": 75
	},
	{
	"epoch": 0.011623683254631312,
	"grad_norm": 1.5667537450790405,
	"learning_rate": 1.1474219317356574e-05,
	"loss": 0.6965,
	"step": 80
	},
	{
	"epoch": 0.012350163458045769,
	"grad_norm": 0.44926533102989197,
	"learning_rate": 1.2200435729847496e-05,
	"loss": 0.6929,
	"step": 85
	},
	{
	"epoch": 0.013076643661460226,
	"grad_norm": 0.425881028175354,
	"learning_rate": 1.2926652142338416e-05,
	"loss": 0.6907,
	"step": 90
	},
	{
	"epoch": 0.013803123864874683,
	"grad_norm": 0.4951478838920593,
	"learning_rate": 1.365286855482934e-05,
	"loss": 0.6993,
	"step": 95
	},
	{
	"epoch": 0.01452960406828914,
	"grad_norm": 0.3694448471069336,
	"learning_rate": 1.4379084967320261e-05,
	"loss": 0.6831,
	"step": 100
	},
	{
	"epoch": 0.015256084271703597,
	"grad_norm": 1.17753005027771,
	"learning_rate": 1.5105301379811185e-05,
	"loss": 0.68,
	"step": 105
	},
	{
	"epoch": 0.015982564475118054,
	"grad_norm": 0.611096978187561,
	"learning_rate": 1.5831517792302105e-05,
	"loss": 0.6921,
	"step": 110
	},
	{
	"epoch": 0.01670904467853251,
	"grad_norm": 1.563934087753296,
	"learning_rate": 1.655773420479303e-05,
	"loss": 0.6865,
	"step": 115
	},
	{
	"epoch": 0.017435524881946968,
	"grad_norm": 0.928711473941803,
	"learning_rate": 1.728395061728395e-05,
	"loss": 0.6861,
	"step": 120
	},
	{
	"epoch": 0.018162005085361425,
	"grad_norm": 1.1964377164840698,
	"learning_rate": 1.8010167029774874e-05,
	"loss": 0.7021,
	"step": 125
	},
	{
	"epoch": 0.01888848528877588,
	"grad_norm": 0.3896273970603943,
	"learning_rate": 1.8736383442265794e-05,
	"loss": 0.6918,
	"step": 130
	},
	{
	"epoch": 0.01961496549219034,
	"grad_norm": 0.4799005091190338,
	"learning_rate": 1.946259985475672e-05,
	"loss": 0.6954,
	"step": 135
	},
	{
	"epoch": 0.020341445695604796,
	"grad_norm": 0.6113623380661011,
	"learning_rate": 2.018881626724764e-05,
	"loss": 0.6886,
	"step": 140
	},
	{
	"epoch": 0.021067925899019253,
	"grad_norm": 0.6965861320495605,
	"learning_rate": 2.0915032679738563e-05,
	"loss": 0.6814,
	"step": 145
	},
	{
	"epoch": 0.02179440610243371,
	"grad_norm": 0.46387240290641785,
	"learning_rate": 2.1641249092229483e-05,
	"loss": 0.681,
	"step": 150
	},
	{
	"epoch": 0.022520886305848167,
	"grad_norm": 0.4296594560146332,
	"learning_rate": 2.2367465504720407e-05,
	"loss": 0.6853,
	"step": 155
	},
	{
	"epoch": 0.023247366509262624,
	"grad_norm": 0.8854900002479553,
	"learning_rate": 2.3093681917211328e-05,
	"loss": 0.6784,
	"step": 160
	},
	{
	"epoch": 0.02397384671267708,
	"grad_norm": 0.7150282263755798,
	"learning_rate": 2.3819898329702252e-05,
	"loss": 0.6774,
	"step": 165
	},
	{
	"epoch": 0.024700326916091538,
	"grad_norm": 0.8739128708839417,
	"learning_rate": 2.4546114742193176e-05,
	"loss": 0.6662,
	"step": 170
	},
	{
	"epoch": 0.025426807119505995,
	"grad_norm": 0.7919905781745911,
	"learning_rate": 2.5272331154684096e-05,
	"loss": 0.6601,
	"step": 175
	},
	{
	"epoch": 0.02615328732292045,
	"grad_norm": 0.6220109462738037,
	"learning_rate": 2.599854756717502e-05,
	"loss": 0.649,
	"step": 180
	},
	{
	"epoch": 0.02687976752633491,
	"grad_norm": 0.8708673715591431,
	"learning_rate": 2.672476397966594e-05,
	"loss": 0.6318,
	"step": 185
	},
	{
	"epoch": 0.027606247729749366,
	"grad_norm": 1.0253198146820068,
	"learning_rate": 2.7450980392156865e-05,
	"loss": 0.6025,
	"step": 190
	},
	{
	"epoch": 0.028332727933163823,
	"grad_norm": 1.1449552774429321,
	"learning_rate": 2.817719680464779e-05,
	"loss": 0.5564,
	"step": 195
	},
	{
	"epoch": 0.02905920813657828,
	"grad_norm": 3.2159643173217773,
	"learning_rate": 2.890341321713871e-05,
	"loss": 0.515,
	"step": 200
	},
	{
	"epoch": 0.029785688339992736,
	"grad_norm": 1.912434458732605,
	"learning_rate": 2.962962962962963e-05,
	"loss": 0.4635,
	"step": 205
	},
	{
	"epoch": 0.030512168543407193,
	"grad_norm": 1.9808599948883057,
	"learning_rate": 3.0355846042120557e-05,
	"loss": 0.4233,
	"step": 210
	},
	{
	"epoch": 0.03123864874682165,
	"grad_norm": 1.929961085319519,
	"learning_rate": 3.1082062454611474e-05,
	"loss": 0.3505,
	"step": 215
	},
	{
	"epoch": 0.03196512895023611,
	"grad_norm": 2.4213836193084717,
	"learning_rate": 3.1808278867102395e-05,
	"loss": 0.3079,
	"step": 220
	},
	{
	"epoch": 0.03269160915365056,
	"grad_norm": 8.767487525939941,
	"learning_rate": 3.2534495279593316e-05,
	"loss": 0.2805,
	"step": 225
	},
	{
	"epoch": 0.03341808935706502,
	"grad_norm": 6.868554592132568,
	"learning_rate": 3.326071169208424e-05,
	"loss": 0.2501,
	"step": 230
	},
	{
	"epoch": 0.034144569560479475,
	"grad_norm": 10.502647399902344,
	"learning_rate": 3.3986928104575163e-05,
	"loss": 0.2505,
	"step": 235
	},
	{
	"epoch": 0.034871049763893935,
	"grad_norm": 2.8313727378845215,
	"learning_rate": 3.471314451706609e-05,
	"loss": 0.2265,
	"step": 240
	},
	{
	"epoch": 0.03559752996730839,
	"grad_norm": 4.173934459686279,
	"learning_rate": 3.543936092955701e-05,
	"loss": 0.2045,
	"step": 245
	},
	{
	"epoch": 0.03632401017072285,
	"grad_norm": 1.775830626487732,
	"learning_rate": 3.616557734204793e-05,
	"loss": 0.1584,
	"step": 250
	},
	{
	"epoch": 0.0370504903741373,
	"grad_norm": 3.129055976867676,
	"learning_rate": 3.689179375453886e-05,
	"loss": 0.131,
	"step": 255
	},
	{
	"epoch": 0.03777697057755176,
	"grad_norm": 4.053362846374512,
	"learning_rate": 3.761801016702978e-05,
	"loss": 0.1333,
	"step": 260
	},
	{
	"epoch": 0.03850345078096622,
	"grad_norm": 3.1923694610595703,
	"learning_rate": 3.83442265795207e-05,
	"loss": 0.1734,
	"step": 265
	},
	{
	"epoch": 0.03922993098438068,
	"grad_norm": 4.751387119293213,
	"learning_rate": 3.907044299201162e-05,
	"loss": 0.1296,
	"step": 270
	},
	{
	"epoch": 0.03995641118779513,
	"grad_norm": 1.9991039037704468,
	"learning_rate": 3.979665940450255e-05,
	"loss": 0.1297,
	"step": 275
	},
	{
	"epoch": 0.04068289139120959,
	"grad_norm": 5.077785015106201,
	"learning_rate": 4.052287581699347e-05,
	"loss": 0.1127,
	"step": 280
	},
	{
	"epoch": 0.041409371594624045,
	"grad_norm": 3.6270077228546143,
	"learning_rate": 4.124909222948439e-05,
	"loss": 0.1125,
	"step": 285
	},
	{
	"epoch": 0.042135851798038505,
	"grad_norm": 1.017204999923706,
	"learning_rate": 4.197530864197531e-05,
	"loss": 0.0802,
	"step": 290
	},
	{
	"epoch": 0.04286233200145296,
	"grad_norm": 1.492018222808838,
	"learning_rate": 4.270152505446624e-05,
	"loss": 0.1008,
	"step": 295
	},
	{
	"epoch": 0.04358881220486742,
	"grad_norm": 1.7372925281524658,
	"learning_rate": 4.342774146695716e-05,
	"loss": 0.1172,
	"step": 300
	},
	{
	"epoch": 0.04431529240828187,
	"grad_norm": 2.817929983139038,
	"learning_rate": 4.415395787944808e-05,
	"loss": 0.1096,
	"step": 305
	},
	{
	"epoch": 0.04504177261169633,
	"grad_norm": 0.9688124656677246,
	"learning_rate": 4.4880174291939e-05,
	"loss": 0.0663,
	"step": 310
	},
	{
	"epoch": 0.04576825281511079,
	"grad_norm": 3.9759960174560547,
	"learning_rate": 4.5606390704429926e-05,
	"loss": 0.0706,
	"step": 315
	},
	{
	"epoch": 0.04649473301852525,
	"grad_norm": 5.014834880828857,
	"learning_rate": 4.633260711692085e-05,
	"loss": 0.0681,
	"step": 320
	},
	{
	"epoch": 0.0472212132219397,
	"grad_norm": 3.1871182918548584,
	"learning_rate": 4.705882352941177e-05,
	"loss": 0.0934,
	"step": 325
	},
	{
	"epoch": 0.04794769342535416,
	"grad_norm": 5.145167350769043,
	"learning_rate": 4.778503994190269e-05,
	"loss": 0.0777,
	"step": 330
	},
	{
	"epoch": 0.048674173628768615,
	"grad_norm": 6.0013275146484375,
	"learning_rate": 4.8511256354393615e-05,
	"loss": 0.0825,
	"step": 335
	},
	{
	"epoch": 0.049400653832183075,
	"grad_norm": 0.9712790250778198,
	"learning_rate": 4.9237472766884536e-05,
	"loss": 0.0417,
	"step": 340
	},
	{
	"epoch": 0.05012713403559753,
	"grad_norm": 1.4921551942825317,
	"learning_rate": 4.9963689179375456e-05,
	"loss": 0.0316,
	"step": 345
	},
	{
	"epoch": 0.05085361423901199,
	"grad_norm": 4.556818008422852,
	"learning_rate": 5.0689905591866384e-05,
	"loss": 0.0592,
	"step": 350
	},
	{
	"epoch": 0.05158009444242644,
	"grad_norm": 2.8250820636749268,
	"learning_rate": 5.1416122004357304e-05,
	"loss": 0.0591,
	"step": 355
	},
	{
	"epoch": 0.0523065746458409,
	"grad_norm": 2.345460891723633,
	"learning_rate": 5.2142338416848225e-05,
	"loss": 0.073,
	"step": 360
	},
	{
	"epoch": 0.05303305484925536,
	"grad_norm": 0.44890037178993225,
	"learning_rate": 5.2868554829339145e-05,
	"loss": 0.057,
	"step": 365
	},
	{
	"epoch": 0.05375953505266982,
	"grad_norm": 1.1340672969818115,
	"learning_rate": 5.3594771241830066e-05,
	"loss": 0.0466,
	"step": 370
	},
	{
	"epoch": 0.05448601525608427,
	"grad_norm": 0.7642996311187744,
	"learning_rate": 5.4320987654320986e-05,
	"loss": 0.0437,
	"step": 375
	},
	{
	"epoch": 0.05521249545949873,
	"grad_norm": 4.866988658905029,
	"learning_rate": 5.504720406681191e-05,
	"loss": 0.0654,
	"step": 380
	},
	{
	"epoch": 0.055938975662913185,
	"grad_norm": 0.9396504163742065,
	"learning_rate": 5.577342047930284e-05,
	"loss": 0.0184,
	"step": 385
	},
	{
	"epoch": 0.056665455866327645,
	"grad_norm": 0.5176196098327637,
	"learning_rate": 5.649963689179376e-05,
	"loss": 0.0208,
	"step": 390
	},
	{
	"epoch": 0.0573919360697421,
	"grad_norm": 4.328392028808594,
	"learning_rate": 5.722585330428468e-05,
	"loss": 0.0186,
	"step": 395
	},
	{
	"epoch": 0.05811841627315656,
	"grad_norm": 6.72576379776001,
	"learning_rate": 5.79520697167756e-05,
	"loss": 0.0311,
	"step": 400
	},
	{
	"epoch": 0.05884489647657101,
	"grad_norm": 10.39561653137207,
	"learning_rate": 5.8678286129266523e-05,
	"loss": 0.0453,
	"step": 405
	},
	{
	"epoch": 0.05957137667998547,
	"grad_norm": 8.84882926940918,
	"learning_rate": 5.9404502541757444e-05,
	"loss": 0.0821,
	"step": 410
	},
	{
	"epoch": 0.060297856883399926,
	"grad_norm": 0.5676841735839844,
	"learning_rate": 6.0130718954248365e-05,
	"loss": 0.1021,
	"step": 415
	},
	{
	"epoch": 0.06102433708681439,
	"grad_norm": 3.4484715461730957,
	"learning_rate": 6.0856935366739285e-05,
	"loss": 0.0397,
	"step": 420
	},
	{
	"epoch": 0.06175081729022884,
	"grad_norm": 8.414154052734375,
	"learning_rate": 6.158315177923021e-05,
	"loss": 0.0864,
	"step": 425
	},
	{
	"epoch": 0.0624772974936433,
	"grad_norm": 5.502734184265137,
	"learning_rate": 6.230936819172115e-05,
	"loss": 0.0313,
	"step": 430
	},
	{
	"epoch": 0.06320377769705776,
	"grad_norm": 6.950675964355469,
	"learning_rate": 6.303558460421207e-05,
	"loss": 0.0271,
	"step": 435
	},
	{
	"epoch": 0.06393025790047221,
	"grad_norm": 2.7828145027160645,
	"learning_rate": 6.376180101670299e-05,
	"loss": 0.016,
	"step": 440
	},
	{
	"epoch": 0.06465673810388667,
	"grad_norm": 4.585832118988037,
	"learning_rate": 6.448801742919391e-05,
	"loss": 0.0402,
	"step": 445
	},
	{
	"epoch": 0.06538321830730112,
	"grad_norm": 5.096743106842041,
	"learning_rate": 6.521423384168483e-05,
	"loss": 0.0719,
	"step": 450
	},
	{
	"epoch": 0.06610969851071559,
	"grad_norm": 5.883689880371094,
	"learning_rate": 6.594045025417575e-05,
	"loss": 0.0691,
	"step": 455
	},
	{
	"epoch": 0.06683617871413004,
	"grad_norm": 1.7454990148544312,
	"learning_rate": 6.666666666666667e-05,
	"loss": 0.0504,
	"step": 460
	},
	{
	"epoch": 0.0675626589175445,
	"grad_norm": 2.231943368911743,
	"learning_rate": 6.739288307915759e-05,
	"loss": 0.0184,
	"step": 465
	},
	{
	"epoch": 0.06828913912095895,
	"grad_norm": 4.1820268630981445,
	"learning_rate": 6.811909949164852e-05,
	"loss": 0.025,
	"step": 470
	},
	{
	"epoch": 0.06901561932437342,
	"grad_norm": 0.06752662360668182,
	"learning_rate": 6.884531590413945e-05,
	"loss": 0.0061,
	"step": 475
	},
	{
	"epoch": 0.06974209952778787,
	"grad_norm": 0.034968651831150055,
	"learning_rate": 6.957153231663037e-05,
	"loss": 0.0246,
	"step": 480
	},
	{
	"epoch": 0.07046857973120232,
	"grad_norm": 4.133062839508057,
	"learning_rate": 7.029774872912129e-05,
	"loss": 0.0483,
	"step": 485
	},
	{
	"epoch": 0.07119505993461678,
	"grad_norm": 0.14520829916000366,
	"learning_rate": 7.10239651416122e-05,
	"loss": 0.0242,
	"step": 490
	},
	{
	"epoch": 0.07192154013803125,
	"grad_norm": 0.08248770982027054,
	"learning_rate": 7.175018155410313e-05,
	"loss": 0.0389,
	"step": 495
	},
	{
	"epoch": 0.0726480203414457,
	"grad_norm": 0.09677606076002121,
	"learning_rate": 7.247639796659405e-05,
	"loss": 0.0813,
	"step": 500
	},
	{
	"epoch": 0.07337450054486015,
	"grad_norm": 2.2317094802856445,
	"learning_rate": 7.320261437908497e-05,
	"loss": 0.0425,
	"step": 505
	},
	{
	"epoch": 0.0741009807482746,
	"grad_norm": 0.9524332284927368,
	"learning_rate": 7.39288307915759e-05,
	"loss": 0.0165,
	"step": 510
	},
	{
	"epoch": 0.07482746095168907,
	"grad_norm": 1.2688440084457397,
	"learning_rate": 7.465504720406682e-05,
	"loss": 0.0376,
	"step": 515
	},
	{
	"epoch": 0.07555394115510353,
	"grad_norm": 0.5410459637641907,
	"learning_rate": 7.538126361655774e-05,
	"loss": 0.0132,
	"step": 520
	},
	{
	"epoch": 0.07628042135851798,
	"grad_norm": 1.0646350383758545,
	"learning_rate": 7.610748002904866e-05,
	"loss": 0.0357,
	"step": 525
	},
	{
	"epoch": 0.07700690156193243,
	"grad_norm": 0.05422890931367874,
	"learning_rate": 7.683369644153958e-05,
	"loss": 0.0024,
	"step": 530
	},
	{
	"epoch": 0.0777333817653469,
	"grad_norm": 1.7686655521392822,
	"learning_rate": 7.75599128540305e-05,
	"loss": 0.011,
	"step": 535
	},
	{
	"epoch": 0.07845986196876135,
	"grad_norm": 1.7055928707122803,
	"learning_rate": 7.828612926652143e-05,
	"loss": 0.0283,
	"step": 540
	},
	{
	"epoch": 0.07918634217217581,
	"grad_norm": 7.1870245933532715,
	"learning_rate": 7.901234567901235e-05,
	"loss": 0.0255,
	"step": 545
	},
	{
	"epoch": 0.07991282237559026,
	"grad_norm": 4.143937110900879,
	"learning_rate": 7.973856209150328e-05,
	"loss": 0.0163,
	"step": 550
	},
	{
	"epoch": 0.08063930257900472,
	"grad_norm": 2.7253036499023438,
	"learning_rate": 8.04647785039942e-05,
	"loss": 0.0356,
	"step": 555
	},
	{
	"epoch": 0.08136578278241918,
	"grad_norm": 0.1260932832956314,
	"learning_rate": 8.119099491648512e-05,
	"loss": 0.0897,
	"step": 560
	},
	{
	"epoch": 0.08209226298583364,
	"grad_norm": 0.8739075064659119,
	"learning_rate": 8.191721132897604e-05,
	"loss": 0.0212,
	"step": 565
	},
	{
	"epoch": 0.08281874318924809,
	"grad_norm": 0.07976645231246948,
	"learning_rate": 8.264342774146696e-05,
	"loss": 0.0202,
	"step": 570
	},
	{
	"epoch": 0.08354522339266254,
	"grad_norm": 3.089498996734619,
	"learning_rate": 8.336964415395788e-05,
	"loss": 0.0288,
	"step": 575
	},
	{
	"epoch": 0.08427170359607701,
	"grad_norm": 1.1282787322998047,
	"learning_rate": 8.40958605664488e-05,
	"loss": 0.0236,
	"step": 580
	},
	{
	"epoch": 0.08499818379949146,
	"grad_norm": 2.50753116607666,
	"learning_rate": 8.482207697893972e-05,
	"loss": 0.0491,
	"step": 585
	},
	{
	"epoch": 0.08572466400290592,
	"grad_norm": 15.398341178894043,
	"learning_rate": 8.554829339143065e-05,
	"loss": 0.0541,
	"step": 590
	},
	{
	"epoch": 0.08645114420632037,
	"grad_norm": 0.3026963174343109,
	"learning_rate": 8.627450980392158e-05,
	"loss": 0.0053,
	"step": 595
	},
	{
	"epoch": 0.08717762440973484,
	"grad_norm": 0.12404945492744446,
	"learning_rate": 8.70007262164125e-05,
	"loss": 0.0404,
	"step": 600
	},
	{
	"epoch": 0.08790410461314929,
	"grad_norm": 0.9239891767501831,
	"learning_rate": 8.772694262890342e-05,
	"loss": 0.0221,
	"step": 605
	},
	{
	"epoch": 0.08863058481656375,
	"grad_norm": 1.404173493385315,
	"learning_rate": 8.845315904139434e-05,
	"loss": 0.0122,
	"step": 610
	},
	{
	"epoch": 0.0893570650199782,
	"grad_norm": 3.049877405166626,
	"learning_rate": 8.917937545388526e-05,
	"loss": 0.02,
	"step": 615
	},
	{
	"epoch": 0.09008354522339267,
	"grad_norm": 0.6122508645057678,
	"learning_rate": 8.990559186637618e-05,
	"loss": 0.0191,
	"step": 620
	},
	{
	"epoch": 0.09081002542680712,
	"grad_norm": 0.021131640300154686,
	"learning_rate": 9.06318082788671e-05,
	"loss": 0.0257,
	"step": 625
	},
	{
	"epoch": 0.09153650563022157,
	"grad_norm": 1.1997209787368774,
	"learning_rate": 9.135802469135802e-05,
	"loss": 0.0067,
	"step": 630
	},
	{
	"epoch": 0.09226298583363603,
	"grad_norm": 2.1676833629608154,
	"learning_rate": 9.208424110384896e-05,
	"loss": 0.0078,
	"step": 635
	},
	{
	"epoch": 0.0929894660370505,
	"grad_norm": 0.29366588592529297,
	"learning_rate": 9.281045751633988e-05,
	"loss": 0.0052,
	"step": 640
	},
	{
	"epoch": 0.09371594624046495,
	"grad_norm": 0.6021141409873962,
	"learning_rate": 9.35366739288308e-05,
	"loss": 0.0147,
	"step": 645
	},
	{
	"epoch": 0.0944424264438794,
	"grad_norm": 0.05590349808335304,
	"learning_rate": 9.426289034132172e-05,
	"loss": 0.0041,
	"step": 650
	},
	{
	"epoch": 0.09516890664729385,
	"grad_norm": 0.010648532770574093,
	"learning_rate": 9.498910675381264e-05,
	"loss": 0.0004,
	"step": 655
	},
	{
	"epoch": 0.09589538685070832,
	"grad_norm": 0.6512329578399658,
	"learning_rate": 9.571532316630356e-05,
	"loss": 0.0057,
	"step": 660
	},
	{
	"epoch": 0.09662186705412278,
	"grad_norm": 0.040556080639362335,
	"learning_rate": 9.644153957879448e-05,
	"loss": 0.0006,
	"step": 665
	},
	{
	"epoch": 0.09734834725753723,
	"grad_norm": 0.03349559009075165,
	"learning_rate": 9.71677559912854e-05,
	"loss": 0.0025,
	"step": 670
	},
	{
	"epoch": 0.09807482746095168,
	"grad_norm": 0.22619083523750305,
	"learning_rate": 9.789397240377634e-05,
	"loss": 0.0008,
	"step": 675
	},
	{
	"epoch": 0.09880130766436615,
	"grad_norm": 0.005620414856821299,
	"learning_rate": 9.862018881626726e-05,
	"loss": 0.0004,
	"step": 680
	},
	{
	"epoch": 0.0995277878677806,
	"grad_norm": 0.05560583993792534,
	"learning_rate": 9.934640522875818e-05,
	"loss": 0.0115,
	"step": 685
	},
	{
	"epoch": 0.10025426807119506,
	"grad_norm": 0.003737515537068248,
	"learning_rate": 0.00010007262164124908,
	"loss": 0.006,
	"step": 690
	},
	{
	"epoch": 0.10098074827460951,
	"grad_norm": 4.636546611785889,
	"learning_rate": 0.00010079883805374002,
	"loss": 0.0039,
	"step": 695
	},
	{
	"epoch": 0.10170722847802398,
	"grad_norm": 0.0036786955315619707,
	"learning_rate": 0.00010152505446623095,
	"loss": 0.0193,
	"step": 700
	},
	{
	"epoch": 0.10243370868143843,
	"grad_norm": 1.0555495023727417,
	"learning_rate": 0.00010225127087872186,
	"loss": 0.024,
	"step": 705
	},
	{
	"epoch": 0.10316018888485289,
	"grad_norm": 0.32569730281829834,
	"learning_rate": 0.00010297748729121279,
	"loss": 0.0168,
	"step": 710
	},
	{
	"epoch": 0.10388666908826734,
	"grad_norm": 0.6908342242240906,
	"learning_rate": 0.0001037037037037037,
	"loss": 0.0359,
	"step": 715
	},
	{
	"epoch": 0.1046131492916818,
	"grad_norm": 0.044849053025245667,
	"learning_rate": 0.00010442992011619463,
	"loss": 0.0009,
	"step": 720
	},
	{
	"epoch": 0.10533962949509626,
	"grad_norm": 0.011313475668430328,
	"learning_rate": 0.00010515613652868554,
	"loss": 0.0003,
	"step": 725
	},
	{
	"epoch": 0.10606610969851071,
	"grad_norm": 0.011058060452342033,
	"learning_rate": 0.00010588235294117647,
	"loss": 0.0047,
	"step": 730
	},
	{
	"epoch": 0.10679258990192517,
	"grad_norm": 0.013103635981678963,
	"learning_rate": 0.00010660856935366741,
	"loss": 0.0005,
	"step": 735
	},
	{
	"epoch": 0.10751907010533963,
	"grad_norm": 0.0076889158226549625,
	"learning_rate": 0.00010733478576615832,
	"loss": 0.0122,
	"step": 740
	},
	{
	"epoch": 0.10824555030875409,
	"grad_norm": 0.6621626019477844,
	"learning_rate": 0.00010806100217864925,
	"loss": 0.0027,
	"step": 745
	},
	{
	"epoch": 0.10897203051216854,
	"grad_norm": 1.037239670753479,
	"learning_rate": 0.00010878721859114016,
	"loss": 0.0385,
	"step": 750
	},
	{
	"epoch": 0.109698510715583,
	"grad_norm": 0.11858850717544556,
	"learning_rate": 0.00010951343500363109,
	"loss": 0.0522,
	"step": 755
	},
	{
	"epoch": 0.11042499091899746,
	"grad_norm": 3.902498245239258,
	"learning_rate": 0.000110239651416122,
	"loss": 0.0037,
	"step": 760
	},
	{
	"epoch": 0.11115147112241192,
	"grad_norm": 0.03190886229276657,
	"learning_rate": 0.00011096586782861293,
	"loss": 0.0092,
	"step": 765
	},
	{
	"epoch": 0.11187795132582637,
	"grad_norm": 0.028368664905428886,
	"learning_rate": 0.00011169208424110384,
	"loss": 0.0011,
	"step": 770
	},
	{
	"epoch": 0.11260443152924082,
	"grad_norm": 1.0788954496383667,
	"learning_rate": 0.00011241830065359477,
	"loss": 0.0205,
	"step": 775
	},
	{
	"epoch": 0.11333091173265529,
	"grad_norm": 0.10793304443359375,
	"learning_rate": 0.00011314451706608571,
	"loss": 0.0128,
	"step": 780
	},
	{
	"epoch": 0.11405739193606974,
	"grad_norm": 1.4622502326965332,
	"learning_rate": 0.00011387073347857661,
	"loss": 0.0525,
	"step": 785
	},
	{
	"epoch": 0.1147838721394842,
	"grad_norm": 0.43396472930908203,
	"learning_rate": 0.00011459694989106755,
	"loss": 0.0016,
	"step": 790
	},
	{
	"epoch": 0.11551035234289865,
	"grad_norm": 2.9861035346984863,
	"learning_rate": 0.00011532316630355846,
	"loss": 0.0138,
	"step": 795
	},
	{
	"epoch": 0.11623683254631312,
	"grad_norm": 14.586094856262207,
	"learning_rate": 0.00011604938271604939,
	"loss": 0.1007,
	"step": 800
	},
	{
	"epoch": 0.11696331274972757,
	"grad_norm": 0.014536268077790737,
	"learning_rate": 0.0001167755991285403,
	"loss": 0.0147,
	"step": 805
	},
	{
	"epoch": 0.11768979295314203,
	"grad_norm": 0.05354047194123268,
	"learning_rate": 0.00011750181554103123,
	"loss": 0.0176,
	"step": 810
	},
	{
	"epoch": 0.11841627315655648,
	"grad_norm": 0.3078368902206421,
	"learning_rate": 0.00011822803195352215,
	"loss": 0.0049,
	"step": 815
	},
	{
	"epoch": 0.11914275335997095,
	"grad_norm": 0.011014469899237156,
	"learning_rate": 0.00011895424836601307,
	"loss": 0.0035,
	"step": 820
	},
	{
	"epoch": 0.1198692335633854,
	"grad_norm": 0.5486952662467957,
	"learning_rate": 0.000119680464778504,
	"loss": 0.0168,
	"step": 825
	},
	{
	"epoch": 0.12059571376679985,
	"grad_norm": 0.02629510499536991,
	"learning_rate": 0.00012040668119099491,
	"loss": 0.001,
	"step": 830
	},
	{
	"epoch": 0.1213221939702143,
	"grad_norm": 0.019840385764837265,
	"learning_rate": 0.00012113289760348585,
	"loss": 0.0037,
	"step": 835
	},
	{
	"epoch": 0.12204867417362877,
	"grad_norm": 1.3649095296859741,
	"learning_rate": 0.00012185911401597675,
	"loss": 0.0133,
	"step": 840
	},
	{
	"epoch": 0.12277515437704323,
	"grad_norm": 0.025183813646435738,
	"learning_rate": 0.0001225853304284677,
	"loss": 0.0006,
	"step": 845
	},
	{
	"epoch": 0.12350163458045768,
	"grad_norm": 0.07554338127374649,
	"learning_rate": 0.0001233115468409586,
	"loss": 0.0041,
	"step": 850
	},
	{
	"epoch": 0.12422811478387213,
	"grad_norm": 0.04600398242473602,
	"learning_rate": 0.00012403776325344953,
	"loss": 0.0022,
	"step": 855
	},
	{
	"epoch": 0.1249545949872866,
	"grad_norm": 4.709814548492432,
	"learning_rate": 0.00012476397966594048,
	"loss": 0.0037,
	"step": 860
	},
	{
	"epoch": 0.12568107519070104,
	"grad_norm": 0.020981954410672188,
	"learning_rate": 0.00012549019607843137,
	"loss": 0.0121,
	"step": 865
	},
	{
	"epoch": 0.12640755539411552,
	"grad_norm": 0.3170248866081238,
	"learning_rate": 0.00012621641249092232,
	"loss": 0.0027,
	"step": 870
	},
	{
	"epoch": 0.12713403559752998,
	"grad_norm": 0.01148161105811596,
	"learning_rate": 0.0001269426289034132,
	"loss": 0.0005,
	"step": 875
	},
	{
	"epoch": 0.12786051580094443,
	"grad_norm": 0.005348953418433666,
	"learning_rate": 0.00012766884531590416,
	"loss": 0.0002,
	"step": 880
	},
	{
	"epoch": 0.12858699600435888,
	"grad_norm": 3.101860761642456,
	"learning_rate": 0.00012839506172839505,
	"loss": 0.0038,
	"step": 885
	},
	{
	"epoch": 0.12931347620777334,
	"grad_norm": 2.680506706237793,
	"learning_rate": 0.000129121278140886,
	"loss": 0.0472,
	"step": 890
	},
	{
	"epoch": 0.1300399564111878,
	"grad_norm": 22.780397415161133,
	"learning_rate": 0.0001298474945533769,
	"loss": 0.0232,
	"step": 895
	},
	{
	"epoch": 0.13076643661460224,
	"grad_norm": 0.08615617454051971,
	"learning_rate": 0.00013057371096586784,
	"loss": 0.0278,
	"step": 900
	},
	{
	"epoch": 0.1314929168180167,
	"grad_norm": 0.4959210455417633,
	"learning_rate": 0.00013129992737835876,
	"loss": 0.0007,
	"step": 905
	},
	{
	"epoch": 0.13221939702143118,
	"grad_norm": 0.0067051006481051445,
	"learning_rate": 0.00013202614379084968,
	"loss": 0.0167,
	"step": 910
	},
	{
	"epoch": 0.13294587722484563,
	"grad_norm": 10.88768482208252,
	"learning_rate": 0.0001327523602033406,
	"loss": 0.0682,
	"step": 915
	},
	{
	"epoch": 0.13367235742826009,
	"grad_norm": 0.007390011567622423,
	"learning_rate": 0.00013347857661583152,
	"loss": 0.0003,
	"step": 920
	},
	{
	"epoch": 0.13439883763167454,
	"grad_norm": 0.12825822830200195,
	"learning_rate": 0.00013420479302832244,
	"loss": 0.0244,
	"step": 925
	},
	{
	"epoch": 0.135125317835089,
	"grad_norm": 0.8949776291847229,
	"learning_rate": 0.00013493100944081336,
	"loss": 0.0214,
	"step": 930
	},
	{
	"epoch": 0.13585179803850345,
	"grad_norm": 0.007870912551879883,
	"learning_rate": 0.00013565722585330429,
	"loss": 0.0004,
	"step": 935
	},
	{
	"epoch": 0.1365782782419179,
	"grad_norm": 0.013382726348936558,
	"learning_rate": 0.0001363834422657952,
	"loss": 0.0004,
	"step": 940
	},
	{
	"epoch": 0.13730475844533235,
	"grad_norm": 0.037289395928382874,
	"learning_rate": 0.00013710965867828613,
	"loss": 0.0012,
	"step": 945
	},
	{
	"epoch": 0.13803123864874683,
	"grad_norm": 0.9494091272354126,
	"learning_rate": 0.00013783587509077707,
	"loss": 0.0249,
	"step": 950
	},
	{
	"epoch": 0.1387577188521613,
	"grad_norm": 2.1269211769104004,
	"learning_rate": 0.00013856209150326797,
	"loss": 0.0041,
	"step": 955
	},
	{
	"epoch": 0.13948419905557574,
	"grad_norm": 0.03475005179643631,
	"learning_rate": 0.00013928830791575892,
	"loss": 0.0039,
	"step": 960
	},
	{
	"epoch": 0.1402106792589902,
	"grad_norm": 0.778325080871582,
	"learning_rate": 0.0001400145243282498,
	"loss": 0.0044,
	"step": 965
	},
	{
	"epoch": 0.14093715946240465,
	"grad_norm": 0.06391960382461548,
	"learning_rate": 0.00014074074074074076,
	"loss": 0.0011,
	"step": 970
	},
	{
	"epoch": 0.1416636396658191,
	"grad_norm": 0.015311076305806637,
	"learning_rate": 0.00014146695715323165,
	"loss": 0.0156,
	"step": 975
	},
	{
	"epoch": 0.14239011986923356,
	"grad_norm": 0.005620781797915697,
	"learning_rate": 0.0001421931735657226,
	"loss": 0.0005,
	"step": 980
	},
	{
	"epoch": 0.143116600072648,
	"grad_norm": 0.006361651234328747,
	"learning_rate": 0.00014291938997821352,
	"loss": 0.0173,
	"step": 985
	},
	{
	"epoch": 0.1438430802760625,
	"grad_norm": 0.6632714867591858,
	"learning_rate": 0.00014364560639070444,
	"loss": 0.0008,
	"step": 990
	},
	{
	"epoch": 0.14456956047947694,
	"grad_norm": 3.7890255451202393,
	"learning_rate": 0.00014437182280319536,
	"loss": 0.0591,
	"step": 995
	},
	{
	"epoch": 0.1452960406828914,
	"grad_norm": 4.573298454284668,
	"learning_rate": 0.00014509803921568628,
	"loss": 0.0182,
	"step": 1000
	},
	{
	"epoch": 0.14602252088630585,
	"grad_norm": 0.18653298914432526,
	"learning_rate": 0.0001458242556281772,
	"loss": 0.011,
	"step": 1005
	},
	{
	"epoch": 0.1467490010897203,
	"grad_norm": 0.0030135358683764935,
	"learning_rate": 0.00014655047204066812,
	"loss": 0.017,
	"step": 1010
	},
	{
	"epoch": 0.14747548129313476,
	"grad_norm": 13.294329643249512,
	"learning_rate": 0.00014727668845315904,
	"loss": 0.0359,
	"step": 1015
	},
	{
	"epoch": 0.1482019614965492,
	"grad_norm": 1.0047153234481812,
	"learning_rate": 0.00014800290486564996,
	"loss": 0.0014,
	"step": 1020
	},
	{
	"epoch": 0.14892844169996367,
	"grad_norm": 0.0042244489304721355,
	"learning_rate": 0.00014872912127814088,
	"loss": 0.0008,
	"step": 1025
	},
	{
	"epoch": 0.14965492190337815,
	"grad_norm": 0.005744027905166149,
	"learning_rate": 0.00014945533769063183,
	"loss": 0.0005,
	"step": 1030
	},
	{
	"epoch": 0.1503814021067926,
	"grad_norm": 0.0027218873146921396,
	"learning_rate": 0.00015018155410312272,
	"loss": 0.0009,
	"step": 1035
	},
	{
	"epoch": 0.15110788231020705,
	"grad_norm": 1.5683510303497314,
	"learning_rate": 0.00015090777051561367,
	"loss": 0.0009,
	"step": 1040
	},
	{
	"epoch": 0.1518343625136215,
	"grad_norm": 0.0024358402006328106,
	"learning_rate": 0.00015163398692810456,
	"loss": 0.0008,
	"step": 1045
	},
	{
	"epoch": 0.15256084271703596,
	"grad_norm": 0.0035784540232270956,
	"learning_rate": 0.0001523602033405955,
	"loss": 0.0217,
	"step": 1050
	},
	{
	"epoch": 0.15328732292045041,
	"grad_norm": 0.017342494800686836,
	"learning_rate": 0.0001530864197530864,
	"loss": 0.0002,
	"step": 1055
	},
	{
	"epoch": 0.15401380312386487,
	"grad_norm": 0.0023592431098222733,
	"learning_rate": 0.00015381263616557735,
	"loss": 0.0001,
	"step": 1060
	},
	{
	"epoch": 0.15474028332727932,
	"grad_norm": 0.0029132033232599497,
	"learning_rate": 0.00015453885257806827,
	"loss": 0.0002,
	"step": 1065
	},
	{
	"epoch": 0.1554667635306938,
	"grad_norm": 5.089969158172607,
	"learning_rate": 0.0001552650689905592,
	"loss": 0.0124,
	"step": 1070
	},
	{
	"epoch": 0.15619324373410826,
	"grad_norm": 0.0020955149084329605,
	"learning_rate": 0.00015599128540305012,
	"loss": 0.0002,
	"step": 1075
	},
	{
	"epoch": 0.1569197239375227,
	"grad_norm": 0.001827805070206523,
	"learning_rate": 0.00015671750181554104,
	"loss": 0.0026,
	"step": 1080
	},
	{
	"epoch": 0.15764620414093716,
	"grad_norm": 0.0018593213753774762,
	"learning_rate": 0.00015744371822803196,
	"loss": 0.0001,
	"step": 1085
	},
	{
	"epoch": 0.15837268434435162,
	"grad_norm": 8.548373222351074,
	"learning_rate": 0.00015816993464052288,
	"loss": 0.0116,
	"step": 1090
	},
	{
	"epoch": 0.15909916454776607,
	"grad_norm": 0.003052167361602187,
	"learning_rate": 0.0001588961510530138,
	"loss": 0.023,
	"step": 1095
	},
	{
	"epoch": 0.15982564475118052,
	"grad_norm": 0.01510961726307869,
	"learning_rate": 0.00015962236746550472,
	"loss": 0.0003,
	"step": 1100
	},
	{
	"epoch": 0.16055212495459498,
	"grad_norm": 0.006872969213873148,
	"learning_rate": 0.00016034858387799564,
	"loss": 0.0008,
	"step": 1105
	},
	{
	"epoch": 0.16127860515800943,
	"grad_norm": 0.0075376201421022415,
	"learning_rate": 0.00016107480029048659,
	"loss": 0.001,
	"step": 1110
	},
	{
	"epoch": 0.1620050853614239,
	"grad_norm": 1.308592438697815,
	"learning_rate": 0.00016180101670297748,
	"loss": 0.0206,
	"step": 1115
	},
	{
	"epoch": 0.16273156556483837,
	"grad_norm": 0.01441910769790411,
	"learning_rate": 0.00016252723311546843,
	"loss": 0.0003,
	"step": 1120
	},
	{
	"epoch": 0.16345804576825282,
	"grad_norm": 4.73635721206665,
	"learning_rate": 0.00016325344952795935,
	"loss": 0.0048,
	"step": 1125
	},
	{
	"epoch": 0.16418452597166727,
	"grad_norm": 0.07317811995744705,
	"learning_rate": 0.00016397966594045027,
	"loss": 0.0079,
	"step": 1130
	},
	{
	"epoch": 0.16491100617508173,
	"grad_norm": 3.066941976547241,
	"learning_rate": 0.0001647058823529412,
	"loss": 0.0245,
	"step": 1135
	},
	{
	"epoch": 0.16563748637849618,
	"grad_norm": 0.20101045072078705,
	"learning_rate": 0.0001654320987654321,
	"loss": 0.0538,
	"step": 1140
	},
	{
	"epoch": 0.16636396658191063,
	"grad_norm": 0.03498254343867302,
	"learning_rate": 0.00016615831517792303,
	"loss": 0.0009,
	"step": 1145
	},
	{
	"epoch": 0.1670904467853251,
	"grad_norm": 0.044696319848299026,
	"learning_rate": 0.00016688453159041395,
	"loss": 0.001,
	"step": 1150
	},
	{
	"epoch": 0.16781692698873957,
	"grad_norm": 0.005176996346563101,
	"learning_rate": 0.00016761074800290487,
	"loss": 0.001,
	"step": 1155
	},
	{
	"epoch": 0.16854340719215402,
	"grad_norm": 0.0034458874724805355,
	"learning_rate": 0.0001683369644153958,
	"loss": 0.0295,
	"step": 1160
	},
	{
	"epoch": 0.16926988739556847,
	"grad_norm": 0.01240626908838749,
	"learning_rate": 0.0001690631808278867,
	"loss": 0.0055,
	"step": 1165
	},
	{
	"epoch": 0.16999636759898293,
	"grad_norm": 0.0073911272920668125,
	"learning_rate": 0.00016978939724037763,
	"loss": 0.0002,
	"step": 1170
	},
	{
	"epoch": 0.17072284780239738,
	"grad_norm": 0.010020995512604713,
	"learning_rate": 0.00017051561365286855,
	"loss": 0.0002,
	"step": 1175
	},
	{
	"epoch": 0.17144932800581184,
	"grad_norm": 0.0028329354245215654,
	"learning_rate": 0.00017124183006535947,
	"loss": 0.0002,
	"step": 1180
	},
	{
	"epoch": 0.1721758082092263,
	"grad_norm": 0.009768263436853886,
	"learning_rate": 0.00017196804647785042,
	"loss": 0.0001,
	"step": 1185
	},
	{
	"epoch": 0.17290228841264074,
	"grad_norm": 0.006985844578593969,
	"learning_rate": 0.00017269426289034134,
	"loss": 0.0001,
	"step": 1190
	},
	{
	"epoch": 0.17362876861605522,
	"grad_norm": 0.003910423722118139,
	"learning_rate": 0.00017342047930283226,
	"loss": 0.0001,
	"step": 1195
	},
	{
	"epoch": 0.17435524881946968,
	"grad_norm": 0.0018550670938566327,
	"learning_rate": 0.00017414669571532318,
	"loss": 0.0001,
	"step": 1200
	},
	{
	"epoch": 0.17508172902288413,
	"grad_norm": 0.003561209188774228,
	"learning_rate": 0.0001748729121278141,
	"loss": 0.0001,
	"step": 1205
	},
	{
	"epoch": 0.17580820922629858,
	"grad_norm": 0.0017712870612740517,
	"learning_rate": 0.00017559912854030502,
	"loss": 0.0001,
	"step": 1210
	},
	{
	"epoch": 0.17653468942971304,
	"grad_norm": 0.002323460765182972,
	"learning_rate": 0.00017632534495279595,
	"loss": 0.0001,
	"step": 1215
	},
	{
	"epoch": 0.1772611696331275,
	"grad_norm": 0.0017775703454390168,
	"learning_rate": 0.00017705156136528687,
	"loss": 0.0004,
	"step": 1220
	},
	{
	"epoch": 0.17798764983654194,
	"grad_norm": 0.003454179735854268,
	"learning_rate": 0.00017777777777777779,
	"loss": 0.0001,
	"step": 1225
	},
	{
	"epoch": 0.1787141300399564,
	"grad_norm": 0.003128621494397521,
	"learning_rate": 0.0001785039941902687,
	"loss": 0.0001,
	"step": 1230
	},
	{
	"epoch": 0.17944061024337088,
	"grad_norm": 0.013285885564982891,
	"learning_rate": 0.00017923021060275963,
	"loss": 0.0001,
	"step": 1235
	},
	{
	"epoch": 0.18016709044678533,
	"grad_norm": 0.0012834910303354263,
	"learning_rate": 0.00017995642701525055,
	"loss": 0.0004,
	"step": 1240
	},
	{
	"epoch": 0.1808935706501998,
	"grad_norm": 0.0010866275988519192,
	"learning_rate": 0.0001806826434277415,
	"loss": 0.0001,
	"step": 1245
	},
	{
	"epoch": 0.18162005085361424,
	"grad_norm": 0.0010630824835970998,
	"learning_rate": 0.0001814088598402324,
	"loss": 0.0,
	"step": 1250
	},
	{
	"epoch": 0.1823465310570287,
	"grad_norm": 0.0011757917236536741,
	"learning_rate": 0.00018213507625272334,
	"loss": 0.0,
	"step": 1255
	},
	{
	"epoch": 0.18307301126044315,
	"grad_norm": 0.0009444226743653417,
	"learning_rate": 0.00018286129266521423,
	"loss": 0.008,
	"step": 1260
	},
	{
	"epoch": 0.1837994914638576,
	"grad_norm": 0.0011839661747217178,
	"learning_rate": 0.00018358750907770518,
	"loss": 0.0,
	"step": 1265
	},
	{
	"epoch": 0.18452597166727205,
	"grad_norm": 0.0008903779671527445,
	"learning_rate": 0.00018431372549019607,
	"loss": 0.0,
	"step": 1270
	},
	{
	"epoch": 0.18525245187068654,
	"grad_norm": 0.0010285211028531194,
	"learning_rate": 0.00018503994190268702,
	"loss": 0.0001,
	"step": 1275
	},
	{
	"epoch": 0.185978932074101,
	"grad_norm": 0.0016522291116416454,
	"learning_rate": 0.00018576615831517794,
	"loss": 0.0338,
	"step": 1280
	},
	{
	"epoch": 0.18670541227751544,
	"grad_norm": 0.001982170157134533,
	"learning_rate": 0.00018649237472766886,
	"loss": 0.0009,
	"step": 1285
	},
	{
	"epoch": 0.1874318924809299,
	"grad_norm": 0.002856120467185974,
	"learning_rate": 0.00018721859114015978,
	"loss": 0.0001,
	"step": 1290
	},
	{
	"epoch": 0.18815837268434435,
	"grad_norm": 6.8815484046936035,
	"learning_rate": 0.0001879448075526507,
	"loss": 0.0064,
	"step": 1295
	},
	{
	"epoch": 0.1888848528877588,
	"grad_norm": 0.002711124252527952,
	"learning_rate": 0.00018867102396514162,
	"loss": 0.0001,
	"step": 1300
	},
	{
	"epoch": 0.18961133309117326,
	"grad_norm": 0.01453580055385828,
	"learning_rate": 0.00018939724037763254,
	"loss": 0.0002,
	"step": 1305
	},
	{
	"epoch": 0.1903378132945877,
	"grad_norm": 0.004619908984750509,
	"learning_rate": 0.00019012345679012346,
	"loss": 0.0108,
	"step": 1310
	},
	{
	"epoch": 0.1910642934980022,
	"grad_norm": 0.002147579798474908,
	"learning_rate": 0.0001908496732026144,
	"loss": 0.0002,
	"step": 1315
	},
	{
	"epoch": 0.19179077370141664,
	"grad_norm": 0.006444690283387899,
	"learning_rate": 0.0001915758896151053,
	"loss": 0.0013,
	"step": 1320
	},
	{
	"epoch": 0.1925172539048311,
	"grad_norm": 0.0015877482946962118,
	"learning_rate": 0.00019230210602759625,
	"loss": 0.0011,
	"step": 1325
	},
	{
	"epoch": 0.19324373410824555,
	"grad_norm": 2.8192436695098877,
	"learning_rate": 0.00019302832244008715,
	"loss": 0.0018,
	"step": 1330
	},
	{
	"epoch": 0.19397021431166,
	"grad_norm": 6.506179332733154,
	"learning_rate": 0.0001937545388525781,
	"loss": 0.0067,
	"step": 1335
	},
	{
	"epoch": 0.19469669451507446,
	"grad_norm": 0.0016660846304148436,
	"learning_rate": 0.00019448075526506899,
	"loss": 0.0001,
	"step": 1340
	},
	{
	"epoch": 0.1954231747184889,
	"grad_norm": 0.0011433791369199753,
	"learning_rate": 0.00019520697167755993,
	"loss": 0.0141,
	"step": 1345
	},
	{
	"epoch": 0.19614965492190337,
	"grad_norm": 0.001556798000819981,
	"learning_rate": 0.00019593318809005083,
	"loss": 0.0,
	"step": 1350
	},
	{
	"epoch": 0.19687613512531785,
	"grad_norm": 0.0035784265492111444,
	"learning_rate": 0.00019665940450254178,
	"loss": 0.0001,
	"step": 1355
	},
	{
	"epoch": 0.1976026153287323,
	"grad_norm": 4.246982097625732,
	"learning_rate": 0.0001973856209150327,
	"loss": 0.0068,
	"step": 1360
	},
	{
	"epoch": 0.19832909553214675,
	"grad_norm": 0.001589273801073432,
	"learning_rate": 0.00019811183732752362,
	"loss": 0.012,
	"step": 1365
	},
	{
	"epoch": 0.1990555757355612,
	"grad_norm": 0.0008454394992440939,
	"learning_rate": 0.00019883805374001454,
	"loss": 0.0001,
	"step": 1370
	},
	{
	"epoch": 0.19978205593897566,
	"grad_norm": 0.0013743549352511764,
	"learning_rate": 0.00019956427015250546,
	"loss": 0.0001,
	"step": 1375
	},
	{
	"epoch": 0.20007264802034144,
	"eval_accuracy": 0.9996397787212145,
	"eval_f1": 0.9995310825294748,
	"eval_loss": 0.0019488565158098936,
	"eval_precision": 0.9990626046200201,
	"eval_recall": 1.0,
	"eval_runtime": 124.3971,
	"eval_samples_per_second": 312.427,
	"eval_steps_per_second": 2.444,
	"step": 1377
	},
	{
	"epoch": 0.20050853614239011,
	"grad_norm": 0.002287400420755148,
	"learning_rate": 0.00019996771329405116,
	"loss": 0.0093,
	"step": 1380
	},
	{
	"epoch": 0.20123501634580457,
	"grad_norm": 0.004998628981411457,
	"learning_rate": 0.00019988699652917914,
	"loss": 0.0159,
	"step": 1385
	},
	{
	"epoch": 0.20196149654921902,
	"grad_norm": 0.003076898632571101,
	"learning_rate": 0.00019980627976430706,
	"loss": 0.0073,
	"step": 1390
	},
	{
	"epoch": 0.2026879767526335,
	"grad_norm": 0.7471761107444763,
	"learning_rate": 0.00019972556299943498,
	"loss": 0.0033,
	"step": 1395
	},
	{
	"epoch": 0.20341445695604796,
	"grad_norm": 0.1988172084093094,
	"learning_rate": 0.00019964484623456293,
	"loss": 0.0009,
	"step": 1400
	},
	{
	"epoch": 0.2041409371594624,
	"grad_norm": 0.005002092570066452,
	"learning_rate": 0.00019956412946969088,
	"loss": 0.0009,
	"step": 1405
	},
	{
	"epoch": 0.20486741736287686,
	"grad_norm": 0.24179202318191528,
	"learning_rate": 0.0001994834127048188,
	"loss": 0.0182,
	"step": 1410
	},
	{
	"epoch": 0.20559389756629132,
	"grad_norm": 4.140319347381592,
	"learning_rate": 0.00019940269593994673,
	"loss": 0.0052,
	"step": 1415
	},
	{
	"epoch": 0.20632037776970577,
	"grad_norm": 0.0015831501223146915,
	"learning_rate": 0.00019932197917507468,
	"loss": 0.0,
	"step": 1420
	},
	{
	"epoch": 0.20704685797312022,
	"grad_norm": 0.0023513727355748415,
	"learning_rate": 0.0001992412624102026,
	"loss": 0.0001,
	"step": 1425
	},
	{
	"epoch": 0.20777333817653468,
	"grad_norm": 0.0018358491361141205,
	"learning_rate": 0.00019916054564533055,
	"loss": 0.0217,
	"step": 1430
	},
	{
	"epoch": 0.20849981837994916,
	"grad_norm": 2.7655224800109863,
	"learning_rate": 0.00019907982888045847,
	"loss": 0.0393,
	"step": 1435
	},
	{
	"epoch": 0.2092262985833636,
	"grad_norm": 0.00683799060061574,
	"learning_rate": 0.00019899911211558642,
	"loss": 0.0002,
	"step": 1440
	},
	{
	"epoch": 0.20995277878677807,
	"grad_norm": 0.011541269719600677,
	"learning_rate": 0.00019891839535071435,
	"loss": 0.0045,
	"step": 1445
	},
	{
	"epoch": 0.21067925899019252,
	"grad_norm": 0.013042348437011242,
	"learning_rate": 0.00019883767858584227,
	"loss": 0.0003,
	"step": 1450
	},
	{
	"epoch": 0.21140573919360697,
	"grad_norm": 0.01146721187978983,
	"learning_rate": 0.00019875696182097025,
	"loss": 0.0009,
	"step": 1455
	},
	{
	"epoch": 0.21213221939702143,
	"grad_norm": 0.0053860582411289215,
	"learning_rate": 0.00019867624505609817,
	"loss": 0.003,
	"step": 1460
	},
	{
	"epoch": 0.21285869960043588,
	"grad_norm": 0.35763925313949585,
	"learning_rate": 0.0001985955282912261,
	"loss": 0.0066,
	"step": 1465
	},
	{
	"epoch": 0.21358517980385033,
	"grad_norm": 0.003207879839465022,
	"learning_rate": 0.00019851481152635401,
	"loss": 0.0002,
	"step": 1470
	},
	{
	"epoch": 0.21431166000726481,
	"grad_norm": 0.004152906127274036,
	"learning_rate": 0.00019843409476148196,
	"loss": 0.0001,
	"step": 1475
	},
	{
	"epoch": 0.21503814021067927,
	"grad_norm": 0.003981268033385277,
	"learning_rate": 0.00019835337799660991,
	"loss": 0.0002,
	"step": 1480
	},
	{
	"epoch": 0.21576462041409372,
	"grad_norm": 0.0030321148224174976,
	"learning_rate": 0.00019827266123173784,
	"loss": 0.0004,
	"step": 1485
	},
	{
	"epoch": 0.21649110061750818,
	"grad_norm": 0.0033642794005572796,
	"learning_rate": 0.00019819194446686579,
	"loss": 0.0002,
	"step": 1490
	},
	{
	"epoch": 0.21721758082092263,
	"grad_norm": 0.0015044253086671233,
	"learning_rate": 0.0001981112277019937,
	"loss": 0.0,
	"step": 1495
	},
	{
	"epoch": 0.21794406102433708,
	"grad_norm": 0.0013194256462156773,
	"learning_rate": 0.00019803051093712166,
	"loss": 0.0064,
	"step": 1500
	},
	{
	"epoch": 0.21867054122775154,
	"grad_norm": 0.003604642581194639,
	"learning_rate": 0.00019794979417224958,
	"loss": 0.0001,
	"step": 1505
	},
	{
	"epoch": 0.219397021431166,
	"grad_norm": 0.002144684549421072,
	"learning_rate": 0.00019786907740737753,
	"loss": 0.0011,
	"step": 1510
	},
	{
	"epoch": 0.22012350163458047,
	"grad_norm": 0.00234671076759696,
	"learning_rate": 0.00019778836064250545,
	"loss": 0.0001,
	"step": 1515
	},
	{
	"epoch": 0.22084998183799492,
	"grad_norm": 0.027411388233304024,
	"learning_rate": 0.00019770764387763338,
	"loss": 0.0002,
	"step": 1520
	},
	{
	"epoch": 0.22157646204140938,
	"grad_norm": 0.00431784288957715,
	"learning_rate": 0.00019762692711276135,
	"loss": 0.0016,
	"step": 1525
	},
	{
	"epoch": 0.22230294224482383,
	"grad_norm": 0.007216178812086582,
	"learning_rate": 0.00019754621034788928,
	"loss": 0.0031,
	"step": 1530
	},
	{
	"epoch": 0.22302942244823828,
	"grad_norm": 0.0020561974961310625,
	"learning_rate": 0.0001974654935830172,
	"loss": 0.0,
	"step": 1535
	},
	{
	"epoch": 0.22375590265165274,
	"grad_norm": 0.003935552202165127,
	"learning_rate": 0.00019738477681814512,
	"loss": 0.0,
	"step": 1540
	},
	{
	"epoch": 0.2244823828550672,
	"grad_norm": 0.0017273337580263615,
	"learning_rate": 0.00019730406005327307,
	"loss": 0.0018,
	"step": 1545
	},
	{
	"epoch": 0.22520886305848165,
	"grad_norm": 0.0009397296234965324,
	"learning_rate": 0.00019722334328840102,
	"loss": 0.0071,
	"step": 1550
	},
	{
	"epoch": 0.22593534326189613,
	"grad_norm": 4.2714738845825195,
	"learning_rate": 0.00019714262652352894,
	"loss": 0.0043,
	"step": 1555
	},
	{
	"epoch": 0.22666182346531058,
	"grad_norm": 0.008737271651625633,
	"learning_rate": 0.0001970619097586569,
	"loss": 0.0,
	"step": 1560
	},
	{
	"epoch": 0.22738830366872503,
	"grad_norm": 0.0011167083866894245,
	"learning_rate": 0.00019698119299378482,
	"loss": 0.0195,
	"step": 1565
	},
	{
	"epoch": 0.2281147838721395,
	"grad_norm": 0.0015777769731357694,
	"learning_rate": 0.00019690047622891274,
	"loss": 0.0093,
	"step": 1570
	},
	{
	"epoch": 0.22884126407555394,
	"grad_norm": 1.3581019639968872,
	"learning_rate": 0.0001968197594640407,
	"loss": 0.0371,
	"step": 1575
	},
	{
	"epoch": 0.2295677442789684,
	"grad_norm": 0.005585103295743465,
	"learning_rate": 0.00019673904269916864,
	"loss": 0.0003,
	"step": 1580
	},
	{
	"epoch": 0.23029422448238285,
	"grad_norm": 0.013055490329861641,
	"learning_rate": 0.00019665832593429656,
	"loss": 0.0009,
	"step": 1585
	},
	{
	"epoch": 0.2310207046857973,
	"grad_norm": 0.012752565555274487,
	"learning_rate": 0.00019657760916942448,
	"loss": 0.0057,
	"step": 1590
	},
	{
	"epoch": 0.23174718488921178,
	"grad_norm": 0.016765527427196503,
	"learning_rate": 0.00019649689240455243,
	"loss": 0.0053,
	"step": 1595
	},
	{
	"epoch": 0.23247366509262624,
	"grad_norm": 0.04566654935479164,
	"learning_rate": 0.00019641617563968038,
	"loss": 0.0031,
	"step": 1600
	},
	{
	"epoch": 0.2332001452960407,
	"grad_norm": 0.05058443173766136,
	"learning_rate": 0.0001963354588748083,
	"loss": 0.0064,
	"step": 1605
	},
	{
	"epoch": 0.23392662549945514,
	"grad_norm": 0.006236894056200981,
	"learning_rate": 0.00019625474210993623,
	"loss": 0.0202,
	"step": 1610
	},
	{
	"epoch": 0.2346531057028696,
	"grad_norm": 0.00453936355188489,
	"learning_rate": 0.00019617402534506418,
	"loss": 0.0002,
	"step": 1615
	},
	{
	"epoch": 0.23537958590628405,
	"grad_norm": 0.01652829721570015,
	"learning_rate": 0.00019609330858019213,
	"loss": 0.0005,
	"step": 1620
	},
	{
	"epoch": 0.2361060661096985,
	"grad_norm": 0.28086262941360474,
	"learning_rate": 0.00019601259181532005,
	"loss": 0.0012,
	"step": 1625
	},
	{
	"epoch": 0.23683254631311296,
	"grad_norm": 0.002964381594210863,
	"learning_rate": 0.000195931875050448,
	"loss": 0.0001,
	"step": 1630
	},
	{
	"epoch": 0.23755902651652744,
	"grad_norm": 0.004744562786072493,
	"learning_rate": 0.00019585115828557592,
	"loss": 0.0001,
	"step": 1635
	},
	{
	"epoch": 0.2382855067199419,
	"grad_norm": 0.002022289205342531,
	"learning_rate": 0.00019577044152070385,
	"loss": 0.0003,
	"step": 1640
	},
	{
	"epoch": 0.23901198692335635,
	"grad_norm": 1.325679063796997,
	"learning_rate": 0.0001956897247558318,
	"loss": 0.0223,
	"step": 1645
	},
	{
	"epoch": 0.2397384671267708,
	"grad_norm": 0.005906618200242519,
	"learning_rate": 0.00019560900799095974,
	"loss": 0.0004,
	"step": 1650
	},
	{
	"epoch": 0.24046494733018525,
	"grad_norm": 0.022973524406552315,
	"learning_rate": 0.00019552829122608767,
	"loss": 0.0004,
	"step": 1655
	},
	{
	"epoch": 0.2411914275335997,
	"grad_norm": 0.017179157584905624,
	"learning_rate": 0.0001954475744612156,
	"loss": 0.0005,
	"step": 1660
	},
	{
	"epoch": 0.24191790773701416,
	"grad_norm": 0.011254935525357723,
	"learning_rate": 0.00019536685769634354,
	"loss": 0.0008,
	"step": 1665
	},
	{
	"epoch": 0.2426443879404286,
	"grad_norm": 0.004135392606258392,
	"learning_rate": 0.0001952861409314715,
	"loss": 0.0003,
	"step": 1670
	},
	{
	"epoch": 0.24337086814384307,
	"grad_norm": 0.002715233713388443,
	"learning_rate": 0.0001952054241665994,
	"loss": 0.0002,
	"step": 1675
	},
	{
	"epoch": 0.24409734834725755,
	"grad_norm": 0.00374965975061059,
	"learning_rate": 0.00019512470740172734,
	"loss": 0.0001,
	"step": 1680
	},
	{
	"epoch": 0.244823828550672,
	"grad_norm": 0.0033891089260578156,
	"learning_rate": 0.00019504399063685528,
	"loss": 0.0001,
	"step": 1685
	},
	{
	"epoch": 0.24555030875408645,
	"grad_norm": 0.001574166351929307,
	"learning_rate": 0.0001949632738719832,
	"loss": 0.0001,
	"step": 1690
	},
	{
	"epoch": 0.2462767889575009,
	"grad_norm": 0.001289655570872128,
	"learning_rate": 0.00019488255710711116,
	"loss": 0.0,
	"step": 1695
	},
	{
	"epoch": 0.24700326916091536,
	"grad_norm": 0.0012494047405198216,
	"learning_rate": 0.0001948018403422391,
	"loss": 0.0,
	"step": 1700
	},
	{
	"epoch": 0.24772974936432982,
	"grad_norm": 0.0028091860003769398,
	"learning_rate": 0.00019472112357736703,
	"loss": 0.0,
	"step": 1705
	},
	{
	"epoch": 0.24845622956774427,
	"grad_norm": 0.0020063440315425396,
	"learning_rate": 0.00019464040681249495,
	"loss": 0.0,
	"step": 1710
	},
	{
	"epoch": 0.24918270977115872,
	"grad_norm": 0.00732283852994442,
	"learning_rate": 0.0001945596900476229,
	"loss": 0.0001,
	"step": 1715
	},
	{
	"epoch": 0.2499091899745732,
	"grad_norm": 0.0009436274995096028,
	"learning_rate": 0.00019447897328275085,
	"loss": 0.0,
	"step": 1720
	},
	{
	"epoch": 0.25063567017798766,
	"grad_norm": 0.001065302756614983,
	"learning_rate": 0.00019439825651787877,
	"loss": 0.0,
	"step": 1725
	},
	{
	"epoch": 0.2513621503814021,
	"grad_norm": 0.0007398009183816612,
	"learning_rate": 0.0001943175397530067,
	"loss": 0.0,
	"step": 1730
	},
	{
	"epoch": 0.25208863058481656,
	"grad_norm": 0.0009731051395647228,
	"learning_rate": 0.00019423682298813465,
	"loss": 0.0001,
	"step": 1735
	},
	{
	"epoch": 0.25281511078823105,
	"grad_norm": 0.0006832171930000186,
	"learning_rate": 0.0001941561062232626,
	"loss": 0.0,
	"step": 1740
	},
	{
	"epoch": 0.25354159099164547,
	"grad_norm": 0.0011063286801800132,
	"learning_rate": 0.00019407538945839052,
	"loss": 0.0,
	"step": 1745
	},
	{
	"epoch": 0.25426807119505995,
	"grad_norm": 0.0012475239345803857,
	"learning_rate": 0.00019399467269351844,
	"loss": 0.0,
	"step": 1750
	},
	{
	"epoch": 0.2549945513984744,
	"grad_norm": 0.0008868346340022981,
	"learning_rate": 0.0001939139559286464,
	"loss": 0.0,
	"step": 1755
	},
	{
	"epoch": 0.25572103160188886,
	"grad_norm": 0.0013618022203445435,
	"learning_rate": 0.00019383323916377431,
	"loss": 0.0,
	"step": 1760
	},
	{
	"epoch": 0.2564475118053033,
	"grad_norm": 0.0008328580879606307,
	"learning_rate": 0.00019375252239890226,
	"loss": 0.0,
	"step": 1765
	},
	{
	"epoch": 0.25717399200871777,
	"grad_norm": 0.0017324545187875628,
	"learning_rate": 0.00019367180563403021,
	"loss": 0.0,
	"step": 1770
	},
	{
	"epoch": 0.2579004722121322,
	"grad_norm": 0.0010712060611695051,
	"learning_rate": 0.00019359108886915814,
	"loss": 0.0,
	"step": 1775
	},
	{
	"epoch": 0.2586269524155467,
	"grad_norm": 0.0005095238448120654,
	"learning_rate": 0.00019351037210428606,
	"loss": 0.0,
	"step": 1780
	},
	{
	"epoch": 0.25935343261896115,
	"grad_norm": 0.0014343465445563197,
	"learning_rate": 0.00019342965533941398,
	"loss": 0.0,
	"step": 1785
	},
	{
	"epoch": 0.2600799128223756,
	"grad_norm": 0.0007007729145698249,
	"learning_rate": 0.00019334893857454196,
	"loss": 0.0,
	"step": 1790
	},
	{
	"epoch": 0.26080639302579006,
	"grad_norm": 0.0005924066063016653,
	"learning_rate": 0.00019326822180966988,
	"loss": 0.0,
	"step": 1795
	},
	{
	"epoch": 0.2615328732292045,
	"grad_norm": 0.0004458896000869572,
	"learning_rate": 0.0001931875050447978,
	"loss": 0.0,
	"step": 1800
	},
	{
	"epoch": 0.26225935343261897,
	"grad_norm": 0.005087355151772499,
	"learning_rate": 0.00019310678827992575,
	"loss": 0.0,
	"step": 1805
	},
	{
	"epoch": 0.2629858336360334,
	"grad_norm": 0.11598234623670578,
	"learning_rate": 0.0001930260715150537,
	"loss": 0.0004,
	"step": 1810
	},
	{
	"epoch": 0.2637123138394479,
	"grad_norm": 0.0015027482295408845,
	"learning_rate": 0.00019294535475018163,
	"loss": 0.0473,
	"step": 1815
	},
	{
	"epoch": 0.26443879404286236,
	"grad_norm": 0.04484843090176582,
	"learning_rate": 0.00019286463798530955,
	"loss": 0.0003,
	"step": 1820
	},
	{
	"epoch": 0.2651652742462768,
	"grad_norm": 0.007797603961080313,
	"learning_rate": 0.0001927839212204375,
	"loss": 0.0031,
	"step": 1825
	},
	{
	"epoch": 0.26589175444969126,
	"grad_norm": 0.006486868020147085,
	"learning_rate": 0.00019270320445556542,
	"loss": 0.0003,
	"step": 1830
	},
	{
	"epoch": 0.2666182346531057,
	"grad_norm": 0.005536284297704697,
	"learning_rate": 0.00019262248769069337,
	"loss": 0.0004,
	"step": 1835
	},
	{
	"epoch": 0.26734471485652017,
	"grad_norm": 0.014443649910390377,
	"learning_rate": 0.00019254177092582132,
	"loss": 0.0001,
	"step": 1840
	},
	{
	"epoch": 0.2680711950599346,
	"grad_norm": 0.0030865217559039593,
	"learning_rate": 0.00019246105416094924,
	"loss": 0.0001,
	"step": 1845
	},
	{
	"epoch": 0.2687976752633491,
	"grad_norm": 0.15668638050556183,
	"learning_rate": 0.00019238033739607717,
	"loss": 0.0002,
	"step": 1850
	},
	{
	"epoch": 0.2695241554667635,
	"grad_norm": 0.04532123729586601,
	"learning_rate": 0.0001922996206312051,
	"loss": 0.0003,
	"step": 1855
	},
	{
	"epoch": 0.270250635670178,
	"grad_norm": 0.00196210783906281,
	"learning_rate": 0.00019221890386633307,
	"loss": 0.0001,
	"step": 1860
	},
	{
	"epoch": 0.27097711587359247,
	"grad_norm": 0.0017535451333969831,
	"learning_rate": 0.000192138187101461,
	"loss": 0.0012,
	"step": 1865
	},
	{
	"epoch": 0.2717035960770069,
	"grad_norm": 0.0014856884954497218,
	"learning_rate": 0.0001920574703365889,
	"loss": 0.0002,
	"step": 1870
	},
	{
	"epoch": 0.2724300762804214,
	"grad_norm": 0.004271077457815409,
	"learning_rate": 0.00019197675357171686,
	"loss": 0.0049,
	"step": 1875
	},
	{
	"epoch": 0.2731565564838358,
	"grad_norm": 0.009308665059506893,
	"learning_rate": 0.00019189603680684478,
	"loss": 0.0013,
	"step": 1880
	},
	{
	"epoch": 0.2738830366872503,
	"grad_norm": 0.001470932038500905,
	"learning_rate": 0.00019181532004197273,
	"loss": 0.0009,
	"step": 1885
	},
	{
	"epoch": 0.2746095168906647,
	"grad_norm": 0.0009906482882797718,
	"learning_rate": 0.00019173460327710066,
	"loss": 0.0074,
	"step": 1890
	},
	{
	"epoch": 0.2753359970940792,
	"grad_norm": 0.5366028547286987,
	"learning_rate": 0.0001916538865122286,
	"loss": 0.0004,
	"step": 1895
	},
	{
	"epoch": 0.27606247729749367,
	"grad_norm": 0.0012202219804748893,
	"learning_rate": 0.00019157316974735653,
	"loss": 0.0007,
	"step": 1900
	},
	{
	"epoch": 0.2767889575009081,
	"grad_norm": 0.5043062567710876,
	"learning_rate": 0.00019149245298248445,
	"loss": 0.0007,
	"step": 1905
	},
	{
	"epoch": 0.2775154377043226,
	"grad_norm": 0.0006929966621100903,
	"learning_rate": 0.0001914117362176124,
	"loss": 0.01,
	"step": 1910
	},
	{
	"epoch": 0.278241917907737,
	"grad_norm": 0.0005868257721886039,
	"learning_rate": 0.00019133101945274035,
	"loss": 0.0,
	"step": 1915
	},
	{
	"epoch": 0.2789683981111515,
	"grad_norm": 1.5353443622589111,
	"learning_rate": 0.00019125030268786827,
	"loss": 0.0012,
	"step": 1920
	},
	{
	"epoch": 0.2796948783145659,
	"grad_norm": 0.0007161126704886556,
	"learning_rate": 0.0001911695859229962,
	"loss": 0.0,
	"step": 1925
	},
	{
	"epoch": 0.2804213585179804,
	"grad_norm": 0.0007424887735396624,
	"learning_rate": 0.00019108886915812417,
	"loss": 0.0,
	"step": 1930
	},
	{
	"epoch": 0.2811478387213948,
	"grad_norm": 0.0006449614884331822,
	"learning_rate": 0.0001910081523932521,
	"loss": 0.0,
	"step": 1935
	},
	{
	"epoch": 0.2818743189248093,
	"grad_norm": 0.0006138585740700364,
	"learning_rate": 0.00019092743562838002,
	"loss": 0.0,
	"step": 1940
	},
	{
	"epoch": 0.2826007991282238,
	"grad_norm": 0.0006936938152648509,
	"learning_rate": 0.00019084671886350797,
	"loss": 0.0,
	"step": 1945
	},
	{
	"epoch": 0.2833272793316382,
	"grad_norm": 0.0004829142999369651,
	"learning_rate": 0.0001907660020986359,
	"loss": 0.0001,
	"step": 1950
	},
	{
	"epoch": 0.2840537595350527,
	"grad_norm": 0.0005034743226133287,
	"learning_rate": 0.00019068528533376384,
	"loss": 0.0,
	"step": 1955
	},
	{
	"epoch": 0.2847802397384671,
	"grad_norm": 0.0004061743093188852,
	"learning_rate": 0.00019060456856889176,
	"loss": 0.0,
	"step": 1960
	},
	{
	"epoch": 0.2855067199418816,
	"grad_norm": 0.6731203198432922,
	"learning_rate": 0.0001905238518040197,
	"loss": 0.0282,
	"step": 1965
	},
	{
	"epoch": 0.286233200145296,
	"grad_norm": 0.010977654717862606,
	"learning_rate": 0.00019044313503914764,
	"loss": 0.0002,
	"step": 1970
	},
	{
	"epoch": 0.2869596803487105,
	"grad_norm": 0.022831691429018974,
	"learning_rate": 0.00019036241827427556,
	"loss": 0.0006,
	"step": 1975
	},
	{
	"epoch": 0.287686160552125,
	"grad_norm": 0.026040196418762207,
	"learning_rate": 0.0001902817015094035,
	"loss": 0.0005,
	"step": 1980
	},
	{
	"epoch": 0.2884126407555394,
	"grad_norm": 0.011391847394406796,
	"learning_rate": 0.00019020098474453146,
	"loss": 0.0004,
	"step": 1985
	},
	{
	"epoch": 0.2891391209589539,
	"grad_norm": 0.013334060087800026,
	"learning_rate": 0.00019012026797965938,
	"loss": 0.0003,
	"step": 1990
	},
	{
	"epoch": 0.2898656011623683,
	"grad_norm": 0.0060678147710859776,
	"learning_rate": 0.0001900395512147873,
	"loss": 0.0002,
	"step": 1995
	},
	{
	"epoch": 0.2905920813657828,
	"grad_norm": 0.004468259867280722,
	"learning_rate": 0.00018995883444991525,
	"loss": 0.0002,
	"step": 2000
	},
	{
	"epoch": 0.2913185615691972,
	"grad_norm": 0.0036872695200145245,
	"learning_rate": 0.0001898781176850432,
	"loss": 0.0001,
	"step": 2005
	},
	{
	"epoch": 0.2920450417726117,
	"grad_norm": 0.0026169579941779375,
	"learning_rate": 0.00018979740092017113,
	"loss": 0.0001,
	"step": 2010
	},
	{
	"epoch": 0.29277152197602613,
	"grad_norm": 0.0021394200157374144,
	"learning_rate": 0.00018971668415529907,
	"loss": 0.0001,
	"step": 2015
	},
	{
	"epoch": 0.2934980021794406,
	"grad_norm": 0.0022201493848115206,
	"learning_rate": 0.000189635967390427,
	"loss": 0.0001,
	"step": 2020
	},
	{
	"epoch": 0.2942244823828551,
	"grad_norm": 0.0021840811241418123,
	"learning_rate": 0.00018955525062555495,
	"loss": 0.0001,
	"step": 2025
	},
	{
	"epoch": 0.2949509625862695,
	"grad_norm": 0.0016265831654891372,
	"learning_rate": 0.00018947453386068287,
	"loss": 0.0001,
	"step": 2030
	},
	{
	"epoch": 0.295677442789684,
	"grad_norm": 0.0015095279086381197,
	"learning_rate": 0.00018939381709581082,
	"loss": 0.0001,
	"step": 2035
	},
	{
	"epoch": 0.2964039229930984,
	"grad_norm": 0.0013007308589294553,
	"learning_rate": 0.00018931310033093874,
	"loss": 0.0,
	"step": 2040
	},
	{
	"epoch": 0.2971304031965129,
	"grad_norm": 0.0011377567425370216,
	"learning_rate": 0.00018923238356606666,
	"loss": 0.0,
	"step": 2045
	},
	{
	"epoch": 0.29785688339992733,
	"grad_norm": 0.0017277223523706198,
	"learning_rate": 0.00018915166680119461,
	"loss": 0.0,
	"step": 2050
	},
	{
	"epoch": 0.2985833636033418,
	"grad_norm": 0.0009744380367919803,
	"learning_rate": 0.00018907095003632256,
	"loss": 0.0158,
	"step": 2055
	},
	{
	"epoch": 0.2993098438067563,
	"grad_norm": 0.0012453808449208736,
	"learning_rate": 0.0001889902332714505,
	"loss": 0.0,
	"step": 2060
	},
	{
	"epoch": 0.3000363240101707,
	"grad_norm": 0.05199315398931503,
	"learning_rate": 0.0001889095165065784,
	"loss": 0.0002,
	"step": 2065
	},
	{
	"epoch": 0.3007628042135852,
	"grad_norm": 0.0018118784064427018,
	"learning_rate": 0.00018882879974170636,
	"loss": 0.0116,
	"step": 2070
	},
	{
	"epoch": 0.3014892844169996,
	"grad_norm": 0.002479708520695567,
	"learning_rate": 0.0001887480829768343,
	"loss": 0.0096,
	"step": 2075
	},
	{
	"epoch": 0.3022157646204141,
	"grad_norm": 0.001789470436051488,
	"learning_rate": 0.00018866736621196223,
	"loss": 0.0,
	"step": 2080
	},
	{
	"epoch": 0.30294224482382853,
	"grad_norm": 1.2244577407836914,
	"learning_rate": 0.00018858664944709018,
	"loss": 0.002,
	"step": 2085
	},
	{
	"epoch": 0.303668725027243,
	"grad_norm": 0.001510178786702454,
	"learning_rate": 0.0001885059326822181,
	"loss": 0.0001,
	"step": 2090
	},
	{
	"epoch": 0.30439520523065744,
	"grad_norm": 0.0012227630941197276,
	"learning_rate": 0.00018842521591734603,
	"loss": 0.0007,
	"step": 2095
	},
	{
	"epoch": 0.3051216854340719,
	"grad_norm": 6.986842155456543,
	"learning_rate": 0.00018834449915247398,
	"loss": 0.0041,
	"step": 2100
	},
	{
	"epoch": 0.3058481656374864,
	"grad_norm": 0.0014463558327406645,
	"learning_rate": 0.00018826378238760193,
	"loss": 0.0006,
	"step": 2105
	},
	{
	"epoch": 0.30657464584090083,
	"grad_norm": 0.0013261119602248073,
	"learning_rate": 0.00018818306562272985,
	"loss": 0.0058,
	"step": 2110
	},
	{
	"epoch": 0.3073011260443153,
	"grad_norm": 0.0014859420480206609,
	"learning_rate": 0.00018810234885785777,
	"loss": 0.0,
	"step": 2115
	},
	{
	"epoch": 0.30802760624772973,
	"grad_norm": 0.001101717702113092,
	"learning_rate": 0.00018802163209298572,
	"loss": 0.0,
	"step": 2120
	},
	{
	"epoch": 0.3087540864511442,
	"grad_norm": 0.0022333369124680758,
	"learning_rate": 0.00018794091532811367,
	"loss": 0.0003,
	"step": 2125
	},
	{
	"epoch": 0.30948056665455864,
	"grad_norm": 0.011202757246792316,
	"learning_rate": 0.0001878601985632416,
	"loss": 0.0001,
	"step": 2130
	},
	{
	"epoch": 0.3102070468579731,
	"grad_norm": 0.001800977042876184,
	"learning_rate": 0.00018777948179836952,
	"loss": 0.0218,
	"step": 2135
	},
	{
	"epoch": 0.3109335270613876,
	"grad_norm": 0.004161295481026173,
	"learning_rate": 0.00018769876503349747,
	"loss": 0.0002,
	"step": 2140
	},
	{
	"epoch": 0.31166000726480203,
	"grad_norm": 0.0032398079056292772,
	"learning_rate": 0.00018761804826862542,
	"loss": 0.0006,
	"step": 2145
	},
	{
	"epoch": 0.3123864874682165,
	"grad_norm": 0.04649796336889267,
	"learning_rate": 0.00018753733150375334,
	"loss": 0.0001,
	"step": 2150
	},
	{
	"epoch": 0.31311296767163094,
	"grad_norm": 0.0010927373077720404,
	"learning_rate": 0.0001874566147388813,
	"loss": 0.0001,
	"step": 2155
	},
	{
	"epoch": 0.3138394478750454,
	"grad_norm": 0.002848146017640829,
	"learning_rate": 0.0001873758979740092,
	"loss": 0.0001,
	"step": 2160
	},
	{
	"epoch": 0.31456592807845984,
	"grad_norm": 0.001080561545677483,
	"learning_rate": 0.00018729518120913713,
	"loss": 0.0,
	"step": 2165
	},
	{
	"epoch": 0.3152924082818743,
	"grad_norm": 0.0011905552819371223,
	"learning_rate": 0.00018721446444426508,
	"loss": 0.0,
	"step": 2170
	},
	{
	"epoch": 0.31601888848528875,
	"grad_norm": 0.002129076048731804,
	"learning_rate": 0.00018713374767939303,
	"loss": 0.0001,
	"step": 2175
	},
	{
	"epoch": 0.31674536868870323,
	"grad_norm": 0.0015021953731775284,
	"learning_rate": 0.00018705303091452096,
	"loss": 0.0,
	"step": 2180
	},
	{
	"epoch": 0.3174718488921177,
	"grad_norm": 0.0011074721114709973,
	"learning_rate": 0.00018697231414964888,
	"loss": 0.0,
	"step": 2185
	},
	{
	"epoch": 0.31819832909553214,
	"grad_norm": 0.0013954649912193418,
	"learning_rate": 0.00018689159738477683,
	"loss": 0.0,
	"step": 2190
	},
	{
	"epoch": 0.3189248092989466,
	"grad_norm": 0.0008435107301920652,
	"learning_rate": 0.00018681088061990478,
	"loss": 0.0,
	"step": 2195
	},
	{
	"epoch": 0.31965128950236105,
	"grad_norm": 0.0015673066955059767,
	"learning_rate": 0.0001867301638550327,
	"loss": 0.0001,
	"step": 2200
	},
	{
	"epoch": 0.32037776970577553,
	"grad_norm": 0.0006937576690688729,
	"learning_rate": 0.00018664944709016062,
	"loss": 0.0,
	"step": 2205
	},
	{
	"epoch": 0.32110424990918995,
	"grad_norm": 0.0006967806257307529,
	"learning_rate": 0.00018656873032528857,
	"loss": 0.0,
	"step": 2210
	},
	{
	"epoch": 0.32183073011260444,
	"grad_norm": 0.0010916970204561949,
	"learning_rate": 0.0001864880135604165,
	"loss": 0.0,
	"step": 2215
	},
	{
	"epoch": 0.32255721031601886,
	"grad_norm": 0.054137326776981354,
	"learning_rate": 0.00018640729679554445,
	"loss": 0.0001,
	"step": 2220
	},
	{
	"epoch": 0.32328369051943334,
	"grad_norm": 0.0007835402502678335,
	"learning_rate": 0.00018632658003067237,
	"loss": 0.0,
	"step": 2225
	},
	{
	"epoch": 0.3240101707228478,
	"grad_norm": 0.0006136346491985023,
	"learning_rate": 0.00018624586326580032,
	"loss": 0.0,
	"step": 2230
	},
	{
	"epoch": 0.32473665092626225,
	"grad_norm": 0.0005693508428521454,
	"learning_rate": 0.00018616514650092824,
	"loss": 0.0,
	"step": 2235
	},
	{
	"epoch": 0.32546313112967673,
	"grad_norm": 0.001010082894936204,
	"learning_rate": 0.0001860844297360562,
	"loss": 0.0,
	"step": 2240
	},
	{
	"epoch": 0.32618961133309116,
	"grad_norm": 0.0006115248543210328,
	"learning_rate": 0.00018600371297118414,
	"loss": 0.0,
	"step": 2245
	},
	{
	"epoch": 0.32691609153650564,
	"grad_norm": 0.005977267399430275,
	"learning_rate": 0.00018592299620631206,
	"loss": 0.0,
	"step": 2250
	},
	{
	"epoch": 0.32764257173992006,
	"grad_norm": 0.0004075188480783254,
	"learning_rate": 0.00018584227944143999,
	"loss": 0.0,
	"step": 2255
	},
	{
	"epoch": 0.32836905194333454,
	"grad_norm": 0.0005186618654988706,
	"learning_rate": 0.00018576156267656794,
	"loss": 0.0,
	"step": 2260
	},
	{
	"epoch": 0.329095532146749,
	"grad_norm": 0.0005320632481016219,
	"learning_rate": 0.00018568084591169589,
	"loss": 0.0,
	"step": 2265
	},
	{
	"epoch": 0.32982201235016345,
	"grad_norm": 0.029953761026263237,
	"learning_rate": 0.0001856001291468238,
	"loss": 0.0,
	"step": 2270
	},
	{
	"epoch": 0.33054849255357793,
	"grad_norm": 0.0003188280388712883,
	"learning_rate": 0.00018551941238195173,
	"loss": 0.0,
	"step": 2275
	},
	{
	"epoch": 0.33127497275699236,
	"grad_norm": 0.0004120226367376745,
	"learning_rate": 0.00018543869561707968,
	"loss": 0.0,
	"step": 2280
	},
	{
	"epoch": 0.33200145296040684,
	"grad_norm": 0.0005906698643229902,
	"learning_rate": 0.0001853579788522076,
	"loss": 0.0,
	"step": 2285
	},
	{
	"epoch": 0.33272793316382127,
	"grad_norm": 0.00045190524542704225,
	"learning_rate": 0.00018527726208733555,
	"loss": 0.0,
	"step": 2290
	},
	{
	"epoch": 0.33345441336723575,
	"grad_norm": 0.0008185270125977695,
	"learning_rate": 0.00018519654532246348,
	"loss": 0.0,
	"step": 2295
	},
	{
	"epoch": 0.3341808935706502,
	"grad_norm": 0.0003965144860558212,
	"learning_rate": 0.00018511582855759143,
	"loss": 0.0,
	"step": 2300
	},
	{
	"epoch": 0.33490737377406465,
	"grad_norm": 0.0003858699928969145,
	"learning_rate": 0.00018503511179271935,
	"loss": 0.0,
	"step": 2305
	},
	{
	"epoch": 0.33563385397747914,
	"grad_norm": 0.0005558038246817887,
	"learning_rate": 0.00018495439502784727,
	"loss": 0.0,
	"step": 2310
	},
	{
	"epoch": 0.33636033418089356,
	"grad_norm": 0.00037957995664328337,
	"learning_rate": 0.00018487367826297525,
	"loss": 0.0,
	"step": 2315
	},
	{
	"epoch": 0.33708681438430804,
	"grad_norm": 0.0003773049684241414,
	"learning_rate": 0.00018479296149810317,
	"loss": 0.0,
	"step": 2320
	},
	{
	"epoch": 0.33781329458772247,
	"grad_norm": 0.0006691055023111403,
	"learning_rate": 0.0001847122447332311,
	"loss": 0.0,
	"step": 2325
	},
	{
	"epoch": 0.33853977479113695,
	"grad_norm": 0.000681467994581908,
	"learning_rate": 0.00018463152796835904,
	"loss": 0.0,
	"step": 2330
	},
	{
	"epoch": 0.3392662549945514,
	"grad_norm": 0.0005777952610515058,
	"learning_rate": 0.000184550811203487,
	"loss": 0.0,
	"step": 2335
	},
	{
	"epoch": 0.33999273519796586,
	"grad_norm": 0.0005241065518930554,
	"learning_rate": 0.00018447009443861492,
	"loss": 0.0,
	"step": 2340
	},
	{
	"epoch": 0.34071921540138034,
	"grad_norm": 0.00039175679557956755,
	"learning_rate": 0.00018438937767374284,
	"loss": 0.0,
	"step": 2345
	},
	{
	"epoch": 0.34144569560479476,
	"grad_norm": 0.00041981766116805375,
	"learning_rate": 0.0001843086609088708,
	"loss": 0.0,
	"step": 2350
	},
	{
	"epoch": 0.34217217580820924,
	"grad_norm": 0.000371248199371621,
	"learning_rate": 0.0001842279441439987,
	"loss": 0.0,
	"step": 2355
	},
	{
	"epoch": 0.34289865601162367,
	"grad_norm": 0.00031778172706253827,
	"learning_rate": 0.00018414722737912666,
	"loss": 0.0,
	"step": 2360
	},
	{
	"epoch": 0.34362513621503815,
	"grad_norm": 0.00029086892027407885,
	"learning_rate": 0.00018406651061425458,
	"loss": 0.0,
	"step": 2365
	},
	{
	"epoch": 0.3443516164184526,
	"grad_norm": 0.0002902498235926032,
	"learning_rate": 0.00018398579384938253,
	"loss": 0.0,
	"step": 2370
	},
	{
	"epoch": 0.34507809662186706,
	"grad_norm": 0.00040075520519167185,
	"learning_rate": 0.00018390507708451045,
	"loss": 0.0,
	"step": 2375
	},
	{
	"epoch": 0.3458045768252815,
	"grad_norm": 0.00024263348313979805,
	"learning_rate": 0.00018382436031963838,
	"loss": 0.0,
	"step": 2380
	},
	{
	"epoch": 0.34653105702869597,
	"grad_norm": 0.0003889152139890939,
	"learning_rate": 0.00018374364355476635,
	"loss": 0.0,
	"step": 2385
	},
	{
	"epoch": 0.34725753723211045,
	"grad_norm": 0.00022724135487806052,
	"learning_rate": 0.00018366292678989428,
	"loss": 0.0,
	"step": 2390
	},
	{
	"epoch": 0.3479840174355249,
	"grad_norm": 0.0003505950153339654,
	"learning_rate": 0.0001835822100250222,
	"loss": 0.0,
	"step": 2395
	},
	{
	"epoch": 0.34871049763893935,
	"grad_norm": 0.27515658736228943,
	"learning_rate": 0.00018350149326015015,
	"loss": 0.0002,
	"step": 2400
	},
	{
	"epoch": 0.3494369778423538,
	"grad_norm": 0.0003519939782563597,
	"learning_rate": 0.00018342077649527807,
	"loss": 0.0,
	"step": 2405
	},
	{
	"epoch": 0.35016345804576826,
	"grad_norm": 0.00033144818735308945,
	"learning_rate": 0.00018334005973040602,
	"loss": 0.0,
	"step": 2410
	},
	{
	"epoch": 0.3508899382491827,
	"grad_norm": 0.0003098642046097666,
	"learning_rate": 0.00018325934296553394,
	"loss": 0.0,
	"step": 2415
	},
	{
	"epoch": 0.35161641845259717,
	"grad_norm": 0.0002381189988227561,
	"learning_rate": 0.0001831786262006619,
	"loss": 0.0,
	"step": 2420
	},
	{
	"epoch": 0.35234289865601165,
	"grad_norm": 0.0007972380262799561,
	"learning_rate": 0.00018309790943578982,
	"loss": 0.0,
	"step": 2425
	},
	{
	"epoch": 0.3530693788594261,
	"grad_norm": 0.0025481837801635265,
	"learning_rate": 0.00018301719267091774,
	"loss": 0.0,
	"step": 2430
	},
	{
	"epoch": 0.35379585906284056,
	"grad_norm": 0.00035965273855254054,
	"learning_rate": 0.0001829364759060457,
	"loss": 0.0,
	"step": 2435
	},
	{
	"epoch": 0.354522339266255,
	"grad_norm": 0.000297486170893535,
	"learning_rate": 0.00018285575914117364,
	"loss": 0.0,
	"step": 2440
	},
	{
	"epoch": 0.35524881946966946,
	"grad_norm": 0.00028157353517599404,
	"learning_rate": 0.00018277504237630156,
	"loss": 0.0021,
	"step": 2445
	},
	{
	"epoch": 0.3559752996730839,
	"grad_norm": 0.0003479410079307854,
	"learning_rate": 0.00018269432561142948,
	"loss": 0.0,
	"step": 2450
	},
	{
	"epoch": 0.35670177987649837,
	"grad_norm": 0.002874035155400634,
	"learning_rate": 0.00018261360884655746,
	"loss": 0.0003,
	"step": 2455
	},
	{
	"epoch": 0.3574282600799128,
	"grad_norm": 0.00015613746654707938,
	"learning_rate": 0.00018253289208168538,
	"loss": 0.0004,
	"step": 2460
	},
	{
	"epoch": 0.3581547402833273,
	"grad_norm": 0.00013312845840118825,
	"learning_rate": 0.0001824521753168133,
	"loss": 0.0,
	"step": 2465
	},
	{
	"epoch": 0.35888122048674176,
	"grad_norm": 0.0001981378736672923,
	"learning_rate": 0.00018237145855194126,
	"loss": 0.0,
	"step": 2470
	},
	{
	"epoch": 0.3596077006901562,
	"grad_norm": 0.00027879534172825515,
	"learning_rate": 0.00018229074178706918,
	"loss": 0.0,
	"step": 2475
	},
	{
	"epoch": 0.36033418089357067,
	"grad_norm": 0.00016323383897542953,
	"learning_rate": 0.00018221002502219713,
	"loss": 0.0,
	"step": 2480
	},
	{
	"epoch": 0.3610606610969851,
	"grad_norm": 0.0005233317497186363,
	"learning_rate": 0.00018212930825732505,
	"loss": 0.0,
	"step": 2485
	},
	{
	"epoch": 0.3617871413003996,
	"grad_norm": 0.00013268415932543576,
	"learning_rate": 0.000182048591492453,
	"loss": 0.0,
	"step": 2490
	},
	{
	"epoch": 0.362513621503814,
	"grad_norm": 0.01259111799299717,
	"learning_rate": 0.00018196787472758092,
	"loss": 0.0001,
	"step": 2495
	},
	{
	"epoch": 0.3632401017072285,
	"grad_norm": 0.00014725365326739848,
	"learning_rate": 0.00018188715796270885,
	"loss": 0.0,
	"step": 2500
	},
	{
	"epoch": 0.36396658191064296,
	"grad_norm": 0.00021464233577717096,
	"learning_rate": 0.0001818064411978368,
	"loss": 0.0,
	"step": 2505
	},
	{
	"epoch": 0.3646930621140574,
	"grad_norm": 0.00011434618500061333,
	"learning_rate": 0.00018172572443296475,
	"loss": 0.0,
	"step": 2510
	},
	{
	"epoch": 0.36541954231747187,
	"grad_norm": 0.00012706074630841613,
	"learning_rate": 0.00018164500766809267,
	"loss": 0.0,
	"step": 2515
	},
	{
	"epoch": 0.3661460225208863,
	"grad_norm": 0.00015453774540219456,
	"learning_rate": 0.0001815642909032206,
	"loss": 0.0,
	"step": 2520
	},
	{
	"epoch": 0.3668725027243008,
	"grad_norm": 0.00014317889872472733,
	"learning_rate": 0.00018148357413834854,
	"loss": 0.0,
	"step": 2525
	},
	{
	"epoch": 0.3675989829277152,
	"grad_norm": 0.00014966298476792872,
	"learning_rate": 0.0001814028573734765,
	"loss": 0.0,
	"step": 2530
	},
	{
	"epoch": 0.3683254631311297,
	"grad_norm": 0.0001484445674577728,
	"learning_rate": 0.00018132214060860441,
	"loss": 0.0,
	"step": 2535
	},
	{
	"epoch": 0.3690519433345441,
	"grad_norm": 0.00012702727690339088,
	"learning_rate": 0.00018124142384373234,
	"loss": 0.0,
	"step": 2540
	},
	{
	"epoch": 0.3697784235379586,
	"grad_norm": 0.0001310681545874104,
	"learning_rate": 0.00018116070707886029,
	"loss": 0.0,
	"step": 2545
	},
	{
	"epoch": 0.37050490374137307,
	"grad_norm": 0.0001544792321510613,
	"learning_rate": 0.00018107999031398824,
	"loss": 0.0,
	"step": 2550
	},
	{
	"epoch": 0.3712313839447875,
	"grad_norm": 0.0003174188022967428,
	"learning_rate": 0.00018099927354911616,
	"loss": 0.0,
	"step": 2555
	},
	{
	"epoch": 0.371957864148202,
	"grad_norm": 0.00012976166908629239,
	"learning_rate": 0.0001809185567842441,
	"loss": 0.0,
	"step": 2560
	},
	{
	"epoch": 0.3726843443516164,
	"grad_norm": 0.00011333979637129232,
	"learning_rate": 0.00018083784001937203,
	"loss": 0.0,
	"step": 2565
	},
	{
	"epoch": 0.3734108245550309,
	"grad_norm": 0.00014128838665783405,
	"learning_rate": 0.00018075712325449995,
	"loss": 0.0,
	"step": 2570
	},
	{
	"epoch": 0.3741373047584453,
	"grad_norm": 9.816375677473843e-05,
	"learning_rate": 0.0001806764064896279,
	"loss": 0.0,
	"step": 2575
	},
	{
	"epoch": 0.3748637849618598,
	"grad_norm": 0.00012458849232643843,
	"learning_rate": 0.00018059568972475585,
	"loss": 0.0,
	"step": 2580
	},
	{
	"epoch": 0.3755902651652743,
	"grad_norm": 0.00011874383199028671,
	"learning_rate": 0.00018051497295988378,
	"loss": 0.0,
	"step": 2585
	},
	{
	"epoch": 0.3763167453686887,
	"grad_norm": 0.00010492030560271814,
	"learning_rate": 0.0001804342561950117,
	"loss": 0.0,
	"step": 2590
	},
	{
	"epoch": 0.3770432255721032,
	"grad_norm": 0.00012079241423634812,
	"learning_rate": 0.00018035353943013965,
	"loss": 0.0,
	"step": 2595
	},
	{
	"epoch": 0.3777697057755176,
	"grad_norm": 0.0010301030706614256,
	"learning_rate": 0.0001802728226652676,
	"loss": 0.0,
	"step": 2600
	},
	{
	"epoch": 0.3784961859789321,
	"grad_norm": 0.00020237726857885718,
	"learning_rate": 0.00018019210590039552,
	"loss": 0.0,
	"step": 2605
	},
	{
	"epoch": 0.3792226661823465,
	"grad_norm": 0.00014590570935979486,
	"learning_rate": 0.00018011138913552344,
	"loss": 0.0,
	"step": 2610
	},
	{
	"epoch": 0.379949146385761,
	"grad_norm": 0.00012144942593295127,
	"learning_rate": 0.0001800306723706514,
	"loss": 0.0,
	"step": 2615
	},
	{
	"epoch": 0.3806756265891754,
	"grad_norm": 0.00011861774692079052,
	"learning_rate": 0.00017994995560577932,
	"loss": 0.0,
	"step": 2620
	},
	{
	"epoch": 0.3814021067925899,
	"grad_norm": 0.0002795616746880114,
	"learning_rate": 0.00017986923884090727,
	"loss": 0.0,
	"step": 2625
	},
	{
	"epoch": 0.3821285869960044,
	"grad_norm": 0.0001514231407782063,
	"learning_rate": 0.00017978852207603522,
	"loss": 0.0,
	"step": 2630
	},
	{
	"epoch": 0.3828550671994188,
	"grad_norm": 0.000137203314807266,
	"learning_rate": 0.00017970780531116314,
	"loss": 0.0,
	"step": 2635
	},
	{
	"epoch": 0.3835815474028333,
	"grad_norm": 0.00011654103582259268,
	"learning_rate": 0.00017962708854629106,
	"loss": 0.0,
	"step": 2640
	},
	{
	"epoch": 0.3843080276062477,
	"grad_norm": 0.00011019224621122703,
	"learning_rate": 0.000179546371781419,
	"loss": 0.0,
	"step": 2645
	},
	{
	"epoch": 0.3850345078096622,
	"grad_norm": 0.00011716793233063072,
	"learning_rate": 0.00017946565501654696,
	"loss": 0.0,
	"step": 2650
	},
	{
	"epoch": 0.3857609880130766,
	"grad_norm": 0.00013133355241734535,
	"learning_rate": 0.00017938493825167488,
	"loss": 0.0,
	"step": 2655
	},
	{
	"epoch": 0.3864874682164911,
	"grad_norm": 0.00010616648069117218,
	"learning_rate": 0.0001793042214868028,
	"loss": 0.0,
	"step": 2660
	},
	{
	"epoch": 0.3872139484199056,
	"grad_norm": 0.00012793530186172575,
	"learning_rate": 0.00017922350472193076,
	"loss": 0.0,
	"step": 2665
	},
	{
	"epoch": 0.38794042862332,
	"grad_norm": 0.00021880699205212295,
	"learning_rate": 0.0001791427879570587,
	"loss": 0.0,
	"step": 2670
	},
	{
	"epoch": 0.3886669088267345,
	"grad_norm": 0.0321350060403347,
	"learning_rate": 0.00017906207119218663,
	"loss": 0.0,
	"step": 2675
	},
	{
	"epoch": 0.3893933890301489,
	"grad_norm": 0.0001054102904163301,
	"learning_rate": 0.00017898135442731455,
	"loss": 0.0,
	"step": 2680
	},
	{
	"epoch": 0.3901198692335634,
	"grad_norm": 0.00011370116408215836,
	"learning_rate": 0.0001789006376624425,
	"loss": 0.0,
	"step": 2685
	},
	{
	"epoch": 0.3908463494369778,
	"grad_norm": 7.921565702417865e-05,
	"learning_rate": 0.00017881992089757042,
	"loss": 0.0,
	"step": 2690
	},
	{
	"epoch": 0.3915728296403923,
	"grad_norm": 0.0001325017656199634,
	"learning_rate": 0.00017873920413269837,
	"loss": 0.0,
	"step": 2695
	},
	{
	"epoch": 0.39229930984380673,
	"grad_norm": 0.00011485354480100796,
	"learning_rate": 0.00017865848736782632,
	"loss": 0.0,
	"step": 2700
	},
	{
	"epoch": 0.3930257900472212,
	"grad_norm": 0.0001319620932918042,
	"learning_rate": 0.00017857777060295424,
	"loss": 0.0,
	"step": 2705
	},
	{
	"epoch": 0.3937522702506357,
	"grad_norm": 0.00011554160300875083,
	"learning_rate": 0.00017849705383808217,
	"loss": 0.0,
	"step": 2710
	},
	{
	"epoch": 0.3944787504540501,
	"grad_norm": 0.00011111667845398188,
	"learning_rate": 0.00017841633707321012,
	"loss": 0.0,
	"step": 2715
	},
	{
	"epoch": 0.3952052306574646,
	"grad_norm": 0.00030816654907539487,
	"learning_rate": 0.00017833562030833807,
	"loss": 0.0,
	"step": 2720
	},
	{
	"epoch": 0.395931710860879,
	"grad_norm": 0.00012618518667295575,
	"learning_rate": 0.000178254903543466,
	"loss": 0.0,
	"step": 2725
	},
	{
	"epoch": 0.3966581910642935,
	"grad_norm": 0.00011036815703846514,
	"learning_rate": 0.0001781741867785939,
	"loss": 0.0,
	"step": 2730
	},
	{
	"epoch": 0.39738467126770793,
	"grad_norm": 0.001136181759648025,
	"learning_rate": 0.00017809347001372186,
	"loss": 0.0,
	"step": 2735
	},
	{
	"epoch": 0.3981111514711224,
	"grad_norm": 9.4526847533416e-05,
	"learning_rate": 0.00017801275324884978,
	"loss": 0.0,
	"step": 2740
	},
	{
	"epoch": 0.3988376316745369,
	"grad_norm": 9.693180618342012e-05,
	"learning_rate": 0.00017793203648397773,
	"loss": 0.0,
	"step": 2745
	},
	{
	"epoch": 0.3995641118779513,
	"grad_norm": 0.00013439155009109527,
	"learning_rate": 0.00017785131971910566,
	"loss": 0.0,
	"step": 2750
	},
	{
	"epoch": 0.4001452960406829,
	"eval_accuracy": 1.0,
	"eval_f1": 1.0,
	"eval_loss": 8.966613904703991e-07,
	"eval_precision": 1.0,
	"eval_recall": 1.0,
	"eval_runtime": 123.9354,
	"eval_samples_per_second": 313.591,
	"eval_steps_per_second": 2.453,
	"step": 2754
	}
	],
	"logging_steps": 5,
	"max_steps": 13766,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 1377,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3618642193367040.0,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}