LA4SR-Pythia-12B-23000 / trainer_state.json

David Roy Nelson

Upload 11 files

757335f verified over 1 year ago

374 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.04182968498155174,
	"eval_steps": 500,
	"global_step": 23000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.818681955719641e-05,
	"grad_norm": 2.1063554286956787,
	"learning_rate": 0.0002,
	"loss": 1.9357,
	"step": 10
	},
	{
	"epoch": 3.637363911439282e-05,
	"grad_norm": 0.9359453320503235,
	"learning_rate": 0.0002,
	"loss": 0.2208,
	"step": 20
	},
	{
	"epoch": 5.4560458671589234e-05,
	"grad_norm": 0.5420117378234863,
	"learning_rate": 0.0002,
	"loss": 0.1459,
	"step": 30
	},
	{
	"epoch": 7.274727822878565e-05,
	"grad_norm": 0.05442357063293457,
	"learning_rate": 0.0002,
	"loss": 0.0823,
	"step": 40
	},
	{
	"epoch": 9.093409778598205e-05,
	"grad_norm": 0.0005907653248868883,
	"learning_rate": 0.0002,
	"loss": 0.0005,
	"step": 50
	},
	{
	"epoch": 0.00010912091734317847,
	"grad_norm": 0.26516178250312805,
	"learning_rate": 0.0002,
	"loss": 1.0686,
	"step": 60
	},
	{
	"epoch": 0.00012730773690037487,
	"grad_norm": 0.44067099690437317,
	"learning_rate": 0.0002,
	"loss": 0.2613,
	"step": 70
	},
	{
	"epoch": 0.0001454945564575713,
	"grad_norm": 0.09356075525283813,
	"learning_rate": 0.0002,
	"loss": 0.1415,
	"step": 80
	},
	{
	"epoch": 0.0001636813760147677,
	"grad_norm": 0.017799921333789825,
	"learning_rate": 0.0002,
	"loss": 0.1013,
	"step": 90
	},
	{
	"epoch": 0.0001818681955719641,
	"grad_norm": 0.0018534553237259388,
	"learning_rate": 0.0002,
	"loss": 0.0001,
	"step": 100
	},
	{
	"epoch": 0.00020005501512916052,
	"grad_norm": 0.35472020506858826,
	"learning_rate": 0.0002,
	"loss": 0.73,
	"step": 110
	},
	{
	"epoch": 0.00021824183468635694,
	"grad_norm": 0.3880878686904907,
	"learning_rate": 0.0002,
	"loss": 0.1424,
	"step": 120
	},
	{
	"epoch": 0.00023642865424355333,
	"grad_norm": 0.19027432799339294,
	"learning_rate": 0.0002,
	"loss": 0.1173,
	"step": 130
	},
	{
	"epoch": 0.00025461547380074975,
	"grad_norm": 0.019047321751713753,
	"learning_rate": 0.0002,
	"loss": 0.0977,
	"step": 140
	},
	{
	"epoch": 0.00027280229335794617,
	"grad_norm": 0.0003795044613070786,
	"learning_rate": 0.0002,
	"loss": 0.0007,
	"step": 150
	},
	{
	"epoch": 0.0002909891129151426,
	"grad_norm": 0.08740618824958801,
	"learning_rate": 0.0002,
	"loss": 0.801,
	"step": 160
	},
	{
	"epoch": 0.000309175932472339,
	"grad_norm": 0.2661634087562561,
	"learning_rate": 0.0002,
	"loss": 0.1274,
	"step": 170
	},
	{
	"epoch": 0.0003273627520295354,
	"grad_norm": 0.05828547850251198,
	"learning_rate": 0.0002,
	"loss": 0.1184,
	"step": 180
	},
	{
	"epoch": 0.0003455495715867318,
	"grad_norm": 0.02175055630505085,
	"learning_rate": 0.0002,
	"loss": 0.0752,
	"step": 190
	},
	{
	"epoch": 0.0003637363911439282,
	"grad_norm": 0.0009504792396910489,
	"learning_rate": 0.0002,
	"loss": 0.0005,
	"step": 200
	},
	{
	"epoch": 0.0003819232107011246,
	"grad_norm": 0.25059741735458374,
	"learning_rate": 0.0002,
	"loss": 0.5125,
	"step": 210
	},
	{
	"epoch": 0.00040011003025832104,
	"grad_norm": 0.13256193697452545,
	"learning_rate": 0.0002,
	"loss": 0.1014,
	"step": 220
	},
	{
	"epoch": 0.00041829684981551746,
	"grad_norm": 0.09446375072002411,
	"learning_rate": 0.0002,
	"loss": 0.0896,
	"step": 230
	},
	{
	"epoch": 0.0004364836693727139,
	"grad_norm": 0.019389621913433075,
	"learning_rate": 0.0002,
	"loss": 0.0726,
	"step": 240
	},
	{
	"epoch": 0.0004546704889299103,
	"grad_norm": 0.0032304900232702494,
	"learning_rate": 0.0002,
	"loss": 0.0023,
	"step": 250
	},
	{
	"epoch": 0.00047285730848710666,
	"grad_norm": 2.5549609661102295,
	"learning_rate": 0.0002,
	"loss": 0.3884,
	"step": 260
	},
	{
	"epoch": 0.0004910441280443031,
	"grad_norm": 0.44937047362327576,
	"learning_rate": 0.0002,
	"loss": 0.1071,
	"step": 270
	},
	{
	"epoch": 0.0005092309476014995,
	"grad_norm": 0.1509999781847,
	"learning_rate": 0.0002,
	"loss": 0.0979,
	"step": 280
	},
	{
	"epoch": 0.0005274177671586959,
	"grad_norm": 0.006468054372817278,
	"learning_rate": 0.0002,
	"loss": 0.0611,
	"step": 290
	},
	{
	"epoch": 0.0005456045867158923,
	"grad_norm": 0.0002916739322245121,
	"learning_rate": 0.0002,
	"loss": 0.001,
	"step": 300
	},
	{
	"epoch": 0.0005637914062730887,
	"grad_norm": 0.23081810772418976,
	"learning_rate": 0.0002,
	"loss": 0.5894,
	"step": 310
	},
	{
	"epoch": 0.0005819782258302852,
	"grad_norm": 0.22755394876003265,
	"learning_rate": 0.0002,
	"loss": 0.114,
	"step": 320
	},
	{
	"epoch": 0.0006001650453874816,
	"grad_norm": 0.49973106384277344,
	"learning_rate": 0.0002,
	"loss": 0.093,
	"step": 330
	},
	{
	"epoch": 0.000618351864944678,
	"grad_norm": 0.08789435774087906,
	"learning_rate": 0.0002,
	"loss": 0.0745,
	"step": 340
	},
	{
	"epoch": 0.0006365386845018744,
	"grad_norm": 0.0058497479185462,
	"learning_rate": 0.0002,
	"loss": 0.0007,
	"step": 350
	},
	{
	"epoch": 0.0006547255040590708,
	"grad_norm": 0.30569636821746826,
	"learning_rate": 0.0002,
	"loss": 0.5169,
	"step": 360
	},
	{
	"epoch": 0.0006729123236162671,
	"grad_norm": 0.2783024311065674,
	"learning_rate": 0.0002,
	"loss": 0.13,
	"step": 370
	},
	{
	"epoch": 0.0006910991431734636,
	"grad_norm": 0.13052967190742493,
	"learning_rate": 0.0002,
	"loss": 0.0907,
	"step": 380
	},
	{
	"epoch": 0.00070928596273066,
	"grad_norm": 0.15066476166248322,
	"learning_rate": 0.0002,
	"loss": 0.0996,
	"step": 390
	},
	{
	"epoch": 0.0007274727822878564,
	"grad_norm": 0.0005865198327228427,
	"learning_rate": 0.0002,
	"loss": 0.0021,
	"step": 400
	},
	{
	"epoch": 0.0007456596018450528,
	"grad_norm": 0.31872233748435974,
	"learning_rate": 0.0002,
	"loss": 0.4507,
	"step": 410
	},
	{
	"epoch": 0.0007638464214022492,
	"grad_norm": 0.08874880522489548,
	"learning_rate": 0.0002,
	"loss": 0.136,
	"step": 420
	},
	{
	"epoch": 0.0007820332409594457,
	"grad_norm": 0.10985178500413895,
	"learning_rate": 0.0002,
	"loss": 0.0992,
	"step": 430
	},
	{
	"epoch": 0.0008002200605166421,
	"grad_norm": 0.10776215046644211,
	"learning_rate": 0.0002,
	"loss": 0.0661,
	"step": 440
	},
	{
	"epoch": 0.0008184068800738385,
	"grad_norm": 0.006612936966121197,
	"learning_rate": 0.0002,
	"loss": 0.0009,
	"step": 450
	},
	{
	"epoch": 0.0008365936996310349,
	"grad_norm": 0.2757071256637573,
	"learning_rate": 0.0002,
	"loss": 0.6376,
	"step": 460
	},
	{
	"epoch": 0.0008547805191882313,
	"grad_norm": 0.24748466908931732,
	"learning_rate": 0.0002,
	"loss": 0.1241,
	"step": 470
	},
	{
	"epoch": 0.0008729673387454278,
	"grad_norm": 0.1035066694021225,
	"learning_rate": 0.0002,
	"loss": 0.1008,
	"step": 480
	},
	{
	"epoch": 0.0008911541583026242,
	"grad_norm": 0.06515783071517944,
	"learning_rate": 0.0002,
	"loss": 0.0711,
	"step": 490
	},
	{
	"epoch": 0.0009093409778598206,
	"grad_norm": 0.011224807240068913,
	"learning_rate": 0.0002,
	"loss": 0.0004,
	"step": 500
	},
	{
	"epoch": 0.000927527797417017,
	"grad_norm": 0.2669332027435303,
	"learning_rate": 0.0002,
	"loss": 0.5618,
	"step": 510
	},
	{
	"epoch": 0.0009457146169742133,
	"grad_norm": 0.26048392057418823,
	"learning_rate": 0.0002,
	"loss": 0.1259,
	"step": 520
	},
	{
	"epoch": 0.0009639014365314097,
	"grad_norm": 0.22928836941719055,
	"learning_rate": 0.0002,
	"loss": 0.0956,
	"step": 530
	},
	{
	"epoch": 0.0009820882560886062,
	"grad_norm": 0.084063321352005,
	"learning_rate": 0.0002,
	"loss": 0.0708,
	"step": 540
	},
	{
	"epoch": 0.0010002750756458027,
	"grad_norm": 0.004612344317138195,
	"learning_rate": 0.0002,
	"loss": 0.0007,
	"step": 550
	},
	{
	"epoch": 0.001018461895202999,
	"grad_norm": 0.3866584599018097,
	"learning_rate": 0.0002,
	"loss": 0.5406,
	"step": 560
	},
	{
	"epoch": 0.0010366487147601955,
	"grad_norm": 0.32303065061569214,
	"learning_rate": 0.0002,
	"loss": 0.1001,
	"step": 570
	},
	{
	"epoch": 0.0010548355343173918,
	"grad_norm": 0.09439560770988464,
	"learning_rate": 0.0002,
	"loss": 0.1051,
	"step": 580
	},
	{
	"epoch": 0.0010730223538745881,
	"grad_norm": 0.028145521879196167,
	"learning_rate": 0.0002,
	"loss": 0.0638,
	"step": 590
	},
	{
	"epoch": 0.0010912091734317847,
	"grad_norm": 0.00048497263924218714,
	"learning_rate": 0.0002,
	"loss": 0.002,
	"step": 600
	},
	{
	"epoch": 0.001109395992988981,
	"grad_norm": 0.32391539216041565,
	"learning_rate": 0.0002,
	"loss": 0.5483,
	"step": 610
	},
	{
	"epoch": 0.0011275828125461775,
	"grad_norm": 0.02977031283080578,
	"learning_rate": 0.0002,
	"loss": 0.1264,
	"step": 620
	},
	{
	"epoch": 0.0011457696321033738,
	"grad_norm": 0.07332426309585571,
	"learning_rate": 0.0002,
	"loss": 0.1018,
	"step": 630
	},
	{
	"epoch": 0.0011639564516605703,
	"grad_norm": 0.05653443560004234,
	"learning_rate": 0.0002,
	"loss": 0.0666,
	"step": 640
	},
	{
	"epoch": 0.0011821432712177666,
	"grad_norm": 0.0010635281214490533,
	"learning_rate": 0.0002,
	"loss": 0.0009,
	"step": 650
	},
	{
	"epoch": 0.0012003300907749632,
	"grad_norm": 0.04933600872755051,
	"learning_rate": 0.0002,
	"loss": 0.3902,
	"step": 660
	},
	{
	"epoch": 0.0012185169103321595,
	"grad_norm": 0.14713574945926666,
	"learning_rate": 0.0002,
	"loss": 0.0905,
	"step": 670
	},
	{
	"epoch": 0.001236703729889356,
	"grad_norm": 0.05463952198624611,
	"learning_rate": 0.0002,
	"loss": 0.0909,
	"step": 680
	},
	{
	"epoch": 0.0012548905494465523,
	"grad_norm": 0.10299955308437347,
	"learning_rate": 0.0002,
	"loss": 0.07,
	"step": 690
	},
	{
	"epoch": 0.0012730773690037488,
	"grad_norm": 0.022791124880313873,
	"learning_rate": 0.0002,
	"loss": 0.0027,
	"step": 700
	},
	{
	"epoch": 0.0012912641885609452,
	"grad_norm": 0.27977490425109863,
	"learning_rate": 0.0002,
	"loss": 0.4421,
	"step": 710
	},
	{
	"epoch": 0.0013094510081181417,
	"grad_norm": 0.2346329241991043,
	"learning_rate": 0.0002,
	"loss": 0.1263,
	"step": 720
	},
	{
	"epoch": 0.001327637827675338,
	"grad_norm": 0.09294597059488297,
	"learning_rate": 0.0002,
	"loss": 0.096,
	"step": 730
	},
	{
	"epoch": 0.0013458246472325343,
	"grad_norm": 0.10317150503396988,
	"learning_rate": 0.0002,
	"loss": 0.0727,
	"step": 740
	},
	{
	"epoch": 0.0013640114667897308,
	"grad_norm": 0.001372635131701827,
	"learning_rate": 0.0002,
	"loss": 0.001,
	"step": 750
	},
	{
	"epoch": 0.0013821982863469271,
	"grad_norm": 0.10563486814498901,
	"learning_rate": 0.0002,
	"loss": 0.596,
	"step": 760
	},
	{
	"epoch": 0.0014003851059041237,
	"grad_norm": 0.14429838955402374,
	"learning_rate": 0.0002,
	"loss": 0.1178,
	"step": 770
	},
	{
	"epoch": 0.00141857192546132,
	"grad_norm": 0.0848163515329361,
	"learning_rate": 0.0002,
	"loss": 0.1008,
	"step": 780
	},
	{
	"epoch": 0.0014367587450185165,
	"grad_norm": 0.07259710133075714,
	"learning_rate": 0.0002,
	"loss": 0.069,
	"step": 790
	},
	{
	"epoch": 0.0014549455645757128,
	"grad_norm": 0.0019098519114777446,
	"learning_rate": 0.0002,
	"loss": 0.0023,
	"step": 800
	},
	{
	"epoch": 0.0014731323841329093,
	"grad_norm": 0.2433256059885025,
	"learning_rate": 0.0002,
	"loss": 0.2937,
	"step": 810
	},
	{
	"epoch": 0.0014913192036901056,
	"grad_norm": 0.04093409329652786,
	"learning_rate": 0.0002,
	"loss": 0.1133,
	"step": 820
	},
	{
	"epoch": 0.0015095060232473022,
	"grad_norm": 0.0480966717004776,
	"learning_rate": 0.0002,
	"loss": 0.0969,
	"step": 830
	},
	{
	"epoch": 0.0015276928428044985,
	"grad_norm": 0.14327965676784515,
	"learning_rate": 0.0002,
	"loss": 0.0866,
	"step": 840
	},
	{
	"epoch": 0.001545879662361695,
	"grad_norm": 0.001585015095770359,
	"learning_rate": 0.0002,
	"loss": 0.0042,
	"step": 850
	},
	{
	"epoch": 0.0015640664819188913,
	"grad_norm": 0.1842886209487915,
	"learning_rate": 0.0002,
	"loss": 0.3273,
	"step": 860
	},
	{
	"epoch": 0.0015822533014760878,
	"grad_norm": 0.09671049565076828,
	"learning_rate": 0.0002,
	"loss": 0.1079,
	"step": 870
	},
	{
	"epoch": 0.0016004401210332842,
	"grad_norm": 0.2730088233947754,
	"learning_rate": 0.0002,
	"loss": 0.1018,
	"step": 880
	},
	{
	"epoch": 0.0016186269405904805,
	"grad_norm": 0.11702803522348404,
	"learning_rate": 0.0002,
	"loss": 0.0758,
	"step": 890
	},
	{
	"epoch": 0.001636813760147677,
	"grad_norm": 0.004438066389411688,
	"learning_rate": 0.0002,
	"loss": 0.0033,
	"step": 900
	},
	{
	"epoch": 0.0016550005797048733,
	"grad_norm": 0.18424616754055023,
	"learning_rate": 0.0002,
	"loss": 0.4028,
	"step": 910
	},
	{
	"epoch": 0.0016731873992620698,
	"grad_norm": 0.12502820789813995,
	"learning_rate": 0.0002,
	"loss": 0.0979,
	"step": 920
	},
	{
	"epoch": 0.0016913742188192661,
	"grad_norm": 0.05109328031539917,
	"learning_rate": 0.0002,
	"loss": 0.0889,
	"step": 930
	},
	{
	"epoch": 0.0017095610383764627,
	"grad_norm": 0.18566183745861053,
	"learning_rate": 0.0002,
	"loss": 0.0833,
	"step": 940
	},
	{
	"epoch": 0.001727747857933659,
	"grad_norm": 0.0012954511912539601,
	"learning_rate": 0.0002,
	"loss": 0.0029,
	"step": 950
	},
	{
	"epoch": 0.0017459346774908555,
	"grad_norm": 0.06683014333248138,
	"learning_rate": 0.0002,
	"loss": 0.4614,
	"step": 960
	},
	{
	"epoch": 0.0017641214970480518,
	"grad_norm": 0.27773013710975647,
	"learning_rate": 0.0002,
	"loss": 0.1131,
	"step": 970
	},
	{
	"epoch": 0.0017823083166052483,
	"grad_norm": 0.1999790072441101,
	"learning_rate": 0.0002,
	"loss": 0.089,
	"step": 980
	},
	{
	"epoch": 0.0018004951361624446,
	"grad_norm": 0.09625103324651718,
	"learning_rate": 0.0002,
	"loss": 0.0739,
	"step": 990
	},
	{
	"epoch": 0.0018186819557196412,
	"grad_norm": 0.005470380187034607,
	"learning_rate": 0.0002,
	"loss": 0.0012,
	"step": 1000
	},
	{
	"epoch": 0.0018368687752768375,
	"grad_norm": 0.038832616060972214,
	"learning_rate": 0.0002,
	"loss": 0.5521,
	"step": 1010
	},
	{
	"epoch": 0.001855055594834034,
	"grad_norm": 0.1903093159198761,
	"learning_rate": 0.0002,
	"loss": 0.1237,
	"step": 1020
	},
	{
	"epoch": 0.0018732424143912303,
	"grad_norm": 0.031102774664759636,
	"learning_rate": 0.0002,
	"loss": 0.0866,
	"step": 1030
	},
	{
	"epoch": 0.0018914292339484266,
	"grad_norm": 0.043983202427625656,
	"learning_rate": 0.0002,
	"loss": 0.0611,
	"step": 1040
	},
	{
	"epoch": 0.0019096160535056232,
	"grad_norm": 0.0002974902163259685,
	"learning_rate": 0.0002,
	"loss": 0.0035,
	"step": 1050
	},
	{
	"epoch": 0.0019278028730628195,
	"grad_norm": 0.1936149299144745,
	"learning_rate": 0.0002,
	"loss": 0.3019,
	"step": 1060
	},
	{
	"epoch": 0.001945989692620016,
	"grad_norm": 0.15767355263233185,
	"learning_rate": 0.0002,
	"loss": 0.108,
	"step": 1070
	},
	{
	"epoch": 0.0019641765121772123,
	"grad_norm": 0.08244495838880539,
	"learning_rate": 0.0002,
	"loss": 0.091,
	"step": 1080
	},
	{
	"epoch": 0.0019823633317344086,
	"grad_norm": 0.15848897397518158,
	"learning_rate": 0.0002,
	"loss": 0.0655,
	"step": 1090
	},
	{
	"epoch": 0.0020005501512916054,
	"grad_norm": 0.0011951205087825656,
	"learning_rate": 0.0002,
	"loss": 0.0052,
	"step": 1100
	},
	{
	"epoch": 0.0020187369708488017,
	"grad_norm": 0.13027112185955048,
	"learning_rate": 0.0002,
	"loss": 0.2943,
	"step": 1110
	},
	{
	"epoch": 0.002036923790405998,
	"grad_norm": 0.19413979351520538,
	"learning_rate": 0.0002,
	"loss": 0.1329,
	"step": 1120
	},
	{
	"epoch": 0.0020551106099631943,
	"grad_norm": 0.08515465259552002,
	"learning_rate": 0.0002,
	"loss": 0.0921,
	"step": 1130
	},
	{
	"epoch": 0.002073297429520391,
	"grad_norm": 0.1244177296757698,
	"learning_rate": 0.0002,
	"loss": 0.0678,
	"step": 1140
	},
	{
	"epoch": 0.0020914842490775873,
	"grad_norm": 0.0016714326338842511,
	"learning_rate": 0.0002,
	"loss": 0.0035,
	"step": 1150
	},
	{
	"epoch": 0.0021096710686347836,
	"grad_norm": 0.24979737401008606,
	"learning_rate": 0.0002,
	"loss": 0.2643,
	"step": 1160
	},
	{
	"epoch": 0.00212785788819198,
	"grad_norm": 0.14143353700637817,
	"learning_rate": 0.0002,
	"loss": 0.1037,
	"step": 1170
	},
	{
	"epoch": 0.0021460447077491763,
	"grad_norm": 0.033794257789850235,
	"learning_rate": 0.0002,
	"loss": 0.087,
	"step": 1180
	},
	{
	"epoch": 0.002164231527306373,
	"grad_norm": 0.11503162235021591,
	"learning_rate": 0.0002,
	"loss": 0.0659,
	"step": 1190
	},
	{
	"epoch": 0.0021824183468635693,
	"grad_norm": 0.0014654065016657114,
	"learning_rate": 0.0002,
	"loss": 0.0056,
	"step": 1200
	},
	{
	"epoch": 0.0022006051664207656,
	"grad_norm": 0.13292767107486725,
	"learning_rate": 0.0002,
	"loss": 0.2956,
	"step": 1210
	},
	{
	"epoch": 0.002218791985977962,
	"grad_norm": 0.15238040685653687,
	"learning_rate": 0.0002,
	"loss": 0.1122,
	"step": 1220
	},
	{
	"epoch": 0.0022369788055351587,
	"grad_norm": 0.045078523457050323,
	"learning_rate": 0.0002,
	"loss": 0.091,
	"step": 1230
	},
	{
	"epoch": 0.002255165625092355,
	"grad_norm": 0.11438468098640442,
	"learning_rate": 0.0002,
	"loss": 0.0754,
	"step": 1240
	},
	{
	"epoch": 0.0022733524446495513,
	"grad_norm": 0.001236733514815569,
	"learning_rate": 0.0002,
	"loss": 0.004,
	"step": 1250
	},
	{
	"epoch": 0.0022915392642067476,
	"grad_norm": 0.23386552929878235,
	"learning_rate": 0.0002,
	"loss": 0.351,
	"step": 1260
	},
	{
	"epoch": 0.0023097260837639444,
	"grad_norm": 0.030786139890551567,
	"learning_rate": 0.0002,
	"loss": 0.1074,
	"step": 1270
	},
	{
	"epoch": 0.0023279129033211407,
	"grad_norm": 0.150347501039505,
	"learning_rate": 0.0002,
	"loss": 0.1064,
	"step": 1280
	},
	{
	"epoch": 0.002346099722878337,
	"grad_norm": 0.1402382105588913,
	"learning_rate": 0.0002,
	"loss": 0.0675,
	"step": 1290
	},
	{
	"epoch": 0.0023642865424355333,
	"grad_norm": 0.0006117303855717182,
	"learning_rate": 0.0002,
	"loss": 0.0031,
	"step": 1300
	},
	{
	"epoch": 0.00238247336199273,
	"grad_norm": 0.16031372547149658,
	"learning_rate": 0.0002,
	"loss": 0.4344,
	"step": 1310
	},
	{
	"epoch": 0.0024006601815499263,
	"grad_norm": 0.11017303168773651,
	"learning_rate": 0.0002,
	"loss": 0.1147,
	"step": 1320
	},
	{
	"epoch": 0.0024188470011071227,
	"grad_norm": 0.055746905505657196,
	"learning_rate": 0.0002,
	"loss": 0.093,
	"step": 1330
	},
	{
	"epoch": 0.002437033820664319,
	"grad_norm": 0.09806664288043976,
	"learning_rate": 0.0002,
	"loss": 0.0682,
	"step": 1340
	},
	{
	"epoch": 0.0024552206402215153,
	"grad_norm": 0.000555588339921087,
	"learning_rate": 0.0002,
	"loss": 0.0045,
	"step": 1350
	},
	{
	"epoch": 0.002473407459778712,
	"grad_norm": 0.04899182915687561,
	"learning_rate": 0.0002,
	"loss": 0.3454,
	"step": 1360
	},
	{
	"epoch": 0.0024915942793359083,
	"grad_norm": 0.02870030514895916,
	"learning_rate": 0.0002,
	"loss": 0.1036,
	"step": 1370
	},
	{
	"epoch": 0.0025097810988931046,
	"grad_norm": 0.08591730147600174,
	"learning_rate": 0.0002,
	"loss": 0.0962,
	"step": 1380
	},
	{
	"epoch": 0.002527967918450301,
	"grad_norm": 0.1169242337346077,
	"learning_rate": 0.0002,
	"loss": 0.0627,
	"step": 1390
	},
	{
	"epoch": 0.0025461547380074977,
	"grad_norm": 0.0008637752034701407,
	"learning_rate": 0.0002,
	"loss": 0.0025,
	"step": 1400
	},
	{
	"epoch": 0.002564341557564694,
	"grad_norm": 0.11741841584444046,
	"learning_rate": 0.0002,
	"loss": 0.3703,
	"step": 1410
	},
	{
	"epoch": 0.0025825283771218903,
	"grad_norm": 0.05232485383749008,
	"learning_rate": 0.0002,
	"loss": 0.1072,
	"step": 1420
	},
	{
	"epoch": 0.0026007151966790866,
	"grad_norm": 0.025201110169291496,
	"learning_rate": 0.0002,
	"loss": 0.0893,
	"step": 1430
	},
	{
	"epoch": 0.0026189020162362834,
	"grad_norm": 0.11462239921092987,
	"learning_rate": 0.0002,
	"loss": 0.0826,
	"step": 1440
	},
	{
	"epoch": 0.0026370888357934797,
	"grad_norm": 0.002194227883592248,
	"learning_rate": 0.0002,
	"loss": 0.0049,
	"step": 1450
	},
	{
	"epoch": 0.002655275655350676,
	"grad_norm": 0.05786404758691788,
	"learning_rate": 0.0002,
	"loss": 0.3187,
	"step": 1460
	},
	{
	"epoch": 0.0026734624749078723,
	"grad_norm": 0.03776915743947029,
	"learning_rate": 0.0002,
	"loss": 0.1002,
	"step": 1470
	},
	{
	"epoch": 0.0026916492944650686,
	"grad_norm": 0.08628734946250916,
	"learning_rate": 0.0002,
	"loss": 0.0933,
	"step": 1480
	},
	{
	"epoch": 0.0027098361140222653,
	"grad_norm": 0.0933455228805542,
	"learning_rate": 0.0002,
	"loss": 0.0712,
	"step": 1490
	},
	{
	"epoch": 0.0027280229335794617,
	"grad_norm": 0.0007446192903444171,
	"learning_rate": 0.0002,
	"loss": 0.003,
	"step": 1500
	},
	{
	"epoch": 0.002746209753136658,
	"grad_norm": 0.04412281885743141,
	"learning_rate": 0.0002,
	"loss": 0.3738,
	"step": 1510
	},
	{
	"epoch": 0.0027643965726938543,
	"grad_norm": 0.04729326814413071,
	"learning_rate": 0.0002,
	"loss": 0.1015,
	"step": 1520
	},
	{
	"epoch": 0.002782583392251051,
	"grad_norm": 0.04822024703025818,
	"learning_rate": 0.0002,
	"loss": 0.0913,
	"step": 1530
	},
	{
	"epoch": 0.0028007702118082473,
	"grad_norm": 0.15468090772628784,
	"learning_rate": 0.0002,
	"loss": 0.0794,
	"step": 1540
	},
	{
	"epoch": 0.0028189570313654436,
	"grad_norm": 0.0011828596470877528,
	"learning_rate": 0.0002,
	"loss": 0.0089,
	"step": 1550
	},
	{
	"epoch": 0.00283714385092264,
	"grad_norm": 0.030639037489891052,
	"learning_rate": 0.0002,
	"loss": 0.3382,
	"step": 1560
	},
	{
	"epoch": 0.0028553306704798367,
	"grad_norm": 0.08429472148418427,
	"learning_rate": 0.0002,
	"loss": 0.1075,
	"step": 1570
	},
	{
	"epoch": 0.002873517490037033,
	"grad_norm": 0.056431323289871216,
	"learning_rate": 0.0002,
	"loss": 0.0946,
	"step": 1580
	},
	{
	"epoch": 0.0028917043095942293,
	"grad_norm": 0.1799512803554535,
	"learning_rate": 0.0002,
	"loss": 0.0795,
	"step": 1590
	},
	{
	"epoch": 0.0029098911291514256,
	"grad_norm": 0.0018818675307556987,
	"learning_rate": 0.0002,
	"loss": 0.0082,
	"step": 1600
	},
	{
	"epoch": 0.002928077948708622,
	"grad_norm": 0.061398155987262726,
	"learning_rate": 0.0002,
	"loss": 0.3414,
	"step": 1610
	},
	{
	"epoch": 0.0029462647682658187,
	"grad_norm": 0.0657019093632698,
	"learning_rate": 0.0002,
	"loss": 0.1082,
	"step": 1620
	},
	{
	"epoch": 0.002964451587823015,
	"grad_norm": 0.04701487720012665,
	"learning_rate": 0.0002,
	"loss": 0.0918,
	"step": 1630
	},
	{
	"epoch": 0.0029826384073802113,
	"grad_norm": 0.1834430694580078,
	"learning_rate": 0.0002,
	"loss": 0.081,
	"step": 1640
	},
	{
	"epoch": 0.0030008252269374076,
	"grad_norm": 0.004841644782572985,
	"learning_rate": 0.0002,
	"loss": 0.0138,
	"step": 1650
	},
	{
	"epoch": 0.0030190120464946043,
	"grad_norm": 0.05793444439768791,
	"learning_rate": 0.0002,
	"loss": 0.2981,
	"step": 1660
	},
	{
	"epoch": 0.0030371988660518007,
	"grad_norm": 0.049123138189315796,
	"learning_rate": 0.0002,
	"loss": 0.1072,
	"step": 1670
	},
	{
	"epoch": 0.003055385685608997,
	"grad_norm": 0.033852141350507736,
	"learning_rate": 0.0002,
	"loss": 0.093,
	"step": 1680
	},
	{
	"epoch": 0.0030735725051661933,
	"grad_norm": 0.16161279380321503,
	"learning_rate": 0.0002,
	"loss": 0.084,
	"step": 1690
	},
	{
	"epoch": 0.00309175932472339,
	"grad_norm": 0.0011225020280107856,
	"learning_rate": 0.0002,
	"loss": 0.0059,
	"step": 1700
	},
	{
	"epoch": 0.0031099461442805863,
	"grad_norm": 0.05849582701921463,
	"learning_rate": 0.0002,
	"loss": 0.3878,
	"step": 1710
	},
	{
	"epoch": 0.0031281329638377826,
	"grad_norm": 0.033466637134552,
	"learning_rate": 0.0002,
	"loss": 0.1096,
	"step": 1720
	},
	{
	"epoch": 0.003146319783394979,
	"grad_norm": 0.03488466143608093,
	"learning_rate": 0.0002,
	"loss": 0.0895,
	"step": 1730
	},
	{
	"epoch": 0.0031645066029521757,
	"grad_norm": 0.15636079013347626,
	"learning_rate": 0.0002,
	"loss": 0.0716,
	"step": 1740
	},
	{
	"epoch": 0.003182693422509372,
	"grad_norm": 0.001519509358331561,
	"learning_rate": 0.0002,
	"loss": 0.0062,
	"step": 1750
	},
	{
	"epoch": 0.0032008802420665683,
	"grad_norm": 0.04979783296585083,
	"learning_rate": 0.0002,
	"loss": 0.3409,
	"step": 1760
	},
	{
	"epoch": 0.0032190670616237646,
	"grad_norm": 0.09706272929906845,
	"learning_rate": 0.0002,
	"loss": 0.1052,
	"step": 1770
	},
	{
	"epoch": 0.003237253881180961,
	"grad_norm": 0.08768483251333237,
	"learning_rate": 0.0002,
	"loss": 0.0938,
	"step": 1780
	},
	{
	"epoch": 0.0032554407007381577,
	"grad_norm": 0.20421457290649414,
	"learning_rate": 0.0002,
	"loss": 0.085,
	"step": 1790
	},
	{
	"epoch": 0.003273627520295354,
	"grad_norm": 0.0024727964773774147,
	"learning_rate": 0.0002,
	"loss": 0.0147,
	"step": 1800
	},
	{
	"epoch": 0.0032918143398525503,
	"grad_norm": 0.04270516335964203,
	"learning_rate": 0.0002,
	"loss": 0.2872,
	"step": 1810
	},
	{
	"epoch": 0.0033100011594097466,
	"grad_norm": 0.08055799454450607,
	"learning_rate": 0.0002,
	"loss": 0.0992,
	"step": 1820
	},
	{
	"epoch": 0.0033281879789669433,
	"grad_norm": 0.02607434056699276,
	"learning_rate": 0.0002,
	"loss": 0.0803,
	"step": 1830
	},
	{
	"epoch": 0.0033463747985241397,
	"grad_norm": 0.16260816156864166,
	"learning_rate": 0.0002,
	"loss": 0.0753,
	"step": 1840
	},
	{
	"epoch": 0.003364561618081336,
	"grad_norm": 0.004690333269536495,
	"learning_rate": 0.0002,
	"loss": 0.012,
	"step": 1850
	},
	{
	"epoch": 0.0033827484376385323,
	"grad_norm": 0.041513338685035706,
	"learning_rate": 0.0002,
	"loss": 0.2491,
	"step": 1860
	},
	{
	"epoch": 0.003400935257195729,
	"grad_norm": 0.08935420960187912,
	"learning_rate": 0.0002,
	"loss": 0.1001,
	"step": 1870
	},
	{
	"epoch": 0.0034191220767529253,
	"grad_norm": 0.03826737776398659,
	"learning_rate": 0.0002,
	"loss": 0.0877,
	"step": 1880
	},
	{
	"epoch": 0.0034373088963101216,
	"grad_norm": 0.19423778355121613,
	"learning_rate": 0.0002,
	"loss": 0.0797,
	"step": 1890
	},
	{
	"epoch": 0.003455495715867318,
	"grad_norm": 0.003520288970321417,
	"learning_rate": 0.0002,
	"loss": 0.013,
	"step": 1900
	},
	{
	"epoch": 0.0034736825354245143,
	"grad_norm": 0.14648132026195526,
	"learning_rate": 0.0002,
	"loss": 0.3209,
	"step": 1910
	},
	{
	"epoch": 0.003491869354981711,
	"grad_norm": 0.03780071437358856,
	"learning_rate": 0.0002,
	"loss": 0.0934,
	"step": 1920
	},
	{
	"epoch": 0.0035100561745389073,
	"grad_norm": 0.05014612153172493,
	"learning_rate": 0.0002,
	"loss": 0.082,
	"step": 1930
	},
	{
	"epoch": 0.0035282429940961036,
	"grad_norm": 0.12917590141296387,
	"learning_rate": 0.0002,
	"loss": 0.0733,
	"step": 1940
	},
	{
	"epoch": 0.0035464298136533,
	"grad_norm": 0.0030132795218378305,
	"learning_rate": 0.0002,
	"loss": 0.0111,
	"step": 1950
	},
	{
	"epoch": 0.0035646166332104967,
	"grad_norm": 0.03008626028895378,
	"learning_rate": 0.0002,
	"loss": 0.2126,
	"step": 1960
	},
	{
	"epoch": 0.003582803452767693,
	"grad_norm": 0.0915503203868866,
	"learning_rate": 0.0002,
	"loss": 0.1097,
	"step": 1970
	},
	{
	"epoch": 0.0036009902723248893,
	"grad_norm": 0.06607015430927277,
	"learning_rate": 0.0002,
	"loss": 0.0932,
	"step": 1980
	},
	{
	"epoch": 0.0036191770918820856,
	"grad_norm": 0.18796613812446594,
	"learning_rate": 0.0002,
	"loss": 0.083,
	"step": 1990
	},
	{
	"epoch": 0.0036373639114392823,
	"grad_norm": 0.0022257096134126186,
	"learning_rate": 0.0002,
	"loss": 0.0147,
	"step": 2000
	},
	{
	"epoch": 0.0036555507309964787,
	"grad_norm": 0.0687415823340416,
	"learning_rate": 0.0002,
	"loss": 0.2604,
	"step": 2010
	},
	{
	"epoch": 0.003673737550553675,
	"grad_norm": 0.025175679475069046,
	"learning_rate": 0.0002,
	"loss": 0.0998,
	"step": 2020
	},
	{
	"epoch": 0.0036919243701108713,
	"grad_norm": 0.04275168478488922,
	"learning_rate": 0.0002,
	"loss": 0.0898,
	"step": 2030
	},
	{
	"epoch": 0.003710111189668068,
	"grad_norm": 0.17306455969810486,
	"learning_rate": 0.0002,
	"loss": 0.0793,
	"step": 2040
	},
	{
	"epoch": 0.0037282980092252643,
	"grad_norm": 0.007826454006135464,
	"learning_rate": 0.0002,
	"loss": 0.011,
	"step": 2050
	},
	{
	"epoch": 0.0037464848287824606,
	"grad_norm": 0.06461178511381149,
	"learning_rate": 0.0002,
	"loss": 0.2597,
	"step": 2060
	},
	{
	"epoch": 0.003764671648339657,
	"grad_norm": 0.061357177793979645,
	"learning_rate": 0.0002,
	"loss": 0.1001,
	"step": 2070
	},
	{
	"epoch": 0.0037828584678968533,
	"grad_norm": 0.029154235497117043,
	"learning_rate": 0.0002,
	"loss": 0.0859,
	"step": 2080
	},
	{
	"epoch": 0.00380104528745405,
	"grad_norm": 0.1350340098142624,
	"learning_rate": 0.0002,
	"loss": 0.0756,
	"step": 2090
	},
	{
	"epoch": 0.0038192321070112463,
	"grad_norm": 0.0017614173702895641,
	"learning_rate": 0.0002,
	"loss": 0.0058,
	"step": 2100
	},
	{
	"epoch": 0.0038374189265684426,
	"grad_norm": 0.024254316464066505,
	"learning_rate": 0.0002,
	"loss": 0.3349,
	"step": 2110
	},
	{
	"epoch": 0.003855605746125639,
	"grad_norm": 0.07142530381679535,
	"learning_rate": 0.0002,
	"loss": 0.0953,
	"step": 2120
	},
	{
	"epoch": 0.0038737925656828357,
	"grad_norm": 0.05570175498723984,
	"learning_rate": 0.0002,
	"loss": 0.0796,
	"step": 2130
	},
	{
	"epoch": 0.003891979385240032,
	"grad_norm": 0.16996875405311584,
	"learning_rate": 0.0002,
	"loss": 0.0782,
	"step": 2140
	},
	{
	"epoch": 0.003910166204797228,
	"grad_norm": 0.0058751595206558704,
	"learning_rate": 0.0002,
	"loss": 0.0206,
	"step": 2150
	},
	{
	"epoch": 0.003928353024354425,
	"grad_norm": 0.029807811602950096,
	"learning_rate": 0.0002,
	"loss": 0.1926,
	"step": 2160
	},
	{
	"epoch": 0.003946539843911621,
	"grad_norm": 0.11123469471931458,
	"learning_rate": 0.0002,
	"loss": 0.1082,
	"step": 2170
	},
	{
	"epoch": 0.003964726663468817,
	"grad_norm": 0.074626125395298,
	"learning_rate": 0.0002,
	"loss": 0.081,
	"step": 2180
	},
	{
	"epoch": 0.003982913483026014,
	"grad_norm": 0.17397737503051758,
	"learning_rate": 0.0002,
	"loss": 0.0729,
	"step": 2190
	},
	{
	"epoch": 0.004001100302583211,
	"grad_norm": 0.007995887659490108,
	"learning_rate": 0.0002,
	"loss": 0.022,
	"step": 2200
	},
	{
	"epoch": 0.004019287122140407,
	"grad_norm": 0.039921898394823074,
	"learning_rate": 0.0002,
	"loss": 0.1883,
	"step": 2210
	},
	{
	"epoch": 0.004037473941697603,
	"grad_norm": 0.07736324518918991,
	"learning_rate": 0.0002,
	"loss": 0.0941,
	"step": 2220
	},
	{
	"epoch": 0.0040556607612548,
	"grad_norm": 0.0867881178855896,
	"learning_rate": 0.0002,
	"loss": 0.0873,
	"step": 2230
	},
	{
	"epoch": 0.004073847580811996,
	"grad_norm": 0.1497400403022766,
	"learning_rate": 0.0002,
	"loss": 0.0829,
	"step": 2240
	},
	{
	"epoch": 0.004092034400369192,
	"grad_norm": 0.007458314299583435,
	"learning_rate": 0.0002,
	"loss": 0.02,
	"step": 2250
	},
	{
	"epoch": 0.004110221219926389,
	"grad_norm": 0.04168029874563217,
	"learning_rate": 0.0002,
	"loss": 0.2176,
	"step": 2260
	},
	{
	"epoch": 0.004128408039483585,
	"grad_norm": 0.10017130523920059,
	"learning_rate": 0.0002,
	"loss": 0.0958,
	"step": 2270
	},
	{
	"epoch": 0.004146594859040782,
	"grad_norm": 0.02727416157722473,
	"learning_rate": 0.0002,
	"loss": 0.088,
	"step": 2280
	},
	{
	"epoch": 0.004164781678597978,
	"grad_norm": 0.15034393966197968,
	"learning_rate": 0.0002,
	"loss": 0.0826,
	"step": 2290
	},
	{
	"epoch": 0.004182968498155175,
	"grad_norm": 0.0023451410233974457,
	"learning_rate": 0.0002,
	"loss": 0.0102,
	"step": 2300
	},
	{
	"epoch": 0.004201155317712371,
	"grad_norm": 0.03462455794215202,
	"learning_rate": 0.0002,
	"loss": 0.3404,
	"step": 2310
	},
	{
	"epoch": 0.004219342137269567,
	"grad_norm": 0.02866148017346859,
	"learning_rate": 0.0002,
	"loss": 0.0932,
	"step": 2320
	},
	{
	"epoch": 0.004237528956826764,
	"grad_norm": 0.0685456171631813,
	"learning_rate": 0.0002,
	"loss": 0.0806,
	"step": 2330
	},
	{
	"epoch": 0.00425571577638396,
	"grad_norm": 0.17208056151866913,
	"learning_rate": 0.0002,
	"loss": 0.0826,
	"step": 2340
	},
	{
	"epoch": 0.004273902595941156,
	"grad_norm": 0.008708455599844456,
	"learning_rate": 0.0002,
	"loss": 0.0171,
	"step": 2350
	},
	{
	"epoch": 0.0042920894154983525,
	"grad_norm": 0.044025715440511703,
	"learning_rate": 0.0002,
	"loss": 0.212,
	"step": 2360
	},
	{
	"epoch": 0.00431027623505555,
	"grad_norm": 0.050246164202690125,
	"learning_rate": 0.0002,
	"loss": 0.107,
	"step": 2370
	},
	{
	"epoch": 0.004328463054612746,
	"grad_norm": 0.05257886275649071,
	"learning_rate": 0.0002,
	"loss": 0.0868,
	"step": 2380
	},
	{
	"epoch": 0.004346649874169942,
	"grad_norm": 0.16567641496658325,
	"learning_rate": 0.0002,
	"loss": 0.0819,
	"step": 2390
	},
	{
	"epoch": 0.004364836693727139,
	"grad_norm": 0.0062621901743113995,
	"learning_rate": 0.0002,
	"loss": 0.0171,
	"step": 2400
	},
	{
	"epoch": 0.004383023513284335,
	"grad_norm": 0.03025338612496853,
	"learning_rate": 0.0002,
	"loss": 0.2141,
	"step": 2410
	},
	{
	"epoch": 0.004401210332841531,
	"grad_norm": 0.06401577591896057,
	"learning_rate": 0.0002,
	"loss": 0.0982,
	"step": 2420
	},
	{
	"epoch": 0.004419397152398728,
	"grad_norm": 0.12474781274795532,
	"learning_rate": 0.0002,
	"loss": 0.0834,
	"step": 2430
	},
	{
	"epoch": 0.004437583971955924,
	"grad_norm": 0.18607665598392487,
	"learning_rate": 0.0002,
	"loss": 0.0801,
	"step": 2440
	},
	{
	"epoch": 0.004455770791513121,
	"grad_norm": 0.0017643098253756762,
	"learning_rate": 0.0002,
	"loss": 0.0129,
	"step": 2450
	},
	{
	"epoch": 0.004473957611070317,
	"grad_norm": 0.03936386480927467,
	"learning_rate": 0.0002,
	"loss": 0.2541,
	"step": 2460
	},
	{
	"epoch": 0.004492144430627514,
	"grad_norm": 0.08961635082960129,
	"learning_rate": 0.0002,
	"loss": 0.0961,
	"step": 2470
	},
	{
	"epoch": 0.00451033125018471,
	"grad_norm": 0.07525113970041275,
	"learning_rate": 0.0002,
	"loss": 0.0844,
	"step": 2480
	},
	{
	"epoch": 0.004528518069741906,
	"grad_norm": 0.16746751964092255,
	"learning_rate": 0.0002,
	"loss": 0.071,
	"step": 2490
	},
	{
	"epoch": 0.004546704889299103,
	"grad_norm": 0.0027625334914773703,
	"learning_rate": 0.0002,
	"loss": 0.0151,
	"step": 2500
	},
	{
	"epoch": 0.004564891708856299,
	"grad_norm": 0.049662694334983826,
	"learning_rate": 0.0002,
	"loss": 0.253,
	"step": 2510
	},
	{
	"epoch": 0.004583078528413495,
	"grad_norm": 0.08312079310417175,
	"learning_rate": 0.0002,
	"loss": 0.0922,
	"step": 2520
	},
	{
	"epoch": 0.0046012653479706915,
	"grad_norm": 0.0646345317363739,
	"learning_rate": 0.0002,
	"loss": 0.0889,
	"step": 2530
	},
	{
	"epoch": 0.004619452167527889,
	"grad_norm": 0.20036271214485168,
	"learning_rate": 0.0002,
	"loss": 0.081,
	"step": 2540
	},
	{
	"epoch": 0.004637638987085085,
	"grad_norm": 0.010091719217598438,
	"learning_rate": 0.0002,
	"loss": 0.024,
	"step": 2550
	},
	{
	"epoch": 0.004655825806642281,
	"grad_norm": 0.048885516822338104,
	"learning_rate": 0.0002,
	"loss": 0.184,
	"step": 2560
	},
	{
	"epoch": 0.004674012626199478,
	"grad_norm": 0.09142889827489853,
	"learning_rate": 0.0002,
	"loss": 0.0935,
	"step": 2570
	},
	{
	"epoch": 0.004692199445756674,
	"grad_norm": 0.049207963049411774,
	"learning_rate": 0.0002,
	"loss": 0.0816,
	"step": 2580
	},
	{
	"epoch": 0.00471038626531387,
	"grad_norm": 0.1498396098613739,
	"learning_rate": 0.0002,
	"loss": 0.0698,
	"step": 2590
	},
	{
	"epoch": 0.004728573084871067,
	"grad_norm": 0.00522881094366312,
	"learning_rate": 0.0002,
	"loss": 0.0189,
	"step": 2600
	},
	{
	"epoch": 0.004746759904428263,
	"grad_norm": 0.07461311668157578,
	"learning_rate": 0.0002,
	"loss": 0.1944,
	"step": 2610
	},
	{
	"epoch": 0.00476494672398546,
	"grad_norm": 0.048005711287260056,
	"learning_rate": 0.0002,
	"loss": 0.0883,
	"step": 2620
	},
	{
	"epoch": 0.004783133543542656,
	"grad_norm": 0.10151612013578415,
	"learning_rate": 0.0002,
	"loss": 0.0827,
	"step": 2630
	},
	{
	"epoch": 0.004801320363099853,
	"grad_norm": 0.1504422426223755,
	"learning_rate": 0.0002,
	"loss": 0.078,
	"step": 2640
	},
	{
	"epoch": 0.004819507182657049,
	"grad_norm": 0.004988422151654959,
	"learning_rate": 0.0002,
	"loss": 0.0229,
	"step": 2650
	},
	{
	"epoch": 0.004837694002214245,
	"grad_norm": 0.025008924305438995,
	"learning_rate": 0.0002,
	"loss": 0.1818,
	"step": 2660
	},
	{
	"epoch": 0.004855880821771442,
	"grad_norm": 0.027460169047117233,
	"learning_rate": 0.0002,
	"loss": 0.0966,
	"step": 2670
	},
	{
	"epoch": 0.004874067641328638,
	"grad_norm": 0.09704197943210602,
	"learning_rate": 0.0002,
	"loss": 0.0824,
	"step": 2680
	},
	{
	"epoch": 0.004892254460885834,
	"grad_norm": 0.138654425740242,
	"learning_rate": 0.0002,
	"loss": 0.0746,
	"step": 2690
	},
	{
	"epoch": 0.0049104412804430305,
	"grad_norm": 0.00859556533396244,
	"learning_rate": 0.0002,
	"loss": 0.0187,
	"step": 2700
	},
	{
	"epoch": 0.004928628100000228,
	"grad_norm": 0.05207522585988045,
	"learning_rate": 0.0002,
	"loss": 0.1985,
	"step": 2710
	},
	{
	"epoch": 0.004946814919557424,
	"grad_norm": 0.07787417620420456,
	"learning_rate": 0.0002,
	"loss": 0.101,
	"step": 2720
	},
	{
	"epoch": 0.00496500173911462,
	"grad_norm": 0.02819981426000595,
	"learning_rate": 0.0002,
	"loss": 0.0845,
	"step": 2730
	},
	{
	"epoch": 0.004983188558671817,
	"grad_norm": 0.13569314777851105,
	"learning_rate": 0.0002,
	"loss": 0.0756,
	"step": 2740
	},
	{
	"epoch": 0.005001375378229013,
	"grad_norm": 0.05175986513495445,
	"learning_rate": 0.0002,
	"loss": 0.024,
	"step": 2750
	},
	{
	"epoch": 0.005019562197786209,
	"grad_norm": 0.037230249494314194,
	"learning_rate": 0.0002,
	"loss": 0.2056,
	"step": 2760
	},
	{
	"epoch": 0.005037749017343406,
	"grad_norm": 0.05532974749803543,
	"learning_rate": 0.0002,
	"loss": 0.0939,
	"step": 2770
	},
	{
	"epoch": 0.005055935836900602,
	"grad_norm": 0.06930708140134811,
	"learning_rate": 0.0002,
	"loss": 0.0853,
	"step": 2780
	},
	{
	"epoch": 0.005074122656457798,
	"grad_norm": 0.16405801475048065,
	"learning_rate": 0.0002,
	"loss": 0.0766,
	"step": 2790
	},
	{
	"epoch": 0.005092309476014995,
	"grad_norm": 0.006398684345185757,
	"learning_rate": 0.0002,
	"loss": 0.0124,
	"step": 2800
	},
	{
	"epoch": 0.005110496295572192,
	"grad_norm": 0.06269315630197525,
	"learning_rate": 0.0002,
	"loss": 0.2703,
	"step": 2810
	},
	{
	"epoch": 0.005128683115129388,
	"grad_norm": 0.049293261021375656,
	"learning_rate": 0.0002,
	"loss": 0.0943,
	"step": 2820
	},
	{
	"epoch": 0.005146869934686584,
	"grad_norm": 0.08814405649900436,
	"learning_rate": 0.0002,
	"loss": 0.0855,
	"step": 2830
	},
	{
	"epoch": 0.005165056754243781,
	"grad_norm": 0.17452259361743927,
	"learning_rate": 0.0002,
	"loss": 0.0822,
	"step": 2840
	},
	{
	"epoch": 0.005183243573800977,
	"grad_norm": 0.005008229520171881,
	"learning_rate": 0.0002,
	"loss": 0.0136,
	"step": 2850
	},
	{
	"epoch": 0.005201430393358173,
	"grad_norm": 0.04459540545940399,
	"learning_rate": 0.0002,
	"loss": 0.2623,
	"step": 2860
	},
	{
	"epoch": 0.0052196172129153695,
	"grad_norm": 0.042845603078603745,
	"learning_rate": 0.0002,
	"loss": 0.0929,
	"step": 2870
	},
	{
	"epoch": 0.005237804032472567,
	"grad_norm": 0.03079635463654995,
	"learning_rate": 0.0002,
	"loss": 0.0844,
	"step": 2880
	},
	{
	"epoch": 0.005255990852029763,
	"grad_norm": 0.14457851648330688,
	"learning_rate": 0.0002,
	"loss": 0.0753,
	"step": 2890
	},
	{
	"epoch": 0.005274177671586959,
	"grad_norm": 0.0009016963304020464,
	"learning_rate": 0.0002,
	"loss": 0.0037,
	"step": 2900
	},
	{
	"epoch": 0.005292364491144156,
	"grad_norm": 0.0983906164765358,
	"learning_rate": 0.0002,
	"loss": 0.3661,
	"step": 2910
	},
	{
	"epoch": 0.005310551310701352,
	"grad_norm": 0.08794154971837997,
	"learning_rate": 0.0002,
	"loss": 0.0894,
	"step": 2920
	},
	{
	"epoch": 0.005328738130258548,
	"grad_norm": 0.026981573551893234,
	"learning_rate": 0.0002,
	"loss": 0.0779,
	"step": 2930
	},
	{
	"epoch": 0.005346924949815745,
	"grad_norm": 0.15572553873062134,
	"learning_rate": 0.0002,
	"loss": 0.077,
	"step": 2940
	},
	{
	"epoch": 0.005365111769372941,
	"grad_norm": 0.005491070915013552,
	"learning_rate": 0.0002,
	"loss": 0.0092,
	"step": 2950
	},
	{
	"epoch": 0.005383298588930137,
	"grad_norm": 0.07383686304092407,
	"learning_rate": 0.0002,
	"loss": 0.2574,
	"step": 2960
	},
	{
	"epoch": 0.005401485408487334,
	"grad_norm": 0.05919960141181946,
	"learning_rate": 0.0002,
	"loss": 0.1045,
	"step": 2970
	},
	{
	"epoch": 0.005419672228044531,
	"grad_norm": 0.06027739867568016,
	"learning_rate": 0.0002,
	"loss": 0.0822,
	"step": 2980
	},
	{
	"epoch": 0.005437859047601727,
	"grad_norm": 0.1288602501153946,
	"learning_rate": 0.0002,
	"loss": 0.0688,
	"step": 2990
	},
	{
	"epoch": 0.005456045867158923,
	"grad_norm": 0.007565880194306374,
	"learning_rate": 0.0002,
	"loss": 0.0192,
	"step": 3000
	},
	{
	"epoch": 0.00547423268671612,
	"grad_norm": 0.024412864819169044,
	"learning_rate": 0.0002,
	"loss": 0.1782,
	"step": 3010
	},
	{
	"epoch": 0.005492419506273316,
	"grad_norm": 0.05559355765581131,
	"learning_rate": 0.0002,
	"loss": 0.1072,
	"step": 3020
	},
	{
	"epoch": 0.005510606325830512,
	"grad_norm": 0.07073906064033508,
	"learning_rate": 0.0002,
	"loss": 0.0863,
	"step": 3030
	},
	{
	"epoch": 0.0055287931453877085,
	"grad_norm": 0.14979414641857147,
	"learning_rate": 0.0002,
	"loss": 0.0788,
	"step": 3040
	},
	{
	"epoch": 0.005546979964944906,
	"grad_norm": 0.0057297456078231335,
	"learning_rate": 0.0002,
	"loss": 0.0192,
	"step": 3050
	},
	{
	"epoch": 0.005565166784502102,
	"grad_norm": 0.03195042535662651,
	"learning_rate": 0.0002,
	"loss": 0.1879,
	"step": 3060
	},
	{
	"epoch": 0.005583353604059298,
	"grad_norm": 0.05925082787871361,
	"learning_rate": 0.0002,
	"loss": 0.0992,
	"step": 3070
	},
	{
	"epoch": 0.005601540423616495,
	"grad_norm": 0.052063606679439545,
	"learning_rate": 0.0002,
	"loss": 0.0826,
	"step": 3080
	},
	{
	"epoch": 0.005619727243173691,
	"grad_norm": 0.16005952656269073,
	"learning_rate": 0.0002,
	"loss": 0.0743,
	"step": 3090
	},
	{
	"epoch": 0.005637914062730887,
	"grad_norm": 0.005742133595049381,
	"learning_rate": 0.0002,
	"loss": 0.0137,
	"step": 3100
	},
	{
	"epoch": 0.005656100882288084,
	"grad_norm": 0.07523638010025024,
	"learning_rate": 0.0002,
	"loss": 0.2072,
	"step": 3110
	},
	{
	"epoch": 0.00567428770184528,
	"grad_norm": 0.23799611628055573,
	"learning_rate": 0.0002,
	"loss": 0.0906,
	"step": 3120
	},
	{
	"epoch": 0.005692474521402476,
	"grad_norm": 0.06176261603832245,
	"learning_rate": 0.0002,
	"loss": 0.088,
	"step": 3130
	},
	{
	"epoch": 0.005710661340959673,
	"grad_norm": 0.13692723214626312,
	"learning_rate": 0.0002,
	"loss": 0.0733,
	"step": 3140
	},
	{
	"epoch": 0.00572884816051687,
	"grad_norm": 0.007059803698211908,
	"learning_rate": 0.0002,
	"loss": 0.0194,
	"step": 3150
	},
	{
	"epoch": 0.005747034980074066,
	"grad_norm": 0.08868405222892761,
	"learning_rate": 0.0002,
	"loss": 0.1745,
	"step": 3160
	},
	{
	"epoch": 0.005765221799631262,
	"grad_norm": 0.05126733332872391,
	"learning_rate": 0.0002,
	"loss": 0.1024,
	"step": 3170
	},
	{
	"epoch": 0.005783408619188459,
	"grad_norm": 0.06377821415662766,
	"learning_rate": 0.0002,
	"loss": 0.0846,
	"step": 3180
	},
	{
	"epoch": 0.005801595438745655,
	"grad_norm": 0.10748566687107086,
	"learning_rate": 0.0002,
	"loss": 0.0769,
	"step": 3190
	},
	{
	"epoch": 0.005819782258302851,
	"grad_norm": 0.004992443602532148,
	"learning_rate": 0.0002,
	"loss": 0.0114,
	"step": 3200
	},
	{
	"epoch": 0.0058379690778600475,
	"grad_norm": 0.0420277863740921,
	"learning_rate": 0.0002,
	"loss": 0.2159,
	"step": 3210
	},
	{
	"epoch": 0.005856155897417244,
	"grad_norm": 0.02828531712293625,
	"learning_rate": 0.0002,
	"loss": 0.0923,
	"step": 3220
	},
	{
	"epoch": 0.005874342716974441,
	"grad_norm": 0.028216248378157616,
	"learning_rate": 0.0002,
	"loss": 0.0789,
	"step": 3230
	},
	{
	"epoch": 0.005892529536531637,
	"grad_norm": 0.11420746147632599,
	"learning_rate": 0.0002,
	"loss": 0.0696,
	"step": 3240
	},
	{
	"epoch": 0.005910716356088834,
	"grad_norm": 0.0019631448667496443,
	"learning_rate": 0.0002,
	"loss": 0.0128,
	"step": 3250
	},
	{
	"epoch": 0.00592890317564603,
	"grad_norm": 0.05514012649655342,
	"learning_rate": 0.0002,
	"loss": 0.2609,
	"step": 3260
	},
	{
	"epoch": 0.005947089995203226,
	"grad_norm": 0.0917636826634407,
	"learning_rate": 0.0002,
	"loss": 0.0996,
	"step": 3270
	},
	{
	"epoch": 0.005965276814760423,
	"grad_norm": 0.03648284077644348,
	"learning_rate": 0.0002,
	"loss": 0.084,
	"step": 3280
	},
	{
	"epoch": 0.005983463634317619,
	"grad_norm": 0.13859149813652039,
	"learning_rate": 0.0002,
	"loss": 0.0807,
	"step": 3290
	},
	{
	"epoch": 0.006001650453874815,
	"grad_norm": 0.013779910281300545,
	"learning_rate": 0.0002,
	"loss": 0.0181,
	"step": 3300
	},
	{
	"epoch": 0.006019837273432012,
	"grad_norm": 0.02654041163623333,
	"learning_rate": 0.0002,
	"loss": 0.1636,
	"step": 3310
	},
	{
	"epoch": 0.006038024092989209,
	"grad_norm": 0.062298137694597244,
	"learning_rate": 0.0002,
	"loss": 0.0872,
	"step": 3320
	},
	{
	"epoch": 0.006056210912546405,
	"grad_norm": 0.0351388119161129,
	"learning_rate": 0.0002,
	"loss": 0.0802,
	"step": 3330
	},
	{
	"epoch": 0.006074397732103601,
	"grad_norm": 0.16063807904720306,
	"learning_rate": 0.0002,
	"loss": 0.0753,
	"step": 3340
	},
	{
	"epoch": 0.006092584551660798,
	"grad_norm": 0.009991235099732876,
	"learning_rate": 0.0002,
	"loss": 0.016,
	"step": 3350
	},
	{
	"epoch": 0.006110771371217994,
	"grad_norm": 0.052919622510671616,
	"learning_rate": 0.0002,
	"loss": 0.2027,
	"step": 3360
	},
	{
	"epoch": 0.00612895819077519,
	"grad_norm": 0.03228602185845375,
	"learning_rate": 0.0002,
	"loss": 0.0985,
	"step": 3370
	},
	{
	"epoch": 0.0061471450103323865,
	"grad_norm": 0.11311203986406326,
	"learning_rate": 0.0002,
	"loss": 0.0797,
	"step": 3380
	},
	{
	"epoch": 0.006165331829889583,
	"grad_norm": 0.1674620360136032,
	"learning_rate": 0.0002,
	"loss": 0.072,
	"step": 3390
	},
	{
	"epoch": 0.00618351864944678,
	"grad_norm": 0.015154430642724037,
	"learning_rate": 0.0002,
	"loss": 0.0186,
	"step": 3400
	},
	{
	"epoch": 0.006201705469003976,
	"grad_norm": 0.043151434510946274,
	"learning_rate": 0.0002,
	"loss": 0.1892,
	"step": 3410
	},
	{
	"epoch": 0.006219892288561173,
	"grad_norm": 0.12342707067728043,
	"learning_rate": 0.0002,
	"loss": 0.0907,
	"step": 3420
	},
	{
	"epoch": 0.006238079108118369,
	"grad_norm": 0.08350827544927597,
	"learning_rate": 0.0002,
	"loss": 0.0783,
	"step": 3430
	},
	{
	"epoch": 0.006256265927675565,
	"grad_norm": 0.11938697844743729,
	"learning_rate": 0.0002,
	"loss": 0.0666,
	"step": 3440
	},
	{
	"epoch": 0.006274452747232762,
	"grad_norm": 0.015424132347106934,
	"learning_rate": 0.0002,
	"loss": 0.0173,
	"step": 3450
	},
	{
	"epoch": 0.006292639566789958,
	"grad_norm": 0.04220043867826462,
	"learning_rate": 0.0002,
	"loss": 0.1805,
	"step": 3460
	},
	{
	"epoch": 0.006310826386347154,
	"grad_norm": 0.08813903480768204,
	"learning_rate": 0.0002,
	"loss": 0.096,
	"step": 3470
	},
	{
	"epoch": 0.006329013205904351,
	"grad_norm": 0.07647278904914856,
	"learning_rate": 0.0002,
	"loss": 0.0821,
	"step": 3480
	},
	{
	"epoch": 0.006347200025461548,
	"grad_norm": 0.14242641627788544,
	"learning_rate": 0.0002,
	"loss": 0.0769,
	"step": 3490
	},
	{
	"epoch": 0.006365386845018744,
	"grad_norm": 0.011115231551229954,
	"learning_rate": 0.0002,
	"loss": 0.0221,
	"step": 3500
	},
	{
	"epoch": 0.00638357366457594,
	"grad_norm": 0.036351826041936874,
	"learning_rate": 0.0002,
	"loss": 0.1557,
	"step": 3510
	},
	{
	"epoch": 0.006401760484133137,
	"grad_norm": 0.08549819141626358,
	"learning_rate": 0.0002,
	"loss": 0.0864,
	"step": 3520
	},
	{
	"epoch": 0.006419947303690333,
	"grad_norm": 0.047141823917627335,
	"learning_rate": 0.0002,
	"loss": 0.079,
	"step": 3530
	},
	{
	"epoch": 0.006438134123247529,
	"grad_norm": 0.13143447041511536,
	"learning_rate": 0.0002,
	"loss": 0.0717,
	"step": 3540
	},
	{
	"epoch": 0.0064563209428047256,
	"grad_norm": 0.013524871319532394,
	"learning_rate": 0.0002,
	"loss": 0.0149,
	"step": 3550
	},
	{
	"epoch": 0.006474507762361922,
	"grad_norm": 0.03367459774017334,
	"learning_rate": 0.0002,
	"loss": 0.1715,
	"step": 3560
	},
	{
	"epoch": 0.006492694581919119,
	"grad_norm": 0.045889757573604584,
	"learning_rate": 0.0002,
	"loss": 0.0949,
	"step": 3570
	},
	{
	"epoch": 0.006510881401476315,
	"grad_norm": 0.04099202901124954,
	"learning_rate": 0.0002,
	"loss": 0.0813,
	"step": 3580
	},
	{
	"epoch": 0.006529068221033512,
	"grad_norm": 0.133371040225029,
	"learning_rate": 0.0002,
	"loss": 0.0767,
	"step": 3590
	},
	{
	"epoch": 0.006547255040590708,
	"grad_norm": 0.00645647756755352,
	"learning_rate": 0.0002,
	"loss": 0.0186,
	"step": 3600
	},
	{
	"epoch": 0.006565441860147904,
	"grad_norm": 0.050674330443143845,
	"learning_rate": 0.0002,
	"loss": 0.2179,
	"step": 3610
	},
	{
	"epoch": 0.006583628679705101,
	"grad_norm": 0.07087302207946777,
	"learning_rate": 0.0002,
	"loss": 0.0882,
	"step": 3620
	},
	{
	"epoch": 0.006601815499262297,
	"grad_norm": 0.02759486250579357,
	"learning_rate": 0.0002,
	"loss": 0.0789,
	"step": 3630
	},
	{
	"epoch": 0.006620002318819493,
	"grad_norm": 0.12163479626178741,
	"learning_rate": 0.0002,
	"loss": 0.0689,
	"step": 3640
	},
	{
	"epoch": 0.00663818913837669,
	"grad_norm": 0.00969718024134636,
	"learning_rate": 0.0002,
	"loss": 0.0112,
	"step": 3650
	},
	{
	"epoch": 0.006656375957933887,
	"grad_norm": 0.07106204330921173,
	"learning_rate": 0.0002,
	"loss": 0.199,
	"step": 3660
	},
	{
	"epoch": 0.006674562777491083,
	"grad_norm": 0.08954132348299026,
	"learning_rate": 0.0002,
	"loss": 0.0985,
	"step": 3670
	},
	{
	"epoch": 0.006692749597048279,
	"grad_norm": 0.09899396449327469,
	"learning_rate": 0.0002,
	"loss": 0.0811,
	"step": 3680
	},
	{
	"epoch": 0.006710936416605476,
	"grad_norm": 0.12119311839342117,
	"learning_rate": 0.0002,
	"loss": 0.0698,
	"step": 3690
	},
	{
	"epoch": 0.006729123236162672,
	"grad_norm": 0.013957214541733265,
	"learning_rate": 0.0002,
	"loss": 0.018,
	"step": 3700
	},
	{
	"epoch": 0.006747310055719868,
	"grad_norm": 0.03089285083115101,
	"learning_rate": 0.0002,
	"loss": 0.1434,
	"step": 3710
	},
	{
	"epoch": 0.0067654968752770646,
	"grad_norm": 0.025650829076766968,
	"learning_rate": 0.0002,
	"loss": 0.0886,
	"step": 3720
	},
	{
	"epoch": 0.006783683694834261,
	"grad_norm": 0.044103365391492844,
	"learning_rate": 0.0002,
	"loss": 0.0788,
	"step": 3730
	},
	{
	"epoch": 0.006801870514391458,
	"grad_norm": 0.09726370871067047,
	"learning_rate": 0.0002,
	"loss": 0.0674,
	"step": 3740
	},
	{
	"epoch": 0.006820057333948654,
	"grad_norm": 0.018105274066329002,
	"learning_rate": 0.0002,
	"loss": 0.0232,
	"step": 3750
	},
	{
	"epoch": 0.006838244153505851,
	"grad_norm": 0.021543240174651146,
	"learning_rate": 0.0002,
	"loss": 0.1406,
	"step": 3760
	},
	{
	"epoch": 0.006856430973063047,
	"grad_norm": 0.09367050975561142,
	"learning_rate": 0.0002,
	"loss": 0.0973,
	"step": 3770
	},
	{
	"epoch": 0.006874617792620243,
	"grad_norm": 0.06836032122373581,
	"learning_rate": 0.0002,
	"loss": 0.0848,
	"step": 3780
	},
	{
	"epoch": 0.00689280461217744,
	"grad_norm": 0.11758081614971161,
	"learning_rate": 0.0002,
	"loss": 0.0693,
	"step": 3790
	},
	{
	"epoch": 0.006910991431734636,
	"grad_norm": 0.008669364266097546,
	"learning_rate": 0.0002,
	"loss": 0.0223,
	"step": 3800
	},
	{
	"epoch": 0.006929178251291832,
	"grad_norm": 0.03903719782829285,
	"learning_rate": 0.0002,
	"loss": 0.1519,
	"step": 3810
	},
	{
	"epoch": 0.0069473650708490285,
	"grad_norm": 0.030682874843478203,
	"learning_rate": 0.0002,
	"loss": 0.0931,
	"step": 3820
	},
	{
	"epoch": 0.006965551890406226,
	"grad_norm": 0.02693006955087185,
	"learning_rate": 0.0002,
	"loss": 0.0784,
	"step": 3830
	},
	{
	"epoch": 0.006983738709963422,
	"grad_norm": 0.09535166621208191,
	"learning_rate": 0.0002,
	"loss": 0.0696,
	"step": 3840
	},
	{
	"epoch": 0.007001925529520618,
	"grad_norm": 0.014680403284728527,
	"learning_rate": 0.0002,
	"loss": 0.0176,
	"step": 3850
	},
	{
	"epoch": 0.007020112349077815,
	"grad_norm": 0.031090212985873222,
	"learning_rate": 0.0002,
	"loss": 0.1544,
	"step": 3860
	},
	{
	"epoch": 0.007038299168635011,
	"grad_norm": 0.05870644003152847,
	"learning_rate": 0.0002,
	"loss": 0.0898,
	"step": 3870
	},
	{
	"epoch": 0.007056485988192207,
	"grad_norm": 0.03480982780456543,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 3880
	},
	{
	"epoch": 0.0070746728077494036,
	"grad_norm": 0.09751418977975845,
	"learning_rate": 0.0002,
	"loss": 0.0724,
	"step": 3890
	},
	{
	"epoch": 0.0070928596273066,
	"grad_norm": 0.022084850817918777,
	"learning_rate": 0.0002,
	"loss": 0.019,
	"step": 3900
	},
	{
	"epoch": 0.007111046446863797,
	"grad_norm": 0.06994971632957458,
	"learning_rate": 0.0002,
	"loss": 0.1478,
	"step": 3910
	},
	{
	"epoch": 0.007129233266420993,
	"grad_norm": 0.05761263892054558,
	"learning_rate": 0.0002,
	"loss": 0.0932,
	"step": 3920
	},
	{
	"epoch": 0.00714742008597819,
	"grad_norm": 0.029772033914923668,
	"learning_rate": 0.0002,
	"loss": 0.0855,
	"step": 3930
	},
	{
	"epoch": 0.007165606905535386,
	"grad_norm": 0.11868726462125778,
	"learning_rate": 0.0002,
	"loss": 0.0727,
	"step": 3940
	},
	{
	"epoch": 0.007183793725092582,
	"grad_norm": 0.0065403408370912075,
	"learning_rate": 0.0002,
	"loss": 0.0174,
	"step": 3950
	},
	{
	"epoch": 0.007201980544649779,
	"grad_norm": 0.031544361263513565,
	"learning_rate": 0.0002,
	"loss": 0.1827,
	"step": 3960
	},
	{
	"epoch": 0.007220167364206975,
	"grad_norm": 0.031641531735658646,
	"learning_rate": 0.0002,
	"loss": 0.0867,
	"step": 3970
	},
	{
	"epoch": 0.007238354183764171,
	"grad_norm": 0.028574040159583092,
	"learning_rate": 0.0002,
	"loss": 0.0798,
	"step": 3980
	},
	{
	"epoch": 0.0072565410033213675,
	"grad_norm": 0.12866555154323578,
	"learning_rate": 0.0002,
	"loss": 0.0708,
	"step": 3990
	},
	{
	"epoch": 0.007274727822878565,
	"grad_norm": 0.00843430683016777,
	"learning_rate": 0.0002,
	"loss": 0.0127,
	"step": 4000
	},
	{
	"epoch": 0.007292914642435761,
	"grad_norm": 0.03737691789865494,
	"learning_rate": 0.0002,
	"loss": 0.2201,
	"step": 4010
	},
	{
	"epoch": 0.007311101461992957,
	"grad_norm": 0.05326579511165619,
	"learning_rate": 0.0002,
	"loss": 0.0838,
	"step": 4020
	},
	{
	"epoch": 0.007329288281550154,
	"grad_norm": 0.031934209167957306,
	"learning_rate": 0.0002,
	"loss": 0.0778,
	"step": 4030
	},
	{
	"epoch": 0.00734747510110735,
	"grad_norm": 0.17401957511901855,
	"learning_rate": 0.0002,
	"loss": 0.073,
	"step": 4040
	},
	{
	"epoch": 0.007365661920664546,
	"grad_norm": 0.005256639327853918,
	"learning_rate": 0.0002,
	"loss": 0.0122,
	"step": 4050
	},
	{
	"epoch": 0.0073838487402217426,
	"grad_norm": 0.05043623968958855,
	"learning_rate": 0.0002,
	"loss": 0.2524,
	"step": 4060
	},
	{
	"epoch": 0.007402035559778939,
	"grad_norm": 0.06662425398826599,
	"learning_rate": 0.0002,
	"loss": 0.0976,
	"step": 4070
	},
	{
	"epoch": 0.007420222379336136,
	"grad_norm": 0.13419686257839203,
	"learning_rate": 0.0002,
	"loss": 0.0833,
	"step": 4080
	},
	{
	"epoch": 0.007438409198893332,
	"grad_norm": 0.176285520195961,
	"learning_rate": 0.0002,
	"loss": 0.0761,
	"step": 4090
	},
	{
	"epoch": 0.007456596018450529,
	"grad_norm": 0.008489354513585567,
	"learning_rate": 0.0002,
	"loss": 0.0182,
	"step": 4100
	},
	{
	"epoch": 0.007474782838007725,
	"grad_norm": 0.06247509643435478,
	"learning_rate": 0.0002,
	"loss": 0.2232,
	"step": 4110
	},
	{
	"epoch": 0.007492969657564921,
	"grad_norm": 0.05744702368974686,
	"learning_rate": 0.0002,
	"loss": 0.0875,
	"step": 4120
	},
	{
	"epoch": 0.007511156477122118,
	"grad_norm": 0.053026407957077026,
	"learning_rate": 0.0002,
	"loss": 0.0807,
	"step": 4130
	},
	{
	"epoch": 0.007529343296679314,
	"grad_norm": 0.11734003573656082,
	"learning_rate": 0.0002,
	"loss": 0.0724,
	"step": 4140
	},
	{
	"epoch": 0.00754753011623651,
	"grad_norm": 0.005216363817453384,
	"learning_rate": 0.0002,
	"loss": 0.0129,
	"step": 4150
	},
	{
	"epoch": 0.0075657169357937065,
	"grad_norm": 0.08154789358377457,
	"learning_rate": 0.0002,
	"loss": 0.2221,
	"step": 4160
	},
	{
	"epoch": 0.007583903755350904,
	"grad_norm": 0.03619784861803055,
	"learning_rate": 0.0002,
	"loss": 0.0993,
	"step": 4170
	},
	{
	"epoch": 0.0076020905749081,
	"grad_norm": 0.08239256590604782,
	"learning_rate": 0.0002,
	"loss": 0.0811,
	"step": 4180
	},
	{
	"epoch": 0.007620277394465296,
	"grad_norm": 0.11934535950422287,
	"learning_rate": 0.0002,
	"loss": 0.0726,
	"step": 4190
	},
	{
	"epoch": 0.007638464214022493,
	"grad_norm": 0.006965799257159233,
	"learning_rate": 0.0002,
	"loss": 0.0181,
	"step": 4200
	},
	{
	"epoch": 0.007656651033579689,
	"grad_norm": 0.04328077286481857,
	"learning_rate": 0.0002,
	"loss": 0.1983,
	"step": 4210
	},
	{
	"epoch": 0.007674837853136885,
	"grad_norm": 0.08253510296344757,
	"learning_rate": 0.0002,
	"loss": 0.0954,
	"step": 4220
	},
	{
	"epoch": 0.0076930246726940816,
	"grad_norm": 0.06146657094359398,
	"learning_rate": 0.0002,
	"loss": 0.0843,
	"step": 4230
	},
	{
	"epoch": 0.007711211492251278,
	"grad_norm": 0.13579218089580536,
	"learning_rate": 0.0002,
	"loss": 0.0672,
	"step": 4240
	},
	{
	"epoch": 0.007729398311808474,
	"grad_norm": 0.0038396338932216167,
	"learning_rate": 0.0002,
	"loss": 0.0131,
	"step": 4250
	},
	{
	"epoch": 0.007747585131365671,
	"grad_norm": 0.03109130822122097,
	"learning_rate": 0.0002,
	"loss": 0.2102,
	"step": 4260
	},
	{
	"epoch": 0.007765771950922868,
	"grad_norm": 0.04971664398908615,
	"learning_rate": 0.0002,
	"loss": 0.0903,
	"step": 4270
	},
	{
	"epoch": 0.007783958770480064,
	"grad_norm": 0.06476306915283203,
	"learning_rate": 0.0002,
	"loss": 0.0859,
	"step": 4280
	},
	{
	"epoch": 0.00780214559003726,
	"grad_norm": 0.15377041697502136,
	"learning_rate": 0.0002,
	"loss": 0.0828,
	"step": 4290
	},
	{
	"epoch": 0.007820332409594457,
	"grad_norm": 0.005592274013906717,
	"learning_rate": 0.0002,
	"loss": 0.014,
	"step": 4300
	},
	{
	"epoch": 0.007838519229151653,
	"grad_norm": 0.04387212172150612,
	"learning_rate": 0.0002,
	"loss": 0.1907,
	"step": 4310
	},
	{
	"epoch": 0.00785670604870885,
	"grad_norm": 0.06001356989145279,
	"learning_rate": 0.0002,
	"loss": 0.0864,
	"step": 4320
	},
	{
	"epoch": 0.007874892868266046,
	"grad_norm": 0.030866140499711037,
	"learning_rate": 0.0002,
	"loss": 0.0748,
	"step": 4330
	},
	{
	"epoch": 0.007893079687823242,
	"grad_norm": 0.13280808925628662,
	"learning_rate": 0.0002,
	"loss": 0.0686,
	"step": 4340
	},
	{
	"epoch": 0.007911266507380438,
	"grad_norm": 0.015559020452201366,
	"learning_rate": 0.0002,
	"loss": 0.016,
	"step": 4350
	},
	{
	"epoch": 0.007929453326937634,
	"grad_norm": 0.0669974684715271,
	"learning_rate": 0.0002,
	"loss": 0.1916,
	"step": 4360
	},
	{
	"epoch": 0.00794764014649483,
	"grad_norm": 0.0759076252579689,
	"learning_rate": 0.0002,
	"loss": 0.0925,
	"step": 4370
	},
	{
	"epoch": 0.007965826966052029,
	"grad_norm": 0.029388410970568657,
	"learning_rate": 0.0002,
	"loss": 0.086,
	"step": 4380
	},
	{
	"epoch": 0.007984013785609225,
	"grad_norm": 0.17637981474399567,
	"learning_rate": 0.0002,
	"loss": 0.0697,
	"step": 4390
	},
	{
	"epoch": 0.008002200605166421,
	"grad_norm": 0.008022189140319824,
	"learning_rate": 0.0002,
	"loss": 0.0196,
	"step": 4400
	},
	{
	"epoch": 0.008020387424723618,
	"grad_norm": 0.04126167669892311,
	"learning_rate": 0.0002,
	"loss": 0.192,
	"step": 4410
	},
	{
	"epoch": 0.008038574244280814,
	"grad_norm": 0.08132971078157425,
	"learning_rate": 0.0002,
	"loss": 0.093,
	"step": 4420
	},
	{
	"epoch": 0.00805676106383801,
	"grad_norm": 0.07568484544754028,
	"learning_rate": 0.0002,
	"loss": 0.0823,
	"step": 4430
	},
	{
	"epoch": 0.008074947883395207,
	"grad_norm": 0.1259222775697708,
	"learning_rate": 0.0002,
	"loss": 0.0696,
	"step": 4440
	},
	{
	"epoch": 0.008093134702952403,
	"grad_norm": 0.009711826220154762,
	"learning_rate": 0.0002,
	"loss": 0.0232,
	"step": 4450
	},
	{
	"epoch": 0.0081113215225096,
	"grad_norm": 0.029734279960393906,
	"learning_rate": 0.0002,
	"loss": 0.1595,
	"step": 4460
	},
	{
	"epoch": 0.008129508342066796,
	"grad_norm": 0.04886960610747337,
	"learning_rate": 0.0002,
	"loss": 0.0919,
	"step": 4470
	},
	{
	"epoch": 0.008147695161623992,
	"grad_norm": 0.07031470537185669,
	"learning_rate": 0.0002,
	"loss": 0.0813,
	"step": 4480
	},
	{
	"epoch": 0.008165881981181188,
	"grad_norm": 0.12099859863519669,
	"learning_rate": 0.0002,
	"loss": 0.0731,
	"step": 4490
	},
	{
	"epoch": 0.008184068800738385,
	"grad_norm": 0.02181529812514782,
	"learning_rate": 0.0002,
	"loss": 0.021,
	"step": 4500
	},
	{
	"epoch": 0.00820225562029558,
	"grad_norm": 0.035477787256240845,
	"learning_rate": 0.0002,
	"loss": 0.1429,
	"step": 4510
	},
	{
	"epoch": 0.008220442439852777,
	"grad_norm": 0.07788772135972977,
	"learning_rate": 0.0002,
	"loss": 0.0842,
	"step": 4520
	},
	{
	"epoch": 0.008238629259409973,
	"grad_norm": 0.045833125710487366,
	"learning_rate": 0.0002,
	"loss": 0.0829,
	"step": 4530
	},
	{
	"epoch": 0.00825681607896717,
	"grad_norm": 0.12271951884031296,
	"learning_rate": 0.0002,
	"loss": 0.0707,
	"step": 4540
	},
	{
	"epoch": 0.008275002898524366,
	"grad_norm": 0.01919553242623806,
	"learning_rate": 0.0002,
	"loss": 0.0213,
	"step": 4550
	},
	{
	"epoch": 0.008293189718081564,
	"grad_norm": 0.032527096569538116,
	"learning_rate": 0.0002,
	"loss": 0.1397,
	"step": 4560
	},
	{
	"epoch": 0.00831137653763876,
	"grad_norm": 0.045243579894304276,
	"learning_rate": 0.0002,
	"loss": 0.0854,
	"step": 4570
	},
	{
	"epoch": 0.008329563357195957,
	"grad_norm": 0.04226524010300636,
	"learning_rate": 0.0002,
	"loss": 0.0728,
	"step": 4580
	},
	{
	"epoch": 0.008347750176753153,
	"grad_norm": 0.09887039661407471,
	"learning_rate": 0.0002,
	"loss": 0.0661,
	"step": 4590
	},
	{
	"epoch": 0.00836593699631035,
	"grad_norm": 0.01822318509221077,
	"learning_rate": 0.0002,
	"loss": 0.0169,
	"step": 4600
	},
	{
	"epoch": 0.008384123815867546,
	"grad_norm": 0.05729951336979866,
	"learning_rate": 0.0002,
	"loss": 0.137,
	"step": 4610
	},
	{
	"epoch": 0.008402310635424742,
	"grad_norm": 0.041520439088344574,
	"learning_rate": 0.0002,
	"loss": 0.0825,
	"step": 4620
	},
	{
	"epoch": 0.008420497454981938,
	"grad_norm": 0.051164623349905014,
	"learning_rate": 0.0002,
	"loss": 0.0818,
	"step": 4630
	},
	{
	"epoch": 0.008438684274539135,
	"grad_norm": 0.1289409101009369,
	"learning_rate": 0.0002,
	"loss": 0.0664,
	"step": 4640
	},
	{
	"epoch": 0.008456871094096331,
	"grad_norm": 0.0085114361718297,
	"learning_rate": 0.0002,
	"loss": 0.0229,
	"step": 4650
	},
	{
	"epoch": 0.008475057913653527,
	"grad_norm": 0.03594676032662392,
	"learning_rate": 0.0002,
	"loss": 0.1401,
	"step": 4660
	},
	{
	"epoch": 0.008493244733210724,
	"grad_norm": 0.0316978394985199,
	"learning_rate": 0.0002,
	"loss": 0.0877,
	"step": 4670
	},
	{
	"epoch": 0.00851143155276792,
	"grad_norm": 0.023302162066102028,
	"learning_rate": 0.0002,
	"loss": 0.0764,
	"step": 4680
	},
	{
	"epoch": 0.008529618372325116,
	"grad_norm": 0.1329929083585739,
	"learning_rate": 0.0002,
	"loss": 0.0788,
	"step": 4690
	},
	{
	"epoch": 0.008547805191882312,
	"grad_norm": 0.01048013661056757,
	"learning_rate": 0.0002,
	"loss": 0.0234,
	"step": 4700
	},
	{
	"epoch": 0.008565992011439509,
	"grad_norm": 0.03505022078752518,
	"learning_rate": 0.0002,
	"loss": 0.1509,
	"step": 4710
	},
	{
	"epoch": 0.008584178830996705,
	"grad_norm": 0.03877585008740425,
	"learning_rate": 0.0002,
	"loss": 0.0802,
	"step": 4720
	},
	{
	"epoch": 0.008602365650553903,
	"grad_norm": 0.041193027049303055,
	"learning_rate": 0.0002,
	"loss": 0.0695,
	"step": 4730
	},
	{
	"epoch": 0.0086205524701111,
	"grad_norm": 0.17310455441474915,
	"learning_rate": 0.0002,
	"loss": 0.0794,
	"step": 4740
	},
	{
	"epoch": 0.008638739289668296,
	"grad_norm": 0.0061012376099824905,
	"learning_rate": 0.0002,
	"loss": 0.0158,
	"step": 4750
	},
	{
	"epoch": 0.008656926109225492,
	"grad_norm": 0.04843207076191902,
	"learning_rate": 0.0002,
	"loss": 0.2103,
	"step": 4760
	},
	{
	"epoch": 0.008675112928782688,
	"grad_norm": 0.04483436048030853,
	"learning_rate": 0.0002,
	"loss": 0.0878,
	"step": 4770
	},
	{
	"epoch": 0.008693299748339885,
	"grad_norm": 0.056655965745449066,
	"learning_rate": 0.0002,
	"loss": 0.0752,
	"step": 4780
	},
	{
	"epoch": 0.008711486567897081,
	"grad_norm": 0.11626063287258148,
	"learning_rate": 0.0002,
	"loss": 0.0685,
	"step": 4790
	},
	{
	"epoch": 0.008729673387454277,
	"grad_norm": 0.013872025534510612,
	"learning_rate": 0.0002,
	"loss": 0.0198,
	"step": 4800
	},
	{
	"epoch": 0.008747860207011474,
	"grad_norm": 0.06217370182275772,
	"learning_rate": 0.0002,
	"loss": 0.1371,
	"step": 4810
	},
	{
	"epoch": 0.00876604702656867,
	"grad_norm": 0.027149083092808723,
	"learning_rate": 0.0002,
	"loss": 0.0849,
	"step": 4820
	},
	{
	"epoch": 0.008784233846125866,
	"grad_norm": 0.043290987610816956,
	"learning_rate": 0.0002,
	"loss": 0.0739,
	"step": 4830
	},
	{
	"epoch": 0.008802420665683063,
	"grad_norm": 0.10664638131856918,
	"learning_rate": 0.0002,
	"loss": 0.0722,
	"step": 4840
	},
	{
	"epoch": 0.008820607485240259,
	"grad_norm": 0.033459801226854324,
	"learning_rate": 0.0002,
	"loss": 0.0234,
	"step": 4850
	},
	{
	"epoch": 0.008838794304797455,
	"grad_norm": 0.049193184822797775,
	"learning_rate": 0.0002,
	"loss": 0.1173,
	"step": 4860
	},
	{
	"epoch": 0.008856981124354651,
	"grad_norm": 0.05060647428035736,
	"learning_rate": 0.0002,
	"loss": 0.0883,
	"step": 4870
	},
	{
	"epoch": 0.008875167943911848,
	"grad_norm": 0.028496885672211647,
	"learning_rate": 0.0002,
	"loss": 0.0747,
	"step": 4880
	},
	{
	"epoch": 0.008893354763469044,
	"grad_norm": 0.10652820765972137,
	"learning_rate": 0.0002,
	"loss": 0.0707,
	"step": 4890
	},
	{
	"epoch": 0.008911541583026242,
	"grad_norm": 0.007879966869950294,
	"learning_rate": 0.0002,
	"loss": 0.0178,
	"step": 4900
	},
	{
	"epoch": 0.008929728402583438,
	"grad_norm": 0.05227983742952347,
	"learning_rate": 0.0002,
	"loss": 0.1379,
	"step": 4910
	},
	{
	"epoch": 0.008947915222140635,
	"grad_norm": 0.06054231896996498,
	"learning_rate": 0.0002,
	"loss": 0.0934,
	"step": 4920
	},
	{
	"epoch": 0.008966102041697831,
	"grad_norm": 0.029085835441946983,
	"learning_rate": 0.0002,
	"loss": 0.0816,
	"step": 4930
	},
	{
	"epoch": 0.008984288861255027,
	"grad_norm": 0.09829402714967728,
	"learning_rate": 0.0002,
	"loss": 0.0672,
	"step": 4940
	},
	{
	"epoch": 0.009002475680812224,
	"grad_norm": 0.005579107441008091,
	"learning_rate": 0.0002,
	"loss": 0.0172,
	"step": 4950
	},
	{
	"epoch": 0.00902066250036942,
	"grad_norm": 0.027280857786536217,
	"learning_rate": 0.0002,
	"loss": 0.1659,
	"step": 4960
	},
	{
	"epoch": 0.009038849319926616,
	"grad_norm": 0.10321583598852158,
	"learning_rate": 0.0002,
	"loss": 0.0947,
	"step": 4970
	},
	{
	"epoch": 0.009057036139483813,
	"grad_norm": 0.03381946310400963,
	"learning_rate": 0.0002,
	"loss": 0.0837,
	"step": 4980
	},
	{
	"epoch": 0.009075222959041009,
	"grad_norm": 0.14493779838085175,
	"learning_rate": 0.0002,
	"loss": 0.0736,
	"step": 4990
	},
	{
	"epoch": 0.009093409778598205,
	"grad_norm": 0.009917684830725193,
	"learning_rate": 0.0002,
	"loss": 0.0188,
	"step": 5000
	},
	{
	"epoch": 0.009111596598155402,
	"grad_norm": 1.003450632095337,
	"learning_rate": 0.0002,
	"loss": 0.218,
	"step": 5010
	},
	{
	"epoch": 0.009129783417712598,
	"grad_norm": 0.09081514924764633,
	"learning_rate": 0.0002,
	"loss": 0.1714,
	"step": 5020
	},
	{
	"epoch": 0.009147970237269794,
	"grad_norm": 0.042343392968177795,
	"learning_rate": 0.0002,
	"loss": 0.0823,
	"step": 5030
	},
	{
	"epoch": 0.00916615705682699,
	"grad_norm": 0.09944835305213928,
	"learning_rate": 0.0002,
	"loss": 0.0667,
	"step": 5040
	},
	{
	"epoch": 0.009184343876384187,
	"grad_norm": 0.008264658972620964,
	"learning_rate": 0.0002,
	"loss": 0.0122,
	"step": 5050
	},
	{
	"epoch": 0.009202530695941383,
	"grad_norm": 0.08990125358104706,
	"learning_rate": 0.0002,
	"loss": 0.1685,
	"step": 5060
	},
	{
	"epoch": 0.009220717515498581,
	"grad_norm": 0.0331488698720932,
	"learning_rate": 0.0002,
	"loss": 0.0885,
	"step": 5070
	},
	{
	"epoch": 0.009238904335055777,
	"grad_norm": 0.029458707198500633,
	"learning_rate": 0.0002,
	"loss": 0.078,
	"step": 5080
	},
	{
	"epoch": 0.009257091154612974,
	"grad_norm": 0.10468839108943939,
	"learning_rate": 0.0002,
	"loss": 0.0683,
	"step": 5090
	},
	{
	"epoch": 0.00927527797417017,
	"grad_norm": 0.002719841431826353,
	"learning_rate": 0.0002,
	"loss": 0.0117,
	"step": 5100
	},
	{
	"epoch": 0.009293464793727366,
	"grad_norm": 0.0411439947783947,
	"learning_rate": 0.0002,
	"loss": 0.2025,
	"step": 5110
	},
	{
	"epoch": 0.009311651613284563,
	"grad_norm": 0.03695548698306084,
	"learning_rate": 0.0002,
	"loss": 0.0831,
	"step": 5120
	},
	{
	"epoch": 0.009329838432841759,
	"grad_norm": 0.06067590415477753,
	"learning_rate": 0.0002,
	"loss": 0.0779,
	"step": 5130
	},
	{
	"epoch": 0.009348025252398955,
	"grad_norm": 0.11754634976387024,
	"learning_rate": 0.0002,
	"loss": 0.0667,
	"step": 5140
	},
	{
	"epoch": 0.009366212071956152,
	"grad_norm": 0.004248317331075668,
	"learning_rate": 0.0002,
	"loss": 0.0113,
	"step": 5150
	},
	{
	"epoch": 0.009384398891513348,
	"grad_norm": 0.03073648177087307,
	"learning_rate": 0.0002,
	"loss": 0.2289,
	"step": 5160
	},
	{
	"epoch": 0.009402585711070544,
	"grad_norm": 0.10287592560052872,
	"learning_rate": 0.0002,
	"loss": 0.0977,
	"step": 5170
	},
	{
	"epoch": 0.00942077253062774,
	"grad_norm": 0.06832946836948395,
	"learning_rate": 0.0002,
	"loss": 0.0764,
	"step": 5180
	},
	{
	"epoch": 0.009438959350184937,
	"grad_norm": 0.1760883778333664,
	"learning_rate": 0.0002,
	"loss": 0.0795,
	"step": 5190
	},
	{
	"epoch": 0.009457146169742133,
	"grad_norm": 0.02968805655837059,
	"learning_rate": 0.0002,
	"loss": 0.0253,
	"step": 5200
	},
	{
	"epoch": 0.00947533298929933,
	"grad_norm": 0.046602651476860046,
	"learning_rate": 0.0002,
	"loss": 0.1432,
	"step": 5210
	},
	{
	"epoch": 0.009493519808856526,
	"grad_norm": 0.051989324390888214,
	"learning_rate": 0.0002,
	"loss": 0.0807,
	"step": 5220
	},
	{
	"epoch": 0.009511706628413722,
	"grad_norm": 0.04583961144089699,
	"learning_rate": 0.0002,
	"loss": 0.0782,
	"step": 5230
	},
	{
	"epoch": 0.00952989344797092,
	"grad_norm": 0.13195525109767914,
	"learning_rate": 0.0002,
	"loss": 0.0688,
	"step": 5240
	},
	{
	"epoch": 0.009548080267528116,
	"grad_norm": 0.011369351297616959,
	"learning_rate": 0.0002,
	"loss": 0.0232,
	"step": 5250
	},
	{
	"epoch": 0.009566267087085313,
	"grad_norm": 0.05092083290219307,
	"learning_rate": 0.0002,
	"loss": 0.145,
	"step": 5260
	},
	{
	"epoch": 0.009584453906642509,
	"grad_norm": 0.05051489174365997,
	"learning_rate": 0.0002,
	"loss": 0.0803,
	"step": 5270
	},
	{
	"epoch": 0.009602640726199705,
	"grad_norm": 0.05730990320444107,
	"learning_rate": 0.0002,
	"loss": 0.0717,
	"step": 5280
	},
	{
	"epoch": 0.009620827545756902,
	"grad_norm": 0.11170202493667603,
	"learning_rate": 0.0002,
	"loss": 0.0711,
	"step": 5290
	},
	{
	"epoch": 0.009639014365314098,
	"grad_norm": 0.011571788229048252,
	"learning_rate": 0.0002,
	"loss": 0.0204,
	"step": 5300
	},
	{
	"epoch": 0.009657201184871294,
	"grad_norm": 0.04396244138479233,
	"learning_rate": 0.0002,
	"loss": 0.1764,
	"step": 5310
	},
	{
	"epoch": 0.00967538800442849,
	"grad_norm": 0.047808658331632614,
	"learning_rate": 0.0002,
	"loss": 0.0855,
	"step": 5320
	},
	{
	"epoch": 0.009693574823985687,
	"grad_norm": 0.09201673418283463,
	"learning_rate": 0.0002,
	"loss": 0.0737,
	"step": 5330
	},
	{
	"epoch": 0.009711761643542883,
	"grad_norm": 0.12273146212100983,
	"learning_rate": 0.0002,
	"loss": 0.0658,
	"step": 5340
	},
	{
	"epoch": 0.00972994846310008,
	"grad_norm": 0.014599839225411415,
	"learning_rate": 0.0002,
	"loss": 0.0254,
	"step": 5350
	},
	{
	"epoch": 0.009748135282657276,
	"grad_norm": 0.049732692539691925,
	"learning_rate": 0.0002,
	"loss": 0.1432,
	"step": 5360
	},
	{
	"epoch": 0.009766322102214472,
	"grad_norm": 0.07791377604007721,
	"learning_rate": 0.0002,
	"loss": 0.0865,
	"step": 5370
	},
	{
	"epoch": 0.009784508921771668,
	"grad_norm": 0.06298892199993134,
	"learning_rate": 0.0002,
	"loss": 0.0816,
	"step": 5380
	},
	{
	"epoch": 0.009802695741328865,
	"grad_norm": 0.08924435079097748,
	"learning_rate": 0.0002,
	"loss": 0.0709,
	"step": 5390
	},
	{
	"epoch": 0.009820882560886061,
	"grad_norm": 0.02383723482489586,
	"learning_rate": 0.0002,
	"loss": 0.0208,
	"step": 5400
	},
	{
	"epoch": 0.009839069380443257,
	"grad_norm": 0.042910825461149216,
	"learning_rate": 0.0002,
	"loss": 0.1383,
	"step": 5410
	},
	{
	"epoch": 0.009857256200000455,
	"grad_norm": 0.05560186505317688,
	"learning_rate": 0.0002,
	"loss": 0.0827,
	"step": 5420
	},
	{
	"epoch": 0.009875443019557652,
	"grad_norm": 0.08179624378681183,
	"learning_rate": 0.0002,
	"loss": 0.0758,
	"step": 5430
	},
	{
	"epoch": 0.009893629839114848,
	"grad_norm": 0.17111806571483612,
	"learning_rate": 0.0002,
	"loss": 0.0688,
	"step": 5440
	},
	{
	"epoch": 0.009911816658672044,
	"grad_norm": 0.008684845641255379,
	"learning_rate": 0.0002,
	"loss": 0.0177,
	"step": 5450
	},
	{
	"epoch": 0.00993000347822924,
	"grad_norm": 0.044370412826538086,
	"learning_rate": 0.0002,
	"loss": 0.2036,
	"step": 5460
	},
	{
	"epoch": 0.009948190297786437,
	"grad_norm": 0.08403154462575912,
	"learning_rate": 0.0002,
	"loss": 0.0878,
	"step": 5470
	},
	{
	"epoch": 0.009966377117343633,
	"grad_norm": 0.10712645202875137,
	"learning_rate": 0.0002,
	"loss": 0.0787,
	"step": 5480
	},
	{
	"epoch": 0.00998456393690083,
	"grad_norm": 0.12575705349445343,
	"learning_rate": 0.0002,
	"loss": 0.0637,
	"step": 5490
	},
	{
	"epoch": 0.010002750756458026,
	"grad_norm": 0.018583891913294792,
	"learning_rate": 0.0002,
	"loss": 0.0179,
	"step": 5500
	},
	{
	"epoch": 0.010020937576015222,
	"grad_norm": 0.040852561593055725,
	"learning_rate": 0.0002,
	"loss": 0.1545,
	"step": 5510
	},
	{
	"epoch": 0.010039124395572419,
	"grad_norm": 0.09006325900554657,
	"learning_rate": 0.0002,
	"loss": 0.0888,
	"step": 5520
	},
	{
	"epoch": 0.010057311215129615,
	"grad_norm": 0.06323093175888062,
	"learning_rate": 0.0002,
	"loss": 0.0778,
	"step": 5530
	},
	{
	"epoch": 0.010075498034686811,
	"grad_norm": 0.10159824043512344,
	"learning_rate": 0.0002,
	"loss": 0.0662,
	"step": 5540
	},
	{
	"epoch": 0.010093684854244007,
	"grad_norm": 0.012086872011423111,
	"learning_rate": 0.0002,
	"loss": 0.0237,
	"step": 5550
	},
	{
	"epoch": 0.010111871673801204,
	"grad_norm": 0.02518664114177227,
	"learning_rate": 0.0002,
	"loss": 0.1246,
	"step": 5560
	},
	{
	"epoch": 0.0101300584933584,
	"grad_norm": 0.056161828339099884,
	"learning_rate": 0.0002,
	"loss": 0.086,
	"step": 5570
	},
	{
	"epoch": 0.010148245312915596,
	"grad_norm": 0.03376586362719536,
	"learning_rate": 0.0002,
	"loss": 0.0842,
	"step": 5580
	},
	{
	"epoch": 0.010166432132472794,
	"grad_norm": 0.09921032190322876,
	"learning_rate": 0.0002,
	"loss": 0.0667,
	"step": 5590
	},
	{
	"epoch": 0.01018461895202999,
	"grad_norm": 0.009120604954659939,
	"learning_rate": 0.0002,
	"loss": 0.0209,
	"step": 5600
	},
	{
	"epoch": 0.010202805771587187,
	"grad_norm": 0.037767425179481506,
	"learning_rate": 0.0002,
	"loss": 0.1248,
	"step": 5610
	},
	{
	"epoch": 0.010220992591144383,
	"grad_norm": 0.05255524069070816,
	"learning_rate": 0.0002,
	"loss": 0.0794,
	"step": 5620
	},
	{
	"epoch": 0.01023917941070158,
	"grad_norm": 0.038734354078769684,
	"learning_rate": 0.0002,
	"loss": 0.0791,
	"step": 5630
	},
	{
	"epoch": 0.010257366230258776,
	"grad_norm": 0.09293238073587418,
	"learning_rate": 0.0002,
	"loss": 0.064,
	"step": 5640
	},
	{
	"epoch": 0.010275553049815972,
	"grad_norm": 0.013020232319831848,
	"learning_rate": 0.0002,
	"loss": 0.0174,
	"step": 5650
	},
	{
	"epoch": 0.010293739869373169,
	"grad_norm": 0.030535893514752388,
	"learning_rate": 0.0002,
	"loss": 0.1615,
	"step": 5660
	},
	{
	"epoch": 0.010311926688930365,
	"grad_norm": 0.08644227683544159,
	"learning_rate": 0.0002,
	"loss": 0.0856,
	"step": 5670
	},
	{
	"epoch": 0.010330113508487561,
	"grad_norm": 0.04769067466259003,
	"learning_rate": 0.0002,
	"loss": 0.0777,
	"step": 5680
	},
	{
	"epoch": 0.010348300328044758,
	"grad_norm": 0.1528550088405609,
	"learning_rate": 0.0002,
	"loss": 0.0757,
	"step": 5690
	},
	{
	"epoch": 0.010366487147601954,
	"grad_norm": 0.012257793918251991,
	"learning_rate": 0.0002,
	"loss": 0.0163,
	"step": 5700
	},
	{
	"epoch": 0.01038467396715915,
	"grad_norm": 0.5761304497718811,
	"learning_rate": 0.0002,
	"loss": 0.1787,
	"step": 5710
	},
	{
	"epoch": 0.010402860786716346,
	"grad_norm": 0.07034485787153244,
	"learning_rate": 0.0002,
	"loss": 0.0964,
	"step": 5720
	},
	{
	"epoch": 0.010421047606273543,
	"grad_norm": 0.04541708156466484,
	"learning_rate": 0.0002,
	"loss": 0.0793,
	"step": 5730
	},
	{
	"epoch": 0.010439234425830739,
	"grad_norm": 0.12013612687587738,
	"learning_rate": 0.0002,
	"loss": 0.07,
	"step": 5740
	},
	{
	"epoch": 0.010457421245387935,
	"grad_norm": 0.014152747578918934,
	"learning_rate": 0.0002,
	"loss": 0.0208,
	"step": 5750
	},
	{
	"epoch": 0.010475608064945133,
	"grad_norm": 0.029470542445778847,
	"learning_rate": 0.0002,
	"loss": 0.1352,
	"step": 5760
	},
	{
	"epoch": 0.01049379488450233,
	"grad_norm": 0.04889104515314102,
	"learning_rate": 0.0002,
	"loss": 0.0748,
	"step": 5770
	},
	{
	"epoch": 0.010511981704059526,
	"grad_norm": 0.0311355609446764,
	"learning_rate": 0.0002,
	"loss": 0.0764,
	"step": 5780
	},
	{
	"epoch": 0.010530168523616722,
	"grad_norm": 0.16830098628997803,
	"learning_rate": 0.0002,
	"loss": 0.0734,
	"step": 5790
	},
	{
	"epoch": 0.010548355343173919,
	"grad_norm": 0.013224232010543346,
	"learning_rate": 0.0002,
	"loss": 0.0218,
	"step": 5800
	},
	{
	"epoch": 0.010566542162731115,
	"grad_norm": 0.03710555657744408,
	"learning_rate": 0.0002,
	"loss": 0.1403,
	"step": 5810
	},
	{
	"epoch": 0.010584728982288311,
	"grad_norm": 0.05788695067167282,
	"learning_rate": 0.0002,
	"loss": 0.0863,
	"step": 5820
	},
	{
	"epoch": 0.010602915801845508,
	"grad_norm": 0.03398163616657257,
	"learning_rate": 0.0002,
	"loss": 0.0751,
	"step": 5830
	},
	{
	"epoch": 0.010621102621402704,
	"grad_norm": 0.13862720131874084,
	"learning_rate": 0.0002,
	"loss": 0.07,
	"step": 5840
	},
	{
	"epoch": 0.0106392894409599,
	"grad_norm": 0.016240287572145462,
	"learning_rate": 0.0002,
	"loss": 0.0209,
	"step": 5850
	},
	{
	"epoch": 0.010657476260517097,
	"grad_norm": 0.030351752415299416,
	"learning_rate": 0.0002,
	"loss": 0.157,
	"step": 5860
	},
	{
	"epoch": 0.010675663080074293,
	"grad_norm": 0.038465555757284164,
	"learning_rate": 0.0002,
	"loss": 0.072,
	"step": 5870
	},
	{
	"epoch": 0.01069384989963149,
	"grad_norm": 0.07298482209444046,
	"learning_rate": 0.0002,
	"loss": 0.0796,
	"step": 5880
	},
	{
	"epoch": 0.010712036719188685,
	"grad_norm": 0.13822157680988312,
	"learning_rate": 0.0002,
	"loss": 0.0687,
	"step": 5890
	},
	{
	"epoch": 0.010730223538745882,
	"grad_norm": 0.014381729066371918,
	"learning_rate": 0.0002,
	"loss": 0.0192,
	"step": 5900
	},
	{
	"epoch": 0.010748410358303078,
	"grad_norm": 0.040448348969221115,
	"learning_rate": 0.0002,
	"loss": 0.1714,
	"step": 5910
	},
	{
	"epoch": 0.010766597177860274,
	"grad_norm": 0.06950225681066513,
	"learning_rate": 0.0002,
	"loss": 0.098,
	"step": 5920
	},
	{
	"epoch": 0.010784783997417472,
	"grad_norm": 0.04581855982542038,
	"learning_rate": 0.0002,
	"loss": 0.0752,
	"step": 5930
	},
	{
	"epoch": 0.010802970816974669,
	"grad_norm": 0.10498905926942825,
	"learning_rate": 0.0002,
	"loss": 0.0627,
	"step": 5940
	},
	{
	"epoch": 0.010821157636531865,
	"grad_norm": 0.009345698170363903,
	"learning_rate": 0.0002,
	"loss": 0.0183,
	"step": 5950
	},
	{
	"epoch": 0.010839344456089061,
	"grad_norm": 0.02440352365374565,
	"learning_rate": 0.0002,
	"loss": 0.1289,
	"step": 5960
	},
	{
	"epoch": 0.010857531275646258,
	"grad_norm": 0.051523737609386444,
	"learning_rate": 0.0002,
	"loss": 0.0813,
	"step": 5970
	},
	{
	"epoch": 0.010875718095203454,
	"grad_norm": 0.031664300709962845,
	"learning_rate": 0.0002,
	"loss": 0.0736,
	"step": 5980
	},
	{
	"epoch": 0.01089390491476065,
	"grad_norm": 0.10166060924530029,
	"learning_rate": 0.0002,
	"loss": 0.0631,
	"step": 5990
	},
	{
	"epoch": 0.010912091734317847,
	"grad_norm": 0.01642071269452572,
	"learning_rate": 0.0002,
	"loss": 0.0198,
	"step": 6000
	},
	{
	"epoch": 0.010930278553875043,
	"grad_norm": 0.04028782621026039,
	"learning_rate": 0.0002,
	"loss": 0.1355,
	"step": 6010
	},
	{
	"epoch": 0.01094846537343224,
	"grad_norm": 0.04289260134100914,
	"learning_rate": 0.0002,
	"loss": 0.0794,
	"step": 6020
	},
	{
	"epoch": 0.010966652192989436,
	"grad_norm": 0.03854202851653099,
	"learning_rate": 0.0002,
	"loss": 0.0765,
	"step": 6030
	},
	{
	"epoch": 0.010984839012546632,
	"grad_norm": 0.07910823822021484,
	"learning_rate": 0.0002,
	"loss": 0.0618,
	"step": 6040
	},
	{
	"epoch": 0.011003025832103828,
	"grad_norm": 0.009719946421682835,
	"learning_rate": 0.0002,
	"loss": 0.0145,
	"step": 6050
	},
	{
	"epoch": 0.011021212651661024,
	"grad_norm": 0.06853003799915314,
	"learning_rate": 0.0002,
	"loss": 0.1563,
	"step": 6060
	},
	{
	"epoch": 0.01103939947121822,
	"grad_norm": 0.02887076325714588,
	"learning_rate": 0.0002,
	"loss": 0.0803,
	"step": 6070
	},
	{
	"epoch": 0.011057586290775417,
	"grad_norm": 0.060147739946842194,
	"learning_rate": 0.0002,
	"loss": 0.0758,
	"step": 6080
	},
	{
	"epoch": 0.011075773110332613,
	"grad_norm": 0.10197418928146362,
	"learning_rate": 0.0002,
	"loss": 0.0627,
	"step": 6090
	},
	{
	"epoch": 0.011093959929889811,
	"grad_norm": 0.015125100500881672,
	"learning_rate": 0.0002,
	"loss": 0.0164,
	"step": 6100
	},
	{
	"epoch": 0.011112146749447008,
	"grad_norm": 0.029526161029934883,
	"learning_rate": 0.0002,
	"loss": 0.1526,
	"step": 6110
	},
	{
	"epoch": 0.011130333569004204,
	"grad_norm": 0.05942453444004059,
	"learning_rate": 0.0002,
	"loss": 0.0891,
	"step": 6120
	},
	{
	"epoch": 0.0111485203885614,
	"grad_norm": 0.07344426214694977,
	"learning_rate": 0.0002,
	"loss": 0.0753,
	"step": 6130
	},
	{
	"epoch": 0.011166707208118597,
	"grad_norm": 0.1394059658050537,
	"learning_rate": 0.0002,
	"loss": 0.0776,
	"step": 6140
	},
	{
	"epoch": 0.011184894027675793,
	"grad_norm": 0.00965851079672575,
	"learning_rate": 0.0002,
	"loss": 0.019,
	"step": 6150
	},
	{
	"epoch": 0.01120308084723299,
	"grad_norm": 0.041846372187137604,
	"learning_rate": 0.0002,
	"loss": 0.1776,
	"step": 6160
	},
	{
	"epoch": 0.011221267666790186,
	"grad_norm": 0.04657486826181412,
	"learning_rate": 0.0002,
	"loss": 0.0878,
	"step": 6170
	},
	{
	"epoch": 0.011239454486347382,
	"grad_norm": 0.026520246639847755,
	"learning_rate": 0.0002,
	"loss": 0.0768,
	"step": 6180
	},
	{
	"epoch": 0.011257641305904578,
	"grad_norm": 0.10318096727132797,
	"learning_rate": 0.0002,
	"loss": 0.0617,
	"step": 6190
	},
	{
	"epoch": 0.011275828125461775,
	"grad_norm": 0.019912905991077423,
	"learning_rate": 0.0002,
	"loss": 0.0202,
	"step": 6200
	},
	{
	"epoch": 0.01129401494501897,
	"grad_norm": 0.05316480994224548,
	"learning_rate": 0.0002,
	"loss": 0.1412,
	"step": 6210
	},
	{
	"epoch": 0.011312201764576167,
	"grad_norm": 0.02944323979318142,
	"learning_rate": 0.0002,
	"loss": 0.0829,
	"step": 6220
	},
	{
	"epoch": 0.011330388584133363,
	"grad_norm": 0.0285831056535244,
	"learning_rate": 0.0002,
	"loss": 0.074,
	"step": 6230
	},
	{
	"epoch": 0.01134857540369056,
	"grad_norm": 0.0975700169801712,
	"learning_rate": 0.0002,
	"loss": 0.0681,
	"step": 6240
	},
	{
	"epoch": 0.011366762223247756,
	"grad_norm": 0.025717545300722122,
	"learning_rate": 0.0002,
	"loss": 0.0221,
	"step": 6250
	},
	{
	"epoch": 0.011384949042804952,
	"grad_norm": 0.02859714813530445,
	"learning_rate": 0.0002,
	"loss": 0.1142,
	"step": 6260
	},
	{
	"epoch": 0.01140313586236215,
	"grad_norm": 0.04395005479454994,
	"learning_rate": 0.0002,
	"loss": 0.0777,
	"step": 6270
	},
	{
	"epoch": 0.011421322681919347,
	"grad_norm": 0.05116860568523407,
	"learning_rate": 0.0002,
	"loss": 0.0763,
	"step": 6280
	},
	{
	"epoch": 0.011439509501476543,
	"grad_norm": 0.06850302964448929,
	"learning_rate": 0.0002,
	"loss": 0.0632,
	"step": 6290
	},
	{
	"epoch": 0.01145769632103374,
	"grad_norm": 0.016113542020320892,
	"learning_rate": 0.0002,
	"loss": 0.0178,
	"step": 6300
	},
	{
	"epoch": 0.011475883140590936,
	"grad_norm": 0.032306116074323654,
	"learning_rate": 0.0002,
	"loss": 0.1306,
	"step": 6310
	},
	{
	"epoch": 0.011494069960148132,
	"grad_norm": 0.055701326578855515,
	"learning_rate": 0.0002,
	"loss": 0.0834,
	"step": 6320
	},
	{
	"epoch": 0.011512256779705328,
	"grad_norm": 0.022934190928936005,
	"learning_rate": 0.0002,
	"loss": 0.0737,
	"step": 6330
	},
	{
	"epoch": 0.011530443599262525,
	"grad_norm": 0.08375566452741623,
	"learning_rate": 0.0002,
	"loss": 0.0661,
	"step": 6340
	},
	{
	"epoch": 0.011548630418819721,
	"grad_norm": 0.013614729046821594,
	"learning_rate": 0.0002,
	"loss": 0.0187,
	"step": 6350
	},
	{
	"epoch": 0.011566817238376917,
	"grad_norm": 0.028269700706005096,
	"learning_rate": 0.0002,
	"loss": 0.1245,
	"step": 6360
	},
	{
	"epoch": 0.011585004057934114,
	"grad_norm": 0.03646335378289223,
	"learning_rate": 0.0002,
	"loss": 0.0866,
	"step": 6370
	},
	{
	"epoch": 0.01160319087749131,
	"grad_norm": 0.0371277742087841,
	"learning_rate": 0.0002,
	"loss": 0.0737,
	"step": 6380
	},
	{
	"epoch": 0.011621377697048506,
	"grad_norm": 0.13698458671569824,
	"learning_rate": 0.0002,
	"loss": 0.0679,
	"step": 6390
	},
	{
	"epoch": 0.011639564516605702,
	"grad_norm": 0.009350700303912163,
	"learning_rate": 0.0002,
	"loss": 0.024,
	"step": 6400
	},
	{
	"epoch": 0.011657751336162899,
	"grad_norm": 0.03187236189842224,
	"learning_rate": 0.0002,
	"loss": 0.1555,
	"step": 6410
	},
	{
	"epoch": 0.011675938155720095,
	"grad_norm": 0.06672242283821106,
	"learning_rate": 0.0002,
	"loss": 0.0835,
	"step": 6420
	},
	{
	"epoch": 0.011694124975277291,
	"grad_norm": 0.07821471244096756,
	"learning_rate": 0.0002,
	"loss": 0.0746,
	"step": 6430
	},
	{
	"epoch": 0.011712311794834488,
	"grad_norm": 0.14781107008457184,
	"learning_rate": 0.0002,
	"loss": 0.0662,
	"step": 6440
	},
	{
	"epoch": 0.011730498614391686,
	"grad_norm": 0.0057207453064620495,
	"learning_rate": 0.0002,
	"loss": 0.0169,
	"step": 6450
	},
	{
	"epoch": 0.011748685433948882,
	"grad_norm": 0.04252105578780174,
	"learning_rate": 0.0002,
	"loss": 0.1868,
	"step": 6460
	},
	{
	"epoch": 0.011766872253506078,
	"grad_norm": 0.05041474476456642,
	"learning_rate": 0.0002,
	"loss": 0.0842,
	"step": 6470
	},
	{
	"epoch": 0.011785059073063275,
	"grad_norm": 0.06584125757217407,
	"learning_rate": 0.0002,
	"loss": 0.0779,
	"step": 6480
	},
	{
	"epoch": 0.011803245892620471,
	"grad_norm": 0.14610575139522552,
	"learning_rate": 0.0002,
	"loss": 0.063,
	"step": 6490
	},
	{
	"epoch": 0.011821432712177667,
	"grad_norm": 0.01419675163924694,
	"learning_rate": 0.0002,
	"loss": 0.0152,
	"step": 6500
	},
	{
	"epoch": 0.011839619531734864,
	"grad_norm": 0.03371060639619827,
	"learning_rate": 0.0002,
	"loss": 0.1725,
	"step": 6510
	},
	{
	"epoch": 0.01185780635129206,
	"grad_norm": 0.028900766745209694,
	"learning_rate": 0.0002,
	"loss": 0.0815,
	"step": 6520
	},
	{
	"epoch": 0.011875993170849256,
	"grad_norm": 0.059519629925489426,
	"learning_rate": 0.0002,
	"loss": 0.0785,
	"step": 6530
	},
	{
	"epoch": 0.011894179990406453,
	"grad_norm": 0.12085167318582535,
	"learning_rate": 0.0002,
	"loss": 0.0615,
	"step": 6540
	},
	{
	"epoch": 0.011912366809963649,
	"grad_norm": 0.028604619204998016,
	"learning_rate": 0.0002,
	"loss": 0.0196,
	"step": 6550
	},
	{
	"epoch": 0.011930553629520845,
	"grad_norm": 0.03659407049417496,
	"learning_rate": 0.0002,
	"loss": 0.1403,
	"step": 6560
	},
	{
	"epoch": 0.011948740449078041,
	"grad_norm": 0.034444138407707214,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 6570
	},
	{
	"epoch": 0.011966927268635238,
	"grad_norm": 0.029788263142108917,
	"learning_rate": 0.0002,
	"loss": 0.0713,
	"step": 6580
	},
	{
	"epoch": 0.011985114088192434,
	"grad_norm": 0.1271272599697113,
	"learning_rate": 0.0002,
	"loss": 0.0672,
	"step": 6590
	},
	{
	"epoch": 0.01200330090774963,
	"grad_norm": 0.018705012276768684,
	"learning_rate": 0.0002,
	"loss": 0.0212,
	"step": 6600
	},
	{
	"epoch": 0.012021487727306827,
	"grad_norm": 0.02982541173696518,
	"learning_rate": 0.0002,
	"loss": 0.1152,
	"step": 6610
	},
	{
	"epoch": 0.012039674546864025,
	"grad_norm": 0.06942040473222733,
	"learning_rate": 0.0002,
	"loss": 0.0963,
	"step": 6620
	},
	{
	"epoch": 0.012057861366421221,
	"grad_norm": 0.06102292984724045,
	"learning_rate": 0.0002,
	"loss": 0.0775,
	"step": 6630
	},
	{
	"epoch": 0.012076048185978417,
	"grad_norm": 0.10115987807512283,
	"learning_rate": 0.0002,
	"loss": 0.0729,
	"step": 6640
	},
	{
	"epoch": 0.012094235005535614,
	"grad_norm": 0.011439867317676544,
	"learning_rate": 0.0002,
	"loss": 0.0253,
	"step": 6650
	},
	{
	"epoch": 0.01211242182509281,
	"grad_norm": 0.062434904277324677,
	"learning_rate": 0.0002,
	"loss": 0.1166,
	"step": 6660
	},
	{
	"epoch": 0.012130608644650006,
	"grad_norm": 0.055352553725242615,
	"learning_rate": 0.0002,
	"loss": 0.0802,
	"step": 6670
	},
	{
	"epoch": 0.012148795464207203,
	"grad_norm": 0.031538888812065125,
	"learning_rate": 0.0002,
	"loss": 0.0786,
	"step": 6680
	},
	{
	"epoch": 0.012166982283764399,
	"grad_norm": 0.10964162647724152,
	"learning_rate": 0.0002,
	"loss": 0.0626,
	"step": 6690
	},
	{
	"epoch": 0.012185169103321595,
	"grad_norm": 0.011173764243721962,
	"learning_rate": 0.0002,
	"loss": 0.0205,
	"step": 6700
	},
	{
	"epoch": 0.012203355922878792,
	"grad_norm": 0.035984206944704056,
	"learning_rate": 0.0002,
	"loss": 0.1412,
	"step": 6710
	},
	{
	"epoch": 0.012221542742435988,
	"grad_norm": 0.07189827412366867,
	"learning_rate": 0.0002,
	"loss": 0.0818,
	"step": 6720
	},
	{
	"epoch": 0.012239729561993184,
	"grad_norm": 0.0400136299431324,
	"learning_rate": 0.0002,
	"loss": 0.0676,
	"step": 6730
	},
	{
	"epoch": 0.01225791638155038,
	"grad_norm": 0.14700625836849213,
	"learning_rate": 0.0002,
	"loss": 0.0663,
	"step": 6740
	},
	{
	"epoch": 0.012276103201107577,
	"grad_norm": 0.007156179752200842,
	"learning_rate": 0.0002,
	"loss": 0.0171,
	"step": 6750
	},
	{
	"epoch": 0.012294290020664773,
	"grad_norm": 0.04911777004599571,
	"learning_rate": 0.0002,
	"loss": 0.1657,
	"step": 6760
	},
	{
	"epoch": 0.01231247684022197,
	"grad_norm": 0.03729144483804703,
	"learning_rate": 0.0002,
	"loss": 0.0806,
	"step": 6770
	},
	{
	"epoch": 0.012330663659779166,
	"grad_norm": 0.037231944501399994,
	"learning_rate": 0.0002,
	"loss": 0.0736,
	"step": 6780
	},
	{
	"epoch": 0.012348850479336364,
	"grad_norm": 0.09694401919841766,
	"learning_rate": 0.0002,
	"loss": 0.0642,
	"step": 6790
	},
	{
	"epoch": 0.01236703729889356,
	"grad_norm": 0.025534989312291145,
	"learning_rate": 0.0002,
	"loss": 0.0208,
	"step": 6800
	},
	{
	"epoch": 0.012385224118450756,
	"grad_norm": 0.033654361963272095,
	"learning_rate": 0.0002,
	"loss": 0.1295,
	"step": 6810
	},
	{
	"epoch": 0.012403410938007953,
	"grad_norm": 0.04499521851539612,
	"learning_rate": 0.0002,
	"loss": 0.0902,
	"step": 6820
	},
	{
	"epoch": 0.012421597757565149,
	"grad_norm": 0.0335836224257946,
	"learning_rate": 0.0002,
	"loss": 0.0781,
	"step": 6830
	},
	{
	"epoch": 0.012439784577122345,
	"grad_norm": 0.1040850430727005,
	"learning_rate": 0.0002,
	"loss": 0.0679,
	"step": 6840
	},
	{
	"epoch": 0.012457971396679542,
	"grad_norm": 0.015963764861226082,
	"learning_rate": 0.0002,
	"loss": 0.0226,
	"step": 6850
	},
	{
	"epoch": 0.012476158216236738,
	"grad_norm": 0.05578307807445526,
	"learning_rate": 0.0002,
	"loss": 0.1119,
	"step": 6860
	},
	{
	"epoch": 0.012494345035793934,
	"grad_norm": 0.0364505760371685,
	"learning_rate": 0.0002,
	"loss": 0.0805,
	"step": 6870
	},
	{
	"epoch": 0.01251253185535113,
	"grad_norm": 0.027990469709038734,
	"learning_rate": 0.0002,
	"loss": 0.0826,
	"step": 6880
	},
	{
	"epoch": 0.012530718674908327,
	"grad_norm": 0.08282670378684998,
	"learning_rate": 0.0002,
	"loss": 0.0685,
	"step": 6890
	},
	{
	"epoch": 0.012548905494465523,
	"grad_norm": 0.02172144502401352,
	"learning_rate": 0.0002,
	"loss": 0.0259,
	"step": 6900
	},
	{
	"epoch": 0.01256709231402272,
	"grad_norm": 0.04074740409851074,
	"learning_rate": 0.0002,
	"loss": 0.1211,
	"step": 6910
	},
	{
	"epoch": 0.012585279133579916,
	"grad_norm": 0.05433020740747452,
	"learning_rate": 0.0002,
	"loss": 0.0776,
	"step": 6920
	},
	{
	"epoch": 0.012603465953137112,
	"grad_norm": 0.05479983240365982,
	"learning_rate": 0.0002,
	"loss": 0.0778,
	"step": 6930
	},
	{
	"epoch": 0.012621652772694308,
	"grad_norm": 1.6031180620193481,
	"learning_rate": 0.0002,
	"loss": 0.2265,
	"step": 6940
	},
	{
	"epoch": 0.012639839592251505,
	"grad_norm": 1.0940366983413696,
	"learning_rate": 0.0002,
	"loss": 0.4586,
	"step": 6950
	},
	{
	"epoch": 0.012658026411808703,
	"grad_norm": 0.0412282720208168,
	"learning_rate": 0.0002,
	"loss": 0.1072,
	"step": 6960
	},
	{
	"epoch": 0.012676213231365899,
	"grad_norm": 0.03705910965800285,
	"learning_rate": 0.0002,
	"loss": 0.1014,
	"step": 6970
	},
	{
	"epoch": 0.012694400050923095,
	"grad_norm": 0.07444313168525696,
	"learning_rate": 0.0002,
	"loss": 0.0881,
	"step": 6980
	},
	{
	"epoch": 0.012712586870480292,
	"grad_norm": 0.08558017760515213,
	"learning_rate": 0.0002,
	"loss": 0.0619,
	"step": 6990
	},
	{
	"epoch": 0.012730773690037488,
	"grad_norm": 0.0004157133516855538,
	"learning_rate": 0.0002,
	"loss": 0.0045,
	"step": 7000
	},
	{
	"epoch": 0.012748960509594684,
	"grad_norm": 0.07950109243392944,
	"learning_rate": 0.0002,
	"loss": 0.1801,
	"step": 7010
	},
	{
	"epoch": 0.01276714732915188,
	"grad_norm": 0.08424151688814163,
	"learning_rate": 0.0002,
	"loss": 0.0753,
	"step": 7020
	},
	{
	"epoch": 0.012785334148709077,
	"grad_norm": 0.47635558247566223,
	"learning_rate": 0.0002,
	"loss": 0.0753,
	"step": 7030
	},
	{
	"epoch": 0.012803520968266273,
	"grad_norm": 0.0452958345413208,
	"learning_rate": 0.0002,
	"loss": 0.0731,
	"step": 7040
	},
	{
	"epoch": 0.01282170778782347,
	"grad_norm": 0.007719043176621199,
	"learning_rate": 0.0002,
	"loss": 0.0193,
	"step": 7050
	},
	{
	"epoch": 0.012839894607380666,
	"grad_norm": 0.2408572882413864,
	"learning_rate": 0.0002,
	"loss": 0.4117,
	"step": 7060
	},
	{
	"epoch": 0.012858081426937862,
	"grad_norm": 0.7272363305091858,
	"learning_rate": 0.0002,
	"loss": 0.0852,
	"step": 7070
	},
	{
	"epoch": 0.012876268246495058,
	"grad_norm": 0.5539261698722839,
	"learning_rate": 0.0002,
	"loss": 0.075,
	"step": 7080
	},
	{
	"epoch": 0.012894455066052255,
	"grad_norm": 4.608922481536865,
	"learning_rate": 0.0002,
	"loss": 0.2301,
	"step": 7090
	},
	{
	"epoch": 0.012912641885609451,
	"grad_norm": 0.0012216357281431556,
	"learning_rate": 0.0002,
	"loss": 0.0034,
	"step": 7100
	},
	{
	"epoch": 0.012930828705166647,
	"grad_norm": 0.15025563538074493,
	"learning_rate": 0.0002,
	"loss": 0.2717,
	"step": 7110
	},
	{
	"epoch": 0.012949015524723844,
	"grad_norm": 0.06209970638155937,
	"learning_rate": 0.0002,
	"loss": 0.0852,
	"step": 7120
	},
	{
	"epoch": 0.012967202344281042,
	"grad_norm": 0.6127016544342041,
	"learning_rate": 0.0002,
	"loss": 0.1271,
	"step": 7130
	},
	{
	"epoch": 0.012985389163838238,
	"grad_norm": 0.047152891755104065,
	"learning_rate": 0.0002,
	"loss": 0.0626,
	"step": 7140
	},
	{
	"epoch": 0.013003575983395434,
	"grad_norm": 0.0005132685182616115,
	"learning_rate": 0.0002,
	"loss": 0.0029,
	"step": 7150
	},
	{
	"epoch": 0.01302176280295263,
	"grad_norm": 0.08946029096841812,
	"learning_rate": 0.0002,
	"loss": 0.309,
	"step": 7160
	},
	{
	"epoch": 0.013039949622509827,
	"grad_norm": 0.18610751628875732,
	"learning_rate": 0.0002,
	"loss": 0.0867,
	"step": 7170
	},
	{
	"epoch": 0.013058136442067023,
	"grad_norm": 0.07280854880809784,
	"learning_rate": 0.0002,
	"loss": 0.0832,
	"step": 7180
	},
	{
	"epoch": 0.01307632326162422,
	"grad_norm": 0.11997990310192108,
	"learning_rate": 0.0002,
	"loss": 0.0746,
	"step": 7190
	},
	{
	"epoch": 0.013094510081181416,
	"grad_norm": 0.00019475500448606908,
	"learning_rate": 0.0002,
	"loss": 0.01,
	"step": 7200
	},
	{
	"epoch": 0.013112696900738612,
	"grad_norm": 0.07719916105270386,
	"learning_rate": 0.0002,
	"loss": 0.3035,
	"step": 7210
	},
	{
	"epoch": 0.013130883720295809,
	"grad_norm": 0.0990060344338417,
	"learning_rate": 0.0002,
	"loss": 0.0902,
	"step": 7220
	},
	{
	"epoch": 0.013149070539853005,
	"grad_norm": 0.22215688228607178,
	"learning_rate": 0.0002,
	"loss": 0.0797,
	"step": 7230
	},
	{
	"epoch": 0.013167257359410201,
	"grad_norm": 0.08412040770053864,
	"learning_rate": 0.0002,
	"loss": 0.0646,
	"step": 7240
	},
	{
	"epoch": 0.013185444178967397,
	"grad_norm": 0.0017518314998596907,
	"learning_rate": 0.0002,
	"loss": 0.007,
	"step": 7250
	},
	{
	"epoch": 0.013203630998524594,
	"grad_norm": 0.1554754078388214,
	"learning_rate": 0.0002,
	"loss": 0.2319,
	"step": 7260
	},
	{
	"epoch": 0.01322181781808179,
	"grad_norm": 0.052371326833963394,
	"learning_rate": 0.0002,
	"loss": 0.0832,
	"step": 7270
	},
	{
	"epoch": 0.013240004637638986,
	"grad_norm": 0.9168817400932312,
	"learning_rate": 0.0002,
	"loss": 0.0791,
	"step": 7280
	},
	{
	"epoch": 0.013258191457196183,
	"grad_norm": 0.07169363647699356,
	"learning_rate": 0.0002,
	"loss": 0.0602,
	"step": 7290
	},
	{
	"epoch": 0.01327637827675338,
	"grad_norm": 0.0009911650558933616,
	"learning_rate": 0.0002,
	"loss": 0.0041,
	"step": 7300
	},
	{
	"epoch": 0.013294565096310577,
	"grad_norm": 0.2644541263580322,
	"learning_rate": 0.0002,
	"loss": 0.2193,
	"step": 7310
	},
	{
	"epoch": 0.013312751915867773,
	"grad_norm": 0.12140689790248871,
	"learning_rate": 0.0002,
	"loss": 0.0944,
	"step": 7320
	},
	{
	"epoch": 0.01333093873542497,
	"grad_norm": 0.03627191483974457,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 7330
	},
	{
	"epoch": 0.013349125554982166,
	"grad_norm": 0.06252894550561905,
	"learning_rate": 0.0002,
	"loss": 0.0596,
	"step": 7340
	},
	{
	"epoch": 0.013367312374539362,
	"grad_norm": 0.20318441092967987,
	"learning_rate": 0.0002,
	"loss": 0.0064,
	"step": 7350
	},
	{
	"epoch": 0.013385499194096559,
	"grad_norm": 0.4231732189655304,
	"learning_rate": 0.0002,
	"loss": 0.4329,
	"step": 7360
	},
	{
	"epoch": 0.013403686013653755,
	"grad_norm": 0.07567082345485687,
	"learning_rate": 0.0002,
	"loss": 0.089,
	"step": 7370
	},
	{
	"epoch": 0.013421872833210951,
	"grad_norm": 0.23021474480628967,
	"learning_rate": 0.0002,
	"loss": 0.0833,
	"step": 7380
	},
	{
	"epoch": 0.013440059652768148,
	"grad_norm": 0.09458985179662704,
	"learning_rate": 0.0002,
	"loss": 0.1391,
	"step": 7390
	},
	{
	"epoch": 0.013458246472325344,
	"grad_norm": 0.010052111931145191,
	"learning_rate": 0.0002,
	"loss": 0.0073,
	"step": 7400
	},
	{
	"epoch": 0.01347643329188254,
	"grad_norm": 0.2159787267446518,
	"learning_rate": 0.0002,
	"loss": 0.2249,
	"step": 7410
	},
	{
	"epoch": 0.013494620111439736,
	"grad_norm": 0.11222853511571884,
	"learning_rate": 0.0002,
	"loss": 0.093,
	"step": 7420
	},
	{
	"epoch": 0.013512806930996933,
	"grad_norm": 0.08586139976978302,
	"learning_rate": 0.0002,
	"loss": 0.0821,
	"step": 7430
	},
	{
	"epoch": 0.013530993750554129,
	"grad_norm": 0.12232748419046402,
	"learning_rate": 0.0002,
	"loss": 0.0736,
	"step": 7440
	},
	{
	"epoch": 0.013549180570111325,
	"grad_norm": 0.006977527402341366,
	"learning_rate": 0.0002,
	"loss": 0.0115,
	"step": 7450
	},
	{
	"epoch": 0.013567367389668522,
	"grad_norm": 0.051690369844436646,
	"learning_rate": 0.0002,
	"loss": 0.2247,
	"step": 7460
	},
	{
	"epoch": 0.013585554209225718,
	"grad_norm": 0.06542158871889114,
	"learning_rate": 0.0002,
	"loss": 0.1056,
	"step": 7470
	},
	{
	"epoch": 0.013603741028782916,
	"grad_norm": 0.18546995520591736,
	"learning_rate": 0.0002,
	"loss": 0.1102,
	"step": 7480
	},
	{
	"epoch": 0.013621927848340112,
	"grad_norm": 13.399182319641113,
	"learning_rate": 0.0002,
	"loss": 2.0806,
	"step": 7490
	},
	{
	"epoch": 0.013640114667897309,
	"grad_norm": 0.0982588455080986,
	"learning_rate": 0.0002,
	"loss": 0.2158,
	"step": 7500
	},
	{
	"epoch": 0.013658301487454505,
	"grad_norm": 0.07860754430294037,
	"learning_rate": 0.0002,
	"loss": 0.125,
	"step": 7510
	},
	{
	"epoch": 0.013676488307011701,
	"grad_norm": 0.1165497750043869,
	"learning_rate": 0.0002,
	"loss": 0.0899,
	"step": 7520
	},
	{
	"epoch": 0.013694675126568898,
	"grad_norm": 0.2813965380191803,
	"learning_rate": 0.0002,
	"loss": 0.0758,
	"step": 7530
	},
	{
	"epoch": 0.013712861946126094,
	"grad_norm": 0.33458462357521057,
	"learning_rate": 0.0002,
	"loss": 0.0683,
	"step": 7540
	},
	{
	"epoch": 0.01373104876568329,
	"grad_norm": 0.012062279507517815,
	"learning_rate": 0.0002,
	"loss": 0.0135,
	"step": 7550
	},
	{
	"epoch": 0.013749235585240487,
	"grad_norm": 0.1787721961736679,
	"learning_rate": 0.0002,
	"loss": 0.1763,
	"step": 7560
	},
	{
	"epoch": 0.013767422404797683,
	"grad_norm": 0.05922751501202583,
	"learning_rate": 0.0002,
	"loss": 0.1223,
	"step": 7570
	},
	{
	"epoch": 0.01378560922435488,
	"grad_norm": 0.11594684422016144,
	"learning_rate": 0.0002,
	"loss": 0.0934,
	"step": 7580
	},
	{
	"epoch": 0.013803796043912075,
	"grad_norm": 0.2290794998407364,
	"learning_rate": 0.0002,
	"loss": 0.0799,
	"step": 7590
	},
	{
	"epoch": 0.013821982863469272,
	"grad_norm": 0.04903063178062439,
	"learning_rate": 0.0002,
	"loss": 0.0195,
	"step": 7600
	},
	{
	"epoch": 0.013840169683026468,
	"grad_norm": 123.61300659179688,
	"learning_rate": 0.0002,
	"loss": 0.8359,
	"step": 7610
	},
	{
	"epoch": 0.013858356502583664,
	"grad_norm": 0.25403347611427307,
	"learning_rate": 0.0002,
	"loss": 1.0464,
	"step": 7620
	},
	{
	"epoch": 0.01387654332214086,
	"grad_norm": 0.08144152164459229,
	"learning_rate": 0.0002,
	"loss": 0.0794,
	"step": 7630
	},
	{
	"epoch": 0.013894730141698057,
	"grad_norm": 0.11679713428020477,
	"learning_rate": 0.0002,
	"loss": 0.0706,
	"step": 7640
	},
	{
	"epoch": 0.013912916961255255,
	"grad_norm": 0.00391317019239068,
	"learning_rate": 0.0002,
	"loss": 0.0075,
	"step": 7650
	},
	{
	"epoch": 0.013931103780812451,
	"grad_norm": 0.13209663331508636,
	"learning_rate": 0.0002,
	"loss": 0.2228,
	"step": 7660
	},
	{
	"epoch": 0.013949290600369648,
	"grad_norm": 0.06067880615592003,
	"learning_rate": 0.0002,
	"loss": 0.089,
	"step": 7670
	},
	{
	"epoch": 0.013967477419926844,
	"grad_norm": 0.04806550592184067,
	"learning_rate": 0.0002,
	"loss": 0.0769,
	"step": 7680
	},
	{
	"epoch": 0.01398566423948404,
	"grad_norm": 0.09506970643997192,
	"learning_rate": 0.0002,
	"loss": 0.0689,
	"step": 7690
	},
	{
	"epoch": 0.014003851059041237,
	"grad_norm": 0.002536884741857648,
	"learning_rate": 0.0002,
	"loss": 0.0172,
	"step": 7700
	},
	{
	"epoch": 0.014022037878598433,
	"grad_norm": 0.13837113976478577,
	"learning_rate": 0.0002,
	"loss": 0.2243,
	"step": 7710
	},
	{
	"epoch": 0.01404022469815563,
	"grad_norm": 0.08101535588502884,
	"learning_rate": 0.0002,
	"loss": 0.0878,
	"step": 7720
	},
	{
	"epoch": 0.014058411517712826,
	"grad_norm": 0.04018868878483772,
	"learning_rate": 0.0002,
	"loss": 0.0776,
	"step": 7730
	},
	{
	"epoch": 0.014076598337270022,
	"grad_norm": 0.1377197653055191,
	"learning_rate": 0.0002,
	"loss": 0.0681,
	"step": 7740
	},
	{
	"epoch": 0.014094785156827218,
	"grad_norm": 0.0006735012284480035,
	"learning_rate": 0.0002,
	"loss": 0.0041,
	"step": 7750
	},
	{
	"epoch": 0.014112971976384414,
	"grad_norm": 0.17503094673156738,
	"learning_rate": 0.0002,
	"loss": 0.3114,
	"step": 7760
	},
	{
	"epoch": 0.01413115879594161,
	"grad_norm": 0.07190551608800888,
	"learning_rate": 0.0002,
	"loss": 0.1018,
	"step": 7770
	},
	{
	"epoch": 0.014149345615498807,
	"grad_norm": 0.036945659667253494,
	"learning_rate": 0.0002,
	"loss": 0.0785,
	"step": 7780
	},
	{
	"epoch": 0.014167532435056003,
	"grad_norm": 0.13999724388122559,
	"learning_rate": 0.0002,
	"loss": 0.0725,
	"step": 7790
	},
	{
	"epoch": 0.0141857192546132,
	"grad_norm": 0.0031171294394880533,
	"learning_rate": 0.0002,
	"loss": 0.0144,
	"step": 7800
	},
	{
	"epoch": 0.014203906074170396,
	"grad_norm": 0.059554051607847214,
	"learning_rate": 0.0002,
	"loss": 0.2442,
	"step": 7810
	},
	{
	"epoch": 0.014222092893727594,
	"grad_norm": 0.06873622536659241,
	"learning_rate": 0.0002,
	"loss": 0.0904,
	"step": 7820
	},
	{
	"epoch": 0.01424027971328479,
	"grad_norm": 0.11261582374572754,
	"learning_rate": 0.0002,
	"loss": 0.0758,
	"step": 7830
	},
	{
	"epoch": 0.014258466532841987,
	"grad_norm": 1.497631311416626,
	"learning_rate": 0.0002,
	"loss": 0.0689,
	"step": 7840
	},
	{
	"epoch": 0.014276653352399183,
	"grad_norm": 0.004822546616196632,
	"learning_rate": 0.0002,
	"loss": 0.0156,
	"step": 7850
	},
	{
	"epoch": 0.01429484017195638,
	"grad_norm": 0.0575052835047245,
	"learning_rate": 0.0002,
	"loss": 0.1895,
	"step": 7860
	},
	{
	"epoch": 0.014313026991513576,
	"grad_norm": 0.10657750070095062,
	"learning_rate": 0.0002,
	"loss": 0.0855,
	"step": 7870
	},
	{
	"epoch": 0.014331213811070772,
	"grad_norm": 0.07080844044685364,
	"learning_rate": 0.0002,
	"loss": 0.0716,
	"step": 7880
	},
	{
	"epoch": 0.014349400630627968,
	"grad_norm": 0.1628514677286148,
	"learning_rate": 0.0002,
	"loss": 0.071,
	"step": 7890
	},
	{
	"epoch": 0.014367587450185165,
	"grad_norm": 0.013860347680747509,
	"learning_rate": 0.0002,
	"loss": 0.0227,
	"step": 7900
	},
	{
	"epoch": 0.014385774269742361,
	"grad_norm": 0.5240967869758606,
	"learning_rate": 0.0002,
	"loss": 0.1854,
	"step": 7910
	},
	{
	"epoch": 0.014403961089299557,
	"grad_norm": 1.0027457475662231,
	"learning_rate": 0.0002,
	"loss": 0.0942,
	"step": 7920
	},
	{
	"epoch": 0.014422147908856753,
	"grad_norm": 0.05730056390166283,
	"learning_rate": 0.0002,
	"loss": 0.0778,
	"step": 7930
	},
	{
	"epoch": 0.01444033472841395,
	"grad_norm": 0.1485404521226883,
	"learning_rate": 0.0002,
	"loss": 0.0719,
	"step": 7940
	},
	{
	"epoch": 0.014458521547971146,
	"grad_norm": 0.009702637791633606,
	"learning_rate": 0.0002,
	"loss": 0.0136,
	"step": 7950
	},
	{
	"epoch": 0.014476708367528342,
	"grad_norm": 0.046543315052986145,
	"learning_rate": 0.0002,
	"loss": 0.1697,
	"step": 7960
	},
	{
	"epoch": 0.014494895187085539,
	"grad_norm": 0.05248842388391495,
	"learning_rate": 0.0002,
	"loss": 0.0888,
	"step": 7970
	},
	{
	"epoch": 0.014513082006642735,
	"grad_norm": 0.047813788056373596,
	"learning_rate": 0.0002,
	"loss": 0.0806,
	"step": 7980
	},
	{
	"epoch": 0.014531268826199933,
	"grad_norm": 0.19744129478931427,
	"learning_rate": 0.0002,
	"loss": 0.0788,
	"step": 7990
	},
	{
	"epoch": 0.01454945564575713,
	"grad_norm": 0.005265017040073872,
	"learning_rate": 0.0002,
	"loss": 0.014,
	"step": 8000
	},
	{
	"epoch": 0.014567642465314326,
	"grad_norm": 0.0564056858420372,
	"learning_rate": 0.0002,
	"loss": 0.2681,
	"step": 8010
	},
	{
	"epoch": 0.014585829284871522,
	"grad_norm": 0.0958496481180191,
	"learning_rate": 0.0002,
	"loss": 0.0823,
	"step": 8020
	},
	{
	"epoch": 0.014604016104428718,
	"grad_norm": 0.12000919133424759,
	"learning_rate": 0.0002,
	"loss": 0.073,
	"step": 8030
	},
	{
	"epoch": 0.014622202923985915,
	"grad_norm": 0.15912771224975586,
	"learning_rate": 0.0002,
	"loss": 0.075,
	"step": 8040
	},
	{
	"epoch": 0.014640389743543111,
	"grad_norm": 0.004025776404887438,
	"learning_rate": 0.0002,
	"loss": 0.012,
	"step": 8050
	},
	{
	"epoch": 0.014658576563100307,
	"grad_norm": 0.1682930886745453,
	"learning_rate": 0.0002,
	"loss": 0.2926,
	"step": 8060
	},
	{
	"epoch": 0.014676763382657504,
	"grad_norm": 0.057362254709005356,
	"learning_rate": 0.0002,
	"loss": 0.0869,
	"step": 8070
	},
	{
	"epoch": 0.0146949502022147,
	"grad_norm": 0.0814078077673912,
	"learning_rate": 0.0002,
	"loss": 0.0825,
	"step": 8080
	},
	{
	"epoch": 0.014713137021771896,
	"grad_norm": 0.18205074965953827,
	"learning_rate": 0.0002,
	"loss": 0.0699,
	"step": 8090
	},
	{
	"epoch": 0.014731323841329092,
	"grad_norm": 0.013200881890952587,
	"learning_rate": 0.0002,
	"loss": 0.0228,
	"step": 8100
	},
	{
	"epoch": 0.014749510660886289,
	"grad_norm": 0.21043474972248077,
	"learning_rate": 0.0002,
	"loss": 0.2138,
	"step": 8110
	},
	{
	"epoch": 0.014767697480443485,
	"grad_norm": 0.1000015065073967,
	"learning_rate": 0.0002,
	"loss": 0.0906,
	"step": 8120
	},
	{
	"epoch": 0.014785884300000681,
	"grad_norm": 0.045657768845558167,
	"learning_rate": 0.0002,
	"loss": 0.0826,
	"step": 8130
	},
	{
	"epoch": 0.014804071119557878,
	"grad_norm": 0.13545630872249603,
	"learning_rate": 0.0002,
	"loss": 0.066,
	"step": 8140
	},
	{
	"epoch": 0.014822257939115074,
	"grad_norm": 0.01422254927456379,
	"learning_rate": 0.0002,
	"loss": 0.0179,
	"step": 8150
	},
	{
	"epoch": 0.014840444758672272,
	"grad_norm": 0.12108676135540009,
	"learning_rate": 0.0002,
	"loss": 0.1717,
	"step": 8160
	},
	{
	"epoch": 0.014858631578229468,
	"grad_norm": 0.10441934317350388,
	"learning_rate": 0.0002,
	"loss": 0.106,
	"step": 8170
	},
	{
	"epoch": 0.014876818397786665,
	"grad_norm": 0.08105968683958054,
	"learning_rate": 0.0002,
	"loss": 0.0829,
	"step": 8180
	},
	{
	"epoch": 0.014895005217343861,
	"grad_norm": 0.12230301648378372,
	"learning_rate": 0.0002,
	"loss": 0.0731,
	"step": 8190
	},
	{
	"epoch": 0.014913192036901057,
	"grad_norm": 0.033857300877571106,
	"learning_rate": 0.0002,
	"loss": 0.029,
	"step": 8200
	},
	{
	"epoch": 0.014931378856458254,
	"grad_norm": 0.04827893525362015,
	"learning_rate": 0.0002,
	"loss": 0.1369,
	"step": 8210
	},
	{
	"epoch": 0.01494956567601545,
	"grad_norm": 0.056212421506643295,
	"learning_rate": 0.0002,
	"loss": 0.0879,
	"step": 8220
	},
	{
	"epoch": 0.014967752495572646,
	"grad_norm": 0.03163846209645271,
	"learning_rate": 0.0002,
	"loss": 0.0698,
	"step": 8230
	},
	{
	"epoch": 0.014985939315129843,
	"grad_norm": 0.09394920617341995,
	"learning_rate": 0.0002,
	"loss": 0.0688,
	"step": 8240
	},
	{
	"epoch": 0.015004126134687039,
	"grad_norm": 0.024936649948358536,
	"learning_rate": 0.0002,
	"loss": 0.0211,
	"step": 8250
	},
	{
	"epoch": 0.015022312954244235,
	"grad_norm": 4.499615669250488,
	"learning_rate": 0.0002,
	"loss": 2.7596,
	"step": 8260
	},
	{
	"epoch": 0.015040499773801431,
	"grad_norm": 9.221298217773438,
	"learning_rate": 0.0002,
	"loss": 0.9135,
	"step": 8270
	},
	{
	"epoch": 0.015058686593358628,
	"grad_norm": 0.5199778079986572,
	"learning_rate": 0.0002,
	"loss": 0.1441,
	"step": 8280
	},
	{
	"epoch": 0.015076873412915824,
	"grad_norm": 0.07028087228536606,
	"learning_rate": 0.0002,
	"loss": 0.0793,
	"step": 8290
	},
	{
	"epoch": 0.01509506023247302,
	"grad_norm": 0.0003307730657979846,
	"learning_rate": 0.0002,
	"loss": 0.0006,
	"step": 8300
	},
	{
	"epoch": 0.015113247052030217,
	"grad_norm": 0.7940683960914612,
	"learning_rate": 0.0002,
	"loss": 0.7233,
	"step": 8310
	},
	{
	"epoch": 0.015131433871587413,
	"grad_norm": 0.09774448722600937,
	"learning_rate": 0.0002,
	"loss": 0.1451,
	"step": 8320
	},
	{
	"epoch": 0.015149620691144611,
	"grad_norm": 0.3088306188583374,
	"learning_rate": 0.0002,
	"loss": 0.0986,
	"step": 8330
	},
	{
	"epoch": 0.015167807510701807,
	"grad_norm": 0.08629265427589417,
	"learning_rate": 0.0002,
	"loss": 0.0581,
	"step": 8340
	},
	{
	"epoch": 0.015185994330259004,
	"grad_norm": 0.0011582528240978718,
	"learning_rate": 0.0002,
	"loss": 0.0008,
	"step": 8350
	},
	{
	"epoch": 0.0152041811498162,
	"grad_norm": 0.48978063464164734,
	"learning_rate": 0.0002,
	"loss": 0.5111,
	"step": 8360
	},
	{
	"epoch": 0.015222367969373396,
	"grad_norm": 0.2633112668991089,
	"learning_rate": 0.0002,
	"loss": 0.1354,
	"step": 8370
	},
	{
	"epoch": 0.015240554788930593,
	"grad_norm": 0.058184925466775894,
	"learning_rate": 0.0002,
	"loss": 0.0963,
	"step": 8380
	},
	{
	"epoch": 0.015258741608487789,
	"grad_norm": 0.397290974855423,
	"learning_rate": 0.0002,
	"loss": 0.0915,
	"step": 8390
	},
	{
	"epoch": 0.015276928428044985,
	"grad_norm": 0.0013334077084437013,
	"learning_rate": 0.0002,
	"loss": 0.0117,
	"step": 8400
	},
	{
	"epoch": 0.015295115247602182,
	"grad_norm": 3.2027626037597656,
	"learning_rate": 0.0002,
	"loss": 0.3642,
	"step": 8410
	},
	{
	"epoch": 0.015313302067159378,
	"grad_norm": 0.4110456705093384,
	"learning_rate": 0.0002,
	"loss": 0.1347,
	"step": 8420
	},
	{
	"epoch": 0.015331488886716574,
	"grad_norm": 0.19789688289165497,
	"learning_rate": 0.0002,
	"loss": 0.0946,
	"step": 8430
	},
	{
	"epoch": 0.01534967570627377,
	"grad_norm": 0.15914630889892578,
	"learning_rate": 0.0002,
	"loss": 0.0619,
	"step": 8440
	},
	{
	"epoch": 0.015367862525830967,
	"grad_norm": 0.004021051339805126,
	"learning_rate": 0.0002,
	"loss": 0.0081,
	"step": 8450
	},
	{
	"epoch": 0.015386049345388163,
	"grad_norm": 0.25250542163848877,
	"learning_rate": 0.0002,
	"loss": 0.2409,
	"step": 8460
	},
	{
	"epoch": 0.01540423616494536,
	"grad_norm": 0.16660314798355103,
	"learning_rate": 0.0002,
	"loss": 0.1041,
	"step": 8470
	},
	{
	"epoch": 0.015422422984502556,
	"grad_norm": 0.09435573220252991,
	"learning_rate": 0.0002,
	"loss": 0.0838,
	"step": 8480
	},
	{
	"epoch": 0.015440609804059752,
	"grad_norm": 0.1622086614370346,
	"learning_rate": 0.0002,
	"loss": 0.0648,
	"step": 8490
	},
	{
	"epoch": 0.015458796623616948,
	"grad_norm": 0.002267120871692896,
	"learning_rate": 0.0002,
	"loss": 0.0057,
	"step": 8500
	},
	{
	"epoch": 0.015476983443174146,
	"grad_norm": 0.11559420824050903,
	"learning_rate": 0.0002,
	"loss": 0.2994,
	"step": 8510
	},
	{
	"epoch": 0.015495170262731343,
	"grad_norm": 0.18291179835796356,
	"learning_rate": 0.0002,
	"loss": 0.0908,
	"step": 8520
	},
	{
	"epoch": 0.015513357082288539,
	"grad_norm": 0.14989323914051056,
	"learning_rate": 0.0002,
	"loss": 0.0912,
	"step": 8530
	},
	{
	"epoch": 0.015531543901845735,
	"grad_norm": 0.09752708673477173,
	"learning_rate": 0.0002,
	"loss": 0.0586,
	"step": 8540
	},
	{
	"epoch": 0.015549730721402932,
	"grad_norm": 0.0005314307054504752,
	"learning_rate": 0.0002,
	"loss": 0.0026,
	"step": 8550
	},
	{
	"epoch": 0.015567917540960128,
	"grad_norm": 0.18309178948402405,
	"learning_rate": 0.0002,
	"loss": 0.3059,
	"step": 8560
	},
	{
	"epoch": 0.015586104360517324,
	"grad_norm": 0.8144251108169556,
	"learning_rate": 0.0002,
	"loss": 0.1103,
	"step": 8570
	},
	{
	"epoch": 0.01560429118007452,
	"grad_norm": 0.0331404022872448,
	"learning_rate": 0.0002,
	"loss": 0.0898,
	"step": 8580
	},
	{
	"epoch": 0.015622477999631717,
	"grad_norm": 0.1460132598876953,
	"learning_rate": 0.0002,
	"loss": 0.0656,
	"step": 8590
	},
	{
	"epoch": 0.015640664819188913,
	"grad_norm": 0.013606027700006962,
	"learning_rate": 0.0002,
	"loss": 0.0076,
	"step": 8600
	},
	{
	"epoch": 0.01565885163874611,
	"grad_norm": 0.22224061191082,
	"learning_rate": 0.0002,
	"loss": 0.2609,
	"step": 8610
	},
	{
	"epoch": 0.015677038458303306,
	"grad_norm": 0.22729800641536713,
	"learning_rate": 0.0002,
	"loss": 0.1028,
	"step": 8620
	},
	{
	"epoch": 0.015695225277860502,
	"grad_norm": 0.0848810002207756,
	"learning_rate": 0.0002,
	"loss": 0.0871,
	"step": 8630
	},
	{
	"epoch": 0.0157134120974177,
	"grad_norm": 0.17896370589733124,
	"learning_rate": 0.0002,
	"loss": 0.0636,
	"step": 8640
	},
	{
	"epoch": 0.015731598916974895,
	"grad_norm": 0.006263076793402433,
	"learning_rate": 0.0002,
	"loss": 0.0068,
	"step": 8650
	},
	{
	"epoch": 0.01574978573653209,
	"grad_norm": 0.29927679896354675,
	"learning_rate": 0.0002,
	"loss": 0.2761,
	"step": 8660
	},
	{
	"epoch": 0.015767972556089287,
	"grad_norm": 0.05662700906395912,
	"learning_rate": 0.0002,
	"loss": 0.1029,
	"step": 8670
	},
	{
	"epoch": 0.015786159375646484,
	"grad_norm": 0.09140895307064056,
	"learning_rate": 0.0002,
	"loss": 0.0854,
	"step": 8680
	},
	{
	"epoch": 0.01580434619520368,
	"grad_norm": 0.21034927666187286,
	"learning_rate": 0.0002,
	"loss": 0.0691,
	"step": 8690
	},
	{
	"epoch": 0.015822533014760876,
	"grad_norm": 0.0010229075560346246,
	"learning_rate": 0.0002,
	"loss": 0.0033,
	"step": 8700
	},
	{
	"epoch": 0.015840719834318073,
	"grad_norm": 0.0626237690448761,
	"learning_rate": 0.0002,
	"loss": 0.3583,
	"step": 8710
	},
	{
	"epoch": 0.01585890665387527,
	"grad_norm": 0.10027278959751129,
	"learning_rate": 0.0002,
	"loss": 0.0959,
	"step": 8720
	},
	{
	"epoch": 0.015877093473432465,
	"grad_norm": 0.0870286151766777,
	"learning_rate": 0.0002,
	"loss": 0.0767,
	"step": 8730
	},
	{
	"epoch": 0.01589528029298966,
	"grad_norm": 0.16106969118118286,
	"learning_rate": 0.0002,
	"loss": 0.0763,
	"step": 8740
	},
	{
	"epoch": 0.015913467112546858,
	"grad_norm": 0.0022529088892042637,
	"learning_rate": 0.0002,
	"loss": 0.0108,
	"step": 8750
	},
	{
	"epoch": 0.015931653932104058,
	"grad_norm": 0.06070050224661827,
	"learning_rate": 0.0002,
	"loss": 0.2606,
	"step": 8760
	},
	{
	"epoch": 0.015949840751661254,
	"grad_norm": 0.09406338632106781,
	"learning_rate": 0.0002,
	"loss": 0.1062,
	"step": 8770
	},
	{
	"epoch": 0.01596802757121845,
	"grad_norm": 0.1367248147726059,
	"learning_rate": 0.0002,
	"loss": 0.0757,
	"step": 8780
	},
	{
	"epoch": 0.015986214390775647,
	"grad_norm": 0.26938319206237793,
	"learning_rate": 0.0002,
	"loss": 0.0733,
	"step": 8790
	},
	{
	"epoch": 0.016004401210332843,
	"grad_norm": 0.011559409089386463,
	"learning_rate": 0.0002,
	"loss": 0.0176,
	"step": 8800
	},
	{
	"epoch": 0.01602258802989004,
	"grad_norm": 0.12351766228675842,
	"learning_rate": 0.0002,
	"loss": 0.24,
	"step": 8810
	},
	{
	"epoch": 0.016040774849447235,
	"grad_norm": 0.08965809643268585,
	"learning_rate": 0.0002,
	"loss": 0.0947,
	"step": 8820
	},
	{
	"epoch": 0.016058961669004432,
	"grad_norm": 0.027005961164832115,
	"learning_rate": 0.0002,
	"loss": 0.0738,
	"step": 8830
	},
	{
	"epoch": 0.016077148488561628,
	"grad_norm": 0.18656685948371887,
	"learning_rate": 0.0002,
	"loss": 0.0667,
	"step": 8840
	},
	{
	"epoch": 0.016095335308118824,
	"grad_norm": 0.003148626768961549,
	"learning_rate": 0.0002,
	"loss": 0.0119,
	"step": 8850
	},
	{
	"epoch": 0.01611352212767602,
	"grad_norm": 0.07959452271461487,
	"learning_rate": 0.0002,
	"loss": 0.275,
	"step": 8860
	},
	{
	"epoch": 0.016131708947233217,
	"grad_norm": 0.19433775544166565,
	"learning_rate": 0.0002,
	"loss": 0.0872,
	"step": 8870
	},
	{
	"epoch": 0.016149895766790413,
	"grad_norm": 0.1376393735408783,
	"learning_rate": 0.0002,
	"loss": 0.0779,
	"step": 8880
	},
	{
	"epoch": 0.01616808258634761,
	"grad_norm": 0.18282419443130493,
	"learning_rate": 0.0002,
	"loss": 0.068,
	"step": 8890
	},
	{
	"epoch": 0.016186269405904806,
	"grad_norm": 0.0112565653398633,
	"learning_rate": 0.0002,
	"loss": 0.0137,
	"step": 8900
	},
	{
	"epoch": 0.016204456225462002,
	"grad_norm": 0.08975637704133987,
	"learning_rate": 0.0002,
	"loss": 0.23,
	"step": 8910
	},
	{
	"epoch": 0.0162226430450192,
	"grad_norm": 0.19316238164901733,
	"learning_rate": 0.0002,
	"loss": 0.0975,
	"step": 8920
	},
	{
	"epoch": 0.016240829864576395,
	"grad_norm": 0.1870724856853485,
	"learning_rate": 0.0002,
	"loss": 0.0862,
	"step": 8930
	},
	{
	"epoch": 0.01625901668413359,
	"grad_norm": 0.19031721353530884,
	"learning_rate": 0.0002,
	"loss": 0.0735,
	"step": 8940
	},
	{
	"epoch": 0.016277203503690788,
	"grad_norm": 0.015979783609509468,
	"learning_rate": 0.0002,
	"loss": 0.0249,
	"step": 8950
	},
	{
	"epoch": 0.016295390323247984,
	"grad_norm": 0.09105712175369263,
	"learning_rate": 0.0002,
	"loss": 0.1573,
	"step": 8960
	},
	{
	"epoch": 0.01631357714280518,
	"grad_norm": 0.13035650551319122,
	"learning_rate": 0.0002,
	"loss": 0.0958,
	"step": 8970
	},
	{
	"epoch": 0.016331763962362376,
	"grad_norm": 0.18613573908805847,
	"learning_rate": 0.0002,
	"loss": 0.088,
	"step": 8980
	},
	{
	"epoch": 0.016349950781919573,
	"grad_norm": 0.2518664300441742,
	"learning_rate": 0.0002,
	"loss": 0.0725,
	"step": 8990
	},
	{
	"epoch": 0.01636813760147677,
	"grad_norm": 0.03324449062347412,
	"learning_rate": 0.0002,
	"loss": 0.0256,
	"step": 9000
	},
	{
	"epoch": 0.016386324421033965,
	"grad_norm": 0.08766523003578186,
	"learning_rate": 0.0002,
	"loss": 0.1531,
	"step": 9010
	},
	{
	"epoch": 0.01640451124059116,
	"grad_norm": 0.14177583158016205,
	"learning_rate": 0.0002,
	"loss": 0.0861,
	"step": 9020
	},
	{
	"epoch": 0.016422698060148358,
	"grad_norm": 0.1354762315750122,
	"learning_rate": 0.0002,
	"loss": 0.0782,
	"step": 9030
	},
	{
	"epoch": 0.016440884879705554,
	"grad_norm": 0.15894347429275513,
	"learning_rate": 0.0002,
	"loss": 0.073,
	"step": 9040
	},
	{
	"epoch": 0.01645907169926275,
	"grad_norm": 0.02154761180281639,
	"learning_rate": 0.0002,
	"loss": 0.0156,
	"step": 9050
	},
	{
	"epoch": 0.016477258518819947,
	"grad_norm": 0.06432317197322845,
	"learning_rate": 0.0002,
	"loss": 0.1384,
	"step": 9060
	},
	{
	"epoch": 0.016495445338377143,
	"grad_norm": 0.12112505733966827,
	"learning_rate": 0.0002,
	"loss": 0.093,
	"step": 9070
	},
	{
	"epoch": 0.01651363215793434,
	"grad_norm": 0.10628003627061844,
	"learning_rate": 0.0002,
	"loss": 0.0738,
	"step": 9080
	},
	{
	"epoch": 0.016531818977491536,
	"grad_norm": 0.1930958330631256,
	"learning_rate": 0.0002,
	"loss": 0.0678,
	"step": 9090
	},
	{
	"epoch": 0.016550005797048732,
	"grad_norm": 0.03878525644540787,
	"learning_rate": 0.0002,
	"loss": 0.0235,
	"step": 9100
	},
	{
	"epoch": 0.016568192616605932,
	"grad_norm": 0.0920896977186203,
	"learning_rate": 0.0002,
	"loss": 0.1661,
	"step": 9110
	},
	{
	"epoch": 0.016586379436163128,
	"grad_norm": 0.11687818914651871,
	"learning_rate": 0.0002,
	"loss": 0.0847,
	"step": 9120
	},
	{
	"epoch": 0.016604566255720325,
	"grad_norm": 0.10511167347431183,
	"learning_rate": 0.0002,
	"loss": 0.0832,
	"step": 9130
	},
	{
	"epoch": 0.01662275307527752,
	"grad_norm": 0.26365017890930176,
	"learning_rate": 0.0002,
	"loss": 0.0717,
	"step": 9140
	},
	{
	"epoch": 0.016640939894834717,
	"grad_norm": 0.02445841394364834,
	"learning_rate": 0.0002,
	"loss": 0.0233,
	"step": 9150
	},
	{
	"epoch": 0.016659126714391913,
	"grad_norm": 0.08213133364915848,
	"learning_rate": 0.0002,
	"loss": 0.1439,
	"step": 9160
	},
	{
	"epoch": 0.01667731353394911,
	"grad_norm": 0.17025598883628845,
	"learning_rate": 0.0002,
	"loss": 0.0852,
	"step": 9170
	},
	{
	"epoch": 0.016695500353506306,
	"grad_norm": 0.098059743642807,
	"learning_rate": 0.0002,
	"loss": 0.0761,
	"step": 9180
	},
	{
	"epoch": 0.016713687173063502,
	"grad_norm": 0.18436011672019958,
	"learning_rate": 0.0002,
	"loss": 0.0674,
	"step": 9190
	},
	{
	"epoch": 0.0167318739926207,
	"grad_norm": 0.011012010276317596,
	"learning_rate": 0.0002,
	"loss": 0.0221,
	"step": 9200
	},
	{
	"epoch": 0.016750060812177895,
	"grad_norm": 0.07544030994176865,
	"learning_rate": 0.0002,
	"loss": 0.161,
	"step": 9210
	},
	{
	"epoch": 0.01676824763173509,
	"grad_norm": 0.16041946411132812,
	"learning_rate": 0.0002,
	"loss": 0.0824,
	"step": 9220
	},
	{
	"epoch": 0.016786434451292288,
	"grad_norm": 0.17295844852924347,
	"learning_rate": 0.0002,
	"loss": 0.0797,
	"step": 9230
	},
	{
	"epoch": 0.016804621270849484,
	"grad_norm": 0.1818791776895523,
	"learning_rate": 0.0002,
	"loss": 0.0683,
	"step": 9240
	},
	{
	"epoch": 0.01682280809040668,
	"grad_norm": 0.019515013322234154,
	"learning_rate": 0.0002,
	"loss": 0.0188,
	"step": 9250
	},
	{
	"epoch": 0.016840994909963877,
	"grad_norm": 0.15059705078601837,
	"learning_rate": 0.0002,
	"loss": 0.1743,
	"step": 9260
	},
	{
	"epoch": 0.016859181729521073,
	"grad_norm": 0.1481601595878601,
	"learning_rate": 0.0002,
	"loss": 0.0906,
	"step": 9270
	},
	{
	"epoch": 0.01687736854907827,
	"grad_norm": 0.07433108985424042,
	"learning_rate": 0.0002,
	"loss": 0.08,
	"step": 9280
	},
	{
	"epoch": 0.016895555368635466,
	"grad_norm": 0.1752692312002182,
	"learning_rate": 0.0002,
	"loss": 0.06,
	"step": 9290
	},
	{
	"epoch": 0.016913742188192662,
	"grad_norm": 0.027612384408712387,
	"learning_rate": 0.0002,
	"loss": 0.0157,
	"step": 9300
	},
	{
	"epoch": 0.016931929007749858,
	"grad_norm": 0.08575212955474854,
	"learning_rate": 0.0002,
	"loss": 0.1679,
	"step": 9310
	},
	{
	"epoch": 0.016950115827307054,
	"grad_norm": 0.11127147823572159,
	"learning_rate": 0.0002,
	"loss": 0.0848,
	"step": 9320
	},
	{
	"epoch": 0.01696830264686425,
	"grad_norm": 0.08989393711090088,
	"learning_rate": 0.0002,
	"loss": 0.0823,
	"step": 9330
	},
	{
	"epoch": 0.016986489466421447,
	"grad_norm": 0.18898548185825348,
	"learning_rate": 0.0002,
	"loss": 0.0687,
	"step": 9340
	},
	{
	"epoch": 0.017004676285978643,
	"grad_norm": 0.023646721616387367,
	"learning_rate": 0.0002,
	"loss": 0.0244,
	"step": 9350
	},
	{
	"epoch": 0.01702286310553584,
	"grad_norm": 0.11511775106191635,
	"learning_rate": 0.0002,
	"loss": 0.1642,
	"step": 9360
	},
	{
	"epoch": 0.017041049925093036,
	"grad_norm": 0.1458021104335785,
	"learning_rate": 0.0002,
	"loss": 0.084,
	"step": 9370
	},
	{
	"epoch": 0.017059236744650232,
	"grad_norm": 0.060528095811605453,
	"learning_rate": 0.0002,
	"loss": 0.0809,
	"step": 9380
	},
	{
	"epoch": 0.01707742356420743,
	"grad_norm": 0.16314280033111572,
	"learning_rate": 0.0002,
	"loss": 0.0661,
	"step": 9390
	},
	{
	"epoch": 0.017095610383764625,
	"grad_norm": 0.03078557923436165,
	"learning_rate": 0.0002,
	"loss": 0.015,
	"step": 9400
	},
	{
	"epoch": 0.01711379720332182,
	"grad_norm": 0.11488370597362518,
	"learning_rate": 0.0002,
	"loss": 0.1712,
	"step": 9410
	},
	{
	"epoch": 0.017131984022879018,
	"grad_norm": 0.0972781702876091,
	"learning_rate": 0.0002,
	"loss": 0.0856,
	"step": 9420
	},
	{
	"epoch": 0.017150170842436214,
	"grad_norm": 0.08523645251989365,
	"learning_rate": 0.0002,
	"loss": 0.0744,
	"step": 9430
	},
	{
	"epoch": 0.01716835766199341,
	"grad_norm": 0.18629521131515503,
	"learning_rate": 0.0002,
	"loss": 0.0659,
	"step": 9440
	},
	{
	"epoch": 0.01718654448155061,
	"grad_norm": 0.00908618327230215,
	"learning_rate": 0.0002,
	"loss": 0.0219,
	"step": 9450
	},
	{
	"epoch": 0.017204731301107806,
	"grad_norm": 0.05552325397729874,
	"learning_rate": 0.0002,
	"loss": 0.1377,
	"step": 9460
	},
	{
	"epoch": 0.017222918120665003,
	"grad_norm": 0.16133128106594086,
	"learning_rate": 0.0002,
	"loss": 0.0885,
	"step": 9470
	},
	{
	"epoch": 0.0172411049402222,
	"grad_norm": 0.0965205654501915,
	"learning_rate": 0.0002,
	"loss": 0.0713,
	"step": 9480
	},
	{
	"epoch": 0.017259291759779395,
	"grad_norm": 0.21675604581832886,
	"learning_rate": 0.0002,
	"loss": 0.0658,
	"step": 9490
	},
	{
	"epoch": 0.01727747857933659,
	"grad_norm": 0.043898243457078934,
	"learning_rate": 0.0002,
	"loss": 0.0213,
	"step": 9500
	},
	{
	"epoch": 0.017295665398893788,
	"grad_norm": 0.0968618243932724,
	"learning_rate": 0.0002,
	"loss": 0.1391,
	"step": 9510
	},
	{
	"epoch": 0.017313852218450984,
	"grad_norm": 0.15061378479003906,
	"learning_rate": 0.0002,
	"loss": 0.0879,
	"step": 9520
	},
	{
	"epoch": 0.01733203903800818,
	"grad_norm": 0.08481590449810028,
	"learning_rate": 0.0002,
	"loss": 0.0771,
	"step": 9530
	},
	{
	"epoch": 0.017350225857565377,
	"grad_norm": 0.20935995876789093,
	"learning_rate": 0.0002,
	"loss": 0.0705,
	"step": 9540
	},
	{
	"epoch": 0.017368412677122573,
	"grad_norm": 0.04010302573442459,
	"learning_rate": 0.0002,
	"loss": 0.0257,
	"step": 9550
	},
	{
	"epoch": 0.01738659949667977,
	"grad_norm": 0.10532956570386887,
	"learning_rate": 0.0002,
	"loss": 0.1528,
	"step": 9560
	},
	{
	"epoch": 0.017404786316236966,
	"grad_norm": 0.1484638750553131,
	"learning_rate": 0.0002,
	"loss": 0.0847,
	"step": 9570
	},
	{
	"epoch": 0.017422973135794162,
	"grad_norm": 0.05873465910553932,
	"learning_rate": 0.0002,
	"loss": 0.0765,
	"step": 9580
	},
	{
	"epoch": 0.01744115995535136,
	"grad_norm": 0.1689092516899109,
	"learning_rate": 0.0002,
	"loss": 0.0673,
	"step": 9590
	},
	{
	"epoch": 0.017459346774908555,
	"grad_norm": 0.014237391762435436,
	"learning_rate": 0.0002,
	"loss": 0.0165,
	"step": 9600
	},
	{
	"epoch": 0.01747753359446575,
	"grad_norm": 0.06250491738319397,
	"learning_rate": 0.0002,
	"loss": 0.1635,
	"step": 9610
	},
	{
	"epoch": 0.017495720414022947,
	"grad_norm": 0.08895017951726913,
	"learning_rate": 0.0002,
	"loss": 0.0765,
	"step": 9620
	},
	{
	"epoch": 0.017513907233580144,
	"grad_norm": 0.08614445477724075,
	"learning_rate": 0.0002,
	"loss": 0.0852,
	"step": 9630
	},
	{
	"epoch": 0.01753209405313734,
	"grad_norm": 0.25440698862075806,
	"learning_rate": 0.0002,
	"loss": 0.0735,
	"step": 9640
	},
	{
	"epoch": 0.017550280872694536,
	"grad_norm": 0.015447271056473255,
	"learning_rate": 0.0002,
	"loss": 0.0199,
	"step": 9650
	},
	{
	"epoch": 0.017568467692251732,
	"grad_norm": 0.08685171604156494,
	"learning_rate": 0.0002,
	"loss": 0.1721,
	"step": 9660
	},
	{
	"epoch": 0.01758665451180893,
	"grad_norm": 0.1007658839225769,
	"learning_rate": 0.0002,
	"loss": 0.0858,
	"step": 9670
	},
	{
	"epoch": 0.017604841331366125,
	"grad_norm": 0.1291055977344513,
	"learning_rate": 0.0002,
	"loss": 0.0817,
	"step": 9680
	},
	{
	"epoch": 0.01762302815092332,
	"grad_norm": 0.21103522181510925,
	"learning_rate": 0.0002,
	"loss": 0.0707,
	"step": 9690
	},
	{
	"epoch": 0.017641214970480518,
	"grad_norm": 0.027955593541264534,
	"learning_rate": 0.0002,
	"loss": 0.0199,
	"step": 9700
	},
	{
	"epoch": 0.017659401790037714,
	"grad_norm": 0.06710019707679749,
	"learning_rate": 0.0002,
	"loss": 0.1623,
	"step": 9710
	},
	{
	"epoch": 0.01767758860959491,
	"grad_norm": 0.09083720296621323,
	"learning_rate": 0.0002,
	"loss": 0.0845,
	"step": 9720
	},
	{
	"epoch": 0.017695775429152107,
	"grad_norm": 0.07230041921138763,
	"learning_rate": 0.0002,
	"loss": 0.0767,
	"step": 9730
	},
	{
	"epoch": 0.017713962248709303,
	"grad_norm": 0.19016912579536438,
	"learning_rate": 0.0002,
	"loss": 0.0648,
	"step": 9740
	},
	{
	"epoch": 0.0177321490682665,
	"grad_norm": 0.03999534249305725,
	"learning_rate": 0.0002,
	"loss": 0.0216,
	"step": 9750
	},
	{
	"epoch": 0.017750335887823696,
	"grad_norm": 0.08057496696710587,
	"learning_rate": 0.0002,
	"loss": 0.1251,
	"step": 9760
	},
	{
	"epoch": 0.017768522707380892,
	"grad_norm": 0.16494789719581604,
	"learning_rate": 0.0002,
	"loss": 0.0896,
	"step": 9770
	},
	{
	"epoch": 0.017786709526938088,
	"grad_norm": 0.07119818776845932,
	"learning_rate": 0.0002,
	"loss": 0.0749,
	"step": 9780
	},
	{
	"epoch": 0.017804896346495288,
	"grad_norm": 0.1790028065443039,
	"learning_rate": 0.0002,
	"loss": 0.0718,
	"step": 9790
	},
	{
	"epoch": 0.017823083166052484,
	"grad_norm": 0.055643875151872635,
	"learning_rate": 0.0002,
	"loss": 0.0294,
	"step": 9800
	},
	{
	"epoch": 0.01784126998560968,
	"grad_norm": 0.15530900657176971,
	"learning_rate": 0.0002,
	"loss": 0.1343,
	"step": 9810
	},
	{
	"epoch": 0.017859456805166877,
	"grad_norm": 0.08989892899990082,
	"learning_rate": 0.0002,
	"loss": 0.0778,
	"step": 9820
	},
	{
	"epoch": 0.017877643624724073,
	"grad_norm": 0.038054581731557846,
	"learning_rate": 0.0002,
	"loss": 0.0842,
	"step": 9830
	},
	{
	"epoch": 0.01789583044428127,
	"grad_norm": 0.12264154851436615,
	"learning_rate": 0.0002,
	"loss": 0.065,
	"step": 9840
	},
	{
	"epoch": 0.017914017263838466,
	"grad_norm": 0.03432893753051758,
	"learning_rate": 0.0002,
	"loss": 0.02,
	"step": 9850
	},
	{
	"epoch": 0.017932204083395662,
	"grad_norm": 0.0516468770802021,
	"learning_rate": 0.0002,
	"loss": 0.1339,
	"step": 9860
	},
	{
	"epoch": 0.01795039090295286,
	"grad_norm": 0.11306226998567581,
	"learning_rate": 0.0002,
	"loss": 0.0842,
	"step": 9870
	},
	{
	"epoch": 0.017968577722510055,
	"grad_norm": 0.051579318940639496,
	"learning_rate": 0.0002,
	"loss": 0.0795,
	"step": 9880
	},
	{
	"epoch": 0.01798676454206725,
	"grad_norm": 0.19050930440425873,
	"learning_rate": 0.0002,
	"loss": 0.0673,
	"step": 9890
	},
	{
	"epoch": 0.018004951361624447,
	"grad_norm": 0.015286738984286785,
	"learning_rate": 0.0002,
	"loss": 0.0169,
	"step": 9900
	},
	{
	"epoch": 0.018023138181181644,
	"grad_norm": 0.16055025160312653,
	"learning_rate": 0.0002,
	"loss": 0.1655,
	"step": 9910
	},
	{
	"epoch": 0.01804132500073884,
	"grad_norm": 0.05445674806833267,
	"learning_rate": 0.0002,
	"loss": 0.0786,
	"step": 9920
	},
	{
	"epoch": 0.018059511820296036,
	"grad_norm": 0.07221481204032898,
	"learning_rate": 0.0002,
	"loss": 0.0726,
	"step": 9930
	},
	{
	"epoch": 0.018077698639853233,
	"grad_norm": 0.15800146758556366,
	"learning_rate": 0.0002,
	"loss": 0.0607,
	"step": 9940
	},
	{
	"epoch": 0.01809588545941043,
	"grad_norm": 0.007713336031883955,
	"learning_rate": 0.0002,
	"loss": 0.0148,
	"step": 9950
	},
	{
	"epoch": 0.018114072278967625,
	"grad_norm": 0.04677269607782364,
	"learning_rate": 0.0002,
	"loss": 0.1718,
	"step": 9960
	},
	{
	"epoch": 0.01813225909852482,
	"grad_norm": 0.1699189841747284,
	"learning_rate": 0.0002,
	"loss": 0.0865,
	"step": 9970
	},
	{
	"epoch": 0.018150445918082018,
	"grad_norm": 0.04046279937028885,
	"learning_rate": 0.0002,
	"loss": 0.0781,
	"step": 9980
	},
	{
	"epoch": 0.018168632737639214,
	"grad_norm": 0.164504736661911,
	"learning_rate": 0.0002,
	"loss": 0.0645,
	"step": 9990
	},
	{
	"epoch": 0.01818681955719641,
	"grad_norm": 0.014479747042059898,
	"learning_rate": 0.0002,
	"loss": 0.0186,
	"step": 10000
	},
	{
	"epoch": 0.018205006376753607,
	"grad_norm": 0.051388438791036606,
	"learning_rate": 0.0002,
	"loss": 0.1414,
	"step": 10010
	},
	{
	"epoch": 0.018223193196310803,
	"grad_norm": 0.11734543740749359,
	"learning_rate": 0.0002,
	"loss": 0.0894,
	"step": 10020
	},
	{
	"epoch": 0.018241380015868,
	"grad_norm": 0.022312749177217484,
	"learning_rate": 0.0002,
	"loss": 0.0775,
	"step": 10030
	},
	{
	"epoch": 0.018259566835425196,
	"grad_norm": 0.1579144448041916,
	"learning_rate": 0.0002,
	"loss": 0.0668,
	"step": 10040
	},
	{
	"epoch": 0.018277753654982392,
	"grad_norm": 0.02757895737886429,
	"learning_rate": 0.0002,
	"loss": 0.0197,
	"step": 10050
	},
	{
	"epoch": 0.01829594047453959,
	"grad_norm": 0.07557844370603561,
	"learning_rate": 0.0002,
	"loss": 0.1526,
	"step": 10060
	},
	{
	"epoch": 0.018314127294096785,
	"grad_norm": 0.1216227188706398,
	"learning_rate": 0.0002,
	"loss": 0.0871,
	"step": 10070
	},
	{
	"epoch": 0.01833231411365398,
	"grad_norm": 0.04201141744852066,
	"learning_rate": 0.0002,
	"loss": 0.0723,
	"step": 10080
	},
	{
	"epoch": 0.018350500933211177,
	"grad_norm": 0.151902437210083,
	"learning_rate": 0.0002,
	"loss": 0.063,
	"step": 10090
	},
	{
	"epoch": 0.018368687752768374,
	"grad_norm": 0.028730260208249092,
	"learning_rate": 0.0002,
	"loss": 0.0154,
	"step": 10100
	},
	{
	"epoch": 0.01838687457232557,
	"grad_norm": 0.0815989300608635,
	"learning_rate": 0.0002,
	"loss": 0.1439,
	"step": 10110
	},
	{
	"epoch": 0.018405061391882766,
	"grad_norm": 0.16359028220176697,
	"learning_rate": 0.0002,
	"loss": 0.0901,
	"step": 10120
	},
	{
	"epoch": 0.018423248211439962,
	"grad_norm": 0.055030226707458496,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 10130
	},
	{
	"epoch": 0.018441435030997162,
	"grad_norm": 0.17064853012561798,
	"learning_rate": 0.0002,
	"loss": 0.0713,
	"step": 10140
	},
	{
	"epoch": 0.01845962185055436,
	"grad_norm": 0.024902408942580223,
	"learning_rate": 0.0002,
	"loss": 0.0201,
	"step": 10150
	},
	{
	"epoch": 0.018477808670111555,
	"grad_norm": 0.037377748638391495,
	"learning_rate": 0.0002,
	"loss": 0.1394,
	"step": 10160
	},
	{
	"epoch": 0.01849599548966875,
	"grad_norm": 0.14072410762310028,
	"learning_rate": 0.0002,
	"loss": 0.088,
	"step": 10170
	},
	{
	"epoch": 0.018514182309225947,
	"grad_norm": 0.07339414954185486,
	"learning_rate": 0.0002,
	"loss": 0.0739,
	"step": 10180
	},
	{
	"epoch": 0.018532369128783144,
	"grad_norm": 0.166766956448555,
	"learning_rate": 0.0002,
	"loss": 0.0648,
	"step": 10190
	},
	{
	"epoch": 0.01855055594834034,
	"grad_norm": 0.009605699218809605,
	"learning_rate": 0.0002,
	"loss": 0.0148,
	"step": 10200
	},
	{
	"epoch": 0.018568742767897536,
	"grad_norm": 0.045747216790914536,
	"learning_rate": 0.0002,
	"loss": 0.1426,
	"step": 10210
	},
	{
	"epoch": 0.018586929587454733,
	"grad_norm": 0.09927495568990707,
	"learning_rate": 0.0002,
	"loss": 0.0757,
	"step": 10220
	},
	{
	"epoch": 0.01860511640701193,
	"grad_norm": 0.032050736248493195,
	"learning_rate": 0.0002,
	"loss": 0.0732,
	"step": 10230
	},
	{
	"epoch": 0.018623303226569125,
	"grad_norm": 0.14915086328983307,
	"learning_rate": 0.0002,
	"loss": 0.0619,
	"step": 10240
	},
	{
	"epoch": 0.01864149004612632,
	"grad_norm": 0.019674960523843765,
	"learning_rate": 0.0002,
	"loss": 0.0176,
	"step": 10250
	},
	{
	"epoch": 0.018659676865683518,
	"grad_norm": 0.0990150198340416,
	"learning_rate": 0.0002,
	"loss": 0.156,
	"step": 10260
	},
	{
	"epoch": 0.018677863685240714,
	"grad_norm": 0.1409665048122406,
	"learning_rate": 0.0002,
	"loss": 0.0843,
	"step": 10270
	},
	{
	"epoch": 0.01869605050479791,
	"grad_norm": 0.0232121329754591,
	"learning_rate": 0.0002,
	"loss": 0.0712,
	"step": 10280
	},
	{
	"epoch": 0.018714237324355107,
	"grad_norm": 0.14811532199382782,
	"learning_rate": 0.0002,
	"loss": 0.0649,
	"step": 10290
	},
	{
	"epoch": 0.018732424143912303,
	"grad_norm": 0.025812385603785515,
	"learning_rate": 0.0002,
	"loss": 0.0191,
	"step": 10300
	},
	{
	"epoch": 0.0187506109634695,
	"grad_norm": 0.03710811957716942,
	"learning_rate": 0.0002,
	"loss": 0.1323,
	"step": 10310
	},
	{
	"epoch": 0.018768797783026696,
	"grad_norm": 0.16586032509803772,
	"learning_rate": 0.0002,
	"loss": 0.0868,
	"step": 10320
	},
	{
	"epoch": 0.018786984602583892,
	"grad_norm": 0.09154761582612991,
	"learning_rate": 0.0002,
	"loss": 0.0762,
	"step": 10330
	},
	{
	"epoch": 0.01880517142214109,
	"grad_norm": 0.20400644838809967,
	"learning_rate": 0.0002,
	"loss": 0.072,
	"step": 10340
	},
	{
	"epoch": 0.018823358241698285,
	"grad_norm": 0.04426256939768791,
	"learning_rate": 0.0002,
	"loss": 0.0281,
	"step": 10350
	},
	{
	"epoch": 0.01884154506125548,
	"grad_norm": 0.10118848830461502,
	"learning_rate": 0.0002,
	"loss": 0.116,
	"step": 10360
	},
	{
	"epoch": 0.018859731880812677,
	"grad_norm": 0.11934473365545273,
	"learning_rate": 0.0002,
	"loss": 0.0779,
	"step": 10370
	},
	{
	"epoch": 0.018877918700369874,
	"grad_norm": 0.04116957262158394,
	"learning_rate": 0.0002,
	"loss": 0.0811,
	"step": 10380
	},
	{
	"epoch": 0.01889610551992707,
	"grad_norm": 0.16668827831745148,
	"learning_rate": 0.0002,
	"loss": 0.064,
	"step": 10390
	},
	{
	"epoch": 0.018914292339484266,
	"grad_norm": 0.04703928530216217,
	"learning_rate": 0.0002,
	"loss": 0.0189,
	"step": 10400
	},
	{
	"epoch": 0.018932479159041463,
	"grad_norm": 0.10670439153909683,
	"learning_rate": 0.0002,
	"loss": 0.1329,
	"step": 10410
	},
	{
	"epoch": 0.01895066597859866,
	"grad_norm": 0.033486492931842804,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 10420
	},
	{
	"epoch": 0.018968852798155855,
	"grad_norm": 0.03778929263353348,
	"learning_rate": 0.0002,
	"loss": 0.0739,
	"step": 10430
	},
	{
	"epoch": 0.01898703961771305,
	"grad_norm": 0.1499231606721878,
	"learning_rate": 0.0002,
	"loss": 0.0691,
	"step": 10440
	},
	{
	"epoch": 0.019005226437270248,
	"grad_norm": 0.020496509969234467,
	"learning_rate": 0.0002,
	"loss": 0.0166,
	"step": 10450
	},
	{
	"epoch": 0.019023413256827444,
	"grad_norm": 0.07973606884479523,
	"learning_rate": 0.0002,
	"loss": 0.1647,
	"step": 10460
	},
	{
	"epoch": 0.01904160007638464,
	"grad_norm": 0.2187214344739914,
	"learning_rate": 0.0002,
	"loss": 0.0851,
	"step": 10470
	},
	{
	"epoch": 0.01905978689594184,
	"grad_norm": 0.05374719575047493,
	"learning_rate": 0.0002,
	"loss": 0.0763,
	"step": 10480
	},
	{
	"epoch": 0.019077973715499037,
	"grad_norm": 0.20388802886009216,
	"learning_rate": 0.0002,
	"loss": 0.0661,
	"step": 10490
	},
	{
	"epoch": 0.019096160535056233,
	"grad_norm": 0.023114027455449104,
	"learning_rate": 0.0002,
	"loss": 0.0196,
	"step": 10500
	},
	{
	"epoch": 0.01911434735461343,
	"grad_norm": 0.07263924926519394,
	"learning_rate": 0.0002,
	"loss": 0.1397,
	"step": 10510
	},
	{
	"epoch": 0.019132534174170625,
	"grad_norm": 0.13590484857559204,
	"learning_rate": 0.0002,
	"loss": 0.0866,
	"step": 10520
	},
	{
	"epoch": 0.019150720993727822,
	"grad_norm": 0.03279007971286774,
	"learning_rate": 0.0002,
	"loss": 0.0845,
	"step": 10530
	},
	{
	"epoch": 0.019168907813285018,
	"grad_norm": 0.16929341852664948,
	"learning_rate": 0.0002,
	"loss": 0.0638,
	"step": 10540
	},
	{
	"epoch": 0.019187094632842214,
	"grad_norm": 0.043504901230335236,
	"learning_rate": 0.0002,
	"loss": 0.0217,
	"step": 10550
	},
	{
	"epoch": 0.01920528145239941,
	"grad_norm": 0.05582214519381523,
	"learning_rate": 0.0002,
	"loss": 0.1454,
	"step": 10560
	},
	{
	"epoch": 0.019223468271956607,
	"grad_norm": 0.12112174928188324,
	"learning_rate": 0.0002,
	"loss": 0.0773,
	"step": 10570
	},
	{
	"epoch": 0.019241655091513803,
	"grad_norm": 0.028584860265254974,
	"learning_rate": 0.0002,
	"loss": 0.0766,
	"step": 10580
	},
	{
	"epoch": 0.019259841911071,
	"grad_norm": 0.14817841351032257,
	"learning_rate": 0.0002,
	"loss": 0.07,
	"step": 10590
	},
	{
	"epoch": 0.019278028730628196,
	"grad_norm": 0.0354049950838089,
	"learning_rate": 0.0002,
	"loss": 0.0205,
	"step": 10600
	},
	{
	"epoch": 0.019296215550185392,
	"grad_norm": 0.0580359622836113,
	"learning_rate": 0.0002,
	"loss": 0.126,
	"step": 10610
	},
	{
	"epoch": 0.01931440236974259,
	"grad_norm": 0.1495518982410431,
	"learning_rate": 0.0002,
	"loss": 0.0759,
	"step": 10620
	},
	{
	"epoch": 0.019332589189299785,
	"grad_norm": 0.029057197272777557,
	"learning_rate": 0.0002,
	"loss": 0.0751,
	"step": 10630
	},
	{
	"epoch": 0.01935077600885698,
	"grad_norm": 0.17057828605175018,
	"learning_rate": 0.0002,
	"loss": 0.0675,
	"step": 10640
	},
	{
	"epoch": 0.019368962828414178,
	"grad_norm": 0.029123524203896523,
	"learning_rate": 0.0002,
	"loss": 0.0207,
	"step": 10650
	},
	{
	"epoch": 0.019387149647971374,
	"grad_norm": 0.06929099559783936,
	"learning_rate": 0.0002,
	"loss": 0.1272,
	"step": 10660
	},
	{
	"epoch": 0.01940533646752857,
	"grad_norm": 0.0806749165058136,
	"learning_rate": 0.0002,
	"loss": 0.0825,
	"step": 10670
	},
	{
	"epoch": 0.019423523287085766,
	"grad_norm": 0.025454839691519737,
	"learning_rate": 0.0002,
	"loss": 0.0786,
	"step": 10680
	},
	{
	"epoch": 0.019441710106642963,
	"grad_norm": 0.1879327893257141,
	"learning_rate": 0.0002,
	"loss": 0.0664,
	"step": 10690
	},
	{
	"epoch": 0.01945989692620016,
	"grad_norm": 0.03334587439894676,
	"learning_rate": 0.0002,
	"loss": 0.0217,
	"step": 10700
	},
	{
	"epoch": 0.019478083745757355,
	"grad_norm": 0.05760979652404785,
	"learning_rate": 0.0002,
	"loss": 0.141,
	"step": 10710
	},
	{
	"epoch": 0.01949627056531455,
	"grad_norm": 0.03565089777112007,
	"learning_rate": 0.0002,
	"loss": 0.0849,
	"step": 10720
	},
	{
	"epoch": 0.019514457384871748,
	"grad_norm": 0.1484966278076172,
	"learning_rate": 0.0002,
	"loss": 0.0839,
	"step": 10730
	},
	{
	"epoch": 0.019532644204428944,
	"grad_norm": 0.22200991213321686,
	"learning_rate": 0.0002,
	"loss": 0.0673,
	"step": 10740
	},
	{
	"epoch": 0.01955083102398614,
	"grad_norm": 0.017915472388267517,
	"learning_rate": 0.0002,
	"loss": 0.0203,
	"step": 10750
	},
	{
	"epoch": 0.019569017843543337,
	"grad_norm": 0.11213338375091553,
	"learning_rate": 0.0002,
	"loss": 0.126,
	"step": 10760
	},
	{
	"epoch": 0.019587204663100533,
	"grad_norm": 0.1563912183046341,
	"learning_rate": 0.0002,
	"loss": 0.0803,
	"step": 10770
	},
	{
	"epoch": 0.01960539148265773,
	"grad_norm": 0.02315036952495575,
	"learning_rate": 0.0002,
	"loss": 0.0801,
	"step": 10780
	},
	{
	"epoch": 0.019623578302214926,
	"grad_norm": 0.14482071995735168,
	"learning_rate": 0.0002,
	"loss": 0.0701,
	"step": 10790
	},
	{
	"epoch": 0.019641765121772122,
	"grad_norm": 0.0369495190680027,
	"learning_rate": 0.0002,
	"loss": 0.022,
	"step": 10800
	},
	{
	"epoch": 0.01965995194132932,
	"grad_norm": 0.0659516304731369,
	"learning_rate": 0.0002,
	"loss": 0.1282,
	"step": 10810
	},
	{
	"epoch": 0.019678138760886515,
	"grad_norm": 0.09046377241611481,
	"learning_rate": 0.0002,
	"loss": 0.0748,
	"step": 10820
	},
	{
	"epoch": 0.019696325580443715,
	"grad_norm": 0.05669049918651581,
	"learning_rate": 0.0002,
	"loss": 0.0808,
	"step": 10830
	},
	{
	"epoch": 0.01971451240000091,
	"grad_norm": 0.16696439683437347,
	"learning_rate": 0.0002,
	"loss": 0.0696,
	"step": 10840
	},
	{
	"epoch": 0.019732699219558107,
	"grad_norm": 0.02596648782491684,
	"learning_rate": 0.0002,
	"loss": 0.0189,
	"step": 10850
	},
	{
	"epoch": 0.019750886039115303,
	"grad_norm": 0.030568787828087807,
	"learning_rate": 0.0002,
	"loss": 0.1431,
	"step": 10860
	},
	{
	"epoch": 0.0197690728586725,
	"grad_norm": 0.11519906669855118,
	"learning_rate": 0.0002,
	"loss": 0.0832,
	"step": 10870
	},
	{
	"epoch": 0.019787259678229696,
	"grad_norm": 0.12018325924873352,
	"learning_rate": 0.0002,
	"loss": 0.0769,
	"step": 10880
	},
	{
	"epoch": 0.019805446497786892,
	"grad_norm": 0.15875691175460815,
	"learning_rate": 0.0002,
	"loss": 0.0679,
	"step": 10890
	},
	{
	"epoch": 0.01982363331734409,
	"grad_norm": 0.02812560275197029,
	"learning_rate": 0.0002,
	"loss": 0.0236,
	"step": 10900
	},
	{
	"epoch": 0.019841820136901285,
	"grad_norm": 0.039342913776636124,
	"learning_rate": 0.0002,
	"loss": 0.1433,
	"step": 10910
	},
	{
	"epoch": 0.01986000695645848,
	"grad_norm": 0.1218978762626648,
	"learning_rate": 0.0002,
	"loss": 0.0785,
	"step": 10920
	},
	{
	"epoch": 0.019878193776015678,
	"grad_norm": 0.02437124028801918,
	"learning_rate": 0.0002,
	"loss": 0.081,
	"step": 10930
	},
	{
	"epoch": 0.019896380595572874,
	"grad_norm": 0.16295987367630005,
	"learning_rate": 0.0002,
	"loss": 0.0615,
	"step": 10940
	},
	{
	"epoch": 0.01991456741513007,
	"grad_norm": 0.03147517144680023,
	"learning_rate": 0.0002,
	"loss": 0.0167,
	"step": 10950
	},
	{
	"epoch": 0.019932754234687267,
	"grad_norm": 0.051139310002326965,
	"learning_rate": 0.0002,
	"loss": 0.1486,
	"step": 10960
	},
	{
	"epoch": 0.019950941054244463,
	"grad_norm": 0.10385333746671677,
	"learning_rate": 0.0002,
	"loss": 0.0835,
	"step": 10970
	},
	{
	"epoch": 0.01996912787380166,
	"grad_norm": 0.029570510610938072,
	"learning_rate": 0.0002,
	"loss": 0.0808,
	"step": 10980
	},
	{
	"epoch": 0.019987314693358856,
	"grad_norm": 0.1457994282245636,
	"learning_rate": 0.0002,
	"loss": 0.062,
	"step": 10990
	},
	{
	"epoch": 0.020005501512916052,
	"grad_norm": 0.013582763262093067,
	"learning_rate": 0.0002,
	"loss": 0.0149,
	"step": 11000
	},
	{
	"epoch": 0.020023688332473248,
	"grad_norm": 0.13736847043037415,
	"learning_rate": 0.0002,
	"loss": 0.164,
	"step": 11010
	},
	{
	"epoch": 0.020041875152030444,
	"grad_norm": 0.146778866648674,
	"learning_rate": 0.0002,
	"loss": 0.0865,
	"step": 11020
	},
	{
	"epoch": 0.02006006197158764,
	"grad_norm": 0.09848106652498245,
	"learning_rate": 0.0002,
	"loss": 0.0785,
	"step": 11030
	},
	{
	"epoch": 0.020078248791144837,
	"grad_norm": 0.19981160759925842,
	"learning_rate": 0.0002,
	"loss": 0.0738,
	"step": 11040
	},
	{
	"epoch": 0.020096435610702033,
	"grad_norm": 0.0248726736754179,
	"learning_rate": 0.0002,
	"loss": 0.0232,
	"step": 11050
	},
	{
	"epoch": 0.02011462243025923,
	"grad_norm": 0.09688897430896759,
	"learning_rate": 0.0002,
	"loss": 0.1361,
	"step": 11060
	},
	{
	"epoch": 0.020132809249816426,
	"grad_norm": 0.09953918308019638,
	"learning_rate": 0.0002,
	"loss": 0.0815,
	"step": 11070
	},
	{
	"epoch": 0.020150996069373622,
	"grad_norm": 0.05801590532064438,
	"learning_rate": 0.0002,
	"loss": 0.0794,
	"step": 11080
	},
	{
	"epoch": 0.02016918288893082,
	"grad_norm": 0.2029600441455841,
	"learning_rate": 0.0002,
	"loss": 0.0661,
	"step": 11090
	},
	{
	"epoch": 0.020187369708488015,
	"grad_norm": 0.026677627116441727,
	"learning_rate": 0.0002,
	"loss": 0.022,
	"step": 11100
	},
	{
	"epoch": 0.02020555652804521,
	"grad_norm": 0.054907217621803284,
	"learning_rate": 0.0002,
	"loss": 0.1356,
	"step": 11110
	},
	{
	"epoch": 0.020223743347602408,
	"grad_norm": 0.16302120685577393,
	"learning_rate": 0.0002,
	"loss": 0.0721,
	"step": 11120
	},
	{
	"epoch": 0.020241930167159604,
	"grad_norm": 0.03393812105059624,
	"learning_rate": 0.0002,
	"loss": 0.0733,
	"step": 11130
	},
	{
	"epoch": 0.0202601169867168,
	"grad_norm": 0.16455304622650146,
	"learning_rate": 0.0002,
	"loss": 0.062,
	"step": 11140
	},
	{
	"epoch": 0.020278303806273996,
	"grad_norm": 0.026239484548568726,
	"learning_rate": 0.0002,
	"loss": 0.0148,
	"step": 11150
	},
	{
	"epoch": 0.020296490625831193,
	"grad_norm": 0.10048040002584457,
	"learning_rate": 0.0002,
	"loss": 0.1398,
	"step": 11160
	},
	{
	"epoch": 0.020314677445388393,
	"grad_norm": 0.14221400022506714,
	"learning_rate": 0.0002,
	"loss": 0.0782,
	"step": 11170
	},
	{
	"epoch": 0.02033286426494559,
	"grad_norm": 0.08432412147521973,
	"learning_rate": 0.0002,
	"loss": 0.0807,
	"step": 11180
	},
	{
	"epoch": 0.020351051084502785,
	"grad_norm": 0.172295480966568,
	"learning_rate": 0.0002,
	"loss": 0.0655,
	"step": 11190
	},
	{
	"epoch": 0.02036923790405998,
	"grad_norm": 0.023976756259799004,
	"learning_rate": 0.0002,
	"loss": 0.0218,
	"step": 11200
	},
	{
	"epoch": 0.020387424723617178,
	"grad_norm": 0.03286349028348923,
	"learning_rate": 0.0002,
	"loss": 0.1441,
	"step": 11210
	},
	{
	"epoch": 0.020405611543174374,
	"grad_norm": 0.04403531551361084,
	"learning_rate": 0.0002,
	"loss": 0.0825,
	"step": 11220
	},
	{
	"epoch": 0.02042379836273157,
	"grad_norm": 0.0398452989757061,
	"learning_rate": 0.0002,
	"loss": 0.0755,
	"step": 11230
	},
	{
	"epoch": 0.020441985182288767,
	"grad_norm": 0.15185104310512543,
	"learning_rate": 0.0002,
	"loss": 0.0591,
	"step": 11240
	},
	{
	"epoch": 0.020460172001845963,
	"grad_norm": 0.005839187186211348,
	"learning_rate": 0.0002,
	"loss": 0.0172,
	"step": 11250
	},
	{
	"epoch": 0.02047835882140316,
	"grad_norm": 0.031195368617773056,
	"learning_rate": 0.0002,
	"loss": 0.1594,
	"step": 11260
	},
	{
	"epoch": 0.020496545640960356,
	"grad_norm": 0.1997426599264145,
	"learning_rate": 0.0002,
	"loss": 0.0797,
	"step": 11270
	},
	{
	"epoch": 0.020514732460517552,
	"grad_norm": 0.03075752593576908,
	"learning_rate": 0.0002,
	"loss": 0.0798,
	"step": 11280
	},
	{
	"epoch": 0.02053291928007475,
	"grad_norm": 0.17717675864696503,
	"learning_rate": 0.0002,
	"loss": 0.0654,
	"step": 11290
	},
	{
	"epoch": 0.020551106099631945,
	"grad_norm": 0.036260057240724564,
	"learning_rate": 0.0002,
	"loss": 0.0196,
	"step": 11300
	},
	{
	"epoch": 0.02056929291918914,
	"grad_norm": 0.11961262673139572,
	"learning_rate": 0.0002,
	"loss": 0.1313,
	"step": 11310
	},
	{
	"epoch": 0.020587479738746337,
	"grad_norm": 0.12344212830066681,
	"learning_rate": 0.0002,
	"loss": 0.0798,
	"step": 11320
	},
	{
	"epoch": 0.020605666558303534,
	"grad_norm": 0.12796273827552795,
	"learning_rate": 0.0002,
	"loss": 0.0693,
	"step": 11330
	},
	{
	"epoch": 0.02062385337786073,
	"grad_norm": 0.12038332223892212,
	"learning_rate": 0.0002,
	"loss": 0.0637,
	"step": 11340
	},
	{
	"epoch": 0.020642040197417926,
	"grad_norm": 0.013724497519433498,
	"learning_rate": 0.0002,
	"loss": 0.0134,
	"step": 11350
	},
	{
	"epoch": 0.020660227016975122,
	"grad_norm": 0.030014917254447937,
	"learning_rate": 0.0002,
	"loss": 0.1355,
	"step": 11360
	},
	{
	"epoch": 0.02067841383653232,
	"grad_norm": 0.05455614998936653,
	"learning_rate": 0.0002,
	"loss": 0.0824,
	"step": 11370
	},
	{
	"epoch": 0.020696600656089515,
	"grad_norm": 0.09036605060100555,
	"learning_rate": 0.0002,
	"loss": 0.0712,
	"step": 11380
	},
	{
	"epoch": 0.02071478747564671,
	"grad_norm": 0.15607796609401703,
	"learning_rate": 0.0002,
	"loss": 0.0613,
	"step": 11390
	},
	{
	"epoch": 0.020732974295203908,
	"grad_norm": 0.029900453984737396,
	"learning_rate": 0.0002,
	"loss": 0.0216,
	"step": 11400
	},
	{
	"epoch": 0.020751161114761104,
	"grad_norm": 0.06108042970299721,
	"learning_rate": 0.0002,
	"loss": 0.1223,
	"step": 11410
	},
	{
	"epoch": 0.0207693479343183,
	"grad_norm": 0.052377600222826004,
	"learning_rate": 0.0002,
	"loss": 0.0795,
	"step": 11420
	},
	{
	"epoch": 0.020787534753875497,
	"grad_norm": 0.063735231757164,
	"learning_rate": 0.0002,
	"loss": 0.0746,
	"step": 11430
	},
	{
	"epoch": 0.020805721573432693,
	"grad_norm": 0.16977328062057495,
	"learning_rate": 0.0002,
	"loss": 0.0634,
	"step": 11440
	},
	{
	"epoch": 0.02082390839298989,
	"grad_norm": 0.04451785981655121,
	"learning_rate": 0.0002,
	"loss": 0.0298,
	"step": 11450
	},
	{
	"epoch": 0.020842095212547086,
	"grad_norm": 1.1584863662719727,
	"learning_rate": 0.0002,
	"loss": 0.1133,
	"step": 11460
	},
	{
	"epoch": 0.020860282032104282,
	"grad_norm": 0.09867832064628601,
	"learning_rate": 0.0002,
	"loss": 0.0774,
	"step": 11470
	},
	{
	"epoch": 0.020878468851661478,
	"grad_norm": 0.05493566766381264,
	"learning_rate": 0.0002,
	"loss": 0.0752,
	"step": 11480
	},
	{
	"epoch": 0.020896655671218674,
	"grad_norm": 0.2149093896150589,
	"learning_rate": 0.0002,
	"loss": 0.0682,
	"step": 11490
	},
	{
	"epoch": 0.02091484249077587,
	"grad_norm": 0.02243107184767723,
	"learning_rate": 0.0002,
	"loss": 0.0191,
	"step": 11500
	},
	{
	"epoch": 0.02093302931033307,
	"grad_norm": 0.27817150950431824,
	"learning_rate": 0.0002,
	"loss": 0.1658,
	"step": 11510
	},
	{
	"epoch": 0.020951216129890267,
	"grad_norm": 0.14467410743236542,
	"learning_rate": 0.0002,
	"loss": 0.083,
	"step": 11520
	},
	{
	"epoch": 0.020969402949447463,
	"grad_norm": 0.1027064323425293,
	"learning_rate": 0.0002,
	"loss": 0.0825,
	"step": 11530
	},
	{
	"epoch": 0.02098758976900466,
	"grad_norm": 0.2156657725572586,
	"learning_rate": 0.0002,
	"loss": 0.0694,
	"step": 11540
	},
	{
	"epoch": 0.021005776588561856,
	"grad_norm": 0.023746902123093605,
	"learning_rate": 0.0002,
	"loss": 0.024,
	"step": 11550
	},
	{
	"epoch": 0.021023963408119052,
	"grad_norm": 0.19738778471946716,
	"learning_rate": 0.0002,
	"loss": 0.1473,
	"step": 11560
	},
	{
	"epoch": 0.02104215022767625,
	"grad_norm": 0.19759760797023773,
	"learning_rate": 0.0002,
	"loss": 0.078,
	"step": 11570
	},
	{
	"epoch": 0.021060337047233445,
	"grad_norm": 9.88092041015625,
	"learning_rate": 0.0002,
	"loss": 0.0866,
	"step": 11580
	},
	{
	"epoch": 0.02107852386679064,
	"grad_norm": 0.22301238775253296,
	"learning_rate": 0.0002,
	"loss": 0.0685,
	"step": 11590
	},
	{
	"epoch": 0.021096710686347837,
	"grad_norm": 0.023191403597593307,
	"learning_rate": 0.0002,
	"loss": 0.0468,
	"step": 11600
	},
	{
	"epoch": 0.021114897505905034,
	"grad_norm": 0.10442623496055603,
	"learning_rate": 0.0002,
	"loss": 0.2046,
	"step": 11610
	},
	{
	"epoch": 0.02113308432546223,
	"grad_norm": 0.18771864473819733,
	"learning_rate": 0.0002,
	"loss": 0.0805,
	"step": 11620
	},
	{
	"epoch": 0.021151271145019426,
	"grad_norm": 0.05516243353486061,
	"learning_rate": 0.0002,
	"loss": 0.0795,
	"step": 11630
	},
	{
	"epoch": 0.021169457964576623,
	"grad_norm": 0.21308554708957672,
	"learning_rate": 0.0002,
	"loss": 0.0725,
	"step": 11640
	},
	{
	"epoch": 0.02118764478413382,
	"grad_norm": 0.010607315227389336,
	"learning_rate": 0.0002,
	"loss": 0.0241,
	"step": 11650
	},
	{
	"epoch": 0.021205831603691015,
	"grad_norm": 0.0542677640914917,
	"learning_rate": 0.0002,
	"loss": 0.1648,
	"step": 11660
	},
	{
	"epoch": 0.02122401842324821,
	"grad_norm": 0.11239166557788849,
	"learning_rate": 0.0002,
	"loss": 0.0825,
	"step": 11670
	},
	{
	"epoch": 0.021242205242805408,
	"grad_norm": 0.032700493931770325,
	"learning_rate": 0.0002,
	"loss": 0.0727,
	"step": 11680
	},
	{
	"epoch": 0.021260392062362604,
	"grad_norm": 0.2005159705877304,
	"learning_rate": 0.0002,
	"loss": 0.0708,
	"step": 11690
	},
	{
	"epoch": 0.0212785788819198,
	"grad_norm": 0.01741277053952217,
	"learning_rate": 0.0002,
	"loss": 0.0232,
	"step": 11700
	},
	{
	"epoch": 0.021296765701476997,
	"grad_norm": 0.04048267379403114,
	"learning_rate": 0.0002,
	"loss": 0.1403,
	"step": 11710
	},
	{
	"epoch": 0.021314952521034193,
	"grad_norm": 0.18796616792678833,
	"learning_rate": 0.0002,
	"loss": 0.0886,
	"step": 11720
	},
	{
	"epoch": 0.02133313934059139,
	"grad_norm": 0.06360754370689392,
	"learning_rate": 0.0002,
	"loss": 0.0731,
	"step": 11730
	},
	{
	"epoch": 0.021351326160148586,
	"grad_norm": 0.14168913662433624,
	"learning_rate": 0.0002,
	"loss": 0.0622,
	"step": 11740
	},
	{
	"epoch": 0.021369512979705782,
	"grad_norm": 0.012988853268325329,
	"learning_rate": 0.0002,
	"loss": 0.0144,
	"step": 11750
	},
	{
	"epoch": 0.02138769979926298,
	"grad_norm": 0.09176674485206604,
	"learning_rate": 0.0002,
	"loss": 0.1574,
	"step": 11760
	},
	{
	"epoch": 0.021405886618820175,
	"grad_norm": 0.11934395134449005,
	"learning_rate": 0.0002,
	"loss": 0.079,
	"step": 11770
	},
	{
	"epoch": 0.02142407343837737,
	"grad_norm": 0.11853605508804321,
	"learning_rate": 0.0002,
	"loss": 0.076,
	"step": 11780
	},
	{
	"epoch": 0.021442260257934567,
	"grad_norm": 0.1625816971063614,
	"learning_rate": 0.0002,
	"loss": 0.0649,
	"step": 11790
	},
	{
	"epoch": 0.021460447077491764,
	"grad_norm": 0.023221928626298904,
	"learning_rate": 0.0002,
	"loss": 0.0228,
	"step": 11800
	},
	{
	"epoch": 0.02147863389704896,
	"grad_norm": 0.0494253933429718,
	"learning_rate": 0.0002,
	"loss": 0.1418,
	"step": 11810
	},
	{
	"epoch": 0.021496820716606156,
	"grad_norm": 0.18250688910484314,
	"learning_rate": 0.0002,
	"loss": 0.0827,
	"step": 11820
	},
	{
	"epoch": 0.021515007536163352,
	"grad_norm": 0.13340160250663757,
	"learning_rate": 0.0002,
	"loss": 0.0794,
	"step": 11830
	},
	{
	"epoch": 0.02153319435572055,
	"grad_norm": 0.15497778356075287,
	"learning_rate": 0.0002,
	"loss": 0.0613,
	"step": 11840
	},
	{
	"epoch": 0.021551381175277745,
	"grad_norm": 0.03259354829788208,
	"learning_rate": 0.0002,
	"loss": 0.023,
	"step": 11850
	},
	{
	"epoch": 0.021569567994834945,
	"grad_norm": 0.09126435220241547,
	"learning_rate": 0.0002,
	"loss": 0.1235,
	"step": 11860
	},
	{
	"epoch": 0.02158775481439214,
	"grad_norm": 0.13455496728420258,
	"learning_rate": 0.0002,
	"loss": 0.0806,
	"step": 11870
	},
	{
	"epoch": 0.021605941633949338,
	"grad_norm": 0.10817539691925049,
	"learning_rate": 0.0002,
	"loss": 0.0829,
	"step": 11880
	},
	{
	"epoch": 0.021624128453506534,
	"grad_norm": 0.1913878321647644,
	"learning_rate": 0.0002,
	"loss": 0.0636,
	"step": 11890
	},
	{
	"epoch": 0.02164231527306373,
	"grad_norm": 0.025634530931711197,
	"learning_rate": 0.0002,
	"loss": 0.0216,
	"step": 11900
	},
	{
	"epoch": 0.021660502092620926,
	"grad_norm": 0.10507725924253464,
	"learning_rate": 0.0002,
	"loss": 0.1326,
	"step": 11910
	},
	{
	"epoch": 0.021678688912178123,
	"grad_norm": 0.09721452742815018,
	"learning_rate": 0.0002,
	"loss": 0.0857,
	"step": 11920
	},
	{
	"epoch": 0.02169687573173532,
	"grad_norm": 0.028759269043803215,
	"learning_rate": 0.0002,
	"loss": 0.0751,
	"step": 11930
	},
	{
	"epoch": 0.021715062551292515,
	"grad_norm": 0.17618104815483093,
	"learning_rate": 0.0002,
	"loss": 0.062,
	"step": 11940
	},
	{
	"epoch": 0.02173324937084971,
	"grad_norm": 0.02503124624490738,
	"learning_rate": 0.0002,
	"loss": 0.0182,
	"step": 11950
	},
	{
	"epoch": 0.021751436190406908,
	"grad_norm": 0.10976126044988632,
	"learning_rate": 0.0002,
	"loss": 0.1564,
	"step": 11960
	},
	{
	"epoch": 0.021769623009964104,
	"grad_norm": 0.0833989605307579,
	"learning_rate": 0.0002,
	"loss": 0.0784,
	"step": 11970
	},
	{
	"epoch": 0.0217878098295213,
	"grad_norm": 0.06359647959470749,
	"learning_rate": 0.0002,
	"loss": 0.0795,
	"step": 11980
	},
	{
	"epoch": 0.021805996649078497,
	"grad_norm": 0.1677824705839157,
	"learning_rate": 0.0002,
	"loss": 0.0699,
	"step": 11990
	},
	{
	"epoch": 0.021824183468635693,
	"grad_norm": 0.018009621649980545,
	"learning_rate": 0.0002,
	"loss": 0.0185,
	"step": 12000
	},
	{
	"epoch": 0.02184237028819289,
	"grad_norm": 0.12256644666194916,
	"learning_rate": 0.0002,
	"loss": 0.1839,
	"step": 12010
	},
	{
	"epoch": 0.021860557107750086,
	"grad_norm": 0.11677028983831406,
	"learning_rate": 0.0002,
	"loss": 0.0829,
	"step": 12020
	},
	{
	"epoch": 0.021878743927307282,
	"grad_norm": 0.12885046005249023,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 12030
	},
	{
	"epoch": 0.02189693074686448,
	"grad_norm": 0.1394425481557846,
	"learning_rate": 0.0002,
	"loss": 0.0668,
	"step": 12040
	},
	{
	"epoch": 0.021915117566421675,
	"grad_norm": 0.024974076077342033,
	"learning_rate": 0.0002,
	"loss": 0.0192,
	"step": 12050
	},
	{
	"epoch": 0.02193330438597887,
	"grad_norm": 0.11284986138343811,
	"learning_rate": 0.0002,
	"loss": 0.1492,
	"step": 12060
	},
	{
	"epoch": 0.021951491205536067,
	"grad_norm": 0.0605492927134037,
	"learning_rate": 0.0002,
	"loss": 0.0787,
	"step": 12070
	},
	{
	"epoch": 0.021969678025093264,
	"grad_norm": 0.040298718959093094,
	"learning_rate": 0.0002,
	"loss": 0.0778,
	"step": 12080
	},
	{
	"epoch": 0.02198786484465046,
	"grad_norm": 0.1555332988500595,
	"learning_rate": 0.0002,
	"loss": 0.0683,
	"step": 12090
	},
	{
	"epoch": 0.022006051664207656,
	"grad_norm": 0.022474724799394608,
	"learning_rate": 0.0002,
	"loss": 0.0139,
	"step": 12100
	},
	{
	"epoch": 0.022024238483764853,
	"grad_norm": 0.08212363719940186,
	"learning_rate": 0.0002,
	"loss": 0.1513,
	"step": 12110
	},
	{
	"epoch": 0.02204242530332205,
	"grad_norm": 0.16297335922718048,
	"learning_rate": 0.0002,
	"loss": 0.087,
	"step": 12120
	},
	{
	"epoch": 0.022060612122879245,
	"grad_norm": 0.026817265897989273,
	"learning_rate": 0.0002,
	"loss": 0.0763,
	"step": 12130
	},
	{
	"epoch": 0.02207879894243644,
	"grad_norm": 0.15199647843837738,
	"learning_rate": 0.0002,
	"loss": 0.0632,
	"step": 12140
	},
	{
	"epoch": 0.022096985761993638,
	"grad_norm": 0.021619049832224846,
	"learning_rate": 0.0002,
	"loss": 0.0221,
	"step": 12150
	},
	{
	"epoch": 0.022115172581550834,
	"grad_norm": 0.071327805519104,
	"learning_rate": 0.0002,
	"loss": 0.138,
	"step": 12160
	},
	{
	"epoch": 0.02213335940110803,
	"grad_norm": 0.07506705075502396,
	"learning_rate": 0.0002,
	"loss": 0.0802,
	"step": 12170
	},
	{
	"epoch": 0.022151546220665227,
	"grad_norm": 0.05193526670336723,
	"learning_rate": 0.0002,
	"loss": 0.0726,
	"step": 12180
	},
	{
	"epoch": 0.022169733040222423,
	"grad_norm": 0.125730961561203,
	"learning_rate": 0.0002,
	"loss": 0.0658,
	"step": 12190
	},
	{
	"epoch": 0.022187919859779623,
	"grad_norm": 0.01939002424478531,
	"learning_rate": 0.0002,
	"loss": 0.0174,
	"step": 12200
	},
	{
	"epoch": 0.02220610667933682,
	"grad_norm": 0.05645585432648659,
	"learning_rate": 0.0002,
	"loss": 0.1447,
	"step": 12210
	},
	{
	"epoch": 0.022224293498894016,
	"grad_norm": 0.12416274845600128,
	"learning_rate": 0.0002,
	"loss": 0.0727,
	"step": 12220
	},
	{
	"epoch": 0.022242480318451212,
	"grad_norm": 0.05618545040488243,
	"learning_rate": 0.0002,
	"loss": 0.0801,
	"step": 12230
	},
	{
	"epoch": 0.022260667138008408,
	"grad_norm": 0.12334968894720078,
	"learning_rate": 0.0002,
	"loss": 0.0598,
	"step": 12240
	},
	{
	"epoch": 0.022278853957565604,
	"grad_norm": 0.024331970140337944,
	"learning_rate": 0.0002,
	"loss": 0.0179,
	"step": 12250
	},
	{
	"epoch": 0.0222970407771228,
	"grad_norm": 0.05856281518936157,
	"learning_rate": 0.0002,
	"loss": 0.126,
	"step": 12260
	},
	{
	"epoch": 0.022315227596679997,
	"grad_norm": 0.07432300597429276,
	"learning_rate": 0.0002,
	"loss": 0.0839,
	"step": 12270
	},
	{
	"epoch": 0.022333414416237193,
	"grad_norm": 0.07249715179204941,
	"learning_rate": 0.0002,
	"loss": 0.0815,
	"step": 12280
	},
	{
	"epoch": 0.02235160123579439,
	"grad_norm": 0.14335612952709198,
	"learning_rate": 0.0002,
	"loss": 0.0605,
	"step": 12290
	},
	{
	"epoch": 0.022369788055351586,
	"grad_norm": 0.03603110462427139,
	"learning_rate": 0.0002,
	"loss": 0.0185,
	"step": 12300
	},
	{
	"epoch": 0.022387974874908782,
	"grad_norm": 0.08532091230154037,
	"learning_rate": 0.0002,
	"loss": 0.1339,
	"step": 12310
	},
	{
	"epoch": 0.02240616169446598,
	"grad_norm": 0.13663236796855927,
	"learning_rate": 0.0002,
	"loss": 0.0761,
	"step": 12320
	},
	{
	"epoch": 0.022424348514023175,
	"grad_norm": 0.10088011622428894,
	"learning_rate": 0.0002,
	"loss": 0.0737,
	"step": 12330
	},
	{
	"epoch": 0.02244253533358037,
	"grad_norm": 0.17186152935028076,
	"learning_rate": 0.0002,
	"loss": 0.0661,
	"step": 12340
	},
	{
	"epoch": 0.022460722153137568,
	"grad_norm": 0.01941334828734398,
	"learning_rate": 0.0002,
	"loss": 0.0135,
	"step": 12350
	},
	{
	"epoch": 0.022478908972694764,
	"grad_norm": 0.12438862770795822,
	"learning_rate": 0.0002,
	"loss": 0.1474,
	"step": 12360
	},
	{
	"epoch": 0.02249709579225196,
	"grad_norm": 0.08050791174173355,
	"learning_rate": 0.0002,
	"loss": 0.0792,
	"step": 12370
	},
	{
	"epoch": 0.022515282611809156,
	"grad_norm": 0.04660952091217041,
	"learning_rate": 0.0002,
	"loss": 0.0826,
	"step": 12380
	},
	{
	"epoch": 0.022533469431366353,
	"grad_norm": 0.16433311998844147,
	"learning_rate": 0.0002,
	"loss": 0.0691,
	"step": 12390
	},
	{
	"epoch": 0.02255165625092355,
	"grad_norm": 0.04376552626490593,
	"learning_rate": 0.0002,
	"loss": 0.0219,
	"step": 12400
	},
	{
	"epoch": 0.022569843070480745,
	"grad_norm": 0.06648654490709305,
	"learning_rate": 0.0002,
	"loss": 0.1346,
	"step": 12410
	},
	{
	"epoch": 0.02258802989003794,
	"grad_norm": 0.11318199336528778,
	"learning_rate": 0.0002,
	"loss": 0.0736,
	"step": 12420
	},
	{
	"epoch": 0.022606216709595138,
	"grad_norm": 0.0922408252954483,
	"learning_rate": 0.0002,
	"loss": 0.0819,
	"step": 12430
	},
	{
	"epoch": 0.022624403529152334,
	"grad_norm": 0.1696896106004715,
	"learning_rate": 0.0002,
	"loss": 0.0642,
	"step": 12440
	},
	{
	"epoch": 0.02264259034870953,
	"grad_norm": 0.03212421387434006,
	"learning_rate": 0.0002,
	"loss": 0.0247,
	"step": 12450
	},
	{
	"epoch": 0.022660777168266727,
	"grad_norm": 0.12295889109373093,
	"learning_rate": 0.0002,
	"loss": 0.1504,
	"step": 12460
	},
	{
	"epoch": 0.022678963987823923,
	"grad_norm": 0.10351194441318512,
	"learning_rate": 0.0002,
	"loss": 0.0757,
	"step": 12470
	},
	{
	"epoch": 0.02269715080738112,
	"grad_norm": 0.022580118849873543,
	"learning_rate": 0.0002,
	"loss": 0.0756,
	"step": 12480
	},
	{
	"epoch": 0.022715337626938316,
	"grad_norm": 0.16330066323280334,
	"learning_rate": 0.0002,
	"loss": 0.0645,
	"step": 12490
	},
	{
	"epoch": 0.022733524446495512,
	"grad_norm": 0.021431026980280876,
	"learning_rate": 0.0002,
	"loss": 0.0224,
	"step": 12500
	},
	{
	"epoch": 0.02275171126605271,
	"grad_norm": 0.053853604942560196,
	"learning_rate": 0.0002,
	"loss": 0.1304,
	"step": 12510
	},
	{
	"epoch": 0.022769898085609905,
	"grad_norm": 0.129705548286438,
	"learning_rate": 0.0002,
	"loss": 0.0799,
	"step": 12520
	},
	{
	"epoch": 0.0227880849051671,
	"grad_norm": 0.027473529800772667,
	"learning_rate": 0.0002,
	"loss": 0.0771,
	"step": 12530
	},
	{
	"epoch": 0.0228062717247243,
	"grad_norm": 0.2045305222272873,
	"learning_rate": 0.0002,
	"loss": 0.0615,
	"step": 12540
	},
	{
	"epoch": 0.022824458544281497,
	"grad_norm": 0.041042860597372055,
	"learning_rate": 0.0002,
	"loss": 0.026,
	"step": 12550
	},
	{
	"epoch": 0.022842645363838694,
	"grad_norm": 0.05624527484178543,
	"learning_rate": 0.0002,
	"loss": 0.1327,
	"step": 12560
	},
	{
	"epoch": 0.02286083218339589,
	"grad_norm": 0.09647081047296524,
	"learning_rate": 0.0002,
	"loss": 0.0758,
	"step": 12570
	},
	{
	"epoch": 0.022879019002953086,
	"grad_norm": 0.03362264856696129,
	"learning_rate": 0.0002,
	"loss": 0.076,
	"step": 12580
	},
	{
	"epoch": 0.022897205822510282,
	"grad_norm": 0.1459503322839737,
	"learning_rate": 0.0002,
	"loss": 0.0603,
	"step": 12590
	},
	{
	"epoch": 0.02291539264206748,
	"grad_norm": 0.025729481130838394,
	"learning_rate": 0.0002,
	"loss": 0.0196,
	"step": 12600
	},
	{
	"epoch": 0.022933579461624675,
	"grad_norm": 0.19940927624702454,
	"learning_rate": 0.0002,
	"loss": 0.1298,
	"step": 12610
	},
	{
	"epoch": 0.02295176628118187,
	"grad_norm": 0.13796600699424744,
	"learning_rate": 0.0002,
	"loss": 0.086,
	"step": 12620
	},
	{
	"epoch": 0.022969953100739068,
	"grad_norm": 0.08884158730506897,
	"learning_rate": 0.0002,
	"loss": 0.0808,
	"step": 12630
	},
	{
	"epoch": 0.022988139920296264,
	"grad_norm": 0.15814751386642456,
	"learning_rate": 0.0002,
	"loss": 0.0658,
	"step": 12640
	},
	{
	"epoch": 0.02300632673985346,
	"grad_norm": 0.03503837063908577,
	"learning_rate": 0.0002,
	"loss": 0.0232,
	"step": 12650
	},
	{
	"epoch": 0.023024513559410657,
	"grad_norm": 0.09701854735612869,
	"learning_rate": 0.0002,
	"loss": 0.136,
	"step": 12660
	},
	{
	"epoch": 0.023042700378967853,
	"grad_norm": 0.13909977674484253,
	"learning_rate": 0.0002,
	"loss": 0.0839,
	"step": 12670
	},
	{
	"epoch": 0.02306088719852505,
	"grad_norm": 0.03152406960725784,
	"learning_rate": 0.0002,
	"loss": 0.0733,
	"step": 12680
	},
	{
	"epoch": 0.023079074018082246,
	"grad_norm": 0.13872750103473663,
	"learning_rate": 0.0002,
	"loss": 0.0604,
	"step": 12690
	},
	{
	"epoch": 0.023097260837639442,
	"grad_norm": 0.03626656159758568,
	"learning_rate": 0.0002,
	"loss": 0.0234,
	"step": 12700
	},
	{
	"epoch": 0.023115447657196638,
	"grad_norm": 0.10111619532108307,
	"learning_rate": 0.0002,
	"loss": 0.1507,
	"step": 12710
	},
	{
	"epoch": 0.023133634476753834,
	"grad_norm": 0.09038366377353668,
	"learning_rate": 0.0002,
	"loss": 0.0839,
	"step": 12720
	},
	{
	"epoch": 0.02315182129631103,
	"grad_norm": 0.026116544380784035,
	"learning_rate": 0.0002,
	"loss": 0.0777,
	"step": 12730
	},
	{
	"epoch": 0.023170008115868227,
	"grad_norm": 0.2067679613828659,
	"learning_rate": 0.0002,
	"loss": 0.0661,
	"step": 12740
	},
	{
	"epoch": 0.023188194935425423,
	"grad_norm": 0.02005072310566902,
	"learning_rate": 0.0002,
	"loss": 0.0165,
	"step": 12750
	},
	{
	"epoch": 0.02320638175498262,
	"grad_norm": 0.03261101245880127,
	"learning_rate": 0.0002,
	"loss": 0.159,
	"step": 12760
	},
	{
	"epoch": 0.023224568574539816,
	"grad_norm": 0.1416555494070053,
	"learning_rate": 0.0002,
	"loss": 0.0856,
	"step": 12770
	},
	{
	"epoch": 0.023242755394097012,
	"grad_norm": 0.09400717914104462,
	"learning_rate": 0.0002,
	"loss": 0.0745,
	"step": 12780
	},
	{
	"epoch": 0.02326094221365421,
	"grad_norm": 0.17093195021152496,
	"learning_rate": 0.0002,
	"loss": 0.0691,
	"step": 12790
	},
	{
	"epoch": 0.023279129033211405,
	"grad_norm": 0.0209200382232666,
	"learning_rate": 0.0002,
	"loss": 0.0168,
	"step": 12800
	},
	{
	"epoch": 0.0232973158527686,
	"grad_norm": 0.10523302853107452,
	"learning_rate": 0.0002,
	"loss": 0.1628,
	"step": 12810
	},
	{
	"epoch": 0.023315502672325798,
	"grad_norm": 0.06932856142520905,
	"learning_rate": 0.0002,
	"loss": 0.079,
	"step": 12820
	},
	{
	"epoch": 0.023333689491882994,
	"grad_norm": 0.03244032710790634,
	"learning_rate": 0.0002,
	"loss": 0.0699,
	"step": 12830
	},
	{
	"epoch": 0.02335187631144019,
	"grad_norm": 0.13403338193893433,
	"learning_rate": 0.0002,
	"loss": 0.0619,
	"step": 12840
	},
	{
	"epoch": 0.023370063130997386,
	"grad_norm": 0.034033093601465225,
	"learning_rate": 0.0002,
	"loss": 0.0166,
	"step": 12850
	},
	{
	"epoch": 0.023388249950554583,
	"grad_norm": 0.07277385890483856,
	"learning_rate": 0.0002,
	"loss": 0.1377,
	"step": 12860
	},
	{
	"epoch": 0.02340643677011178,
	"grad_norm": 0.10873163491487503,
	"learning_rate": 0.0002,
	"loss": 0.0895,
	"step": 12870
	},
	{
	"epoch": 0.023424623589668975,
	"grad_norm": 0.06244732066988945,
	"learning_rate": 0.0002,
	"loss": 0.0745,
	"step": 12880
	},
	{
	"epoch": 0.023442810409226175,
	"grad_norm": 0.1937248259782791,
	"learning_rate": 0.0002,
	"loss": 0.0633,
	"step": 12890
	},
	{
	"epoch": 0.02346099722878337,
	"grad_norm": 0.03432930260896683,
	"learning_rate": 0.0002,
	"loss": 0.0246,
	"step": 12900
	},
	{
	"epoch": 0.023479184048340568,
	"grad_norm": 0.33358234167099,
	"learning_rate": 0.0002,
	"loss": 0.1249,
	"step": 12910
	},
	{
	"epoch": 0.023497370867897764,
	"grad_norm": 0.12039615213871002,
	"learning_rate": 0.0002,
	"loss": 0.0734,
	"step": 12920
	},
	{
	"epoch": 0.02351555768745496,
	"grad_norm": 0.02666555717587471,
	"learning_rate": 0.0002,
	"loss": 0.0849,
	"step": 12930
	},
	{
	"epoch": 0.023533744507012157,
	"grad_norm": 0.128091961145401,
	"learning_rate": 0.0002,
	"loss": 0.0647,
	"step": 12940
	},
	{
	"epoch": 0.023551931326569353,
	"grad_norm": 0.030916422605514526,
	"learning_rate": 0.0002,
	"loss": 0.0217,
	"step": 12950
	},
	{
	"epoch": 0.02357011814612655,
	"grad_norm": 0.09280567616224289,
	"learning_rate": 0.0002,
	"loss": 0.1281,
	"step": 12960
	},
	{
	"epoch": 0.023588304965683746,
	"grad_norm": 0.09032955765724182,
	"learning_rate": 0.0002,
	"loss": 0.0834,
	"step": 12970
	},
	{
	"epoch": 0.023606491785240942,
	"grad_norm": 0.3660918176174164,
	"learning_rate": 0.0002,
	"loss": 0.0776,
	"step": 12980
	},
	{
	"epoch": 0.02362467860479814,
	"grad_norm": 0.15715408325195312,
	"learning_rate": 0.0002,
	"loss": 0.0611,
	"step": 12990
	},
	{
	"epoch": 0.023642865424355335,
	"grad_norm": 0.03867153823375702,
	"learning_rate": 0.0002,
	"loss": 0.0214,
	"step": 13000
	},
	{
	"epoch": 0.02366105224391253,
	"grad_norm": 0.37568527460098267,
	"learning_rate": 0.0002,
	"loss": 0.2529,
	"step": 13010
	},
	{
	"epoch": 0.023679239063469727,
	"grad_norm": 0.14888867735862732,
	"learning_rate": 0.0002,
	"loss": 0.0801,
	"step": 13020
	},
	{
	"epoch": 0.023697425883026924,
	"grad_norm": 0.04271422699093819,
	"learning_rate": 0.0002,
	"loss": 0.0863,
	"step": 13030
	},
	{
	"epoch": 0.02371561270258412,
	"grad_norm": 0.190608948469162,
	"learning_rate": 0.0002,
	"loss": 0.0773,
	"step": 13040
	},
	{
	"epoch": 0.023733799522141316,
	"grad_norm": 0.020333535969257355,
	"learning_rate": 0.0002,
	"loss": 0.0201,
	"step": 13050
	},
	{
	"epoch": 0.023751986341698512,
	"grad_norm": 0.143577441573143,
	"learning_rate": 0.0002,
	"loss": 0.1709,
	"step": 13060
	},
	{
	"epoch": 0.02377017316125571,
	"grad_norm": 0.09225071966648102,
	"learning_rate": 0.0002,
	"loss": 0.0854,
	"step": 13070
	},
	{
	"epoch": 0.023788359980812905,
	"grad_norm": 0.08655473589897156,
	"learning_rate": 0.0002,
	"loss": 0.0727,
	"step": 13080
	},
	{
	"epoch": 0.0238065468003701,
	"grad_norm": 0.14465250074863434,
	"learning_rate": 0.0002,
	"loss": 0.0632,
	"step": 13090
	},
	{
	"epoch": 0.023824733619927298,
	"grad_norm": 0.019399341195821762,
	"learning_rate": 0.0002,
	"loss": 0.0204,
	"step": 13100
	},
	{
	"epoch": 0.023842920439484494,
	"grad_norm": 0.09221036732196808,
	"learning_rate": 0.0002,
	"loss": 0.1646,
	"step": 13110
	},
	{
	"epoch": 0.02386110725904169,
	"grad_norm": 0.1308157742023468,
	"learning_rate": 0.0002,
	"loss": 0.089,
	"step": 13120
	},
	{
	"epoch": 0.023879294078598887,
	"grad_norm": 0.04212506487965584,
	"learning_rate": 0.0002,
	"loss": 0.0776,
	"step": 13130
	},
	{
	"epoch": 0.023897480898156083,
	"grad_norm": 0.13541243970394135,
	"learning_rate": 0.0002,
	"loss": 0.0694,
	"step": 13140
	},
	{
	"epoch": 0.02391566771771328,
	"grad_norm": 0.016859933733940125,
	"learning_rate": 0.0002,
	"loss": 0.0191,
	"step": 13150
	},
	{
	"epoch": 0.023933854537270476,
	"grad_norm": 0.1553143709897995,
	"learning_rate": 0.0002,
	"loss": 0.1653,
	"step": 13160
	},
	{
	"epoch": 0.023952041356827672,
	"grad_norm": 0.07960142940282822,
	"learning_rate": 0.0002,
	"loss": 0.0938,
	"step": 13170
	},
	{
	"epoch": 0.023970228176384868,
	"grad_norm": 0.0719163790345192,
	"learning_rate": 0.0002,
	"loss": 0.0767,
	"step": 13180
	},
	{
	"epoch": 0.023988414995942065,
	"grad_norm": 0.14845407009124756,
	"learning_rate": 0.0002,
	"loss": 0.0642,
	"step": 13190
	},
	{
	"epoch": 0.02400660181549926,
	"grad_norm": 0.01817360520362854,
	"learning_rate": 0.0002,
	"loss": 0.0229,
	"step": 13200
	},
	{
	"epoch": 0.024024788635056457,
	"grad_norm": 0.03876543045043945,
	"learning_rate": 0.0002,
	"loss": 0.1377,
	"step": 13210
	},
	{
	"epoch": 0.024042975454613653,
	"grad_norm": 0.05972164496779442,
	"learning_rate": 0.0002,
	"loss": 0.0802,
	"step": 13220
	},
	{
	"epoch": 0.024061162274170853,
	"grad_norm": 0.09239703416824341,
	"learning_rate": 0.0002,
	"loss": 0.0816,
	"step": 13230
	},
	{
	"epoch": 0.02407934909372805,
	"grad_norm": 0.15912885963916779,
	"learning_rate": 0.0002,
	"loss": 0.0598,
	"step": 13240
	},
	{
	"epoch": 0.024097535913285246,
	"grad_norm": 0.024279551580548286,
	"learning_rate": 0.0002,
	"loss": 0.0235,
	"step": 13250
	},
	{
	"epoch": 0.024115722732842442,
	"grad_norm": 0.06568270921707153,
	"learning_rate": 0.0002,
	"loss": 0.1255,
	"step": 13260
	},
	{
	"epoch": 0.02413390955239964,
	"grad_norm": 0.04041383042931557,
	"learning_rate": 0.0002,
	"loss": 0.0718,
	"step": 13270
	},
	{
	"epoch": 0.024152096371956835,
	"grad_norm": 0.046768829226493835,
	"learning_rate": 0.0002,
	"loss": 0.0741,
	"step": 13280
	},
	{
	"epoch": 0.02417028319151403,
	"grad_norm": 0.21418194472789764,
	"learning_rate": 0.0002,
	"loss": 0.0683,
	"step": 13290
	},
	{
	"epoch": 0.024188470011071227,
	"grad_norm": 0.04398053511977196,
	"learning_rate": 0.0002,
	"loss": 0.0262,
	"step": 13300
	},
	{
	"epoch": 0.024206656830628424,
	"grad_norm": 0.1672079861164093,
	"learning_rate": 0.0002,
	"loss": 0.1408,
	"step": 13310
	},
	{
	"epoch": 0.02422484365018562,
	"grad_norm": 0.05705881491303444,
	"learning_rate": 0.0002,
	"loss": 0.0773,
	"step": 13320
	},
	{
	"epoch": 0.024243030469742816,
	"grad_norm": 0.0667627677321434,
	"learning_rate": 0.0002,
	"loss": 0.0823,
	"step": 13330
	},
	{
	"epoch": 0.024261217289300013,
	"grad_norm": 0.16610710322856903,
	"learning_rate": 0.0002,
	"loss": 0.0682,
	"step": 13340
	},
	{
	"epoch": 0.02427940410885721,
	"grad_norm": 0.028300171718001366,
	"learning_rate": 0.0002,
	"loss": 0.0185,
	"step": 13350
	},
	{
	"epoch": 0.024297590928414405,
	"grad_norm": 0.10226302593946457,
	"learning_rate": 0.0002,
	"loss": 0.1406,
	"step": 13360
	},
	{
	"epoch": 0.0243157777479716,
	"grad_norm": 0.0939667820930481,
	"learning_rate": 0.0002,
	"loss": 0.0755,
	"step": 13370
	},
	{
	"epoch": 0.024333964567528798,
	"grad_norm": 0.029998745769262314,
	"learning_rate": 0.0002,
	"loss": 0.0748,
	"step": 13380
	},
	{
	"epoch": 0.024352151387085994,
	"grad_norm": 0.1240144744515419,
	"learning_rate": 0.0002,
	"loss": 0.0639,
	"step": 13390
	},
	{
	"epoch": 0.02437033820664319,
	"grad_norm": 0.017499787732958794,
	"learning_rate": 0.0002,
	"loss": 0.0156,
	"step": 13400
	},
	{
	"epoch": 0.024388525026200387,
	"grad_norm": 0.11781036853790283,
	"learning_rate": 0.0002,
	"loss": 0.1385,
	"step": 13410
	},
	{
	"epoch": 0.024406711845757583,
	"grad_norm": 0.09330960363149643,
	"learning_rate": 0.0002,
	"loss": 0.0789,
	"step": 13420
	},
	{
	"epoch": 0.02442489866531478,
	"grad_norm": 0.03347505256533623,
	"learning_rate": 0.0002,
	"loss": 0.0742,
	"step": 13430
	},
	{
	"epoch": 0.024443085484871976,
	"grad_norm": 0.18877847492694855,
	"learning_rate": 0.0002,
	"loss": 0.0701,
	"step": 13440
	},
	{
	"epoch": 0.024461272304429172,
	"grad_norm": 0.03831986337900162,
	"learning_rate": 0.0002,
	"loss": 0.0243,
	"step": 13450
	},
	{
	"epoch": 0.02447945912398637,
	"grad_norm": 0.07360157370567322,
	"learning_rate": 0.0002,
	"loss": 0.1237,
	"step": 13460
	},
	{
	"epoch": 0.024497645943543565,
	"grad_norm": 0.0442088283598423,
	"learning_rate": 0.0002,
	"loss": 0.0742,
	"step": 13470
	},
	{
	"epoch": 0.02451583276310076,
	"grad_norm": 0.07053640484809875,
	"learning_rate": 0.0002,
	"loss": 0.0793,
	"step": 13480
	},
	{
	"epoch": 0.024534019582657957,
	"grad_norm": 0.20134539902210236,
	"learning_rate": 0.0002,
	"loss": 0.0621,
	"step": 13490
	},
	{
	"epoch": 0.024552206402215154,
	"grad_norm": 0.016353536397218704,
	"learning_rate": 0.0002,
	"loss": 0.0204,
	"step": 13500
	},
	{
	"epoch": 0.02457039322177235,
	"grad_norm": 0.15373657643795013,
	"learning_rate": 0.0002,
	"loss": 0.1446,
	"step": 13510
	},
	{
	"epoch": 0.024588580041329546,
	"grad_norm": 2.457998037338257,
	"learning_rate": 0.0002,
	"loss": 0.0959,
	"step": 13520
	},
	{
	"epoch": 0.024606766860886743,
	"grad_norm": 0.11631426215171814,
	"learning_rate": 0.0002,
	"loss": 0.0718,
	"step": 13530
	},
	{
	"epoch": 0.02462495368044394,
	"grad_norm": 0.15928395092487335,
	"learning_rate": 0.0002,
	"loss": 0.0638,
	"step": 13540
	},
	{
	"epoch": 0.024643140500001135,
	"grad_norm": 0.01724998839199543,
	"learning_rate": 0.0002,
	"loss": 0.0127,
	"step": 13550
	},
	{
	"epoch": 0.02466132731955833,
	"grad_norm": 0.10434440523386002,
	"learning_rate": 0.0002,
	"loss": 0.1676,
	"step": 13560
	},
	{
	"epoch": 0.02467951413911553,
	"grad_norm": 0.09029936045408249,
	"learning_rate": 0.0002,
	"loss": 0.0792,
	"step": 13570
	},
	{
	"epoch": 0.024697700958672728,
	"grad_norm": 0.07413540780544281,
	"learning_rate": 0.0002,
	"loss": 0.074,
	"step": 13580
	},
	{
	"epoch": 0.024715887778229924,
	"grad_norm": 0.15171368420124054,
	"learning_rate": 0.0002,
	"loss": 0.0646,
	"step": 13590
	},
	{
	"epoch": 0.02473407459778712,
	"grad_norm": 0.03615165874361992,
	"learning_rate": 0.0002,
	"loss": 0.0253,
	"step": 13600
	},
	{
	"epoch": 0.024752261417344316,
	"grad_norm": 0.08074207603931427,
	"learning_rate": 0.0002,
	"loss": 0.1251,
	"step": 13610
	},
	{
	"epoch": 0.024770448236901513,
	"grad_norm": 0.12725302577018738,
	"learning_rate": 0.0002,
	"loss": 0.0868,
	"step": 13620
	},
	{
	"epoch": 0.02478863505645871,
	"grad_norm": 0.02872832864522934,
	"learning_rate": 0.0002,
	"loss": 0.072,
	"step": 13630
	},
	{
	"epoch": 0.024806821876015905,
	"grad_norm": 0.14573116600513458,
	"learning_rate": 0.0002,
	"loss": 0.06,
	"step": 13640
	},
	{
	"epoch": 0.0248250086955731,
	"grad_norm": 0.039421938359737396,
	"learning_rate": 0.0002,
	"loss": 0.0259,
	"step": 13650
	},
	{
	"epoch": 0.024843195515130298,
	"grad_norm": 0.08786037564277649,
	"learning_rate": 0.0002,
	"loss": 0.1255,
	"step": 13660
	},
	{
	"epoch": 0.024861382334687494,
	"grad_norm": 0.7118334174156189,
	"learning_rate": 0.0002,
	"loss": 0.1096,
	"step": 13670
	},
	{
	"epoch": 0.02487956915424469,
	"grad_norm": 0.05718977376818657,
	"learning_rate": 0.0002,
	"loss": 0.1057,
	"step": 13680
	},
	{
	"epoch": 0.024897755973801887,
	"grad_norm": 0.19388055801391602,
	"learning_rate": 0.0002,
	"loss": 0.0668,
	"step": 13690
	},
	{
	"epoch": 0.024915942793359083,
	"grad_norm": 0.02519839070737362,
	"learning_rate": 0.0002,
	"loss": 0.0182,
	"step": 13700
	},
	{
	"epoch": 0.02493412961291628,
	"grad_norm": 0.15939857065677643,
	"learning_rate": 0.0002,
	"loss": 0.1685,
	"step": 13710
	},
	{
	"epoch": 0.024952316432473476,
	"grad_norm": 0.07893367856740952,
	"learning_rate": 0.0002,
	"loss": 0.0781,
	"step": 13720
	},
	{
	"epoch": 0.024970503252030672,
	"grad_norm": 0.0573757067322731,
	"learning_rate": 0.0002,
	"loss": 0.0819,
	"step": 13730
	},
	{
	"epoch": 0.02498869007158787,
	"grad_norm": 0.1089317575097084,
	"learning_rate": 0.0002,
	"loss": 0.0645,
	"step": 13740
	},
	{
	"epoch": 0.025006876891145065,
	"grad_norm": 0.03239568695425987,
	"learning_rate": 0.0002,
	"loss": 0.0199,
	"step": 13750
	},
	{
	"epoch": 0.02502506371070226,
	"grad_norm": 0.04015114903450012,
	"learning_rate": 0.0002,
	"loss": 0.146,
	"step": 13760
	},
	{
	"epoch": 0.025043250530259457,
	"grad_norm": 0.15218386054039001,
	"learning_rate": 0.0002,
	"loss": 0.0854,
	"step": 13770
	},
	{
	"epoch": 0.025061437349816654,
	"grad_norm": 0.04461386427283287,
	"learning_rate": 0.0002,
	"loss": 0.0734,
	"step": 13780
	},
	{
	"epoch": 0.02507962416937385,
	"grad_norm": 0.17443357408046722,
	"learning_rate": 0.0002,
	"loss": 0.0677,
	"step": 13790
	},
	{
	"epoch": 0.025097810988931046,
	"grad_norm": 1.0899302959442139,
	"learning_rate": 0.0002,
	"loss": 0.0312,
	"step": 13800
	},
	{
	"epoch": 0.025115997808488243,
	"grad_norm": 0.04115718603134155,
	"learning_rate": 0.0002,
	"loss": 0.1392,
	"step": 13810
	},
	{
	"epoch": 0.02513418462804544,
	"grad_norm": 0.06605038046836853,
	"learning_rate": 0.0002,
	"loss": 0.0826,
	"step": 13820
	},
	{
	"epoch": 0.025152371447602635,
	"grad_norm": 0.115416020154953,
	"learning_rate": 0.0002,
	"loss": 0.0709,
	"step": 13830
	},
	{
	"epoch": 0.02517055826715983,
	"grad_norm": 0.1582881212234497,
	"learning_rate": 0.0002,
	"loss": 0.066,
	"step": 13840
	},
	{
	"epoch": 0.025188745086717028,
	"grad_norm": 0.037643156945705414,
	"learning_rate": 0.0002,
	"loss": 0.0226,
	"step": 13850
	},
	{
	"epoch": 0.025206931906274224,
	"grad_norm": 0.08343279361724854,
	"learning_rate": 0.0002,
	"loss": 0.1197,
	"step": 13860
	},
	{
	"epoch": 0.02522511872583142,
	"grad_norm": 0.13482169806957245,
	"learning_rate": 0.0002,
	"loss": 0.0799,
	"step": 13870
	},
	{
	"epoch": 0.025243305545388617,
	"grad_norm": 0.10373103618621826,
	"learning_rate": 0.0002,
	"loss": 0.075,
	"step": 13880
	},
	{
	"epoch": 0.025261492364945813,
	"grad_norm": 0.1348303109407425,
	"learning_rate": 0.0002,
	"loss": 0.0603,
	"step": 13890
	},
	{
	"epoch": 0.02527967918450301,
	"grad_norm": 0.058479245752096176,
	"learning_rate": 0.0002,
	"loss": 0.0252,
	"step": 13900
	},
	{
	"epoch": 0.025297866004060206,
	"grad_norm": 0.19177350401878357,
	"learning_rate": 0.0002,
	"loss": 0.122,
	"step": 13910
	},
	{
	"epoch": 0.025316052823617406,
	"grad_norm": 0.11044300347566605,
	"learning_rate": 0.0002,
	"loss": 0.0724,
	"step": 13920
	},
	{
	"epoch": 0.025334239643174602,
	"grad_norm": 0.05279375612735748,
	"learning_rate": 0.0002,
	"loss": 0.0836,
	"step": 13930
	},
	{
	"epoch": 0.025352426462731798,
	"grad_norm": 0.12162257730960846,
	"learning_rate": 0.0002,
	"loss": 0.0615,
	"step": 13940
	},
	{
	"epoch": 0.025370613282288994,
	"grad_norm": 0.026728983968496323,
	"learning_rate": 0.0002,
	"loss": 0.0207,
	"step": 13950
	},
	{
	"epoch": 0.02538880010184619,
	"grad_norm": 0.08440329879522324,
	"learning_rate": 0.0002,
	"loss": 0.1171,
	"step": 13960
	},
	{
	"epoch": 0.025406986921403387,
	"grad_norm": 0.10090481489896774,
	"learning_rate": 0.0002,
	"loss": 0.0851,
	"step": 13970
	},
	{
	"epoch": 0.025425173740960583,
	"grad_norm": 0.03063822351396084,
	"learning_rate": 0.0002,
	"loss": 0.0783,
	"step": 13980
	},
	{
	"epoch": 0.02544336056051778,
	"grad_norm": 0.14754973351955414,
	"learning_rate": 0.0002,
	"loss": 0.0662,
	"step": 13990
	},
	{
	"epoch": 0.025461547380074976,
	"grad_norm": 0.04844941198825836,
	"learning_rate": 0.0002,
	"loss": 0.0204,
	"step": 14000
	},
	{
	"epoch": 0.025479734199632172,
	"grad_norm": 0.08291894942522049,
	"learning_rate": 0.0002,
	"loss": 0.13,
	"step": 14010
	},
	{
	"epoch": 0.02549792101918937,
	"grad_norm": 0.05875542387366295,
	"learning_rate": 0.0002,
	"loss": 0.0732,
	"step": 14020
	},
	{
	"epoch": 0.025516107838746565,
	"grad_norm": 0.04103298857808113,
	"learning_rate": 0.0002,
	"loss": 0.0796,
	"step": 14030
	},
	{
	"epoch": 0.02553429465830376,
	"grad_norm": 0.20349934697151184,
	"learning_rate": 0.0002,
	"loss": 0.0672,
	"step": 14040
	},
	{
	"epoch": 0.025552481477860958,
	"grad_norm": 0.05419473722577095,
	"learning_rate": 0.0002,
	"loss": 0.0231,
	"step": 14050
	},
	{
	"epoch": 0.025570668297418154,
	"grad_norm": 0.05501960590481758,
	"learning_rate": 0.0002,
	"loss": 0.1281,
	"step": 14060
	},
	{
	"epoch": 0.02558885511697535,
	"grad_norm": 0.07140739262104034,
	"learning_rate": 0.0002,
	"loss": 0.0746,
	"step": 14070
	},
	{
	"epoch": 0.025607041936532546,
	"grad_norm": 0.04564960300922394,
	"learning_rate": 0.0002,
	"loss": 0.0746,
	"step": 14080
	},
	{
	"epoch": 0.025625228756089743,
	"grad_norm": 0.16987308859825134,
	"learning_rate": 0.0002,
	"loss": 0.0642,
	"step": 14090
	},
	{
	"epoch": 0.02564341557564694,
	"grad_norm": 0.017460890114307404,
	"learning_rate": 0.0002,
	"loss": 0.0218,
	"step": 14100
	},
	{
	"epoch": 0.025661602395204135,
	"grad_norm": 0.15666340291500092,
	"learning_rate": 0.0002,
	"loss": 0.1572,
	"step": 14110
	},
	{
	"epoch": 0.02567978921476133,
	"grad_norm": 0.06847309321165085,
	"learning_rate": 0.0002,
	"loss": 0.0744,
	"step": 14120
	},
	{
	"epoch": 0.025697976034318528,
	"grad_norm": 0.03678276389837265,
	"learning_rate": 0.0002,
	"loss": 0.0718,
	"step": 14130
	},
	{
	"epoch": 0.025716162853875724,
	"grad_norm": 0.1861123889684677,
	"learning_rate": 0.0002,
	"loss": 0.06,
	"step": 14140
	},
	{
	"epoch": 0.02573434967343292,
	"grad_norm": 0.010294788517057896,
	"learning_rate": 0.0002,
	"loss": 0.0183,
	"step": 14150
	},
	{
	"epoch": 0.025752536492990117,
	"grad_norm": 0.0643458440899849,
	"learning_rate": 0.0002,
	"loss": 0.1594,
	"step": 14160
	},
	{
	"epoch": 0.025770723312547313,
	"grad_norm": 0.10639938712120056,
	"learning_rate": 0.0002,
	"loss": 0.0761,
	"step": 14170
	},
	{
	"epoch": 0.02578891013210451,
	"grad_norm": 0.056529924273490906,
	"learning_rate": 0.0002,
	"loss": 0.082,
	"step": 14180
	},
	{
	"epoch": 0.025807096951661706,
	"grad_norm": 0.18884658813476562,
	"learning_rate": 0.0002,
	"loss": 0.0683,
	"step": 14190
	},
	{
	"epoch": 0.025825283771218902,
	"grad_norm": 0.035667784512043,
	"learning_rate": 0.0002,
	"loss": 0.0263,
	"step": 14200
	},
	{
	"epoch": 0.0258434705907761,
	"grad_norm": 0.14650103449821472,
	"learning_rate": 0.0002,
	"loss": 0.1314,
	"step": 14210
	},
	{
	"epoch": 0.025861657410333295,
	"grad_norm": 0.12219654768705368,
	"learning_rate": 0.0002,
	"loss": 0.0755,
	"step": 14220
	},
	{
	"epoch": 0.02587984422989049,
	"grad_norm": 0.05271647870540619,
	"learning_rate": 0.0002,
	"loss": 0.0789,
	"step": 14230
	},
	{
	"epoch": 0.025898031049447687,
	"grad_norm": 0.1669916957616806,
	"learning_rate": 0.0002,
	"loss": 0.0641,
	"step": 14240
	},
	{
	"epoch": 0.025916217869004884,
	"grad_norm": 0.035175371915102005,
	"learning_rate": 0.0002,
	"loss": 0.0222,
	"step": 14250
	},
	{
	"epoch": 0.025934404688562084,
	"grad_norm": 0.14658409357070923,
	"learning_rate": 0.0002,
	"loss": 0.1382,
	"step": 14260
	},
	{
	"epoch": 0.02595259150811928,
	"grad_norm": 0.07525639981031418,
	"learning_rate": 0.0002,
	"loss": 0.0815,
	"step": 14270
	},
	{
	"epoch": 0.025970778327676476,
	"grad_norm": 0.02428872510790825,
	"learning_rate": 0.0002,
	"loss": 0.076,
	"step": 14280
	},
	{
	"epoch": 0.025988965147233672,
	"grad_norm": 0.1825665533542633,
	"learning_rate": 0.0002,
	"loss": 0.0652,
	"step": 14290
	},
	{
	"epoch": 0.02600715196679087,
	"grad_norm": 0.033867619931697845,
	"learning_rate": 0.0002,
	"loss": 0.0206,
	"step": 14300
	},
	{
	"epoch": 0.026025338786348065,
	"grad_norm": 0.051891107112169266,
	"learning_rate": 0.0002,
	"loss": 0.1576,
	"step": 14310
	},
	{
	"epoch": 0.02604352560590526,
	"grad_norm": 0.1111353188753128,
	"learning_rate": 0.0002,
	"loss": 0.0889,
	"step": 14320
	},
	{
	"epoch": 0.026061712425462458,
	"grad_norm": 0.04253942146897316,
	"learning_rate": 0.0002,
	"loss": 0.079,
	"step": 14330
	},
	{
	"epoch": 0.026079899245019654,
	"grad_norm": 0.17151106894016266,
	"learning_rate": 0.0002,
	"loss": 0.0678,
	"step": 14340
	},
	{
	"epoch": 0.02609808606457685,
	"grad_norm": 0.03877005726099014,
	"learning_rate": 0.0002,
	"loss": 0.0206,
	"step": 14350
	},
	{
	"epoch": 0.026116272884134047,
	"grad_norm": 0.03517235442996025,
	"learning_rate": 0.0002,
	"loss": 0.1343,
	"step": 14360
	},
	{
	"epoch": 0.026134459703691243,
	"grad_norm": 0.08157488703727722,
	"learning_rate": 0.0002,
	"loss": 0.0764,
	"step": 14370
	},
	{
	"epoch": 0.02615264652324844,
	"grad_norm": 0.03245632350444794,
	"learning_rate": 0.0002,
	"loss": 0.0758,
	"step": 14380
	},
	{
	"epoch": 0.026170833342805636,
	"grad_norm": 0.20079655945301056,
	"learning_rate": 0.0002,
	"loss": 0.0691,
	"step": 14390
	},
	{
	"epoch": 0.026189020162362832,
	"grad_norm": 0.03477077558636665,
	"learning_rate": 0.0002,
	"loss": 0.0232,
	"step": 14400
	},
	{
	"epoch": 0.026207206981920028,
	"grad_norm": 0.14853888750076294,
	"learning_rate": 0.0002,
	"loss": 0.1436,
	"step": 14410
	},
	{
	"epoch": 0.026225393801477224,
	"grad_norm": 0.12416905164718628,
	"learning_rate": 0.0002,
	"loss": 0.0755,
	"step": 14420
	},
	{
	"epoch": 0.02624358062103442,
	"grad_norm": 0.03126871958374977,
	"learning_rate": 0.0002,
	"loss": 0.0762,
	"step": 14430
	},
	{
	"epoch": 0.026261767440591617,
	"grad_norm": 0.20726743340492249,
	"learning_rate": 0.0002,
	"loss": 0.0614,
	"step": 14440
	},
	{
	"epoch": 0.026279954260148813,
	"grad_norm": 0.039617493748664856,
	"learning_rate": 0.0002,
	"loss": 0.0181,
	"step": 14450
	},
	{
	"epoch": 0.02629814107970601,
	"grad_norm": 0.08146277070045471,
	"learning_rate": 0.0002,
	"loss": 0.132,
	"step": 14460
	},
	{
	"epoch": 0.026316327899263206,
	"grad_norm": 0.07181694358587265,
	"learning_rate": 0.0002,
	"loss": 0.0706,
	"step": 14470
	},
	{
	"epoch": 0.026334514718820402,
	"grad_norm": 0.04080040752887726,
	"learning_rate": 0.0002,
	"loss": 0.0792,
	"step": 14480
	},
	{
	"epoch": 0.0263527015383776,
	"grad_norm": 0.1903056502342224,
	"learning_rate": 0.0002,
	"loss": 0.0647,
	"step": 14490
	},
	{
	"epoch": 0.026370888357934795,
	"grad_norm": 0.027256207540631294,
	"learning_rate": 0.0002,
	"loss": 0.0202,
	"step": 14500
	},
	{
	"epoch": 0.02638907517749199,
	"grad_norm": 0.1434287130832672,
	"learning_rate": 0.0002,
	"loss": 0.1262,
	"step": 14510
	},
	{
	"epoch": 0.026407261997049188,
	"grad_norm": 0.06977452337741852,
	"learning_rate": 0.0002,
	"loss": 0.0722,
	"step": 14520
	},
	{
	"epoch": 0.026425448816606384,
	"grad_norm": 0.03453589975833893,
	"learning_rate": 0.0002,
	"loss": 0.0778,
	"step": 14530
	},
	{
	"epoch": 0.02644363563616358,
	"grad_norm": 0.1455768346786499,
	"learning_rate": 0.0002,
	"loss": 0.0678,
	"step": 14540
	},
	{
	"epoch": 0.026461822455720777,
	"grad_norm": 0.02977900207042694,
	"learning_rate": 0.0002,
	"loss": 0.0227,
	"step": 14550
	},
	{
	"epoch": 0.026480009275277973,
	"grad_norm": 0.06667467951774597,
	"learning_rate": 0.0002,
	"loss": 0.1345,
	"step": 14560
	},
	{
	"epoch": 0.02649819609483517,
	"grad_norm": 0.05125528201460838,
	"learning_rate": 0.0002,
	"loss": 0.078,
	"step": 14570
	},
	{
	"epoch": 0.026516382914392365,
	"grad_norm": 0.02796974405646324,
	"learning_rate": 0.0002,
	"loss": 0.0782,
	"step": 14580
	},
	{
	"epoch": 0.026534569733949562,
	"grad_norm": 0.18518763780593872,
	"learning_rate": 0.0002,
	"loss": 0.0722,
	"step": 14590
	},
	{
	"epoch": 0.02655275655350676,
	"grad_norm": 0.01827179454267025,
	"learning_rate": 0.0002,
	"loss": 0.0193,
	"step": 14600
	},
	{
	"epoch": 0.026570943373063958,
	"grad_norm": 0.1146678775548935,
	"learning_rate": 0.0002,
	"loss": 0.1651,
	"step": 14610
	},
	{
	"epoch": 0.026589130192621154,
	"grad_norm": 3.385193109512329,
	"learning_rate": 0.0002,
	"loss": 0.2165,
	"step": 14620
	},
	{
	"epoch": 0.02660731701217835,
	"grad_norm": 0.3052279055118561,
	"learning_rate": 0.0002,
	"loss": 0.1489,
	"step": 14630
	},
	{
	"epoch": 0.026625503831735547,
	"grad_norm": 0.12762853503227234,
	"learning_rate": 0.0002,
	"loss": 0.0693,
	"step": 14640
	},
	{
	"epoch": 0.026643690651292743,
	"grad_norm": 0.003925936296582222,
	"learning_rate": 0.0002,
	"loss": 0.0078,
	"step": 14650
	},
	{
	"epoch": 0.02666187747084994,
	"grad_norm": 0.28632932901382446,
	"learning_rate": 0.0002,
	"loss": 0.2533,
	"step": 14660
	},
	{
	"epoch": 0.026680064290407136,
	"grad_norm": 0.037552788853645325,
	"learning_rate": 0.0002,
	"loss": 0.0852,
	"step": 14670
	},
	{
	"epoch": 0.026698251109964332,
	"grad_norm": 0.0911126434803009,
	"learning_rate": 0.0002,
	"loss": 0.0751,
	"step": 14680
	},
	{
	"epoch": 0.02671643792952153,
	"grad_norm": 0.18434865772724152,
	"learning_rate": 0.0002,
	"loss": 0.084,
	"step": 14690
	},
	{
	"epoch": 0.026734624749078725,
	"grad_norm": 0.03813793510198593,
	"learning_rate": 0.0002,
	"loss": 0.0165,
	"step": 14700
	},
	{
	"epoch": 0.02675281156863592,
	"grad_norm": 0.04764392226934433,
	"learning_rate": 0.0002,
	"loss": 0.1642,
	"step": 14710
	},
	{
	"epoch": 0.026770998388193117,
	"grad_norm": 0.04611713066697121,
	"learning_rate": 0.0002,
	"loss": 0.088,
	"step": 14720
	},
	{
	"epoch": 0.026789185207750314,
	"grad_norm": 0.07171179354190826,
	"learning_rate": 0.0002,
	"loss": 0.1417,
	"step": 14730
	},
	{
	"epoch": 0.02680737202730751,
	"grad_norm": 0.14135649800300598,
	"learning_rate": 0.0002,
	"loss": 0.0692,
	"step": 14740
	},
	{
	"epoch": 0.026825558846864706,
	"grad_norm": 0.004508219193667173,
	"learning_rate": 0.0002,
	"loss": 0.016,
	"step": 14750
	},
	{
	"epoch": 0.026843745666421902,
	"grad_norm": 0.09732682257890701,
	"learning_rate": 0.0002,
	"loss": 0.2089,
	"step": 14760
	},
	{
	"epoch": 0.0268619324859791,
	"grad_norm": 0.12676575779914856,
	"learning_rate": 0.0002,
	"loss": 0.0849,
	"step": 14770
	},
	{
	"epoch": 0.026880119305536295,
	"grad_norm": 0.0696650817990303,
	"learning_rate": 0.0002,
	"loss": 0.08,
	"step": 14780
	},
	{
	"epoch": 0.02689830612509349,
	"grad_norm": 0.17883484065532684,
	"learning_rate": 0.0002,
	"loss": 0.0682,
	"step": 14790
	},
	{
	"epoch": 0.026916492944650688,
	"grad_norm": 0.0567975677549839,
	"learning_rate": 0.0002,
	"loss": 0.0149,
	"step": 14800
	},
	{
	"epoch": 0.026934679764207884,
	"grad_norm": 0.4884565472602844,
	"learning_rate": 0.0002,
	"loss": 0.6381,
	"step": 14810
	},
	{
	"epoch": 0.02695286658376508,
	"grad_norm": 0.0742981806397438,
	"learning_rate": 0.0002,
	"loss": 0.0845,
	"step": 14820
	},
	{
	"epoch": 0.026971053403322277,
	"grad_norm": 0.030466781929135323,
	"learning_rate": 0.0002,
	"loss": 0.0818,
	"step": 14830
	},
	{
	"epoch": 0.026989240222879473,
	"grad_norm": 0.13108357787132263,
	"learning_rate": 0.0002,
	"loss": 0.065,
	"step": 14840
	},
	{
	"epoch": 0.02700742704243667,
	"grad_norm": 0.019065184518694878,
	"learning_rate": 0.0002,
	"loss": 0.0168,
	"step": 14850
	},
	{
	"epoch": 0.027025613861993866,
	"grad_norm": 0.21891777217388153,
	"learning_rate": 0.0002,
	"loss": 0.1456,
	"step": 14860
	},
	{
	"epoch": 0.027043800681551062,
	"grad_norm": 0.0836934968829155,
	"learning_rate": 0.0002,
	"loss": 0.0781,
	"step": 14870
	},
	{
	"epoch": 0.027061987501108258,
	"grad_norm": 0.0643845945596695,
	"learning_rate": 0.0002,
	"loss": 0.0795,
	"step": 14880
	},
	{
	"epoch": 0.027080174320665455,
	"grad_norm": 0.27108556032180786,
	"learning_rate": 0.0002,
	"loss": 0.0722,
	"step": 14890
	},
	{
	"epoch": 0.02709836114022265,
	"grad_norm": 0.008289041928946972,
	"learning_rate": 0.0002,
	"loss": 0.0201,
	"step": 14900
	},
	{
	"epoch": 0.027116547959779847,
	"grad_norm": 0.03284185752272606,
	"learning_rate": 0.0002,
	"loss": 0.1509,
	"step": 14910
	},
	{
	"epoch": 0.027134734779337043,
	"grad_norm": 0.051129039376974106,
	"learning_rate": 0.0002,
	"loss": 0.0831,
	"step": 14920
	},
	{
	"epoch": 0.02715292159889424,
	"grad_norm": 0.046401191502809525,
	"learning_rate": 0.0002,
	"loss": 0.0694,
	"step": 14930
	},
	{
	"epoch": 0.027171108418451436,
	"grad_norm": 0.19945313036441803,
	"learning_rate": 0.0002,
	"loss": 0.0734,
	"step": 14940
	},
	{
	"epoch": 0.027189295238008636,
	"grad_norm": 0.03877973556518555,
	"learning_rate": 0.0002,
	"loss": 0.026,
	"step": 14950
	},
	{
	"epoch": 0.027207482057565832,
	"grad_norm": 0.19090695679187775,
	"learning_rate": 0.0002,
	"loss": 0.136,
	"step": 14960
	},
	{
	"epoch": 0.02722566887712303,
	"grad_norm": 0.11352288722991943,
	"learning_rate": 0.0002,
	"loss": 0.0797,
	"step": 14970
	},
	{
	"epoch": 0.027243855696680225,
	"grad_norm": 0.055218834429979324,
	"learning_rate": 0.0002,
	"loss": 0.0763,
	"step": 14980
	},
	{
	"epoch": 0.02726204251623742,
	"grad_norm": 0.1060803234577179,
	"learning_rate": 0.0002,
	"loss": 0.059,
	"step": 14990
	},
	{
	"epoch": 0.027280229335794617,
	"grad_norm": 0.03370797634124756,
	"learning_rate": 0.0002,
	"loss": 0.0172,
	"step": 15000
	},
	{
	"epoch": 0.027298416155351814,
	"grad_norm": 0.19884982705116272,
	"learning_rate": 0.0002,
	"loss": 0.1408,
	"step": 15010
	},
	{
	"epoch": 0.02731660297490901,
	"grad_norm": 0.1186273992061615,
	"learning_rate": 0.0002,
	"loss": 0.0769,
	"step": 15020
	},
	{
	"epoch": 0.027334789794466206,
	"grad_norm": 0.0494297556579113,
	"learning_rate": 0.0002,
	"loss": 0.0818,
	"step": 15030
	},
	{
	"epoch": 0.027352976614023403,
	"grad_norm": 0.17990480363368988,
	"learning_rate": 0.0002,
	"loss": 0.06,
	"step": 15040
	},
	{
	"epoch": 0.0273711634335806,
	"grad_norm": 0.015269913710653782,
	"learning_rate": 0.0002,
	"loss": 0.0143,
	"step": 15050
	},
	{
	"epoch": 0.027389350253137795,
	"grad_norm": 0.1387794464826584,
	"learning_rate": 0.0002,
	"loss": 0.171,
	"step": 15060
	},
	{
	"epoch": 0.02740753707269499,
	"grad_norm": 0.11648393422365189,
	"learning_rate": 0.0002,
	"loss": 0.0769,
	"step": 15070
	},
	{
	"epoch": 0.027425723892252188,
	"grad_norm": 0.04039733111858368,
	"learning_rate": 0.0002,
	"loss": 0.0707,
	"step": 15080
	},
	{
	"epoch": 0.027443910711809384,
	"grad_norm": 0.19274230301380157,
	"learning_rate": 0.0002,
	"loss": 0.0657,
	"step": 15090
	},
	{
	"epoch": 0.02746209753136658,
	"grad_norm": 0.03266929090023041,
	"learning_rate": 0.0002,
	"loss": 0.0155,
	"step": 15100
	},
	{
	"epoch": 0.027480284350923777,
	"grad_norm": 0.44524702429771423,
	"learning_rate": 0.0002,
	"loss": 0.3075,
	"step": 15110
	},
	{
	"epoch": 0.027498471170480973,
	"grad_norm": 0.15604422986507416,
	"learning_rate": 0.0002,
	"loss": 0.0874,
	"step": 15120
	},
	{
	"epoch": 0.02751665799003817,
	"grad_norm": 0.043061114847660065,
	"learning_rate": 0.0002,
	"loss": 0.0814,
	"step": 15130
	},
	{
	"epoch": 0.027534844809595366,
	"grad_norm": 0.2331482172012329,
	"learning_rate": 0.0002,
	"loss": 0.0638,
	"step": 15140
	},
	{
	"epoch": 0.027553031629152562,
	"grad_norm": 0.011037157848477364,
	"learning_rate": 0.0002,
	"loss": 0.0197,
	"step": 15150
	},
	{
	"epoch": 0.02757121844870976,
	"grad_norm": 0.0758776143193245,
	"learning_rate": 0.0002,
	"loss": 0.1481,
	"step": 15160
	},
	{
	"epoch": 0.027589405268266955,
	"grad_norm": 0.18878699839115143,
	"learning_rate": 0.0002,
	"loss": 0.083,
	"step": 15170
	},
	{
	"epoch": 0.02760759208782415,
	"grad_norm": 0.042469121515750885,
	"learning_rate": 0.0002,
	"loss": 0.0799,
	"step": 15180
	},
	{
	"epoch": 0.027625778907381347,
	"grad_norm": 0.1603335440158844,
	"learning_rate": 0.0002,
	"loss": 0.0579,
	"step": 15190
	},
	{
	"epoch": 0.027643965726938544,
	"grad_norm": 0.03533349186182022,
	"learning_rate": 0.0002,
	"loss": 0.0195,
	"step": 15200
	},
	{
	"epoch": 0.02766215254649574,
	"grad_norm": 0.2014724314212799,
	"learning_rate": 0.0002,
	"loss": 0.1443,
	"step": 15210
	},
	{
	"epoch": 0.027680339366052936,
	"grad_norm": 0.04604899883270264,
	"learning_rate": 0.0002,
	"loss": 0.0701,
	"step": 15220
	},
	{
	"epoch": 0.027698526185610133,
	"grad_norm": 0.04726789519190788,
	"learning_rate": 0.0002,
	"loss": 0.078,
	"step": 15230
	},
	{
	"epoch": 0.02771671300516733,
	"grad_norm": 0.16189764440059662,
	"learning_rate": 0.0002,
	"loss": 0.0686,
	"step": 15240
	},
	{
	"epoch": 0.027734899824724525,
	"grad_norm": 0.018077973276376724,
	"learning_rate": 0.0002,
	"loss": 0.0155,
	"step": 15250
	},
	{
	"epoch": 0.02775308664428172,
	"grad_norm": 0.09486963599920273,
	"learning_rate": 0.0002,
	"loss": 0.1695,
	"step": 15260
	},
	{
	"epoch": 0.027771273463838918,
	"grad_norm": 0.19950449466705322,
	"learning_rate": 0.0002,
	"loss": 0.0784,
	"step": 15270
	},
	{
	"epoch": 0.027789460283396114,
	"grad_norm": 0.03350493311882019,
	"learning_rate": 0.0002,
	"loss": 0.0797,
	"step": 15280
	},
	{
	"epoch": 0.027807647102953314,
	"grad_norm": 0.14408868551254272,
	"learning_rate": 0.0002,
	"loss": 0.0624,
	"step": 15290
	},
	{
	"epoch": 0.02782583392251051,
	"grad_norm": 0.03824521601200104,
	"learning_rate": 0.0002,
	"loss": 0.0182,
	"step": 15300
	},
	{
	"epoch": 0.027844020742067706,
	"grad_norm": 0.051167964935302734,
	"learning_rate": 0.0002,
	"loss": 0.1342,
	"step": 15310
	},
	{
	"epoch": 0.027862207561624903,
	"grad_norm": 0.08440420031547546,
	"learning_rate": 0.0002,
	"loss": 0.0775,
	"step": 15320
	},
	{
	"epoch": 0.0278803943811821,
	"grad_norm": 0.05162487551569939,
	"learning_rate": 0.0002,
	"loss": 0.0824,
	"step": 15330
	},
	{
	"epoch": 0.027898581200739295,
	"grad_norm": 0.1576220989227295,
	"learning_rate": 0.0002,
	"loss": 0.0607,
	"step": 15340
	},
	{
	"epoch": 0.02791676802029649,
	"grad_norm": 0.03840797394514084,
	"learning_rate": 0.0002,
	"loss": 0.0197,
	"step": 15350
	},
	{
	"epoch": 0.027934954839853688,
	"grad_norm": 0.1418246179819107,
	"learning_rate": 0.0002,
	"loss": 0.151,
	"step": 15360
	},
	{
	"epoch": 0.027953141659410884,
	"grad_norm": 0.07326096296310425,
	"learning_rate": 0.0002,
	"loss": 0.0764,
	"step": 15370
	},
	{
	"epoch": 0.02797132847896808,
	"grad_norm": 0.0582844614982605,
	"learning_rate": 0.0002,
	"loss": 0.0745,
	"step": 15380
	},
	{
	"epoch": 0.027989515298525277,
	"grad_norm": 0.2234935164451599,
	"learning_rate": 0.0002,
	"loss": 0.0687,
	"step": 15390
	},
	{
	"epoch": 0.028007702118082473,
	"grad_norm": 0.04384669288992882,
	"learning_rate": 0.0002,
	"loss": 0.023,
	"step": 15400
	},
	{
	"epoch": 0.02802588893763967,
	"grad_norm": 0.14306089282035828,
	"learning_rate": 0.0002,
	"loss": 0.1477,
	"step": 15410
	},
	{
	"epoch": 0.028044075757196866,
	"grad_norm": 0.1326105296611786,
	"learning_rate": 0.0002,
	"loss": 0.0784,
	"step": 15420
	},
	{
	"epoch": 0.028062262576754062,
	"grad_norm": 0.05531894043087959,
	"learning_rate": 0.0002,
	"loss": 0.0813,
	"step": 15430
	},
	{
	"epoch": 0.02808044939631126,
	"grad_norm": 0.14875297248363495,
	"learning_rate": 0.0002,
	"loss": 0.0622,
	"step": 15440
	},
	{
	"epoch": 0.028098636215868455,
	"grad_norm": 0.03749268501996994,
	"learning_rate": 0.0002,
	"loss": 0.0181,
	"step": 15450
	},
	{
	"epoch": 0.02811682303542565,
	"grad_norm": 0.05747106671333313,
	"learning_rate": 0.0002,
	"loss": 0.1157,
	"step": 15460
	},
	{
	"epoch": 0.028135009854982847,
	"grad_norm": 0.06197863444685936,
	"learning_rate": 0.0002,
	"loss": 0.0779,
	"step": 15470
	},
	{
	"epoch": 0.028153196674540044,
	"grad_norm": 0.09997677057981491,
	"learning_rate": 0.0002,
	"loss": 0.0784,
	"step": 15480
	},
	{
	"epoch": 0.02817138349409724,
	"grad_norm": 0.18067684769630432,
	"learning_rate": 0.0002,
	"loss": 0.0728,
	"step": 15490
	},
	{
	"epoch": 0.028189570313654436,
	"grad_norm": 0.03378088399767876,
	"learning_rate": 0.0002,
	"loss": 0.0252,
	"step": 15500
	},
	{
	"epoch": 0.028207757133211633,
	"grad_norm": 0.14048723876476288,
	"learning_rate": 0.0002,
	"loss": 0.1392,
	"step": 15510
	},
	{
	"epoch": 0.02822594395276883,
	"grad_norm": 0.09573493152856827,
	"learning_rate": 0.0002,
	"loss": 0.0751,
	"step": 15520
	},
	{
	"epoch": 0.028244130772326025,
	"grad_norm": 0.11000777781009674,
	"learning_rate": 0.0002,
	"loss": 0.08,
	"step": 15530
	},
	{
	"epoch": 0.02826231759188322,
	"grad_norm": 0.17712855339050293,
	"learning_rate": 0.0002,
	"loss": 0.0658,
	"step": 15540
	},
	{
	"epoch": 0.028280504411440418,
	"grad_norm": 0.0183733981102705,
	"learning_rate": 0.0002,
	"loss": 0.0188,
	"step": 15550
	},
	{
	"epoch": 0.028298691230997614,
	"grad_norm": 0.15027762949466705,
	"learning_rate": 0.0002,
	"loss": 0.1235,
	"step": 15560
	},
	{
	"epoch": 0.02831687805055481,
	"grad_norm": 0.10586661100387573,
	"learning_rate": 0.0002,
	"loss": 0.0791,
	"step": 15570
	},
	{
	"epoch": 0.028335064870112007,
	"grad_norm": 0.031083540990948677,
	"learning_rate": 0.0002,
	"loss": 0.0765,
	"step": 15580
	},
	{
	"epoch": 0.028353251689669203,
	"grad_norm": 0.12294827401638031,
	"learning_rate": 0.0002,
	"loss": 0.0615,
	"step": 15590
	},
	{
	"epoch": 0.0283714385092264,
	"grad_norm": 0.03652534633874893,
	"learning_rate": 0.0002,
	"loss": 0.0203,
	"step": 15600
	},
	{
	"epoch": 0.028389625328783596,
	"grad_norm": 0.046638645231723785,
	"learning_rate": 0.0002,
	"loss": 0.1327,
	"step": 15610
	},
	{
	"epoch": 0.028407812148340792,
	"grad_norm": 0.07200415432453156,
	"learning_rate": 0.0002,
	"loss": 0.0765,
	"step": 15620
	},
	{
	"epoch": 0.028425998967897992,
	"grad_norm": 0.040679559111595154,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 15630
	},
	{
	"epoch": 0.028444185787455188,
	"grad_norm": 0.1572960615158081,
	"learning_rate": 0.0002,
	"loss": 0.0637,
	"step": 15640
	},
	{
	"epoch": 0.028462372607012384,
	"grad_norm": 0.036091506481170654,
	"learning_rate": 0.0002,
	"loss": 0.0266,
	"step": 15650
	},
	{
	"epoch": 0.02848055942656958,
	"grad_norm": 0.10555437207221985,
	"learning_rate": 0.0002,
	"loss": 0.1093,
	"step": 15660
	},
	{
	"epoch": 0.028498746246126777,
	"grad_norm": 0.08854329586029053,
	"learning_rate": 0.0002,
	"loss": 0.0741,
	"step": 15670
	},
	{
	"epoch": 0.028516933065683973,
	"grad_norm": 0.02908560261130333,
	"learning_rate": 0.0002,
	"loss": 0.0732,
	"step": 15680
	},
	{
	"epoch": 0.02853511988524117,
	"grad_norm": 0.1568380743265152,
	"learning_rate": 0.0002,
	"loss": 0.0586,
	"step": 15690
	},
	{
	"epoch": 0.028553306704798366,
	"grad_norm": 0.04985487833619118,
	"learning_rate": 0.0002,
	"loss": 0.0247,
	"step": 15700
	},
	{
	"epoch": 0.028571493524355562,
	"grad_norm": 0.07582605630159378,
	"learning_rate": 0.0002,
	"loss": 0.1196,
	"step": 15710
	},
	{
	"epoch": 0.02858968034391276,
	"grad_norm": 0.02401849813759327,
	"learning_rate": 0.0002,
	"loss": 0.075,
	"step": 15720
	},
	{
	"epoch": 0.028607867163469955,
	"grad_norm": 0.032545965164899826,
	"learning_rate": 0.0002,
	"loss": 0.0761,
	"step": 15730
	},
	{
	"epoch": 0.02862605398302715,
	"grad_norm": 0.1098649650812149,
	"learning_rate": 0.0002,
	"loss": 0.0599,
	"step": 15740
	},
	{
	"epoch": 0.028644240802584348,
	"grad_norm": 0.021166007965803146,
	"learning_rate": 0.0002,
	"loss": 0.0169,
	"step": 15750
	},
	{
	"epoch": 0.028662427622141544,
	"grad_norm": 0.0823541134595871,
	"learning_rate": 0.0002,
	"loss": 0.1337,
	"step": 15760
	},
	{
	"epoch": 0.02868061444169874,
	"grad_norm": 0.1009572371840477,
	"learning_rate": 0.0002,
	"loss": 0.0779,
	"step": 15770
	},
	{
	"epoch": 0.028698801261255937,
	"grad_norm": 0.09160738438367844,
	"learning_rate": 0.0002,
	"loss": 0.0766,
	"step": 15780
	},
	{
	"epoch": 0.028716988080813133,
	"grad_norm": 0.14419673383235931,
	"learning_rate": 0.0002,
	"loss": 0.0594,
	"step": 15790
	},
	{
	"epoch": 0.02873517490037033,
	"grad_norm": 0.01628550887107849,
	"learning_rate": 0.0002,
	"loss": 0.0218,
	"step": 15800
	},
	{
	"epoch": 0.028753361719927525,
	"grad_norm": 0.15207678079605103,
	"learning_rate": 0.0002,
	"loss": 0.1262,
	"step": 15810
	},
	{
	"epoch": 0.028771548539484722,
	"grad_norm": 0.14951761066913605,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 15820
	},
	{
	"epoch": 0.028789735359041918,
	"grad_norm": 0.028078215196728706,
	"learning_rate": 0.0002,
	"loss": 0.0783,
	"step": 15830
	},
	{
	"epoch": 0.028807922178599114,
	"grad_norm": 0.16079741716384888,
	"learning_rate": 0.0002,
	"loss": 0.0633,
	"step": 15840
	},
	{
	"epoch": 0.02882610899815631,
	"grad_norm": 0.04218870773911476,
	"learning_rate": 0.0002,
	"loss": 0.0217,
	"step": 15850
	},
	{
	"epoch": 0.028844295817713507,
	"grad_norm": 0.13758492469787598,
	"learning_rate": 0.0002,
	"loss": 0.1358,
	"step": 15860
	},
	{
	"epoch": 0.028862482637270703,
	"grad_norm": 0.10366559028625488,
	"learning_rate": 0.0002,
	"loss": 0.0787,
	"step": 15870
	},
	{
	"epoch": 0.0288806694568279,
	"grad_norm": 0.04433147609233856,
	"learning_rate": 0.0002,
	"loss": 0.0781,
	"step": 15880
	},
	{
	"epoch": 0.028898856276385096,
	"grad_norm": 0.16709402203559875,
	"learning_rate": 0.0002,
	"loss": 0.0684,
	"step": 15890
	},
	{
	"epoch": 0.028917043095942292,
	"grad_norm": 0.03370310738682747,
	"learning_rate": 0.0002,
	"loss": 0.0191,
	"step": 15900
	},
	{
	"epoch": 0.02893522991549949,
	"grad_norm": 0.15469267964363098,
	"learning_rate": 0.0002,
	"loss": 0.1487,
	"step": 15910
	},
	{
	"epoch": 0.028953416735056685,
	"grad_norm": 0.19974654912948608,
	"learning_rate": 0.0002,
	"loss": 0.0769,
	"step": 15920
	},
	{
	"epoch": 0.02897160355461388,
	"grad_norm": 0.04307623952627182,
	"learning_rate": 0.0002,
	"loss": 0.075,
	"step": 15930
	},
	{
	"epoch": 0.028989790374171077,
	"grad_norm": 0.21828149259090424,
	"learning_rate": 0.0002,
	"loss": 0.0691,
	"step": 15940
	},
	{
	"epoch": 0.029007977193728274,
	"grad_norm": 0.0268656387925148,
	"learning_rate": 0.0002,
	"loss": 0.022,
	"step": 15950
	},
	{
	"epoch": 0.02902616401328547,
	"grad_norm": 0.11213699728250504,
	"learning_rate": 0.0002,
	"loss": 0.1326,
	"step": 15960
	},
	{
	"epoch": 0.029044350832842666,
	"grad_norm": 0.2018963098526001,
	"learning_rate": 0.0002,
	"loss": 0.0772,
	"step": 15970
	},
	{
	"epoch": 0.029062537652399866,
	"grad_norm": 0.06034110113978386,
	"learning_rate": 0.0002,
	"loss": 0.0712,
	"step": 15980
	},
	{
	"epoch": 0.029080724471957062,
	"grad_norm": 0.1817707121372223,
	"learning_rate": 0.0002,
	"loss": 0.0692,
	"step": 15990
	},
	{
	"epoch": 0.02909891129151426,
	"grad_norm": 0.03466440737247467,
	"learning_rate": 0.0002,
	"loss": 0.0205,
	"step": 16000
	},
	{
	"epoch": 0.029117098111071455,
	"grad_norm": 0.1375580132007599,
	"learning_rate": 0.0002,
	"loss": 0.1499,
	"step": 16010
	},
	{
	"epoch": 0.02913528493062865,
	"grad_norm": 0.14308910071849823,
	"learning_rate": 0.0002,
	"loss": 0.083,
	"step": 16020
	},
	{
	"epoch": 0.029153471750185848,
	"grad_norm": 0.041022926568984985,
	"learning_rate": 0.0002,
	"loss": 0.0785,
	"step": 16030
	},
	{
	"epoch": 0.029171658569743044,
	"grad_norm": 0.1701498180627823,
	"learning_rate": 0.0002,
	"loss": 0.0656,
	"step": 16040
	},
	{
	"epoch": 0.02918984538930024,
	"grad_norm": 0.023075805976986885,
	"learning_rate": 0.0002,
	"loss": 0.0225,
	"step": 16050
	},
	{
	"epoch": 0.029208032208857437,
	"grad_norm": 0.05303549766540527,
	"learning_rate": 0.0002,
	"loss": 0.1369,
	"step": 16060
	},
	{
	"epoch": 0.029226219028414633,
	"grad_norm": 0.044178470969200134,
	"learning_rate": 0.0002,
	"loss": 0.0754,
	"step": 16070
	},
	{
	"epoch": 0.02924440584797183,
	"grad_norm": 0.03951259329915047,
	"learning_rate": 0.0002,
	"loss": 0.0759,
	"step": 16080
	},
	{
	"epoch": 0.029262592667529026,
	"grad_norm": 0.13762067258358002,
	"learning_rate": 0.0002,
	"loss": 0.0605,
	"step": 16090
	},
	{
	"epoch": 0.029280779487086222,
	"grad_norm": 0.021227868273854256,
	"learning_rate": 0.0002,
	"loss": 0.0173,
	"step": 16100
	},
	{
	"epoch": 0.029298966306643418,
	"grad_norm": 0.19493195414543152,
	"learning_rate": 0.0002,
	"loss": 0.1307,
	"step": 16110
	},
	{
	"epoch": 0.029317153126200615,
	"grad_norm": 0.09980791062116623,
	"learning_rate": 0.0002,
	"loss": 0.0724,
	"step": 16120
	},
	{
	"epoch": 0.02933533994575781,
	"grad_norm": 0.08762095868587494,
	"learning_rate": 0.0002,
	"loss": 0.0734,
	"step": 16130
	},
	{
	"epoch": 0.029353526765315007,
	"grad_norm": 0.14261308312416077,
	"learning_rate": 0.0002,
	"loss": 0.071,
	"step": 16140
	},
	{
	"epoch": 0.029371713584872203,
	"grad_norm": 0.033154651522636414,
	"learning_rate": 0.0002,
	"loss": 0.0238,
	"step": 16150
	},
	{
	"epoch": 0.0293899004044294,
	"grad_norm": 0.1422877162694931,
	"learning_rate": 0.0002,
	"loss": 0.1285,
	"step": 16160
	},
	{
	"epoch": 0.029408087223986596,
	"grad_norm": 0.1342266947031021,
	"learning_rate": 0.0002,
	"loss": 0.0765,
	"step": 16170
	},
	{
	"epoch": 0.029426274043543792,
	"grad_norm": 0.031525906175374985,
	"learning_rate": 0.0002,
	"loss": 0.0772,
	"step": 16180
	},
	{
	"epoch": 0.02944446086310099,
	"grad_norm": 0.14790122210979462,
	"learning_rate": 0.0002,
	"loss": 0.0627,
	"step": 16190
	},
	{
	"epoch": 0.029462647682658185,
	"grad_norm": 0.025354932993650436,
	"learning_rate": 0.0002,
	"loss": 0.0212,
	"step": 16200
	},
	{
	"epoch": 0.02948083450221538,
	"grad_norm": 0.1287624090909958,
	"learning_rate": 0.0002,
	"loss": 0.1457,
	"step": 16210
	},
	{
	"epoch": 0.029499021321772578,
	"grad_norm": 0.1079782247543335,
	"learning_rate": 0.0002,
	"loss": 0.0819,
	"step": 16220
	},
	{
	"epoch": 0.029517208141329774,
	"grad_norm": 0.04884497448801994,
	"learning_rate": 0.0002,
	"loss": 0.0843,
	"step": 16230
	},
	{
	"epoch": 0.02953539496088697,
	"grad_norm": 0.14452646672725677,
	"learning_rate": 0.0002,
	"loss": 0.0664,
	"step": 16240
	},
	{
	"epoch": 0.029553581780444167,
	"grad_norm": 0.029236188158392906,
	"learning_rate": 0.0002,
	"loss": 0.0182,
	"step": 16250
	},
	{
	"epoch": 0.029571768600001363,
	"grad_norm": 0.18048252165317535,
	"learning_rate": 0.0002,
	"loss": 0.1382,
	"step": 16260
	},
	{
	"epoch": 0.02958995541955856,
	"grad_norm": 0.08402508497238159,
	"learning_rate": 0.0002,
	"loss": 0.078,
	"step": 16270
	},
	{
	"epoch": 0.029608142239115755,
	"grad_norm": 0.07740433514118195,
	"learning_rate": 0.0002,
	"loss": 0.0776,
	"step": 16280
	},
	{
	"epoch": 0.029626329058672952,
	"grad_norm": 0.1414123773574829,
	"learning_rate": 0.0002,
	"loss": 0.0611,
	"step": 16290
	},
	{
	"epoch": 0.029644515878230148,
	"grad_norm": 0.03296574577689171,
	"learning_rate": 0.0002,
	"loss": 0.0228,
	"step": 16300
	},
	{
	"epoch": 0.029662702697787344,
	"grad_norm": 0.09312735497951508,
	"learning_rate": 0.0002,
	"loss": 0.1213,
	"step": 16310
	},
	{
	"epoch": 0.029680889517344544,
	"grad_norm": 0.07857484370470047,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 16320
	},
	{
	"epoch": 0.02969907633690174,
	"grad_norm": 0.0680379793047905,
	"learning_rate": 0.0002,
	"loss": 0.0774,
	"step": 16330
	},
	{
	"epoch": 0.029717263156458937,
	"grad_norm": 0.18506748974323273,
	"learning_rate": 0.0002,
	"loss": 0.0675,
	"step": 16340
	},
	{
	"epoch": 0.029735449976016133,
	"grad_norm": 0.029233543202280998,
	"learning_rate": 0.0002,
	"loss": 0.0187,
	"step": 16350
	},
	{
	"epoch": 0.02975363679557333,
	"grad_norm": 0.1133171021938324,
	"learning_rate": 0.0002,
	"loss": 0.1217,
	"step": 16360
	},
	{
	"epoch": 0.029771823615130526,
	"grad_norm": 0.06985988467931747,
	"learning_rate": 0.0002,
	"loss": 0.0761,
	"step": 16370
	},
	{
	"epoch": 0.029790010434687722,
	"grad_norm": 0.13158757984638214,
	"learning_rate": 0.0002,
	"loss": 0.0764,
	"step": 16380
	},
	{
	"epoch": 0.02980819725424492,
	"grad_norm": 0.19751304388046265,
	"learning_rate": 0.0002,
	"loss": 0.0652,
	"step": 16390
	},
	{
	"epoch": 0.029826384073802115,
	"grad_norm": 0.019567493349313736,
	"learning_rate": 0.0002,
	"loss": 0.0166,
	"step": 16400
	},
	{
	"epoch": 0.02984457089335931,
	"grad_norm": 0.1859702467918396,
	"learning_rate": 0.0002,
	"loss": 0.1482,
	"step": 16410
	},
	{
	"epoch": 0.029862757712916507,
	"grad_norm": 0.03211350366473198,
	"learning_rate": 0.0002,
	"loss": 0.073,
	"step": 16420
	},
	{
	"epoch": 0.029880944532473704,
	"grad_norm": 0.10664219409227371,
	"learning_rate": 0.0002,
	"loss": 0.075,
	"step": 16430
	},
	{
	"epoch": 0.0298991313520309,
	"grad_norm": 0.18254978954792023,
	"learning_rate": 0.0002,
	"loss": 0.0666,
	"step": 16440
	},
	{
	"epoch": 0.029917318171588096,
	"grad_norm": 0.03076091594994068,
	"learning_rate": 0.0002,
	"loss": 0.0217,
	"step": 16450
	},
	{
	"epoch": 0.029935504991145293,
	"grad_norm": 0.11172248423099518,
	"learning_rate": 0.0002,
	"loss": 0.1115,
	"step": 16460
	},
	{
	"epoch": 0.02995369181070249,
	"grad_norm": 0.1121174767613411,
	"learning_rate": 0.0002,
	"loss": 0.0838,
	"step": 16470
	},
	{
	"epoch": 0.029971878630259685,
	"grad_norm": 0.05544061213731766,
	"learning_rate": 0.0002,
	"loss": 0.0773,
	"step": 16480
	},
	{
	"epoch": 0.02999006544981688,
	"grad_norm": 0.13899610936641693,
	"learning_rate": 0.0002,
	"loss": 0.0648,
	"step": 16490
	},
	{
	"epoch": 0.030008252269374078,
	"grad_norm": 0.031017031520605087,
	"learning_rate": 0.0002,
	"loss": 0.0205,
	"step": 16500
	},
	{
	"epoch": 0.030026439088931274,
	"grad_norm": 0.5919166803359985,
	"learning_rate": 0.0002,
	"loss": 0.1454,
	"step": 16510
	},
	{
	"epoch": 0.03004462590848847,
	"grad_norm": 2.5127646923065186,
	"learning_rate": 0.0002,
	"loss": 0.0925,
	"step": 16520
	},
	{
	"epoch": 0.030062812728045667,
	"grad_norm": 0.12587642669677734,
	"learning_rate": 0.0002,
	"loss": 0.0896,
	"step": 16530
	},
	{
	"epoch": 0.030080999547602863,
	"grad_norm": 0.29352524876594543,
	"learning_rate": 0.0002,
	"loss": 0.0692,
	"step": 16540
	},
	{
	"epoch": 0.03009918636716006,
	"grad_norm": 0.012585405260324478,
	"learning_rate": 0.0002,
	"loss": 0.021,
	"step": 16550
	},
	{
	"epoch": 0.030117373186717256,
	"grad_norm": 2.432018756866455,
	"learning_rate": 0.0002,
	"loss": 0.239,
	"step": 16560
	},
	{
	"epoch": 0.030135560006274452,
	"grad_norm": 0.09337054193019867,
	"learning_rate": 0.0002,
	"loss": 0.0859,
	"step": 16570
	},
	{
	"epoch": 0.030153746825831648,
	"grad_norm": 0.05135548114776611,
	"learning_rate": 0.0002,
	"loss": 0.0794,
	"step": 16580
	},
	{
	"epoch": 0.030171933645388845,
	"grad_norm": 0.15056684613227844,
	"learning_rate": 0.0002,
	"loss": 0.0697,
	"step": 16590
	},
	{
	"epoch": 0.03019012046494604,
	"grad_norm": 5.883757694391534e-05,
	"learning_rate": 0.0002,
	"loss": 0.0085,
	"step": 16600
	},
	{
	"epoch": 0.030208307284503237,
	"grad_norm": 1.0368543863296509,
	"learning_rate": 0.0002,
	"loss": 0.1861,
	"step": 16610
	},
	{
	"epoch": 0.030226494104060433,
	"grad_norm": 0.07987317442893982,
	"learning_rate": 0.0002,
	"loss": 0.0938,
	"step": 16620
	},
	{
	"epoch": 0.03024468092361763,
	"grad_norm": 0.02812887355685234,
	"learning_rate": 0.0002,
	"loss": 0.0753,
	"step": 16630
	},
	{
	"epoch": 0.030262867743174826,
	"grad_norm": 0.24061231315135956,
	"learning_rate": 0.0002,
	"loss": 0.0653,
	"step": 16640
	},
	{
	"epoch": 0.030281054562732022,
	"grad_norm": 0.0402507558465004,
	"learning_rate": 0.0002,
	"loss": 0.0266,
	"step": 16650
	},
	{
	"epoch": 0.030299241382289222,
	"grad_norm": 0.13552093505859375,
	"learning_rate": 0.0002,
	"loss": 0.1709,
	"step": 16660
	},
	{
	"epoch": 0.03031742820184642,
	"grad_norm": 0.6093604564666748,
	"learning_rate": 0.0002,
	"loss": 0.0857,
	"step": 16670
	},
	{
	"epoch": 0.030335615021403615,
	"grad_norm": 0.11608528345823288,
	"learning_rate": 0.0002,
	"loss": 0.0874,
	"step": 16680
	},
	{
	"epoch": 0.03035380184096081,
	"grad_norm": 0.23376339673995972,
	"learning_rate": 0.0002,
	"loss": 0.0688,
	"step": 16690
	},
	{
	"epoch": 0.030371988660518007,
	"grad_norm": 0.03484225273132324,
	"learning_rate": 0.0002,
	"loss": 0.0172,
	"step": 16700
	},
	{
	"epoch": 0.030390175480075204,
	"grad_norm": 0.30532532930374146,
	"learning_rate": 0.0002,
	"loss": 0.1686,
	"step": 16710
	},
	{
	"epoch": 0.0304083622996324,
	"grad_norm": 0.05142231658101082,
	"learning_rate": 0.0002,
	"loss": 0.0766,
	"step": 16720
	},
	{
	"epoch": 0.030426549119189596,
	"grad_norm": 0.08218207955360413,
	"learning_rate": 0.0002,
	"loss": 0.0839,
	"step": 16730
	},
	{
	"epoch": 0.030444735938746793,
	"grad_norm": 0.15296520292758942,
	"learning_rate": 0.0002,
	"loss": 0.0717,
	"step": 16740
	},
	{
	"epoch": 0.03046292275830399,
	"grad_norm": 0.009951476007699966,
	"learning_rate": 0.0002,
	"loss": 0.0103,
	"step": 16750
	},
	{
	"epoch": 0.030481109577861185,
	"grad_norm": 0.18752850592136383,
	"learning_rate": 0.0002,
	"loss": 0.2382,
	"step": 16760
	},
	{
	"epoch": 0.03049929639741838,
	"grad_norm": 0.1473335325717926,
	"learning_rate": 0.0002,
	"loss": 0.0975,
	"step": 16770
	},
	{
	"epoch": 0.030517483216975578,
	"grad_norm": 0.04578230902552605,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 16780
	},
	{
	"epoch": 0.030535670036532774,
	"grad_norm": 0.2557182312011719,
	"learning_rate": 0.0002,
	"loss": 0.0691,
	"step": 16790
	},
	{
	"epoch": 0.03055385685608997,
	"grad_norm": 1.473021388053894,
	"learning_rate": 0.0002,
	"loss": 0.2088,
	"step": 16800
	},
	{
	"epoch": 0.030572043675647167,
	"grad_norm": 1.0227181911468506,
	"learning_rate": 0.0002,
	"loss": 0.7207,
	"step": 16810
	},
	{
	"epoch": 0.030590230495204363,
	"grad_norm": 0.11395780742168427,
	"learning_rate": 0.0002,
	"loss": 0.0943,
	"step": 16820
	},
	{
	"epoch": 0.03060841731476156,
	"grad_norm": 6.501937389373779,
	"learning_rate": 0.0002,
	"loss": 0.0871,
	"step": 16830
	},
	{
	"epoch": 0.030626604134318756,
	"grad_norm": 0.17187578976154327,
	"learning_rate": 0.0002,
	"loss": 0.0672,
	"step": 16840
	},
	{
	"epoch": 0.030644790953875952,
	"grad_norm": 0.03396519273519516,
	"learning_rate": 0.0002,
	"loss": 0.0224,
	"step": 16850
	},
	{
	"epoch": 0.03066297777343315,
	"grad_norm": 3.397012948989868,
	"learning_rate": 0.0002,
	"loss": 0.1641,
	"step": 16860
	},
	{
	"epoch": 0.030681164592990345,
	"grad_norm": 0.44838130474090576,
	"learning_rate": 0.0002,
	"loss": 0.0868,
	"step": 16870
	},
	{
	"epoch": 0.03069935141254754,
	"grad_norm": 0.08598771691322327,
	"learning_rate": 0.0002,
	"loss": 0.0766,
	"step": 16880
	},
	{
	"epoch": 0.030717538232104737,
	"grad_norm": 0.15339739620685577,
	"learning_rate": 0.0002,
	"loss": 0.0609,
	"step": 16890
	},
	{
	"epoch": 0.030735725051661934,
	"grad_norm": 0.04086040332913399,
	"learning_rate": 0.0002,
	"loss": 0.0218,
	"step": 16900
	},
	{
	"epoch": 0.03075391187121913,
	"grad_norm": 0.40313076972961426,
	"learning_rate": 0.0002,
	"loss": 0.2017,
	"step": 16910
	},
	{
	"epoch": 0.030772098690776326,
	"grad_norm": 0.2068721503019333,
	"learning_rate": 0.0002,
	"loss": 0.0906,
	"step": 16920
	},
	{
	"epoch": 0.030790285510333523,
	"grad_norm": 0.12770770490169525,
	"learning_rate": 0.0002,
	"loss": 0.0801,
	"step": 16930
	},
	{
	"epoch": 0.03080847232989072,
	"grad_norm": 17.294641494750977,
	"learning_rate": 0.0002,
	"loss": 0.0701,
	"step": 16940
	},
	{
	"epoch": 0.030826659149447915,
	"grad_norm": 0.04612286388874054,
	"learning_rate": 0.0002,
	"loss": 0.0287,
	"step": 16950
	},
	{
	"epoch": 0.03084484596900511,
	"grad_norm": 0.10311487317085266,
	"learning_rate": 0.0002,
	"loss": 0.136,
	"step": 16960
	},
	{
	"epoch": 0.030863032788562308,
	"grad_norm": 0.20878446102142334,
	"learning_rate": 0.0002,
	"loss": 0.0886,
	"step": 16970
	},
	{
	"epoch": 0.030881219608119504,
	"grad_norm": 1.412353515625,
	"learning_rate": 0.0002,
	"loss": 0.0843,
	"step": 16980
	},
	{
	"epoch": 0.0308994064276767,
	"grad_norm": 0.27046918869018555,
	"learning_rate": 0.0002,
	"loss": 0.0755,
	"step": 16990
	},
	{
	"epoch": 0.030917593247233897,
	"grad_norm": 0.5227788090705872,
	"learning_rate": 0.0002,
	"loss": 0.0234,
	"step": 17000
	},
	{
	"epoch": 0.030935780066791096,
	"grad_norm": 0.16006655991077423,
	"learning_rate": 0.0002,
	"loss": 0.183,
	"step": 17010
	},
	{
	"epoch": 0.030953966886348293,
	"grad_norm": 0.1297607421875,
	"learning_rate": 0.0002,
	"loss": 0.0868,
	"step": 17020
	},
	{
	"epoch": 0.03097215370590549,
	"grad_norm": 11.198999404907227,
	"learning_rate": 0.0002,
	"loss": 0.0998,
	"step": 17030
	},
	{
	"epoch": 0.030990340525462685,
	"grad_norm": 0.39887136220932007,
	"learning_rate": 0.0002,
	"loss": 0.0898,
	"step": 17040
	},
	{
	"epoch": 0.03100852734501988,
	"grad_norm": 0.009262642823159695,
	"learning_rate": 0.0002,
	"loss": 0.0215,
	"step": 17050
	},
	{
	"epoch": 0.031026714164577078,
	"grad_norm": 0.15820527076721191,
	"learning_rate": 0.0002,
	"loss": 0.2017,
	"step": 17060
	},
	{
	"epoch": 0.031044900984134274,
	"grad_norm": 0.11645558476448059,
	"learning_rate": 0.0002,
	"loss": 0.085,
	"step": 17070
	},
	{
	"epoch": 0.03106308780369147,
	"grad_norm": 0.03981775790452957,
	"learning_rate": 0.0002,
	"loss": 0.0803,
	"step": 17080
	},
	{
	"epoch": 0.031081274623248667,
	"grad_norm": 0.1584177166223526,
	"learning_rate": 0.0002,
	"loss": 0.0635,
	"step": 17090
	},
	{
	"epoch": 0.031099461442805863,
	"grad_norm": 0.0005907397717237473,
	"learning_rate": 0.0002,
	"loss": 0.006,
	"step": 17100
	},
	{
	"epoch": 0.03111764826236306,
	"grad_norm": 0.05344061553478241,
	"learning_rate": 0.0002,
	"loss": 0.3098,
	"step": 17110
	},
	{
	"epoch": 0.031135835081920256,
	"grad_norm": 0.05249408632516861,
	"learning_rate": 0.0002,
	"loss": 0.1002,
	"step": 17120
	},
	{
	"epoch": 0.031154021901477452,
	"grad_norm": 0.04177263006567955,
	"learning_rate": 0.0002,
	"loss": 0.0969,
	"step": 17130
	},
	{
	"epoch": 0.03117220872103465,
	"grad_norm": 0.18396486341953278,
	"learning_rate": 0.0002,
	"loss": 0.0727,
	"step": 17140
	},
	{
	"epoch": 0.031190395540591845,
	"grad_norm": 0.0019848416559398174,
	"learning_rate": 0.0002,
	"loss": 0.0092,
	"step": 17150
	},
	{
	"epoch": 0.03120858236014904,
	"grad_norm": 0.23747271299362183,
	"learning_rate": 0.0002,
	"loss": 0.3243,
	"step": 17160
	},
	{
	"epoch": 0.031226769179706237,
	"grad_norm": 0.2365376353263855,
	"learning_rate": 0.0002,
	"loss": 0.094,
	"step": 17170
	},
	{
	"epoch": 0.031244955999263434,
	"grad_norm": 0.21784919500350952,
	"learning_rate": 0.0002,
	"loss": 0.0795,
	"step": 17180
	},
	{
	"epoch": 0.03126314281882063,
	"grad_norm": 0.27253153920173645,
	"learning_rate": 0.0002,
	"loss": 0.0748,
	"step": 17190
	},
	{
	"epoch": 0.031281329638377826,
	"grad_norm": 0.004298684187233448,
	"learning_rate": 0.0002,
	"loss": 0.014,
	"step": 17200
	},
	{
	"epoch": 0.03129951645793502,
	"grad_norm": 0.267871230840683,
	"learning_rate": 0.0002,
	"loss": 0.2938,
	"step": 17210
	},
	{
	"epoch": 0.03131770327749222,
	"grad_norm": 0.1428530067205429,
	"learning_rate": 0.0002,
	"loss": 0.0901,
	"step": 17220
	},
	{
	"epoch": 0.031335890097049415,
	"grad_norm": 0.10623782873153687,
	"learning_rate": 0.0002,
	"loss": 0.0752,
	"step": 17230
	},
	{
	"epoch": 0.03135407691660661,
	"grad_norm": 0.2869247496128082,
	"learning_rate": 0.0002,
	"loss": 0.0707,
	"step": 17240
	},
	{
	"epoch": 0.03137226373616381,
	"grad_norm": 0.011321209371089935,
	"learning_rate": 0.0002,
	"loss": 0.0168,
	"step": 17250
	},
	{
	"epoch": 0.031390450555721004,
	"grad_norm": 0.09432020783424377,
	"learning_rate": 0.0002,
	"loss": 0.2046,
	"step": 17260
	},
	{
	"epoch": 0.0314086373752782,
	"grad_norm": 0.190867081284523,
	"learning_rate": 0.0002,
	"loss": 0.0866,
	"step": 17270
	},
	{
	"epoch": 0.0314268241948354,
	"grad_norm": 0.14274829626083374,
	"learning_rate": 0.0002,
	"loss": 0.0796,
	"step": 17280
	},
	{
	"epoch": 0.03144501101439259,
	"grad_norm": 0.29910504817962646,
	"learning_rate": 0.0002,
	"loss": 0.0711,
	"step": 17290
	},
	{
	"epoch": 0.03146319783394979,
	"grad_norm": 0.031730011105537415,
	"learning_rate": 0.0002,
	"loss": 0.0217,
	"step": 17300
	},
	{
	"epoch": 0.031481384653506986,
	"grad_norm": 0.23042625188827515,
	"learning_rate": 0.0002,
	"loss": 0.1491,
	"step": 17310
	},
	{
	"epoch": 0.03149957147306418,
	"grad_norm": 0.15560220181941986,
	"learning_rate": 0.0002,
	"loss": 0.0761,
	"step": 17320
	},
	{
	"epoch": 0.03151775829262138,
	"grad_norm": 0.051929160952568054,
	"learning_rate": 0.0002,
	"loss": 0.0893,
	"step": 17330
	},
	{
	"epoch": 0.031535945112178575,
	"grad_norm": 0.16162756085395813,
	"learning_rate": 0.0002,
	"loss": 0.0623,
	"step": 17340
	},
	{
	"epoch": 0.03155413193173577,
	"grad_norm": 0.019480068236589432,
	"learning_rate": 0.0002,
	"loss": 0.0137,
	"step": 17350
	},
	{
	"epoch": 0.03157231875129297,
	"grad_norm": 0.24700693786144257,
	"learning_rate": 0.0002,
	"loss": 0.1481,
	"step": 17360
	},
	{
	"epoch": 0.031590505570850164,
	"grad_norm": 0.17574873566627502,
	"learning_rate": 0.0002,
	"loss": 0.079,
	"step": 17370
	},
	{
	"epoch": 0.03160869239040736,
	"grad_norm": 0.10368580371141434,
	"learning_rate": 0.0002,
	"loss": 0.0811,
	"step": 17380
	},
	{
	"epoch": 0.031626879209964556,
	"grad_norm": 0.23330622911453247,
	"learning_rate": 0.0002,
	"loss": 0.0669,
	"step": 17390
	},
	{
	"epoch": 0.03164506602952175,
	"grad_norm": 0.031393859535455704,
	"learning_rate": 0.0002,
	"loss": 0.0183,
	"step": 17400
	},
	{
	"epoch": 0.03166325284907895,
	"grad_norm": 0.22080129384994507,
	"learning_rate": 0.0002,
	"loss": 0.1567,
	"step": 17410
	},
	{
	"epoch": 0.031681439668636145,
	"grad_norm": 0.177025705575943,
	"learning_rate": 0.0002,
	"loss": 0.0798,
	"step": 17420
	},
	{
	"epoch": 0.03169962648819334,
	"grad_norm": 0.054285600781440735,
	"learning_rate": 0.0002,
	"loss": 0.0709,
	"step": 17430
	},
	{
	"epoch": 0.03171781330775054,
	"grad_norm": 0.20625421404838562,
	"learning_rate": 0.0002,
	"loss": 0.0592,
	"step": 17440
	},
	{
	"epoch": 0.031736000127307734,
	"grad_norm": 0.042640089988708496,
	"learning_rate": 0.0002,
	"loss": 0.0199,
	"step": 17450
	},
	{
	"epoch": 0.03175418694686493,
	"grad_norm": 0.2505437731742859,
	"learning_rate": 0.0002,
	"loss": 0.131,
	"step": 17460
	},
	{
	"epoch": 0.03177237376642213,
	"grad_norm": 0.24848629534244537,
	"learning_rate": 0.0002,
	"loss": 0.0826,
	"step": 17470
	},
	{
	"epoch": 0.03179056058597932,
	"grad_norm": 0.056854844093322754,
	"learning_rate": 0.0002,
	"loss": 0.0779,
	"step": 17480
	},
	{
	"epoch": 0.03180874740553652,
	"grad_norm": 0.23022660613059998,
	"learning_rate": 0.0002,
	"loss": 0.0703,
	"step": 17490
	},
	{
	"epoch": 0.031826934225093716,
	"grad_norm": 0.033501993864774704,
	"learning_rate": 0.0002,
	"loss": 0.0229,
	"step": 17500
	},
	{
	"epoch": 0.03184512104465091,
	"grad_norm": 0.25061148405075073,
	"learning_rate": 0.0002,
	"loss": 0.1588,
	"step": 17510
	},
	{
	"epoch": 0.031863307864208115,
	"grad_norm": 0.21534167230129242,
	"learning_rate": 0.0002,
	"loss": 0.079,
	"step": 17520
	},
	{
	"epoch": 0.03188149468376531,
	"grad_norm": 0.04823959991335869,
	"learning_rate": 0.0002,
	"loss": 0.0826,
	"step": 17530
	},
	{
	"epoch": 0.03189968150332251,
	"grad_norm": 0.23680952191352844,
	"learning_rate": 0.0002,
	"loss": 0.0617,
	"step": 17540
	},
	{
	"epoch": 0.031917868322879704,
	"grad_norm": 0.016636351123452187,
	"learning_rate": 0.0002,
	"loss": 0.0143,
	"step": 17550
	},
	{
	"epoch": 0.0319360551424369,
	"grad_norm": 0.3684225082397461,
	"learning_rate": 0.0002,
	"loss": 0.2011,
	"step": 17560
	},
	{
	"epoch": 0.0319542419619941,
	"grad_norm": 0.07126643508672714,
	"learning_rate": 0.0002,
	"loss": 0.0792,
	"step": 17570
	},
	{
	"epoch": 0.03197242878155129,
	"grad_norm": 0.05354290455579758,
	"learning_rate": 0.0002,
	"loss": 0.0831,
	"step": 17580
	},
	{
	"epoch": 0.03199061560110849,
	"grad_norm": 0.20318995416164398,
	"learning_rate": 0.0002,
	"loss": 0.0617,
	"step": 17590
	},
	{
	"epoch": 0.032008802420665686,
	"grad_norm": 0.021502351388335228,
	"learning_rate": 0.0002,
	"loss": 0.0137,
	"step": 17600
	},
	{
	"epoch": 0.03202698924022288,
	"grad_norm": 0.3471545875072479,
	"learning_rate": 0.0002,
	"loss": 0.1823,
	"step": 17610
	},
	{
	"epoch": 0.03204517605978008,
	"grad_norm": 0.23191972076892853,
	"learning_rate": 0.0002,
	"loss": 0.0837,
	"step": 17620
	},
	{
	"epoch": 0.032063362879337275,
	"grad_norm": 0.0479818731546402,
	"learning_rate": 0.0002,
	"loss": 0.0845,
	"step": 17630
	},
	{
	"epoch": 0.03208154969889447,
	"grad_norm": 0.2193339467048645,
	"learning_rate": 0.0002,
	"loss": 0.068,
	"step": 17640
	},
	{
	"epoch": 0.03209973651845167,
	"grad_norm": 0.03661821037530899,
	"learning_rate": 0.0002,
	"loss": 0.0234,
	"step": 17650
	},
	{
	"epoch": 0.032117923338008864,
	"grad_norm": 0.10396943986415863,
	"learning_rate": 0.0002,
	"loss": 0.1295,
	"step": 17660
	},
	{
	"epoch": 0.03213611015756606,
	"grad_norm": 0.16999179124832153,
	"learning_rate": 0.0002,
	"loss": 0.0823,
	"step": 17670
	},
	{
	"epoch": 0.032154296977123256,
	"grad_norm": 0.09069819748401642,
	"learning_rate": 0.0002,
	"loss": 0.0748,
	"step": 17680
	},
	{
	"epoch": 0.03217248379668045,
	"grad_norm": 0.24210433661937714,
	"learning_rate": 0.0002,
	"loss": 0.0611,
	"step": 17690
	},
	{
	"epoch": 0.03219067061623765,
	"grad_norm": 0.028281020000576973,
	"learning_rate": 0.0002,
	"loss": 0.018,
	"step": 17700
	},
	{
	"epoch": 0.032208857435794845,
	"grad_norm": 0.4133516252040863,
	"learning_rate": 0.0002,
	"loss": 0.1704,
	"step": 17710
	},
	{
	"epoch": 0.03222704425535204,
	"grad_norm": 0.20207400619983673,
	"learning_rate": 0.0002,
	"loss": 0.0804,
	"step": 17720
	},
	{
	"epoch": 0.03224523107490924,
	"grad_norm": 0.043604232370853424,
	"learning_rate": 0.0002,
	"loss": 0.0929,
	"step": 17730
	},
	{
	"epoch": 0.032263417894466434,
	"grad_norm": 0.1995580494403839,
	"learning_rate": 0.0002,
	"loss": 0.062,
	"step": 17740
	},
	{
	"epoch": 0.03228160471402363,
	"grad_norm": 0.03241848200559616,
	"learning_rate": 0.0002,
	"loss": 0.0137,
	"step": 17750
	},
	{
	"epoch": 0.03229979153358083,
	"grad_norm": 0.28819000720977783,
	"learning_rate": 0.0002,
	"loss": 0.1696,
	"step": 17760
	},
	{
	"epoch": 0.03231797835313802,
	"grad_norm": 0.2625056803226471,
	"learning_rate": 0.0002,
	"loss": 0.0704,
	"step": 17770
	},
	{
	"epoch": 0.03233616517269522,
	"grad_norm": 0.03986202925443649,
	"learning_rate": 0.0002,
	"loss": 0.0848,
	"step": 17780
	},
	{
	"epoch": 0.032354351992252416,
	"grad_norm": 0.24770867824554443,
	"learning_rate": 0.0002,
	"loss": 0.0608,
	"step": 17790
	},
	{
	"epoch": 0.03237253881180961,
	"grad_norm": 0.031353630125522614,
	"learning_rate": 0.0002,
	"loss": 0.0145,
	"step": 17800
	},
	{
	"epoch": 0.03239072563136681,
	"grad_norm": 0.2273588478565216,
	"learning_rate": 0.0002,
	"loss": 0.1765,
	"step": 17810
	},
	{
	"epoch": 0.032408912450924005,
	"grad_norm": 0.19741755723953247,
	"learning_rate": 0.0002,
	"loss": 0.0818,
	"step": 17820
	},
	{
	"epoch": 0.0324270992704812,
	"grad_norm": 0.03193483129143715,
	"learning_rate": 0.0002,
	"loss": 0.0737,
	"step": 17830
	},
	{
	"epoch": 0.0324452860900384,
	"grad_norm": 0.13962946832180023,
	"learning_rate": 0.0002,
	"loss": 0.0575,
	"step": 17840
	},
	{
	"epoch": 0.03246347290959559,
	"grad_norm": 0.01755092851817608,
	"learning_rate": 0.0002,
	"loss": 0.0159,
	"step": 17850
	},
	{
	"epoch": 0.03248165972915279,
	"grad_norm": 0.21713244915008545,
	"learning_rate": 0.0002,
	"loss": 0.1476,
	"step": 17860
	},
	{
	"epoch": 0.032499846548709986,
	"grad_norm": 0.15362155437469482,
	"learning_rate": 0.0002,
	"loss": 0.0747,
	"step": 17870
	},
	{
	"epoch": 0.03251803336826718,
	"grad_norm": 0.02643916755914688,
	"learning_rate": 0.0002,
	"loss": 0.0793,
	"step": 17880
	},
	{
	"epoch": 0.03253622018782438,
	"grad_norm": 0.2702760100364685,
	"learning_rate": 0.0002,
	"loss": 0.0641,
	"step": 17890
	},
	{
	"epoch": 0.032554407007381575,
	"grad_norm": 0.05910428613424301,
	"learning_rate": 0.0002,
	"loss": 0.022,
	"step": 17900
	},
	{
	"epoch": 0.03257259382693877,
	"grad_norm": 0.17692551016807556,
	"learning_rate": 0.0002,
	"loss": 0.1407,
	"step": 17910
	},
	{
	"epoch": 0.03259078064649597,
	"grad_norm": 0.19877870380878448,
	"learning_rate": 0.0002,
	"loss": 0.0798,
	"step": 17920
	},
	{
	"epoch": 0.032608967466053164,
	"grad_norm": 0.06731924414634705,
	"learning_rate": 0.0002,
	"loss": 0.0798,
	"step": 17930
	},
	{
	"epoch": 0.03262715428561036,
	"grad_norm": 0.20342952013015747,
	"learning_rate": 0.0002,
	"loss": 0.0571,
	"step": 17940
	},
	{
	"epoch": 0.03264534110516756,
	"grad_norm": 0.06299301236867905,
	"learning_rate": 0.0002,
	"loss": 0.0154,
	"step": 17950
	},
	{
	"epoch": 0.03266352792472475,
	"grad_norm": 0.30317986011505127,
	"learning_rate": 0.0002,
	"loss": 0.1496,
	"step": 17960
	},
	{
	"epoch": 0.03268171474428195,
	"grad_norm": 0.2737327218055725,
	"learning_rate": 0.0002,
	"loss": 0.0777,
	"step": 17970
	},
	{
	"epoch": 0.032699901563839145,
	"grad_norm": 0.03226702660322189,
	"learning_rate": 0.0002,
	"loss": 0.0799,
	"step": 17980
	},
	{
	"epoch": 0.03271808838339634,
	"grad_norm": 0.20195341110229492,
	"learning_rate": 0.0002,
	"loss": 0.0654,
	"step": 17990
	},
	{
	"epoch": 0.03273627520295354,
	"grad_norm": 0.03351292014122009,
	"learning_rate": 0.0002,
	"loss": 0.0194,
	"step": 18000
	},
	{
	"epoch": 0.032754462022510734,
	"grad_norm": 0.2281372845172882,
	"learning_rate": 0.0002,
	"loss": 0.154,
	"step": 18010
	},
	{
	"epoch": 0.03277264884206793,
	"grad_norm": 0.19263891875743866,
	"learning_rate": 0.0002,
	"loss": 0.0803,
	"step": 18020
	},
	{
	"epoch": 0.03279083566162513,
	"grad_norm": 0.04183288663625717,
	"learning_rate": 0.0002,
	"loss": 0.0842,
	"step": 18030
	},
	{
	"epoch": 0.03280902248118232,
	"grad_norm": 0.284759521484375,
	"learning_rate": 0.0002,
	"loss": 0.067,
	"step": 18040
	},
	{
	"epoch": 0.03282720930073952,
	"grad_norm": 0.02972390688955784,
	"learning_rate": 0.0002,
	"loss": 0.016,
	"step": 18050
	},
	{
	"epoch": 0.032845396120296716,
	"grad_norm": 0.28630614280700684,
	"learning_rate": 0.0002,
	"loss": 0.1866,
	"step": 18060
	},
	{
	"epoch": 0.03286358293985391,
	"grad_norm": 0.16426514089107513,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 18070
	},
	{
	"epoch": 0.03288176975941111,
	"grad_norm": 0.05643441155552864,
	"learning_rate": 0.0002,
	"loss": 0.0773,
	"step": 18080
	},
	{
	"epoch": 0.032899956578968305,
	"grad_norm": 0.19082742929458618,
	"learning_rate": 0.0002,
	"loss": 0.0582,
	"step": 18090
	},
	{
	"epoch": 0.0329181433985255,
	"grad_norm": 0.017512233927845955,
	"learning_rate": 0.0002,
	"loss": 0.0174,
	"step": 18100
	},
	{
	"epoch": 0.0329363302180827,
	"grad_norm": 0.22619640827178955,
	"learning_rate": 0.0002,
	"loss": 0.166,
	"step": 18110
	},
	{
	"epoch": 0.032954517037639894,
	"grad_norm": 0.10430974513292313,
	"learning_rate": 0.0002,
	"loss": 0.0716,
	"step": 18120
	},
	{
	"epoch": 0.03297270385719709,
	"grad_norm": 0.07371710985898972,
	"learning_rate": 0.0002,
	"loss": 0.0733,
	"step": 18130
	},
	{
	"epoch": 0.032990890676754286,
	"grad_norm": 0.19163483381271362,
	"learning_rate": 0.0002,
	"loss": 0.0609,
	"step": 18140
	},
	{
	"epoch": 0.03300907749631148,
	"grad_norm": 0.03743975609540939,
	"learning_rate": 0.0002,
	"loss": 0.017,
	"step": 18150
	},
	{
	"epoch": 0.03302726431586868,
	"grad_norm": 0.19496546685695648,
	"learning_rate": 0.0002,
	"loss": 0.1622,
	"step": 18160
	},
	{
	"epoch": 0.033045451135425875,
	"grad_norm": 0.13054883480072021,
	"learning_rate": 0.0002,
	"loss": 0.0728,
	"step": 18170
	},
	{
	"epoch": 0.03306363795498307,
	"grad_norm": 0.10058756172657013,
	"learning_rate": 0.0002,
	"loss": 0.0738,
	"step": 18180
	},
	{
	"epoch": 0.03308182477454027,
	"grad_norm": 0.220932736992836,
	"learning_rate": 0.0002,
	"loss": 0.063,
	"step": 18190
	},
	{
	"epoch": 0.033100011594097464,
	"grad_norm": 0.04396356642246246,
	"learning_rate": 0.0002,
	"loss": 0.0207,
	"step": 18200
	},
	{
	"epoch": 0.03311819841365467,
	"grad_norm": 0.23554326593875885,
	"learning_rate": 0.0002,
	"loss": 0.1484,
	"step": 18210
	},
	{
	"epoch": 0.033136385233211864,
	"grad_norm": 0.11277181655168533,
	"learning_rate": 0.0002,
	"loss": 0.0763,
	"step": 18220
	},
	{
	"epoch": 0.03315457205276906,
	"grad_norm": 0.05176365375518799,
	"learning_rate": 0.0002,
	"loss": 0.076,
	"step": 18230
	},
	{
	"epoch": 0.033172758872326256,
	"grad_norm": 0.1521395444869995,
	"learning_rate": 0.0002,
	"loss": 0.0605,
	"step": 18240
	},
	{
	"epoch": 0.03319094569188345,
	"grad_norm": 0.04682580381631851,
	"learning_rate": 0.0002,
	"loss": 0.0149,
	"step": 18250
	},
	{
	"epoch": 0.03320913251144065,
	"grad_norm": 0.16890883445739746,
	"learning_rate": 0.0002,
	"loss": 0.1402,
	"step": 18260
	},
	{
	"epoch": 0.033227319330997845,
	"grad_norm": 0.17221559584140778,
	"learning_rate": 0.0002,
	"loss": 0.0819,
	"step": 18270
	},
	{
	"epoch": 0.03324550615055504,
	"grad_norm": 0.07434559613466263,
	"learning_rate": 0.0002,
	"loss": 0.0784,
	"step": 18280
	},
	{
	"epoch": 0.03326369297011224,
	"grad_norm": 0.1912834346294403,
	"learning_rate": 0.0002,
	"loss": 0.0614,
	"step": 18290
	},
	{
	"epoch": 0.033281879789669434,
	"grad_norm": 0.04286884889006615,
	"learning_rate": 0.0002,
	"loss": 0.0185,
	"step": 18300
	},
	{
	"epoch": 0.03330006660922663,
	"grad_norm": 0.29059842228889465,
	"learning_rate": 0.0002,
	"loss": 0.1357,
	"step": 18310
	},
	{
	"epoch": 0.03331825342878383,
	"grad_norm": 0.2289486825466156,
	"learning_rate": 0.0002,
	"loss": 0.0865,
	"step": 18320
	},
	{
	"epoch": 0.03333644024834102,
	"grad_norm": 0.027094636112451553,
	"learning_rate": 0.0002,
	"loss": 0.0841,
	"step": 18330
	},
	{
	"epoch": 0.03335462706789822,
	"grad_norm": 0.21263600885868073,
	"learning_rate": 0.0002,
	"loss": 0.0628,
	"step": 18340
	},
	{
	"epoch": 0.033372813887455416,
	"grad_norm": 0.03497980535030365,
	"learning_rate": 0.0002,
	"loss": 0.0158,
	"step": 18350
	},
	{
	"epoch": 0.03339100070701261,
	"grad_norm": 0.20155973732471466,
	"learning_rate": 0.0002,
	"loss": 0.1523,
	"step": 18360
	},
	{
	"epoch": 0.03340918752656981,
	"grad_norm": 0.03746286779642105,
	"learning_rate": 0.0002,
	"loss": 0.0781,
	"step": 18370
	},
	{
	"epoch": 0.033427374346127005,
	"grad_norm": 0.06747066229581833,
	"learning_rate": 0.0002,
	"loss": 0.0792,
	"step": 18380
	},
	{
	"epoch": 0.0334455611656842,
	"grad_norm": 0.23699060082435608,
	"learning_rate": 0.0002,
	"loss": 0.0651,
	"step": 18390
	},
	{
	"epoch": 0.0334637479852414,
	"grad_norm": 0.047832150012254715,
	"learning_rate": 0.0002,
	"loss": 0.0181,
	"step": 18400
	},
	{
	"epoch": 0.033481934804798594,
	"grad_norm": 0.3178698420524597,
	"learning_rate": 0.0002,
	"loss": 0.1537,
	"step": 18410
	},
	{
	"epoch": 0.03350012162435579,
	"grad_norm": 0.16258081793785095,
	"learning_rate": 0.0002,
	"loss": 0.0722,
	"step": 18420
	},
	{
	"epoch": 0.033518308443912986,
	"grad_norm": 0.02807716652750969,
	"learning_rate": 0.0002,
	"loss": 0.0844,
	"step": 18430
	},
	{
	"epoch": 0.03353649526347018,
	"grad_norm": 0.16596710681915283,
	"learning_rate": 0.0002,
	"loss": 0.0607,
	"step": 18440
	},
	{
	"epoch": 0.03355468208302738,
	"grad_norm": 0.04448723793029785,
	"learning_rate": 0.0002,
	"loss": 0.0183,
	"step": 18450
	},
	{
	"epoch": 0.033572868902584575,
	"grad_norm": 0.39318934082984924,
	"learning_rate": 0.0002,
	"loss": 0.1497,
	"step": 18460
	},
	{
	"epoch": 0.03359105572214177,
	"grad_norm": 0.17387263476848602,
	"learning_rate": 0.0002,
	"loss": 0.0787,
	"step": 18470
	},
	{
	"epoch": 0.03360924254169897,
	"grad_norm": 0.14859163761138916,
	"learning_rate": 0.0002,
	"loss": 0.0837,
	"step": 18480
	},
	{
	"epoch": 0.033627429361256164,
	"grad_norm": 0.24148601293563843,
	"learning_rate": 0.0002,
	"loss": 0.0655,
	"step": 18490
	},
	{
	"epoch": 0.03364561618081336,
	"grad_norm": 0.04743284359574318,
	"learning_rate": 0.0002,
	"loss": 0.0174,
	"step": 18500
	},
	{
	"epoch": 0.03366380300037056,
	"grad_norm": 0.25396591424942017,
	"learning_rate": 0.0002,
	"loss": 0.1438,
	"step": 18510
	},
	{
	"epoch": 0.03368198981992775,
	"grad_norm": 0.1759178638458252,
	"learning_rate": 0.0002,
	"loss": 0.0758,
	"step": 18520
	},
	{
	"epoch": 0.03370017663948495,
	"grad_norm": 0.06611669808626175,
	"learning_rate": 0.0002,
	"loss": 0.0787,
	"step": 18530
	},
	{
	"epoch": 0.033718363459042146,
	"grad_norm": 0.22699445486068726,
	"learning_rate": 0.0002,
	"loss": 0.0697,
	"step": 18540
	},
	{
	"epoch": 0.03373655027859934,
	"grad_norm": 0.02634899877011776,
	"learning_rate": 0.0002,
	"loss": 0.0189,
	"step": 18550
	},
	{
	"epoch": 0.03375473709815654,
	"grad_norm": 0.3238360285758972,
	"learning_rate": 0.0002,
	"loss": 0.1496,
	"step": 18560
	},
	{
	"epoch": 0.033772923917713735,
	"grad_norm": 0.16044601798057556,
	"learning_rate": 0.0002,
	"loss": 0.076,
	"step": 18570
	},
	{
	"epoch": 0.03379111073727093,
	"grad_norm": 0.029841836541891098,
	"learning_rate": 0.0002,
	"loss": 0.0718,
	"step": 18580
	},
	{
	"epoch": 0.03380929755682813,
	"grad_norm": 0.21851007640361786,
	"learning_rate": 0.0002,
	"loss": 0.0656,
	"step": 18590
	},
	{
	"epoch": 0.033827484376385324,
	"grad_norm": 0.02096417360007763,
	"learning_rate": 0.0002,
	"loss": 0.0173,
	"step": 18600
	},
	{
	"epoch": 0.03384567119594252,
	"grad_norm": 0.29625844955444336,
	"learning_rate": 0.0002,
	"loss": 0.1716,
	"step": 18610
	},
	{
	"epoch": 0.033863858015499716,
	"grad_norm": 0.1510130614042282,
	"learning_rate": 0.0002,
	"loss": 0.0792,
	"step": 18620
	},
	{
	"epoch": 0.03388204483505691,
	"grad_norm": 0.04192917421460152,
	"learning_rate": 0.0002,
	"loss": 0.0717,
	"step": 18630
	},
	{
	"epoch": 0.03390023165461411,
	"grad_norm": 0.23139427602291107,
	"learning_rate": 0.0002,
	"loss": 0.0609,
	"step": 18640
	},
	{
	"epoch": 0.033918418474171305,
	"grad_norm": 0.03887970373034477,
	"learning_rate": 0.0002,
	"loss": 0.0127,
	"step": 18650
	},
	{
	"epoch": 0.0339366052937285,
	"grad_norm": 0.1315147578716278,
	"learning_rate": 0.0002,
	"loss": 0.1434,
	"step": 18660
	},
	{
	"epoch": 0.0339547921132857,
	"grad_norm": 0.13328243792057037,
	"learning_rate": 0.0002,
	"loss": 0.0673,
	"step": 18670
	},
	{
	"epoch": 0.033972978932842894,
	"grad_norm": 0.07161080092191696,
	"learning_rate": 0.0002,
	"loss": 0.0692,
	"step": 18680
	},
	{
	"epoch": 0.03399116575240009,
	"grad_norm": 0.16019296646118164,
	"learning_rate": 0.0002,
	"loss": 0.0641,
	"step": 18690
	},
	{
	"epoch": 0.03400935257195729,
	"grad_norm": 0.042882539331912994,
	"learning_rate": 0.0002,
	"loss": 0.0196,
	"step": 18700
	},
	{
	"epoch": 0.03402753939151448,
	"grad_norm": 0.15019817650318146,
	"learning_rate": 0.0002,
	"loss": 0.1239,
	"step": 18710
	},
	{
	"epoch": 0.03404572621107168,
	"grad_norm": 0.140267476439476,
	"learning_rate": 0.0002,
	"loss": 0.0715,
	"step": 18720
	},
	{
	"epoch": 0.034063913030628876,
	"grad_norm": 0.060760073363780975,
	"learning_rate": 0.0002,
	"loss": 0.079,
	"step": 18730
	},
	{
	"epoch": 0.03408209985018607,
	"grad_norm": 0.1783122718334198,
	"learning_rate": 0.0002,
	"loss": 0.0616,
	"step": 18740
	},
	{
	"epoch": 0.03410028666974327,
	"grad_norm": 0.023139121010899544,
	"learning_rate": 0.0002,
	"loss": 0.0171,
	"step": 18750
	},
	{
	"epoch": 0.034118473489300465,
	"grad_norm": 0.2645978331565857,
	"learning_rate": 0.0002,
	"loss": 0.1355,
	"step": 18760
	},
	{
	"epoch": 0.03413666030885766,
	"grad_norm": 0.21009914577007294,
	"learning_rate": 0.0002,
	"loss": 0.0757,
	"step": 18770
	},
	{
	"epoch": 0.03415484712841486,
	"grad_norm": 0.13494494557380676,
	"learning_rate": 0.0002,
	"loss": 0.0774,
	"step": 18780
	},
	{
	"epoch": 0.034173033947972054,
	"grad_norm": 0.19806784391403198,
	"learning_rate": 0.0002,
	"loss": 0.0636,
	"step": 18790
	},
	{
	"epoch": 0.03419122076752925,
	"grad_norm": 0.020482519641518593,
	"learning_rate": 0.0002,
	"loss": 0.0194,
	"step": 18800
	},
	{
	"epoch": 0.034209407587086446,
	"grad_norm": 0.34826937317848206,
	"learning_rate": 0.0002,
	"loss": 0.1521,
	"step": 18810
	},
	{
	"epoch": 0.03422759440664364,
	"grad_norm": 0.1293957680463791,
	"learning_rate": 0.0002,
	"loss": 0.0742,
	"step": 18820
	},
	{
	"epoch": 0.03424578122620084,
	"grad_norm": 0.06574539095163345,
	"learning_rate": 0.0002,
	"loss": 0.0792,
	"step": 18830
	},
	{
	"epoch": 0.034263968045758035,
	"grad_norm": 0.2005399614572525,
	"learning_rate": 0.0002,
	"loss": 0.0618,
	"step": 18840
	},
	{
	"epoch": 0.03428215486531523,
	"grad_norm": 0.04699913039803505,
	"learning_rate": 0.0002,
	"loss": 0.0176,
	"step": 18850
	},
	{
	"epoch": 0.03430034168487243,
	"grad_norm": 0.2593109905719757,
	"learning_rate": 0.0002,
	"loss": 0.1709,
	"step": 18860
	},
	{
	"epoch": 0.034318528504429624,
	"grad_norm": 0.587365448474884,
	"learning_rate": 0.0002,
	"loss": 0.0794,
	"step": 18870
	},
	{
	"epoch": 0.03433671532398682,
	"grad_norm": 0.0371614433825016,
	"learning_rate": 0.0002,
	"loss": 0.076,
	"step": 18880
	},
	{
	"epoch": 0.03435490214354402,
	"grad_norm": 0.2164178341627121,
	"learning_rate": 0.0002,
	"loss": 0.0577,
	"step": 18890
	},
	{
	"epoch": 0.03437308896310122,
	"grad_norm": 0.028071587905287743,
	"learning_rate": 0.0002,
	"loss": 0.0184,
	"step": 18900
	},
	{
	"epoch": 0.034391275782658416,
	"grad_norm": 0.25464126467704773,
	"learning_rate": 0.0002,
	"loss": 0.1616,
	"step": 18910
	},
	{
	"epoch": 0.03440946260221561,
	"grad_norm": 0.2830415368080139,
	"learning_rate": 0.0002,
	"loss": 0.0795,
	"step": 18920
	},
	{
	"epoch": 0.03442764942177281,
	"grad_norm": 0.07880273461341858,
	"learning_rate": 0.0002,
	"loss": 0.0717,
	"step": 18930
	},
	{
	"epoch": 0.034445836241330005,
	"grad_norm": 0.19671671092510223,
	"learning_rate": 0.0002,
	"loss": 0.0625,
	"step": 18940
	},
	{
	"epoch": 0.0344640230608872,
	"grad_norm": 0.038350027054548264,
	"learning_rate": 0.0002,
	"loss": 0.0172,
	"step": 18950
	},
	{
	"epoch": 0.0344822098804444,
	"grad_norm": 0.196768656373024,
	"learning_rate": 0.0002,
	"loss": 0.1586,
	"step": 18960
	},
	{
	"epoch": 0.034500396700001594,
	"grad_norm": 0.1861678808927536,
	"learning_rate": 0.0002,
	"loss": 0.0871,
	"step": 18970
	},
	{
	"epoch": 0.03451858351955879,
	"grad_norm": 0.1074979305267334,
	"learning_rate": 0.0002,
	"loss": 0.0697,
	"step": 18980
	},
	{
	"epoch": 0.03453677033911599,
	"grad_norm": 0.18214645981788635,
	"learning_rate": 0.0002,
	"loss": 0.0594,
	"step": 18990
	},
	{
	"epoch": 0.03455495715867318,
	"grad_norm": 0.035948049277067184,
	"learning_rate": 0.0002,
	"loss": 0.0177,
	"step": 19000
	},
	{
	"epoch": 0.03457314397823038,
	"grad_norm": 0.2434094399213791,
	"learning_rate": 0.0002,
	"loss": 0.1402,
	"step": 19010
	},
	{
	"epoch": 0.034591330797787576,
	"grad_norm": 0.06897670775651932,
	"learning_rate": 0.0002,
	"loss": 0.0758,
	"step": 19020
	},
	{
	"epoch": 0.03460951761734477,
	"grad_norm": 0.13107649981975555,
	"learning_rate": 0.0002,
	"loss": 0.0826,
	"step": 19030
	},
	{
	"epoch": 0.03462770443690197,
	"grad_norm": 0.1787865310907364,
	"learning_rate": 0.0002,
	"loss": 0.0619,
	"step": 19040
	},
	{
	"epoch": 0.034645891256459165,
	"grad_norm": 0.0460963137447834,
	"learning_rate": 0.0002,
	"loss": 0.0203,
	"step": 19050
	},
	{
	"epoch": 0.03466407807601636,
	"grad_norm": 0.20582084357738495,
	"learning_rate": 0.0002,
	"loss": 0.1325,
	"step": 19060
	},
	{
	"epoch": 0.03468226489557356,
	"grad_norm": 0.16120313107967377,
	"learning_rate": 0.0002,
	"loss": 0.08,
	"step": 19070
	},
	{
	"epoch": 0.03470045171513075,
	"grad_norm": 0.04322347044944763,
	"learning_rate": 0.0002,
	"loss": 0.0753,
	"step": 19080
	},
	{
	"epoch": 0.03471863853468795,
	"grad_norm": 0.1764109879732132,
	"learning_rate": 0.0002,
	"loss": 0.0618,
	"step": 19090
	},
	{
	"epoch": 0.034736825354245146,
	"grad_norm": 0.04453815147280693,
	"learning_rate": 0.0002,
	"loss": 0.0172,
	"step": 19100
	},
	{
	"epoch": 0.03475501217380234,
	"grad_norm": 0.32023972272872925,
	"learning_rate": 0.0002,
	"loss": 0.1394,
	"step": 19110
	},
	{
	"epoch": 0.03477319899335954,
	"grad_norm": 0.09920009225606918,
	"learning_rate": 0.0002,
	"loss": 0.0788,
	"step": 19120
	},
	{
	"epoch": 0.034791385812916735,
	"grad_norm": 0.047868456691503525,
	"learning_rate": 0.0002,
	"loss": 0.0745,
	"step": 19130
	},
	{
	"epoch": 0.03480957263247393,
	"grad_norm": 0.219430074095726,
	"learning_rate": 0.0002,
	"loss": 0.063,
	"step": 19140
	},
	{
	"epoch": 0.03482775945203113,
	"grad_norm": 0.04879681020975113,
	"learning_rate": 0.0002,
	"loss": 0.0161,
	"step": 19150
	},
	{
	"epoch": 0.034845946271588324,
	"grad_norm": 0.21360138058662415,
	"learning_rate": 0.0002,
	"loss": 0.1602,
	"step": 19160
	},
	{
	"epoch": 0.03486413309114552,
	"grad_norm": 0.1391269713640213,
	"learning_rate": 0.0002,
	"loss": 0.0798,
	"step": 19170
	},
	{
	"epoch": 0.03488231991070272,
	"grad_norm": 0.06293737888336182,
	"learning_rate": 0.0002,
	"loss": 0.0717,
	"step": 19180
	},
	{
	"epoch": 0.03490050673025991,
	"grad_norm": 0.20241963863372803,
	"learning_rate": 0.0002,
	"loss": 0.0612,
	"step": 19190
	},
	{
	"epoch": 0.03491869354981711,
	"grad_norm": 0.06246611103415489,
	"learning_rate": 0.0002,
	"loss": 0.0148,
	"step": 19200
	},
	{
	"epoch": 0.034936880369374305,
	"grad_norm": 0.16479995846748352,
	"learning_rate": 0.0002,
	"loss": 0.1611,
	"step": 19210
	},
	{
	"epoch": 0.0349550671889315,
	"grad_norm": 0.12036983668804169,
	"learning_rate": 0.0002,
	"loss": 0.0724,
	"step": 19220
	},
	{
	"epoch": 0.0349732540084887,
	"grad_norm": 0.03939517214894295,
	"learning_rate": 0.0002,
	"loss": 0.0758,
	"step": 19230
	},
	{
	"epoch": 0.034991440828045894,
	"grad_norm": 0.17047277092933655,
	"learning_rate": 0.0002,
	"loss": 0.066,
	"step": 19240
	},
	{
	"epoch": 0.03500962764760309,
	"grad_norm": 0.031782686710357666,
	"learning_rate": 0.0002,
	"loss": 0.0203,
	"step": 19250
	},
	{
	"epoch": 0.03502781446716029,
	"grad_norm": 0.2545730471611023,
	"learning_rate": 0.0002,
	"loss": 0.1716,
	"step": 19260
	},
	{
	"epoch": 0.03504600128671748,
	"grad_norm": 0.11225811392068863,
	"learning_rate": 0.0002,
	"loss": 0.0791,
	"step": 19270
	},
	{
	"epoch": 0.03506418810627468,
	"grad_norm": 0.049140989780426025,
	"learning_rate": 0.0002,
	"loss": 0.0784,
	"step": 19280
	},
	{
	"epoch": 0.035082374925831876,
	"grad_norm": 0.16942913830280304,
	"learning_rate": 0.0002,
	"loss": 0.0638,
	"step": 19290
	},
	{
	"epoch": 0.03510056174538907,
	"grad_norm": 0.03836115077137947,
	"learning_rate": 0.0002,
	"loss": 0.0193,
	"step": 19300
	},
	{
	"epoch": 0.03511874856494627,
	"grad_norm": 0.13004787266254425,
	"learning_rate": 0.0002,
	"loss": 0.1477,
	"step": 19310
	},
	{
	"epoch": 0.035136935384503465,
	"grad_norm": 0.2054329216480255,
	"learning_rate": 0.0002,
	"loss": 0.0792,
	"step": 19320
	},
	{
	"epoch": 0.03515512220406066,
	"grad_norm": 0.06592074781656265,
	"learning_rate": 0.0002,
	"loss": 0.0784,
	"step": 19330
	},
	{
	"epoch": 0.03517330902361786,
	"grad_norm": 0.19228027760982513,
	"learning_rate": 0.0002,
	"loss": 0.067,
	"step": 19340
	},
	{
	"epoch": 0.035191495843175054,
	"grad_norm": 0.04050719738006592,
	"learning_rate": 0.0002,
	"loss": 0.017,
	"step": 19350
	},
	{
	"epoch": 0.03520968266273225,
	"grad_norm": 0.28715401887893677,
	"learning_rate": 0.0002,
	"loss": 0.1499,
	"step": 19360
	},
	{
	"epoch": 0.035227869482289446,
	"grad_norm": 0.13954712450504303,
	"learning_rate": 0.0002,
	"loss": 0.0787,
	"step": 19370
	},
	{
	"epoch": 0.03524605630184664,
	"grad_norm": 0.08851815015077591,
	"learning_rate": 0.0002,
	"loss": 0.0739,
	"step": 19380
	},
	{
	"epoch": 0.03526424312140384,
	"grad_norm": 0.1788545697927475,
	"learning_rate": 0.0002,
	"loss": 0.0576,
	"step": 19390
	},
	{
	"epoch": 0.035282429940961035,
	"grad_norm": 0.03644658252596855,
	"learning_rate": 0.0002,
	"loss": 0.0143,
	"step": 19400
	},
	{
	"epoch": 0.03530061676051823,
	"grad_norm": 0.3140568137168884,
	"learning_rate": 0.0002,
	"loss": 0.1498,
	"step": 19410
	},
	{
	"epoch": 0.03531880358007543,
	"grad_norm": 0.14550529420375824,
	"learning_rate": 0.0002,
	"loss": 0.0748,
	"step": 19420
	},
	{
	"epoch": 0.035336990399632624,
	"grad_norm": 0.10995481163263321,
	"learning_rate": 0.0002,
	"loss": 0.0801,
	"step": 19430
	},
	{
	"epoch": 0.03535517721918982,
	"grad_norm": 0.17238560318946838,
	"learning_rate": 0.0002,
	"loss": 0.0608,
	"step": 19440
	},
	{
	"epoch": 0.03537336403874702,
	"grad_norm": 0.031363293528556824,
	"learning_rate": 0.0002,
	"loss": 0.0154,
	"step": 19450
	},
	{
	"epoch": 0.03539155085830421,
	"grad_norm": 0.14145390689373016,
	"learning_rate": 0.0002,
	"loss": 0.1511,
	"step": 19460
	},
	{
	"epoch": 0.03540973767786141,
	"grad_norm": 0.19073855876922607,
	"learning_rate": 0.0002,
	"loss": 0.0725,
	"step": 19470
	},
	{
	"epoch": 0.035427924497418606,
	"grad_norm": 0.15639430284500122,
	"learning_rate": 0.0002,
	"loss": 0.0836,
	"step": 19480
	},
	{
	"epoch": 0.0354461113169758,
	"grad_norm": 0.2566238045692444,
	"learning_rate": 0.0002,
	"loss": 0.0617,
	"step": 19490
	},
	{
	"epoch": 0.035464298136533,
	"grad_norm": 0.055755820125341415,
	"learning_rate": 0.0002,
	"loss": 0.0178,
	"step": 19500
	},
	{
	"epoch": 0.035482484956090195,
	"grad_norm": 0.2835562527179718,
	"learning_rate": 0.0002,
	"loss": 0.1306,
	"step": 19510
	},
	{
	"epoch": 0.03550067177564739,
	"grad_norm": 0.2310812920331955,
	"learning_rate": 0.0002,
	"loss": 0.0766,
	"step": 19520
	},
	{
	"epoch": 0.03551885859520459,
	"grad_norm": 0.1287071257829666,
	"learning_rate": 0.0002,
	"loss": 0.0791,
	"step": 19530
	},
	{
	"epoch": 0.035537045414761784,
	"grad_norm": 0.21308869123458862,
	"learning_rate": 0.0002,
	"loss": 0.0584,
	"step": 19540
	},
	{
	"epoch": 0.03555523223431898,
	"grad_norm": 0.0662735179066658,
	"learning_rate": 0.0002,
	"loss": 0.0207,
	"step": 19550
	},
	{
	"epoch": 0.035573419053876176,
	"grad_norm": 0.21706523001194,
	"learning_rate": 0.0002,
	"loss": 0.1308,
	"step": 19560
	},
	{
	"epoch": 0.03559160587343337,
	"grad_norm": 0.09376335144042969,
	"learning_rate": 0.0002,
	"loss": 0.0677,
	"step": 19570
	},
	{
	"epoch": 0.035609792692990576,
	"grad_norm": 0.1093437597155571,
	"learning_rate": 0.0002,
	"loss": 0.0741,
	"step": 19580
	},
	{
	"epoch": 0.03562797951254777,
	"grad_norm": 0.21057911217212677,
	"learning_rate": 0.0002,
	"loss": 0.0637,
	"step": 19590
	},
	{
	"epoch": 0.03564616633210497,
	"grad_norm": 0.04383830726146698,
	"learning_rate": 0.0002,
	"loss": 0.019,
	"step": 19600
	},
	{
	"epoch": 0.035664353151662165,
	"grad_norm": 0.3657427132129669,
	"learning_rate": 0.0002,
	"loss": 0.1421,
	"step": 19610
	},
	{
	"epoch": 0.03568253997121936,
	"grad_norm": 0.17154265940189362,
	"learning_rate": 0.0002,
	"loss": 0.0779,
	"step": 19620
	},
	{
	"epoch": 0.03570072679077656,
	"grad_norm": 0.041993435472249985,
	"learning_rate": 0.0002,
	"loss": 0.0768,
	"step": 19630
	},
	{
	"epoch": 0.035718913610333754,
	"grad_norm": 0.1658252775669098,
	"learning_rate": 0.0002,
	"loss": 0.0602,
	"step": 19640
	},
	{
	"epoch": 0.03573710042989095,
	"grad_norm": 0.028523078188300133,
	"learning_rate": 0.0002,
	"loss": 0.0151,
	"step": 19650
	},
	{
	"epoch": 0.035755287249448146,
	"grad_norm": 0.2624453902244568,
	"learning_rate": 0.0002,
	"loss": 0.1355,
	"step": 19660
	},
	{
	"epoch": 0.03577347406900534,
	"grad_norm": 0.12055794149637222,
	"learning_rate": 0.0002,
	"loss": 0.079,
	"step": 19670
	},
	{
	"epoch": 0.03579166088856254,
	"grad_norm": 0.043441224843263626,
	"learning_rate": 0.0002,
	"loss": 0.0722,
	"step": 19680
	},
	{
	"epoch": 0.035809847708119735,
	"grad_norm": 0.2464340627193451,
	"learning_rate": 0.0002,
	"loss": 0.0673,
	"step": 19690
	},
	{
	"epoch": 0.03582803452767693,
	"grad_norm": 0.04004153981804848,
	"learning_rate": 0.0002,
	"loss": 0.0212,
	"step": 19700
	},
	{
	"epoch": 0.03584622134723413,
	"grad_norm": 0.3159453570842743,
	"learning_rate": 0.0002,
	"loss": 0.1806,
	"step": 19710
	},
	{
	"epoch": 0.035864408166791324,
	"grad_norm": 0.11327318102121353,
	"learning_rate": 0.0002,
	"loss": 0.0748,
	"step": 19720
	},
	{
	"epoch": 0.03588259498634852,
	"grad_norm": 0.0980909988284111,
	"learning_rate": 0.0002,
	"loss": 0.0807,
	"step": 19730
	},
	{
	"epoch": 0.03590078180590572,
	"grad_norm": 0.15508098900318146,
	"learning_rate": 0.0002,
	"loss": 0.0576,
	"step": 19740
	},
	{
	"epoch": 0.03591896862546291,
	"grad_norm": 0.019624806940555573,
	"learning_rate": 0.0002,
	"loss": 0.0135,
	"step": 19750
	},
	{
	"epoch": 0.03593715544502011,
	"grad_norm": 0.20336109399795532,
	"learning_rate": 0.0002,
	"loss": 0.1702,
	"step": 19760
	},
	{
	"epoch": 0.035955342264577306,
	"grad_norm": 0.12767620384693146,
	"learning_rate": 0.0002,
	"loss": 0.0776,
	"step": 19770
	},
	{
	"epoch": 0.0359735290841345,
	"grad_norm": 0.19050805270671844,
	"learning_rate": 0.0002,
	"loss": 0.0838,
	"step": 19780
	},
	{
	"epoch": 0.0359917159036917,
	"grad_norm": 0.17471866309642792,
	"learning_rate": 0.0002,
	"loss": 0.0561,
	"step": 19790
	},
	{
	"epoch": 0.036009902723248895,
	"grad_norm": 0.044348277151584625,
	"learning_rate": 0.0002,
	"loss": 0.0159,
	"step": 19800
	},
	{
	"epoch": 0.03602808954280609,
	"grad_norm": 0.30847081542015076,
	"learning_rate": 0.0002,
	"loss": 0.1686,
	"step": 19810
	},
	{
	"epoch": 0.03604627636236329,
	"grad_norm": 0.08963622897863388,
	"learning_rate": 0.0002,
	"loss": 0.078,
	"step": 19820
	},
	{
	"epoch": 0.036064463181920484,
	"grad_norm": 0.0580587275326252,
	"learning_rate": 0.0002,
	"loss": 0.0741,
	"step": 19830
	},
	{
	"epoch": 0.03608265000147768,
	"grad_norm": 0.1698184460401535,
	"learning_rate": 0.0002,
	"loss": 0.0631,
	"step": 19840
	},
	{
	"epoch": 0.036100836821034876,
	"grad_norm": 0.025531867519021034,
	"learning_rate": 0.0002,
	"loss": 0.0166,
	"step": 19850
	},
	{
	"epoch": 0.03611902364059207,
	"grad_norm": 0.3544731140136719,
	"learning_rate": 0.0002,
	"loss": 0.1886,
	"step": 19860
	},
	{
	"epoch": 0.03613721046014927,
	"grad_norm": 0.2552841901779175,
	"learning_rate": 0.0002,
	"loss": 0.0859,
	"step": 19870
	},
	{
	"epoch": 0.036155397279706465,
	"grad_norm": 0.07771942019462585,
	"learning_rate": 0.0002,
	"loss": 0.0859,
	"step": 19880
	},
	{
	"epoch": 0.03617358409926366,
	"grad_norm": 0.15945585072040558,
	"learning_rate": 0.0002,
	"loss": 0.0609,
	"step": 19890
	},
	{
	"epoch": 0.03619177091882086,
	"grad_norm": 0.04583865404129028,
	"learning_rate": 0.0002,
	"loss": 0.0196,
	"step": 19900
	},
	{
	"epoch": 0.036209957738378054,
	"grad_norm": 0.2110920548439026,
	"learning_rate": 0.0002,
	"loss": 0.1305,
	"step": 19910
	},
	{
	"epoch": 0.03622814455793525,
	"grad_norm": 0.22165755927562714,
	"learning_rate": 0.0002,
	"loss": 0.0767,
	"step": 19920
	},
	{
	"epoch": 0.03624633137749245,
	"grad_norm": 0.0866742879152298,
	"learning_rate": 0.0002,
	"loss": 0.0785,
	"step": 19930
	},
	{
	"epoch": 0.03626451819704964,
	"grad_norm": 0.19838224351406097,
	"learning_rate": 0.0002,
	"loss": 0.0663,
	"step": 19940
	},
	{
	"epoch": 0.03628270501660684,
	"grad_norm": 0.05543521046638489,
	"learning_rate": 0.0002,
	"loss": 0.023,
	"step": 19950
	},
	{
	"epoch": 0.036300891836164036,
	"grad_norm": 0.20800183713436127,
	"learning_rate": 0.0002,
	"loss": 0.1468,
	"step": 19960
	},
	{
	"epoch": 0.03631907865572123,
	"grad_norm": 0.14951092004776,
	"learning_rate": 0.0002,
	"loss": 0.0698,
	"step": 19970
	},
	{
	"epoch": 0.03633726547527843,
	"grad_norm": 0.10162603855133057,
	"learning_rate": 0.0002,
	"loss": 0.0841,
	"step": 19980
	},
	{
	"epoch": 0.036355452294835625,
	"grad_norm": 0.24774019420146942,
	"learning_rate": 0.0002,
	"loss": 0.0658,
	"step": 19990
	},
	{
	"epoch": 0.03637363911439282,
	"grad_norm": 0.02705777995288372,
	"learning_rate": 0.0002,
	"loss": 0.02,
	"step": 20000
	},
	{
	"epoch": 0.03639182593395002,
	"grad_norm": 0.2509992718696594,
	"learning_rate": 0.0002,
	"loss": 0.1529,
	"step": 20010
	},
	{
	"epoch": 0.036410012753507214,
	"grad_norm": 0.2126697599887848,
	"learning_rate": 0.0002,
	"loss": 0.0716,
	"step": 20020
	},
	{
	"epoch": 0.03642819957306441,
	"grad_norm": 0.1463591754436493,
	"learning_rate": 0.0002,
	"loss": 0.076,
	"step": 20030
	},
	{
	"epoch": 0.036446386392621606,
	"grad_norm": 0.21879518032073975,
	"learning_rate": 0.0002,
	"loss": 0.0677,
	"step": 20040
	},
	{
	"epoch": 0.0364645732121788,
	"grad_norm": 0.028337355703115463,
	"learning_rate": 0.0002,
	"loss": 0.0131,
	"step": 20050
	},
	{
	"epoch": 0.036482760031736,
	"grad_norm": 0.335788756608963,
	"learning_rate": 0.0002,
	"loss": 0.1693,
	"step": 20060
	},
	{
	"epoch": 0.036500946851293195,
	"grad_norm": 0.17615728080272675,
	"learning_rate": 0.0002,
	"loss": 0.0791,
	"step": 20070
	},
	{
	"epoch": 0.03651913367085039,
	"grad_norm": 0.034229181706905365,
	"learning_rate": 0.0002,
	"loss": 0.0774,
	"step": 20080
	},
	{
	"epoch": 0.03653732049040759,
	"grad_norm": 0.20637790858745575,
	"learning_rate": 0.0002,
	"loss": 0.0544,
	"step": 20090
	},
	{
	"epoch": 0.036555507309964784,
	"grad_norm": 0.033659741282463074,
	"learning_rate": 0.0002,
	"loss": 0.0128,
	"step": 20100
	},
	{
	"epoch": 0.03657369412952198,
	"grad_norm": 0.18249601125717163,
	"learning_rate": 0.0002,
	"loss": 0.1939,
	"step": 20110
	},
	{
	"epoch": 0.03659188094907918,
	"grad_norm": 0.18065877258777618,
	"learning_rate": 0.0002,
	"loss": 0.0816,
	"step": 20120
	},
	{
	"epoch": 0.03661006776863637,
	"grad_norm": 0.4361811876296997,
	"learning_rate": 0.0002,
	"loss": 0.0978,
	"step": 20130
	},
	{
	"epoch": 0.03662825458819357,
	"grad_norm": 0.24488002061843872,
	"learning_rate": 0.0002,
	"loss": 0.0742,
	"step": 20140
	},
	{
	"epoch": 0.036646441407750766,
	"grad_norm": 0.023062752559781075,
	"learning_rate": 0.0002,
	"loss": 0.0196,
	"step": 20150
	},
	{
	"epoch": 0.03666462822730796,
	"grad_norm": 0.22796255350112915,
	"learning_rate": 0.0002,
	"loss": 0.1457,
	"step": 20160
	},
	{
	"epoch": 0.03668281504686516,
	"grad_norm": 0.16665758192539215,
	"learning_rate": 0.0002,
	"loss": 0.138,
	"step": 20170
	},
	{
	"epoch": 0.036701001866422354,
	"grad_norm": 0.0503946952521801,
	"learning_rate": 0.0002,
	"loss": 0.079,
	"step": 20180
	},
	{
	"epoch": 0.03671918868597955,
	"grad_norm": 0.1672963798046112,
	"learning_rate": 0.0002,
	"loss": 0.0621,
	"step": 20190
	},
	{
	"epoch": 0.03673737550553675,
	"grad_norm": 0.06765859574079514,
	"learning_rate": 0.0002,
	"loss": 0.0171,
	"step": 20200
	},
	{
	"epoch": 0.03675556232509394,
	"grad_norm": 0.6076682806015015,
	"learning_rate": 0.0002,
	"loss": 0.6804,
	"step": 20210
	},
	{
	"epoch": 0.03677374914465114,
	"grad_norm": 0.04764563590288162,
	"learning_rate": 0.0002,
	"loss": 0.0965,
	"step": 20220
	},
	{
	"epoch": 0.036791935964208336,
	"grad_norm": 0.6847806572914124,
	"learning_rate": 0.0002,
	"loss": 0.0784,
	"step": 20230
	},
	{
	"epoch": 0.03681012278376553,
	"grad_norm": 0.2678837478160858,
	"learning_rate": 0.0002,
	"loss": 0.069,
	"step": 20240
	},
	{
	"epoch": 0.03682830960332273,
	"grad_norm": 0.039824239909648895,
	"learning_rate": 0.0002,
	"loss": 0.0206,
	"step": 20250
	},
	{
	"epoch": 0.036846496422879925,
	"grad_norm": 0.19583609700202942,
	"learning_rate": 0.0002,
	"loss": 0.1588,
	"step": 20260
	},
	{
	"epoch": 0.03686468324243713,
	"grad_norm": 0.08613055944442749,
	"learning_rate": 0.0002,
	"loss": 0.0777,
	"step": 20270
	},
	{
	"epoch": 0.036882870061994324,
	"grad_norm": 0.028818165883421898,
	"learning_rate": 0.0002,
	"loss": 0.0704,
	"step": 20280
	},
	{
	"epoch": 0.03690105688155152,
	"grad_norm": 0.19514115154743195,
	"learning_rate": 0.0002,
	"loss": 0.0654,
	"step": 20290
	},
	{
	"epoch": 0.03691924370110872,
	"grad_norm": 0.043222617357969284,
	"learning_rate": 0.0002,
	"loss": 0.0216,
	"step": 20300
	},
	{
	"epoch": 0.03693743052066591,
	"grad_norm": 0.2490546703338623,
	"learning_rate": 0.0002,
	"loss": 0.1472,
	"step": 20310
	},
	{
	"epoch": 0.03695561734022311,
	"grad_norm": 0.16989269852638245,
	"learning_rate": 0.0002,
	"loss": 0.081,
	"step": 20320
	},
	{
	"epoch": 0.036973804159780306,
	"grad_norm": 0.09191739559173584,
	"learning_rate": 0.0002,
	"loss": 0.0733,
	"step": 20330
	},
	{
	"epoch": 0.0369919909793375,
	"grad_norm": 0.18435023725032806,
	"learning_rate": 0.0002,
	"loss": 0.0654,
	"step": 20340
	},
	{
	"epoch": 0.0370101777988947,
	"grad_norm": 0.031144114211201668,
	"learning_rate": 0.0002,
	"loss": 0.0226,
	"step": 20350
	},
	{
	"epoch": 0.037028364618451895,
	"grad_norm": 0.3244694769382477,
	"learning_rate": 0.0002,
	"loss": 0.1304,
	"step": 20360
	},
	{
	"epoch": 0.03704655143800909,
	"grad_norm": 0.13787488639354706,
	"learning_rate": 0.0002,
	"loss": 0.0811,
	"step": 20370
	},
	{
	"epoch": 0.03706473825756629,
	"grad_norm": 0.058523450046777725,
	"learning_rate": 0.0002,
	"loss": 0.0806,
	"step": 20380
	},
	{
	"epoch": 0.037082925077123484,
	"grad_norm": 0.3001325726509094,
	"learning_rate": 0.0002,
	"loss": 0.0694,
	"step": 20390
	},
	{
	"epoch": 0.03710111189668068,
	"grad_norm": 0.04447292909026146,
	"learning_rate": 0.0002,
	"loss": 0.0218,
	"step": 20400
	},
	{
	"epoch": 0.037119298716237877,
	"grad_norm": 0.25786396861076355,
	"learning_rate": 0.0002,
	"loss": 0.1499,
	"step": 20410
	},
	{
	"epoch": 0.03713748553579507,
	"grad_norm": 0.11381134390830994,
	"learning_rate": 0.0002,
	"loss": 0.0822,
	"step": 20420
	},
	{
	"epoch": 0.03715567235535227,
	"grad_norm": 0.022713568061590195,
	"learning_rate": 0.0002,
	"loss": 0.0785,
	"step": 20430
	},
	{
	"epoch": 0.037173859174909465,
	"grad_norm": 0.15770909190177917,
	"learning_rate": 0.0002,
	"loss": 0.0625,
	"step": 20440
	},
	{
	"epoch": 0.03719204599446666,
	"grad_norm": 0.021412041038274765,
	"learning_rate": 0.0002,
	"loss": 0.0126,
	"step": 20450
	},
	{
	"epoch": 0.03721023281402386,
	"grad_norm": 0.24260753393173218,
	"learning_rate": 0.0002,
	"loss": 0.1777,
	"step": 20460
	},
	{
	"epoch": 0.037228419633581054,
	"grad_norm": 0.10953031480312347,
	"learning_rate": 0.0002,
	"loss": 0.073,
	"step": 20470
	},
	{
	"epoch": 0.03724660645313825,
	"grad_norm": 0.03975062072277069,
	"learning_rate": 0.0002,
	"loss": 0.0907,
	"step": 20480
	},
	{
	"epoch": 0.03726479327269545,
	"grad_norm": 0.2025018036365509,
	"learning_rate": 0.0002,
	"loss": 0.0631,
	"step": 20490
	},
	{
	"epoch": 0.03728298009225264,
	"grad_norm": 0.031849734485149384,
	"learning_rate": 0.0002,
	"loss": 0.0156,
	"step": 20500
	},
	{
	"epoch": 0.03730116691180984,
	"grad_norm": 0.2650098502635956,
	"learning_rate": 0.0002,
	"loss": 0.1569,
	"step": 20510
	},
	{
	"epoch": 0.037319353731367036,
	"grad_norm": 0.14113937318325043,
	"learning_rate": 0.0002,
	"loss": 0.0824,
	"step": 20520
	},
	{
	"epoch": 0.03733754055092423,
	"grad_norm": 0.10276420414447784,
	"learning_rate": 0.0002,
	"loss": 0.0797,
	"step": 20530
	},
	{
	"epoch": 0.03735572737048143,
	"grad_norm": 0.2258286476135254,
	"learning_rate": 0.0002,
	"loss": 0.0671,
	"step": 20540
	},
	{
	"epoch": 0.037373914190038625,
	"grad_norm": 0.10343242436647415,
	"learning_rate": 0.0002,
	"loss": 0.0178,
	"step": 20550
	},
	{
	"epoch": 0.03739210100959582,
	"grad_norm": 0.19423982501029968,
	"learning_rate": 0.0002,
	"loss": 0.1423,
	"step": 20560
	},
	{
	"epoch": 0.03741028782915302,
	"grad_norm": 0.12046124786138535,
	"learning_rate": 0.0002,
	"loss": 0.0827,
	"step": 20570
	},
	{
	"epoch": 0.037428474648710214,
	"grad_norm": 0.026751041412353516,
	"learning_rate": 0.0002,
	"loss": 0.0743,
	"step": 20580
	},
	{
	"epoch": 0.03744666146826741,
	"grad_norm": 0.23576834797859192,
	"learning_rate": 0.0002,
	"loss": 0.0629,
	"step": 20590
	},
	{
	"epoch": 0.037464848287824606,
	"grad_norm": 0.05146399885416031,
	"learning_rate": 0.0002,
	"loss": 0.0205,
	"step": 20600
	},
	{
	"epoch": 0.0374830351073818,
	"grad_norm": 0.21750135719776154,
	"learning_rate": 0.0002,
	"loss": 0.1397,
	"step": 20610
	},
	{
	"epoch": 0.037501221926939,
	"grad_norm": 0.08351115882396698,
	"learning_rate": 0.0002,
	"loss": 0.0801,
	"step": 20620
	},
	{
	"epoch": 0.037519408746496195,
	"grad_norm": 0.07272092998027802,
	"learning_rate": 0.0002,
	"loss": 0.0881,
	"step": 20630
	},
	{
	"epoch": 0.03753759556605339,
	"grad_norm": 0.23707769811153412,
	"learning_rate": 0.0002,
	"loss": 0.0706,
	"step": 20640
	},
	{
	"epoch": 0.03755578238561059,
	"grad_norm": 0.05208323150873184,
	"learning_rate": 0.0002,
	"loss": 0.024,
	"step": 20650
	},
	{
	"epoch": 0.037573969205167784,
	"grad_norm": 0.4163022041320801,
	"learning_rate": 0.0002,
	"loss": 0.159,
	"step": 20660
	},
	{
	"epoch": 0.03759215602472498,
	"grad_norm": 0.1036575511097908,
	"learning_rate": 0.0002,
	"loss": 0.0814,
	"step": 20670
	},
	{
	"epoch": 0.03761034284428218,
	"grad_norm": 0.09861626476049423,
	"learning_rate": 0.0002,
	"loss": 0.0828,
	"step": 20680
	},
	{
	"epoch": 0.03762852966383937,
	"grad_norm": 0.1685744971036911,
	"learning_rate": 0.0002,
	"loss": 0.0597,
	"step": 20690
	},
	{
	"epoch": 0.03764671648339657,
	"grad_norm": 0.02716050110757351,
	"learning_rate": 0.0002,
	"loss": 0.0164,
	"step": 20700
	},
	{
	"epoch": 0.037664903302953766,
	"grad_norm": 0.46858713030815125,
	"learning_rate": 0.0002,
	"loss": 0.1596,
	"step": 20710
	},
	{
	"epoch": 0.03768309012251096,
	"grad_norm": 0.15260715782642365,
	"learning_rate": 0.0002,
	"loss": 0.0835,
	"step": 20720
	},
	{
	"epoch": 0.03770127694206816,
	"grad_norm": 0.2063397914171219,
	"learning_rate": 0.0002,
	"loss": 0.0845,
	"step": 20730
	},
	{
	"epoch": 0.037719463761625355,
	"grad_norm": 0.16447599232196808,
	"learning_rate": 0.0002,
	"loss": 0.0595,
	"step": 20740
	},
	{
	"epoch": 0.03773765058118255,
	"grad_norm": 0.020755184814333916,
	"learning_rate": 0.0002,
	"loss": 0.0164,
	"step": 20750
	},
	{
	"epoch": 0.03775583740073975,
	"grad_norm": 0.23675021529197693,
	"learning_rate": 0.0002,
	"loss": 0.1634,
	"step": 20760
	},
	{
	"epoch": 0.037774024220296944,
	"grad_norm": 0.08625516295433044,
	"learning_rate": 0.0002,
	"loss": 0.0685,
	"step": 20770
	},
	{
	"epoch": 0.03779221103985414,
	"grad_norm": 0.043796882033348083,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 20780
	},
	{
	"epoch": 0.037810397859411336,
	"grad_norm": 0.20600435137748718,
	"learning_rate": 0.0002,
	"loss": 0.0651,
	"step": 20790
	},
	{
	"epoch": 0.03782858467896853,
	"grad_norm": 0.04963940382003784,
	"learning_rate": 0.0002,
	"loss": 0.0202,
	"step": 20800
	},
	{
	"epoch": 0.03784677149852573,
	"grad_norm": 0.34920167922973633,
	"learning_rate": 0.0002,
	"loss": 0.1494,
	"step": 20810
	},
	{
	"epoch": 0.037864958318082925,
	"grad_norm": 0.18662041425704956,
	"learning_rate": 0.0002,
	"loss": 0.0823,
	"step": 20820
	},
	{
	"epoch": 0.03788314513764012,
	"grad_norm": 0.12615887820720673,
	"learning_rate": 0.0002,
	"loss": 0.0856,
	"step": 20830
	},
	{
	"epoch": 0.03790133195719732,
	"grad_norm": 0.1857282668352127,
	"learning_rate": 0.0002,
	"loss": 0.0676,
	"step": 20840
	},
	{
	"epoch": 0.037919518776754514,
	"grad_norm": 0.05569197237491608,
	"learning_rate": 0.0002,
	"loss": 0.0181,
	"step": 20850
	},
	{
	"epoch": 0.03793770559631171,
	"grad_norm": 0.29011765122413635,
	"learning_rate": 0.0002,
	"loss": 0.1418,
	"step": 20860
	},
	{
	"epoch": 0.03795589241586891,
	"grad_norm": 0.14119744300842285,
	"learning_rate": 0.0002,
	"loss": 0.0812,
	"step": 20870
	},
	{
	"epoch": 0.0379740792354261,
	"grad_norm": 0.039884984493255615,
	"learning_rate": 0.0002,
	"loss": 0.0781,
	"step": 20880
	},
	{
	"epoch": 0.0379922660549833,
	"grad_norm": 0.23705685138702393,
	"learning_rate": 0.0002,
	"loss": 0.0621,
	"step": 20890
	},
	{
	"epoch": 0.038010452874540496,
	"grad_norm": 0.07462739199399948,
	"learning_rate": 0.0002,
	"loss": 0.022,
	"step": 20900
	},
	{
	"epoch": 0.03802863969409769,
	"grad_norm": 0.2610052824020386,
	"learning_rate": 0.0002,
	"loss": 0.1517,
	"step": 20910
	},
	{
	"epoch": 0.03804682651365489,
	"grad_norm": 0.12775090336799622,
	"learning_rate": 0.0002,
	"loss": 0.0758,
	"step": 20920
	},
	{
	"epoch": 0.038065013333212085,
	"grad_norm": 0.03661905974149704,
	"learning_rate": 0.0002,
	"loss": 0.0738,
	"step": 20930
	},
	{
	"epoch": 0.03808320015276928,
	"grad_norm": 0.20907218754291534,
	"learning_rate": 0.0002,
	"loss": 0.0627,
	"step": 20940
	},
	{
	"epoch": 0.03810138697232648,
	"grad_norm": 0.022804679349064827,
	"learning_rate": 0.0002,
	"loss": 0.0205,
	"step": 20950
	},
	{
	"epoch": 0.03811957379188368,
	"grad_norm": 0.258284330368042,
	"learning_rate": 0.0002,
	"loss": 0.1428,
	"step": 20960
	},
	{
	"epoch": 0.03813776061144088,
	"grad_norm": 0.1477317065000534,
	"learning_rate": 0.0002,
	"loss": 0.0789,
	"step": 20970
	},
	{
	"epoch": 0.03815594743099807,
	"grad_norm": 0.0610325001180172,
	"learning_rate": 0.0002,
	"loss": 0.0836,
	"step": 20980
	},
	{
	"epoch": 0.03817413425055527,
	"grad_norm": 0.18825507164001465,
	"learning_rate": 0.0002,
	"loss": 0.0621,
	"step": 20990
	},
	{
	"epoch": 0.038192321070112466,
	"grad_norm": 0.03943372145295143,
	"learning_rate": 0.0002,
	"loss": 0.0185,
	"step": 21000
	},
	{
	"epoch": 0.03821050788966966,
	"grad_norm": 0.34519344568252563,
	"learning_rate": 0.0002,
	"loss": 0.1345,
	"step": 21010
	},
	{
	"epoch": 0.03822869470922686,
	"grad_norm": 0.09635084867477417,
	"learning_rate": 0.0002,
	"loss": 0.0753,
	"step": 21020
	},
	{
	"epoch": 0.038246881528784055,
	"grad_norm": 0.032520972192287445,
	"learning_rate": 0.0002,
	"loss": 0.082,
	"step": 21030
	},
	{
	"epoch": 0.03826506834834125,
	"grad_norm": 0.18068930506706238,
	"learning_rate": 0.0002,
	"loss": 0.0609,
	"step": 21040
	},
	{
	"epoch": 0.03828325516789845,
	"grad_norm": 0.05550973862409592,
	"learning_rate": 0.0002,
	"loss": 0.0241,
	"step": 21050
	},
	{
	"epoch": 0.038301441987455644,
	"grad_norm": 0.19561107456684113,
	"learning_rate": 0.0002,
	"loss": 0.1337,
	"step": 21060
	},
	{
	"epoch": 0.03831962880701284,
	"grad_norm": 0.1852179914712906,
	"learning_rate": 0.0002,
	"loss": 0.0724,
	"step": 21070
	},
	{
	"epoch": 0.038337815626570036,
	"grad_norm": 0.11915116757154465,
	"learning_rate": 0.0002,
	"loss": 0.0836,
	"step": 21080
	},
	{
	"epoch": 0.03835600244612723,
	"grad_norm": 0.21116836369037628,
	"learning_rate": 0.0002,
	"loss": 0.0628,
	"step": 21090
	},
	{
	"epoch": 0.03837418926568443,
	"grad_norm": 0.042745884507894516,
	"learning_rate": 0.0002,
	"loss": 0.0214,
	"step": 21100
	},
	{
	"epoch": 0.038392376085241625,
	"grad_norm": 0.43089792132377625,
	"learning_rate": 0.0002,
	"loss": 0.1351,
	"step": 21110
	},
	{
	"epoch": 0.03841056290479882,
	"grad_norm": 0.09607810527086258,
	"learning_rate": 0.0002,
	"loss": 0.0778,
	"step": 21120
	},
	{
	"epoch": 0.03842874972435602,
	"grad_norm": 0.13603460788726807,
	"learning_rate": 0.0002,
	"loss": 0.0787,
	"step": 21130
	},
	{
	"epoch": 0.038446936543913214,
	"grad_norm": 0.20110103487968445,
	"learning_rate": 0.0002,
	"loss": 0.067,
	"step": 21140
	},
	{
	"epoch": 0.03846512336347041,
	"grad_norm": 0.042503997683525085,
	"learning_rate": 0.0002,
	"loss": 0.0194,
	"step": 21150
	},
	{
	"epoch": 0.03848331018302761,
	"grad_norm": 0.2605084478855133,
	"learning_rate": 0.0002,
	"loss": 0.1374,
	"step": 21160
	},
	{
	"epoch": 0.0385014970025848,
	"grad_norm": 0.09476794302463531,
	"learning_rate": 0.0002,
	"loss": 0.078,
	"step": 21170
	},
	{
	"epoch": 0.038519683822142,
	"grad_norm": 0.03458428382873535,
	"learning_rate": 0.0002,
	"loss": 0.08,
	"step": 21180
	},
	{
	"epoch": 0.038537870641699196,
	"grad_norm": 0.31196194887161255,
	"learning_rate": 0.0002,
	"loss": 0.0664,
	"step": 21190
	},
	{
	"epoch": 0.03855605746125639,
	"grad_norm": 0.037113118916749954,
	"learning_rate": 0.0002,
	"loss": 0.0221,
	"step": 21200
	},
	{
	"epoch": 0.03857424428081359,
	"grad_norm": 0.3699415922164917,
	"learning_rate": 0.0002,
	"loss": 0.1534,
	"step": 21210
	},
	{
	"epoch": 0.038592431100370785,
	"grad_norm": 0.06454256922006607,
	"learning_rate": 0.0002,
	"loss": 0.0762,
	"step": 21220
	},
	{
	"epoch": 0.03861061791992798,
	"grad_norm": 0.09858033806085587,
	"learning_rate": 0.0002,
	"loss": 0.0785,
	"step": 21230
	},
	{
	"epoch": 0.03862880473948518,
	"grad_norm": 0.1482791304588318,
	"learning_rate": 0.0002,
	"loss": 0.062,
	"step": 21240
	},
	{
	"epoch": 0.038646991559042373,
	"grad_norm": 0.031473588198423386,
	"learning_rate": 0.0002,
	"loss": 0.0163,
	"step": 21250
	},
	{
	"epoch": 0.03866517837859957,
	"grad_norm": 0.09360513091087341,
	"learning_rate": 0.0002,
	"loss": 0.1397,
	"step": 21260
	},
	{
	"epoch": 0.038683365198156766,
	"grad_norm": 0.10830901563167572,
	"learning_rate": 0.0002,
	"loss": 0.0789,
	"step": 21270
	},
	{
	"epoch": 0.03870155201771396,
	"grad_norm": 0.08910014480352402,
	"learning_rate": 0.0002,
	"loss": 0.0758,
	"step": 21280
	},
	{
	"epoch": 0.03871973883727116,
	"grad_norm": 0.21524523198604584,
	"learning_rate": 0.0002,
	"loss": 0.0628,
	"step": 21290
	},
	{
	"epoch": 0.038737925656828355,
	"grad_norm": 0.03794678673148155,
	"learning_rate": 0.0002,
	"loss": 0.0229,
	"step": 21300
	},
	{
	"epoch": 0.03875611247638555,
	"grad_norm": 0.46754345297813416,
	"learning_rate": 0.0002,
	"loss": 0.1291,
	"step": 21310
	},
	{
	"epoch": 0.03877429929594275,
	"grad_norm": 0.07472983002662659,
	"learning_rate": 0.0002,
	"loss": 0.076,
	"step": 21320
	},
	{
	"epoch": 0.038792486115499944,
	"grad_norm": 0.11820811778306961,
	"learning_rate": 0.0002,
	"loss": 0.0772,
	"step": 21330
	},
	{
	"epoch": 0.03881067293505714,
	"grad_norm": 0.21140390634536743,
	"learning_rate": 0.0002,
	"loss": 0.0539,
	"step": 21340
	},
	{
	"epoch": 0.03882885975461434,
	"grad_norm": 0.044819217175245285,
	"learning_rate": 0.0002,
	"loss": 0.0228,
	"step": 21350
	},
	{
	"epoch": 0.03884704657417153,
	"grad_norm": 0.2267816811800003,
	"learning_rate": 0.0002,
	"loss": 0.1462,
	"step": 21360
	},
	{
	"epoch": 0.03886523339372873,
	"grad_norm": 0.10087496787309647,
	"learning_rate": 0.0002,
	"loss": 0.0766,
	"step": 21370
	},
	{
	"epoch": 0.038883420213285926,
	"grad_norm": 0.09982341527938843,
	"learning_rate": 0.0002,
	"loss": 0.0798,
	"step": 21380
	},
	{
	"epoch": 0.03890160703284312,
	"grad_norm": 0.21729151904582977,
	"learning_rate": 0.0002,
	"loss": 0.0586,
	"step": 21390
	},
	{
	"epoch": 0.03891979385240032,
	"grad_norm": 0.020691821351647377,
	"learning_rate": 0.0002,
	"loss": 0.0175,
	"step": 21400
	},
	{
	"epoch": 0.038937980671957514,
	"grad_norm": 0.33531665802001953,
	"learning_rate": 0.0002,
	"loss": 0.149,
	"step": 21410
	},
	{
	"epoch": 0.03895616749151471,
	"grad_norm": 0.11777795851230621,
	"learning_rate": 0.0002,
	"loss": 0.0736,
	"step": 21420
	},
	{
	"epoch": 0.03897435431107191,
	"grad_norm": 0.07860718667507172,
	"learning_rate": 0.0002,
	"loss": 0.0788,
	"step": 21430
	},
	{
	"epoch": 0.0389925411306291,
	"grad_norm": 0.16030597686767578,
	"learning_rate": 0.0002,
	"loss": 0.0581,
	"step": 21440
	},
	{
	"epoch": 0.0390107279501863,
	"grad_norm": 0.01747356541454792,
	"learning_rate": 0.0002,
	"loss": 0.0185,
	"step": 21450
	},
	{
	"epoch": 0.039028914769743496,
	"grad_norm": 0.2313859909772873,
	"learning_rate": 0.0002,
	"loss": 0.1383,
	"step": 21460
	},
	{
	"epoch": 0.03904710158930069,
	"grad_norm": 0.14510080218315125,
	"learning_rate": 0.0002,
	"loss": 0.0805,
	"step": 21470
	},
	{
	"epoch": 0.03906528840885789,
	"grad_norm": 0.04511871561408043,
	"learning_rate": 0.0002,
	"loss": 0.0793,
	"step": 21480
	},
	{
	"epoch": 0.039083475228415085,
	"grad_norm": 0.24205265939235687,
	"learning_rate": 0.0002,
	"loss": 0.0624,
	"step": 21490
	},
	{
	"epoch": 0.03910166204797228,
	"grad_norm": 0.08096791058778763,
	"learning_rate": 0.0002,
	"loss": 0.0208,
	"step": 21500
	},
	{
	"epoch": 0.03911984886752948,
	"grad_norm": 0.14405490458011627,
	"learning_rate": 0.0002,
	"loss": 0.1189,
	"step": 21510
	},
	{
	"epoch": 0.039138035687086674,
	"grad_norm": 0.06753374636173248,
	"learning_rate": 0.0002,
	"loss": 0.0772,
	"step": 21520
	},
	{
	"epoch": 0.03915622250664387,
	"grad_norm": 0.029025042429566383,
	"learning_rate": 0.0002,
	"loss": 0.0761,
	"step": 21530
	},
	{
	"epoch": 0.039174409326201066,
	"grad_norm": 0.2987070381641388,
	"learning_rate": 0.0002,
	"loss": 0.0656,
	"step": 21540
	},
	{
	"epoch": 0.03919259614575826,
	"grad_norm": 0.04445091262459755,
	"learning_rate": 0.0002,
	"loss": 0.0241,
	"step": 21550
	},
	{
	"epoch": 0.03921078296531546,
	"grad_norm": 0.34976306557655334,
	"learning_rate": 0.0002,
	"loss": 0.138,
	"step": 21560
	},
	{
	"epoch": 0.039228969784872655,
	"grad_norm": 0.07521916925907135,
	"learning_rate": 0.0002,
	"loss": 0.0774,
	"step": 21570
	},
	{
	"epoch": 0.03924715660442985,
	"grad_norm": 0.1445412039756775,
	"learning_rate": 0.0002,
	"loss": 0.087,
	"step": 21580
	},
	{
	"epoch": 0.03926534342398705,
	"grad_norm": 0.2688128352165222,
	"learning_rate": 0.0002,
	"loss": 0.0712,
	"step": 21590
	},
	{
	"epoch": 0.039283530243544244,
	"grad_norm": 0.05321233719587326,
	"learning_rate": 0.0002,
	"loss": 0.0245,
	"step": 21600
	},
	{
	"epoch": 0.03930171706310144,
	"grad_norm": 0.44459134340286255,
	"learning_rate": 0.0002,
	"loss": 0.1524,
	"step": 21610
	},
	{
	"epoch": 0.03931990388265864,
	"grad_norm": 0.13169553875923157,
	"learning_rate": 0.0002,
	"loss": 0.0726,
	"step": 21620
	},
	{
	"epoch": 0.03933809070221583,
	"grad_norm": 0.0908237174153328,
	"learning_rate": 0.0002,
	"loss": 0.0785,
	"step": 21630
	},
	{
	"epoch": 0.03935627752177303,
	"grad_norm": 0.18110623955726624,
	"learning_rate": 0.0002,
	"loss": 0.0606,
	"step": 21640
	},
	{
	"epoch": 0.03937446434133023,
	"grad_norm": 0.021362677216529846,
	"learning_rate": 0.0002,
	"loss": 0.0175,
	"step": 21650
	},
	{
	"epoch": 0.03939265116088743,
	"grad_norm": 0.27973899245262146,
	"learning_rate": 0.0002,
	"loss": 0.1641,
	"step": 21660
	},
	{
	"epoch": 0.039410837980444625,
	"grad_norm": 0.09090718626976013,
	"learning_rate": 0.0002,
	"loss": 0.073,
	"step": 21670
	},
	{
	"epoch": 0.03942902480000182,
	"grad_norm": 0.13408254086971283,
	"learning_rate": 0.0002,
	"loss": 0.0769,
	"step": 21680
	},
	{
	"epoch": 0.03944721161955902,
	"grad_norm": 0.2530055046081543,
	"learning_rate": 0.0002,
	"loss": 0.0729,
	"step": 21690
	},
	{
	"epoch": 0.039465398439116214,
	"grad_norm": 0.027523871511220932,
	"learning_rate": 0.0002,
	"loss": 0.017,
	"step": 21700
	},
	{
	"epoch": 0.03948358525867341,
	"grad_norm": 0.2520642578601837,
	"learning_rate": 0.0002,
	"loss": 0.1804,
	"step": 21710
	},
	{
	"epoch": 0.03950177207823061,
	"grad_norm": 0.11017465591430664,
	"learning_rate": 0.0002,
	"loss": 0.0767,
	"step": 21720
	},
	{
	"epoch": 0.0395199588977878,
	"grad_norm": 0.05129052326083183,
	"learning_rate": 0.0002,
	"loss": 0.0723,
	"step": 21730
	},
	{
	"epoch": 0.039538145717345,
	"grad_norm": 0.1846659779548645,
	"learning_rate": 0.0002,
	"loss": 0.0619,
	"step": 21740
	},
	{
	"epoch": 0.039556332536902196,
	"grad_norm": 0.014305013231933117,
	"learning_rate": 0.0002,
	"loss": 0.0171,
	"step": 21750
	},
	{
	"epoch": 0.03957451935645939,
	"grad_norm": 0.21667814254760742,
	"learning_rate": 0.0002,
	"loss": 0.157,
	"step": 21760
	},
	{
	"epoch": 0.03959270617601659,
	"grad_norm": 0.21456903219223022,
	"learning_rate": 0.0002,
	"loss": 0.0803,
	"step": 21770
	},
	{
	"epoch": 0.039610892995573785,
	"grad_norm": 0.03621416166424751,
	"learning_rate": 0.0002,
	"loss": 0.0796,
	"step": 21780
	},
	{
	"epoch": 0.03962907981513098,
	"grad_norm": 0.20819205045700073,
	"learning_rate": 0.0002,
	"loss": 0.0633,
	"step": 21790
	},
	{
	"epoch": 0.03964726663468818,
	"grad_norm": 0.06860963255167007,
	"learning_rate": 0.0002,
	"loss": 0.0172,
	"step": 21800
	},
	{
	"epoch": 0.039665453454245374,
	"grad_norm": 0.2568039894104004,
	"learning_rate": 0.0002,
	"loss": 0.134,
	"step": 21810
	},
	{
	"epoch": 0.03968364027380257,
	"grad_norm": 0.08747372031211853,
	"learning_rate": 0.0002,
	"loss": 0.0753,
	"step": 21820
	},
	{
	"epoch": 0.039701827093359766,
	"grad_norm": 0.13403570652008057,
	"learning_rate": 0.0002,
	"loss": 0.0807,
	"step": 21830
	},
	{
	"epoch": 0.03972001391291696,
	"grad_norm": 0.20756667852401733,
	"learning_rate": 0.0002,
	"loss": 0.0625,
	"step": 21840
	},
	{
	"epoch": 0.03973820073247416,
	"grad_norm": 0.03678170591592789,
	"learning_rate": 0.0002,
	"loss": 0.019,
	"step": 21850
	},
	{
	"epoch": 0.039756387552031355,
	"grad_norm": 0.1847693920135498,
	"learning_rate": 0.0002,
	"loss": 0.1385,
	"step": 21860
	},
	{
	"epoch": 0.03977457437158855,
	"grad_norm": 0.1627635508775711,
	"learning_rate": 0.0002,
	"loss": 0.0765,
	"step": 21870
	},
	{
	"epoch": 0.03979276119114575,
	"grad_norm": 0.0535571426153183,
	"learning_rate": 0.0002,
	"loss": 0.0741,
	"step": 21880
	},
	{
	"epoch": 0.039810948010702944,
	"grad_norm": 0.3128276765346527,
	"learning_rate": 0.0002,
	"loss": 0.0598,
	"step": 21890
	},
	{
	"epoch": 0.03982913483026014,
	"grad_norm": 0.03369860351085663,
	"learning_rate": 0.0002,
	"loss": 0.0217,
	"step": 21900
	},
	{
	"epoch": 0.03984732164981734,
	"grad_norm": 0.1962599903345108,
	"learning_rate": 0.0002,
	"loss": 0.1319,
	"step": 21910
	},
	{
	"epoch": 0.03986550846937453,
	"grad_norm": 0.1397421509027481,
	"learning_rate": 0.0002,
	"loss": 0.068,
	"step": 21920
	},
	{
	"epoch": 0.03988369528893173,
	"grad_norm": 0.10252605378627777,
	"learning_rate": 0.0002,
	"loss": 0.0736,
	"step": 21930
	},
	{
	"epoch": 0.039901882108488926,
	"grad_norm": 0.22179432213306427,
	"learning_rate": 0.0002,
	"loss": 0.0625,
	"step": 21940
	},
	{
	"epoch": 0.03992006892804612,
	"grad_norm": 0.06068069487810135,
	"learning_rate": 0.0002,
	"loss": 0.0242,
	"step": 21950
	},
	{
	"epoch": 0.03993825574760332,
	"grad_norm": 0.20243950188159943,
	"learning_rate": 0.0002,
	"loss": 0.143,
	"step": 21960
	},
	{
	"epoch": 0.039956442567160515,
	"grad_norm": 0.11786511540412903,
	"learning_rate": 0.0002,
	"loss": 0.0779,
	"step": 21970
	},
	{
	"epoch": 0.03997462938671771,
	"grad_norm": 0.08299421519041061,
	"learning_rate": 0.0002,
	"loss": 0.0774,
	"step": 21980
	},
	{
	"epoch": 0.03999281620627491,
	"grad_norm": 0.2844075858592987,
	"learning_rate": 0.0002,
	"loss": 0.0711,
	"step": 21990
	},
	{
	"epoch": 0.040011003025832104,
	"grad_norm": 0.034433312714099884,
	"learning_rate": 0.0002,
	"loss": 0.0217,
	"step": 22000
	},
	{
	"epoch": 0.0400291898453893,
	"grad_norm": 0.3878481388092041,
	"learning_rate": 0.0002,
	"loss": 0.1525,
	"step": 22010
	},
	{
	"epoch": 0.040047376664946496,
	"grad_norm": 0.16157971322536469,
	"learning_rate": 0.0002,
	"loss": 0.0788,
	"step": 22020
	},
	{
	"epoch": 0.04006556348450369,
	"grad_norm": 0.10347063094377518,
	"learning_rate": 0.0002,
	"loss": 0.0809,
	"step": 22030
	},
	{
	"epoch": 0.04008375030406089,
	"grad_norm": 0.20982638001441956,
	"learning_rate": 0.0002,
	"loss": 0.0662,
	"step": 22040
	},
	{
	"epoch": 0.040101937123618085,
	"grad_norm": 5.856126308441162,
	"learning_rate": 0.0002,
	"loss": 0.0578,
	"step": 22050
	},
	{
	"epoch": 0.04012012394317528,
	"grad_norm": 0.21289357542991638,
	"learning_rate": 0.0002,
	"loss": 0.1257,
	"step": 22060
	},
	{
	"epoch": 0.04013831076273248,
	"grad_norm": 0.040848907083272934,
	"learning_rate": 0.0002,
	"loss": 0.0783,
	"step": 22070
	},
	{
	"epoch": 0.040156497582289674,
	"grad_norm": 0.056517478078603745,
	"learning_rate": 0.0002,
	"loss": 0.0693,
	"step": 22080
	},
	{
	"epoch": 0.04017468440184687,
	"grad_norm": 0.274312287569046,
	"learning_rate": 0.0002,
	"loss": 0.0685,
	"step": 22090
	},
	{
	"epoch": 0.04019287122140407,
	"grad_norm": 0.06353340297937393,
	"learning_rate": 0.0002,
	"loss": 0.0263,
	"step": 22100
	},
	{
	"epoch": 0.04021105804096126,
	"grad_norm": 0.287201464176178,
	"learning_rate": 0.0002,
	"loss": 0.1425,
	"step": 22110
	},
	{
	"epoch": 0.04022924486051846,
	"grad_norm": 0.0990116223692894,
	"learning_rate": 0.0002,
	"loss": 0.0732,
	"step": 22120
	},
	{
	"epoch": 0.040247431680075656,
	"grad_norm": 0.03471527248620987,
	"learning_rate": 0.0002,
	"loss": 0.0806,
	"step": 22130
	},
	{
	"epoch": 0.04026561849963285,
	"grad_norm": 0.16411902010440826,
	"learning_rate": 0.0002,
	"loss": 0.0646,
	"step": 22140
	},
	{
	"epoch": 0.04028380531919005,
	"grad_norm": 0.032927367836236954,
	"learning_rate": 0.0002,
	"loss": 0.0225,
	"step": 22150
	},
	{
	"epoch": 0.040301992138747245,
	"grad_norm": 0.31128716468811035,
	"learning_rate": 0.0002,
	"loss": 0.1227,
	"step": 22160
	},
	{
	"epoch": 0.04032017895830444,
	"grad_norm": 0.14056596159934998,
	"learning_rate": 0.0002,
	"loss": 0.0866,
	"step": 22170
	},
	{
	"epoch": 0.04033836577786164,
	"grad_norm": 0.10555677115917206,
	"learning_rate": 0.0002,
	"loss": 0.0785,
	"step": 22180
	},
	{
	"epoch": 0.040356552597418834,
	"grad_norm": 0.25597816705703735,
	"learning_rate": 0.0002,
	"loss": 0.0667,
	"step": 22190
	},
	{
	"epoch": 0.04037473941697603,
	"grad_norm": 0.04694845899939537,
	"learning_rate": 0.0002,
	"loss": 0.021,
	"step": 22200
	},
	{
	"epoch": 0.040392926236533226,
	"grad_norm": 0.2536766529083252,
	"learning_rate": 0.0002,
	"loss": 0.1485,
	"step": 22210
	},
	{
	"epoch": 0.04041111305609042,
	"grad_norm": 0.0536673367023468,
	"learning_rate": 0.0002,
	"loss": 0.0737,
	"step": 22220
	},
	{
	"epoch": 0.04042929987564762,
	"grad_norm": 0.13121111690998077,
	"learning_rate": 0.0002,
	"loss": 0.0793,
	"step": 22230
	},
	{
	"epoch": 0.040447486695204815,
	"grad_norm": 0.23850645124912262,
	"learning_rate": 0.0002,
	"loss": 0.0698,
	"step": 22240
	},
	{
	"epoch": 0.04046567351476201,
	"grad_norm": 0.04178560525178909,
	"learning_rate": 0.0002,
	"loss": 0.0212,
	"step": 22250
	},
	{
	"epoch": 0.04048386033431921,
	"grad_norm": 0.42834579944610596,
	"learning_rate": 0.0002,
	"loss": 0.1352,
	"step": 22260
	},
	{
	"epoch": 0.040502047153876404,
	"grad_norm": 0.050178542733192444,
	"learning_rate": 0.0002,
	"loss": 0.0853,
	"step": 22270
	},
	{
	"epoch": 0.0405202339734336,
	"grad_norm": 0.042758237570524216,
	"learning_rate": 0.0002,
	"loss": 0.0709,
	"step": 22280
	},
	{
	"epoch": 0.0405384207929908,
	"grad_norm": 0.2604416012763977,
	"learning_rate": 0.0002,
	"loss": 0.0643,
	"step": 22290
	},
	{
	"epoch": 0.04055660761254799,
	"grad_norm": 0.06166388466954231,
	"learning_rate": 0.0002,
	"loss": 0.0236,
	"step": 22300
	},
	{
	"epoch": 0.04057479443210519,
	"grad_norm": 0.2337518334388733,
	"learning_rate": 0.0002,
	"loss": 0.132,
	"step": 22310
	},
	{
	"epoch": 0.040592981251662386,
	"grad_norm": 0.15794694423675537,
	"learning_rate": 0.0002,
	"loss": 0.0739,
	"step": 22320
	},
	{
	"epoch": 0.04061116807121959,
	"grad_norm": 0.12059915065765381,
	"learning_rate": 0.0002,
	"loss": 0.0743,
	"step": 22330
	},
	{
	"epoch": 0.040629354890776785,
	"grad_norm": 0.25351977348327637,
	"learning_rate": 0.0002,
	"loss": 0.065,
	"step": 22340
	},
	{
	"epoch": 0.04064754171033398,
	"grad_norm": 0.03265364468097687,
	"learning_rate": 0.0002,
	"loss": 0.02,
	"step": 22350
	},
	{
	"epoch": 0.04066572852989118,
	"grad_norm": 0.22959749400615692,
	"learning_rate": 0.0002,
	"loss": 0.1278,
	"step": 22360
	},
	{
	"epoch": 0.040683915349448374,
	"grad_norm": 0.11381889134645462,
	"learning_rate": 0.0002,
	"loss": 0.0823,
	"step": 22370
	},
	{
	"epoch": 0.04070210216900557,
	"grad_norm": 0.03541165217757225,
	"learning_rate": 0.0002,
	"loss": 0.0809,
	"step": 22380
	},
	{
	"epoch": 0.04072028898856277,
	"grad_norm": 0.20604047179222107,
	"learning_rate": 0.0002,
	"loss": 0.0693,
	"step": 22390
	},
	{
	"epoch": 0.04073847580811996,
	"grad_norm": 0.051576532423496246,
	"learning_rate": 0.0002,
	"loss": 0.0213,
	"step": 22400
	},
	{
	"epoch": 0.04075666262767716,
	"grad_norm": 0.208265483379364,
	"learning_rate": 0.0002,
	"loss": 0.1203,
	"step": 22410
	},
	{
	"epoch": 0.040774849447234356,
	"grad_norm": 0.14376410841941833,
	"learning_rate": 0.0002,
	"loss": 0.0832,
	"step": 22420
	},
	{
	"epoch": 0.04079303626679155,
	"grad_norm": 0.0634629875421524,
	"learning_rate": 0.0002,
	"loss": 0.0797,
	"step": 22430
	},
	{
	"epoch": 0.04081122308634875,
	"grad_norm": 0.22782418131828308,
	"learning_rate": 0.0002,
	"loss": 0.0594,
	"step": 22440
	},
	{
	"epoch": 0.040829409905905945,
	"grad_norm": 0.034153662621974945,
	"learning_rate": 0.0002,
	"loss": 0.0197,
	"step": 22450
	},
	{
	"epoch": 0.04084759672546314,
	"grad_norm": 0.22994177043437958,
	"learning_rate": 0.0002,
	"loss": 0.1276,
	"step": 22460
	},
	{
	"epoch": 0.04086578354502034,
	"grad_norm": 0.37397289276123047,
	"learning_rate": 0.0002,
	"loss": 0.0794,
	"step": 22470
	},
	{
	"epoch": 0.040883970364577533,
	"grad_norm": 0.03585643321275711,
	"learning_rate": 0.0002,
	"loss": 0.0765,
	"step": 22480
	},
	{
	"epoch": 0.04090215718413473,
	"grad_norm": 0.2266087681055069,
	"learning_rate": 0.0002,
	"loss": 0.0661,
	"step": 22490
	},
	{
	"epoch": 0.040920344003691926,
	"grad_norm": 0.03867397829890251,
	"learning_rate": 0.0002,
	"loss": 0.0241,
	"step": 22500
	},
	{
	"epoch": 0.04093853082324912,
	"grad_norm": 0.23483702540397644,
	"learning_rate": 0.0002,
	"loss": 0.1442,
	"step": 22510
	},
	{
	"epoch": 0.04095671764280632,
	"grad_norm": 0.11447428911924362,
	"learning_rate": 0.0002,
	"loss": 0.0759,
	"step": 22520
	},
	{
	"epoch": 0.040974904462363515,
	"grad_norm": 0.1060417965054512,
	"learning_rate": 0.0002,
	"loss": 0.0792,
	"step": 22530
	},
	{
	"epoch": 0.04099309128192071,
	"grad_norm": 0.1915966123342514,
	"learning_rate": 0.0002,
	"loss": 0.0679,
	"step": 22540
	},
	{
	"epoch": 0.04101127810147791,
	"grad_norm": 0.05328527092933655,
	"learning_rate": 0.0002,
	"loss": 0.0211,
	"step": 22550
	},
	{
	"epoch": 0.041029464921035104,
	"grad_norm": 0.31612515449523926,
	"learning_rate": 0.0002,
	"loss": 0.1395,
	"step": 22560
	},
	{
	"epoch": 0.0410476517405923,
	"grad_norm": 0.1860841065645218,
	"learning_rate": 0.0002,
	"loss": 0.0704,
	"step": 22570
	},
	{
	"epoch": 0.0410658385601495,
	"grad_norm": 0.11183702945709229,
	"learning_rate": 0.0002,
	"loss": 0.073,
	"step": 22580
	},
	{
	"epoch": 0.04108402537970669,
	"grad_norm": 0.2028307020664215,
	"learning_rate": 0.0002,
	"loss": 0.0592,
	"step": 22590
	},
	{
	"epoch": 0.04110221219926389,
	"grad_norm": 0.032915905117988586,
	"learning_rate": 0.0002,
	"loss": 0.0211,
	"step": 22600
	},
	{
	"epoch": 0.041120399018821086,
	"grad_norm": 0.2932131588459015,
	"learning_rate": 0.0002,
	"loss": 0.1542,
	"step": 22610
	},
	{
	"epoch": 0.04113858583837828,
	"grad_norm": 0.08883325010538101,
	"learning_rate": 0.0002,
	"loss": 0.079,
	"step": 22620
	},
	{
	"epoch": 0.04115677265793548,
	"grad_norm": 0.07874555885791779,
	"learning_rate": 0.0002,
	"loss": 0.0801,
	"step": 22630
	},
	{
	"epoch": 0.041174959477492674,
	"grad_norm": 0.13785040378570557,
	"learning_rate": 0.0002,
	"loss": 0.0636,
	"step": 22640
	},
	{
	"epoch": 0.04119314629704987,
	"grad_norm": 0.0321812778711319,
	"learning_rate": 0.0002,
	"loss": 0.0208,
	"step": 22650
	},
	{
	"epoch": 0.04121133311660707,
	"grad_norm": 0.142785906791687,
	"learning_rate": 0.0002,
	"loss": 0.1292,
	"step": 22660
	},
	{
	"epoch": 0.04122951993616426,
	"grad_norm": 0.15572668612003326,
	"learning_rate": 0.0002,
	"loss": 0.0774,
	"step": 22670
	},
	{
	"epoch": 0.04124770675572146,
	"grad_norm": 0.033191781491041183,
	"learning_rate": 0.0002,
	"loss": 0.0805,
	"step": 22680
	},
	{
	"epoch": 0.041265893575278656,
	"grad_norm": 0.23840776085853577,
	"learning_rate": 0.0002,
	"loss": 0.06,
	"step": 22690
	},
	{
	"epoch": 0.04128408039483585,
	"grad_norm": 0.05943412706255913,
	"learning_rate": 0.0002,
	"loss": 0.0215,
	"step": 22700
	},
	{
	"epoch": 0.04130226721439305,
	"grad_norm": 0.05142183229327202,
	"learning_rate": 0.0002,
	"loss": 0.1181,
	"step": 22710
	},
	{
	"epoch": 0.041320454033950245,
	"grad_norm": 0.1583058387041092,
	"learning_rate": 0.0002,
	"loss": 0.0822,
	"step": 22720
	},
	{
	"epoch": 0.04133864085350744,
	"grad_norm": 0.035809941589832306,
	"learning_rate": 0.0002,
	"loss": 0.0723,
	"step": 22730
	},
	{
	"epoch": 0.04135682767306464,
	"grad_norm": 0.24066607654094696,
	"learning_rate": 0.0002,
	"loss": 0.0621,
	"step": 22740
	},
	{
	"epoch": 0.041375014492621834,
	"grad_norm": 0.0327225998044014,
	"learning_rate": 0.0002,
	"loss": 0.0264,
	"step": 22750
	},
	{
	"epoch": 0.04139320131217903,
	"grad_norm": 0.16599033772945404,
	"learning_rate": 0.0002,
	"loss": 0.1082,
	"step": 22760
	},
	{
	"epoch": 0.041411388131736226,
	"grad_norm": 0.18834830820560455,
	"learning_rate": 0.0002,
	"loss": 0.0767,
	"step": 22770
	},
	{
	"epoch": 0.04142957495129342,
	"grad_norm": 0.04162973538041115,
	"learning_rate": 0.0002,
	"loss": 0.0821,
	"step": 22780
	},
	{
	"epoch": 0.04144776177085062,
	"grad_norm": 0.21065399050712585,
	"learning_rate": 0.0002,
	"loss": 0.0591,
	"step": 22790
	},
	{
	"epoch": 0.041465948590407815,
	"grad_norm": 0.03744394704699516,
	"learning_rate": 0.0002,
	"loss": 0.0199,
	"step": 22800
	},
	{
	"epoch": 0.04148413540996501,
	"grad_norm": 0.30440911650657654,
	"learning_rate": 0.0002,
	"loss": 0.1321,
	"step": 22810
	},
	{
	"epoch": 0.04150232222952221,
	"grad_norm": 0.07215052098035812,
	"learning_rate": 0.0002,
	"loss": 0.077,
	"step": 22820
	},
	{
	"epoch": 0.041520509049079404,
	"grad_norm": 0.0822744220495224,
	"learning_rate": 0.0002,
	"loss": 0.0695,
	"step": 22830
	},
	{
	"epoch": 0.0415386958686366,
	"grad_norm": 0.20610104501247406,
	"learning_rate": 0.0002,
	"loss": 0.0668,
	"step": 22840
	},
	{
	"epoch": 0.0415568826881938,
	"grad_norm": 0.05089128017425537,
	"learning_rate": 0.0002,
	"loss": 0.0275,
	"step": 22850
	},
	{
	"epoch": 0.04157506950775099,
	"grad_norm": 0.23365797102451324,
	"learning_rate": 0.0002,
	"loss": 0.1308,
	"step": 22860
	},
	{
	"epoch": 0.04159325632730819,
	"grad_norm": 0.03983612358570099,
	"learning_rate": 0.0002,
	"loss": 0.0738,
	"step": 22870
	},
	{
	"epoch": 0.041611443146865386,
	"grad_norm": 0.12472117692232132,
	"learning_rate": 0.0002,
	"loss": 0.082,
	"step": 22880
	},
	{
	"epoch": 0.04162962996642258,
	"grad_norm": 0.19599118828773499,
	"learning_rate": 0.0002,
	"loss": 0.0614,
	"step": 22890
	},
	{
	"epoch": 0.04164781678597978,
	"grad_norm": 0.04077763110399246,
	"learning_rate": 0.0002,
	"loss": 0.0298,
	"step": 22900
	},
	{
	"epoch": 0.041666003605536975,
	"grad_norm": 0.3027828633785248,
	"learning_rate": 0.0002,
	"loss": 0.1294,
	"step": 22910
	},
	{
	"epoch": 0.04168419042509417,
	"grad_norm": 0.1551598757505417,
	"learning_rate": 0.0002,
	"loss": 0.0716,
	"step": 22920
	},
	{
	"epoch": 0.04170237724465137,
	"grad_norm": 0.06512947380542755,
	"learning_rate": 0.0002,
	"loss": 0.071,
	"step": 22930
	},
	{
	"epoch": 0.041720564064208564,
	"grad_norm": 0.2486017346382141,
	"learning_rate": 0.0002,
	"loss": 0.0726,
	"step": 22940
	},
	{
	"epoch": 0.04173875088376576,
	"grad_norm": 0.0658118799328804,
	"learning_rate": 0.0002,
	"loss": 0.0211,
	"step": 22950
	},
	{
	"epoch": 0.041756937703322956,
	"grad_norm": 0.18327641487121582,
	"learning_rate": 0.0002,
	"loss": 0.1307,
	"step": 22960
	},
	{
	"epoch": 0.04177512452288015,
	"grad_norm": 0.06218123063445091,
	"learning_rate": 0.0002,
	"loss": 0.0839,
	"step": 22970
	},
	{
	"epoch": 0.04179331134243735,
	"grad_norm": 0.07085203379392624,
	"learning_rate": 0.0002,
	"loss": 0.0786,
	"step": 22980
	},
	{
	"epoch": 0.041811498161994545,
	"grad_norm": 0.19552426040172577,
	"learning_rate": 0.0002,
	"loss": 0.0646,
	"step": 22990
	},
	{
	"epoch": 0.04182968498155174,
	"grad_norm": 0.06710335612297058,
	"learning_rate": 0.0002,
	"loss": 0.0252,
	"step": 23000
	}
	],
	"logging_steps": 10,
	"max_steps": 100000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 250,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.0398767809662812e+19,
	"train_batch_size": 24,
	"trial_name": null,
	"trial_params": null
	}