deit-ena24 / trainer_state.json

🍻 cheers

72ef7f6 verified 10 months ago

30.7 kB

	{
	"best_global_step": 1500,
	"best_metric": 0.08702504634857178,
	"best_model_checkpoint": "./deit-ena24/checkpoint-1500",
	"epoch": 2.0,
	"eval_steps": 100,
	"global_step": 1536,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.013020833333333334,
	"grad_norm": 17.389280319213867,
	"learning_rate": 0.00019895833333333332,
	"loss": 2.9049,
	"step": 10
	},
	{
	"epoch": 0.026041666666666668,
	"grad_norm": 9.115043640136719,
	"learning_rate": 0.00019765625,
	"loss": 2.4518,
	"step": 20
	},
	{
	"epoch": 0.0390625,
	"grad_norm": 12.339580535888672,
	"learning_rate": 0.00019635416666666667,
	"loss": 2.1528,
	"step": 30
	},
	{
	"epoch": 0.052083333333333336,
	"grad_norm": 10.528745651245117,
	"learning_rate": 0.00019505208333333335,
	"loss": 1.8847,
	"step": 40
	},
	{
	"epoch": 0.06510416666666667,
	"grad_norm": 13.872097969055176,
	"learning_rate": 0.00019375000000000002,
	"loss": 1.5077,
	"step": 50
	},
	{
	"epoch": 0.078125,
	"grad_norm": 10.003462791442871,
	"learning_rate": 0.0001924479166666667,
	"loss": 1.6212,
	"step": 60
	},
	{
	"epoch": 0.09114583333333333,
	"grad_norm": 9.745753288269043,
	"learning_rate": 0.00019114583333333334,
	"loss": 1.4213,
	"step": 70
	},
	{
	"epoch": 0.10416666666666667,
	"grad_norm": 11.599836349487305,
	"learning_rate": 0.00018984375000000002,
	"loss": 1.1694,
	"step": 80
	},
	{
	"epoch": 0.1171875,
	"grad_norm": 9.780190467834473,
	"learning_rate": 0.0001885416666666667,
	"loss": 1.2436,
	"step": 90
	},
	{
	"epoch": 0.13020833333333334,
	"grad_norm": 10.261496543884277,
	"learning_rate": 0.00018723958333333334,
	"loss": 1.2994,
	"step": 100
	},
	{
	"epoch": 0.13020833333333334,
	"eval_accuracy": 0.7091603053435115,
	"eval_loss": 1.0313907861709595,
	"eval_runtime": 76.1557,
	"eval_samples_per_second": 17.202,
	"eval_steps_per_second": 2.153,
	"step": 100
	},
	{
	"epoch": 0.14322916666666666,
	"grad_norm": 4.307476043701172,
	"learning_rate": 0.0001859375,
	"loss": 0.9726,
	"step": 110
	},
	{
	"epoch": 0.15625,
	"grad_norm": 4.482115745544434,
	"learning_rate": 0.0001846354166666667,
	"loss": 0.9136,
	"step": 120
	},
	{
	"epoch": 0.16927083333333334,
	"grad_norm": 10.434115409851074,
	"learning_rate": 0.00018333333333333334,
	"loss": 1.174,
	"step": 130
	},
	{
	"epoch": 0.18229166666666666,
	"grad_norm": 7.202164173126221,
	"learning_rate": 0.00018203125,
	"loss": 1.0398,
	"step": 140
	},
	{
	"epoch": 0.1953125,
	"grad_norm": 9.057433128356934,
	"learning_rate": 0.00018072916666666668,
	"loss": 1.1173,
	"step": 150
	},
	{
	"epoch": 0.20833333333333334,
	"grad_norm": 9.836210250854492,
	"learning_rate": 0.00017942708333333333,
	"loss": 1.0324,
	"step": 160
	},
	{
	"epoch": 0.22135416666666666,
	"grad_norm": 10.416736602783203,
	"learning_rate": 0.000178125,
	"loss": 0.8376,
	"step": 170
	},
	{
	"epoch": 0.234375,
	"grad_norm": 9.645381927490234,
	"learning_rate": 0.00017682291666666668,
	"loss": 1.0451,
	"step": 180
	},
	{
	"epoch": 0.24739583333333334,
	"grad_norm": 6.324252128601074,
	"learning_rate": 0.00017552083333333333,
	"loss": 0.9295,
	"step": 190
	},
	{
	"epoch": 0.2604166666666667,
	"grad_norm": 10.500443458557129,
	"learning_rate": 0.00017434895833333332,
	"loss": 0.8789,
	"step": 200
	},
	{
	"epoch": 0.2604166666666667,
	"eval_accuracy": 0.832824427480916,
	"eval_loss": 0.6169306635856628,
	"eval_runtime": 74.0427,
	"eval_samples_per_second": 17.692,
	"eval_steps_per_second": 2.215,
	"step": 200
	},
	{
	"epoch": 0.2734375,
	"grad_norm": 4.5985426902771,
	"learning_rate": 0.000173046875,
	"loss": 0.5329,
	"step": 210
	},
	{
	"epoch": 0.2864583333333333,
	"grad_norm": 14.19344425201416,
	"learning_rate": 0.00017174479166666667,
	"loss": 0.9277,
	"step": 220
	},
	{
	"epoch": 0.2994791666666667,
	"grad_norm": 14.22638988494873,
	"learning_rate": 0.00017044270833333335,
	"loss": 0.5978,
	"step": 230
	},
	{
	"epoch": 0.3125,
	"grad_norm": 13.808385848999023,
	"learning_rate": 0.00016914062500000002,
	"loss": 0.9471,
	"step": 240
	},
	{
	"epoch": 0.3255208333333333,
	"grad_norm": 8.194628715515137,
	"learning_rate": 0.0001678385416666667,
	"loss": 0.7974,
	"step": 250
	},
	{
	"epoch": 0.3385416666666667,
	"grad_norm": 6.944046497344971,
	"learning_rate": 0.00016653645833333334,
	"loss": 0.7594,
	"step": 260
	},
	{
	"epoch": 0.3515625,
	"grad_norm": 10.181632041931152,
	"learning_rate": 0.00016523437500000002,
	"loss": 0.6775,
	"step": 270
	},
	{
	"epoch": 0.3645833333333333,
	"grad_norm": 10.24155330657959,
	"learning_rate": 0.0001639322916666667,
	"loss": 0.7947,
	"step": 280
	},
	{
	"epoch": 0.3776041666666667,
	"grad_norm": 16.16265296936035,
	"learning_rate": 0.00016263020833333334,
	"loss": 0.9477,
	"step": 290
	},
	{
	"epoch": 0.390625,
	"grad_norm": 6.4330854415893555,
	"learning_rate": 0.000161328125,
	"loss": 0.4592,
	"step": 300
	},
	{
	"epoch": 0.390625,
	"eval_accuracy": 0.8297709923664122,
	"eval_loss": 0.5233694911003113,
	"eval_runtime": 73.7696,
	"eval_samples_per_second": 17.758,
	"eval_steps_per_second": 2.223,
	"step": 300
	},
	{
	"epoch": 0.4036458333333333,
	"grad_norm": 12.111241340637207,
	"learning_rate": 0.0001600260416666667,
	"loss": 0.5299,
	"step": 310
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 3.2816293239593506,
	"learning_rate": 0.00015872395833333334,
	"loss": 0.4756,
	"step": 320
	},
	{
	"epoch": 0.4296875,
	"grad_norm": 7.979568004608154,
	"learning_rate": 0.000157421875,
	"loss": 0.7101,
	"step": 330
	},
	{
	"epoch": 0.4427083333333333,
	"grad_norm": 8.652854919433594,
	"learning_rate": 0.00015611979166666668,
	"loss": 0.3024,
	"step": 340
	},
	{
	"epoch": 0.4557291666666667,
	"grad_norm": 19.324499130249023,
	"learning_rate": 0.00015481770833333333,
	"loss": 0.5419,
	"step": 350
	},
	{
	"epoch": 0.46875,
	"grad_norm": 9.747488021850586,
	"learning_rate": 0.000153515625,
	"loss": 0.6965,
	"step": 360
	},
	{
	"epoch": 0.4817708333333333,
	"grad_norm": 10.455299377441406,
	"learning_rate": 0.00015221354166666668,
	"loss": 0.4206,
	"step": 370
	},
	{
	"epoch": 0.4947916666666667,
	"grad_norm": 11.353675842285156,
	"learning_rate": 0.00015091145833333333,
	"loss": 0.703,
	"step": 380
	},
	{
	"epoch": 0.5078125,
	"grad_norm": 4.012916564941406,
	"learning_rate": 0.000149609375,
	"loss": 0.3157,
	"step": 390
	},
	{
	"epoch": 0.5208333333333334,
	"grad_norm": 2.673285484313965,
	"learning_rate": 0.00014830729166666668,
	"loss": 0.6806,
	"step": 400
	},
	{
	"epoch": 0.5208333333333334,
	"eval_accuracy": 0.8488549618320611,
	"eval_loss": 0.5430881381034851,
	"eval_runtime": 73.216,
	"eval_samples_per_second": 17.892,
	"eval_steps_per_second": 2.24,
	"step": 400
	},
	{
	"epoch": 0.5338541666666666,
	"grad_norm": 11.449606895446777,
	"learning_rate": 0.00014700520833333332,
	"loss": 0.6442,
	"step": 410
	},
	{
	"epoch": 0.546875,
	"grad_norm": 4.395051956176758,
	"learning_rate": 0.000145703125,
	"loss": 0.4426,
	"step": 420
	},
	{
	"epoch": 0.5598958333333334,
	"grad_norm": 5.8134589195251465,
	"learning_rate": 0.00014440104166666667,
	"loss": 0.3574,
	"step": 430
	},
	{
	"epoch": 0.5729166666666666,
	"grad_norm": 20.417043685913086,
	"learning_rate": 0.00014309895833333332,
	"loss": 0.231,
	"step": 440
	},
	{
	"epoch": 0.5859375,
	"grad_norm": 9.442773818969727,
	"learning_rate": 0.000141796875,
	"loss": 0.3883,
	"step": 450
	},
	{
	"epoch": 0.5989583333333334,
	"grad_norm": 13.765786170959473,
	"learning_rate": 0.00014049479166666667,
	"loss": 1.0674,
	"step": 460
	},
	{
	"epoch": 0.6119791666666666,
	"grad_norm": 2.9523134231567383,
	"learning_rate": 0.00013919270833333334,
	"loss": 0.4618,
	"step": 470
	},
	{
	"epoch": 0.625,
	"grad_norm": 10.51352310180664,
	"learning_rate": 0.00013789062500000002,
	"loss": 0.4457,
	"step": 480
	},
	{
	"epoch": 0.6380208333333334,
	"grad_norm": 3.431385040283203,
	"learning_rate": 0.0001365885416666667,
	"loss": 0.3465,
	"step": 490
	},
	{
	"epoch": 0.6510416666666666,
	"grad_norm": 0.633951723575592,
	"learning_rate": 0.00013528645833333334,
	"loss": 0.4878,
	"step": 500
	},
	{
	"epoch": 0.6510416666666666,
	"eval_accuracy": 0.8854961832061069,
	"eval_loss": 0.39052021503448486,
	"eval_runtime": 73.354,
	"eval_samples_per_second": 17.859,
	"eval_steps_per_second": 2.236,
	"step": 500
	},
	{
	"epoch": 0.6640625,
	"grad_norm": 0.7576056122779846,
	"learning_rate": 0.00013398437500000002,
	"loss": 0.3139,
	"step": 510
	},
	{
	"epoch": 0.6770833333333334,
	"grad_norm": 12.045547485351562,
	"learning_rate": 0.0001326822916666667,
	"loss": 0.6528,
	"step": 520
	},
	{
	"epoch": 0.6901041666666666,
	"grad_norm": 11.16480827331543,
	"learning_rate": 0.00013138020833333334,
	"loss": 0.6615,
	"step": 530
	},
	{
	"epoch": 0.703125,
	"grad_norm": 4.185828685760498,
	"learning_rate": 0.000130078125,
	"loss": 0.3707,
	"step": 540
	},
	{
	"epoch": 0.7161458333333334,
	"grad_norm": 9.450407028198242,
	"learning_rate": 0.0001287760416666667,
	"loss": 0.3682,
	"step": 550
	},
	{
	"epoch": 0.7291666666666666,
	"grad_norm": 13.412630081176758,
	"learning_rate": 0.00012747395833333333,
	"loss": 0.6444,
	"step": 560
	},
	{
	"epoch": 0.7421875,
	"grad_norm": 5.66330623626709,
	"learning_rate": 0.000126171875,
	"loss": 0.3466,
	"step": 570
	},
	{
	"epoch": 0.7552083333333334,
	"grad_norm": 6.60795259475708,
	"learning_rate": 0.00012486979166666668,
	"loss": 0.2802,
	"step": 580
	},
	{
	"epoch": 0.7682291666666666,
	"grad_norm": 8.81129264831543,
	"learning_rate": 0.00012356770833333333,
	"loss": 0.2426,
	"step": 590
	},
	{
	"epoch": 0.78125,
	"grad_norm": 16.469572067260742,
	"learning_rate": 0.000122265625,
	"loss": 0.4643,
	"step": 600
	},
	{
	"epoch": 0.78125,
	"eval_accuracy": 0.9091603053435114,
	"eval_loss": 0.3280966579914093,
	"eval_runtime": 73.163,
	"eval_samples_per_second": 17.905,
	"eval_steps_per_second": 2.242,
	"step": 600
	},
	{
	"epoch": 0.7942708333333334,
	"grad_norm": 0.8865923881530762,
	"learning_rate": 0.00012096354166666668,
	"loss": 0.1578,
	"step": 610
	},
	{
	"epoch": 0.8072916666666666,
	"grad_norm": 8.116411209106445,
	"learning_rate": 0.00011966145833333333,
	"loss": 0.3884,
	"step": 620
	},
	{
	"epoch": 0.8203125,
	"grad_norm": 9.369128227233887,
	"learning_rate": 0.000118359375,
	"loss": 0.2877,
	"step": 630
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 2.700255870819092,
	"learning_rate": 0.00011705729166666668,
	"loss": 0.3879,
	"step": 640
	},
	{
	"epoch": 0.8463541666666666,
	"grad_norm": 11.327605247497559,
	"learning_rate": 0.00011575520833333334,
	"loss": 0.3547,
	"step": 650
	},
	{
	"epoch": 0.859375,
	"grad_norm": 13.358592987060547,
	"learning_rate": 0.00011445312500000001,
	"loss": 0.223,
	"step": 660
	},
	{
	"epoch": 0.8723958333333334,
	"grad_norm": 1.7891099452972412,
	"learning_rate": 0.00011315104166666667,
	"loss": 0.2712,
	"step": 670
	},
	{
	"epoch": 0.8854166666666666,
	"grad_norm": 7.728662014007568,
	"learning_rate": 0.00011184895833333333,
	"loss": 0.3005,
	"step": 680
	},
	{
	"epoch": 0.8984375,
	"grad_norm": 0.3444841802120209,
	"learning_rate": 0.00011054687500000001,
	"loss": 0.2482,
	"step": 690
	},
	{
	"epoch": 0.9114583333333334,
	"grad_norm": 17.376832962036133,
	"learning_rate": 0.00010924479166666668,
	"loss": 0.3765,
	"step": 700
	},
	{
	"epoch": 0.9114583333333334,
	"eval_accuracy": 0.9290076335877863,
	"eval_loss": 0.23975874483585358,
	"eval_runtime": 74.0909,
	"eval_samples_per_second": 17.681,
	"eval_steps_per_second": 2.213,
	"step": 700
	},
	{
	"epoch": 0.9244791666666666,
	"grad_norm": 10.517160415649414,
	"learning_rate": 0.00010794270833333333,
	"loss": 0.5821,
	"step": 710
	},
	{
	"epoch": 0.9375,
	"grad_norm": 11.038665771484375,
	"learning_rate": 0.000106640625,
	"loss": 0.4436,
	"step": 720
	},
	{
	"epoch": 0.9505208333333334,
	"grad_norm": 0.33208587765693665,
	"learning_rate": 0.00010533854166666668,
	"loss": 0.2146,
	"step": 730
	},
	{
	"epoch": 0.9635416666666666,
	"grad_norm": 9.220067977905273,
	"learning_rate": 0.00010403645833333333,
	"loss": 0.3492,
	"step": 740
	},
	{
	"epoch": 0.9765625,
	"grad_norm": 2.6065292358398438,
	"learning_rate": 0.000102734375,
	"loss": 0.1438,
	"step": 750
	},
	{
	"epoch": 0.9895833333333334,
	"grad_norm": 4.513604164123535,
	"learning_rate": 0.00010143229166666668,
	"loss": 0.1498,
	"step": 760
	},
	{
	"epoch": 1.0026041666666667,
	"grad_norm": 3.247533082962036,
	"learning_rate": 0.00010013020833333334,
	"loss": 0.4945,
	"step": 770
	},
	{
	"epoch": 1.015625,
	"grad_norm": 0.5809522867202759,
	"learning_rate": 9.8828125e-05,
	"loss": 0.1109,
	"step": 780
	},
	{
	"epoch": 1.0286458333333333,
	"grad_norm": 0.056700680404901505,
	"learning_rate": 9.752604166666667e-05,
	"loss": 0.1214,
	"step": 790
	},
	{
	"epoch": 1.0416666666666667,
	"grad_norm": 4.652562618255615,
	"learning_rate": 9.622395833333335e-05,
	"loss": 0.1379,
	"step": 800
	},
	{
	"epoch": 1.0416666666666667,
	"eval_accuracy": 0.9412213740458015,
	"eval_loss": 0.1860814392566681,
	"eval_runtime": 72.941,
	"eval_samples_per_second": 17.96,
	"eval_steps_per_second": 2.248,
	"step": 800
	},
	{
	"epoch": 1.0546875,
	"grad_norm": 0.06134684756398201,
	"learning_rate": 9.492187500000001e-05,
	"loss": 0.2437,
	"step": 810
	},
	{
	"epoch": 1.0677083333333333,
	"grad_norm": 0.16209521889686584,
	"learning_rate": 9.361979166666667e-05,
	"loss": 0.0196,
	"step": 820
	},
	{
	"epoch": 1.0807291666666667,
	"grad_norm": 0.44997701048851013,
	"learning_rate": 9.231770833333334e-05,
	"loss": 0.0405,
	"step": 830
	},
	{
	"epoch": 1.09375,
	"grad_norm": 0.03530073165893555,
	"learning_rate": 9.1015625e-05,
	"loss": 0.0271,
	"step": 840
	},
	{
	"epoch": 1.1067708333333333,
	"grad_norm": 0.05656661093235016,
	"learning_rate": 8.971354166666667e-05,
	"loss": 0.0251,
	"step": 850
	},
	{
	"epoch": 1.1197916666666667,
	"grad_norm": 0.021418265998363495,
	"learning_rate": 8.841145833333334e-05,
	"loss": 0.1329,
	"step": 860
	},
	{
	"epoch": 1.1328125,
	"grad_norm": 0.34486091136932373,
	"learning_rate": 8.7109375e-05,
	"loss": 0.2791,
	"step": 870
	},
	{
	"epoch": 1.1458333333333333,
	"grad_norm": 0.06410683691501617,
	"learning_rate": 8.580729166666666e-05,
	"loss": 0.1949,
	"step": 880
	},
	{
	"epoch": 1.1588541666666667,
	"grad_norm": 6.918659687042236,
	"learning_rate": 8.450520833333334e-05,
	"loss": 0.1949,
	"step": 890
	},
	{
	"epoch": 1.171875,
	"grad_norm": 6.987488746643066,
	"learning_rate": 8.3203125e-05,
	"loss": 0.1422,
	"step": 900
	},
	{
	"epoch": 1.171875,
	"eval_accuracy": 0.9526717557251908,
	"eval_loss": 0.16571925580501556,
	"eval_runtime": 73.0507,
	"eval_samples_per_second": 17.933,
	"eval_steps_per_second": 2.245,
	"step": 900
	},
	{
	"epoch": 1.1848958333333333,
	"grad_norm": 0.6016131043434143,
	"learning_rate": 8.190104166666667e-05,
	"loss": 0.1011,
	"step": 910
	},
	{
	"epoch": 1.1979166666666667,
	"grad_norm": 5.640698432922363,
	"learning_rate": 8.059895833333335e-05,
	"loss": 0.2341,
	"step": 920
	},
	{
	"epoch": 1.2109375,
	"grad_norm": 0.18673600256443024,
	"learning_rate": 7.929687500000001e-05,
	"loss": 0.1911,
	"step": 930
	},
	{
	"epoch": 1.2239583333333333,
	"grad_norm": 0.04827206954360008,
	"learning_rate": 7.799479166666667e-05,
	"loss": 0.0774,
	"step": 940
	},
	{
	"epoch": 1.2369791666666667,
	"grad_norm": 13.114850044250488,
	"learning_rate": 7.669270833333334e-05,
	"loss": 0.1671,
	"step": 950
	},
	{
	"epoch": 1.25,
	"grad_norm": 9.023773193359375,
	"learning_rate": 7.5390625e-05,
	"loss": 0.1245,
	"step": 960
	},
	{
	"epoch": 1.2630208333333333,
	"grad_norm": 0.04247788339853287,
	"learning_rate": 7.408854166666667e-05,
	"loss": 0.0857,
	"step": 970
	},
	{
	"epoch": 1.2760416666666667,
	"grad_norm": 0.023064516484737396,
	"learning_rate": 7.278645833333334e-05,
	"loss": 0.0907,
	"step": 980
	},
	{
	"epoch": 1.2890625,
	"grad_norm": 2.6537017822265625,
	"learning_rate": 7.1484375e-05,
	"loss": 0.0719,
	"step": 990
	},
	{
	"epoch": 1.3020833333333333,
	"grad_norm": 11.02077865600586,
	"learning_rate": 7.018229166666666e-05,
	"loss": 0.2655,
	"step": 1000
	},
	{
	"epoch": 1.3020833333333333,
	"eval_accuracy": 0.9557251908396946,
	"eval_loss": 0.1525699943304062,
	"eval_runtime": 73.7356,
	"eval_samples_per_second": 17.766,
	"eval_steps_per_second": 2.224,
	"step": 1000
	},
	{
	"epoch": 1.3151041666666667,
	"grad_norm": 0.44301870465278625,
	"learning_rate": 6.888020833333334e-05,
	"loss": 0.1678,
	"step": 1010
	},
	{
	"epoch": 1.328125,
	"grad_norm": 0.7671974301338196,
	"learning_rate": 6.7578125e-05,
	"loss": 0.0759,
	"step": 1020
	},
	{
	"epoch": 1.3411458333333333,
	"grad_norm": 7.202826499938965,
	"learning_rate": 6.627604166666667e-05,
	"loss": 0.0838,
	"step": 1030
	},
	{
	"epoch": 1.3541666666666667,
	"grad_norm": 0.1176716759800911,
	"learning_rate": 6.497395833333335e-05,
	"loss": 0.0988,
	"step": 1040
	},
	{
	"epoch": 1.3671875,
	"grad_norm": 0.06393478810787201,
	"learning_rate": 6.367187500000001e-05,
	"loss": 0.0869,
	"step": 1050
	},
	{
	"epoch": 1.3802083333333333,
	"grad_norm": 0.5057088732719421,
	"learning_rate": 6.236979166666667e-05,
	"loss": 0.0964,
	"step": 1060
	},
	{
	"epoch": 1.3932291666666667,
	"grad_norm": 0.056153714656829834,
	"learning_rate": 6.106770833333334e-05,
	"loss": 0.0229,
	"step": 1070
	},
	{
	"epoch": 1.40625,
	"grad_norm": 0.0073313964530825615,
	"learning_rate": 5.9765625000000004e-05,
	"loss": 0.0295,
	"step": 1080
	},
	{
	"epoch": 1.4192708333333333,
	"grad_norm": 10.135377883911133,
	"learning_rate": 5.8463541666666665e-05,
	"loss": 0.0407,
	"step": 1090
	},
	{
	"epoch": 1.4322916666666667,
	"grad_norm": 0.27722039818763733,
	"learning_rate": 5.716145833333334e-05,
	"loss": 0.0304,
	"step": 1100
	},
	{
	"epoch": 1.4322916666666667,
	"eval_accuracy": 0.9633587786259542,
	"eval_loss": 0.15782681107521057,
	"eval_runtime": 73.1148,
	"eval_samples_per_second": 17.917,
	"eval_steps_per_second": 2.243,
	"step": 1100
	},
	{
	"epoch": 1.4453125,
	"grad_norm": 10.238181114196777,
	"learning_rate": 5.5859375e-05,
	"loss": 0.1596,
	"step": 1110
	},
	{
	"epoch": 1.4583333333333333,
	"grad_norm": 0.05249097943305969,
	"learning_rate": 5.455729166666667e-05,
	"loss": 0.0634,
	"step": 1120
	},
	{
	"epoch": 1.4713541666666667,
	"grad_norm": 8.209336280822754,
	"learning_rate": 5.3255208333333336e-05,
	"loss": 0.1038,
	"step": 1130
	},
	{
	"epoch": 1.484375,
	"grad_norm": 0.7781971096992493,
	"learning_rate": 5.1953125000000004e-05,
	"loss": 0.0557,
	"step": 1140
	},
	{
	"epoch": 1.4973958333333333,
	"grad_norm": 13.152403831481934,
	"learning_rate": 5.0651041666666665e-05,
	"loss": 0.0969,
	"step": 1150
	},
	{
	"epoch": 1.5104166666666665,
	"grad_norm": 1.389357328414917,
	"learning_rate": 4.934895833333333e-05,
	"loss": 0.142,
	"step": 1160
	},
	{
	"epoch": 1.5234375,
	"grad_norm": 0.03525904566049576,
	"learning_rate": 4.8046875e-05,
	"loss": 0.1667,
	"step": 1170
	},
	{
	"epoch": 1.5364583333333335,
	"grad_norm": 0.021179642528295517,
	"learning_rate": 4.674479166666667e-05,
	"loss": 0.0707,
	"step": 1180
	},
	{
	"epoch": 1.5494791666666665,
	"grad_norm": 9.995001792907715,
	"learning_rate": 4.5442708333333336e-05,
	"loss": 0.0614,
	"step": 1190
	},
	{
	"epoch": 1.5625,
	"grad_norm": 0.049822065979242325,
	"learning_rate": 4.4140625000000004e-05,
	"loss": 0.072,
	"step": 1200
	},
	{
	"epoch": 1.5625,
	"eval_accuracy": 0.9679389312977099,
	"eval_loss": 0.14182424545288086,
	"eval_runtime": 73.4207,
	"eval_samples_per_second": 17.842,
	"eval_steps_per_second": 2.234,
	"step": 1200
	},
	{
	"epoch": 1.5755208333333335,
	"grad_norm": 0.026322199031710625,
	"learning_rate": 4.283854166666667e-05,
	"loss": 0.0919,
	"step": 1210
	},
	{
	"epoch": 1.5885416666666665,
	"grad_norm": 0.13556483387947083,
	"learning_rate": 4.153645833333333e-05,
	"loss": 0.1895,
	"step": 1220
	},
	{
	"epoch": 1.6015625,
	"grad_norm": 0.02379715070128441,
	"learning_rate": 4.0234375e-05,
	"loss": 0.0233,
	"step": 1230
	},
	{
	"epoch": 1.6145833333333335,
	"grad_norm": 0.03572675958275795,
	"learning_rate": 3.893229166666667e-05,
	"loss": 0.09,
	"step": 1240
	},
	{
	"epoch": 1.6276041666666665,
	"grad_norm": 0.04055442661046982,
	"learning_rate": 3.7630208333333336e-05,
	"loss": 0.0729,
	"step": 1250
	},
	{
	"epoch": 1.640625,
	"grad_norm": 12.408260345458984,
	"learning_rate": 3.6328125000000004e-05,
	"loss": 0.1543,
	"step": 1260
	},
	{
	"epoch": 1.6536458333333335,
	"grad_norm": 0.01183232106268406,
	"learning_rate": 3.502604166666667e-05,
	"loss": 0.0171,
	"step": 1270
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.030863391235470772,
	"learning_rate": 3.372395833333333e-05,
	"loss": 0.027,
	"step": 1280
	},
	{
	"epoch": 1.6796875,
	"grad_norm": 1.657828688621521,
	"learning_rate": 3.2421875e-05,
	"loss": 0.0056,
	"step": 1290
	},
	{
	"epoch": 1.6927083333333335,
	"grad_norm": 8.683385848999023,
	"learning_rate": 3.111979166666667e-05,
	"loss": 0.2936,
	"step": 1300
	},
	{
	"epoch": 1.6927083333333335,
	"eval_accuracy": 0.9770992366412213,
	"eval_loss": 0.10032270848751068,
	"eval_runtime": 73.5538,
	"eval_samples_per_second": 17.81,
	"eval_steps_per_second": 2.23,
	"step": 1300
	},
	{
	"epoch": 1.7057291666666665,
	"grad_norm": 0.005644885823130608,
	"learning_rate": 2.9817708333333332e-05,
	"loss": 0.1009,
	"step": 1310
	},
	{
	"epoch": 1.71875,
	"grad_norm": 0.03866463154554367,
	"learning_rate": 2.8515625e-05,
	"loss": 0.0822,
	"step": 1320
	},
	{
	"epoch": 1.7317708333333335,
	"grad_norm": 0.013144961558282375,
	"learning_rate": 2.721354166666667e-05,
	"loss": 0.0686,
	"step": 1330
	},
	{
	"epoch": 1.7447916666666665,
	"grad_norm": 0.00972031056880951,
	"learning_rate": 2.5911458333333332e-05,
	"loss": 0.0346,
	"step": 1340
	},
	{
	"epoch": 1.7578125,
	"grad_norm": 0.026575949043035507,
	"learning_rate": 2.4609375e-05,
	"loss": 0.0138,
	"step": 1350
	},
	{
	"epoch": 1.7708333333333335,
	"grad_norm": 0.6429733037948608,
	"learning_rate": 2.3307291666666668e-05,
	"loss": 0.0177,
	"step": 1360
	},
	{
	"epoch": 1.7838541666666665,
	"grad_norm": 0.025338683277368546,
	"learning_rate": 2.2005208333333336e-05,
	"loss": 0.0645,
	"step": 1370
	},
	{
	"epoch": 1.796875,
	"grad_norm": 0.01729397289454937,
	"learning_rate": 2.0703125e-05,
	"loss": 0.0326,
	"step": 1380
	},
	{
	"epoch": 1.8098958333333335,
	"grad_norm": 0.015349478460848331,
	"learning_rate": 1.9401041666666668e-05,
	"loss": 0.0075,
	"step": 1390
	},
	{
	"epoch": 1.8229166666666665,
	"grad_norm": 0.6028020977973938,
	"learning_rate": 1.8098958333333336e-05,
	"loss": 0.0333,
	"step": 1400
	},
	{
	"epoch": 1.8229166666666665,
	"eval_accuracy": 0.9793893129770992,
	"eval_loss": 0.09348531067371368,
	"eval_runtime": 73.1835,
	"eval_samples_per_second": 17.9,
	"eval_steps_per_second": 2.241,
	"step": 1400
	},
	{
	"epoch": 1.8359375,
	"grad_norm": 1.0170259475708008,
	"learning_rate": 1.6796875e-05,
	"loss": 0.0235,
	"step": 1410
	},
	{
	"epoch": 1.8489583333333335,
	"grad_norm": 0.02781638689339161,
	"learning_rate": 1.5494791666666668e-05,
	"loss": 0.0928,
	"step": 1420
	},
	{
	"epoch": 1.8619791666666665,
	"grad_norm": 14.262807846069336,
	"learning_rate": 1.4192708333333336e-05,
	"loss": 0.2109,
	"step": 1430
	},
	{
	"epoch": 1.875,
	"grad_norm": 1.84883451461792,
	"learning_rate": 1.2890625e-05,
	"loss": 0.0357,
	"step": 1440
	},
	{
	"epoch": 1.8880208333333335,
	"grad_norm": 0.28587606549263,
	"learning_rate": 1.1588541666666668e-05,
	"loss": 0.0019,
	"step": 1450
	},
	{
	"epoch": 1.9010416666666665,
	"grad_norm": 0.33084961771965027,
	"learning_rate": 1.0286458333333334e-05,
	"loss": 0.043,
	"step": 1460
	},
	{
	"epoch": 1.9140625,
	"grad_norm": 0.333294153213501,
	"learning_rate": 8.984375e-06,
	"loss": 0.1937,
	"step": 1470
	},
	{
	"epoch": 1.9270833333333335,
	"grad_norm": 0.004296708852052689,
	"learning_rate": 7.682291666666668e-06,
	"loss": 0.0426,
	"step": 1480
	},
	{
	"epoch": 1.9401041666666665,
	"grad_norm": 0.0049277921207249165,
	"learning_rate": 6.380208333333333e-06,
	"loss": 0.003,
	"step": 1490
	},
	{
	"epoch": 1.953125,
	"grad_norm": 0.049785688519477844,
	"learning_rate": 5.078125000000001e-06,
	"loss": 0.0844,
	"step": 1500
	},
	{
	"epoch": 1.953125,
	"eval_accuracy": 0.9793893129770992,
	"eval_loss": 0.08702504634857178,
	"eval_runtime": 72.8723,
	"eval_samples_per_second": 17.977,
	"eval_steps_per_second": 2.251,
	"step": 1500
	},
	{
	"epoch": 1.9661458333333335,
	"grad_norm": 4.749906539916992,
	"learning_rate": 3.7760416666666667e-06,
	"loss": 0.099,
	"step": 1510
	},
	{
	"epoch": 1.9791666666666665,
	"grad_norm": 0.10631278902292252,
	"learning_rate": 2.473958333333333e-06,
	"loss": 0.0012,
	"step": 1520
	},
	{
	"epoch": 1.9921875,
	"grad_norm": 0.01599978655576706,
	"learning_rate": 1.1718750000000001e-06,
	"loss": 0.2036,
	"step": 1530
	},
	{
	"epoch": 2.0,
	"step": 1536,
	"total_flos": 9.520992752534323e+17,
	"train_loss": 0.40541269640622585,
	"train_runtime": 2133.8871,
	"train_samples_per_second": 5.757,
	"train_steps_per_second": 0.72
	}
	],
	"logging_steps": 10,
	"max_steps": 1536,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 9.520992752534323e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}