| { | |
| "best_global_step": 1500, | |
| "best_metric": 0.08702504634857178, | |
| "best_model_checkpoint": "./deit-ena24/checkpoint-1500", | |
| "epoch": 2.0, | |
| "eval_steps": 100, | |
| "global_step": 1536, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.013020833333333334, | |
| "grad_norm": 17.389280319213867, | |
| "learning_rate": 0.00019895833333333332, | |
| "loss": 2.9049, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.026041666666666668, | |
| "grad_norm": 9.115043640136719, | |
| "learning_rate": 0.00019765625, | |
| "loss": 2.4518, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.0390625, | |
| "grad_norm": 12.339580535888672, | |
| "learning_rate": 0.00019635416666666667, | |
| "loss": 2.1528, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.052083333333333336, | |
| "grad_norm": 10.528745651245117, | |
| "learning_rate": 0.00019505208333333335, | |
| "loss": 1.8847, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.06510416666666667, | |
| "grad_norm": 13.872097969055176, | |
| "learning_rate": 0.00019375000000000002, | |
| "loss": 1.5077, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.078125, | |
| "grad_norm": 10.003462791442871, | |
| "learning_rate": 0.0001924479166666667, | |
| "loss": 1.6212, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.09114583333333333, | |
| "grad_norm": 9.745753288269043, | |
| "learning_rate": 0.00019114583333333334, | |
| "loss": 1.4213, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.10416666666666667, | |
| "grad_norm": 11.599836349487305, | |
| "learning_rate": 0.00018984375000000002, | |
| "loss": 1.1694, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.1171875, | |
| "grad_norm": 9.780190467834473, | |
| "learning_rate": 0.0001885416666666667, | |
| "loss": 1.2436, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.13020833333333334, | |
| "grad_norm": 10.261496543884277, | |
| "learning_rate": 0.00018723958333333334, | |
| "loss": 1.2994, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.13020833333333334, | |
| "eval_accuracy": 0.7091603053435115, | |
| "eval_loss": 1.0313907861709595, | |
| "eval_runtime": 76.1557, | |
| "eval_samples_per_second": 17.202, | |
| "eval_steps_per_second": 2.153, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.14322916666666666, | |
| "grad_norm": 4.307476043701172, | |
| "learning_rate": 0.0001859375, | |
| "loss": 0.9726, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.15625, | |
| "grad_norm": 4.482115745544434, | |
| "learning_rate": 0.0001846354166666667, | |
| "loss": 0.9136, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.16927083333333334, | |
| "grad_norm": 10.434115409851074, | |
| "learning_rate": 0.00018333333333333334, | |
| "loss": 1.174, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.18229166666666666, | |
| "grad_norm": 7.202164173126221, | |
| "learning_rate": 0.00018203125, | |
| "loss": 1.0398, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.1953125, | |
| "grad_norm": 9.057433128356934, | |
| "learning_rate": 0.00018072916666666668, | |
| "loss": 1.1173, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.20833333333333334, | |
| "grad_norm": 9.836210250854492, | |
| "learning_rate": 0.00017942708333333333, | |
| "loss": 1.0324, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.22135416666666666, | |
| "grad_norm": 10.416736602783203, | |
| "learning_rate": 0.000178125, | |
| "loss": 0.8376, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.234375, | |
| "grad_norm": 9.645381927490234, | |
| "learning_rate": 0.00017682291666666668, | |
| "loss": 1.0451, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.24739583333333334, | |
| "grad_norm": 6.324252128601074, | |
| "learning_rate": 0.00017552083333333333, | |
| "loss": 0.9295, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.2604166666666667, | |
| "grad_norm": 10.500443458557129, | |
| "learning_rate": 0.00017434895833333332, | |
| "loss": 0.8789, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.2604166666666667, | |
| "eval_accuracy": 0.832824427480916, | |
| "eval_loss": 0.6169306635856628, | |
| "eval_runtime": 74.0427, | |
| "eval_samples_per_second": 17.692, | |
| "eval_steps_per_second": 2.215, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.2734375, | |
| "grad_norm": 4.5985426902771, | |
| "learning_rate": 0.000173046875, | |
| "loss": 0.5329, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.2864583333333333, | |
| "grad_norm": 14.19344425201416, | |
| "learning_rate": 0.00017174479166666667, | |
| "loss": 0.9277, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.2994791666666667, | |
| "grad_norm": 14.22638988494873, | |
| "learning_rate": 0.00017044270833333335, | |
| "loss": 0.5978, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.3125, | |
| "grad_norm": 13.808385848999023, | |
| "learning_rate": 0.00016914062500000002, | |
| "loss": 0.9471, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 0.3255208333333333, | |
| "grad_norm": 8.194628715515137, | |
| "learning_rate": 0.0001678385416666667, | |
| "loss": 0.7974, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.3385416666666667, | |
| "grad_norm": 6.944046497344971, | |
| "learning_rate": 0.00016653645833333334, | |
| "loss": 0.7594, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 0.3515625, | |
| "grad_norm": 10.181632041931152, | |
| "learning_rate": 0.00016523437500000002, | |
| "loss": 0.6775, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 0.3645833333333333, | |
| "grad_norm": 10.24155330657959, | |
| "learning_rate": 0.0001639322916666667, | |
| "loss": 0.7947, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 0.3776041666666667, | |
| "grad_norm": 16.16265296936035, | |
| "learning_rate": 0.00016263020833333334, | |
| "loss": 0.9477, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 0.390625, | |
| "grad_norm": 6.4330854415893555, | |
| "learning_rate": 0.000161328125, | |
| "loss": 0.4592, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.390625, | |
| "eval_accuracy": 0.8297709923664122, | |
| "eval_loss": 0.5233694911003113, | |
| "eval_runtime": 73.7696, | |
| "eval_samples_per_second": 17.758, | |
| "eval_steps_per_second": 2.223, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.4036458333333333, | |
| "grad_norm": 12.111241340637207, | |
| "learning_rate": 0.0001600260416666667, | |
| "loss": 0.5299, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 0.4166666666666667, | |
| "grad_norm": 3.2816293239593506, | |
| "learning_rate": 0.00015872395833333334, | |
| "loss": 0.4756, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 0.4296875, | |
| "grad_norm": 7.979568004608154, | |
| "learning_rate": 0.000157421875, | |
| "loss": 0.7101, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 0.4427083333333333, | |
| "grad_norm": 8.652854919433594, | |
| "learning_rate": 0.00015611979166666668, | |
| "loss": 0.3024, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 0.4557291666666667, | |
| "grad_norm": 19.324499130249023, | |
| "learning_rate": 0.00015481770833333333, | |
| "loss": 0.5419, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.46875, | |
| "grad_norm": 9.747488021850586, | |
| "learning_rate": 0.000153515625, | |
| "loss": 0.6965, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 0.4817708333333333, | |
| "grad_norm": 10.455299377441406, | |
| "learning_rate": 0.00015221354166666668, | |
| "loss": 0.4206, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 0.4947916666666667, | |
| "grad_norm": 11.353675842285156, | |
| "learning_rate": 0.00015091145833333333, | |
| "loss": 0.703, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 0.5078125, | |
| "grad_norm": 4.012916564941406, | |
| "learning_rate": 0.000149609375, | |
| "loss": 0.3157, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 0.5208333333333334, | |
| "grad_norm": 2.673285484313965, | |
| "learning_rate": 0.00014830729166666668, | |
| "loss": 0.6806, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.5208333333333334, | |
| "eval_accuracy": 0.8488549618320611, | |
| "eval_loss": 0.5430881381034851, | |
| "eval_runtime": 73.216, | |
| "eval_samples_per_second": 17.892, | |
| "eval_steps_per_second": 2.24, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.5338541666666666, | |
| "grad_norm": 11.449606895446777, | |
| "learning_rate": 0.00014700520833333332, | |
| "loss": 0.6442, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 0.546875, | |
| "grad_norm": 4.395051956176758, | |
| "learning_rate": 0.000145703125, | |
| "loss": 0.4426, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 0.5598958333333334, | |
| "grad_norm": 5.8134589195251465, | |
| "learning_rate": 0.00014440104166666667, | |
| "loss": 0.3574, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 0.5729166666666666, | |
| "grad_norm": 20.417043685913086, | |
| "learning_rate": 0.00014309895833333332, | |
| "loss": 0.231, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 0.5859375, | |
| "grad_norm": 9.442773818969727, | |
| "learning_rate": 0.000141796875, | |
| "loss": 0.3883, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.5989583333333334, | |
| "grad_norm": 13.765786170959473, | |
| "learning_rate": 0.00014049479166666667, | |
| "loss": 1.0674, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 0.6119791666666666, | |
| "grad_norm": 2.9523134231567383, | |
| "learning_rate": 0.00013919270833333334, | |
| "loss": 0.4618, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 0.625, | |
| "grad_norm": 10.51352310180664, | |
| "learning_rate": 0.00013789062500000002, | |
| "loss": 0.4457, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 0.6380208333333334, | |
| "grad_norm": 3.431385040283203, | |
| "learning_rate": 0.0001365885416666667, | |
| "loss": 0.3465, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 0.6510416666666666, | |
| "grad_norm": 0.633951723575592, | |
| "learning_rate": 0.00013528645833333334, | |
| "loss": 0.4878, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.6510416666666666, | |
| "eval_accuracy": 0.8854961832061069, | |
| "eval_loss": 0.39052021503448486, | |
| "eval_runtime": 73.354, | |
| "eval_samples_per_second": 17.859, | |
| "eval_steps_per_second": 2.236, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.6640625, | |
| "grad_norm": 0.7576056122779846, | |
| "learning_rate": 0.00013398437500000002, | |
| "loss": 0.3139, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 0.6770833333333334, | |
| "grad_norm": 12.045547485351562, | |
| "learning_rate": 0.0001326822916666667, | |
| "loss": 0.6528, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 0.6901041666666666, | |
| "grad_norm": 11.16480827331543, | |
| "learning_rate": 0.00013138020833333334, | |
| "loss": 0.6615, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 0.703125, | |
| "grad_norm": 4.185828685760498, | |
| "learning_rate": 0.000130078125, | |
| "loss": 0.3707, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 0.7161458333333334, | |
| "grad_norm": 9.450407028198242, | |
| "learning_rate": 0.0001287760416666667, | |
| "loss": 0.3682, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 0.7291666666666666, | |
| "grad_norm": 13.412630081176758, | |
| "learning_rate": 0.00012747395833333333, | |
| "loss": 0.6444, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 0.7421875, | |
| "grad_norm": 5.66330623626709, | |
| "learning_rate": 0.000126171875, | |
| "loss": 0.3466, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 0.7552083333333334, | |
| "grad_norm": 6.60795259475708, | |
| "learning_rate": 0.00012486979166666668, | |
| "loss": 0.2802, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 0.7682291666666666, | |
| "grad_norm": 8.81129264831543, | |
| "learning_rate": 0.00012356770833333333, | |
| "loss": 0.2426, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 0.78125, | |
| "grad_norm": 16.469572067260742, | |
| "learning_rate": 0.000122265625, | |
| "loss": 0.4643, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.78125, | |
| "eval_accuracy": 0.9091603053435114, | |
| "eval_loss": 0.3280966579914093, | |
| "eval_runtime": 73.163, | |
| "eval_samples_per_second": 17.905, | |
| "eval_steps_per_second": 2.242, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.7942708333333334, | |
| "grad_norm": 0.8865923881530762, | |
| "learning_rate": 0.00012096354166666668, | |
| "loss": 0.1578, | |
| "step": 610 | |
| }, | |
| { | |
| "epoch": 0.8072916666666666, | |
| "grad_norm": 8.116411209106445, | |
| "learning_rate": 0.00011966145833333333, | |
| "loss": 0.3884, | |
| "step": 620 | |
| }, | |
| { | |
| "epoch": 0.8203125, | |
| "grad_norm": 9.369128227233887, | |
| "learning_rate": 0.000118359375, | |
| "loss": 0.2877, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 2.700255870819092, | |
| "learning_rate": 0.00011705729166666668, | |
| "loss": 0.3879, | |
| "step": 640 | |
| }, | |
| { | |
| "epoch": 0.8463541666666666, | |
| "grad_norm": 11.327605247497559, | |
| "learning_rate": 0.00011575520833333334, | |
| "loss": 0.3547, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 0.859375, | |
| "grad_norm": 13.358592987060547, | |
| "learning_rate": 0.00011445312500000001, | |
| "loss": 0.223, | |
| "step": 660 | |
| }, | |
| { | |
| "epoch": 0.8723958333333334, | |
| "grad_norm": 1.7891099452972412, | |
| "learning_rate": 0.00011315104166666667, | |
| "loss": 0.2712, | |
| "step": 670 | |
| }, | |
| { | |
| "epoch": 0.8854166666666666, | |
| "grad_norm": 7.728662014007568, | |
| "learning_rate": 0.00011184895833333333, | |
| "loss": 0.3005, | |
| "step": 680 | |
| }, | |
| { | |
| "epoch": 0.8984375, | |
| "grad_norm": 0.3444841802120209, | |
| "learning_rate": 0.00011054687500000001, | |
| "loss": 0.2482, | |
| "step": 690 | |
| }, | |
| { | |
| "epoch": 0.9114583333333334, | |
| "grad_norm": 17.376832962036133, | |
| "learning_rate": 0.00010924479166666668, | |
| "loss": 0.3765, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.9114583333333334, | |
| "eval_accuracy": 0.9290076335877863, | |
| "eval_loss": 0.23975874483585358, | |
| "eval_runtime": 74.0909, | |
| "eval_samples_per_second": 17.681, | |
| "eval_steps_per_second": 2.213, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.9244791666666666, | |
| "grad_norm": 10.517160415649414, | |
| "learning_rate": 0.00010794270833333333, | |
| "loss": 0.5821, | |
| "step": 710 | |
| }, | |
| { | |
| "epoch": 0.9375, | |
| "grad_norm": 11.038665771484375, | |
| "learning_rate": 0.000106640625, | |
| "loss": 0.4436, | |
| "step": 720 | |
| }, | |
| { | |
| "epoch": 0.9505208333333334, | |
| "grad_norm": 0.33208587765693665, | |
| "learning_rate": 0.00010533854166666668, | |
| "loss": 0.2146, | |
| "step": 730 | |
| }, | |
| { | |
| "epoch": 0.9635416666666666, | |
| "grad_norm": 9.220067977905273, | |
| "learning_rate": 0.00010403645833333333, | |
| "loss": 0.3492, | |
| "step": 740 | |
| }, | |
| { | |
| "epoch": 0.9765625, | |
| "grad_norm": 2.6065292358398438, | |
| "learning_rate": 0.000102734375, | |
| "loss": 0.1438, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 0.9895833333333334, | |
| "grad_norm": 4.513604164123535, | |
| "learning_rate": 0.00010143229166666668, | |
| "loss": 0.1498, | |
| "step": 760 | |
| }, | |
| { | |
| "epoch": 1.0026041666666667, | |
| "grad_norm": 3.247533082962036, | |
| "learning_rate": 0.00010013020833333334, | |
| "loss": 0.4945, | |
| "step": 770 | |
| }, | |
| { | |
| "epoch": 1.015625, | |
| "grad_norm": 0.5809522867202759, | |
| "learning_rate": 9.8828125e-05, | |
| "loss": 0.1109, | |
| "step": 780 | |
| }, | |
| { | |
| "epoch": 1.0286458333333333, | |
| "grad_norm": 0.056700680404901505, | |
| "learning_rate": 9.752604166666667e-05, | |
| "loss": 0.1214, | |
| "step": 790 | |
| }, | |
| { | |
| "epoch": 1.0416666666666667, | |
| "grad_norm": 4.652562618255615, | |
| "learning_rate": 9.622395833333335e-05, | |
| "loss": 0.1379, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 1.0416666666666667, | |
| "eval_accuracy": 0.9412213740458015, | |
| "eval_loss": 0.1860814392566681, | |
| "eval_runtime": 72.941, | |
| "eval_samples_per_second": 17.96, | |
| "eval_steps_per_second": 2.248, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 1.0546875, | |
| "grad_norm": 0.06134684756398201, | |
| "learning_rate": 9.492187500000001e-05, | |
| "loss": 0.2437, | |
| "step": 810 | |
| }, | |
| { | |
| "epoch": 1.0677083333333333, | |
| "grad_norm": 0.16209521889686584, | |
| "learning_rate": 9.361979166666667e-05, | |
| "loss": 0.0196, | |
| "step": 820 | |
| }, | |
| { | |
| "epoch": 1.0807291666666667, | |
| "grad_norm": 0.44997701048851013, | |
| "learning_rate": 9.231770833333334e-05, | |
| "loss": 0.0405, | |
| "step": 830 | |
| }, | |
| { | |
| "epoch": 1.09375, | |
| "grad_norm": 0.03530073165893555, | |
| "learning_rate": 9.1015625e-05, | |
| "loss": 0.0271, | |
| "step": 840 | |
| }, | |
| { | |
| "epoch": 1.1067708333333333, | |
| "grad_norm": 0.05656661093235016, | |
| "learning_rate": 8.971354166666667e-05, | |
| "loss": 0.0251, | |
| "step": 850 | |
| }, | |
| { | |
| "epoch": 1.1197916666666667, | |
| "grad_norm": 0.021418265998363495, | |
| "learning_rate": 8.841145833333334e-05, | |
| "loss": 0.1329, | |
| "step": 860 | |
| }, | |
| { | |
| "epoch": 1.1328125, | |
| "grad_norm": 0.34486091136932373, | |
| "learning_rate": 8.7109375e-05, | |
| "loss": 0.2791, | |
| "step": 870 | |
| }, | |
| { | |
| "epoch": 1.1458333333333333, | |
| "grad_norm": 0.06410683691501617, | |
| "learning_rate": 8.580729166666666e-05, | |
| "loss": 0.1949, | |
| "step": 880 | |
| }, | |
| { | |
| "epoch": 1.1588541666666667, | |
| "grad_norm": 6.918659687042236, | |
| "learning_rate": 8.450520833333334e-05, | |
| "loss": 0.1949, | |
| "step": 890 | |
| }, | |
| { | |
| "epoch": 1.171875, | |
| "grad_norm": 6.987488746643066, | |
| "learning_rate": 8.3203125e-05, | |
| "loss": 0.1422, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 1.171875, | |
| "eval_accuracy": 0.9526717557251908, | |
| "eval_loss": 0.16571925580501556, | |
| "eval_runtime": 73.0507, | |
| "eval_samples_per_second": 17.933, | |
| "eval_steps_per_second": 2.245, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 1.1848958333333333, | |
| "grad_norm": 0.6016131043434143, | |
| "learning_rate": 8.190104166666667e-05, | |
| "loss": 0.1011, | |
| "step": 910 | |
| }, | |
| { | |
| "epoch": 1.1979166666666667, | |
| "grad_norm": 5.640698432922363, | |
| "learning_rate": 8.059895833333335e-05, | |
| "loss": 0.2341, | |
| "step": 920 | |
| }, | |
| { | |
| "epoch": 1.2109375, | |
| "grad_norm": 0.18673600256443024, | |
| "learning_rate": 7.929687500000001e-05, | |
| "loss": 0.1911, | |
| "step": 930 | |
| }, | |
| { | |
| "epoch": 1.2239583333333333, | |
| "grad_norm": 0.04827206954360008, | |
| "learning_rate": 7.799479166666667e-05, | |
| "loss": 0.0774, | |
| "step": 940 | |
| }, | |
| { | |
| "epoch": 1.2369791666666667, | |
| "grad_norm": 13.114850044250488, | |
| "learning_rate": 7.669270833333334e-05, | |
| "loss": 0.1671, | |
| "step": 950 | |
| }, | |
| { | |
| "epoch": 1.25, | |
| "grad_norm": 9.023773193359375, | |
| "learning_rate": 7.5390625e-05, | |
| "loss": 0.1245, | |
| "step": 960 | |
| }, | |
| { | |
| "epoch": 1.2630208333333333, | |
| "grad_norm": 0.04247788339853287, | |
| "learning_rate": 7.408854166666667e-05, | |
| "loss": 0.0857, | |
| "step": 970 | |
| }, | |
| { | |
| "epoch": 1.2760416666666667, | |
| "grad_norm": 0.023064516484737396, | |
| "learning_rate": 7.278645833333334e-05, | |
| "loss": 0.0907, | |
| "step": 980 | |
| }, | |
| { | |
| "epoch": 1.2890625, | |
| "grad_norm": 2.6537017822265625, | |
| "learning_rate": 7.1484375e-05, | |
| "loss": 0.0719, | |
| "step": 990 | |
| }, | |
| { | |
| "epoch": 1.3020833333333333, | |
| "grad_norm": 11.02077865600586, | |
| "learning_rate": 7.018229166666666e-05, | |
| "loss": 0.2655, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 1.3020833333333333, | |
| "eval_accuracy": 0.9557251908396946, | |
| "eval_loss": 0.1525699943304062, | |
| "eval_runtime": 73.7356, | |
| "eval_samples_per_second": 17.766, | |
| "eval_steps_per_second": 2.224, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 1.3151041666666667, | |
| "grad_norm": 0.44301870465278625, | |
| "learning_rate": 6.888020833333334e-05, | |
| "loss": 0.1678, | |
| "step": 1010 | |
| }, | |
| { | |
| "epoch": 1.328125, | |
| "grad_norm": 0.7671974301338196, | |
| "learning_rate": 6.7578125e-05, | |
| "loss": 0.0759, | |
| "step": 1020 | |
| }, | |
| { | |
| "epoch": 1.3411458333333333, | |
| "grad_norm": 7.202826499938965, | |
| "learning_rate": 6.627604166666667e-05, | |
| "loss": 0.0838, | |
| "step": 1030 | |
| }, | |
| { | |
| "epoch": 1.3541666666666667, | |
| "grad_norm": 0.1176716759800911, | |
| "learning_rate": 6.497395833333335e-05, | |
| "loss": 0.0988, | |
| "step": 1040 | |
| }, | |
| { | |
| "epoch": 1.3671875, | |
| "grad_norm": 0.06393478810787201, | |
| "learning_rate": 6.367187500000001e-05, | |
| "loss": 0.0869, | |
| "step": 1050 | |
| }, | |
| { | |
| "epoch": 1.3802083333333333, | |
| "grad_norm": 0.5057088732719421, | |
| "learning_rate": 6.236979166666667e-05, | |
| "loss": 0.0964, | |
| "step": 1060 | |
| }, | |
| { | |
| "epoch": 1.3932291666666667, | |
| "grad_norm": 0.056153714656829834, | |
| "learning_rate": 6.106770833333334e-05, | |
| "loss": 0.0229, | |
| "step": 1070 | |
| }, | |
| { | |
| "epoch": 1.40625, | |
| "grad_norm": 0.0073313964530825615, | |
| "learning_rate": 5.9765625000000004e-05, | |
| "loss": 0.0295, | |
| "step": 1080 | |
| }, | |
| { | |
| "epoch": 1.4192708333333333, | |
| "grad_norm": 10.135377883911133, | |
| "learning_rate": 5.8463541666666665e-05, | |
| "loss": 0.0407, | |
| "step": 1090 | |
| }, | |
| { | |
| "epoch": 1.4322916666666667, | |
| "grad_norm": 0.27722039818763733, | |
| "learning_rate": 5.716145833333334e-05, | |
| "loss": 0.0304, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 1.4322916666666667, | |
| "eval_accuracy": 0.9633587786259542, | |
| "eval_loss": 0.15782681107521057, | |
| "eval_runtime": 73.1148, | |
| "eval_samples_per_second": 17.917, | |
| "eval_steps_per_second": 2.243, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 1.4453125, | |
| "grad_norm": 10.238181114196777, | |
| "learning_rate": 5.5859375e-05, | |
| "loss": 0.1596, | |
| "step": 1110 | |
| }, | |
| { | |
| "epoch": 1.4583333333333333, | |
| "grad_norm": 0.05249097943305969, | |
| "learning_rate": 5.455729166666667e-05, | |
| "loss": 0.0634, | |
| "step": 1120 | |
| }, | |
| { | |
| "epoch": 1.4713541666666667, | |
| "grad_norm": 8.209336280822754, | |
| "learning_rate": 5.3255208333333336e-05, | |
| "loss": 0.1038, | |
| "step": 1130 | |
| }, | |
| { | |
| "epoch": 1.484375, | |
| "grad_norm": 0.7781971096992493, | |
| "learning_rate": 5.1953125000000004e-05, | |
| "loss": 0.0557, | |
| "step": 1140 | |
| }, | |
| { | |
| "epoch": 1.4973958333333333, | |
| "grad_norm": 13.152403831481934, | |
| "learning_rate": 5.0651041666666665e-05, | |
| "loss": 0.0969, | |
| "step": 1150 | |
| }, | |
| { | |
| "epoch": 1.5104166666666665, | |
| "grad_norm": 1.389357328414917, | |
| "learning_rate": 4.934895833333333e-05, | |
| "loss": 0.142, | |
| "step": 1160 | |
| }, | |
| { | |
| "epoch": 1.5234375, | |
| "grad_norm": 0.03525904566049576, | |
| "learning_rate": 4.8046875e-05, | |
| "loss": 0.1667, | |
| "step": 1170 | |
| }, | |
| { | |
| "epoch": 1.5364583333333335, | |
| "grad_norm": 0.021179642528295517, | |
| "learning_rate": 4.674479166666667e-05, | |
| "loss": 0.0707, | |
| "step": 1180 | |
| }, | |
| { | |
| "epoch": 1.5494791666666665, | |
| "grad_norm": 9.995001792907715, | |
| "learning_rate": 4.5442708333333336e-05, | |
| "loss": 0.0614, | |
| "step": 1190 | |
| }, | |
| { | |
| "epoch": 1.5625, | |
| "grad_norm": 0.049822065979242325, | |
| "learning_rate": 4.4140625000000004e-05, | |
| "loss": 0.072, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 1.5625, | |
| "eval_accuracy": 0.9679389312977099, | |
| "eval_loss": 0.14182424545288086, | |
| "eval_runtime": 73.4207, | |
| "eval_samples_per_second": 17.842, | |
| "eval_steps_per_second": 2.234, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 1.5755208333333335, | |
| "grad_norm": 0.026322199031710625, | |
| "learning_rate": 4.283854166666667e-05, | |
| "loss": 0.0919, | |
| "step": 1210 | |
| }, | |
| { | |
| "epoch": 1.5885416666666665, | |
| "grad_norm": 0.13556483387947083, | |
| "learning_rate": 4.153645833333333e-05, | |
| "loss": 0.1895, | |
| "step": 1220 | |
| }, | |
| { | |
| "epoch": 1.6015625, | |
| "grad_norm": 0.02379715070128441, | |
| "learning_rate": 4.0234375e-05, | |
| "loss": 0.0233, | |
| "step": 1230 | |
| }, | |
| { | |
| "epoch": 1.6145833333333335, | |
| "grad_norm": 0.03572675958275795, | |
| "learning_rate": 3.893229166666667e-05, | |
| "loss": 0.09, | |
| "step": 1240 | |
| }, | |
| { | |
| "epoch": 1.6276041666666665, | |
| "grad_norm": 0.04055442661046982, | |
| "learning_rate": 3.7630208333333336e-05, | |
| "loss": 0.0729, | |
| "step": 1250 | |
| }, | |
| { | |
| "epoch": 1.640625, | |
| "grad_norm": 12.408260345458984, | |
| "learning_rate": 3.6328125000000004e-05, | |
| "loss": 0.1543, | |
| "step": 1260 | |
| }, | |
| { | |
| "epoch": 1.6536458333333335, | |
| "grad_norm": 0.01183232106268406, | |
| "learning_rate": 3.502604166666667e-05, | |
| "loss": 0.0171, | |
| "step": 1270 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 0.030863391235470772, | |
| "learning_rate": 3.372395833333333e-05, | |
| "loss": 0.027, | |
| "step": 1280 | |
| }, | |
| { | |
| "epoch": 1.6796875, | |
| "grad_norm": 1.657828688621521, | |
| "learning_rate": 3.2421875e-05, | |
| "loss": 0.0056, | |
| "step": 1290 | |
| }, | |
| { | |
| "epoch": 1.6927083333333335, | |
| "grad_norm": 8.683385848999023, | |
| "learning_rate": 3.111979166666667e-05, | |
| "loss": 0.2936, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 1.6927083333333335, | |
| "eval_accuracy": 0.9770992366412213, | |
| "eval_loss": 0.10032270848751068, | |
| "eval_runtime": 73.5538, | |
| "eval_samples_per_second": 17.81, | |
| "eval_steps_per_second": 2.23, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 1.7057291666666665, | |
| "grad_norm": 0.005644885823130608, | |
| "learning_rate": 2.9817708333333332e-05, | |
| "loss": 0.1009, | |
| "step": 1310 | |
| }, | |
| { | |
| "epoch": 1.71875, | |
| "grad_norm": 0.03866463154554367, | |
| "learning_rate": 2.8515625e-05, | |
| "loss": 0.0822, | |
| "step": 1320 | |
| }, | |
| { | |
| "epoch": 1.7317708333333335, | |
| "grad_norm": 0.013144961558282375, | |
| "learning_rate": 2.721354166666667e-05, | |
| "loss": 0.0686, | |
| "step": 1330 | |
| }, | |
| { | |
| "epoch": 1.7447916666666665, | |
| "grad_norm": 0.00972031056880951, | |
| "learning_rate": 2.5911458333333332e-05, | |
| "loss": 0.0346, | |
| "step": 1340 | |
| }, | |
| { | |
| "epoch": 1.7578125, | |
| "grad_norm": 0.026575949043035507, | |
| "learning_rate": 2.4609375e-05, | |
| "loss": 0.0138, | |
| "step": 1350 | |
| }, | |
| { | |
| "epoch": 1.7708333333333335, | |
| "grad_norm": 0.6429733037948608, | |
| "learning_rate": 2.3307291666666668e-05, | |
| "loss": 0.0177, | |
| "step": 1360 | |
| }, | |
| { | |
| "epoch": 1.7838541666666665, | |
| "grad_norm": 0.025338683277368546, | |
| "learning_rate": 2.2005208333333336e-05, | |
| "loss": 0.0645, | |
| "step": 1370 | |
| }, | |
| { | |
| "epoch": 1.796875, | |
| "grad_norm": 0.01729397289454937, | |
| "learning_rate": 2.0703125e-05, | |
| "loss": 0.0326, | |
| "step": 1380 | |
| }, | |
| { | |
| "epoch": 1.8098958333333335, | |
| "grad_norm": 0.015349478460848331, | |
| "learning_rate": 1.9401041666666668e-05, | |
| "loss": 0.0075, | |
| "step": 1390 | |
| }, | |
| { | |
| "epoch": 1.8229166666666665, | |
| "grad_norm": 0.6028020977973938, | |
| "learning_rate": 1.8098958333333336e-05, | |
| "loss": 0.0333, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 1.8229166666666665, | |
| "eval_accuracy": 0.9793893129770992, | |
| "eval_loss": 0.09348531067371368, | |
| "eval_runtime": 73.1835, | |
| "eval_samples_per_second": 17.9, | |
| "eval_steps_per_second": 2.241, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 1.8359375, | |
| "grad_norm": 1.0170259475708008, | |
| "learning_rate": 1.6796875e-05, | |
| "loss": 0.0235, | |
| "step": 1410 | |
| }, | |
| { | |
| "epoch": 1.8489583333333335, | |
| "grad_norm": 0.02781638689339161, | |
| "learning_rate": 1.5494791666666668e-05, | |
| "loss": 0.0928, | |
| "step": 1420 | |
| }, | |
| { | |
| "epoch": 1.8619791666666665, | |
| "grad_norm": 14.262807846069336, | |
| "learning_rate": 1.4192708333333336e-05, | |
| "loss": 0.2109, | |
| "step": 1430 | |
| }, | |
| { | |
| "epoch": 1.875, | |
| "grad_norm": 1.84883451461792, | |
| "learning_rate": 1.2890625e-05, | |
| "loss": 0.0357, | |
| "step": 1440 | |
| }, | |
| { | |
| "epoch": 1.8880208333333335, | |
| "grad_norm": 0.28587606549263, | |
| "learning_rate": 1.1588541666666668e-05, | |
| "loss": 0.0019, | |
| "step": 1450 | |
| }, | |
| { | |
| "epoch": 1.9010416666666665, | |
| "grad_norm": 0.33084961771965027, | |
| "learning_rate": 1.0286458333333334e-05, | |
| "loss": 0.043, | |
| "step": 1460 | |
| }, | |
| { | |
| "epoch": 1.9140625, | |
| "grad_norm": 0.333294153213501, | |
| "learning_rate": 8.984375e-06, | |
| "loss": 0.1937, | |
| "step": 1470 | |
| }, | |
| { | |
| "epoch": 1.9270833333333335, | |
| "grad_norm": 0.004296708852052689, | |
| "learning_rate": 7.682291666666668e-06, | |
| "loss": 0.0426, | |
| "step": 1480 | |
| }, | |
| { | |
| "epoch": 1.9401041666666665, | |
| "grad_norm": 0.0049277921207249165, | |
| "learning_rate": 6.380208333333333e-06, | |
| "loss": 0.003, | |
| "step": 1490 | |
| }, | |
| { | |
| "epoch": 1.953125, | |
| "grad_norm": 0.049785688519477844, | |
| "learning_rate": 5.078125000000001e-06, | |
| "loss": 0.0844, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 1.953125, | |
| "eval_accuracy": 0.9793893129770992, | |
| "eval_loss": 0.08702504634857178, | |
| "eval_runtime": 72.8723, | |
| "eval_samples_per_second": 17.977, | |
| "eval_steps_per_second": 2.251, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 1.9661458333333335, | |
| "grad_norm": 4.749906539916992, | |
| "learning_rate": 3.7760416666666667e-06, | |
| "loss": 0.099, | |
| "step": 1510 | |
| }, | |
| { | |
| "epoch": 1.9791666666666665, | |
| "grad_norm": 0.10631278902292252, | |
| "learning_rate": 2.473958333333333e-06, | |
| "loss": 0.0012, | |
| "step": 1520 | |
| }, | |
| { | |
| "epoch": 1.9921875, | |
| "grad_norm": 0.01599978655576706, | |
| "learning_rate": 1.1718750000000001e-06, | |
| "loss": 0.2036, | |
| "step": 1530 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "step": 1536, | |
| "total_flos": 9.520992752534323e+17, | |
| "train_loss": 0.40541269640622585, | |
| "train_runtime": 2133.8871, | |
| "train_samples_per_second": 5.757, | |
| "train_steps_per_second": 0.72 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 1536, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 2, | |
| "save_steps": 100, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 9.520992752534323e+17, | |
| "train_batch_size": 8, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |