{ "best_global_step": 1500, "best_metric": 0.08702504634857178, "best_model_checkpoint": "./deit-ena24/checkpoint-1500", "epoch": 2.0, "eval_steps": 100, "global_step": 1536, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.013020833333333334, "grad_norm": 17.389280319213867, "learning_rate": 0.00019895833333333332, "loss": 2.9049, "step": 10 }, { "epoch": 0.026041666666666668, "grad_norm": 9.115043640136719, "learning_rate": 0.00019765625, "loss": 2.4518, "step": 20 }, { "epoch": 0.0390625, "grad_norm": 12.339580535888672, "learning_rate": 0.00019635416666666667, "loss": 2.1528, "step": 30 }, { "epoch": 0.052083333333333336, "grad_norm": 10.528745651245117, "learning_rate": 0.00019505208333333335, "loss": 1.8847, "step": 40 }, { "epoch": 0.06510416666666667, "grad_norm": 13.872097969055176, "learning_rate": 0.00019375000000000002, "loss": 1.5077, "step": 50 }, { "epoch": 0.078125, "grad_norm": 10.003462791442871, "learning_rate": 0.0001924479166666667, "loss": 1.6212, "step": 60 }, { "epoch": 0.09114583333333333, "grad_norm": 9.745753288269043, "learning_rate": 0.00019114583333333334, "loss": 1.4213, "step": 70 }, { "epoch": 0.10416666666666667, "grad_norm": 11.599836349487305, "learning_rate": 0.00018984375000000002, "loss": 1.1694, "step": 80 }, { "epoch": 0.1171875, "grad_norm": 9.780190467834473, "learning_rate": 0.0001885416666666667, "loss": 1.2436, "step": 90 }, { "epoch": 0.13020833333333334, "grad_norm": 10.261496543884277, "learning_rate": 0.00018723958333333334, "loss": 1.2994, "step": 100 }, { "epoch": 0.13020833333333334, "eval_accuracy": 0.7091603053435115, "eval_loss": 1.0313907861709595, "eval_runtime": 76.1557, "eval_samples_per_second": 17.202, "eval_steps_per_second": 2.153, "step": 100 }, { "epoch": 0.14322916666666666, "grad_norm": 4.307476043701172, "learning_rate": 0.0001859375, "loss": 0.9726, "step": 110 }, { "epoch": 0.15625, "grad_norm": 4.482115745544434, "learning_rate": 0.0001846354166666667, "loss": 0.9136, "step": 120 }, { "epoch": 0.16927083333333334, "grad_norm": 10.434115409851074, "learning_rate": 0.00018333333333333334, "loss": 1.174, "step": 130 }, { "epoch": 0.18229166666666666, "grad_norm": 7.202164173126221, "learning_rate": 0.00018203125, "loss": 1.0398, "step": 140 }, { "epoch": 0.1953125, "grad_norm": 9.057433128356934, "learning_rate": 0.00018072916666666668, "loss": 1.1173, "step": 150 }, { "epoch": 0.20833333333333334, "grad_norm": 9.836210250854492, "learning_rate": 0.00017942708333333333, "loss": 1.0324, "step": 160 }, { "epoch": 0.22135416666666666, "grad_norm": 10.416736602783203, "learning_rate": 0.000178125, "loss": 0.8376, "step": 170 }, { "epoch": 0.234375, "grad_norm": 9.645381927490234, "learning_rate": 0.00017682291666666668, "loss": 1.0451, "step": 180 }, { "epoch": 0.24739583333333334, "grad_norm": 6.324252128601074, "learning_rate": 0.00017552083333333333, "loss": 0.9295, "step": 190 }, { "epoch": 0.2604166666666667, "grad_norm": 10.500443458557129, "learning_rate": 0.00017434895833333332, "loss": 0.8789, "step": 200 }, { "epoch": 0.2604166666666667, "eval_accuracy": 0.832824427480916, "eval_loss": 0.6169306635856628, "eval_runtime": 74.0427, "eval_samples_per_second": 17.692, "eval_steps_per_second": 2.215, "step": 200 }, { "epoch": 0.2734375, "grad_norm": 4.5985426902771, "learning_rate": 0.000173046875, "loss": 0.5329, "step": 210 }, { "epoch": 0.2864583333333333, "grad_norm": 14.19344425201416, "learning_rate": 0.00017174479166666667, "loss": 0.9277, "step": 220 }, { "epoch": 0.2994791666666667, "grad_norm": 14.22638988494873, "learning_rate": 0.00017044270833333335, "loss": 0.5978, "step": 230 }, { "epoch": 0.3125, "grad_norm": 13.808385848999023, "learning_rate": 0.00016914062500000002, "loss": 0.9471, "step": 240 }, { "epoch": 0.3255208333333333, "grad_norm": 8.194628715515137, "learning_rate": 0.0001678385416666667, "loss": 0.7974, "step": 250 }, { "epoch": 0.3385416666666667, "grad_norm": 6.944046497344971, "learning_rate": 0.00016653645833333334, "loss": 0.7594, "step": 260 }, { "epoch": 0.3515625, "grad_norm": 10.181632041931152, "learning_rate": 0.00016523437500000002, "loss": 0.6775, "step": 270 }, { "epoch": 0.3645833333333333, "grad_norm": 10.24155330657959, "learning_rate": 0.0001639322916666667, "loss": 0.7947, "step": 280 }, { "epoch": 0.3776041666666667, "grad_norm": 16.16265296936035, "learning_rate": 0.00016263020833333334, "loss": 0.9477, "step": 290 }, { "epoch": 0.390625, "grad_norm": 6.4330854415893555, "learning_rate": 0.000161328125, "loss": 0.4592, "step": 300 }, { "epoch": 0.390625, "eval_accuracy": 0.8297709923664122, "eval_loss": 0.5233694911003113, "eval_runtime": 73.7696, "eval_samples_per_second": 17.758, "eval_steps_per_second": 2.223, "step": 300 }, { "epoch": 0.4036458333333333, "grad_norm": 12.111241340637207, "learning_rate": 0.0001600260416666667, "loss": 0.5299, "step": 310 }, { "epoch": 0.4166666666666667, "grad_norm": 3.2816293239593506, "learning_rate": 0.00015872395833333334, "loss": 0.4756, "step": 320 }, { "epoch": 0.4296875, "grad_norm": 7.979568004608154, "learning_rate": 0.000157421875, "loss": 0.7101, "step": 330 }, { "epoch": 0.4427083333333333, "grad_norm": 8.652854919433594, "learning_rate": 0.00015611979166666668, "loss": 0.3024, "step": 340 }, { "epoch": 0.4557291666666667, "grad_norm": 19.324499130249023, "learning_rate": 0.00015481770833333333, "loss": 0.5419, "step": 350 }, { "epoch": 0.46875, "grad_norm": 9.747488021850586, "learning_rate": 0.000153515625, "loss": 0.6965, "step": 360 }, { "epoch": 0.4817708333333333, "grad_norm": 10.455299377441406, "learning_rate": 0.00015221354166666668, "loss": 0.4206, "step": 370 }, { "epoch": 0.4947916666666667, "grad_norm": 11.353675842285156, "learning_rate": 0.00015091145833333333, "loss": 0.703, "step": 380 }, { "epoch": 0.5078125, "grad_norm": 4.012916564941406, "learning_rate": 0.000149609375, "loss": 0.3157, "step": 390 }, { "epoch": 0.5208333333333334, "grad_norm": 2.673285484313965, "learning_rate": 0.00014830729166666668, "loss": 0.6806, "step": 400 }, { "epoch": 0.5208333333333334, "eval_accuracy": 0.8488549618320611, "eval_loss": 0.5430881381034851, "eval_runtime": 73.216, "eval_samples_per_second": 17.892, "eval_steps_per_second": 2.24, "step": 400 }, { "epoch": 0.5338541666666666, "grad_norm": 11.449606895446777, "learning_rate": 0.00014700520833333332, "loss": 0.6442, "step": 410 }, { "epoch": 0.546875, "grad_norm": 4.395051956176758, "learning_rate": 0.000145703125, "loss": 0.4426, "step": 420 }, { "epoch": 0.5598958333333334, "grad_norm": 5.8134589195251465, "learning_rate": 0.00014440104166666667, "loss": 0.3574, "step": 430 }, { "epoch": 0.5729166666666666, "grad_norm": 20.417043685913086, "learning_rate": 0.00014309895833333332, "loss": 0.231, "step": 440 }, { "epoch": 0.5859375, "grad_norm": 9.442773818969727, "learning_rate": 0.000141796875, "loss": 0.3883, "step": 450 }, { "epoch": 0.5989583333333334, "grad_norm": 13.765786170959473, "learning_rate": 0.00014049479166666667, "loss": 1.0674, "step": 460 }, { "epoch": 0.6119791666666666, "grad_norm": 2.9523134231567383, "learning_rate": 0.00013919270833333334, "loss": 0.4618, "step": 470 }, { "epoch": 0.625, "grad_norm": 10.51352310180664, "learning_rate": 0.00013789062500000002, "loss": 0.4457, "step": 480 }, { "epoch": 0.6380208333333334, "grad_norm": 3.431385040283203, "learning_rate": 0.0001365885416666667, "loss": 0.3465, "step": 490 }, { "epoch": 0.6510416666666666, "grad_norm": 0.633951723575592, "learning_rate": 0.00013528645833333334, "loss": 0.4878, "step": 500 }, { "epoch": 0.6510416666666666, "eval_accuracy": 0.8854961832061069, "eval_loss": 0.39052021503448486, "eval_runtime": 73.354, "eval_samples_per_second": 17.859, "eval_steps_per_second": 2.236, "step": 500 }, { "epoch": 0.6640625, "grad_norm": 0.7576056122779846, "learning_rate": 0.00013398437500000002, "loss": 0.3139, "step": 510 }, { "epoch": 0.6770833333333334, "grad_norm": 12.045547485351562, "learning_rate": 0.0001326822916666667, "loss": 0.6528, "step": 520 }, { "epoch": 0.6901041666666666, "grad_norm": 11.16480827331543, "learning_rate": 0.00013138020833333334, "loss": 0.6615, "step": 530 }, { "epoch": 0.703125, "grad_norm": 4.185828685760498, "learning_rate": 0.000130078125, "loss": 0.3707, "step": 540 }, { "epoch": 0.7161458333333334, "grad_norm": 9.450407028198242, "learning_rate": 0.0001287760416666667, "loss": 0.3682, "step": 550 }, { "epoch": 0.7291666666666666, "grad_norm": 13.412630081176758, "learning_rate": 0.00012747395833333333, "loss": 0.6444, "step": 560 }, { "epoch": 0.7421875, "grad_norm": 5.66330623626709, "learning_rate": 0.000126171875, "loss": 0.3466, "step": 570 }, { "epoch": 0.7552083333333334, "grad_norm": 6.60795259475708, "learning_rate": 0.00012486979166666668, "loss": 0.2802, "step": 580 }, { "epoch": 0.7682291666666666, "grad_norm": 8.81129264831543, "learning_rate": 0.00012356770833333333, "loss": 0.2426, "step": 590 }, { "epoch": 0.78125, "grad_norm": 16.469572067260742, "learning_rate": 0.000122265625, "loss": 0.4643, "step": 600 }, { "epoch": 0.78125, "eval_accuracy": 0.9091603053435114, "eval_loss": 0.3280966579914093, "eval_runtime": 73.163, "eval_samples_per_second": 17.905, "eval_steps_per_second": 2.242, "step": 600 }, { "epoch": 0.7942708333333334, "grad_norm": 0.8865923881530762, "learning_rate": 0.00012096354166666668, "loss": 0.1578, "step": 610 }, { "epoch": 0.8072916666666666, "grad_norm": 8.116411209106445, "learning_rate": 0.00011966145833333333, "loss": 0.3884, "step": 620 }, { "epoch": 0.8203125, "grad_norm": 9.369128227233887, "learning_rate": 0.000118359375, "loss": 0.2877, "step": 630 }, { "epoch": 0.8333333333333334, "grad_norm": 2.700255870819092, "learning_rate": 0.00011705729166666668, "loss": 0.3879, "step": 640 }, { "epoch": 0.8463541666666666, "grad_norm": 11.327605247497559, "learning_rate": 0.00011575520833333334, "loss": 0.3547, "step": 650 }, { "epoch": 0.859375, "grad_norm": 13.358592987060547, "learning_rate": 0.00011445312500000001, "loss": 0.223, "step": 660 }, { "epoch": 0.8723958333333334, "grad_norm": 1.7891099452972412, "learning_rate": 0.00011315104166666667, "loss": 0.2712, "step": 670 }, { "epoch": 0.8854166666666666, "grad_norm": 7.728662014007568, "learning_rate": 0.00011184895833333333, "loss": 0.3005, "step": 680 }, { "epoch": 0.8984375, "grad_norm": 0.3444841802120209, "learning_rate": 0.00011054687500000001, "loss": 0.2482, "step": 690 }, { "epoch": 0.9114583333333334, "grad_norm": 17.376832962036133, "learning_rate": 0.00010924479166666668, "loss": 0.3765, "step": 700 }, { "epoch": 0.9114583333333334, "eval_accuracy": 0.9290076335877863, "eval_loss": 0.23975874483585358, "eval_runtime": 74.0909, "eval_samples_per_second": 17.681, "eval_steps_per_second": 2.213, "step": 700 }, { "epoch": 0.9244791666666666, "grad_norm": 10.517160415649414, "learning_rate": 0.00010794270833333333, "loss": 0.5821, "step": 710 }, { "epoch": 0.9375, "grad_norm": 11.038665771484375, "learning_rate": 0.000106640625, "loss": 0.4436, "step": 720 }, { "epoch": 0.9505208333333334, "grad_norm": 0.33208587765693665, "learning_rate": 0.00010533854166666668, "loss": 0.2146, "step": 730 }, { "epoch": 0.9635416666666666, "grad_norm": 9.220067977905273, "learning_rate": 0.00010403645833333333, "loss": 0.3492, "step": 740 }, { "epoch": 0.9765625, "grad_norm": 2.6065292358398438, "learning_rate": 0.000102734375, "loss": 0.1438, "step": 750 }, { "epoch": 0.9895833333333334, "grad_norm": 4.513604164123535, "learning_rate": 0.00010143229166666668, "loss": 0.1498, "step": 760 }, { "epoch": 1.0026041666666667, "grad_norm": 3.247533082962036, "learning_rate": 0.00010013020833333334, "loss": 0.4945, "step": 770 }, { "epoch": 1.015625, "grad_norm": 0.5809522867202759, "learning_rate": 9.8828125e-05, "loss": 0.1109, "step": 780 }, { "epoch": 1.0286458333333333, "grad_norm": 0.056700680404901505, "learning_rate": 9.752604166666667e-05, "loss": 0.1214, "step": 790 }, { "epoch": 1.0416666666666667, "grad_norm": 4.652562618255615, "learning_rate": 9.622395833333335e-05, "loss": 0.1379, "step": 800 }, { "epoch": 1.0416666666666667, "eval_accuracy": 0.9412213740458015, "eval_loss": 0.1860814392566681, "eval_runtime": 72.941, "eval_samples_per_second": 17.96, "eval_steps_per_second": 2.248, "step": 800 }, { "epoch": 1.0546875, "grad_norm": 0.06134684756398201, "learning_rate": 9.492187500000001e-05, "loss": 0.2437, "step": 810 }, { "epoch": 1.0677083333333333, "grad_norm": 0.16209521889686584, "learning_rate": 9.361979166666667e-05, "loss": 0.0196, "step": 820 }, { "epoch": 1.0807291666666667, "grad_norm": 0.44997701048851013, "learning_rate": 9.231770833333334e-05, "loss": 0.0405, "step": 830 }, { "epoch": 1.09375, "grad_norm": 0.03530073165893555, "learning_rate": 9.1015625e-05, "loss": 0.0271, "step": 840 }, { "epoch": 1.1067708333333333, "grad_norm": 0.05656661093235016, "learning_rate": 8.971354166666667e-05, "loss": 0.0251, "step": 850 }, { "epoch": 1.1197916666666667, "grad_norm": 0.021418265998363495, "learning_rate": 8.841145833333334e-05, "loss": 0.1329, "step": 860 }, { "epoch": 1.1328125, "grad_norm": 0.34486091136932373, "learning_rate": 8.7109375e-05, "loss": 0.2791, "step": 870 }, { "epoch": 1.1458333333333333, "grad_norm": 0.06410683691501617, "learning_rate": 8.580729166666666e-05, "loss": 0.1949, "step": 880 }, { "epoch": 1.1588541666666667, "grad_norm": 6.918659687042236, "learning_rate": 8.450520833333334e-05, "loss": 0.1949, "step": 890 }, { "epoch": 1.171875, "grad_norm": 6.987488746643066, "learning_rate": 8.3203125e-05, "loss": 0.1422, "step": 900 }, { "epoch": 1.171875, "eval_accuracy": 0.9526717557251908, "eval_loss": 0.16571925580501556, "eval_runtime": 73.0507, "eval_samples_per_second": 17.933, "eval_steps_per_second": 2.245, "step": 900 }, { "epoch": 1.1848958333333333, "grad_norm": 0.6016131043434143, "learning_rate": 8.190104166666667e-05, "loss": 0.1011, "step": 910 }, { "epoch": 1.1979166666666667, "grad_norm": 5.640698432922363, "learning_rate": 8.059895833333335e-05, "loss": 0.2341, "step": 920 }, { "epoch": 1.2109375, "grad_norm": 0.18673600256443024, "learning_rate": 7.929687500000001e-05, "loss": 0.1911, "step": 930 }, { "epoch": 1.2239583333333333, "grad_norm": 0.04827206954360008, "learning_rate": 7.799479166666667e-05, "loss": 0.0774, "step": 940 }, { "epoch": 1.2369791666666667, "grad_norm": 13.114850044250488, "learning_rate": 7.669270833333334e-05, "loss": 0.1671, "step": 950 }, { "epoch": 1.25, "grad_norm": 9.023773193359375, "learning_rate": 7.5390625e-05, "loss": 0.1245, "step": 960 }, { "epoch": 1.2630208333333333, "grad_norm": 0.04247788339853287, "learning_rate": 7.408854166666667e-05, "loss": 0.0857, "step": 970 }, { "epoch": 1.2760416666666667, "grad_norm": 0.023064516484737396, "learning_rate": 7.278645833333334e-05, "loss": 0.0907, "step": 980 }, { "epoch": 1.2890625, "grad_norm": 2.6537017822265625, "learning_rate": 7.1484375e-05, "loss": 0.0719, "step": 990 }, { "epoch": 1.3020833333333333, "grad_norm": 11.02077865600586, "learning_rate": 7.018229166666666e-05, "loss": 0.2655, "step": 1000 }, { "epoch": 1.3020833333333333, "eval_accuracy": 0.9557251908396946, "eval_loss": 0.1525699943304062, "eval_runtime": 73.7356, "eval_samples_per_second": 17.766, "eval_steps_per_second": 2.224, "step": 1000 }, { "epoch": 1.3151041666666667, "grad_norm": 0.44301870465278625, "learning_rate": 6.888020833333334e-05, "loss": 0.1678, "step": 1010 }, { "epoch": 1.328125, "grad_norm": 0.7671974301338196, "learning_rate": 6.7578125e-05, "loss": 0.0759, "step": 1020 }, { "epoch": 1.3411458333333333, "grad_norm": 7.202826499938965, "learning_rate": 6.627604166666667e-05, "loss": 0.0838, "step": 1030 }, { "epoch": 1.3541666666666667, "grad_norm": 0.1176716759800911, "learning_rate": 6.497395833333335e-05, "loss": 0.0988, "step": 1040 }, { "epoch": 1.3671875, "grad_norm": 0.06393478810787201, "learning_rate": 6.367187500000001e-05, "loss": 0.0869, "step": 1050 }, { "epoch": 1.3802083333333333, "grad_norm": 0.5057088732719421, "learning_rate": 6.236979166666667e-05, "loss": 0.0964, "step": 1060 }, { "epoch": 1.3932291666666667, "grad_norm": 0.056153714656829834, "learning_rate": 6.106770833333334e-05, "loss": 0.0229, "step": 1070 }, { "epoch": 1.40625, "grad_norm": 0.0073313964530825615, "learning_rate": 5.9765625000000004e-05, "loss": 0.0295, "step": 1080 }, { "epoch": 1.4192708333333333, "grad_norm": 10.135377883911133, "learning_rate": 5.8463541666666665e-05, "loss": 0.0407, "step": 1090 }, { "epoch": 1.4322916666666667, "grad_norm": 0.27722039818763733, "learning_rate": 5.716145833333334e-05, "loss": 0.0304, "step": 1100 }, { "epoch": 1.4322916666666667, "eval_accuracy": 0.9633587786259542, "eval_loss": 0.15782681107521057, "eval_runtime": 73.1148, "eval_samples_per_second": 17.917, "eval_steps_per_second": 2.243, "step": 1100 }, { "epoch": 1.4453125, "grad_norm": 10.238181114196777, "learning_rate": 5.5859375e-05, "loss": 0.1596, "step": 1110 }, { "epoch": 1.4583333333333333, "grad_norm": 0.05249097943305969, "learning_rate": 5.455729166666667e-05, "loss": 0.0634, "step": 1120 }, { "epoch": 1.4713541666666667, "grad_norm": 8.209336280822754, "learning_rate": 5.3255208333333336e-05, "loss": 0.1038, "step": 1130 }, { "epoch": 1.484375, "grad_norm": 0.7781971096992493, "learning_rate": 5.1953125000000004e-05, "loss": 0.0557, "step": 1140 }, { "epoch": 1.4973958333333333, "grad_norm": 13.152403831481934, "learning_rate": 5.0651041666666665e-05, "loss": 0.0969, "step": 1150 }, { "epoch": 1.5104166666666665, "grad_norm": 1.389357328414917, "learning_rate": 4.934895833333333e-05, "loss": 0.142, "step": 1160 }, { "epoch": 1.5234375, "grad_norm": 0.03525904566049576, "learning_rate": 4.8046875e-05, "loss": 0.1667, "step": 1170 }, { "epoch": 1.5364583333333335, "grad_norm": 0.021179642528295517, "learning_rate": 4.674479166666667e-05, "loss": 0.0707, "step": 1180 }, { "epoch": 1.5494791666666665, "grad_norm": 9.995001792907715, "learning_rate": 4.5442708333333336e-05, "loss": 0.0614, "step": 1190 }, { "epoch": 1.5625, "grad_norm": 0.049822065979242325, "learning_rate": 4.4140625000000004e-05, "loss": 0.072, "step": 1200 }, { "epoch": 1.5625, "eval_accuracy": 0.9679389312977099, "eval_loss": 0.14182424545288086, "eval_runtime": 73.4207, "eval_samples_per_second": 17.842, "eval_steps_per_second": 2.234, "step": 1200 }, { "epoch": 1.5755208333333335, "grad_norm": 0.026322199031710625, "learning_rate": 4.283854166666667e-05, "loss": 0.0919, "step": 1210 }, { "epoch": 1.5885416666666665, "grad_norm": 0.13556483387947083, "learning_rate": 4.153645833333333e-05, "loss": 0.1895, "step": 1220 }, { "epoch": 1.6015625, "grad_norm": 0.02379715070128441, "learning_rate": 4.0234375e-05, "loss": 0.0233, "step": 1230 }, { "epoch": 1.6145833333333335, "grad_norm": 0.03572675958275795, "learning_rate": 3.893229166666667e-05, "loss": 0.09, "step": 1240 }, { "epoch": 1.6276041666666665, "grad_norm": 0.04055442661046982, "learning_rate": 3.7630208333333336e-05, "loss": 0.0729, "step": 1250 }, { "epoch": 1.640625, "grad_norm": 12.408260345458984, "learning_rate": 3.6328125000000004e-05, "loss": 0.1543, "step": 1260 }, { "epoch": 1.6536458333333335, "grad_norm": 0.01183232106268406, "learning_rate": 3.502604166666667e-05, "loss": 0.0171, "step": 1270 }, { "epoch": 1.6666666666666665, "grad_norm": 0.030863391235470772, "learning_rate": 3.372395833333333e-05, "loss": 0.027, "step": 1280 }, { "epoch": 1.6796875, "grad_norm": 1.657828688621521, "learning_rate": 3.2421875e-05, "loss": 0.0056, "step": 1290 }, { "epoch": 1.6927083333333335, "grad_norm": 8.683385848999023, "learning_rate": 3.111979166666667e-05, "loss": 0.2936, "step": 1300 }, { "epoch": 1.6927083333333335, "eval_accuracy": 0.9770992366412213, "eval_loss": 0.10032270848751068, "eval_runtime": 73.5538, "eval_samples_per_second": 17.81, "eval_steps_per_second": 2.23, "step": 1300 }, { "epoch": 1.7057291666666665, "grad_norm": 0.005644885823130608, "learning_rate": 2.9817708333333332e-05, "loss": 0.1009, "step": 1310 }, { "epoch": 1.71875, "grad_norm": 0.03866463154554367, "learning_rate": 2.8515625e-05, "loss": 0.0822, "step": 1320 }, { "epoch": 1.7317708333333335, "grad_norm": 0.013144961558282375, "learning_rate": 2.721354166666667e-05, "loss": 0.0686, "step": 1330 }, { "epoch": 1.7447916666666665, "grad_norm": 0.00972031056880951, "learning_rate": 2.5911458333333332e-05, "loss": 0.0346, "step": 1340 }, { "epoch": 1.7578125, "grad_norm": 0.026575949043035507, "learning_rate": 2.4609375e-05, "loss": 0.0138, "step": 1350 }, { "epoch": 1.7708333333333335, "grad_norm": 0.6429733037948608, "learning_rate": 2.3307291666666668e-05, "loss": 0.0177, "step": 1360 }, { "epoch": 1.7838541666666665, "grad_norm": 0.025338683277368546, "learning_rate": 2.2005208333333336e-05, "loss": 0.0645, "step": 1370 }, { "epoch": 1.796875, "grad_norm": 0.01729397289454937, "learning_rate": 2.0703125e-05, "loss": 0.0326, "step": 1380 }, { "epoch": 1.8098958333333335, "grad_norm": 0.015349478460848331, "learning_rate": 1.9401041666666668e-05, "loss": 0.0075, "step": 1390 }, { "epoch": 1.8229166666666665, "grad_norm": 0.6028020977973938, "learning_rate": 1.8098958333333336e-05, "loss": 0.0333, "step": 1400 }, { "epoch": 1.8229166666666665, "eval_accuracy": 0.9793893129770992, "eval_loss": 0.09348531067371368, "eval_runtime": 73.1835, "eval_samples_per_second": 17.9, "eval_steps_per_second": 2.241, "step": 1400 }, { "epoch": 1.8359375, "grad_norm": 1.0170259475708008, "learning_rate": 1.6796875e-05, "loss": 0.0235, "step": 1410 }, { "epoch": 1.8489583333333335, "grad_norm": 0.02781638689339161, "learning_rate": 1.5494791666666668e-05, "loss": 0.0928, "step": 1420 }, { "epoch": 1.8619791666666665, "grad_norm": 14.262807846069336, "learning_rate": 1.4192708333333336e-05, "loss": 0.2109, "step": 1430 }, { "epoch": 1.875, "grad_norm": 1.84883451461792, "learning_rate": 1.2890625e-05, "loss": 0.0357, "step": 1440 }, { "epoch": 1.8880208333333335, "grad_norm": 0.28587606549263, "learning_rate": 1.1588541666666668e-05, "loss": 0.0019, "step": 1450 }, { "epoch": 1.9010416666666665, "grad_norm": 0.33084961771965027, "learning_rate": 1.0286458333333334e-05, "loss": 0.043, "step": 1460 }, { "epoch": 1.9140625, "grad_norm": 0.333294153213501, "learning_rate": 8.984375e-06, "loss": 0.1937, "step": 1470 }, { "epoch": 1.9270833333333335, "grad_norm": 0.004296708852052689, "learning_rate": 7.682291666666668e-06, "loss": 0.0426, "step": 1480 }, { "epoch": 1.9401041666666665, "grad_norm": 0.0049277921207249165, "learning_rate": 6.380208333333333e-06, "loss": 0.003, "step": 1490 }, { "epoch": 1.953125, "grad_norm": 0.049785688519477844, "learning_rate": 5.078125000000001e-06, "loss": 0.0844, "step": 1500 }, { "epoch": 1.953125, "eval_accuracy": 0.9793893129770992, "eval_loss": 0.08702504634857178, "eval_runtime": 72.8723, "eval_samples_per_second": 17.977, "eval_steps_per_second": 2.251, "step": 1500 }, { "epoch": 1.9661458333333335, "grad_norm": 4.749906539916992, "learning_rate": 3.7760416666666667e-06, "loss": 0.099, "step": 1510 }, { "epoch": 1.9791666666666665, "grad_norm": 0.10631278902292252, "learning_rate": 2.473958333333333e-06, "loss": 0.0012, "step": 1520 }, { "epoch": 1.9921875, "grad_norm": 0.01599978655576706, "learning_rate": 1.1718750000000001e-06, "loss": 0.2036, "step": 1530 }, { "epoch": 2.0, "step": 1536, "total_flos": 9.520992752534323e+17, "train_loss": 0.40541269640622585, "train_runtime": 2133.8871, "train_samples_per_second": 5.757, "train_steps_per_second": 0.72 } ], "logging_steps": 10, "max_steps": 1536, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 9.520992752534323e+17, "train_batch_size": 8, "trial_name": null, "trial_params": null }