deit-ena24 / trainer_state.json
Pamreth's picture
🍻 cheers
72ef7f6 verified
{
"best_global_step": 1500,
"best_metric": 0.08702504634857178,
"best_model_checkpoint": "./deit-ena24/checkpoint-1500",
"epoch": 2.0,
"eval_steps": 100,
"global_step": 1536,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.013020833333333334,
"grad_norm": 17.389280319213867,
"learning_rate": 0.00019895833333333332,
"loss": 2.9049,
"step": 10
},
{
"epoch": 0.026041666666666668,
"grad_norm": 9.115043640136719,
"learning_rate": 0.00019765625,
"loss": 2.4518,
"step": 20
},
{
"epoch": 0.0390625,
"grad_norm": 12.339580535888672,
"learning_rate": 0.00019635416666666667,
"loss": 2.1528,
"step": 30
},
{
"epoch": 0.052083333333333336,
"grad_norm": 10.528745651245117,
"learning_rate": 0.00019505208333333335,
"loss": 1.8847,
"step": 40
},
{
"epoch": 0.06510416666666667,
"grad_norm": 13.872097969055176,
"learning_rate": 0.00019375000000000002,
"loss": 1.5077,
"step": 50
},
{
"epoch": 0.078125,
"grad_norm": 10.003462791442871,
"learning_rate": 0.0001924479166666667,
"loss": 1.6212,
"step": 60
},
{
"epoch": 0.09114583333333333,
"grad_norm": 9.745753288269043,
"learning_rate": 0.00019114583333333334,
"loss": 1.4213,
"step": 70
},
{
"epoch": 0.10416666666666667,
"grad_norm": 11.599836349487305,
"learning_rate": 0.00018984375000000002,
"loss": 1.1694,
"step": 80
},
{
"epoch": 0.1171875,
"grad_norm": 9.780190467834473,
"learning_rate": 0.0001885416666666667,
"loss": 1.2436,
"step": 90
},
{
"epoch": 0.13020833333333334,
"grad_norm": 10.261496543884277,
"learning_rate": 0.00018723958333333334,
"loss": 1.2994,
"step": 100
},
{
"epoch": 0.13020833333333334,
"eval_accuracy": 0.7091603053435115,
"eval_loss": 1.0313907861709595,
"eval_runtime": 76.1557,
"eval_samples_per_second": 17.202,
"eval_steps_per_second": 2.153,
"step": 100
},
{
"epoch": 0.14322916666666666,
"grad_norm": 4.307476043701172,
"learning_rate": 0.0001859375,
"loss": 0.9726,
"step": 110
},
{
"epoch": 0.15625,
"grad_norm": 4.482115745544434,
"learning_rate": 0.0001846354166666667,
"loss": 0.9136,
"step": 120
},
{
"epoch": 0.16927083333333334,
"grad_norm": 10.434115409851074,
"learning_rate": 0.00018333333333333334,
"loss": 1.174,
"step": 130
},
{
"epoch": 0.18229166666666666,
"grad_norm": 7.202164173126221,
"learning_rate": 0.00018203125,
"loss": 1.0398,
"step": 140
},
{
"epoch": 0.1953125,
"grad_norm": 9.057433128356934,
"learning_rate": 0.00018072916666666668,
"loss": 1.1173,
"step": 150
},
{
"epoch": 0.20833333333333334,
"grad_norm": 9.836210250854492,
"learning_rate": 0.00017942708333333333,
"loss": 1.0324,
"step": 160
},
{
"epoch": 0.22135416666666666,
"grad_norm": 10.416736602783203,
"learning_rate": 0.000178125,
"loss": 0.8376,
"step": 170
},
{
"epoch": 0.234375,
"grad_norm": 9.645381927490234,
"learning_rate": 0.00017682291666666668,
"loss": 1.0451,
"step": 180
},
{
"epoch": 0.24739583333333334,
"grad_norm": 6.324252128601074,
"learning_rate": 0.00017552083333333333,
"loss": 0.9295,
"step": 190
},
{
"epoch": 0.2604166666666667,
"grad_norm": 10.500443458557129,
"learning_rate": 0.00017434895833333332,
"loss": 0.8789,
"step": 200
},
{
"epoch": 0.2604166666666667,
"eval_accuracy": 0.832824427480916,
"eval_loss": 0.6169306635856628,
"eval_runtime": 74.0427,
"eval_samples_per_second": 17.692,
"eval_steps_per_second": 2.215,
"step": 200
},
{
"epoch": 0.2734375,
"grad_norm": 4.5985426902771,
"learning_rate": 0.000173046875,
"loss": 0.5329,
"step": 210
},
{
"epoch": 0.2864583333333333,
"grad_norm": 14.19344425201416,
"learning_rate": 0.00017174479166666667,
"loss": 0.9277,
"step": 220
},
{
"epoch": 0.2994791666666667,
"grad_norm": 14.22638988494873,
"learning_rate": 0.00017044270833333335,
"loss": 0.5978,
"step": 230
},
{
"epoch": 0.3125,
"grad_norm": 13.808385848999023,
"learning_rate": 0.00016914062500000002,
"loss": 0.9471,
"step": 240
},
{
"epoch": 0.3255208333333333,
"grad_norm": 8.194628715515137,
"learning_rate": 0.0001678385416666667,
"loss": 0.7974,
"step": 250
},
{
"epoch": 0.3385416666666667,
"grad_norm": 6.944046497344971,
"learning_rate": 0.00016653645833333334,
"loss": 0.7594,
"step": 260
},
{
"epoch": 0.3515625,
"grad_norm": 10.181632041931152,
"learning_rate": 0.00016523437500000002,
"loss": 0.6775,
"step": 270
},
{
"epoch": 0.3645833333333333,
"grad_norm": 10.24155330657959,
"learning_rate": 0.0001639322916666667,
"loss": 0.7947,
"step": 280
},
{
"epoch": 0.3776041666666667,
"grad_norm": 16.16265296936035,
"learning_rate": 0.00016263020833333334,
"loss": 0.9477,
"step": 290
},
{
"epoch": 0.390625,
"grad_norm": 6.4330854415893555,
"learning_rate": 0.000161328125,
"loss": 0.4592,
"step": 300
},
{
"epoch": 0.390625,
"eval_accuracy": 0.8297709923664122,
"eval_loss": 0.5233694911003113,
"eval_runtime": 73.7696,
"eval_samples_per_second": 17.758,
"eval_steps_per_second": 2.223,
"step": 300
},
{
"epoch": 0.4036458333333333,
"grad_norm": 12.111241340637207,
"learning_rate": 0.0001600260416666667,
"loss": 0.5299,
"step": 310
},
{
"epoch": 0.4166666666666667,
"grad_norm": 3.2816293239593506,
"learning_rate": 0.00015872395833333334,
"loss": 0.4756,
"step": 320
},
{
"epoch": 0.4296875,
"grad_norm": 7.979568004608154,
"learning_rate": 0.000157421875,
"loss": 0.7101,
"step": 330
},
{
"epoch": 0.4427083333333333,
"grad_norm": 8.652854919433594,
"learning_rate": 0.00015611979166666668,
"loss": 0.3024,
"step": 340
},
{
"epoch": 0.4557291666666667,
"grad_norm": 19.324499130249023,
"learning_rate": 0.00015481770833333333,
"loss": 0.5419,
"step": 350
},
{
"epoch": 0.46875,
"grad_norm": 9.747488021850586,
"learning_rate": 0.000153515625,
"loss": 0.6965,
"step": 360
},
{
"epoch": 0.4817708333333333,
"grad_norm": 10.455299377441406,
"learning_rate": 0.00015221354166666668,
"loss": 0.4206,
"step": 370
},
{
"epoch": 0.4947916666666667,
"grad_norm": 11.353675842285156,
"learning_rate": 0.00015091145833333333,
"loss": 0.703,
"step": 380
},
{
"epoch": 0.5078125,
"grad_norm": 4.012916564941406,
"learning_rate": 0.000149609375,
"loss": 0.3157,
"step": 390
},
{
"epoch": 0.5208333333333334,
"grad_norm": 2.673285484313965,
"learning_rate": 0.00014830729166666668,
"loss": 0.6806,
"step": 400
},
{
"epoch": 0.5208333333333334,
"eval_accuracy": 0.8488549618320611,
"eval_loss": 0.5430881381034851,
"eval_runtime": 73.216,
"eval_samples_per_second": 17.892,
"eval_steps_per_second": 2.24,
"step": 400
},
{
"epoch": 0.5338541666666666,
"grad_norm": 11.449606895446777,
"learning_rate": 0.00014700520833333332,
"loss": 0.6442,
"step": 410
},
{
"epoch": 0.546875,
"grad_norm": 4.395051956176758,
"learning_rate": 0.000145703125,
"loss": 0.4426,
"step": 420
},
{
"epoch": 0.5598958333333334,
"grad_norm": 5.8134589195251465,
"learning_rate": 0.00014440104166666667,
"loss": 0.3574,
"step": 430
},
{
"epoch": 0.5729166666666666,
"grad_norm": 20.417043685913086,
"learning_rate": 0.00014309895833333332,
"loss": 0.231,
"step": 440
},
{
"epoch": 0.5859375,
"grad_norm": 9.442773818969727,
"learning_rate": 0.000141796875,
"loss": 0.3883,
"step": 450
},
{
"epoch": 0.5989583333333334,
"grad_norm": 13.765786170959473,
"learning_rate": 0.00014049479166666667,
"loss": 1.0674,
"step": 460
},
{
"epoch": 0.6119791666666666,
"grad_norm": 2.9523134231567383,
"learning_rate": 0.00013919270833333334,
"loss": 0.4618,
"step": 470
},
{
"epoch": 0.625,
"grad_norm": 10.51352310180664,
"learning_rate": 0.00013789062500000002,
"loss": 0.4457,
"step": 480
},
{
"epoch": 0.6380208333333334,
"grad_norm": 3.431385040283203,
"learning_rate": 0.0001365885416666667,
"loss": 0.3465,
"step": 490
},
{
"epoch": 0.6510416666666666,
"grad_norm": 0.633951723575592,
"learning_rate": 0.00013528645833333334,
"loss": 0.4878,
"step": 500
},
{
"epoch": 0.6510416666666666,
"eval_accuracy": 0.8854961832061069,
"eval_loss": 0.39052021503448486,
"eval_runtime": 73.354,
"eval_samples_per_second": 17.859,
"eval_steps_per_second": 2.236,
"step": 500
},
{
"epoch": 0.6640625,
"grad_norm": 0.7576056122779846,
"learning_rate": 0.00013398437500000002,
"loss": 0.3139,
"step": 510
},
{
"epoch": 0.6770833333333334,
"grad_norm": 12.045547485351562,
"learning_rate": 0.0001326822916666667,
"loss": 0.6528,
"step": 520
},
{
"epoch": 0.6901041666666666,
"grad_norm": 11.16480827331543,
"learning_rate": 0.00013138020833333334,
"loss": 0.6615,
"step": 530
},
{
"epoch": 0.703125,
"grad_norm": 4.185828685760498,
"learning_rate": 0.000130078125,
"loss": 0.3707,
"step": 540
},
{
"epoch": 0.7161458333333334,
"grad_norm": 9.450407028198242,
"learning_rate": 0.0001287760416666667,
"loss": 0.3682,
"step": 550
},
{
"epoch": 0.7291666666666666,
"grad_norm": 13.412630081176758,
"learning_rate": 0.00012747395833333333,
"loss": 0.6444,
"step": 560
},
{
"epoch": 0.7421875,
"grad_norm": 5.66330623626709,
"learning_rate": 0.000126171875,
"loss": 0.3466,
"step": 570
},
{
"epoch": 0.7552083333333334,
"grad_norm": 6.60795259475708,
"learning_rate": 0.00012486979166666668,
"loss": 0.2802,
"step": 580
},
{
"epoch": 0.7682291666666666,
"grad_norm": 8.81129264831543,
"learning_rate": 0.00012356770833333333,
"loss": 0.2426,
"step": 590
},
{
"epoch": 0.78125,
"grad_norm": 16.469572067260742,
"learning_rate": 0.000122265625,
"loss": 0.4643,
"step": 600
},
{
"epoch": 0.78125,
"eval_accuracy": 0.9091603053435114,
"eval_loss": 0.3280966579914093,
"eval_runtime": 73.163,
"eval_samples_per_second": 17.905,
"eval_steps_per_second": 2.242,
"step": 600
},
{
"epoch": 0.7942708333333334,
"grad_norm": 0.8865923881530762,
"learning_rate": 0.00012096354166666668,
"loss": 0.1578,
"step": 610
},
{
"epoch": 0.8072916666666666,
"grad_norm": 8.116411209106445,
"learning_rate": 0.00011966145833333333,
"loss": 0.3884,
"step": 620
},
{
"epoch": 0.8203125,
"grad_norm": 9.369128227233887,
"learning_rate": 0.000118359375,
"loss": 0.2877,
"step": 630
},
{
"epoch": 0.8333333333333334,
"grad_norm": 2.700255870819092,
"learning_rate": 0.00011705729166666668,
"loss": 0.3879,
"step": 640
},
{
"epoch": 0.8463541666666666,
"grad_norm": 11.327605247497559,
"learning_rate": 0.00011575520833333334,
"loss": 0.3547,
"step": 650
},
{
"epoch": 0.859375,
"grad_norm": 13.358592987060547,
"learning_rate": 0.00011445312500000001,
"loss": 0.223,
"step": 660
},
{
"epoch": 0.8723958333333334,
"grad_norm": 1.7891099452972412,
"learning_rate": 0.00011315104166666667,
"loss": 0.2712,
"step": 670
},
{
"epoch": 0.8854166666666666,
"grad_norm": 7.728662014007568,
"learning_rate": 0.00011184895833333333,
"loss": 0.3005,
"step": 680
},
{
"epoch": 0.8984375,
"grad_norm": 0.3444841802120209,
"learning_rate": 0.00011054687500000001,
"loss": 0.2482,
"step": 690
},
{
"epoch": 0.9114583333333334,
"grad_norm": 17.376832962036133,
"learning_rate": 0.00010924479166666668,
"loss": 0.3765,
"step": 700
},
{
"epoch": 0.9114583333333334,
"eval_accuracy": 0.9290076335877863,
"eval_loss": 0.23975874483585358,
"eval_runtime": 74.0909,
"eval_samples_per_second": 17.681,
"eval_steps_per_second": 2.213,
"step": 700
},
{
"epoch": 0.9244791666666666,
"grad_norm": 10.517160415649414,
"learning_rate": 0.00010794270833333333,
"loss": 0.5821,
"step": 710
},
{
"epoch": 0.9375,
"grad_norm": 11.038665771484375,
"learning_rate": 0.000106640625,
"loss": 0.4436,
"step": 720
},
{
"epoch": 0.9505208333333334,
"grad_norm": 0.33208587765693665,
"learning_rate": 0.00010533854166666668,
"loss": 0.2146,
"step": 730
},
{
"epoch": 0.9635416666666666,
"grad_norm": 9.220067977905273,
"learning_rate": 0.00010403645833333333,
"loss": 0.3492,
"step": 740
},
{
"epoch": 0.9765625,
"grad_norm": 2.6065292358398438,
"learning_rate": 0.000102734375,
"loss": 0.1438,
"step": 750
},
{
"epoch": 0.9895833333333334,
"grad_norm": 4.513604164123535,
"learning_rate": 0.00010143229166666668,
"loss": 0.1498,
"step": 760
},
{
"epoch": 1.0026041666666667,
"grad_norm": 3.247533082962036,
"learning_rate": 0.00010013020833333334,
"loss": 0.4945,
"step": 770
},
{
"epoch": 1.015625,
"grad_norm": 0.5809522867202759,
"learning_rate": 9.8828125e-05,
"loss": 0.1109,
"step": 780
},
{
"epoch": 1.0286458333333333,
"grad_norm": 0.056700680404901505,
"learning_rate": 9.752604166666667e-05,
"loss": 0.1214,
"step": 790
},
{
"epoch": 1.0416666666666667,
"grad_norm": 4.652562618255615,
"learning_rate": 9.622395833333335e-05,
"loss": 0.1379,
"step": 800
},
{
"epoch": 1.0416666666666667,
"eval_accuracy": 0.9412213740458015,
"eval_loss": 0.1860814392566681,
"eval_runtime": 72.941,
"eval_samples_per_second": 17.96,
"eval_steps_per_second": 2.248,
"step": 800
},
{
"epoch": 1.0546875,
"grad_norm": 0.06134684756398201,
"learning_rate": 9.492187500000001e-05,
"loss": 0.2437,
"step": 810
},
{
"epoch": 1.0677083333333333,
"grad_norm": 0.16209521889686584,
"learning_rate": 9.361979166666667e-05,
"loss": 0.0196,
"step": 820
},
{
"epoch": 1.0807291666666667,
"grad_norm": 0.44997701048851013,
"learning_rate": 9.231770833333334e-05,
"loss": 0.0405,
"step": 830
},
{
"epoch": 1.09375,
"grad_norm": 0.03530073165893555,
"learning_rate": 9.1015625e-05,
"loss": 0.0271,
"step": 840
},
{
"epoch": 1.1067708333333333,
"grad_norm": 0.05656661093235016,
"learning_rate": 8.971354166666667e-05,
"loss": 0.0251,
"step": 850
},
{
"epoch": 1.1197916666666667,
"grad_norm": 0.021418265998363495,
"learning_rate": 8.841145833333334e-05,
"loss": 0.1329,
"step": 860
},
{
"epoch": 1.1328125,
"grad_norm": 0.34486091136932373,
"learning_rate": 8.7109375e-05,
"loss": 0.2791,
"step": 870
},
{
"epoch": 1.1458333333333333,
"grad_norm": 0.06410683691501617,
"learning_rate": 8.580729166666666e-05,
"loss": 0.1949,
"step": 880
},
{
"epoch": 1.1588541666666667,
"grad_norm": 6.918659687042236,
"learning_rate": 8.450520833333334e-05,
"loss": 0.1949,
"step": 890
},
{
"epoch": 1.171875,
"grad_norm": 6.987488746643066,
"learning_rate": 8.3203125e-05,
"loss": 0.1422,
"step": 900
},
{
"epoch": 1.171875,
"eval_accuracy": 0.9526717557251908,
"eval_loss": 0.16571925580501556,
"eval_runtime": 73.0507,
"eval_samples_per_second": 17.933,
"eval_steps_per_second": 2.245,
"step": 900
},
{
"epoch": 1.1848958333333333,
"grad_norm": 0.6016131043434143,
"learning_rate": 8.190104166666667e-05,
"loss": 0.1011,
"step": 910
},
{
"epoch": 1.1979166666666667,
"grad_norm": 5.640698432922363,
"learning_rate": 8.059895833333335e-05,
"loss": 0.2341,
"step": 920
},
{
"epoch": 1.2109375,
"grad_norm": 0.18673600256443024,
"learning_rate": 7.929687500000001e-05,
"loss": 0.1911,
"step": 930
},
{
"epoch": 1.2239583333333333,
"grad_norm": 0.04827206954360008,
"learning_rate": 7.799479166666667e-05,
"loss": 0.0774,
"step": 940
},
{
"epoch": 1.2369791666666667,
"grad_norm": 13.114850044250488,
"learning_rate": 7.669270833333334e-05,
"loss": 0.1671,
"step": 950
},
{
"epoch": 1.25,
"grad_norm": 9.023773193359375,
"learning_rate": 7.5390625e-05,
"loss": 0.1245,
"step": 960
},
{
"epoch": 1.2630208333333333,
"grad_norm": 0.04247788339853287,
"learning_rate": 7.408854166666667e-05,
"loss": 0.0857,
"step": 970
},
{
"epoch": 1.2760416666666667,
"grad_norm": 0.023064516484737396,
"learning_rate": 7.278645833333334e-05,
"loss": 0.0907,
"step": 980
},
{
"epoch": 1.2890625,
"grad_norm": 2.6537017822265625,
"learning_rate": 7.1484375e-05,
"loss": 0.0719,
"step": 990
},
{
"epoch": 1.3020833333333333,
"grad_norm": 11.02077865600586,
"learning_rate": 7.018229166666666e-05,
"loss": 0.2655,
"step": 1000
},
{
"epoch": 1.3020833333333333,
"eval_accuracy": 0.9557251908396946,
"eval_loss": 0.1525699943304062,
"eval_runtime": 73.7356,
"eval_samples_per_second": 17.766,
"eval_steps_per_second": 2.224,
"step": 1000
},
{
"epoch": 1.3151041666666667,
"grad_norm": 0.44301870465278625,
"learning_rate": 6.888020833333334e-05,
"loss": 0.1678,
"step": 1010
},
{
"epoch": 1.328125,
"grad_norm": 0.7671974301338196,
"learning_rate": 6.7578125e-05,
"loss": 0.0759,
"step": 1020
},
{
"epoch": 1.3411458333333333,
"grad_norm": 7.202826499938965,
"learning_rate": 6.627604166666667e-05,
"loss": 0.0838,
"step": 1030
},
{
"epoch": 1.3541666666666667,
"grad_norm": 0.1176716759800911,
"learning_rate": 6.497395833333335e-05,
"loss": 0.0988,
"step": 1040
},
{
"epoch": 1.3671875,
"grad_norm": 0.06393478810787201,
"learning_rate": 6.367187500000001e-05,
"loss": 0.0869,
"step": 1050
},
{
"epoch": 1.3802083333333333,
"grad_norm": 0.5057088732719421,
"learning_rate": 6.236979166666667e-05,
"loss": 0.0964,
"step": 1060
},
{
"epoch": 1.3932291666666667,
"grad_norm": 0.056153714656829834,
"learning_rate": 6.106770833333334e-05,
"loss": 0.0229,
"step": 1070
},
{
"epoch": 1.40625,
"grad_norm": 0.0073313964530825615,
"learning_rate": 5.9765625000000004e-05,
"loss": 0.0295,
"step": 1080
},
{
"epoch": 1.4192708333333333,
"grad_norm": 10.135377883911133,
"learning_rate": 5.8463541666666665e-05,
"loss": 0.0407,
"step": 1090
},
{
"epoch": 1.4322916666666667,
"grad_norm": 0.27722039818763733,
"learning_rate": 5.716145833333334e-05,
"loss": 0.0304,
"step": 1100
},
{
"epoch": 1.4322916666666667,
"eval_accuracy": 0.9633587786259542,
"eval_loss": 0.15782681107521057,
"eval_runtime": 73.1148,
"eval_samples_per_second": 17.917,
"eval_steps_per_second": 2.243,
"step": 1100
},
{
"epoch": 1.4453125,
"grad_norm": 10.238181114196777,
"learning_rate": 5.5859375e-05,
"loss": 0.1596,
"step": 1110
},
{
"epoch": 1.4583333333333333,
"grad_norm": 0.05249097943305969,
"learning_rate": 5.455729166666667e-05,
"loss": 0.0634,
"step": 1120
},
{
"epoch": 1.4713541666666667,
"grad_norm": 8.209336280822754,
"learning_rate": 5.3255208333333336e-05,
"loss": 0.1038,
"step": 1130
},
{
"epoch": 1.484375,
"grad_norm": 0.7781971096992493,
"learning_rate": 5.1953125000000004e-05,
"loss": 0.0557,
"step": 1140
},
{
"epoch": 1.4973958333333333,
"grad_norm": 13.152403831481934,
"learning_rate": 5.0651041666666665e-05,
"loss": 0.0969,
"step": 1150
},
{
"epoch": 1.5104166666666665,
"grad_norm": 1.389357328414917,
"learning_rate": 4.934895833333333e-05,
"loss": 0.142,
"step": 1160
},
{
"epoch": 1.5234375,
"grad_norm": 0.03525904566049576,
"learning_rate": 4.8046875e-05,
"loss": 0.1667,
"step": 1170
},
{
"epoch": 1.5364583333333335,
"grad_norm": 0.021179642528295517,
"learning_rate": 4.674479166666667e-05,
"loss": 0.0707,
"step": 1180
},
{
"epoch": 1.5494791666666665,
"grad_norm": 9.995001792907715,
"learning_rate": 4.5442708333333336e-05,
"loss": 0.0614,
"step": 1190
},
{
"epoch": 1.5625,
"grad_norm": 0.049822065979242325,
"learning_rate": 4.4140625000000004e-05,
"loss": 0.072,
"step": 1200
},
{
"epoch": 1.5625,
"eval_accuracy": 0.9679389312977099,
"eval_loss": 0.14182424545288086,
"eval_runtime": 73.4207,
"eval_samples_per_second": 17.842,
"eval_steps_per_second": 2.234,
"step": 1200
},
{
"epoch": 1.5755208333333335,
"grad_norm": 0.026322199031710625,
"learning_rate": 4.283854166666667e-05,
"loss": 0.0919,
"step": 1210
},
{
"epoch": 1.5885416666666665,
"grad_norm": 0.13556483387947083,
"learning_rate": 4.153645833333333e-05,
"loss": 0.1895,
"step": 1220
},
{
"epoch": 1.6015625,
"grad_norm": 0.02379715070128441,
"learning_rate": 4.0234375e-05,
"loss": 0.0233,
"step": 1230
},
{
"epoch": 1.6145833333333335,
"grad_norm": 0.03572675958275795,
"learning_rate": 3.893229166666667e-05,
"loss": 0.09,
"step": 1240
},
{
"epoch": 1.6276041666666665,
"grad_norm": 0.04055442661046982,
"learning_rate": 3.7630208333333336e-05,
"loss": 0.0729,
"step": 1250
},
{
"epoch": 1.640625,
"grad_norm": 12.408260345458984,
"learning_rate": 3.6328125000000004e-05,
"loss": 0.1543,
"step": 1260
},
{
"epoch": 1.6536458333333335,
"grad_norm": 0.01183232106268406,
"learning_rate": 3.502604166666667e-05,
"loss": 0.0171,
"step": 1270
},
{
"epoch": 1.6666666666666665,
"grad_norm": 0.030863391235470772,
"learning_rate": 3.372395833333333e-05,
"loss": 0.027,
"step": 1280
},
{
"epoch": 1.6796875,
"grad_norm": 1.657828688621521,
"learning_rate": 3.2421875e-05,
"loss": 0.0056,
"step": 1290
},
{
"epoch": 1.6927083333333335,
"grad_norm": 8.683385848999023,
"learning_rate": 3.111979166666667e-05,
"loss": 0.2936,
"step": 1300
},
{
"epoch": 1.6927083333333335,
"eval_accuracy": 0.9770992366412213,
"eval_loss": 0.10032270848751068,
"eval_runtime": 73.5538,
"eval_samples_per_second": 17.81,
"eval_steps_per_second": 2.23,
"step": 1300
},
{
"epoch": 1.7057291666666665,
"grad_norm": 0.005644885823130608,
"learning_rate": 2.9817708333333332e-05,
"loss": 0.1009,
"step": 1310
},
{
"epoch": 1.71875,
"grad_norm": 0.03866463154554367,
"learning_rate": 2.8515625e-05,
"loss": 0.0822,
"step": 1320
},
{
"epoch": 1.7317708333333335,
"grad_norm": 0.013144961558282375,
"learning_rate": 2.721354166666667e-05,
"loss": 0.0686,
"step": 1330
},
{
"epoch": 1.7447916666666665,
"grad_norm": 0.00972031056880951,
"learning_rate": 2.5911458333333332e-05,
"loss": 0.0346,
"step": 1340
},
{
"epoch": 1.7578125,
"grad_norm": 0.026575949043035507,
"learning_rate": 2.4609375e-05,
"loss": 0.0138,
"step": 1350
},
{
"epoch": 1.7708333333333335,
"grad_norm": 0.6429733037948608,
"learning_rate": 2.3307291666666668e-05,
"loss": 0.0177,
"step": 1360
},
{
"epoch": 1.7838541666666665,
"grad_norm": 0.025338683277368546,
"learning_rate": 2.2005208333333336e-05,
"loss": 0.0645,
"step": 1370
},
{
"epoch": 1.796875,
"grad_norm": 0.01729397289454937,
"learning_rate": 2.0703125e-05,
"loss": 0.0326,
"step": 1380
},
{
"epoch": 1.8098958333333335,
"grad_norm": 0.015349478460848331,
"learning_rate": 1.9401041666666668e-05,
"loss": 0.0075,
"step": 1390
},
{
"epoch": 1.8229166666666665,
"grad_norm": 0.6028020977973938,
"learning_rate": 1.8098958333333336e-05,
"loss": 0.0333,
"step": 1400
},
{
"epoch": 1.8229166666666665,
"eval_accuracy": 0.9793893129770992,
"eval_loss": 0.09348531067371368,
"eval_runtime": 73.1835,
"eval_samples_per_second": 17.9,
"eval_steps_per_second": 2.241,
"step": 1400
},
{
"epoch": 1.8359375,
"grad_norm": 1.0170259475708008,
"learning_rate": 1.6796875e-05,
"loss": 0.0235,
"step": 1410
},
{
"epoch": 1.8489583333333335,
"grad_norm": 0.02781638689339161,
"learning_rate": 1.5494791666666668e-05,
"loss": 0.0928,
"step": 1420
},
{
"epoch": 1.8619791666666665,
"grad_norm": 14.262807846069336,
"learning_rate": 1.4192708333333336e-05,
"loss": 0.2109,
"step": 1430
},
{
"epoch": 1.875,
"grad_norm": 1.84883451461792,
"learning_rate": 1.2890625e-05,
"loss": 0.0357,
"step": 1440
},
{
"epoch": 1.8880208333333335,
"grad_norm": 0.28587606549263,
"learning_rate": 1.1588541666666668e-05,
"loss": 0.0019,
"step": 1450
},
{
"epoch": 1.9010416666666665,
"grad_norm": 0.33084961771965027,
"learning_rate": 1.0286458333333334e-05,
"loss": 0.043,
"step": 1460
},
{
"epoch": 1.9140625,
"grad_norm": 0.333294153213501,
"learning_rate": 8.984375e-06,
"loss": 0.1937,
"step": 1470
},
{
"epoch": 1.9270833333333335,
"grad_norm": 0.004296708852052689,
"learning_rate": 7.682291666666668e-06,
"loss": 0.0426,
"step": 1480
},
{
"epoch": 1.9401041666666665,
"grad_norm": 0.0049277921207249165,
"learning_rate": 6.380208333333333e-06,
"loss": 0.003,
"step": 1490
},
{
"epoch": 1.953125,
"grad_norm": 0.049785688519477844,
"learning_rate": 5.078125000000001e-06,
"loss": 0.0844,
"step": 1500
},
{
"epoch": 1.953125,
"eval_accuracy": 0.9793893129770992,
"eval_loss": 0.08702504634857178,
"eval_runtime": 72.8723,
"eval_samples_per_second": 17.977,
"eval_steps_per_second": 2.251,
"step": 1500
},
{
"epoch": 1.9661458333333335,
"grad_norm": 4.749906539916992,
"learning_rate": 3.7760416666666667e-06,
"loss": 0.099,
"step": 1510
},
{
"epoch": 1.9791666666666665,
"grad_norm": 0.10631278902292252,
"learning_rate": 2.473958333333333e-06,
"loss": 0.0012,
"step": 1520
},
{
"epoch": 1.9921875,
"grad_norm": 0.01599978655576706,
"learning_rate": 1.1718750000000001e-06,
"loss": 0.2036,
"step": 1530
},
{
"epoch": 2.0,
"step": 1536,
"total_flos": 9.520992752534323e+17,
"train_loss": 0.40541269640622585,
"train_runtime": 2133.8871,
"train_samples_per_second": 5.757,
"train_steps_per_second": 0.72
}
],
"logging_steps": 10,
"max_steps": 1536,
"num_input_tokens_seen": 0,
"num_train_epochs": 2,
"save_steps": 100,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 9.520992752534323e+17,
"train_batch_size": 8,
"trial_name": null,
"trial_params": null
}