End of training

964caee verified over 1 year ago

20 kB

	{
	"best_metric": 0.6445224246502909,
	"best_model_checkpoint": "swin-tiny-patch4-window7-224-category-classification/checkpoint-868",
	"epoch": 9.94818652849741,
	"eval_steps": 500,
	"global_step": 960,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.10362694300518134,
	"grad_norm": 4.037997722625732,
	"learning_rate": 5.208333333333334e-06,
	"loss": 3.0145,
	"step": 10
	},
	{
	"epoch": 0.20725388601036268,
	"grad_norm": 3.5954205989837646,
	"learning_rate": 1.0416666666666668e-05,
	"loss": 2.9504,
	"step": 20
	},
	{
	"epoch": 0.31088082901554404,
	"grad_norm": 3.6831040382385254,
	"learning_rate": 1.5625e-05,
	"loss": 2.803,
	"step": 30
	},
	{
	"epoch": 0.41450777202072536,
	"grad_norm": 4.399529933929443,
	"learning_rate": 2.0833333333333336e-05,
	"loss": 2.5636,
	"step": 40
	},
	{
	"epoch": 0.5181347150259067,
	"grad_norm": 5.646263599395752,
	"learning_rate": 2.604166666666667e-05,
	"loss": 2.354,
	"step": 50
	},
	{
	"epoch": 0.6217616580310881,
	"grad_norm": 5.669042110443115,
	"learning_rate": 3.125e-05,
	"loss": 2.1137,
	"step": 60
	},
	{
	"epoch": 0.7253886010362695,
	"grad_norm": 6.388670444488525,
	"learning_rate": 3.6458333333333336e-05,
	"loss": 2.0586,
	"step": 70
	},
	{
	"epoch": 0.8290155440414507,
	"grad_norm": 4.985081672668457,
	"learning_rate": 4.166666666666667e-05,
	"loss": 1.9298,
	"step": 80
	},
	{
	"epoch": 0.9326424870466321,
	"grad_norm": 5.885165691375732,
	"learning_rate": 4.6875e-05,
	"loss": 1.89,
	"step": 90
	},
	{
	"epoch": 0.9948186528497409,
	"eval_accuracy": 0.5441042157381147,
	"eval_loss": 1.507540225982666,
	"eval_runtime": 4294.0719,
	"eval_samples_per_second": 4.845,
	"eval_steps_per_second": 0.076,
	"step": 96
	},
	{
	"epoch": 1.0362694300518134,
	"grad_norm": 6.3568572998046875,
	"learning_rate": 4.976851851851852e-05,
	"loss": 1.7875,
	"step": 100
	},
	{
	"epoch": 1.1398963730569949,
	"grad_norm": 5.888931751251221,
	"learning_rate": 4.9189814814814815e-05,
	"loss": 1.8005,
	"step": 110
	},
	{
	"epoch": 1.2435233160621761,
	"grad_norm": 5.636714458465576,
	"learning_rate": 4.8611111111111115e-05,
	"loss": 1.7211,
	"step": 120
	},
	{
	"epoch": 1.3471502590673574,
	"grad_norm": 8.701831817626953,
	"learning_rate": 4.803240740740741e-05,
	"loss": 1.7164,
	"step": 130
	},
	{
	"epoch": 1.450777202072539,
	"grad_norm": 6.59879207611084,
	"learning_rate": 4.745370370370371e-05,
	"loss": 1.6864,
	"step": 140
	},
	{
	"epoch": 1.5544041450777202,
	"grad_norm": 5.239670753479004,
	"learning_rate": 4.6875e-05,
	"loss": 1.6295,
	"step": 150
	},
	{
	"epoch": 1.6580310880829017,
	"grad_norm": 8.442557334899902,
	"learning_rate": 4.62962962962963e-05,
	"loss": 1.5609,
	"step": 160
	},
	{
	"epoch": 1.761658031088083,
	"grad_norm": 4.829947471618652,
	"learning_rate": 4.5717592592592594e-05,
	"loss": 1.6158,
	"step": 170
	},
	{
	"epoch": 1.8652849740932642,
	"grad_norm": 6.158498764038086,
	"learning_rate": 4.5138888888888894e-05,
	"loss": 1.6215,
	"step": 180
	},
	{
	"epoch": 1.9689119170984455,
	"grad_norm": 6.387746810913086,
	"learning_rate": 4.456018518518519e-05,
	"loss": 1.6059,
	"step": 190
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.5983271643512955,
	"eval_loss": 1.3102949857711792,
	"eval_runtime": 3836.7945,
	"eval_samples_per_second": 5.422,
	"eval_steps_per_second": 0.085,
	"step": 193
	},
	{
	"epoch": 2.0725388601036268,
	"grad_norm": 6.294243812561035,
	"learning_rate": 4.3981481481481486e-05,
	"loss": 1.5034,
	"step": 200
	},
	{
	"epoch": 2.1761658031088085,
	"grad_norm": 5.085219860076904,
	"learning_rate": 4.340277777777778e-05,
	"loss": 1.5468,
	"step": 210
	},
	{
	"epoch": 2.2797927461139897,
	"grad_norm": 5.5421624183654785,
	"learning_rate": 4.282407407407408e-05,
	"loss": 1.5022,
	"step": 220
	},
	{
	"epoch": 2.383419689119171,
	"grad_norm": 8.139309883117676,
	"learning_rate": 4.224537037037037e-05,
	"loss": 1.5609,
	"step": 230
	},
	{
	"epoch": 2.4870466321243523,
	"grad_norm": 6.149181842803955,
	"learning_rate": 4.166666666666667e-05,
	"loss": 1.5462,
	"step": 240
	},
	{
	"epoch": 2.5906735751295336,
	"grad_norm": 4.927513122558594,
	"learning_rate": 4.1087962962962965e-05,
	"loss": 1.4448,
	"step": 250
	},
	{
	"epoch": 2.694300518134715,
	"grad_norm": 5.6315999031066895,
	"learning_rate": 4.0509259259259265e-05,
	"loss": 1.5033,
	"step": 260
	},
	{
	"epoch": 2.7979274611398965,
	"grad_norm": 5.844498634338379,
	"learning_rate": 3.993055555555556e-05,
	"loss": 1.4713,
	"step": 270
	},
	{
	"epoch": 2.901554404145078,
	"grad_norm": 5.9281182289123535,
	"learning_rate": 3.935185185185186e-05,
	"loss": 1.4844,
	"step": 280
	},
	{
	"epoch": 2.994818652849741,
	"eval_accuracy": 0.6106811517569581,
	"eval_loss": 1.2595337629318237,
	"eval_runtime": 3906.6265,
	"eval_samples_per_second": 5.325,
	"eval_steps_per_second": 0.083,
	"step": 289
	},
	{
	"epoch": 3.005181347150259,
	"grad_norm": 5.67548942565918,
	"learning_rate": 3.877314814814815e-05,
	"loss": 1.453,
	"step": 290
	},
	{
	"epoch": 3.1088082901554404,
	"grad_norm": 5.950716495513916,
	"learning_rate": 3.8194444444444444e-05,
	"loss": 1.4132,
	"step": 300
	},
	{
	"epoch": 3.2124352331606216,
	"grad_norm": 6.033442497253418,
	"learning_rate": 3.7615740740740744e-05,
	"loss": 1.411,
	"step": 310
	},
	{
	"epoch": 3.3160621761658033,
	"grad_norm": 6.805812358856201,
	"learning_rate": 3.7037037037037037e-05,
	"loss": 1.4046,
	"step": 320
	},
	{
	"epoch": 3.4196891191709846,
	"grad_norm": 6.180249214172363,
	"learning_rate": 3.6458333333333336e-05,
	"loss": 1.4112,
	"step": 330
	},
	{
	"epoch": 3.523316062176166,
	"grad_norm": 5.689445495605469,
	"learning_rate": 3.587962962962963e-05,
	"loss": 1.4126,
	"step": 340
	},
	{
	"epoch": 3.626943005181347,
	"grad_norm": 7.714968204498291,
	"learning_rate": 3.530092592592593e-05,
	"loss": 1.4563,
	"step": 350
	},
	{
	"epoch": 3.7305699481865284,
	"grad_norm": 7.22826623916626,
	"learning_rate": 3.472222222222222e-05,
	"loss": 1.3952,
	"step": 360
	},
	{
	"epoch": 3.8341968911917097,
	"grad_norm": 6.826329231262207,
	"learning_rate": 3.414351851851852e-05,
	"loss": 1.4198,
	"step": 370
	},
	{
	"epoch": 3.937823834196891,
	"grad_norm": 6.155144691467285,
	"learning_rate": 3.3564814814814815e-05,
	"loss": 1.4392,
	"step": 380
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.6151516608181512,
	"eval_loss": 1.241403341293335,
	"eval_runtime": 3776.8643,
	"eval_samples_per_second": 5.508,
	"eval_steps_per_second": 0.086,
	"step": 386
	},
	{
	"epoch": 4.041450777202073,
	"grad_norm": 5.685715675354004,
	"learning_rate": 3.2986111111111115e-05,
	"loss": 1.3702,
	"step": 390
	},
	{
	"epoch": 4.1450777202072535,
	"grad_norm": 6.5382585525512695,
	"learning_rate": 3.240740740740741e-05,
	"loss": 1.3525,
	"step": 400
	},
	{
	"epoch": 4.248704663212435,
	"grad_norm": 5.420712947845459,
	"learning_rate": 3.182870370370371e-05,
	"loss": 1.3657,
	"step": 410
	},
	{
	"epoch": 4.352331606217617,
	"grad_norm": 5.577756881713867,
	"learning_rate": 3.125e-05,
	"loss": 1.3743,
	"step": 420
	},
	{
	"epoch": 4.455958549222798,
	"grad_norm": 6.49379301071167,
	"learning_rate": 3.06712962962963e-05,
	"loss": 1.358,
	"step": 430
	},
	{
	"epoch": 4.5595854922279795,
	"grad_norm": 5.322962284088135,
	"learning_rate": 3.0092592592592593e-05,
	"loss": 1.3334,
	"step": 440
	},
	{
	"epoch": 4.66321243523316,
	"grad_norm": 5.416570663452148,
	"learning_rate": 2.951388888888889e-05,
	"loss": 1.3498,
	"step": 450
	},
	{
	"epoch": 4.766839378238342,
	"grad_norm": 5.773409843444824,
	"learning_rate": 2.8935185185185186e-05,
	"loss": 1.3413,
	"step": 460
	},
	{
	"epoch": 4.870466321243523,
	"grad_norm": 5.400073528289795,
	"learning_rate": 2.8356481481481483e-05,
	"loss": 1.2978,
	"step": 470
	},
	{
	"epoch": 4.974093264248705,
	"grad_norm": 6.004559516906738,
	"learning_rate": 2.777777777777778e-05,
	"loss": 1.3431,
	"step": 480
	},
	{
	"epoch": 4.994818652849741,
	"eval_accuracy": 0.6285151180118252,
	"eval_loss": 1.195352554321289,
	"eval_runtime": 3677.8276,
	"eval_samples_per_second": 5.656,
	"eval_steps_per_second": 0.089,
	"step": 482
	},
	{
	"epoch": 5.077720207253886,
	"grad_norm": 6.405722141265869,
	"learning_rate": 2.7199074074074076e-05,
	"loss": 1.3108,
	"step": 490
	},
	{
	"epoch": 5.181347150259067,
	"grad_norm": 5.789535045623779,
	"learning_rate": 2.6620370370370372e-05,
	"loss": 1.2901,
	"step": 500
	},
	{
	"epoch": 5.284974093264249,
	"grad_norm": 6.413881301879883,
	"learning_rate": 2.604166666666667e-05,
	"loss": 1.2965,
	"step": 510
	},
	{
	"epoch": 5.38860103626943,
	"grad_norm": 5.42963171005249,
	"learning_rate": 2.5462962962962965e-05,
	"loss": 1.2921,
	"step": 520
	},
	{
	"epoch": 5.492227979274611,
	"grad_norm": 5.485264778137207,
	"learning_rate": 2.488425925925926e-05,
	"loss": 1.2903,
	"step": 530
	},
	{
	"epoch": 5.595854922279793,
	"grad_norm": 5.791281223297119,
	"learning_rate": 2.4305555555555558e-05,
	"loss": 1.2753,
	"step": 540
	},
	{
	"epoch": 5.699481865284974,
	"grad_norm": 5.666800498962402,
	"learning_rate": 2.3726851851851854e-05,
	"loss": 1.2826,
	"step": 550
	},
	{
	"epoch": 5.803108808290156,
	"grad_norm": 5.542099475860596,
	"learning_rate": 2.314814814814815e-05,
	"loss": 1.3549,
	"step": 560
	},
	{
	"epoch": 5.9067357512953365,
	"grad_norm": 6.228384017944336,
	"learning_rate": 2.2569444444444447e-05,
	"loss": 1.2897,
	"step": 570
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.6383694659424122,
	"eval_loss": 1.1611359119415283,
	"eval_runtime": 3648.3627,
	"eval_samples_per_second": 5.702,
	"eval_steps_per_second": 0.089,
	"step": 579
	},
	{
	"epoch": 6.010362694300518,
	"grad_norm": 6.60087776184082,
	"learning_rate": 2.1990740740740743e-05,
	"loss": 1.3194,
	"step": 580
	},
	{
	"epoch": 6.1139896373057,
	"grad_norm": 5.230093479156494,
	"learning_rate": 2.141203703703704e-05,
	"loss": 1.2622,
	"step": 590
	},
	{
	"epoch": 6.217616580310881,
	"grad_norm": 6.67712926864624,
	"learning_rate": 2.0833333333333336e-05,
	"loss": 1.2835,
	"step": 600
	},
	{
	"epoch": 6.321243523316062,
	"grad_norm": 6.0210065841674805,
	"learning_rate": 2.0254629629629632e-05,
	"loss": 1.2516,
	"step": 610
	},
	{
	"epoch": 6.424870466321243,
	"grad_norm": 5.083096981048584,
	"learning_rate": 1.967592592592593e-05,
	"loss": 1.2069,
	"step": 620
	},
	{
	"epoch": 6.528497409326425,
	"grad_norm": 6.067955493927002,
	"learning_rate": 1.9097222222222222e-05,
	"loss": 1.2808,
	"step": 630
	},
	{
	"epoch": 6.632124352331607,
	"grad_norm": 8.958367347717285,
	"learning_rate": 1.8518518518518518e-05,
	"loss": 1.2798,
	"step": 640
	},
	{
	"epoch": 6.7357512953367875,
	"grad_norm": 5.711329460144043,
	"learning_rate": 1.7939814814814815e-05,
	"loss": 1.2249,
	"step": 650
	},
	{
	"epoch": 6.839378238341969,
	"grad_norm": 5.1562957763671875,
	"learning_rate": 1.736111111111111e-05,
	"loss": 1.2413,
	"step": 660
	},
	{
	"epoch": 6.94300518134715,
	"grad_norm": 6.775362968444824,
	"learning_rate": 1.6782407407407408e-05,
	"loss": 1.2222,
	"step": 670
	},
	{
	"epoch": 6.994818652849741,
	"eval_accuracy": 0.6417343652357833,
	"eval_loss": 1.1575372219085693,
	"eval_runtime": 3709.0324,
	"eval_samples_per_second": 5.609,
	"eval_steps_per_second": 0.088,
	"step": 675
	},
	{
	"epoch": 7.046632124352332,
	"grad_norm": 6.662919998168945,
	"learning_rate": 1.6203703703703704e-05,
	"loss": 1.2678,
	"step": 680
	},
	{
	"epoch": 7.150259067357513,
	"grad_norm": 5.15730619430542,
	"learning_rate": 1.5625e-05,
	"loss": 1.2303,
	"step": 690
	},
	{
	"epoch": 7.253886010362694,
	"grad_norm": 5.7805867195129395,
	"learning_rate": 1.5046296296296297e-05,
	"loss": 1.2413,
	"step": 700
	},
	{
	"epoch": 7.357512953367876,
	"grad_norm": 7.833797454833984,
	"learning_rate": 1.4467592592592593e-05,
	"loss": 1.2475,
	"step": 710
	},
	{
	"epoch": 7.461139896373057,
	"grad_norm": 5.12682580947876,
	"learning_rate": 1.388888888888889e-05,
	"loss": 1.2079,
	"step": 720
	},
	{
	"epoch": 7.564766839378239,
	"grad_norm": 6.603540897369385,
	"learning_rate": 1.3310185185185186e-05,
	"loss": 1.2547,
	"step": 730
	},
	{
	"epoch": 7.668393782383419,
	"grad_norm": 6.611011981964111,
	"learning_rate": 1.2731481481481482e-05,
	"loss": 1.2409,
	"step": 740
	},
	{
	"epoch": 7.772020725388601,
	"grad_norm": 5.739754676818848,
	"learning_rate": 1.2152777777777779e-05,
	"loss": 1.228,
	"step": 750
	},
	{
	"epoch": 7.875647668393782,
	"grad_norm": 5.423896312713623,
	"learning_rate": 1.1574074074074075e-05,
	"loss": 1.1859,
	"step": 760
	},
	{
	"epoch": 7.979274611398964,
	"grad_norm": 5.076350212097168,
	"learning_rate": 1.0995370370370372e-05,
	"loss": 1.212,
	"step": 770
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.6421189251550257,
	"eval_loss": 1.1474467515945435,
	"eval_runtime": 3776.6533,
	"eval_samples_per_second": 5.508,
	"eval_steps_per_second": 0.086,
	"step": 772
	},
	{
	"epoch": 8.082901554404145,
	"grad_norm": 5.369143486022949,
	"learning_rate": 1.0416666666666668e-05,
	"loss": 1.1907,
	"step": 780
	},
	{
	"epoch": 8.186528497409327,
	"grad_norm": 6.046126365661621,
	"learning_rate": 9.837962962962964e-06,
	"loss": 1.1993,
	"step": 790
	},
	{
	"epoch": 8.290155440414507,
	"grad_norm": 6.894242286682129,
	"learning_rate": 9.259259259259259e-06,
	"loss": 1.2238,
	"step": 800
	},
	{
	"epoch": 8.393782383419689,
	"grad_norm": 6.160308361053467,
	"learning_rate": 8.680555555555556e-06,
	"loss": 1.2258,
	"step": 810
	},
	{
	"epoch": 8.49740932642487,
	"grad_norm": 5.83083963394165,
	"learning_rate": 8.101851851851852e-06,
	"loss": 1.1913,
	"step": 820
	},
	{
	"epoch": 8.601036269430052,
	"grad_norm": 6.659111499786377,
	"learning_rate": 7.523148148148148e-06,
	"loss": 1.1878,
	"step": 830
	},
	{
	"epoch": 8.704663212435234,
	"grad_norm": 7.118185043334961,
	"learning_rate": 6.944444444444445e-06,
	"loss": 1.1841,
	"step": 840
	},
	{
	"epoch": 8.808290155440414,
	"grad_norm": 5.696249008178711,
	"learning_rate": 6.365740740740741e-06,
	"loss": 1.1934,
	"step": 850
	},
	{
	"epoch": 8.911917098445596,
	"grad_norm": 5.1954545974731445,
	"learning_rate": 5.787037037037038e-06,
	"loss": 1.2087,
	"step": 860
	},
	{
	"epoch": 8.994818652849741,
	"eval_accuracy": 0.6445224246502909,
	"eval_loss": 1.1410062313079834,
	"eval_runtime": 3882.2074,
	"eval_samples_per_second": 5.359,
	"eval_steps_per_second": 0.084,
	"step": 868
	},
	{
	"epoch": 9.015544041450777,
	"grad_norm": 6.596940994262695,
	"learning_rate": 5.208333333333334e-06,
	"loss": 1.2113,
	"step": 870
	},
	{
	"epoch": 9.119170984455959,
	"grad_norm": 6.038557052612305,
	"learning_rate": 4.6296296296296296e-06,
	"loss": 1.1918,
	"step": 880
	},
	{
	"epoch": 9.22279792746114,
	"grad_norm": 5.016276836395264,
	"learning_rate": 4.050925925925926e-06,
	"loss": 1.2371,
	"step": 890
	},
	{
	"epoch": 9.32642487046632,
	"grad_norm": 5.792815208435059,
	"learning_rate": 3.4722222222222224e-06,
	"loss": 1.231,
	"step": 900
	},
	{
	"epoch": 9.430051813471502,
	"grad_norm": 5.179474353790283,
	"learning_rate": 2.893518518518519e-06,
	"loss": 1.19,
	"step": 910
	},
	{
	"epoch": 9.533678756476684,
	"grad_norm": 6.146459579467773,
	"learning_rate": 2.3148148148148148e-06,
	"loss": 1.1693,
	"step": 920
	},
	{
	"epoch": 9.637305699481866,
	"grad_norm": 5.89201021194458,
	"learning_rate": 1.7361111111111112e-06,
	"loss": 1.1679,
	"step": 930
	},
	{
	"epoch": 9.740932642487046,
	"grad_norm": 6.085833549499512,
	"learning_rate": 1.1574074074074074e-06,
	"loss": 1.1812,
	"step": 940
	},
	{
	"epoch": 9.844559585492227,
	"grad_norm": 5.505359172821045,
	"learning_rate": 5.787037037037037e-07,
	"loss": 1.1552,
	"step": 950
	},
	{
	"epoch": 9.94818652849741,
	"grad_norm": 6.020310878753662,
	"learning_rate": 0.0,
	"loss": 1.1897,
	"step": 960
	},
	{
	"epoch": 9.94818652849741,
	"eval_accuracy": 0.6431764649329423,
	"eval_loss": 1.1433619260787964,
	"eval_runtime": 3906.8512,
	"eval_samples_per_second": 5.325,
	"eval_steps_per_second": 0.083,
	"step": 960
	},
	{
	"epoch": 9.94818652849741,
	"step": 960,
	"total_flos": 6.10407050089078e+18,
	"train_loss": 1.447805991768837,
	"train_runtime": 79883.0648,
	"train_samples_per_second": 3.088,
	"train_steps_per_second": 0.012
	}
	],
	"logging_steps": 10,
	"max_steps": 960,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6.10407050089078e+18,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}