End of training

118cc9a verified about 1 year ago

38.2 kB

	{
	"best_metric": 0.9929411764705882,
	"best_model_checkpoint": "/media/cse/HDD/Shawon/shawon/MY DATA/VideoMAE_BdSLW60_FrameRateCorrected_withAug_100/checkpoint-13466",
	"epoch": 19.040078125,
	"eval_steps": 500,
	"global_step": 17955,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004464285714285714,
	"grad_norm": 11.12140941619873,
	"learning_rate": 2.2321428571428573e-06,
	"loss": 4.1557,
	"step": 100
	},
	{
	"epoch": 0.008928571428571428,
	"grad_norm": 10.578296661376953,
	"learning_rate": 4.464285714285715e-06,
	"loss": 4.1159,
	"step": 200
	},
	{
	"epoch": 0.013392857142857142,
	"grad_norm": 9.035299301147461,
	"learning_rate": 6.696428571428572e-06,
	"loss": 4.0848,
	"step": 300
	},
	{
	"epoch": 0.017857142857142856,
	"grad_norm": 9.214325904846191,
	"learning_rate": 8.92857142857143e-06,
	"loss": 4.0703,
	"step": 400
	},
	{
	"epoch": 0.022321428571428572,
	"grad_norm": 8.834626197814941,
	"learning_rate": 1.1160714285714287e-05,
	"loss": 4.0688,
	"step": 500
	},
	{
	"epoch": 0.026785714285714284,
	"grad_norm": 10.655806541442871,
	"learning_rate": 1.3392857142857144e-05,
	"loss": 3.8577,
	"step": 600
	},
	{
	"epoch": 0.03125,
	"grad_norm": 11.894658088684082,
	"learning_rate": 1.5625e-05,
	"loss": 3.4927,
	"step": 700
	},
	{
	"epoch": 0.03571428571428571,
	"grad_norm": 13.875555992126465,
	"learning_rate": 1.785714285714286e-05,
	"loss": 3.0699,
	"step": 800
	},
	{
	"epoch": 0.040044642857142855,
	"eval_accuracy": 0.4752941176470588,
	"eval_loss": 2.454066514968872,
	"eval_runtime": 290.1198,
	"eval_samples_per_second": 2.93,
	"eval_steps_per_second": 1.465,
	"step": 897
	},
	{
	"epoch": 1.0001004464285714,
	"grad_norm": 11.632246017456055,
	"learning_rate": 2.0089285714285717e-05,
	"loss": 2.5881,
	"step": 900
	},
	{
	"epoch": 1.0045647321428572,
	"grad_norm": 15.39003849029541,
	"learning_rate": 2.2321428571428575e-05,
	"loss": 2.2052,
	"step": 1000
	},
	{
	"epoch": 1.0090290178571428,
	"grad_norm": 17.561227798461914,
	"learning_rate": 2.455357142857143e-05,
	"loss": 1.8017,
	"step": 1100
	},
	{
	"epoch": 1.0134933035714286,
	"grad_norm": 16.368633270263672,
	"learning_rate": 2.6785714285714288e-05,
	"loss": 1.5213,
	"step": 1200
	},
	{
	"epoch": 1.0179575892857142,
	"grad_norm": 18.419261932373047,
	"learning_rate": 2.9017857142857146e-05,
	"loss": 1.1462,
	"step": 1300
	},
	{
	"epoch": 1.022421875,
	"grad_norm": 14.493526458740234,
	"learning_rate": 3.125e-05,
	"loss": 1.0545,
	"step": 1400
	},
	{
	"epoch": 1.0268861607142856,
	"grad_norm": 15.404373168945312,
	"learning_rate": 3.348214285714286e-05,
	"loss": 0.7972,
	"step": 1500
	},
	{
	"epoch": 1.0313504464285714,
	"grad_norm": 7.37654972076416,
	"learning_rate": 3.571428571428572e-05,
	"loss": 0.6743,
	"step": 1600
	},
	{
	"epoch": 1.0358147321428572,
	"grad_norm": 17.836456298828125,
	"learning_rate": 3.794642857142857e-05,
	"loss": 0.6366,
	"step": 1700
	},
	{
	"epoch": 1.0400558035714287,
	"eval_accuracy": 0.84,
	"eval_loss": 0.6831679344177246,
	"eval_runtime": 295.5183,
	"eval_samples_per_second": 2.876,
	"eval_steps_per_second": 1.438,
	"step": 1795
	},
	{
	"epoch": 2.000200892857143,
	"grad_norm": 27.33871078491211,
	"learning_rate": 4.017857142857143e-05,
	"loss": 0.6165,
	"step": 1800
	},
	{
	"epoch": 2.0046651785714285,
	"grad_norm": 1.4543864727020264,
	"learning_rate": 4.2410714285714285e-05,
	"loss": 0.4179,
	"step": 1900
	},
	{
	"epoch": 2.0091294642857145,
	"grad_norm": 7.2733659744262695,
	"learning_rate": 4.464285714285715e-05,
	"loss": 0.4156,
	"step": 2000
	},
	{
	"epoch": 2.01359375,
	"grad_norm": 21.995115280151367,
	"learning_rate": 4.6875e-05,
	"loss": 0.3666,
	"step": 2100
	},
	{
	"epoch": 2.0180580357142857,
	"grad_norm": 19.265806198120117,
	"learning_rate": 4.910714285714286e-05,
	"loss": 0.3751,
	"step": 2200
	},
	{
	"epoch": 2.0225223214285712,
	"grad_norm": 26.048490524291992,
	"learning_rate": 4.985119047619048e-05,
	"loss": 0.3401,
	"step": 2300
	},
	{
	"epoch": 2.0269866071428573,
	"grad_norm": 26.414731979370117,
	"learning_rate": 4.960317460317461e-05,
	"loss": 0.2955,
	"step": 2400
	},
	{
	"epoch": 2.031450892857143,
	"grad_norm": 17.34372901916504,
	"learning_rate": 4.9355158730158735e-05,
	"loss": 0.2859,
	"step": 2500
	},
	{
	"epoch": 2.0359151785714285,
	"grad_norm": 3.029252767562866,
	"learning_rate": 4.910714285714286e-05,
	"loss": 0.2253,
	"step": 2600
	},
	{
	"epoch": 2.0400669642857143,
	"eval_accuracy": 0.9023529411764706,
	"eval_loss": 0.3464316725730896,
	"eval_runtime": 282.6757,
	"eval_samples_per_second": 3.007,
	"eval_steps_per_second": 1.503,
	"step": 2693
	},
	{
	"epoch": 3.000301339285714,
	"grad_norm": 11.130131721496582,
	"learning_rate": 4.8859126984126984e-05,
	"loss": 0.232,
	"step": 2700
	},
	{
	"epoch": 3.004765625,
	"grad_norm": 3.47011661529541,
	"learning_rate": 4.8611111111111115e-05,
	"loss": 0.1247,
	"step": 2800
	},
	{
	"epoch": 3.0092299107142857,
	"grad_norm": 18.701496124267578,
	"learning_rate": 4.836309523809524e-05,
	"loss": 0.1293,
	"step": 2900
	},
	{
	"epoch": 3.0136941964285713,
	"grad_norm": 0.7256734371185303,
	"learning_rate": 4.811507936507937e-05,
	"loss": 0.1291,
	"step": 3000
	},
	{
	"epoch": 3.0181584821428573,
	"grad_norm": 24.983957290649414,
	"learning_rate": 4.7867063492063496e-05,
	"loss": 0.195,
	"step": 3100
	},
	{
	"epoch": 3.022622767857143,
	"grad_norm": 0.1959875524044037,
	"learning_rate": 4.761904761904762e-05,
	"loss": 0.0969,
	"step": 3200
	},
	{
	"epoch": 3.0270870535714285,
	"grad_norm": 1.1051886081695557,
	"learning_rate": 4.7371031746031745e-05,
	"loss": 0.1691,
	"step": 3300
	},
	{
	"epoch": 3.031551339285714,
	"grad_norm": 0.48205551505088806,
	"learning_rate": 4.7123015873015876e-05,
	"loss": 0.1297,
	"step": 3400
	},
	{
	"epoch": 3.036015625,
	"grad_norm": 0.8840370774269104,
	"learning_rate": 4.6875e-05,
	"loss": 0.1229,
	"step": 3500
	},
	{
	"epoch": 3.040078125,
	"eval_accuracy": 0.9647058823529412,
	"eval_loss": 0.14670781791210175,
	"eval_runtime": 285.475,
	"eval_samples_per_second": 2.977,
	"eval_steps_per_second": 1.489,
	"step": 3591
	},
	{
	"epoch": 4.000401785714286,
	"grad_norm": 0.21204273402690887,
	"learning_rate": 4.662698412698413e-05,
	"loss": 0.1337,
	"step": 3600
	},
	{
	"epoch": 4.004866071428571,
	"grad_norm": 2.2111618518829346,
	"learning_rate": 4.637896825396826e-05,
	"loss": 0.0821,
	"step": 3700
	},
	{
	"epoch": 4.009330357142857,
	"grad_norm": 2.208402395248413,
	"learning_rate": 4.613095238095239e-05,
	"loss": 0.098,
	"step": 3800
	},
	{
	"epoch": 4.0137946428571425,
	"grad_norm": 3.035139560699463,
	"learning_rate": 4.5882936507936506e-05,
	"loss": 0.0828,
	"step": 3900
	},
	{
	"epoch": 4.018258928571429,
	"grad_norm": 0.06664509326219559,
	"learning_rate": 4.563492063492064e-05,
	"loss": 0.0705,
	"step": 4000
	},
	{
	"epoch": 4.0227232142857146,
	"grad_norm": 0.049911659210920334,
	"learning_rate": 4.538690476190476e-05,
	"loss": 0.0506,
	"step": 4100
	},
	{
	"epoch": 4.0271875,
	"grad_norm": 6.9254374504089355,
	"learning_rate": 4.5138888888888894e-05,
	"loss": 0.0895,
	"step": 4200
	},
	{
	"epoch": 4.031651785714286,
	"grad_norm": 0.6636308431625366,
	"learning_rate": 4.489087301587302e-05,
	"loss": 0.0762,
	"step": 4300
	},
	{
	"epoch": 4.036116071428571,
	"grad_norm": 0.07036083936691284,
	"learning_rate": 4.464285714285715e-05,
	"loss": 0.1045,
	"step": 4400
	},
	{
	"epoch": 4.040044642857143,
	"eval_accuracy": 0.9635294117647059,
	"eval_loss": 0.1458999365568161,
	"eval_runtime": 292.1403,
	"eval_samples_per_second": 2.91,
	"eval_steps_per_second": 1.455,
	"step": 4488
	},
	{
	"epoch": 5.000502232142857,
	"grad_norm": 25.948030471801758,
	"learning_rate": 4.439484126984127e-05,
	"loss": 0.1201,
	"step": 4500
	},
	{
	"epoch": 5.0049665178571425,
	"grad_norm": 4.851236343383789,
	"learning_rate": 4.41468253968254e-05,
	"loss": 0.0751,
	"step": 4600
	},
	{
	"epoch": 5.009430803571429,
	"grad_norm": 2.069117307662964,
	"learning_rate": 4.3898809523809523e-05,
	"loss": 0.06,
	"step": 4700
	},
	{
	"epoch": 5.013895089285715,
	"grad_norm": 0.02893979474902153,
	"learning_rate": 4.3650793650793655e-05,
	"loss": 0.0583,
	"step": 4800
	},
	{
	"epoch": 5.018359375,
	"grad_norm": 38.84079360961914,
	"learning_rate": 4.340277777777778e-05,
	"loss": 0.0854,
	"step": 4900
	},
	{
	"epoch": 5.022823660714286,
	"grad_norm": 0.01713498868048191,
	"learning_rate": 4.315476190476191e-05,
	"loss": 0.1064,
	"step": 5000
	},
	{
	"epoch": 5.027287946428571,
	"grad_norm": 2.2113935947418213,
	"learning_rate": 4.290674603174603e-05,
	"loss": 0.0534,
	"step": 5100
	},
	{
	"epoch": 5.031752232142857,
	"grad_norm": 0.030846355482935905,
	"learning_rate": 4.265873015873016e-05,
	"loss": 0.0812,
	"step": 5200
	},
	{
	"epoch": 5.0362165178571425,
	"grad_norm": 63.66303253173828,
	"learning_rate": 4.2410714285714285e-05,
	"loss": 0.0631,
	"step": 5300
	},
	{
	"epoch": 5.040055803571429,
	"eval_accuracy": 0.971764705882353,
	"eval_loss": 0.13126207888126373,
	"eval_runtime": 282.9661,
	"eval_samples_per_second": 3.004,
	"eval_steps_per_second": 1.502,
	"step": 5386
	},
	{
	"epoch": 6.000602678571428,
	"grad_norm": 0.01721133291721344,
	"learning_rate": 4.2162698412698416e-05,
	"loss": 0.1066,
	"step": 5400
	},
	{
	"epoch": 6.005066964285715,
	"grad_norm": 0.06797400861978531,
	"learning_rate": 4.191468253968254e-05,
	"loss": 0.0751,
	"step": 5500
	},
	{
	"epoch": 6.00953125,
	"grad_norm": 0.22653132677078247,
	"learning_rate": 4.166666666666667e-05,
	"loss": 0.0417,
	"step": 5600
	},
	{
	"epoch": 6.013995535714286,
	"grad_norm": 0.07131924480199814,
	"learning_rate": 4.14186507936508e-05,
	"loss": 0.0158,
	"step": 5700
	},
	{
	"epoch": 6.018459821428571,
	"grad_norm": 40.63113784790039,
	"learning_rate": 4.117063492063492e-05,
	"loss": 0.0522,
	"step": 5800
	},
	{
	"epoch": 6.022924107142857,
	"grad_norm": 0.09443258494138718,
	"learning_rate": 4.0922619047619046e-05,
	"loss": 0.072,
	"step": 5900
	},
	{
	"epoch": 6.027388392857143,
	"grad_norm": 0.5265907049179077,
	"learning_rate": 4.067460317460318e-05,
	"loss": 0.0318,
	"step": 6000
	},
	{
	"epoch": 6.031852678571428,
	"grad_norm": 0.03210202232003212,
	"learning_rate": 4.04265873015873e-05,
	"loss": 0.0877,
	"step": 6100
	},
	{
	"epoch": 6.036316964285715,
	"grad_norm": 0.34825244545936584,
	"learning_rate": 4.017857142857143e-05,
	"loss": 0.0736,
	"step": 6200
	},
	{
	"epoch": 6.040066964285714,
	"eval_accuracy": 0.9635294117647059,
	"eval_loss": 0.18067213892936707,
	"eval_runtime": 285.3373,
	"eval_samples_per_second": 2.979,
	"eval_steps_per_second": 1.489,
	"step": 6284
	},
	{
	"epoch": 7.000703125,
	"grad_norm": 0.006914912257343531,
	"learning_rate": 3.993055555555556e-05,
	"loss": 0.0283,
	"step": 6300
	},
	{
	"epoch": 7.005167410714286,
	"grad_norm": 0.0338265560567379,
	"learning_rate": 3.968253968253968e-05,
	"loss": 0.0499,
	"step": 6400
	},
	{
	"epoch": 7.009631696428571,
	"grad_norm": 10.877938270568848,
	"learning_rate": 3.943452380952381e-05,
	"loss": 0.0082,
	"step": 6500
	},
	{
	"epoch": 7.014095982142857,
	"grad_norm": 0.10941223055124283,
	"learning_rate": 3.918650793650794e-05,
	"loss": 0.0657,
	"step": 6600
	},
	{
	"epoch": 7.018560267857143,
	"grad_norm": 12.054357528686523,
	"learning_rate": 3.893849206349206e-05,
	"loss": 0.0609,
	"step": 6700
	},
	{
	"epoch": 7.023024553571428,
	"grad_norm": 0.006210957653820515,
	"learning_rate": 3.8690476190476195e-05,
	"loss": 0.0486,
	"step": 6800
	},
	{
	"epoch": 7.027488839285715,
	"grad_norm": 0.013958507217466831,
	"learning_rate": 3.844246031746032e-05,
	"loss": 0.0747,
	"step": 6900
	},
	{
	"epoch": 7.031953125,
	"grad_norm": 14.515870094299316,
	"learning_rate": 3.8194444444444444e-05,
	"loss": 0.0343,
	"step": 7000
	},
	{
	"epoch": 7.036417410714286,
	"grad_norm": 0.007723964750766754,
	"learning_rate": 3.794642857142857e-05,
	"loss": 0.0673,
	"step": 7100
	},
	{
	"epoch": 7.040078125,
	"eval_accuracy": 0.9694117647058823,
	"eval_loss": 0.14643678069114685,
	"eval_runtime": 288.72,
	"eval_samples_per_second": 2.944,
	"eval_steps_per_second": 1.472,
	"step": 7182
	},
	{
	"epoch": 8.000803571428571,
	"grad_norm": 45.418617248535156,
	"learning_rate": 3.76984126984127e-05,
	"loss": 0.0476,
	"step": 7200
	},
	{
	"epoch": 8.005267857142858,
	"grad_norm": 0.008381331339478493,
	"learning_rate": 3.7450396825396824e-05,
	"loss": 0.0421,
	"step": 7300
	},
	{
	"epoch": 8.009732142857143,
	"grad_norm": 0.7666055560112,
	"learning_rate": 3.7202380952380956e-05,
	"loss": 0.0832,
	"step": 7400
	},
	{
	"epoch": 8.014196428571429,
	"grad_norm": 0.09307380765676498,
	"learning_rate": 3.695436507936508e-05,
	"loss": 0.0875,
	"step": 7500
	},
	{
	"epoch": 8.018660714285714,
	"grad_norm": 0.012713397853076458,
	"learning_rate": 3.6706349206349205e-05,
	"loss": 0.0441,
	"step": 7600
	},
	{
	"epoch": 8.023125,
	"grad_norm": 0.021006299182772636,
	"learning_rate": 3.6458333333333336e-05,
	"loss": 0.054,
	"step": 7700
	},
	{
	"epoch": 8.027589285714285,
	"grad_norm": 0.1419028341770172,
	"learning_rate": 3.621031746031746e-05,
	"loss": 0.0608,
	"step": 7800
	},
	{
	"epoch": 8.032053571428571,
	"grad_norm": 0.025018220767378807,
	"learning_rate": 3.5962301587301586e-05,
	"loss": 0.0479,
	"step": 7900
	},
	{
	"epoch": 8.036517857142858,
	"grad_norm": 0.5912023186683655,
	"learning_rate": 3.571428571428572e-05,
	"loss": 0.0239,
	"step": 8000
	},
	{
	"epoch": 8.040044642857143,
	"eval_accuracy": 0.9576470588235294,
	"eval_loss": 0.193200945854187,
	"eval_runtime": 279.9813,
	"eval_samples_per_second": 3.036,
	"eval_steps_per_second": 1.518,
	"step": 8079
	},
	{
	"epoch": 9.000904017857144,
	"grad_norm": 0.0350213348865509,
	"learning_rate": 3.546626984126984e-05,
	"loss": 0.067,
	"step": 8100
	},
	{
	"epoch": 9.005368303571428,
	"grad_norm": 2.537632465362549,
	"learning_rate": 3.521825396825397e-05,
	"loss": 0.0245,
	"step": 8200
	},
	{
	"epoch": 9.009832589285715,
	"grad_norm": 2.564781665802002,
	"learning_rate": 3.49702380952381e-05,
	"loss": 0.0262,
	"step": 8300
	},
	{
	"epoch": 9.014296875,
	"grad_norm": 0.00803827028721571,
	"learning_rate": 3.472222222222222e-05,
	"loss": 0.0559,
	"step": 8400
	},
	{
	"epoch": 9.018761160714286,
	"grad_norm": 0.005816516932100058,
	"learning_rate": 3.4474206349206354e-05,
	"loss": 0.0519,
	"step": 8500
	},
	{
	"epoch": 9.02322544642857,
	"grad_norm": 0.021420830860733986,
	"learning_rate": 3.422619047619048e-05,
	"loss": 0.032,
	"step": 8600
	},
	{
	"epoch": 9.027689732142857,
	"grad_norm": 0.028336547315120697,
	"learning_rate": 3.397817460317461e-05,
	"loss": 0.0227,
	"step": 8700
	},
	{
	"epoch": 9.032154017857144,
	"grad_norm": 0.02300655096769333,
	"learning_rate": 3.3730158730158734e-05,
	"loss": 0.0392,
	"step": 8800
	},
	{
	"epoch": 9.036618303571428,
	"grad_norm": 0.05427232384681702,
	"learning_rate": 3.348214285714286e-05,
	"loss": 0.0868,
	"step": 8900
	},
	{
	"epoch": 9.040055803571429,
	"eval_accuracy": 0.9882352941176471,
	"eval_loss": 0.05633905157446861,
	"eval_runtime": 285.433,
	"eval_samples_per_second": 2.978,
	"eval_steps_per_second": 1.489,
	"step": 8977
	},
	{
	"epoch": 10.001004464285714,
	"grad_norm": 0.0491323284804821,
	"learning_rate": 3.3234126984126983e-05,
	"loss": 0.0618,
	"step": 9000
	},
	{
	"epoch": 10.00546875,
	"grad_norm": 1.0003972053527832,
	"learning_rate": 3.2986111111111115e-05,
	"loss": 0.0202,
	"step": 9100
	},
	{
	"epoch": 10.009933035714285,
	"grad_norm": 0.00252954987809062,
	"learning_rate": 3.273809523809524e-05,
	"loss": 0.0531,
	"step": 9200
	},
	{
	"epoch": 10.014397321428572,
	"grad_norm": 9.270633697509766,
	"learning_rate": 3.249007936507937e-05,
	"loss": 0.035,
	"step": 9300
	},
	{
	"epoch": 10.018861607142858,
	"grad_norm": 0.014138671569526196,
	"learning_rate": 3.2242063492063495e-05,
	"loss": 0.0392,
	"step": 9400
	},
	{
	"epoch": 10.023325892857143,
	"grad_norm": 0.01277222577482462,
	"learning_rate": 3.199404761904762e-05,
	"loss": 0.059,
	"step": 9500
	},
	{
	"epoch": 10.02779017857143,
	"grad_norm": 0.0034905134234577417,
	"learning_rate": 3.1746031746031745e-05,
	"loss": 0.0664,
	"step": 9600
	},
	{
	"epoch": 10.032254464285714,
	"grad_norm": 0.0024051007349044085,
	"learning_rate": 3.1498015873015876e-05,
	"loss": 0.0286,
	"step": 9700
	},
	{
	"epoch": 10.03671875,
	"grad_norm": 0.002095526549965143,
	"learning_rate": 3.125e-05,
	"loss": 0.0016,
	"step": 9800
	},
	{
	"epoch": 10.040066964285714,
	"eval_accuracy": 0.9776470588235294,
	"eval_loss": 0.08437661826610565,
	"eval_runtime": 280.7764,
	"eval_samples_per_second": 3.027,
	"eval_steps_per_second": 1.514,
	"step": 9875
	},
	{
	"epoch": 11.001104910714286,
	"grad_norm": 0.0019545548129826784,
	"learning_rate": 3.100198412698413e-05,
	"loss": 0.0109,
	"step": 9900
	},
	{
	"epoch": 11.00556919642857,
	"grad_norm": 0.005866718012839556,
	"learning_rate": 3.075396825396826e-05,
	"loss": 0.0479,
	"step": 10000
	},
	{
	"epoch": 11.010033482142857,
	"grad_norm": 0.012244959361851215,
	"learning_rate": 3.0505952380952385e-05,
	"loss": 0.0116,
	"step": 10100
	},
	{
	"epoch": 11.014497767857144,
	"grad_norm": 0.004522031173110008,
	"learning_rate": 3.0257936507936506e-05,
	"loss": 0.025,
	"step": 10200
	},
	{
	"epoch": 11.018962053571428,
	"grad_norm": 0.010159791447222233,
	"learning_rate": 3.0009920634920634e-05,
	"loss": 0.0036,
	"step": 10300
	},
	{
	"epoch": 11.023426339285715,
	"grad_norm": 0.40824609994888306,
	"learning_rate": 2.9761904761904762e-05,
	"loss": 0.0933,
	"step": 10400
	},
	{
	"epoch": 11.027890625,
	"grad_norm": 0.11058317124843597,
	"learning_rate": 2.951388888888889e-05,
	"loss": 0.0161,
	"step": 10500
	},
	{
	"epoch": 11.032354910714286,
	"grad_norm": 1.2187433242797852,
	"learning_rate": 2.9265873015873018e-05,
	"loss": 0.0329,
	"step": 10600
	},
	{
	"epoch": 11.03681919642857,
	"grad_norm": 0.020026879385113716,
	"learning_rate": 2.9017857142857146e-05,
	"loss": 0.0318,
	"step": 10700
	},
	{
	"epoch": 11.040078125,
	"eval_accuracy": 0.9752941176470589,
	"eval_loss": 0.11233757436275482,
	"eval_runtime": 279.6949,
	"eval_samples_per_second": 3.039,
	"eval_steps_per_second": 1.52,
	"step": 10773
	},
	{
	"epoch": 12.001205357142856,
	"grad_norm": 0.004233605694025755,
	"learning_rate": 2.876984126984127e-05,
	"loss": 0.0145,
	"step": 10800
	},
	{
	"epoch": 12.005669642857143,
	"grad_norm": 0.0020020680967718363,
	"learning_rate": 2.8521825396825395e-05,
	"loss": 0.0022,
	"step": 10900
	},
	{
	"epoch": 12.01013392857143,
	"grad_norm": 0.0010592287871986628,
	"learning_rate": 2.8273809523809523e-05,
	"loss": 0.0029,
	"step": 11000
	},
	{
	"epoch": 12.014598214285714,
	"grad_norm": 0.01872986927628517,
	"learning_rate": 2.802579365079365e-05,
	"loss": 0.0352,
	"step": 11100
	},
	{
	"epoch": 12.0190625,
	"grad_norm": 0.05156349390745163,
	"learning_rate": 2.777777777777778e-05,
	"loss": 0.0047,
	"step": 11200
	},
	{
	"epoch": 12.023526785714285,
	"grad_norm": 0.00894691701978445,
	"learning_rate": 2.7529761904761907e-05,
	"loss": 0.0303,
	"step": 11300
	},
	{
	"epoch": 12.027991071428572,
	"grad_norm": 0.004200028255581856,
	"learning_rate": 2.7281746031746032e-05,
	"loss": 0.0782,
	"step": 11400
	},
	{
	"epoch": 12.032455357142856,
	"grad_norm": 0.008372528478503227,
	"learning_rate": 2.703373015873016e-05,
	"loss": 0.0154,
	"step": 11500
	},
	{
	"epoch": 12.036919642857143,
	"grad_norm": 0.010021534748375416,
	"learning_rate": 2.6785714285714288e-05,
	"loss": 0.0144,
	"step": 11600
	},
	{
	"epoch": 12.040044642857143,
	"eval_accuracy": 0.9894117647058823,
	"eval_loss": 0.04987098649144173,
	"eval_runtime": 331.781,
	"eval_samples_per_second": 2.562,
	"eval_steps_per_second": 1.281,
	"step": 11670
	},
	{
	"epoch": 13.001305803571428,
	"grad_norm": 0.3831511437892914,
	"learning_rate": 2.6537698412698416e-05,
	"loss": 0.0175,
	"step": 11700
	},
	{
	"epoch": 13.005770089285715,
	"grad_norm": 0.0010712681105360389,
	"learning_rate": 2.628968253968254e-05,
	"loss": 0.0281,
	"step": 11800
	},
	{
	"epoch": 13.010234375,
	"grad_norm": 0.004961916245520115,
	"learning_rate": 2.604166666666667e-05,
	"loss": 0.0162,
	"step": 11900
	},
	{
	"epoch": 13.014698660714286,
	"grad_norm": 0.3577312231063843,
	"learning_rate": 2.5793650793650796e-05,
	"loss": 0.0133,
	"step": 12000
	},
	{
	"epoch": 13.01916294642857,
	"grad_norm": 0.0016846248181536794,
	"learning_rate": 2.554563492063492e-05,
	"loss": 0.0456,
	"step": 12100
	},
	{
	"epoch": 13.023627232142857,
	"grad_norm": 0.005252454895526171,
	"learning_rate": 2.529761904761905e-05,
	"loss": 0.0043,
	"step": 12200
	},
	{
	"epoch": 13.028091517857144,
	"grad_norm": 65.35294342041016,
	"learning_rate": 2.5049603174603177e-05,
	"loss": 0.0248,
	"step": 12300
	},
	{
	"epoch": 13.032555803571428,
	"grad_norm": 0.0010413563577458262,
	"learning_rate": 2.4801587301587305e-05,
	"loss": 0.033,
	"step": 12400
	},
	{
	"epoch": 13.037020089285715,
	"grad_norm": 28.086708068847656,
	"learning_rate": 2.455357142857143e-05,
	"loss": 0.0028,
	"step": 12500
	},
	{
	"epoch": 13.040055803571429,
	"eval_accuracy": 0.9870588235294118,
	"eval_loss": 0.08093971014022827,
	"eval_runtime": 287.2538,
	"eval_samples_per_second": 2.959,
	"eval_steps_per_second": 1.48,
	"step": 12568
	},
	{
	"epoch": 14.00140625,
	"grad_norm": 0.011327456682920456,
	"learning_rate": 2.4305555555555558e-05,
	"loss": 0.0203,
	"step": 12600
	},
	{
	"epoch": 14.005870535714285,
	"grad_norm": 0.006360394414514303,
	"learning_rate": 2.4057539682539686e-05,
	"loss": 0.0009,
	"step": 12700
	},
	{
	"epoch": 14.010334821428572,
	"grad_norm": 1.3321506977081299,
	"learning_rate": 2.380952380952381e-05,
	"loss": 0.0186,
	"step": 12800
	},
	{
	"epoch": 14.014799107142856,
	"grad_norm": 0.0009386364254169166,
	"learning_rate": 2.3561507936507938e-05,
	"loss": 0.0048,
	"step": 12900
	},
	{
	"epoch": 14.019263392857143,
	"grad_norm": 0.0016534485621377826,
	"learning_rate": 2.3313492063492066e-05,
	"loss": 0.037,
	"step": 13000
	},
	{
	"epoch": 14.02372767857143,
	"grad_norm": 0.001421699533239007,
	"learning_rate": 2.3065476190476194e-05,
	"loss": 0.0111,
	"step": 13100
	},
	{
	"epoch": 14.028191964285714,
	"grad_norm": 0.0014466221909970045,
	"learning_rate": 2.281746031746032e-05,
	"loss": 0.0169,
	"step": 13200
	},
	{
	"epoch": 14.03265625,
	"grad_norm": 0.0036468463949859142,
	"learning_rate": 2.2569444444444447e-05,
	"loss": 0.019,
	"step": 13300
	},
	{
	"epoch": 14.037120535714285,
	"grad_norm": 0.0012320175301283598,
	"learning_rate": 2.2321428571428575e-05,
	"loss": 0.0074,
	"step": 13400
	},
	{
	"epoch": 14.040066964285714,
	"eval_accuracy": 0.9929411764705882,
	"eval_loss": 0.045501772314310074,
	"eval_runtime": 285.3107,
	"eval_samples_per_second": 2.979,
	"eval_steps_per_second": 1.49,
	"step": 13466
	},
	{
	"epoch": 15.00150669642857,
	"grad_norm": 0.0006422046571969986,
	"learning_rate": 2.20734126984127e-05,
	"loss": 0.0202,
	"step": 13500
	},
	{
	"epoch": 15.005970982142857,
	"grad_norm": 0.0008420124650001526,
	"learning_rate": 2.1825396825396827e-05,
	"loss": 0.0116,
	"step": 13600
	},
	{
	"epoch": 15.010435267857142,
	"grad_norm": 0.018089979887008667,
	"learning_rate": 2.1577380952380955e-05,
	"loss": 0.0099,
	"step": 13700
	},
	{
	"epoch": 15.014899553571428,
	"grad_norm": 0.0031337908003479242,
	"learning_rate": 2.132936507936508e-05,
	"loss": 0.0566,
	"step": 13800
	},
	{
	"epoch": 15.019363839285715,
	"grad_norm": 0.0016157528152689338,
	"learning_rate": 2.1081349206349208e-05,
	"loss": 0.0212,
	"step": 13900
	},
	{
	"epoch": 15.023828125,
	"grad_norm": 0.01456926204264164,
	"learning_rate": 2.0833333333333336e-05,
	"loss": 0.0003,
	"step": 14000
	},
	{
	"epoch": 15.028292410714286,
	"grad_norm": 0.001924099400639534,
	"learning_rate": 2.058531746031746e-05,
	"loss": 0.0149,
	"step": 14100
	},
	{
	"epoch": 15.03275669642857,
	"grad_norm": 0.0008741599158383906,
	"learning_rate": 2.033730158730159e-05,
	"loss": 0.0168,
	"step": 14200
	},
	{
	"epoch": 15.037220982142857,
	"grad_norm": 0.06954433768987656,
	"learning_rate": 2.0089285714285717e-05,
	"loss": 0.0002,
	"step": 14300
	},
	{
	"epoch": 15.040078125,
	"eval_accuracy": 0.9905882352941177,
	"eval_loss": 0.058066971600055695,
	"eval_runtime": 289.1743,
	"eval_samples_per_second": 2.939,
	"eval_steps_per_second": 1.47,
	"step": 14364
	},
	{
	"epoch": 16.001607142857143,
	"grad_norm": 0.0014486366417258978,
	"learning_rate": 1.984126984126984e-05,
	"loss": 0.0063,
	"step": 14400
	},
	{
	"epoch": 16.006071428571428,
	"grad_norm": 0.0007301854784600437,
	"learning_rate": 1.959325396825397e-05,
	"loss": 0.0186,
	"step": 14500
	},
	{
	"epoch": 16.010535714285716,
	"grad_norm": 0.003457231679931283,
	"learning_rate": 1.9345238095238097e-05,
	"loss": 0.0236,
	"step": 14600
	},
	{
	"epoch": 16.015,
	"grad_norm": 0.005807195790112019,
	"learning_rate": 1.9097222222222222e-05,
	"loss": 0.0183,
	"step": 14700
	},
	{
	"epoch": 16.019464285714285,
	"grad_norm": 0.002843959955498576,
	"learning_rate": 1.884920634920635e-05,
	"loss": 0.0242,
	"step": 14800
	},
	{
	"epoch": 16.02392857142857,
	"grad_norm": 0.37613585591316223,
	"learning_rate": 1.8601190476190478e-05,
	"loss": 0.0101,
	"step": 14900
	},
	{
	"epoch": 16.028392857142858,
	"grad_norm": 0.0005575509858317673,
	"learning_rate": 1.8353174603174602e-05,
	"loss": 0.0109,
	"step": 15000
	},
	{
	"epoch": 16.032857142857143,
	"grad_norm": 0.0006386680179275572,
	"learning_rate": 1.810515873015873e-05,
	"loss": 0.0013,
	"step": 15100
	},
	{
	"epoch": 16.037321428571428,
	"grad_norm": 0.0010088573908433318,
	"learning_rate": 1.785714285714286e-05,
	"loss": 0.0077,
	"step": 15200
	},
	{
	"epoch": 16.040044642857143,
	"eval_accuracy": 0.9894117647058823,
	"eval_loss": 0.05021252483129501,
	"eval_runtime": 284.0094,
	"eval_samples_per_second": 2.993,
	"eval_steps_per_second": 1.496,
	"step": 15261
	},
	{
	"epoch": 17.001707589285715,
	"grad_norm": 0.0006336846854537725,
	"learning_rate": 1.7609126984126986e-05,
	"loss": 0.0212,
	"step": 15300
	},
	{
	"epoch": 17.006171875,
	"grad_norm": 0.0005883209523744881,
	"learning_rate": 1.736111111111111e-05,
	"loss": 0.0095,
	"step": 15400
	},
	{
	"epoch": 17.010636160714284,
	"grad_norm": 0.0021267228294163942,
	"learning_rate": 1.711309523809524e-05,
	"loss": 0.0113,
	"step": 15500
	},
	{
	"epoch": 17.015100446428573,
	"grad_norm": 0.0009908992797136307,
	"learning_rate": 1.6865079365079367e-05,
	"loss": 0.0118,
	"step": 15600
	},
	{
	"epoch": 17.019564732142857,
	"grad_norm": 0.000644190120510757,
	"learning_rate": 1.6617063492063492e-05,
	"loss": 0.0007,
	"step": 15700
	},
	{
	"epoch": 17.024029017857142,
	"grad_norm": 0.0005113797378726304,
	"learning_rate": 1.636904761904762e-05,
	"loss": 0.01,
	"step": 15800
	},
	{
	"epoch": 17.02849330357143,
	"grad_norm": 0.0008760132477618754,
	"learning_rate": 1.6121031746031748e-05,
	"loss": 0.0026,
	"step": 15900
	},
	{
	"epoch": 17.032957589285715,
	"grad_norm": 0.00030510194483213127,
	"learning_rate": 1.5873015873015872e-05,
	"loss": 0.0015,
	"step": 16000
	},
	{
	"epoch": 17.037421875,
	"grad_norm": 0.0004963899846188724,
	"learning_rate": 1.5625e-05,
	"loss": 0.0005,
	"step": 16100
	},
	{
	"epoch": 17.040055803571427,
	"eval_accuracy": 0.9929411764705882,
	"eval_loss": 0.04069099575281143,
	"eval_runtime": 285.9614,
	"eval_samples_per_second": 2.972,
	"eval_steps_per_second": 1.486,
	"step": 16159
	},
	{
	"epoch": 18.001808035714287,
	"grad_norm": 0.0015891814837232232,
	"learning_rate": 1.537698412698413e-05,
	"loss": 0.0376,
	"step": 16200
	},
	{
	"epoch": 18.006272321428572,
	"grad_norm": 0.008500500582158566,
	"learning_rate": 1.5128968253968253e-05,
	"loss": 0.0203,
	"step": 16300
	},
	{
	"epoch": 18.010736607142857,
	"grad_norm": 0.0030595629941672087,
	"learning_rate": 1.4880952380952381e-05,
	"loss": 0.0042,
	"step": 16400
	},
	{
	"epoch": 18.01520089285714,
	"grad_norm": 1.0810060501098633,
	"learning_rate": 1.4632936507936509e-05,
	"loss": 0.017,
	"step": 16500
	},
	{
	"epoch": 18.01966517857143,
	"grad_norm": 0.0005325720412656665,
	"learning_rate": 1.4384920634920635e-05,
	"loss": 0.0036,
	"step": 16600
	},
	{
	"epoch": 18.024129464285714,
	"grad_norm": 0.0014920306857675314,
	"learning_rate": 1.4136904761904762e-05,
	"loss": 0.0236,
	"step": 16700
	},
	{
	"epoch": 18.02859375,
	"grad_norm": 0.00048302882350981236,
	"learning_rate": 1.388888888888889e-05,
	"loss": 0.0127,
	"step": 16800
	},
	{
	"epoch": 18.033058035714287,
	"grad_norm": 0.002715888200327754,
	"learning_rate": 1.3640873015873016e-05,
	"loss": 0.0146,
	"step": 16900
	},
	{
	"epoch": 18.037522321428572,
	"grad_norm": 0.0004213691863697022,
	"learning_rate": 1.3392857142857144e-05,
	"loss": 0.0004,
	"step": 17000
	},
	{
	"epoch": 18.040066964285714,
	"eval_accuracy": 0.9905882352941177,
	"eval_loss": 0.05496314540505409,
	"eval_runtime": 318.6642,
	"eval_samples_per_second": 2.667,
	"eval_steps_per_second": 1.334,
	"step": 17057
	},
	{
	"epoch": 19.001908482142856,
	"grad_norm": 0.00044045469257980585,
	"learning_rate": 1.314484126984127e-05,
	"loss": 0.0143,
	"step": 17100
	},
	{
	"epoch": 19.006372767857144,
	"grad_norm": 0.0004946400295011699,
	"learning_rate": 1.2896825396825398e-05,
	"loss": 0.0002,
	"step": 17200
	},
	{
	"epoch": 19.01083705357143,
	"grad_norm": 0.014897634275257587,
	"learning_rate": 1.2648809523809524e-05,
	"loss": 0.0011,
	"step": 17300
	},
	{
	"epoch": 19.015301339285713,
	"grad_norm": 0.015875551849603653,
	"learning_rate": 1.2400793650793652e-05,
	"loss": 0.0007,
	"step": 17400
	},
	{
	"epoch": 19.019765625,
	"grad_norm": 0.0004391854163259268,
	"learning_rate": 1.2152777777777779e-05,
	"loss": 0.0068,
	"step": 17500
	},
	{
	"epoch": 19.024229910714286,
	"grad_norm": 0.00046034177648834884,
	"learning_rate": 1.1904761904761905e-05,
	"loss": 0.0001,
	"step": 17600
	},
	{
	"epoch": 19.02869419642857,
	"grad_norm": 0.0017288514645770192,
	"learning_rate": 1.1656746031746033e-05,
	"loss": 0.0001,
	"step": 17700
	},
	{
	"epoch": 19.033158482142856,
	"grad_norm": 0.0026627290062606335,
	"learning_rate": 1.140873015873016e-05,
	"loss": 0.0001,
	"step": 17800
	},
	{
	"epoch": 19.037622767857144,
	"grad_norm": 0.0004681396530941129,
	"learning_rate": 1.1160714285714287e-05,
	"loss": 0.0001,
	"step": 17900
	},
	{
	"epoch": 19.040078125,
	"eval_accuracy": 0.9929411764705882,
	"eval_loss": 0.05834496021270752,
	"eval_runtime": 239.7594,
	"eval_samples_per_second": 3.545,
	"eval_steps_per_second": 1.773,
	"step": 17955
	},
	{
	"epoch": 19.040078125,
	"step": 17955,
	"total_flos": 1.7905236367909847e+20,
	"train_loss": 0.295465733557037,
	"train_runtime": 68646.4816,
	"train_samples_per_second": 2.61,
	"train_steps_per_second": 0.326
	},
	{
	"epoch": 19.040078125,
	"eval_accuracy": 0.9929411764705882,
	"eval_loss": 0.04550177976489067,
	"eval_runtime": 230.0122,
	"eval_samples_per_second": 3.695,
	"eval_steps_per_second": 1.848,
	"step": 17955
	},
	{
	"epoch": 19.040078125,
	"eval_accuracy": 0.8973354231974922,
	"eval_loss": 0.5587517619132996,
	"eval_runtime": 352.6874,
	"eval_samples_per_second": 3.618,
	"eval_steps_per_second": 1.809,
	"step": 17955
	}
	],
	"logging_steps": 100,
	"max_steps": 22400,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 500,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.7905236367909847e+20,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}