End of training

Browse files

Files changed (4) hide show

README.md +2 -2
all_results.json +8 -0
test_results.json +8 -0
trainer_state.json +1502 -0

README.md CHANGED Viewed

@@ -18,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MCG-NJU/videomae-base](https://huggingface.co/MCG-NJU/videomae-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0583
-- Accuracy: 0.9929
 ## Model description

 This model is a fine-tuned version of [MCG-NJU/videomae-base](https://huggingface.co/MCG-NJU/videomae-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5588
+- Accuracy: 0.8973
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 19.040078125,
+    "eval_accuracy": 0.8973354231974922,
+    "eval_loss": 0.5587517619132996,
+    "eval_runtime": 352.6874,
+    "eval_samples_per_second": 3.618,
+    "eval_steps_per_second": 1.809
+}

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 19.040078125,
+    "eval_accuracy": 0.8973354231974922,
+    "eval_loss": 0.5587517619132996,
+    "eval_runtime": 352.6874,
+    "eval_samples_per_second": 3.618,
+    "eval_steps_per_second": 1.809
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1502 @@

+{
+  "best_metric": 0.9929411764705882,
+  "best_model_checkpoint": "/media/cse/HDD/Shawon/shawon/MY DATA/VideoMAE_BdSLW60_FrameRateCorrected_withAug_100/checkpoint-13466",
+  "epoch": 19.040078125,
+  "eval_steps": 500,
+  "global_step": 17955,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004464285714285714,
+      "grad_norm": 11.12140941619873,
+      "learning_rate": 2.2321428571428573e-06,
+      "loss": 4.1557,
+      "step": 100
+    },
+    {
+      "epoch": 0.008928571428571428,
+      "grad_norm": 10.578296661376953,
+      "learning_rate": 4.464285714285715e-06,
+      "loss": 4.1159,
+      "step": 200
+    },
+    {
+      "epoch": 0.013392857142857142,
+      "grad_norm": 9.035299301147461,
+      "learning_rate": 6.696428571428572e-06,
+      "loss": 4.0848,
+      "step": 300
+    },
+    {
+      "epoch": 0.017857142857142856,
+      "grad_norm": 9.214325904846191,
+      "learning_rate": 8.92857142857143e-06,
+      "loss": 4.0703,
+      "step": 400
+    },
+    {
+      "epoch": 0.022321428571428572,
+      "grad_norm": 8.834626197814941,
+      "learning_rate": 1.1160714285714287e-05,
+      "loss": 4.0688,
+      "step": 500
+    },
+    {
+      "epoch": 0.026785714285714284,
+      "grad_norm": 10.655806541442871,
+      "learning_rate": 1.3392857142857144e-05,
+      "loss": 3.8577,
+      "step": 600
+    },
+    {
+      "epoch": 0.03125,
+      "grad_norm": 11.894658088684082,
+      "learning_rate": 1.5625e-05,
+      "loss": 3.4927,
+      "step": 700
+    },
+    {
+      "epoch": 0.03571428571428571,
+      "grad_norm": 13.875555992126465,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 3.0699,
+      "step": 800
+    },
+    {
+      "epoch": 0.040044642857142855,
+      "eval_accuracy": 0.4752941176470588,
+      "eval_loss": 2.454066514968872,
+      "eval_runtime": 290.1198,
+      "eval_samples_per_second": 2.93,
+      "eval_steps_per_second": 1.465,
+      "step": 897
+    },
+    {
+      "epoch": 1.0001004464285714,
+      "grad_norm": 11.632246017456055,
+      "learning_rate": 2.0089285714285717e-05,
+      "loss": 2.5881,
+      "step": 900
+    },
+    {
+      "epoch": 1.0045647321428572,
+      "grad_norm": 15.39003849029541,
+      "learning_rate": 2.2321428571428575e-05,
+      "loss": 2.2052,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0090290178571428,
+      "grad_norm": 17.561227798461914,
+      "learning_rate": 2.455357142857143e-05,
+      "loss": 1.8017,
+      "step": 1100
+    },
+    {
+      "epoch": 1.0134933035714286,
+      "grad_norm": 16.368633270263672,
+      "learning_rate": 2.6785714285714288e-05,
+      "loss": 1.5213,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0179575892857142,
+      "grad_norm": 18.419261932373047,
+      "learning_rate": 2.9017857142857146e-05,
+      "loss": 1.1462,
+      "step": 1300
+    },
+    {
+      "epoch": 1.022421875,
+      "grad_norm": 14.493526458740234,
+      "learning_rate": 3.125e-05,
+      "loss": 1.0545,
+      "step": 1400
+    },
+    {
+      "epoch": 1.0268861607142856,
+      "grad_norm": 15.404373168945312,
+      "learning_rate": 3.348214285714286e-05,
+      "loss": 0.7972,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0313504464285714,
+      "grad_norm": 7.37654972076416,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.6743,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0358147321428572,
+      "grad_norm": 17.836456298828125,
+      "learning_rate": 3.794642857142857e-05,
+      "loss": 0.6366,
+      "step": 1700
+    },
+    {
+      "epoch": 1.0400558035714287,
+      "eval_accuracy": 0.84,
+      "eval_loss": 0.6831679344177246,
+      "eval_runtime": 295.5183,
+      "eval_samples_per_second": 2.876,
+      "eval_steps_per_second": 1.438,
+      "step": 1795
+    },
+    {
+      "epoch": 2.000200892857143,
+      "grad_norm": 27.33871078491211,
+      "learning_rate": 4.017857142857143e-05,
+      "loss": 0.6165,
+      "step": 1800
+    },
+    {
+      "epoch": 2.0046651785714285,
+      "grad_norm": 1.4543864727020264,
+      "learning_rate": 4.2410714285714285e-05,
+      "loss": 0.4179,
+      "step": 1900
+    },
+    {
+      "epoch": 2.0091294642857145,
+      "grad_norm": 7.2733659744262695,
+      "learning_rate": 4.464285714285715e-05,
+      "loss": 0.4156,
+      "step": 2000
+    },
+    {
+      "epoch": 2.01359375,
+      "grad_norm": 21.995115280151367,
+      "learning_rate": 4.6875e-05,
+      "loss": 0.3666,
+      "step": 2100
+    },
+    {
+      "epoch": 2.0180580357142857,
+      "grad_norm": 19.265806198120117,
+      "learning_rate": 4.910714285714286e-05,
+      "loss": 0.3751,
+      "step": 2200
+    },
+    {
+      "epoch": 2.0225223214285712,
+      "grad_norm": 26.048490524291992,
+      "learning_rate": 4.985119047619048e-05,
+      "loss": 0.3401,
+      "step": 2300
+    },
+    {
+      "epoch": 2.0269866071428573,
+      "grad_norm": 26.414731979370117,
+      "learning_rate": 4.960317460317461e-05,
+      "loss": 0.2955,
+      "step": 2400
+    },
+    {
+      "epoch": 2.031450892857143,
+      "grad_norm": 17.34372901916504,
+      "learning_rate": 4.9355158730158735e-05,
+      "loss": 0.2859,
+      "step": 2500
+    },
+    {
+      "epoch": 2.0359151785714285,
+      "grad_norm": 3.029252767562866,
+      "learning_rate": 4.910714285714286e-05,
+      "loss": 0.2253,
+      "step": 2600
+    },
+    {
+      "epoch": 2.0400669642857143,
+      "eval_accuracy": 0.9023529411764706,
+      "eval_loss": 0.3464316725730896,
+      "eval_runtime": 282.6757,
+      "eval_samples_per_second": 3.007,
+      "eval_steps_per_second": 1.503,
+      "step": 2693
+    },
+    {
+      "epoch": 3.000301339285714,
+      "grad_norm": 11.130131721496582,
+      "learning_rate": 4.8859126984126984e-05,
+      "loss": 0.232,
+      "step": 2700
+    },
+    {
+      "epoch": 3.004765625,
+      "grad_norm": 3.47011661529541,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 0.1247,
+      "step": 2800
+    },
+    {
+      "epoch": 3.0092299107142857,
+      "grad_norm": 18.701496124267578,
+      "learning_rate": 4.836309523809524e-05,
+      "loss": 0.1293,
+      "step": 2900
+    },
+    {
+      "epoch": 3.0136941964285713,
+      "grad_norm": 0.7256734371185303,
+      "learning_rate": 4.811507936507937e-05,
+      "loss": 0.1291,
+      "step": 3000
+    },
+    {
+      "epoch": 3.0181584821428573,
+      "grad_norm": 24.983957290649414,
+      "learning_rate": 4.7867063492063496e-05,
+      "loss": 0.195,
+      "step": 3100
+    },
+    {
+      "epoch": 3.022622767857143,
+      "grad_norm": 0.1959875524044037,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 0.0969,
+      "step": 3200
+    },
+    {
+      "epoch": 3.0270870535714285,
+      "grad_norm": 1.1051886081695557,
+      "learning_rate": 4.7371031746031745e-05,
+      "loss": 0.1691,
+      "step": 3300
+    },
+    {
+      "epoch": 3.031551339285714,
+      "grad_norm": 0.48205551505088806,
+      "learning_rate": 4.7123015873015876e-05,
+      "loss": 0.1297,
+      "step": 3400
+    },
+    {
+      "epoch": 3.036015625,
+      "grad_norm": 0.8840370774269104,
+      "learning_rate": 4.6875e-05,
+      "loss": 0.1229,
+      "step": 3500
+    },
+    {
+      "epoch": 3.040078125,
+      "eval_accuracy": 0.9647058823529412,
+      "eval_loss": 0.14670781791210175,
+      "eval_runtime": 285.475,
+      "eval_samples_per_second": 2.977,
+      "eval_steps_per_second": 1.489,
+      "step": 3591
+    },
+    {
+      "epoch": 4.000401785714286,
+      "grad_norm": 0.21204273402690887,
+      "learning_rate": 4.662698412698413e-05,
+      "loss": 0.1337,
+      "step": 3600
+    },
+    {
+      "epoch": 4.004866071428571,
+      "grad_norm": 2.2111618518829346,
+      "learning_rate": 4.637896825396826e-05,
+      "loss": 0.0821,
+      "step": 3700
+    },
+    {
+      "epoch": 4.009330357142857,
+      "grad_norm": 2.208402395248413,
+      "learning_rate": 4.613095238095239e-05,
+      "loss": 0.098,
+      "step": 3800
+    },
+    {
+      "epoch": 4.0137946428571425,
+      "grad_norm": 3.035139560699463,
+      "learning_rate": 4.5882936507936506e-05,
+      "loss": 0.0828,
+      "step": 3900
+    },
+    {
+      "epoch": 4.018258928571429,
+      "grad_norm": 0.06664509326219559,
+      "learning_rate": 4.563492063492064e-05,
+      "loss": 0.0705,
+      "step": 4000
+    },
+    {
+      "epoch": 4.0227232142857146,
+      "grad_norm": 0.049911659210920334,
+      "learning_rate": 4.538690476190476e-05,
+      "loss": 0.0506,
+      "step": 4100
+    },
+    {
+      "epoch": 4.0271875,
+      "grad_norm": 6.9254374504089355,
+      "learning_rate": 4.5138888888888894e-05,
+      "loss": 0.0895,
+      "step": 4200
+    },
+    {
+      "epoch": 4.031651785714286,
+      "grad_norm": 0.6636308431625366,
+      "learning_rate": 4.489087301587302e-05,
+      "loss": 0.0762,
+      "step": 4300
+    },
+    {
+      "epoch": 4.036116071428571,
+      "grad_norm": 0.07036083936691284,
+      "learning_rate": 4.464285714285715e-05,
+      "loss": 0.1045,
+      "step": 4400
+    },
+    {
+      "epoch": 4.040044642857143,
+      "eval_accuracy": 0.9635294117647059,
+      "eval_loss": 0.1458999365568161,
+      "eval_runtime": 292.1403,
+      "eval_samples_per_second": 2.91,
+      "eval_steps_per_second": 1.455,
+      "step": 4488
+    },
+    {
+      "epoch": 5.000502232142857,
+      "grad_norm": 25.948030471801758,
+      "learning_rate": 4.439484126984127e-05,
+      "loss": 0.1201,
+      "step": 4500
+    },
+    {
+      "epoch": 5.0049665178571425,
+      "grad_norm": 4.851236343383789,
+      "learning_rate": 4.41468253968254e-05,
+      "loss": 0.0751,
+      "step": 4600
+    },
+    {
+      "epoch": 5.009430803571429,
+      "grad_norm": 2.069117307662964,
+      "learning_rate": 4.3898809523809523e-05,
+      "loss": 0.06,
+      "step": 4700
+    },
+    {
+      "epoch": 5.013895089285715,
+      "grad_norm": 0.02893979474902153,
+      "learning_rate": 4.3650793650793655e-05,
+      "loss": 0.0583,
+      "step": 4800
+    },
+    {
+      "epoch": 5.018359375,
+      "grad_norm": 38.84079360961914,
+      "learning_rate": 4.340277777777778e-05,
+      "loss": 0.0854,
+      "step": 4900
+    },
+    {
+      "epoch": 5.022823660714286,
+      "grad_norm": 0.01713498868048191,
+      "learning_rate": 4.315476190476191e-05,
+      "loss": 0.1064,
+      "step": 5000
+    },
+    {
+      "epoch": 5.027287946428571,
+      "grad_norm": 2.2113935947418213,
+      "learning_rate": 4.290674603174603e-05,
+      "loss": 0.0534,
+      "step": 5100
+    },
+    {
+      "epoch": 5.031752232142857,
+      "grad_norm": 0.030846355482935905,
+      "learning_rate": 4.265873015873016e-05,
+      "loss": 0.0812,
+      "step": 5200
+    },
+    {
+      "epoch": 5.0362165178571425,
+      "grad_norm": 63.66303253173828,
+      "learning_rate": 4.2410714285714285e-05,
+      "loss": 0.0631,
+      "step": 5300
+    },
+    {
+      "epoch": 5.040055803571429,
+      "eval_accuracy": 0.971764705882353,
+      "eval_loss": 0.13126207888126373,
+      "eval_runtime": 282.9661,
+      "eval_samples_per_second": 3.004,
+      "eval_steps_per_second": 1.502,
+      "step": 5386
+    },
+    {
+      "epoch": 6.000602678571428,
+      "grad_norm": 0.01721133291721344,
+      "learning_rate": 4.2162698412698416e-05,
+      "loss": 0.1066,
+      "step": 5400
+    },
+    {
+      "epoch": 6.005066964285715,
+      "grad_norm": 0.06797400861978531,
+      "learning_rate": 4.191468253968254e-05,
+      "loss": 0.0751,
+      "step": 5500
+    },
+    {
+      "epoch": 6.00953125,
+      "grad_norm": 0.22653132677078247,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.0417,
+      "step": 5600
+    },
+    {
+      "epoch": 6.013995535714286,
+      "grad_norm": 0.07131924480199814,
+      "learning_rate": 4.14186507936508e-05,
+      "loss": 0.0158,
+      "step": 5700
+    },
+    {
+      "epoch": 6.018459821428571,
+      "grad_norm": 40.63113784790039,
+      "learning_rate": 4.117063492063492e-05,
+      "loss": 0.0522,
+      "step": 5800
+    },
+    {
+      "epoch": 6.022924107142857,
+      "grad_norm": 0.09443258494138718,
+      "learning_rate": 4.0922619047619046e-05,
+      "loss": 0.072,
+      "step": 5900
+    },
+    {
+      "epoch": 6.027388392857143,
+      "grad_norm": 0.5265907049179077,
+      "learning_rate": 4.067460317460318e-05,
+      "loss": 0.0318,
+      "step": 6000
+    },
+    {
+      "epoch": 6.031852678571428,
+      "grad_norm": 0.03210202232003212,
+      "learning_rate": 4.04265873015873e-05,
+      "loss": 0.0877,
+      "step": 6100
+    },
+    {
+      "epoch": 6.036316964285715,
+      "grad_norm": 0.34825244545936584,
+      "learning_rate": 4.017857142857143e-05,
+      "loss": 0.0736,
+      "step": 6200
+    },
+    {
+      "epoch": 6.040066964285714,
+      "eval_accuracy": 0.9635294117647059,
+      "eval_loss": 0.18067213892936707,
+      "eval_runtime": 285.3373,
+      "eval_samples_per_second": 2.979,
+      "eval_steps_per_second": 1.489,
+      "step": 6284
+    },
+    {
+      "epoch": 7.000703125,
+      "grad_norm": 0.006914912257343531,
+      "learning_rate": 3.993055555555556e-05,
+      "loss": 0.0283,
+      "step": 6300
+    },
+    {
+      "epoch": 7.005167410714286,
+      "grad_norm": 0.0338265560567379,
+      "learning_rate": 3.968253968253968e-05,
+      "loss": 0.0499,
+      "step": 6400
+    },
+    {
+      "epoch": 7.009631696428571,
+      "grad_norm": 10.877938270568848,
+      "learning_rate": 3.943452380952381e-05,
+      "loss": 0.0082,
+      "step": 6500
+    },
+    {
+      "epoch": 7.014095982142857,
+      "grad_norm": 0.10941223055124283,
+      "learning_rate": 3.918650793650794e-05,
+      "loss": 0.0657,
+      "step": 6600
+    },
+    {
+      "epoch": 7.018560267857143,
+      "grad_norm": 12.054357528686523,
+      "learning_rate": 3.893849206349206e-05,
+      "loss": 0.0609,
+      "step": 6700
+    },
+    {
+      "epoch": 7.023024553571428,
+      "grad_norm": 0.006210957653820515,
+      "learning_rate": 3.8690476190476195e-05,
+      "loss": 0.0486,
+      "step": 6800
+    },
+    {
+      "epoch": 7.027488839285715,
+      "grad_norm": 0.013958507217466831,
+      "learning_rate": 3.844246031746032e-05,
+      "loss": 0.0747,
+      "step": 6900
+    },
+    {
+      "epoch": 7.031953125,
+      "grad_norm": 14.515870094299316,
+      "learning_rate": 3.8194444444444444e-05,
+      "loss": 0.0343,
+      "step": 7000
+    },
+    {
+      "epoch": 7.036417410714286,
+      "grad_norm": 0.007723964750766754,
+      "learning_rate": 3.794642857142857e-05,
+      "loss": 0.0673,
+      "step": 7100
+    },
+    {
+      "epoch": 7.040078125,
+      "eval_accuracy": 0.9694117647058823,
+      "eval_loss": 0.14643678069114685,
+      "eval_runtime": 288.72,
+      "eval_samples_per_second": 2.944,
+      "eval_steps_per_second": 1.472,
+      "step": 7182
+    },
+    {
+      "epoch": 8.000803571428571,
+      "grad_norm": 45.418617248535156,
+      "learning_rate": 3.76984126984127e-05,
+      "loss": 0.0476,
+      "step": 7200
+    },
+    {
+      "epoch": 8.005267857142858,
+      "grad_norm": 0.008381331339478493,
+      "learning_rate": 3.7450396825396824e-05,
+      "loss": 0.0421,
+      "step": 7300
+    },
+    {
+      "epoch": 8.009732142857143,
+      "grad_norm": 0.7666055560112,
+      "learning_rate": 3.7202380952380956e-05,
+      "loss": 0.0832,
+      "step": 7400
+    },
+    {
+      "epoch": 8.014196428571429,
+      "grad_norm": 0.09307380765676498,
+      "learning_rate": 3.695436507936508e-05,
+      "loss": 0.0875,
+      "step": 7500
+    },
+    {
+      "epoch": 8.018660714285714,
+      "grad_norm": 0.012713397853076458,
+      "learning_rate": 3.6706349206349205e-05,
+      "loss": 0.0441,
+      "step": 7600
+    },
+    {
+      "epoch": 8.023125,
+      "grad_norm": 0.021006299182772636,
+      "learning_rate": 3.6458333333333336e-05,
+      "loss": 0.054,
+      "step": 7700
+    },
+    {
+      "epoch": 8.027589285714285,
+      "grad_norm": 0.1419028341770172,
+      "learning_rate": 3.621031746031746e-05,
+      "loss": 0.0608,
+      "step": 7800
+    },
+    {
+      "epoch": 8.032053571428571,
+      "grad_norm": 0.025018220767378807,
+      "learning_rate": 3.5962301587301586e-05,
+      "loss": 0.0479,
+      "step": 7900
+    },
+    {
+      "epoch": 8.036517857142858,
+      "grad_norm": 0.5912023186683655,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.0239,
+      "step": 8000
+    },
+    {
+      "epoch": 8.040044642857143,
+      "eval_accuracy": 0.9576470588235294,
+      "eval_loss": 0.193200945854187,
+      "eval_runtime": 279.9813,
+      "eval_samples_per_second": 3.036,
+      "eval_steps_per_second": 1.518,
+      "step": 8079
+    },
+    {
+      "epoch": 9.000904017857144,
+      "grad_norm": 0.0350213348865509,
+      "learning_rate": 3.546626984126984e-05,
+      "loss": 0.067,
+      "step": 8100
+    },
+    {
+      "epoch": 9.005368303571428,
+      "grad_norm": 2.537632465362549,
+      "learning_rate": 3.521825396825397e-05,
+      "loss": 0.0245,
+      "step": 8200
+    },
+    {
+      "epoch": 9.009832589285715,
+      "grad_norm": 2.564781665802002,
+      "learning_rate": 3.49702380952381e-05,
+      "loss": 0.0262,
+      "step": 8300
+    },
+    {
+      "epoch": 9.014296875,
+      "grad_norm": 0.00803827028721571,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 0.0559,
+      "step": 8400
+    },
+    {
+      "epoch": 9.018761160714286,
+      "grad_norm": 0.005816516932100058,
+      "learning_rate": 3.4474206349206354e-05,
+      "loss": 0.0519,
+      "step": 8500
+    },
+    {
+      "epoch": 9.02322544642857,
+      "grad_norm": 0.021420830860733986,
+      "learning_rate": 3.422619047619048e-05,
+      "loss": 0.032,
+      "step": 8600
+    },
+    {
+      "epoch": 9.027689732142857,
+      "grad_norm": 0.028336547315120697,
+      "learning_rate": 3.397817460317461e-05,
+      "loss": 0.0227,
+      "step": 8700
+    },
+    {
+      "epoch": 9.032154017857144,
+      "grad_norm": 0.02300655096769333,
+      "learning_rate": 3.3730158730158734e-05,
+      "loss": 0.0392,
+      "step": 8800
+    },
+    {
+      "epoch": 9.036618303571428,
+      "grad_norm": 0.05427232384681702,
+      "learning_rate": 3.348214285714286e-05,
+      "loss": 0.0868,
+      "step": 8900
+    },
+    {
+      "epoch": 9.040055803571429,
+      "eval_accuracy": 0.9882352941176471,
+      "eval_loss": 0.05633905157446861,
+      "eval_runtime": 285.433,
+      "eval_samples_per_second": 2.978,
+      "eval_steps_per_second": 1.489,
+      "step": 8977
+    },
+    {
+      "epoch": 10.001004464285714,
+      "grad_norm": 0.0491323284804821,
+      "learning_rate": 3.3234126984126983e-05,
+      "loss": 0.0618,
+      "step": 9000
+    },
+    {
+      "epoch": 10.00546875,
+      "grad_norm": 1.0003972053527832,
+      "learning_rate": 3.2986111111111115e-05,
+      "loss": 0.0202,
+      "step": 9100
+    },
+    {
+      "epoch": 10.009933035714285,
+      "grad_norm": 0.00252954987809062,
+      "learning_rate": 3.273809523809524e-05,
+      "loss": 0.0531,
+      "step": 9200
+    },
+    {
+      "epoch": 10.014397321428572,
+      "grad_norm": 9.270633697509766,
+      "learning_rate": 3.249007936507937e-05,
+      "loss": 0.035,
+      "step": 9300
+    },
+    {
+      "epoch": 10.018861607142858,
+      "grad_norm": 0.014138671569526196,
+      "learning_rate": 3.2242063492063495e-05,
+      "loss": 0.0392,
+      "step": 9400
+    },
+    {
+      "epoch": 10.023325892857143,
+      "grad_norm": 0.01277222577482462,
+      "learning_rate": 3.199404761904762e-05,
+      "loss": 0.059,
+      "step": 9500
+    },
+    {
+      "epoch": 10.02779017857143,
+      "grad_norm": 0.0034905134234577417,
+      "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.0664,
+      "step": 9600
+    },
+    {
+      "epoch": 10.032254464285714,
+      "grad_norm": 0.0024051007349044085,
+      "learning_rate": 3.1498015873015876e-05,
+      "loss": 0.0286,
+      "step": 9700
+    },
+    {
+      "epoch": 10.03671875,
+      "grad_norm": 0.002095526549965143,
+      "learning_rate": 3.125e-05,
+      "loss": 0.0016,
+      "step": 9800
+    },
+    {
+      "epoch": 10.040066964285714,
+      "eval_accuracy": 0.9776470588235294,
+      "eval_loss": 0.08437661826610565,
+      "eval_runtime": 280.7764,
+      "eval_samples_per_second": 3.027,
+      "eval_steps_per_second": 1.514,
+      "step": 9875
+    },
+    {
+      "epoch": 11.001104910714286,
+      "grad_norm": 0.0019545548129826784,
+      "learning_rate": 3.100198412698413e-05,
+      "loss": 0.0109,
+      "step": 9900
+    },
+    {
+      "epoch": 11.00556919642857,
+      "grad_norm": 0.005866718012839556,
+      "learning_rate": 3.075396825396826e-05,
+      "loss": 0.0479,
+      "step": 10000
+    },
+    {
+      "epoch": 11.010033482142857,
+      "grad_norm": 0.012244959361851215,
+      "learning_rate": 3.0505952380952385e-05,
+      "loss": 0.0116,
+      "step": 10100
+    },
+    {
+      "epoch": 11.014497767857144,
+      "grad_norm": 0.004522031173110008,
+      "learning_rate": 3.0257936507936506e-05,
+      "loss": 0.025,
+      "step": 10200
+    },
+    {
+      "epoch": 11.018962053571428,
+      "grad_norm": 0.010159791447222233,
+      "learning_rate": 3.0009920634920634e-05,
+      "loss": 0.0036,
+      "step": 10300
+    },
+    {
+      "epoch": 11.023426339285715,
+      "grad_norm": 0.40824609994888306,
+      "learning_rate": 2.9761904761904762e-05,
+      "loss": 0.0933,
+      "step": 10400
+    },
+    {
+      "epoch": 11.027890625,
+      "grad_norm": 0.11058317124843597,
+      "learning_rate": 2.951388888888889e-05,
+      "loss": 0.0161,
+      "step": 10500
+    },
+    {
+      "epoch": 11.032354910714286,
+      "grad_norm": 1.2187433242797852,
+      "learning_rate": 2.9265873015873018e-05,
+      "loss": 0.0329,
+      "step": 10600
+    },
+    {
+      "epoch": 11.03681919642857,
+      "grad_norm": 0.020026879385113716,
+      "learning_rate": 2.9017857142857146e-05,
+      "loss": 0.0318,
+      "step": 10700
+    },
+    {
+      "epoch": 11.040078125,
+      "eval_accuracy": 0.9752941176470589,
+      "eval_loss": 0.11233757436275482,
+      "eval_runtime": 279.6949,
+      "eval_samples_per_second": 3.039,
+      "eval_steps_per_second": 1.52,
+      "step": 10773
+    },
+    {
+      "epoch": 12.001205357142856,
+      "grad_norm": 0.004233605694025755,
+      "learning_rate": 2.876984126984127e-05,
+      "loss": 0.0145,
+      "step": 10800
+    },
+    {
+      "epoch": 12.005669642857143,
+      "grad_norm": 0.0020020680967718363,
+      "learning_rate": 2.8521825396825395e-05,
+      "loss": 0.0022,
+      "step": 10900
+    },
+    {
+      "epoch": 12.01013392857143,
+      "grad_norm": 0.0010592287871986628,
+      "learning_rate": 2.8273809523809523e-05,
+      "loss": 0.0029,
+      "step": 11000
+    },
+    {
+      "epoch": 12.014598214285714,
+      "grad_norm": 0.01872986927628517,
+      "learning_rate": 2.802579365079365e-05,
+      "loss": 0.0352,
+      "step": 11100
+    },
+    {
+      "epoch": 12.0190625,
+      "grad_norm": 0.05156349390745163,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0047,
+      "step": 11200
+    },
+    {
+      "epoch": 12.023526785714285,
+      "grad_norm": 0.00894691701978445,
+      "learning_rate": 2.7529761904761907e-05,
+      "loss": 0.0303,
+      "step": 11300
+    },
+    {
+      "epoch": 12.027991071428572,
+      "grad_norm": 0.004200028255581856,
+      "learning_rate": 2.7281746031746032e-05,
+      "loss": 0.0782,
+      "step": 11400
+    },
+    {
+      "epoch": 12.032455357142856,
+      "grad_norm": 0.008372528478503227,
+      "learning_rate": 2.703373015873016e-05,
+      "loss": 0.0154,
+      "step": 11500
+    },
+    {
+      "epoch": 12.036919642857143,
+      "grad_norm": 0.010021534748375416,
+      "learning_rate": 2.6785714285714288e-05,
+      "loss": 0.0144,
+      "step": 11600
+    },
+    {
+      "epoch": 12.040044642857143,
+      "eval_accuracy": 0.9894117647058823,
+      "eval_loss": 0.04987098649144173,
+      "eval_runtime": 331.781,
+      "eval_samples_per_second": 2.562,
+      "eval_steps_per_second": 1.281,
+      "step": 11670
+    },
+    {
+      "epoch": 13.001305803571428,
+      "grad_norm": 0.3831511437892914,
+      "learning_rate": 2.6537698412698416e-05,
+      "loss": 0.0175,
+      "step": 11700
+    },
+    {
+      "epoch": 13.005770089285715,
+      "grad_norm": 0.0010712681105360389,
+      "learning_rate": 2.628968253968254e-05,
+      "loss": 0.0281,
+      "step": 11800
+    },
+    {
+      "epoch": 13.010234375,
+      "grad_norm": 0.004961916245520115,
+      "learning_rate": 2.604166666666667e-05,
+      "loss": 0.0162,
+      "step": 11900
+    },
+    {
+      "epoch": 13.014698660714286,
+      "grad_norm": 0.3577312231063843,
+      "learning_rate": 2.5793650793650796e-05,
+      "loss": 0.0133,
+      "step": 12000
+    },
+    {
+      "epoch": 13.01916294642857,
+      "grad_norm": 0.0016846248181536794,
+      "learning_rate": 2.554563492063492e-05,
+      "loss": 0.0456,
+      "step": 12100
+    },
+    {
+      "epoch": 13.023627232142857,
+      "grad_norm": 0.005252454895526171,
+      "learning_rate": 2.529761904761905e-05,
+      "loss": 0.0043,
+      "step": 12200
+    },
+    {
+      "epoch": 13.028091517857144,
+      "grad_norm": 65.35294342041016,
+      "learning_rate": 2.5049603174603177e-05,
+      "loss": 0.0248,
+      "step": 12300
+    },
+    {
+      "epoch": 13.032555803571428,
+      "grad_norm": 0.0010413563577458262,
+      "learning_rate": 2.4801587301587305e-05,
+      "loss": 0.033,
+      "step": 12400
+    },
+    {
+      "epoch": 13.037020089285715,
+      "grad_norm": 28.086708068847656,
+      "learning_rate": 2.455357142857143e-05,
+      "loss": 0.0028,
+      "step": 12500
+    },
+    {
+      "epoch": 13.040055803571429,
+      "eval_accuracy": 0.9870588235294118,
+      "eval_loss": 0.08093971014022827,
+      "eval_runtime": 287.2538,
+      "eval_samples_per_second": 2.959,
+      "eval_steps_per_second": 1.48,
+      "step": 12568
+    },
+    {
+      "epoch": 14.00140625,
+      "grad_norm": 0.011327456682920456,
+      "learning_rate": 2.4305555555555558e-05,
+      "loss": 0.0203,
+      "step": 12600
+    },
+    {
+      "epoch": 14.005870535714285,
+      "grad_norm": 0.006360394414514303,
+      "learning_rate": 2.4057539682539686e-05,
+      "loss": 0.0009,
+      "step": 12700
+    },
+    {
+      "epoch": 14.010334821428572,
+      "grad_norm": 1.3321506977081299,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 0.0186,
+      "step": 12800
+    },
+    {
+      "epoch": 14.014799107142856,
+      "grad_norm": 0.0009386364254169166,
+      "learning_rate": 2.3561507936507938e-05,
+      "loss": 0.0048,
+      "step": 12900
+    },
+    {
+      "epoch": 14.019263392857143,
+      "grad_norm": 0.0016534485621377826,
+      "learning_rate": 2.3313492063492066e-05,
+      "loss": 0.037,
+      "step": 13000
+    },
+    {
+      "epoch": 14.02372767857143,
+      "grad_norm": 0.001421699533239007,
+      "learning_rate": 2.3065476190476194e-05,
+      "loss": 0.0111,
+      "step": 13100
+    },
+    {
+      "epoch": 14.028191964285714,
+      "grad_norm": 0.0014466221909970045,
+      "learning_rate": 2.281746031746032e-05,
+      "loss": 0.0169,
+      "step": 13200
+    },
+    {
+      "epoch": 14.03265625,
+      "grad_norm": 0.0036468463949859142,
+      "learning_rate": 2.2569444444444447e-05,
+      "loss": 0.019,
+      "step": 13300
+    },
+    {
+      "epoch": 14.037120535714285,
+      "grad_norm": 0.0012320175301283598,
+      "learning_rate": 2.2321428571428575e-05,
+      "loss": 0.0074,
+      "step": 13400
+    },
+    {
+      "epoch": 14.040066964285714,
+      "eval_accuracy": 0.9929411764705882,
+      "eval_loss": 0.045501772314310074,
+      "eval_runtime": 285.3107,
+      "eval_samples_per_second": 2.979,
+      "eval_steps_per_second": 1.49,
+      "step": 13466
+    },
+    {
+      "epoch": 15.00150669642857,
+      "grad_norm": 0.0006422046571969986,
+      "learning_rate": 2.20734126984127e-05,
+      "loss": 0.0202,
+      "step": 13500
+    },
+    {
+      "epoch": 15.005970982142857,
+      "grad_norm": 0.0008420124650001526,
+      "learning_rate": 2.1825396825396827e-05,
+      "loss": 0.0116,
+      "step": 13600
+    },
+    {
+      "epoch": 15.010435267857142,
+      "grad_norm": 0.018089979887008667,
+      "learning_rate": 2.1577380952380955e-05,
+      "loss": 0.0099,
+      "step": 13700
+    },
+    {
+      "epoch": 15.014899553571428,
+      "grad_norm": 0.0031337908003479242,
+      "learning_rate": 2.132936507936508e-05,
+      "loss": 0.0566,
+      "step": 13800
+    },
+    {
+      "epoch": 15.019363839285715,
+      "grad_norm": 0.0016157528152689338,
+      "learning_rate": 2.1081349206349208e-05,
+      "loss": 0.0212,
+      "step": 13900
+    },
+    {
+      "epoch": 15.023828125,
+      "grad_norm": 0.01456926204264164,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.0003,
+      "step": 14000
+    },
+    {
+      "epoch": 15.028292410714286,
+      "grad_norm": 0.001924099400639534,
+      "learning_rate": 2.058531746031746e-05,
+      "loss": 0.0149,
+      "step": 14100
+    },
+    {
+      "epoch": 15.03275669642857,
+      "grad_norm": 0.0008741599158383906,
+      "learning_rate": 2.033730158730159e-05,
+      "loss": 0.0168,
+      "step": 14200
+    },
+    {
+      "epoch": 15.037220982142857,
+      "grad_norm": 0.06954433768987656,
+      "learning_rate": 2.0089285714285717e-05,
+      "loss": 0.0002,
+      "step": 14300
+    },
+    {
+      "epoch": 15.040078125,
+      "eval_accuracy": 0.9905882352941177,
+      "eval_loss": 0.058066971600055695,
+      "eval_runtime": 289.1743,
+      "eval_samples_per_second": 2.939,
+      "eval_steps_per_second": 1.47,
+      "step": 14364
+    },
+    {
+      "epoch": 16.001607142857143,
+      "grad_norm": 0.0014486366417258978,
+      "learning_rate": 1.984126984126984e-05,
+      "loss": 0.0063,
+      "step": 14400
+    },
+    {
+      "epoch": 16.006071428571428,
+      "grad_norm": 0.0007301854784600437,
+      "learning_rate": 1.959325396825397e-05,
+      "loss": 0.0186,
+      "step": 14500
+    },
+    {
+      "epoch": 16.010535714285716,
+      "grad_norm": 0.003457231679931283,
+      "learning_rate": 1.9345238095238097e-05,
+      "loss": 0.0236,
+      "step": 14600
+    },
+    {
+      "epoch": 16.015,
+      "grad_norm": 0.005807195790112019,
+      "learning_rate": 1.9097222222222222e-05,
+      "loss": 0.0183,
+      "step": 14700
+    },
+    {
+      "epoch": 16.019464285714285,
+      "grad_norm": 0.002843959955498576,
+      "learning_rate": 1.884920634920635e-05,
+      "loss": 0.0242,
+      "step": 14800
+    },
+    {
+      "epoch": 16.02392857142857,
+      "grad_norm": 0.37613585591316223,
+      "learning_rate": 1.8601190476190478e-05,
+      "loss": 0.0101,
+      "step": 14900
+    },
+    {
+      "epoch": 16.028392857142858,
+      "grad_norm": 0.0005575509858317673,
+      "learning_rate": 1.8353174603174602e-05,
+      "loss": 0.0109,
+      "step": 15000
+    },
+    {
+      "epoch": 16.032857142857143,
+      "grad_norm": 0.0006386680179275572,
+      "learning_rate": 1.810515873015873e-05,
+      "loss": 0.0013,
+      "step": 15100
+    },
+    {
+      "epoch": 16.037321428571428,
+      "grad_norm": 0.0010088573908433318,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 0.0077,
+      "step": 15200
+    },
+    {
+      "epoch": 16.040044642857143,
+      "eval_accuracy": 0.9894117647058823,
+      "eval_loss": 0.05021252483129501,
+      "eval_runtime": 284.0094,
+      "eval_samples_per_second": 2.993,
+      "eval_steps_per_second": 1.496,
+      "step": 15261
+    },
+    {
+      "epoch": 17.001707589285715,
+      "grad_norm": 0.0006336846854537725,
+      "learning_rate": 1.7609126984126986e-05,
+      "loss": 0.0212,
+      "step": 15300
+    },
+    {
+      "epoch": 17.006171875,
+      "grad_norm": 0.0005883209523744881,
+      "learning_rate": 1.736111111111111e-05,
+      "loss": 0.0095,
+      "step": 15400
+    },
+    {
+      "epoch": 17.010636160714284,
+      "grad_norm": 0.0021267228294163942,
+      "learning_rate": 1.711309523809524e-05,
+      "loss": 0.0113,
+      "step": 15500
+    },
+    {
+      "epoch": 17.015100446428573,
+      "grad_norm": 0.0009908992797136307,
+      "learning_rate": 1.6865079365079367e-05,
+      "loss": 0.0118,
+      "step": 15600
+    },
+    {
+      "epoch": 17.019564732142857,
+      "grad_norm": 0.000644190120510757,
+      "learning_rate": 1.6617063492063492e-05,
+      "loss": 0.0007,
+      "step": 15700
+    },
+    {
+      "epoch": 17.024029017857142,
+      "grad_norm": 0.0005113797378726304,
+      "learning_rate": 1.636904761904762e-05,
+      "loss": 0.01,
+      "step": 15800
+    },
+    {
+      "epoch": 17.02849330357143,
+      "grad_norm": 0.0008760132477618754,
+      "learning_rate": 1.6121031746031748e-05,
+      "loss": 0.0026,
+      "step": 15900
+    },
+    {
+      "epoch": 17.032957589285715,
+      "grad_norm": 0.00030510194483213127,
+      "learning_rate": 1.5873015873015872e-05,
+      "loss": 0.0015,
+      "step": 16000
+    },
+    {
+      "epoch": 17.037421875,
+      "grad_norm": 0.0004963899846188724,
+      "learning_rate": 1.5625e-05,
+      "loss": 0.0005,
+      "step": 16100
+    },
+    {
+      "epoch": 17.040055803571427,
+      "eval_accuracy": 0.9929411764705882,
+      "eval_loss": 0.04069099575281143,
+      "eval_runtime": 285.9614,
+      "eval_samples_per_second": 2.972,
+      "eval_steps_per_second": 1.486,
+      "step": 16159
+    },
+    {
+      "epoch": 18.001808035714287,
+      "grad_norm": 0.0015891814837232232,
+      "learning_rate": 1.537698412698413e-05,
+      "loss": 0.0376,
+      "step": 16200
+    },
+    {
+      "epoch": 18.006272321428572,
+      "grad_norm": 0.008500500582158566,
+      "learning_rate": 1.5128968253968253e-05,
+      "loss": 0.0203,
+      "step": 16300
+    },
+    {
+      "epoch": 18.010736607142857,
+      "grad_norm": 0.0030595629941672087,
+      "learning_rate": 1.4880952380952381e-05,
+      "loss": 0.0042,
+      "step": 16400
+    },
+    {
+      "epoch": 18.01520089285714,
+      "grad_norm": 1.0810060501098633,
+      "learning_rate": 1.4632936507936509e-05,
+      "loss": 0.017,
+      "step": 16500
+    },
+    {
+      "epoch": 18.01966517857143,
+      "grad_norm": 0.0005325720412656665,
+      "learning_rate": 1.4384920634920635e-05,
+      "loss": 0.0036,
+      "step": 16600
+    },
+    {
+      "epoch": 18.024129464285714,
+      "grad_norm": 0.0014920306857675314,
+      "learning_rate": 1.4136904761904762e-05,
+      "loss": 0.0236,
+      "step": 16700
+    },
+    {
+      "epoch": 18.02859375,
+      "grad_norm": 0.00048302882350981236,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.0127,
+      "step": 16800
+    },
+    {
+      "epoch": 18.033058035714287,
+      "grad_norm": 0.002715888200327754,
+      "learning_rate": 1.3640873015873016e-05,
+      "loss": 0.0146,
+      "step": 16900
+    },
+    {
+      "epoch": 18.037522321428572,
+      "grad_norm": 0.0004213691863697022,
+      "learning_rate": 1.3392857142857144e-05,
+      "loss": 0.0004,
+      "step": 17000
+    },
+    {
+      "epoch": 18.040066964285714,
+      "eval_accuracy": 0.9905882352941177,
+      "eval_loss": 0.05496314540505409,
+      "eval_runtime": 318.6642,
+      "eval_samples_per_second": 2.667,
+      "eval_steps_per_second": 1.334,
+      "step": 17057
+    },
+    {
+      "epoch": 19.001908482142856,
+      "grad_norm": 0.00044045469257980585,
+      "learning_rate": 1.314484126984127e-05,
+      "loss": 0.0143,
+      "step": 17100
+    },
+    {
+      "epoch": 19.006372767857144,
+      "grad_norm": 0.0004946400295011699,
+      "learning_rate": 1.2896825396825398e-05,
+      "loss": 0.0002,
+      "step": 17200
+    },
+    {
+      "epoch": 19.01083705357143,
+      "grad_norm": 0.014897634275257587,
+      "learning_rate": 1.2648809523809524e-05,
+      "loss": 0.0011,
+      "step": 17300
+    },
+    {
+      "epoch": 19.015301339285713,
+      "grad_norm": 0.015875551849603653,
+      "learning_rate": 1.2400793650793652e-05,
+      "loss": 0.0007,
+      "step": 17400
+    },
+    {
+      "epoch": 19.019765625,
+      "grad_norm": 0.0004391854163259268,
+      "learning_rate": 1.2152777777777779e-05,
+      "loss": 0.0068,
+      "step": 17500
+    },
+    {
+      "epoch": 19.024229910714286,
+      "grad_norm": 0.00046034177648834884,
+      "learning_rate": 1.1904761904761905e-05,
+      "loss": 0.0001,
+      "step": 17600
+    },
+    {
+      "epoch": 19.02869419642857,
+      "grad_norm": 0.0017288514645770192,
+      "learning_rate": 1.1656746031746033e-05,
+      "loss": 0.0001,
+      "step": 17700
+    },
+    {
+      "epoch": 19.033158482142856,
+      "grad_norm": 0.0026627290062606335,
+      "learning_rate": 1.140873015873016e-05,
+      "loss": 0.0001,
+      "step": 17800
+    },
+    {
+      "epoch": 19.037622767857144,
+      "grad_norm": 0.0004681396530941129,
+      "learning_rate": 1.1160714285714287e-05,
+      "loss": 0.0001,
+      "step": 17900
+    },
+    {
+      "epoch": 19.040078125,
+      "eval_accuracy": 0.9929411764705882,
+      "eval_loss": 0.05834496021270752,
+      "eval_runtime": 239.7594,
+      "eval_samples_per_second": 3.545,
+      "eval_steps_per_second": 1.773,
+      "step": 17955
+    },
+    {
+      "epoch": 19.040078125,
+      "step": 17955,
+      "total_flos": 1.7905236367909847e+20,
+      "train_loss": 0.295465733557037,
+      "train_runtime": 68646.4816,
+      "train_samples_per_second": 2.61,
+      "train_steps_per_second": 0.326
+    },
+    {
+      "epoch": 19.040078125,
+      "eval_accuracy": 0.9929411764705882,
+      "eval_loss": 0.04550177976489067,
+      "eval_runtime": 230.0122,
+      "eval_samples_per_second": 3.695,
+      "eval_steps_per_second": 1.848,
+      "step": 17955
+    },
+    {
+      "epoch": 19.040078125,
+      "eval_accuracy": 0.8973354231974922,
+      "eval_loss": 0.5587517619132996,
+      "eval_runtime": 352.6874,
+      "eval_samples_per_second": 3.618,
+      "eval_steps_per_second": 1.809,
+      "step": 17955
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 22400,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.7905236367909847e+20,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}