Shawon16
/

ViViT_BdSLW60_FrameRate_Corrected_with_Augment_20_epch

@@ -1,6 +1,6 @@
 {
-    "accuracy": 0.7437304075235109,
-    "f1": 0.7449206675878561,
-    "precision": 0.8040679357671016,
-    "recall": 0.7437304075235109
 }

 {
+    "accuracy": 0.7813479623824452,
+    "f1": 0.7777039929885885,
+    "precision": 0.8317570433857643,
+    "recall": 0.7813479623824452
 }

test_results.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-    "accuracy": 0.7437304075235109,
-    "f1": 0.7449206675878561,
-    "precision": 0.8040679357671016,
-    "recall": 0.7437304075235109
 }

 {
+    "accuracy": 0.7813479623824452,
+    "f1": 0.7777039929885885,
+    "precision": 0.8317570433857643,
+    "recall": 0.7813479623824452
 }

trainer_state.json CHANGED Viewed

@@ -1,1174 +1,1017 @@
 {
-  "best_metric": 0.8883333333333333,
-  "best_model_checkpoint": "/media/cse/HDD/Shawon/shawon/MY DATA/ViViT_BdSLW60_FrameRate_Corrected_with_Augment_20_epch/checkpoint-9290",
-  "epoch": 14.050053879310346,
   "eval_steps": 500,
-  "global_step": 13935,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.005387931034482759,
-      "grad_norm": 45.83344650268555,
       "learning_rate": 2.613146551724138e-06,
-      "loss": 16.5971,
       "step": 100
     },
     {
       "epoch": 0.010775862068965518,
-      "grad_norm": 47.277610778808594,
       "learning_rate": 5.307112068965517e-06,
-      "loss": 16.0686,
       "step": 200
     },
     {
       "epoch": 0.016163793103448277,
-      "grad_norm": 52.02138900756836,
       "learning_rate": 8.001077586206897e-06,
-      "loss": 15.24,
       "step": 300
     },
     {
       "epoch": 0.021551724137931036,
-      "grad_norm": 51.59857940673828,
       "learning_rate": 1.0695043103448277e-05,
-      "loss": 13.7971,
       "step": 400
     },
     {
       "epoch": 0.02693965517241379,
-      "grad_norm": 51.915077209472656,
       "learning_rate": 1.3389008620689655e-05,
-      "loss": 12.1407,
       "step": 500
     },
     {
       "epoch": 0.032327586206896554,
-      "grad_norm": 45.112815856933594,
       "learning_rate": 1.6082974137931035e-05,
-      "loss": 10.1019,
       "step": 600
     },
     {
       "epoch": 0.03771551724137931,
-      "grad_norm": 45.68745803833008,
       "learning_rate": 1.8776939655172415e-05,
-      "loss": 8.0447,
       "step": 700
     },
     {
       "epoch": 0.04310344827586207,
-      "grad_norm": 46.458797454833984,
-      "learning_rate": 2.144396551724138e-05,
-      "loss": 6.0338,
       "step": 800
     },
     {
       "epoch": 0.04849137931034483,
-      "grad_norm": 42.249019622802734,
-      "learning_rate": 2.413793103448276e-05,
-      "loss": 4.2927,
       "step": 900
     },
     {
       "epoch": 0.05005387931034483,
-      "eval_accuracy": 0.7483333333333333,
-      "eval_f1": 0.7073160371294819,
-      "eval_loss": 1.3961538076400757,
-      "eval_precision": 0.7444576105669456,
-      "eval_recall": 0.7483333333333333,
-      "eval_runtime": 237.3791,
-      "eval_samples_per_second": 2.528,
-      "eval_steps_per_second": 1.264,
       "step": 929
     },
     {
       "epoch": 1.0038254310344827,
-      "grad_norm": 48.37353515625,
-      "learning_rate": 2.6831896551724138e-05,
-      "loss": 2.8817,
       "step": 1000
     },
     {
       "epoch": 1.0092133620689656,
-      "grad_norm": 33.73479461669922,
-      "learning_rate": 2.952586206896552e-05,
-      "loss": 2.1312,
       "step": 1100
     },
     {
       "epoch": 1.0146012931034483,
-      "grad_norm": 20.45344352722168,
-      "learning_rate": 3.22198275862069e-05,
-      "loss": 1.5471,
       "step": 1200
     },
     {
       "epoch": 1.0199892241379311,
-      "grad_norm": 14.031790733337402,
-      "learning_rate": 3.4913793103448275e-05,
-      "loss": 1.1454,
       "step": 1300
     },
     {
       "epoch": 1.0253771551724138,
-      "grad_norm": 18.423519134521484,
-      "learning_rate": 3.760775862068966e-05,
-      "loss": 0.9755,
       "step": 1400
     },
     {
       "epoch": 1.0307650862068964,
-      "grad_norm": 41.54768753051758,
-      "learning_rate": 4.0301724137931035e-05,
-      "loss": 0.7792,
       "step": 1500
     },
     {
       "epoch": 1.0361530172413793,
-      "grad_norm": 28.381345748901367,
-      "learning_rate": 4.299568965517242e-05,
-      "loss": 0.6268,
       "step": 1600
     },
     {
       "epoch": 1.041540948275862,
-      "grad_norm": 5.257551670074463,
-      "learning_rate": 4.5689655172413794e-05,
-      "loss": 0.3621,
       "step": 1700
     },
     {
       "epoch": 1.0469288793103448,
-      "grad_norm": 40.9177131652832,
-      "learning_rate": 4.838362068965517e-05,
-      "loss": 0.5715,
       "step": 1800
     },
     {
       "epoch": 1.0500538793103449,
-      "eval_accuracy": 0.76,
-      "eval_f1": 0.7315828409846172,
-      "eval_loss": 0.7386798858642578,
-      "eval_precision": 0.784898689459835,
-      "eval_recall": 0.76,
-      "eval_runtime": 234.5839,
-      "eval_samples_per_second": 2.558,
-      "eval_steps_per_second": 1.279,
       "step": 1858
     },
     {
       "epoch": 2.002262931034483,
-      "grad_norm": 1.031559705734253,
-      "learning_rate": 4.988026819923372e-05,
-      "loss": 0.3548,
       "step": 1900
     },
     {
       "epoch": 2.0076508620689655,
-      "grad_norm": 24.833614349365234,
-      "learning_rate": 4.9580938697318006e-05,
-      "loss": 0.2571,
       "step": 2000
     },
     {
       "epoch": 2.013038793103448,
-      "grad_norm": 0.9273917078971863,
-      "learning_rate": 4.92816091954023e-05,
-      "loss": 0.1795,
       "step": 2100
     },
     {
       "epoch": 2.0184267241379312,
-      "grad_norm": 0.1329166144132614,
       "learning_rate": 4.898227969348659e-05,
-      "loss": 0.1537,
       "step": 2200
     },
     {
       "epoch": 2.023814655172414,
-      "grad_norm": 0.16417793929576874,
       "learning_rate": 4.8682950191570885e-05,
-      "loss": 0.1464,
       "step": 2300
     },
     {
       "epoch": 2.0292025862068965,
-      "grad_norm": 0.11036239564418793,
       "learning_rate": 4.838362068965517e-05,
-      "loss": 0.2,
       "step": 2400
     },
     {
       "epoch": 2.034590517241379,
-      "grad_norm": 0.15902777016162872,
       "learning_rate": 4.8084291187739464e-05,
-      "loss": 0.1926,
       "step": 2500
     },
     {
       "epoch": 2.0399784482758623,
-      "grad_norm": 0.06257440149784088,
       "learning_rate": 4.778496168582376e-05,
-      "loss": 0.1122,
       "step": 2600
     },
     {
       "epoch": 2.045366379310345,
-      "grad_norm": 0.2545311748981476,
       "learning_rate": 4.748563218390804e-05,
-      "loss": 0.1143,
       "step": 2700
     },
     {
       "epoch": 2.0500538793103447,
-      "eval_accuracy": 0.8566666666666667,
-      "eval_f1": 0.8378652554746802,
-      "eval_loss": 0.5068579912185669,
-      "eval_precision": 0.8745488988136046,
-      "eval_recall": 0.8566666666666667,
-      "eval_runtime": 233.8422,
-      "eval_samples_per_second": 2.566,
-      "eval_steps_per_second": 1.283,
       "step": 2787
     },
     {
       "epoch": 3.000700431034483,
-      "grad_norm": 0.6084313988685608,
       "learning_rate": 4.7186302681992336e-05,
-      "loss": 0.0933,
       "step": 2800
     },
     {
       "epoch": 3.0060883620689656,
-      "grad_norm": 0.038161493837833405,
       "learning_rate": 4.688697318007663e-05,
-      "loss": 0.0324,
       "step": 2900
     },
     {
       "epoch": 3.011476293103448,
-      "grad_norm": 0.039121635258197784,
       "learning_rate": 4.658764367816092e-05,
-      "loss": 0.1179,
       "step": 3000
     },
     {
       "epoch": 3.016864224137931,
-      "grad_norm": 0.11633000522851944,
       "learning_rate": 4.6288314176245215e-05,
-      "loss": 0.0428,
       "step": 3100
     },
     {
       "epoch": 3.022252155172414,
-      "grad_norm": 0.02798030897974968,
       "learning_rate": 4.598898467432951e-05,
-      "loss": 0.0854,
       "step": 3200
     },
     {
       "epoch": 3.0276400862068966,
-      "grad_norm": 0.037470508366823196,
       "learning_rate": 4.5689655172413794e-05,
-      "loss": 0.1134,
       "step": 3300
     },
     {
       "epoch": 3.0330280172413793,
-      "grad_norm": 0.08979259431362152,
       "learning_rate": 4.539032567049809e-05,
-      "loss": 0.2055,
       "step": 3400
     },
     {
       "epoch": 3.038415948275862,
-      "grad_norm": 0.02355808950960636,
       "learning_rate": 4.509099616858238e-05,
-      "loss": 0.1482,
       "step": 3500
     },
     {
       "epoch": 3.043803879310345,
-      "grad_norm": 0.11646776646375656,
       "learning_rate": 4.4791666666666673e-05,
-      "loss": 0.0577,
       "step": 3600
     },
     {
       "epoch": 3.0491918103448277,
-      "grad_norm": 0.015065540559589863,
       "learning_rate": 4.449233716475096e-05,
-      "loss": 0.1201,
       "step": 3700
     },
     {
       "epoch": 3.0500538793103447,
-      "eval_accuracy": 0.8716666666666667,
-      "eval_f1": 0.8671156403468441,
-      "eval_loss": 0.43723857402801514,
-      "eval_precision": 0.9009515590188966,
-      "eval_recall": 0.8716666666666667,
-      "eval_runtime": 243.2022,
-      "eval_samples_per_second": 2.467,
-      "eval_steps_per_second": 1.234,
       "step": 3716
     },
     {
       "epoch": 4.004525862068966,
-      "grad_norm": 0.05027803033590317,
       "learning_rate": 4.419300766283525e-05,
-      "loss": 0.1715,
       "step": 3800
     },
     {
       "epoch": 4.009913793103448,
-      "grad_norm": 9.985790252685547,
       "learning_rate": 4.3893678160919546e-05,
-      "loss": 0.1153,
       "step": 3900
     },
     {
       "epoch": 4.015301724137931,
-      "grad_norm": 0.08734717965126038,
       "learning_rate": 4.359434865900383e-05,
-      "loss": 0.0206,
       "step": 4000
     },
     {
       "epoch": 4.020689655172414,
-      "grad_norm": 1.7397541999816895,
       "learning_rate": 4.3295019157088125e-05,
-      "loss": 0.0717,
       "step": 4100
     },
     {
       "epoch": 4.026077586206896,
-      "grad_norm": 0.0653449222445488,
-      "learning_rate": 4.299568965517242e-05,
-      "loss": 0.164,
       "step": 4200
     },
     {
       "epoch": 4.031465517241379,
-      "grad_norm": 0.06772942841053009,
-      "learning_rate": 4.269636015325671e-05,
-      "loss": 0.2484,
       "step": 4300
     },
     {
       "epoch": 4.0368534482758625,
-      "grad_norm": 0.008434736169874668,
-      "learning_rate": 4.2397030651341e-05,
-      "loss": 0.0282,
       "step": 4400
     },
     {
       "epoch": 4.042241379310345,
-      "grad_norm": 0.2308279275894165,
-      "learning_rate": 4.209770114942529e-05,
-      "loss": 0.2007,
       "step": 4500
     },
     {
       "epoch": 4.047629310344828,
-      "grad_norm": 65.72382354736328,
-      "learning_rate": 4.179837164750958e-05,
-      "loss": 0.1384,
       "step": 4600
     },
     {
       "epoch": 4.050053879310345,
-      "eval_accuracy": 0.805,
-      "eval_f1": 0.7784917259894991,
-      "eval_loss": 0.8166558742523193,
-      "eval_precision": 0.8275434261157945,
-      "eval_recall": 0.805,
-      "eval_runtime": 237.8126,
-      "eval_samples_per_second": 2.523,
-      "eval_steps_per_second": 1.261,
       "step": 4645
     },
     {
       "epoch": 5.002963362068965,
-      "grad_norm": 0.7051175832748413,
-      "learning_rate": 4.149904214559387e-05,
-      "loss": 0.2668,
       "step": 4700
     },
     {
       "epoch": 5.008351293103448,
-      "grad_norm": 43.013553619384766,
-      "learning_rate": 4.119971264367816e-05,
-      "loss": 0.0799,
       "step": 4800
     },
     {
       "epoch": 5.013739224137931,
-      "grad_norm": 0.005472411401569843,
-      "learning_rate": 4.0900383141762455e-05,
-      "loss": 0.0977,
       "step": 4900
     },
     {
       "epoch": 5.019127155172414,
-      "grad_norm": 0.0050255605019629,
       "learning_rate": 4.0604046934865905e-05,
-      "loss": 0.0894,
       "step": 5000
     },
     {
       "epoch": 5.024515086206897,
-      "grad_norm": 0.04989234730601311,
       "learning_rate": 4.03047174329502e-05,
-      "loss": 0.1741,
       "step": 5100
     },
     {
       "epoch": 5.029903017241379,
-      "grad_norm": 3.8007781505584717,
       "learning_rate": 4.0005387931034485e-05,
-      "loss": 0.1184,
       "step": 5200
     },
     {
       "epoch": 5.035290948275862,
-      "grad_norm": 0.03684280812740326,
       "learning_rate": 3.970605842911878e-05,
-      "loss": 0.0961,
       "step": 5300
     },
     {
       "epoch": 5.040678879310345,
-      "grad_norm": 0.012824930250644684,
       "learning_rate": 3.940672892720307e-05,
-      "loss": 0.0962,
       "step": 5400
     },
     {
       "epoch": 5.046066810344827,
-      "grad_norm": 0.004591114353388548,
       "learning_rate": 3.910739942528736e-05,
-      "loss": 0.0708,
       "step": 5500
     },
     {
       "epoch": 5.050053879310345,
-      "eval_accuracy": 0.8333333333333334,
-      "eval_f1": 0.817778283230995,
-      "eval_loss": 0.6928015947341919,
-      "eval_precision": 0.8539107069089906,
-      "eval_recall": 0.8333333333333334,
-      "eval_runtime": 243.0413,
-      "eval_samples_per_second": 2.469,
-      "eval_steps_per_second": 1.234,
       "step": 5574
     },
     {
       "epoch": 6.001400862068966,
-      "grad_norm": 0.016011890023946762,
       "learning_rate": 3.880806992337165e-05,
-      "loss": 0.1892,
       "step": 5600
     },
     {
       "epoch": 6.006788793103448,
-      "grad_norm": 0.005612250883132219,
       "learning_rate": 3.850874042145594e-05,
-      "loss": 0.0645,
       "step": 5700
     },
     {
       "epoch": 6.012176724137931,
-      "grad_norm": 0.01854723133146763,
       "learning_rate": 3.8209410919540236e-05,
-      "loss": 0.0798,
       "step": 5800
     },
     {
       "epoch": 6.017564655172414,
-      "grad_norm": 0.016862692311406136,
       "learning_rate": 3.791008141762452e-05,
-      "loss": 0.1109,
       "step": 5900
     },
     {
       "epoch": 6.022952586206896,
-      "grad_norm": 0.09882456064224243,
       "learning_rate": 3.7610751915708815e-05,
-      "loss": 0.0226,
       "step": 6000
     },
     {
       "epoch": 6.0283405172413795,
-      "grad_norm": 0.057037197053432465,
       "learning_rate": 3.731142241379311e-05,
-      "loss": 0.1556,
       "step": 6100
     },
     {
       "epoch": 6.033728448275862,
-      "grad_norm": 0.008492298424243927,
       "learning_rate": 3.7012092911877394e-05,
-      "loss": 0.0644,
       "step": 6200
     },
     {
       "epoch": 6.039116379310345,
-      "grad_norm": 0.06844343990087509,
-      "learning_rate": 3.671276340996169e-05,
-      "loss": 0.0174,
       "step": 6300
     },
     {
       "epoch": 6.044504310344828,
-      "grad_norm": 0.004521963652223349,
-      "learning_rate": 3.641343390804598e-05,
-      "loss": 0.1048,
       "step": 6400
     },
     {
       "epoch": 6.04989224137931,
-      "grad_norm": 0.00941855926066637,
-      "learning_rate": 3.611410440613027e-05,
-      "loss": 0.0305,
       "step": 6500
     },
     {
       "epoch": 6.050053879310345,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_f1": 0.833447903656066,
-      "eval_loss": 0.6382582783699036,
-      "eval_precision": 0.890281232163787,
-      "eval_recall": 0.8466666666666667,
-      "eval_runtime": 233.475,
-      "eval_samples_per_second": 2.57,
-      "eval_steps_per_second": 1.285,
       "step": 6503
     },
     {
       "epoch": 7.005226293103449,
-      "grad_norm": 0.002090852241963148,
-      "learning_rate": 3.581477490421456e-05,
-      "loss": 0.0028,
       "step": 6600
     },
     {
       "epoch": 7.010614224137931,
-      "grad_norm": 0.006849061697721481,
-      "learning_rate": 3.551544540229885e-05,
-      "loss": 0.1021,
       "step": 6700
     },
     {
       "epoch": 7.016002155172414,
-      "grad_norm": 0.013734557665884495,
-      "learning_rate": 3.5216115900383146e-05,
-      "loss": 0.0603,
       "step": 6800
     },
     {
       "epoch": 7.021390086206897,
-      "grad_norm": 0.014737064018845558,
-      "learning_rate": 3.491678639846743e-05,
-      "loss": 0.074,
       "step": 6900
     },
     {
       "epoch": 7.026778017241379,
-      "grad_norm": 0.5382562279701233,
-      "learning_rate": 3.4617456896551725e-05,
-      "loss": 0.0094,
       "step": 7000
     },
     {
       "epoch": 7.032165948275862,
-      "grad_norm": 0.0030684908851981163,
-      "learning_rate": 3.431812739463602e-05,
-      "loss": 0.0256,
       "step": 7100
     },
     {
       "epoch": 7.0375538793103445,
-      "grad_norm": 0.00399013189598918,
-      "learning_rate": 3.4018797892720304e-05,
-      "loss": 0.0108,
       "step": 7200
     },
     {
       "epoch": 7.042941810344828,
-      "grad_norm": 0.08104772120714188,
-      "learning_rate": 3.37194683908046e-05,
-      "loss": 0.1481,
       "step": 7300
     },
     {
       "epoch": 7.048329741379311,
-      "grad_norm": 0.003191685304045677,
-      "learning_rate": 3.342013888888889e-05,
-      "loss": 0.074,
       "step": 7400
     },
     {
       "epoch": 7.050053879310345,
-      "eval_accuracy": 0.8383333333333334,
-      "eval_f1": 0.8257439479240427,
-      "eval_loss": 0.8458351492881775,
-      "eval_precision": 0.8776065876525435,
-      "eval_recall": 0.8383333333333334,
-      "eval_runtime": 232.5255,
-      "eval_samples_per_second": 2.58,
-      "eval_steps_per_second": 1.29,
       "step": 7432
     },
     {
       "epoch": 8.003663793103449,
-      "grad_norm": 0.003989736549556255,
       "learning_rate": 3.312380268199234e-05,
-      "loss": 0.0433,
       "step": 7500
     },
     {
       "epoch": 8.009051724137931,
-      "grad_norm": 0.0019866107031702995,
       "learning_rate": 3.282447318007663e-05,
-      "loss": 0.036,
       "step": 7600
     },
     {
       "epoch": 8.014439655172414,
-      "grad_norm": 0.005539468955248594,
       "learning_rate": 3.252514367816092e-05,
-      "loss": 0.0034,
       "step": 7700
     },
     {
       "epoch": 8.019827586206896,
-      "grad_norm": 0.0012308226432651281,
-      "learning_rate": 3.222581417624521e-05,
-      "loss": 0.0012,
       "step": 7800
     },
     {
       "epoch": 8.02521551724138,
-      "grad_norm": 0.0022869377862662077,
-      "learning_rate": 3.1926484674329505e-05,
-      "loss": 0.1445,
       "step": 7900
     },
     {
       "epoch": 8.030603448275862,
-      "grad_norm": 0.004796088207513094,
-      "learning_rate": 3.16271551724138e-05,
-      "loss": 0.0348,
       "step": 8000
     },
     {
       "epoch": 8.035991379310344,
-      "grad_norm": 0.0036242317873984575,
-      "learning_rate": 3.1327825670498084e-05,
-      "loss": 0.0806,
       "step": 8100
     },
     {
       "epoch": 8.041379310344828,
-      "grad_norm": 0.014978722669184208,
-      "learning_rate": 3.102849616858238e-05,
-      "loss": 0.086,
       "step": 8200
     },
     {
       "epoch": 8.04676724137931,
-      "grad_norm": 0.009934564121067524,
-      "learning_rate": 3.072916666666667e-05,
-      "loss": 0.1235,
       "step": 8300
     },
     {
       "epoch": 8.050053879310346,
-      "eval_accuracy": 0.8766666666666667,
-      "eval_f1": 0.866575291329969,
-      "eval_loss": 0.618326723575592,
-      "eval_precision": 0.9064897139897139,
-      "eval_recall": 0.8766666666666667,
-      "eval_runtime": 231.7492,
-      "eval_samples_per_second": 2.589,
-      "eval_steps_per_second": 1.295,
       "step": 8361
     },
     {
       "epoch": 9.002101293103449,
-      "grad_norm": 0.0033620221074670553,
-      "learning_rate": 3.0429837164750957e-05,
-      "loss": 0.0378,
       "step": 8400
     },
     {
       "epoch": 9.007489224137931,
-      "grad_norm": 0.015458570793271065,
-      "learning_rate": 3.013050766283525e-05,
-      "loss": 0.0141,
       "step": 8500
     },
     {
       "epoch": 9.012877155172413,
-      "grad_norm": 0.017072932794690132,
-      "learning_rate": 2.9831178160919543e-05,
-      "loss": 0.0086,
       "step": 8600
     },
     {
       "epoch": 9.018265086206897,
-      "grad_norm": 0.0023216658737510443,
-      "learning_rate": 2.953184865900383e-05,
-      "loss": 0.0007,
       "step": 8700
     },
     {
       "epoch": 9.02365301724138,
-      "grad_norm": 0.009542972780764103,
-      "learning_rate": 2.9232519157088122e-05,
-      "loss": 0.036,
       "step": 8800
     },
     {
       "epoch": 9.029040948275862,
-      "grad_norm": 0.0023546856828033924,
-      "learning_rate": 2.8933189655172415e-05,
-      "loss": 0.1353,
       "step": 8900
     },
     {
       "epoch": 9.034428879310346,
-      "grad_norm": 0.0027449331246316433,
-      "learning_rate": 2.8633860153256708e-05,
-      "loss": 0.1667,
       "step": 9000
     },
     {
       "epoch": 9.039816810344828,
-      "grad_norm": 0.0034011430107057095,
-      "learning_rate": 2.8334530651340994e-05,
-      "loss": 0.0873,
       "step": 9100
     },
     {
       "epoch": 9.04520474137931,
-      "grad_norm": 0.004074272699654102,
-      "learning_rate": 2.8035201149425287e-05,
-      "loss": 0.0735,
       "step": 9200
     },
     {
       "epoch": 9.050053879310346,
-      "eval_accuracy": 0.8883333333333333,
-      "eval_f1": 0.8821825341386352,
-      "eval_loss": 0.6340678930282593,
-      "eval_precision": 0.9060893319643317,
-      "eval_recall": 0.8883333333333333,
-      "eval_runtime": 229.812,
-      "eval_samples_per_second": 2.611,
-      "eval_steps_per_second": 1.305,
       "step": 9290
     },
     {
       "epoch": 10.000538793103448,
-      "grad_norm": 0.09242723882198334,
-      "learning_rate": 2.773587164750958e-05,
-      "loss": 0.0021,
       "step": 9300
     },
     {
       "epoch": 10.00592672413793,
-      "grad_norm": 0.0014288354432210326,
-      "learning_rate": 2.743654214559387e-05,
-      "loss": 0.0637,
       "step": 9400
     },
     {
       "epoch": 10.011314655172415,
-      "grad_norm": 0.0050833881832659245,
       "learning_rate": 2.7140205938697323e-05,
-      "loss": 0.1093,
       "step": 9500
     },
     {
       "epoch": 10.016702586206897,
-      "grad_norm": 0.001633862848393619,
       "learning_rate": 2.684087643678161e-05,
-      "loss": 0.0003,
       "step": 9600
     },
     {
       "epoch": 10.022090517241379,
-      "grad_norm": 0.0014725265791639686,
       "learning_rate": 2.6541546934865902e-05,
-      "loss": 0.0223,
       "step": 9700
     },
     {
       "epoch": 10.027478448275861,
-      "grad_norm": 0.0021725972183048725,
       "learning_rate": 2.6242217432950195e-05,
-      "loss": 0.0002,
       "step": 9800
     },
     {
       "epoch": 10.032866379310345,
-      "grad_norm": 0.0007712345104664564,
       "learning_rate": 2.594288793103448e-05,
-      "loss": 0.0179,
       "step": 9900
     },
     {
       "epoch": 10.038254310344827,
-      "grad_norm": 0.003118188353255391,
       "learning_rate": 2.5643558429118775e-05,
-      "loss": 0.1807,
       "step": 10000
     },
     {
       "epoch": 10.04364224137931,
-      "grad_norm": 0.005949188955128193,
       "learning_rate": 2.5344228927203068e-05,
-      "loss": 0.0635,
       "step": 10100
     },
     {
       "epoch": 10.049030172413794,
-      "grad_norm": 0.0011764405062422156,
       "learning_rate": 2.5044899425287354e-05,
-      "loss": 0.0151,
       "step": 10200
     },
     {
       "epoch": 10.050053879310346,
-      "eval_accuracy": 0.8583333333333333,
-      "eval_f1": 0.8457451162256711,
-      "eval_loss": 0.6098277568817139,
-      "eval_precision": 0.8839768579317813,
-      "eval_recall": 0.8583333333333333,
-      "eval_runtime": 232.0013,
-      "eval_samples_per_second": 2.586,
-      "eval_steps_per_second": 1.293,
       "step": 10219
     },
     {
       "epoch": 11.00436422413793,
-      "grad_norm": 0.0026564865838736296,
       "learning_rate": 2.4745569923371647e-05,
-      "loss": 0.0588,
       "step": 10300
     },
     {
       "epoch": 11.009752155172414,
-      "grad_norm": 0.0020892955362796783,
       "learning_rate": 2.444624042145594e-05,
-      "loss": 0.0127,
       "step": 10400
     },
     {
       "epoch": 11.015140086206896,
-      "grad_norm": 0.0018600566545501351,
       "learning_rate": 2.414691091954023e-05,
-      "loss": 0.0752,
       "step": 10500
     },
     {
       "epoch": 11.020528017241379,
-      "grad_norm": 0.0007626342703588307,
       "learning_rate": 2.3847581417624522e-05,
-      "loss": 0.0396,
       "step": 10600
     },
     {
       "epoch": 11.025915948275863,
-      "grad_norm": 5.189683437347412,
       "learning_rate": 2.3548251915708812e-05,
-      "loss": 0.0382,
       "step": 10700
     },
     {
       "epoch": 11.031303879310345,
-      "grad_norm": 0.0024633598513901234,
       "learning_rate": 2.32489224137931e-05,
-      "loss": 0.0217,
       "step": 10800
     },
     {
       "epoch": 11.036691810344827,
-      "grad_norm": 0.0005844329716637731,
       "learning_rate": 2.2949592911877395e-05,
-      "loss": 0.0669,
       "step": 10900
     },
     {
       "epoch": 11.042079741379311,
-      "grad_norm": 0.0011919436510652304,
       "learning_rate": 2.2650263409961688e-05,
-      "loss": 0.1789,
       "step": 11000
     },
     {
       "epoch": 11.047467672413793,
-      "grad_norm": 167.0544891357422,
       "learning_rate": 2.2350933908045977e-05,
-      "loss": 0.1384,
       "step": 11100
     },
     {
       "epoch": 11.050053879310346,
-      "eval_accuracy": 0.8233333333333334,
-      "eval_f1": 0.7973034751158519,
-      "eval_loss": 0.9684525728225708,
-      "eval_precision": 0.8543352151231409,
-      "eval_recall": 0.8233333333333334,
-      "eval_runtime": 228.9336,
-      "eval_samples_per_second": 2.621,
-      "eval_steps_per_second": 1.31,
       "step": 11148
     },
     {
       "epoch": 12.002801724137932,
-      "grad_norm": 0.0021829826291650534,
       "learning_rate": 2.205160440613027e-05,
-      "loss": 0.0234,
       "step": 11200
     },
     {
       "epoch": 12.008189655172414,
-      "grad_norm": 0.003679430577903986,
       "learning_rate": 2.175227490421456e-05,
-      "loss": 0.1065,
       "step": 11300
     },
     {
       "epoch": 12.013577586206896,
-      "grad_norm": 0.0021327845752239227,
       "learning_rate": 2.1452945402298853e-05,
-      "loss": 0.0002,
       "step": 11400
     },
     {
       "epoch": 12.01896551724138,
-      "grad_norm": 0.0010305977193638682,
       "learning_rate": 2.1153615900383143e-05,
-      "loss": 0.0032,
       "step": 11500
     },
     {
       "epoch": 12.024353448275862,
-      "grad_norm": 0.0005242049810476601,
       "learning_rate": 2.0854286398467436e-05,
       "loss": 0.0002,
       "step": 11600
     },
     {
       "epoch": 12.029741379310344,
-      "grad_norm": 0.0005336788599379361,
       "learning_rate": 2.0554956896551725e-05,
-      "loss": 0.0005,
       "step": 11700
     },
     {
       "epoch": 12.035129310344828,
-      "grad_norm": 0.0014503005659207702,
-      "learning_rate": 2.0255627394636018e-05,
-      "loss": 0.0004,
       "step": 11800
     },
     {
       "epoch": 12.04051724137931,
-      "grad_norm": 0.009147117845714092,
-      "learning_rate": 1.9956297892720308e-05,
-      "loss": 0.0648,
       "step": 11900
     },
     {
       "epoch": 12.045905172413793,
-      "grad_norm": 0.0012800502590835094,
-      "learning_rate": 1.9656968390804597e-05,
-      "loss": 0.0316,
       "step": 12000
     },
     {
       "epoch": 12.050053879310346,
-      "eval_accuracy": 0.8716666666666667,
-      "eval_f1": 0.8557756398386249,
-      "eval_loss": 0.5841418504714966,
-      "eval_precision": 0.9141972690566041,
-      "eval_recall": 0.8716666666666667,
-      "eval_runtime": 228.0975,
-      "eval_samples_per_second": 2.63,
-      "eval_steps_per_second": 1.315,
       "step": 12077
     },
     {
-      "epoch": 13.001239224137931,
-      "grad_norm": 0.0015646748943254352,
-      "learning_rate": 1.935763888888889e-05,
-      "loss": 0.0713,
-      "step": 12100
-    },
-    {
-      "epoch": 13.006627155172414,
-      "grad_norm": 0.0004947756533510983,
-      "learning_rate": 1.905830938697318e-05,
-      "loss": 0.0118,
-      "step": 12200
-    },
-    {
-      "epoch": 13.012015086206896,
-      "grad_norm": 0.000820747169200331,
-      "learning_rate": 1.8758979885057473e-05,
-      "loss": 0.065,
-      "step": 12300
-    },
-    {
-      "epoch": 13.01740301724138,
-      "grad_norm": 0.0007813798729330301,
-      "learning_rate": 1.8459650383141763e-05,
-      "loss": 0.0001,
-      "step": 12400
-    },
-    {
-      "epoch": 13.022790948275862,
-      "grad_norm": 0.006857636850327253,
-      "learning_rate": 1.8160320881226052e-05,
-      "loss": 0.0077,
-      "step": 12500
-    },
-    {
-      "epoch": 13.028178879310344,
-      "grad_norm": 0.0006027038907632232,
-      "learning_rate": 1.7860991379310345e-05,
-      "loss": 0.0003,
-      "step": 12600
-    },
-    {
-      "epoch": 13.033566810344828,
-      "grad_norm": 0.0012280653463676572,
-      "learning_rate": 1.7561661877394635e-05,
-      "loss": 0.0571,
-      "step": 12700
-    },
-    {
-      "epoch": 13.03895474137931,
-      "grad_norm": 0.0003897466813214123,
-      "learning_rate": 1.7262332375478928e-05,
-      "loss": 0.0261,
-      "step": 12800
-    },
-    {
-      "epoch": 13.044342672413793,
-      "grad_norm": 0.0071249292232096195,
-      "learning_rate": 1.6963002873563217e-05,
-      "loss": 0.0002,
-      "step": 12900
-    },
-    {
-      "epoch": 13.049730603448277,
-      "grad_norm": 0.0019626773428171873,
-      "learning_rate": 1.666367337164751e-05,
-      "loss": 0.0196,
-      "step": 13000
-    },
-    {
-      "epoch": 13.050053879310346,
-      "eval_accuracy": 0.8583333333333333,
-      "eval_f1": 0.8421889833645638,
-      "eval_loss": 0.5936378836631775,
-      "eval_precision": 0.8761535594035592,
-      "eval_recall": 0.8583333333333333,
-      "eval_runtime": 227.4706,
-      "eval_samples_per_second": 2.638,
-      "eval_steps_per_second": 1.319,
-      "step": 13006
-    },
-    {
-      "epoch": 14.005064655172413,
-      "grad_norm": 0.0009299926459789276,
-      "learning_rate": 1.6364343869731803e-05,
-      "loss": 0.0003,
-      "step": 13100
-    },
-    {
-      "epoch": 14.010452586206897,
-      "grad_norm": 0.0008237002766691148,
-      "learning_rate": 1.6065014367816093e-05,
-      "loss": 0.0173,
-      "step": 13200
-    },
-    {
-      "epoch": 14.01584051724138,
-      "grad_norm": 0.000774146756157279,
-      "learning_rate": 1.5765684865900386e-05,
-      "loss": 0.0392,
-      "step": 13300
-    },
-    {
-      "epoch": 14.021228448275862,
-      "grad_norm": 0.0006491324747912586,
-      "learning_rate": 1.5466355363984676e-05,
-      "loss": 0.0001,
-      "step": 13400
-    },
-    {
-      "epoch": 14.026616379310346,
-      "grad_norm": 0.0009205570677295327,
-      "learning_rate": 1.5167025862068967e-05,
-      "loss": 0.0002,
-      "step": 13500
-    },
-    {
-      "epoch": 14.032004310344828,
-      "grad_norm": 0.00815299991518259,
-      "learning_rate": 1.4867696360153258e-05,
-      "loss": 0.0051,
-      "step": 13600
-    },
-    {
-      "epoch": 14.03739224137931,
-      "grad_norm": 0.029927095398306847,
-      "learning_rate": 1.4568366858237548e-05,
-      "loss": 0.0003,
-      "step": 13700
-    },
-    {
-      "epoch": 14.042780172413794,
-      "grad_norm": 0.000600782164838165,
-      "learning_rate": 1.426903735632184e-05,
-      "loss": 0.0021,
-      "step": 13800
-    },
-    {
-      "epoch": 14.048168103448276,
-      "grad_norm": 0.00048748290282674134,
-      "learning_rate": 1.396970785440613e-05,
-      "loss": 0.0001,
-      "step": 13900
-    },
-    {
-      "epoch": 14.050053879310346,
-      "eval_accuracy": 0.875,
-      "eval_f1": 0.8618445924149586,
-      "eval_loss": 0.46920451521873474,
-      "eval_precision": 0.8880091852591852,
-      "eval_recall": 0.875,
-      "eval_runtime": 229.3911,
-      "eval_samples_per_second": 2.616,
-      "eval_steps_per_second": 1.308,
-      "step": 13935
-    },
-    {
-      "epoch": 14.050053879310346,
-      "step": 13935,
-      "total_flos": 2.8572229705761423e+20,
-      "train_loss": 0.8786018516711963,
-      "train_runtime": 53183.4173,
-      "train_samples_per_second": 2.792,
-      "train_steps_per_second": 0.349
     }
   ],
   "logging_steps": 100,
@@ -1197,7 +1040,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.8572229705761423e+20,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9133333333333333,
+  "best_model_checkpoint": "/media/cse/HDD/Shawon/shawon/MY DATA/ViViT_BdSLW60_FrameRate_Corrected_with_Augment_20_epch/checkpoint-7432",
+  "epoch": 12.050053879310346,
   "eval_steps": 500,
+  "global_step": 12077,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.005387931034482759,
+      "grad_norm": 44.996280670166016,
       "learning_rate": 2.613146551724138e-06,
+      "loss": 16.9357,
       "step": 100
     },
     {
       "epoch": 0.010775862068965518,
+      "grad_norm": 45.45180130004883,
       "learning_rate": 5.307112068965517e-06,
+      "loss": 16.4295,
       "step": 200
     },
     {
       "epoch": 0.016163793103448277,
+      "grad_norm": 54.2099609375,
       "learning_rate": 8.001077586206897e-06,
+      "loss": 15.601,
       "step": 300
     },
     {
       "epoch": 0.021551724137931036,
+      "grad_norm": 51.93749237060547,
       "learning_rate": 1.0695043103448277e-05,
+      "loss": 14.0456,
       "step": 400
     },
     {
       "epoch": 0.02693965517241379,
+      "grad_norm": 51.869136810302734,
       "learning_rate": 1.3389008620689655e-05,
+      "loss": 12.1821,
       "step": 500
     },
     {
       "epoch": 0.032327586206896554,
+      "grad_norm": 43.09349822998047,
       "learning_rate": 1.6082974137931035e-05,
+      "loss": 10.0276,
       "step": 600
     },
     {
       "epoch": 0.03771551724137931,
+      "grad_norm": 44.865447998046875,
       "learning_rate": 1.8776939655172415e-05,
+      "loss": 7.8918,
       "step": 700
     },
     {
       "epoch": 0.04310344827586207,
+      "grad_norm": 42.42808532714844,
+      "learning_rate": 2.1470905172413795e-05,
+      "loss": 5.7502,
       "step": 800
     },
     {
       "epoch": 0.04849137931034483,
+      "grad_norm": 48.61973571777344,
+      "learning_rate": 2.4164870689655172e-05,
+      "loss": 4.1133,
       "step": 900
     },
     {
       "epoch": 0.05005387931034483,
+      "eval_accuracy": 0.785,
+      "eval_f1": 0.7528169190592598,
+      "eval_loss": 1.3795690536499023,
+      "eval_precision": 0.7919773605594039,
+      "eval_recall": 0.785,
+      "eval_runtime": 233.1073,
+      "eval_samples_per_second": 2.574,
+      "eval_steps_per_second": 1.287,
       "step": 929
     },
     {
       "epoch": 1.0038254310344827,
+      "grad_norm": 42.01394271850586,
+      "learning_rate": 2.6858836206896555e-05,
+      "loss": 2.7082,
       "step": 1000
     },
     {
       "epoch": 1.0092133620689656,
+      "grad_norm": 28.71566390991211,
+      "learning_rate": 2.9552801724137935e-05,
+      "loss": 1.9286,
       "step": 1100
     },
     {
       "epoch": 1.0146012931034483,
+      "grad_norm": 20.71887969970703,
+      "learning_rate": 3.224676724137931e-05,
+      "loss": 1.5424,
       "step": 1200
     },
     {
       "epoch": 1.0199892241379311,
+      "grad_norm": 9.20992660522461,
+      "learning_rate": 3.4940732758620695e-05,
+      "loss": 1.1072,
       "step": 1300
     },
     {
       "epoch": 1.0253771551724138,
+      "grad_norm": 14.226603507995605,
+      "learning_rate": 3.7634698275862065e-05,
+      "loss": 0.8758,
       "step": 1400
     },
     {
       "epoch": 1.0307650862068964,
+      "grad_norm": 31.854413986206055,
+      "learning_rate": 4.032866379310345e-05,
+      "loss": 0.6505,
       "step": 1500
     },
     {
       "epoch": 1.0361530172413793,
+      "grad_norm": 3.8060741424560547,
+      "learning_rate": 4.302262931034483e-05,
+      "loss": 0.5609,
       "step": 1600
     },
     {
       "epoch": 1.041540948275862,
+      "grad_norm": 2.0829029083251953,
+      "learning_rate": 4.571659482758621e-05,
+      "loss": 0.3229,
       "step": 1700
     },
     {
       "epoch": 1.0469288793103448,
+      "grad_norm": 42.4192008972168,
+      "learning_rate": 4.8410560344827585e-05,
+      "loss": 0.457,
       "step": 1800
     },
     {
       "epoch": 1.0500538793103449,
+      "eval_accuracy": 0.805,
+      "eval_f1": 0.7825185797901353,
+      "eval_loss": 0.6822800040245056,
+      "eval_precision": 0.802178515785327,
+      "eval_recall": 0.805,
+      "eval_runtime": 240.2362,
+      "eval_samples_per_second": 2.498,
+      "eval_steps_per_second": 1.249,
       "step": 1858
     },
     {
       "epoch": 2.002262931034483,
+      "grad_norm": 12.761842727661133,
+      "learning_rate": 4.987727490421456e-05,
+      "loss": 0.3787,
       "step": 1900
     },
     {
       "epoch": 2.0076508620689655,
+      "grad_norm": 50.83833312988281,
+      "learning_rate": 4.9577945402298856e-05,
+      "loss": 0.2625,
       "step": 2000
     },
     {
       "epoch": 2.013038793103448,
+      "grad_norm": 0.29924148321151733,
+      "learning_rate": 4.927861590038315e-05,
+      "loss": 0.2239,
       "step": 2100
     },
     {
       "epoch": 2.0184267241379312,
+      "grad_norm": 0.826822817325592,
       "learning_rate": 4.898227969348659e-05,
+      "loss": 0.1112,
       "step": 2200
     },
     {
       "epoch": 2.023814655172414,
+      "grad_norm": 0.3017016649246216,
       "learning_rate": 4.8682950191570885e-05,
+      "loss": 0.1885,
       "step": 2300
     },
     {
       "epoch": 2.0292025862068965,
+      "grad_norm": 0.4296233355998993,
       "learning_rate": 4.838362068965517e-05,
+      "loss": 0.0939,
       "step": 2400
     },
     {
       "epoch": 2.034590517241379,
+      "grad_norm": 3.5428781509399414,
       "learning_rate": 4.8084291187739464e-05,
+      "loss": 0.1108,
       "step": 2500
     },
     {
       "epoch": 2.0399784482758623,
+      "grad_norm": 1.632077693939209,
       "learning_rate": 4.778496168582376e-05,
+      "loss": 0.041,
       "step": 2600
     },
     {
       "epoch": 2.045366379310345,
+      "grad_norm": 0.03977898135781288,
       "learning_rate": 4.748563218390804e-05,
+      "loss": 0.127,
       "step": 2700
     },
     {
       "epoch": 2.0500538793103447,
+      "eval_accuracy": 0.875,
+      "eval_f1": 0.8649366304984536,
+      "eval_loss": 0.40437865257263184,
+      "eval_precision": 0.9069651070177387,
+      "eval_recall": 0.875,
+      "eval_runtime": 254.0239,
+      "eval_samples_per_second": 2.362,
+      "eval_steps_per_second": 1.181,
       "step": 2787
     },
     {
       "epoch": 3.000700431034483,
+      "grad_norm": 4.661136627197266,
       "learning_rate": 4.7186302681992336e-05,
+      "loss": 0.0988,
       "step": 2800
     },
     {
       "epoch": 3.0060883620689656,
+      "grad_norm": 0.1467408686876297,
       "learning_rate": 4.688697318007663e-05,
+      "loss": 0.1388,
       "step": 2900
     },
     {
       "epoch": 3.011476293103448,
+      "grad_norm": 0.033164821565151215,
       "learning_rate": 4.658764367816092e-05,
+      "loss": 0.1753,
       "step": 3000
     },
     {
       "epoch": 3.016864224137931,
+      "grad_norm": 108.30884552001953,
       "learning_rate": 4.6288314176245215e-05,
+      "loss": 0.096,
       "step": 3100
     },
     {
       "epoch": 3.022252155172414,
+      "grad_norm": 1.1948585510253906,
       "learning_rate": 4.598898467432951e-05,
+      "loss": 0.1017,
       "step": 3200
     },
     {
       "epoch": 3.0276400862068966,
+      "grad_norm": 0.4002668857574463,
       "learning_rate": 4.5689655172413794e-05,
+      "loss": 0.0698,
       "step": 3300
     },
     {
       "epoch": 3.0330280172413793,
+      "grad_norm": 0.42117881774902344,
       "learning_rate": 4.539032567049809e-05,
+      "loss": 0.1945,
       "step": 3400
     },
     {
       "epoch": 3.038415948275862,
+      "grad_norm": 0.09108171612024307,
       "learning_rate": 4.509099616858238e-05,
+      "loss": 0.0966,
       "step": 3500
     },
     {
       "epoch": 3.043803879310345,
+      "grad_norm": 4.29732608795166,
       "learning_rate": 4.4791666666666673e-05,
+      "loss": 0.1104,
       "step": 3600
     },
     {
       "epoch": 3.0491918103448277,
+      "grad_norm": 0.010531960055232048,
       "learning_rate": 4.449233716475096e-05,
+      "loss": 0.1407,
       "step": 3700
     },
     {
       "epoch": 3.0500538793103447,
+      "eval_accuracy": 0.8816666666666667,
+      "eval_f1": 0.8714527796604205,
+      "eval_loss": 0.5490353107452393,
+      "eval_precision": 0.9039293328790232,
+      "eval_recall": 0.8816666666666667,
+      "eval_runtime": 244.9135,
+      "eval_samples_per_second": 2.45,
+      "eval_steps_per_second": 1.225,
       "step": 3716
     },
     {
       "epoch": 4.004525862068966,
+      "grad_norm": 0.02919340878725052,
       "learning_rate": 4.419300766283525e-05,
+      "loss": 0.1761,
       "step": 3800
     },
     {
       "epoch": 4.009913793103448,
+      "grad_norm": 0.25863519310951233,
       "learning_rate": 4.3893678160919546e-05,
+      "loss": 0.1083,
       "step": 3900
     },
     {
       "epoch": 4.015301724137931,
+      "grad_norm": 0.1299174576997757,
       "learning_rate": 4.359434865900383e-05,
+      "loss": 0.0595,
       "step": 4000
     },
     {
       "epoch": 4.020689655172414,
+      "grad_norm": 0.5512826442718506,
       "learning_rate": 4.3295019157088125e-05,
+      "loss": 0.1615,
       "step": 4100
     },
     {
       "epoch": 4.026077586206896,
+      "grad_norm": 2.862527847290039,
+      "learning_rate": 4.299868295019157e-05,
+      "loss": 0.0715,
       "step": 4200
     },
     {
       "epoch": 4.031465517241379,
+      "grad_norm": 0.3813551664352417,
+      "learning_rate": 4.269935344827586e-05,
+      "loss": 0.1772,
       "step": 4300
     },
     {
       "epoch": 4.0368534482758625,
+      "grad_norm": 0.008324003778398037,
+      "learning_rate": 4.2400023946360154e-05,
+      "loss": 0.0744,
       "step": 4400
     },
     {
       "epoch": 4.042241379310345,
+      "grad_norm": 0.05649520456790924,
+      "learning_rate": 4.210069444444445e-05,
+      "loss": 0.2585,
       "step": 4500
     },
     {
       "epoch": 4.047629310344828,
+      "grad_norm": 0.03267912566661835,
+      "learning_rate": 4.1801364942528733e-05,
+      "loss": 0.1246,
       "step": 4600
     },
     {
       "epoch": 4.050053879310345,
+      "eval_accuracy": 0.835,
+      "eval_f1": 0.821264813496895,
+      "eval_loss": 0.7160333395004272,
+      "eval_precision": 0.8686590664433508,
+      "eval_recall": 0.835,
+      "eval_runtime": 244.1725,
+      "eval_samples_per_second": 2.457,
+      "eval_steps_per_second": 1.229,
       "step": 4645
     },
     {
       "epoch": 5.002963362068965,
+      "grad_norm": 0.05763945356011391,
+      "learning_rate": 4.1502035440613026e-05,
+      "loss": 0.205,
       "step": 4700
     },
     {
       "epoch": 5.008351293103448,
+      "grad_norm": 0.13184067606925964,
+      "learning_rate": 4.120270593869732e-05,
+      "loss": 0.1112,
       "step": 4800
     },
     {
       "epoch": 5.013739224137931,
+      "grad_norm": 0.0062297252006828785,
+      "learning_rate": 4.090337643678161e-05,
+      "loss": 0.1682,
       "step": 4900
     },
     {
       "epoch": 5.019127155172414,
+      "grad_norm": 0.016023200005292892,
       "learning_rate": 4.0604046934865905e-05,
+      "loss": 0.055,
       "step": 5000
     },
     {
       "epoch": 5.024515086206897,
+      "grad_norm": 0.029752464964985847,
       "learning_rate": 4.03047174329502e-05,
+      "loss": 0.096,
       "step": 5100
     },
     {
       "epoch": 5.029903017241379,
+      "grad_norm": 0.06200055405497551,
       "learning_rate": 4.0005387931034485e-05,
+      "loss": 0.0506,
       "step": 5200
     },
     {
       "epoch": 5.035290948275862,
+      "grad_norm": 0.02348591759800911,
       "learning_rate": 3.970605842911878e-05,
+      "loss": 0.0288,
       "step": 5300
     },
     {
       "epoch": 5.040678879310345,
+      "grad_norm": 0.006958706304430962,
       "learning_rate": 3.940672892720307e-05,
+      "loss": 0.0938,
       "step": 5400
     },
     {
       "epoch": 5.046066810344827,
+      "grad_norm": 0.02709336392581463,
       "learning_rate": 3.910739942528736e-05,
+      "loss": 0.2027,
       "step": 5500
     },
     {
       "epoch": 5.050053879310345,
+      "eval_accuracy": 0.8383333333333334,
+      "eval_f1": 0.8289960689896035,
+      "eval_loss": 0.7256442904472351,
+      "eval_precision": 0.8751228474254792,
+      "eval_recall": 0.8383333333333334,
+      "eval_runtime": 242.5139,
+      "eval_samples_per_second": 2.474,
+      "eval_steps_per_second": 1.237,
       "step": 5574
     },
     {
       "epoch": 6.001400862068966,
+      "grad_norm": 0.05314677581191063,
       "learning_rate": 3.880806992337165e-05,
+      "loss": 0.1205,
       "step": 5600
     },
     {
       "epoch": 6.006788793103448,
+      "grad_norm": 0.005156402476131916,
       "learning_rate": 3.850874042145594e-05,
+      "loss": 0.0261,
       "step": 5700
     },
     {
       "epoch": 6.012176724137931,
+      "grad_norm": 46.417076110839844,
       "learning_rate": 3.8209410919540236e-05,
+      "loss": 0.0369,
       "step": 5800
     },
     {
       "epoch": 6.017564655172414,
+      "grad_norm": 0.006060323677957058,
       "learning_rate": 3.791008141762452e-05,
+      "loss": 0.0193,
       "step": 5900
     },
     {
       "epoch": 6.022952586206896,
+      "grad_norm": 0.005990663077682257,
       "learning_rate": 3.7610751915708815e-05,
+      "loss": 0.0795,
       "step": 6000
     },
     {
       "epoch": 6.0283405172413795,
+      "grad_norm": 0.006390329450368881,
       "learning_rate": 3.731142241379311e-05,
+      "loss": 0.0412,
       "step": 6100
     },
     {
       "epoch": 6.033728448275862,
+      "grad_norm": 0.005205185152590275,
       "learning_rate": 3.7012092911877394e-05,
+      "loss": 0.0531,
       "step": 6200
     },
     {
       "epoch": 6.039116379310345,
+      "grad_norm": 0.012650382705032825,
+      "learning_rate": 3.6715756704980844e-05,
+      "loss": 0.0592,
       "step": 6300
     },
     {
       "epoch": 6.044504310344828,
+      "grad_norm": 0.04025540128350258,
+      "learning_rate": 3.641642720306514e-05,
+      "loss": 0.1395,
       "step": 6400
     },
     {
       "epoch": 6.04989224137931,
+      "grad_norm": 0.0286850668489933,
+      "learning_rate": 3.611709770114943e-05,
+      "loss": 0.0732,
       "step": 6500
     },
     {
       "epoch": 6.050053879310345,
+      "eval_accuracy": 0.8533333333333334,
+      "eval_f1": 0.8275532074183052,
+      "eval_loss": 0.5921319723129272,
+      "eval_precision": 0.8551399341399342,
+      "eval_recall": 0.8533333333333334,
+      "eval_runtime": 244.1007,
+      "eval_samples_per_second": 2.458,
+      "eval_steps_per_second": 1.229,
       "step": 6503
     },
     {
       "epoch": 7.005226293103449,
+      "grad_norm": 0.0023245313204824924,
+      "learning_rate": 3.5817768199233717e-05,
+      "loss": 0.0649,
       "step": 6600
     },
     {
       "epoch": 7.010614224137931,
+      "grad_norm": 0.0023517808876931667,
+      "learning_rate": 3.551843869731801e-05,
+      "loss": 0.0407,
       "step": 6700
     },
     {
       "epoch": 7.016002155172414,
+      "grad_norm": 0.013913881033658981,
+      "learning_rate": 3.52191091954023e-05,
+      "loss": 0.0053,
       "step": 6800
     },
     {
       "epoch": 7.021390086206897,
+      "grad_norm": 0.0031175080221146345,
+      "learning_rate": 3.4919779693486596e-05,
+      "loss": 0.0861,
       "step": 6900
     },
     {
       "epoch": 7.026778017241379,
+      "grad_norm": 0.009037294425070286,
+      "learning_rate": 3.462045019157089e-05,
+      "loss": 0.1166,
       "step": 7000
     },
     {
       "epoch": 7.032165948275862,
+      "grad_norm": 0.9418705105781555,
+      "learning_rate": 3.4321120689655175e-05,
+      "loss": 0.0069,
       "step": 7100
     },
     {
       "epoch": 7.0375538793103445,
+      "grad_norm": 11.206292152404785,
+      "learning_rate": 3.402179118773947e-05,
+      "loss": 0.0587,
       "step": 7200
     },
     {
       "epoch": 7.042941810344828,
+      "grad_norm": 0.0073406510055065155,
+      "learning_rate": 3.372246168582376e-05,
+      "loss": 0.0682,
       "step": 7300
     },
     {
       "epoch": 7.048329741379311,
+      "grad_norm": 0.017934594303369522,
+      "learning_rate": 3.342313218390805e-05,
+      "loss": 0.1227,
       "step": 7400
     },
     {
       "epoch": 7.050053879310345,
+      "eval_accuracy": 0.9133333333333333,
+      "eval_f1": 0.903757546883535,
+      "eval_loss": 0.4518897533416748,
+      "eval_precision": 0.93387240401211,
+      "eval_recall": 0.9133333333333333,
+      "eval_runtime": 257.345,
+      "eval_samples_per_second": 2.332,
+      "eval_steps_per_second": 1.166,
       "step": 7432
     },
     {
       "epoch": 8.003663793103449,
+      "grad_norm": 0.006660551764070988,
       "learning_rate": 3.312380268199234e-05,
+      "loss": 0.1031,
       "step": 7500
     },
     {
       "epoch": 8.009051724137931,
+      "grad_norm": 0.002086537890136242,
       "learning_rate": 3.282447318007663e-05,
+      "loss": 0.0515,
       "step": 7600
     },
     {
       "epoch": 8.014439655172414,
+      "grad_norm": 0.003373719984665513,
       "learning_rate": 3.252514367816092e-05,
+      "loss": 0.1003,
       "step": 7700
     },
     {
       "epoch": 8.019827586206896,
+      "grad_norm": 0.013187861070036888,
+      "learning_rate": 3.222880747126437e-05,
+      "loss": 0.093,
       "step": 7800
     },
     {
       "epoch": 8.02521551724138,
+      "grad_norm": 0.006704761181026697,
+      "learning_rate": 3.192947796934866e-05,
+      "loss": 0.0737,
       "step": 7900
     },
     {
       "epoch": 8.030603448275862,
+      "grad_norm": 0.0026132178027182817,
+      "learning_rate": 3.163014846743295e-05,
+      "loss": 0.0678,
       "step": 8000
     },
     {
       "epoch": 8.035991379310344,
+      "grad_norm": 0.0027548556681722403,
+      "learning_rate": 3.133081896551724e-05,
+      "loss": 0.1473,
       "step": 8100
     },
     {
       "epoch": 8.041379310344828,
+      "grad_norm": 0.7461249828338623,
+      "learning_rate": 3.1031489463601535e-05,
+      "loss": 0.0329,
       "step": 8200
     },
     {
       "epoch": 8.04676724137931,
+      "grad_norm": 0.02466505765914917,
+      "learning_rate": 3.073215996168583e-05,
+      "loss": 0.008,
       "step": 8300
     },
     {
       "epoch": 8.050053879310346,
+      "eval_accuracy": 0.8816666666666667,
+      "eval_f1": 0.8717720724850051,
+      "eval_loss": 0.5256505608558655,
+      "eval_precision": 0.8920796564546565,
+      "eval_recall": 0.8816666666666667,
+      "eval_runtime": 247.3604,
+      "eval_samples_per_second": 2.426,
+      "eval_steps_per_second": 1.213,
       "step": 8361
     },
     {
       "epoch": 9.002101293103449,
+      "grad_norm": 0.0022144834510982037,
+      "learning_rate": 3.0432830459770117e-05,
+      "loss": 0.0073,
       "step": 8400
     },
     {
       "epoch": 9.007489224137931,
+      "grad_norm": 0.0009188210242427886,
+      "learning_rate": 3.013350095785441e-05,
+      "loss": 0.0012,
       "step": 8500
     },
     {
       "epoch": 9.012877155172413,
+      "grad_norm": 0.003240600461140275,
+      "learning_rate": 2.9834171455938696e-05,
+      "loss": 0.0951,
       "step": 8600
     },
     {
       "epoch": 9.018265086206897,
+      "grad_norm": 0.0022599203512072563,
+      "learning_rate": 2.953484195402299e-05,
+      "loss": 0.1445,
       "step": 8700
     },
     {
       "epoch": 9.02365301724138,
+      "grad_norm": 0.0024571302346885204,
+      "learning_rate": 2.9235512452107282e-05,
+      "loss": 0.067,
       "step": 8800
     },
     {
       "epoch": 9.029040948275862,
+      "grad_norm": 0.005897119175642729,
+      "learning_rate": 2.8936182950191572e-05,
+      "loss": 0.0787,
       "step": 8900
     },
     {
       "epoch": 9.034428879310346,
+      "grad_norm": 0.0023025632835924625,
+      "learning_rate": 2.863685344827586e-05,
+      "loss": 0.0291,
       "step": 9000
     },
     {
       "epoch": 9.039816810344828,
+      "grad_norm": 0.0022082675714045763,
+      "learning_rate": 2.8337523946360155e-05,
+      "loss": 0.0205,
       "step": 9100
     },
     {
       "epoch": 9.04520474137931,
+      "grad_norm": 0.0019972999580204487,
+      "learning_rate": 2.8038194444444444e-05,
+      "loss": 0.0305,
       "step": 9200
     },
     {
       "epoch": 9.050053879310346,
+      "eval_accuracy": 0.875,
+      "eval_f1": 0.8692594831259187,
+      "eval_loss": 0.47304627299308777,
+      "eval_precision": 0.9054302271802271,
+      "eval_recall": 0.875,
+      "eval_runtime": 241.8724,
+      "eval_samples_per_second": 2.481,
+      "eval_steps_per_second": 1.24,
       "step": 9290
     },
     {
       "epoch": 10.000538793103448,
+      "grad_norm": 0.017581766471266747,
+      "learning_rate": 2.7738864942528737e-05,
+      "loss": 0.1792,
       "step": 9300
     },
     {
       "epoch": 10.00592672413793,
+      "grad_norm": 0.004698904696851969,
+      "learning_rate": 2.743953544061303e-05,
+      "loss": 0.056,
       "step": 9400
     },
     {
       "epoch": 10.011314655172415,
+      "grad_norm": 0.008250257931649685,
       "learning_rate": 2.7140205938697323e-05,
+      "loss": 0.0331,
       "step": 9500
     },
     {
       "epoch": 10.016702586206897,
+      "grad_norm": 0.0012181774945929646,
       "learning_rate": 2.684087643678161e-05,
+      "loss": 0.0629,
       "step": 9600
     },
     {
       "epoch": 10.022090517241379,
+      "grad_norm": 0.0028695575892925262,
       "learning_rate": 2.6541546934865902e-05,
+      "loss": 0.0003,
       "step": 9700
     },
     {
       "epoch": 10.027478448275861,
+      "grad_norm": 0.0034121479839086533,
       "learning_rate": 2.6242217432950195e-05,
+      "loss": 0.001,
       "step": 9800
     },
     {
       "epoch": 10.032866379310345,
+      "grad_norm": 0.0005478397361002862,
       "learning_rate": 2.594288793103448e-05,
+      "loss": 0.0248,
       "step": 9900
     },
     {
       "epoch": 10.038254310344827,
+      "grad_norm": 0.0011529740877449512,
       "learning_rate": 2.5643558429118775e-05,
+      "loss": 0.0343,
       "step": 10000
     },
     {
       "epoch": 10.04364224137931,
+      "grad_norm": 0.00172089331317693,
       "learning_rate": 2.5344228927203068e-05,
+      "loss": 0.0511,
       "step": 10100
     },
     {
       "epoch": 10.049030172413794,
+      "grad_norm": 0.0011943551944568753,
       "learning_rate": 2.5044899425287354e-05,
+      "loss": 0.0408,
       "step": 10200
     },
     {
       "epoch": 10.050053879310346,
+      "eval_accuracy": 0.8983333333333333,
+      "eval_f1": 0.8842052874549817,
+      "eval_loss": 0.5418481826782227,
+      "eval_precision": 0.9046440351587409,
+      "eval_recall": 0.8983333333333333,
+      "eval_runtime": 241.7113,
+      "eval_samples_per_second": 2.482,
+      "eval_steps_per_second": 1.241,
       "step": 10219
     },
     {
       "epoch": 11.00436422413793,
+      "grad_norm": 0.0016319830901920795,
       "learning_rate": 2.4745569923371647e-05,
+      "loss": 0.0001,
       "step": 10300
     },
     {
       "epoch": 11.009752155172414,
+      "grad_norm": 0.0004701576544903219,
       "learning_rate": 2.444624042145594e-05,
+      "loss": 0.0001,
       "step": 10400
     },
     {
       "epoch": 11.015140086206896,
+      "grad_norm": 0.0017597374971956015,
       "learning_rate": 2.414691091954023e-05,
+      "loss": 0.0136,
       "step": 10500
     },
     {
       "epoch": 11.020528017241379,
+      "grad_norm": 0.01477858331054449,
       "learning_rate": 2.3847581417624522e-05,
+      "loss": 0.1222,
       "step": 10600
     },
     {
       "epoch": 11.025915948275863,
+      "grad_norm": 0.0006441728910431266,
       "learning_rate": 2.3548251915708812e-05,
+      "loss": 0.0232,
       "step": 10700
     },
     {
       "epoch": 11.031303879310345,
+      "grad_norm": 0.0006119401077739894,
       "learning_rate": 2.32489224137931e-05,
+      "loss": 0.0367,
       "step": 10800
     },
     {
       "epoch": 11.036691810344827,
+      "grad_norm": 0.0007156543433666229,
       "learning_rate": 2.2949592911877395e-05,
+      "loss": 0.0093,
       "step": 10900
     },
     {
       "epoch": 11.042079741379311,
+      "grad_norm": 0.0010432846611365676,
       "learning_rate": 2.2650263409961688e-05,
+      "loss": 0.0676,
       "step": 11000
     },
     {
       "epoch": 11.047467672413793,
+      "grad_norm": 0.001301914220675826,
       "learning_rate": 2.2350933908045977e-05,
+      "loss": 0.1458,
       "step": 11100
     },
     {
       "epoch": 11.050053879310346,
+      "eval_accuracy": 0.9083333333333333,
+      "eval_f1": 0.9006175981607246,
+      "eval_loss": 0.4161905348300934,
+      "eval_precision": 0.9324254310504311,
+      "eval_recall": 0.9083333333333333,
+      "eval_runtime": 239.4431,
+      "eval_samples_per_second": 2.506,
+      "eval_steps_per_second": 1.253,
       "step": 11148
     },
     {
       "epoch": 12.002801724137932,
+      "grad_norm": 0.002654217416420579,
       "learning_rate": 2.205160440613027e-05,
+      "loss": 0.0128,
       "step": 11200
     },
     {
       "epoch": 12.008189655172414,
+      "grad_norm": 0.02851945348083973,
       "learning_rate": 2.175227490421456e-05,
+      "loss": 0.0537,
       "step": 11300
     },
     {
       "epoch": 12.013577586206896,
+      "grad_norm": 0.0013686069287359715,
       "learning_rate": 2.1452945402298853e-05,
+      "loss": 0.1084,
       "step": 11400
     },
     {
       "epoch": 12.01896551724138,
+      "grad_norm": 0.01034180074930191,
       "learning_rate": 2.1153615900383143e-05,
+      "loss": 0.001,
       "step": 11500
     },
     {
       "epoch": 12.024353448275862,
+      "grad_norm": 0.09238652139902115,
       "learning_rate": 2.0854286398467436e-05,
       "loss": 0.0002,
       "step": 11600
     },
     {
       "epoch": 12.029741379310344,
+      "grad_norm": 0.0005905936704948545,
       "learning_rate": 2.0554956896551725e-05,
+      "loss": 0.0785,
       "step": 11700
     },
     {
       "epoch": 12.035129310344828,
+      "grad_norm": 79.22927856445312,
+      "learning_rate": 2.0258620689655172e-05,
+      "loss": 0.1717,
       "step": 11800
     },
     {
       "epoch": 12.04051724137931,
+      "grad_norm": 0.0007606602157466114,
+      "learning_rate": 1.9959291187739465e-05,
+      "loss": 0.0072,
       "step": 11900
     },
     {
       "epoch": 12.045905172413793,
+      "grad_norm": 0.007135913707315922,
+      "learning_rate": 1.9659961685823754e-05,
+      "loss": 0.0402,
       "step": 12000
     },
     {
       "epoch": 12.050053879310346,
+      "eval_accuracy": 0.8116666666666666,
+      "eval_f1": 0.7868449994676958,
+      "eval_loss": 1.0008749961853027,
+      "eval_precision": 0.852888006780228,
+      "eval_recall": 0.8116666666666666,
+      "eval_runtime": 236.3389,
+      "eval_samples_per_second": 2.539,
+      "eval_steps_per_second": 1.269,
       "step": 12077
     },
     {
+      "epoch": 12.050053879310346,
+      "step": 12077,
+      "total_flos": 2.4762599078326567e+20,
+      "train_loss": 1.0090189557246463,
+      "train_runtime": 47739.3488,
+      "train_samples_per_second": 3.11,
+      "train_steps_per_second": 0.389
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 2.4762599078326567e+20,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null