End of training

Browse files

Files changed (6) hide show

README.md +1 -0
all_results.json +11 -11
eval_results.json +6 -6
runs/May15_01-09-48_cs-Precision-7960-Tower/events.out.tfevents.1747286441.cs-Precision-7960-Tower.142382.1 +3 -0
train_results.json +6 -6
trainer_state.json +495 -890

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: facebook/wav2vec2-base
 tags:
 - generated_from_trainer
 datasets:
 - superb

 license: apache-2.0
 base_model: facebook/wav2vec2-base
 tags:
+- audio-classification
 - generated_from_trainer
 datasets:
 - superb

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 7.996245306633291,
-    "eval_accuracy": 0.9814651368049426,
-    "eval_loss": 0.12438357621431351,
-    "eval_runtime": 5.5465,
-    "eval_samples_per_second": 1225.644,
-    "eval_steps_per_second": 38.403,
-    "total_flos": 3.777723239743488e+18,
-    "train_loss": 0.726146658611058,
-    "train_runtime": 635.8846,
-    "train_samples_per_second": 642.808,
-    "train_steps_per_second": 2.504
 }

 {
+    "epoch": 10.0,
+    "eval_accuracy": 0.9811709326272433,
+    "eval_loss": 0.12430207431316376,
+    "eval_runtime": 5.5067,
+    "eval_samples_per_second": 1234.495,
+    "eval_steps_per_second": 38.68,
+    "total_flos": 4.72566865822464e+18,
+    "train_loss": 0.7669839228391647,
+    "train_runtime": 621.093,
+    "train_samples_per_second": 822.646,
+    "train_steps_per_second": 1.61
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 7.996245306633291,
-    "eval_accuracy": 0.9814651368049426,
-    "eval_loss": 0.12438357621431351,
-    "eval_runtime": 5.5465,
-    "eval_samples_per_second": 1225.644,
-    "eval_steps_per_second": 38.403
 }

 {
+    "epoch": 10.0,
+    "eval_accuracy": 0.9811709326272433,
+    "eval_loss": 0.12430207431316376,
+    "eval_runtime": 5.5067,
+    "eval_samples_per_second": 1234.495,
+    "eval_steps_per_second": 38.68
 }

runs/May15_01-09-48_cs-Precision-7960-Tower/events.out.tfevents.1747286441.cs-Precision-7960-Tower.142382.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b4a01e10ace34301715b9656dc9fd42cad89a638c9363f5b4a92b534d963ea4
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 7.996245306633291,
-    "total_flos": 3.777723239743488e+18,
-    "train_loss": 0.726146658611058,
-    "train_runtime": 635.8846,
-    "train_samples_per_second": 642.808,
-    "train_steps_per_second": 2.504
 }

 {
+    "epoch": 10.0,
+    "total_flos": 4.72566865822464e+18,
+    "train_loss": 0.7669839228391647,
+    "train_runtime": 621.093,
+    "train_samples_per_second": 822.646,
+    "train_steps_per_second": 1.61
 }

trainer_state.json CHANGED Viewed

@@ -1,1212 +1,817 @@
 {
-  "best_metric": 0.9814651368049426,
-  "best_model_checkpoint": "wav2vec2-base-ft-keyword-spotting/checkpoint-1393",
-  "epoch": 7.996245306633291,
   "eval_steps": 500,
-  "global_step": 1592,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05006257822277847,
-      "grad_norm": 2.2161571979522705,
-      "learning_rate": 1.25e-06,
-      "loss": 4.0993,
       "step": 10
     },
     {
-      "epoch": 0.10012515644555695,
-      "grad_norm": 3.068307399749756,
-      "learning_rate": 2.5e-06,
-      "loss": 4.1801,
       "step": 20
     },
     {
-      "epoch": 0.15018773466833543,
-      "grad_norm": 3.121358871459961,
-      "learning_rate": 3.7500000000000005e-06,
-      "loss": 4.11,
       "step": 30
     },
     {
-      "epoch": 0.2002503128911139,
-      "grad_norm": 3.456892728805542,
-      "learning_rate": 5e-06,
-      "loss": 3.9697,
       "step": 40
     },
     {
-      "epoch": 0.2503128911138924,
-      "grad_norm": 4.699773788452148,
-      "learning_rate": 6.25e-06,
-      "loss": 3.7271,
       "step": 50
     },
     {
-      "epoch": 0.30037546933667086,
-      "grad_norm": 6.0911078453063965,
-      "learning_rate": 7.500000000000001e-06,
-      "loss": 3.3436,
       "step": 60
     },
     {
-      "epoch": 0.3504380475594493,
-      "grad_norm": 5.996876239776611,
-      "learning_rate": 8.750000000000001e-06,
-      "loss": 2.8803,
       "step": 70
     },
     {
-      "epoch": 0.4005006257822278,
-      "grad_norm": 5.593225479125977,
-      "learning_rate": 1e-05,
-      "loss": 2.54,
       "step": 80
     },
     {
-      "epoch": 0.45056320400500627,
-      "grad_norm": 5.177072525024414,
-      "learning_rate": 1.125e-05,
-      "loss": 2.326,
       "step": 90
     },
     {
-      "epoch": 0.5006257822277848,
-      "grad_norm": 4.610163688659668,
-      "learning_rate": 1.25e-05,
-      "loss": 2.1907,
       "step": 100
     },
     {
-      "epoch": 0.5506883604505632,
-      "grad_norm": 4.401670932769775,
-      "learning_rate": 1.375e-05,
-      "loss": 2.054,
       "step": 110
     },
     {
-      "epoch": 0.6007509386733417,
-      "grad_norm": 3.190901041030884,
-      "learning_rate": 1.5000000000000002e-05,
-      "loss": 1.994,
       "step": 120
     },
     {
-      "epoch": 0.6508135168961201,
-      "grad_norm": 2.314962148666382,
-      "learning_rate": 1.6250000000000002e-05,
-      "loss": 1.9256,
       "step": 130
     },
     {
-      "epoch": 0.7008760951188986,
-      "grad_norm": 2.310375690460205,
-      "learning_rate": 1.7500000000000002e-05,
-      "loss": 1.7774,
       "step": 140
     },
     {
-      "epoch": 0.7509386733416771,
-      "grad_norm": 1.4242396354675293,
-      "learning_rate": 1.8750000000000002e-05,
-      "loss": 1.7961,
       "step": 150
     },
     {
-      "epoch": 0.8010012515644556,
-      "grad_norm": 0.6981024742126465,
-      "learning_rate": 2e-05,
-      "loss": 1.8108,
       "step": 160
     },
     {
-      "epoch": 0.851063829787234,
-      "grad_norm": 0.7541513442993164,
-      "learning_rate": 1.9860335195530728e-05,
-      "loss": 1.733,
       "step": 170
     },
     {
-      "epoch": 0.9011264080100125,
-      "grad_norm": 1.1699227094650269,
-      "learning_rate": 1.9720670391061455e-05,
-      "loss": 1.759,
       "step": 180
     },
     {
-      "epoch": 0.951188986232791,
-      "grad_norm": 2.1834521293640137,
-      "learning_rate": 1.958100558659218e-05,
-      "loss": 1.7191,
       "step": 190
     },
     {
-      "epoch": 0.9962453066332916,
-      "eval_accuracy": 0.6209179170344219,
-      "eval_loss": 1.5815445184707642,
-      "eval_runtime": 4.9783,
-      "eval_samples_per_second": 1365.528,
-      "eval_steps_per_second": 42.786,
-      "step": 199
     },
     {
-      "epoch": 1.0050062578222778,
-      "grad_norm": 3.1251320838928223,
-      "learning_rate": 1.9441340782122907e-05,
-      "loss": 1.7482,
       "step": 200
     },
     {
-      "epoch": 1.0550688360450564,
-      "grad_norm": 4.351515293121338,
-      "learning_rate": 1.9301675977653634e-05,
-      "loss": 1.5606,
       "step": 210
     },
     {
-      "epoch": 1.1051314142678348,
-      "grad_norm": 2.624279022216797,
-      "learning_rate": 1.9162011173184357e-05,
-      "loss": 1.5657,
       "step": 220
     },
     {
-      "epoch": 1.1551939924906134,
-      "grad_norm": 2.795576333999634,
-      "learning_rate": 1.9022346368715087e-05,
-      "loss": 1.4578,
       "step": 230
     },
     {
-      "epoch": 1.2052565707133918,
-      "grad_norm": 2.7234373092651367,
-      "learning_rate": 1.888268156424581e-05,
-      "loss": 1.449,
       "step": 240
     },
     {
-      "epoch": 1.2553191489361701,
-      "grad_norm": 5.743226528167725,
-      "learning_rate": 1.8743016759776536e-05,
-      "loss": 1.4041,
       "step": 250
     },
     {
-      "epoch": 1.3053817271589487,
-      "grad_norm": 6.164392471313477,
-      "learning_rate": 1.8603351955307266e-05,
-      "loss": 1.3667,
       "step": 260
     },
     {
-      "epoch": 1.355444305381727,
-      "grad_norm": 3.474940299987793,
-      "learning_rate": 1.846368715083799e-05,
-      "loss": 1.2949,
       "step": 270
     },
     {
-      "epoch": 1.4055068836045057,
-      "grad_norm": 4.262696266174316,
-      "learning_rate": 1.8324022346368716e-05,
-      "loss": 1.2814,
       "step": 280
     },
     {
-      "epoch": 1.455569461827284,
-      "grad_norm": 7.003787994384766,
-      "learning_rate": 1.8184357541899442e-05,
-      "loss": 1.2096,
       "step": 290
     },
     {
-      "epoch": 1.5056320400500627,
-      "grad_norm": 3.957937240600586,
-      "learning_rate": 1.804469273743017e-05,
-      "loss": 1.183,
       "step": 300
     },
     {
-      "epoch": 1.555694618272841,
-      "grad_norm": 4.9982991218566895,
-      "learning_rate": 1.7905027932960895e-05,
-      "loss": 1.2105,
       "step": 310
     },
     {
-      "epoch": 1.6057571964956194,
-      "grad_norm": 3.900266647338867,
-      "learning_rate": 1.776536312849162e-05,
-      "loss": 1.1167,
       "step": 320
     },
     {
-      "epoch": 1.655819774718398,
-      "grad_norm": 4.397927284240723,
-      "learning_rate": 1.7625698324022348e-05,
-      "loss": 1.144,
       "step": 330
     },
     {
-      "epoch": 1.7058823529411766,
-      "grad_norm": 3.0843544006347656,
-      "learning_rate": 1.7486033519553075e-05,
-      "loss": 1.101,
       "step": 340
     },
     {
-      "epoch": 1.7559449311639548,
-      "grad_norm": 3.6377310752868652,
-      "learning_rate": 1.73463687150838e-05,
-      "loss": 1.0482,
       "step": 350
     },
     {
-      "epoch": 1.8060075093867334,
-      "grad_norm": 2.659217357635498,
-      "learning_rate": 1.7206703910614527e-05,
-      "loss": 1.0428,
       "step": 360
     },
     {
-      "epoch": 1.856070087609512,
-      "grad_norm": 4.358920097351074,
-      "learning_rate": 1.7067039106145254e-05,
-      "loss": 1.0483,
       "step": 370
     },
     {
-      "epoch": 1.9061326658322904,
-      "grad_norm": 4.7584452629089355,
-      "learning_rate": 1.6927374301675977e-05,
-      "loss": 0.9886,
       "step": 380
     },
     {
-      "epoch": 1.9561952440550687,
-      "grad_norm": 3.638371229171753,
-      "learning_rate": 1.6787709497206707e-05,
-      "loss": 1.0088,
       "step": 390
     },
     {
-      "epoch": 1.9962453066332917,
-      "eval_accuracy": 0.83480435422183,
-      "eval_loss": 0.9595487713813782,
-      "eval_runtime": 5.0807,
-      "eval_samples_per_second": 1338.014,
-      "eval_steps_per_second": 41.924,
-      "step": 398
     },
     {
-      "epoch": 2.0100125156445556,
-      "grad_norm": 2.447006940841675,
-      "learning_rate": 1.664804469273743e-05,
-      "loss": 1.0295,
       "step": 400
     },
     {
-      "epoch": 2.0600750938673342,
-      "grad_norm": 3.891425132751465,
-      "learning_rate": 1.6508379888268156e-05,
-      "loss": 0.9607,
       "step": 410
     },
     {
-      "epoch": 2.110137672090113,
-      "grad_norm": 3.9283361434936523,
-      "learning_rate": 1.6368715083798886e-05,
-      "loss": 0.9797,
       "step": 420
     },
     {
-      "epoch": 2.160200250312891,
-      "grad_norm": 3.9875011444091797,
-      "learning_rate": 1.622905027932961e-05,
-      "loss": 0.923,
       "step": 430
     },
     {
-      "epoch": 2.2102628285356696,
-      "grad_norm": 2.9517266750335693,
-      "learning_rate": 1.6089385474860336e-05,
-      "loss": 0.872,
       "step": 440
     },
     {
-      "epoch": 2.260325406758448,
-      "grad_norm": 6.958038330078125,
-      "learning_rate": 1.5949720670391062e-05,
-      "loss": 0.8477,
       "step": 450
     },
     {
-      "epoch": 2.3103879849812268,
-      "grad_norm": 2.592712640762329,
-      "learning_rate": 1.581005586592179e-05,
-      "loss": 0.803,
       "step": 460
     },
     {
-      "epoch": 2.360450563204005,
-      "grad_norm": 3.0653076171875,
-      "learning_rate": 1.5670391061452515e-05,
-      "loss": 0.7824,
       "step": 470
     },
     {
-      "epoch": 2.4105131414267835,
-      "grad_norm": 4.134679794311523,
-      "learning_rate": 1.553072625698324e-05,
-      "loss": 0.7681,
       "step": 480
     },
     {
-      "epoch": 2.460575719649562,
-      "grad_norm": 2.6600096225738525,
-      "learning_rate": 1.5391061452513968e-05,
-      "loss": 0.6916,
       "step": 490
     },
     {
-      "epoch": 2.5106382978723403,
-      "grad_norm": 2.778372287750244,
-      "learning_rate": 1.5251396648044694e-05,
-      "loss": 0.7158,
       "step": 500
     },
     {
-      "epoch": 2.560700876095119,
-      "grad_norm": 2.7881994247436523,
-      "learning_rate": 1.5111731843575421e-05,
-      "loss": 0.689,
       "step": 510
     },
     {
-      "epoch": 2.6107634543178975,
-      "grad_norm": 3.771796226501465,
-      "learning_rate": 1.4972067039106146e-05,
-      "loss": 0.6383,
       "step": 520
     },
     {
-      "epoch": 2.660826032540676,
-      "grad_norm": 3.580981731414795,
-      "learning_rate": 1.4832402234636874e-05,
-      "loss": 0.6086,
       "step": 530
     },
     {
-      "epoch": 2.710888610763454,
-      "grad_norm": 2.298293352127075,
-      "learning_rate": 1.4692737430167599e-05,
-      "loss": 0.581,
       "step": 540
     },
     {
-      "epoch": 2.760951188986233,
-      "grad_norm": 3.767306327819824,
-      "learning_rate": 1.4553072625698325e-05,
-      "loss": 0.5556,
       "step": 550
     },
     {
-      "epoch": 2.8110137672090114,
-      "grad_norm": 3.712104558944702,
-      "learning_rate": 1.4413407821229052e-05,
-      "loss": 0.5637,
       "step": 560
     },
     {
-      "epoch": 2.8610763454317896,
-      "grad_norm": 2.500260829925537,
-      "learning_rate": 1.4273743016759778e-05,
-      "loss": 0.525,
       "step": 570
     },
     {
-      "epoch": 2.911138923654568,
-      "grad_norm": 3.4421885013580322,
-      "learning_rate": 1.4134078212290503e-05,
-      "loss": 0.5235,
       "step": 580
     },
     {
-      "epoch": 2.9612015018773468,
-      "grad_norm": 3.3740108013153076,
-      "learning_rate": 1.3994413407821231e-05,
-      "loss": 0.4964,
       "step": 590
     },
     {
-      "epoch": 2.9962453066332917,
-      "eval_accuracy": 0.9727861135628126,
-      "eval_loss": 0.37298157811164856,
-      "eval_runtime": 4.944,
-      "eval_samples_per_second": 1374.987,
-      "eval_steps_per_second": 43.082,
-      "step": 597
     },
     {
-      "epoch": 3.0150187734668337,
-      "grad_norm": 5.472856521606445,
-      "learning_rate": 1.3854748603351957e-05,
-      "loss": 0.5243,
       "step": 600
     },
     {
-      "epoch": 3.065081351689612,
-      "grad_norm": 3.919224977493286,
-      "learning_rate": 1.3715083798882682e-05,
-      "loss": 0.4697,
       "step": 610
     },
     {
-      "epoch": 3.1151439299123904,
-      "grad_norm": 2.8592793941497803,
-      "learning_rate": 1.357541899441341e-05,
-      "loss": 0.4581,
       "step": 620
     },
     {
-      "epoch": 3.165206508135169,
-      "grad_norm": 3.517875909805298,
-      "learning_rate": 1.3435754189944135e-05,
-      "loss": 0.4609,
       "step": 630
     },
     {
-      "epoch": 3.2152690863579476,
-      "grad_norm": 3.0219643115997314,
-      "learning_rate": 1.3296089385474861e-05,
-      "loss": 0.4251,
       "step": 640
     },
     {
-      "epoch": 3.2653316645807258,
-      "grad_norm": 4.166126728057861,
-      "learning_rate": 1.3156424581005586e-05,
-      "loss": 0.4026,
       "step": 650
     },
     {
-      "epoch": 3.3153942428035044,
-      "grad_norm": 2.9157118797302246,
-      "learning_rate": 1.3016759776536314e-05,
-      "loss": 0.4101,
       "step": 660
     },
     {
-      "epoch": 3.365456821026283,
-      "grad_norm": 2.605928897857666,
-      "learning_rate": 1.287709497206704e-05,
-      "loss": 0.3951,
       "step": 670
     },
     {
-      "epoch": 3.415519399249061,
-      "grad_norm": 2.282757043838501,
-      "learning_rate": 1.2737430167597766e-05,
-      "loss": 0.3876,
       "step": 680
     },
     {
-      "epoch": 3.4655819774718397,
-      "grad_norm": 2.8429336547851562,
-      "learning_rate": 1.2597765363128494e-05,
-      "loss": 0.3735,
       "step": 690
     },
     {
-      "epoch": 3.5156445556946183,
-      "grad_norm": 3.3356730937957764,
-      "learning_rate": 1.2458100558659219e-05,
-      "loss": 0.3873,
       "step": 700
     },
     {
-      "epoch": 3.565707133917397,
-      "grad_norm": 3.1262238025665283,
-      "learning_rate": 1.2318435754189945e-05,
-      "loss": 0.3572,
       "step": 710
     },
     {
-      "epoch": 3.615769712140175,
-      "grad_norm": 3.589921712875366,
-      "learning_rate": 1.2178770949720671e-05,
-      "loss": 0.3558,
       "step": 720
     },
     {
-      "epoch": 3.6658322903629537,
-      "grad_norm": 3.085702896118164,
-      "learning_rate": 1.2039106145251398e-05,
-      "loss": 0.3499,
       "step": 730
     },
     {
-      "epoch": 3.7158948685857323,
-      "grad_norm": 3.2283403873443604,
-      "learning_rate": 1.1899441340782123e-05,
-      "loss": 0.3428,
       "step": 740
     },
     {
-      "epoch": 3.7659574468085104,
-      "grad_norm": 2.824887990951538,
-      "learning_rate": 1.175977653631285e-05,
-      "loss": 0.3399,
       "step": 750
     },
     {
-      "epoch": 3.816020025031289,
-      "grad_norm": 3.595198392868042,
-      "learning_rate": 1.1620111731843577e-05,
-      "loss": 0.3264,
       "step": 760
     },
     {
-      "epoch": 3.8660826032540676,
-      "grad_norm": 4.541857719421387,
-      "learning_rate": 1.1480446927374302e-05,
-      "loss": 0.3322,
       "step": 770
     },
     {
-      "epoch": 3.916145181476846,
-      "grad_norm": 3.149718999862671,
-      "learning_rate": 1.134078212290503e-05,
-      "loss": 0.3032,
       "step": 780
     },
     {
-      "epoch": 3.966207759699625,
-      "grad_norm": 3.3817384243011475,
-      "learning_rate": 1.1201117318435755e-05,
-      "loss": 0.3263,
       "step": 790
     },
     {
-      "epoch": 3.9962453066332917,
-      "eval_accuracy": 0.9783759929390997,
-      "eval_loss": 0.21611753106117249,
-      "eval_runtime": 4.9235,
-      "eval_samples_per_second": 1380.729,
-      "eval_steps_per_second": 43.262,
-      "step": 796
     },
     {
-      "epoch": 4.020025031289111,
-      "grad_norm": 3.4890668392181396,
-      "learning_rate": 1.1061452513966481e-05,
-      "loss": 0.3262,
       "step": 800
     },
     {
-      "epoch": 4.07008760951189,
-      "grad_norm": 2.202880382537842,
-      "learning_rate": 1.0921787709497206e-05,
-      "loss": 0.3101,
       "step": 810
     },
     {
-      "epoch": 4.1201501877346685,
-      "grad_norm": 2.4988725185394287,
-      "learning_rate": 1.0782122905027934e-05,
-      "loss": 0.3022,
       "step": 820
     },
     {
-      "epoch": 4.170212765957447,
-      "grad_norm": 3.495452404022217,
-      "learning_rate": 1.0642458100558659e-05,
-      "loss": 0.2997,
       "step": 830
     },
     {
-      "epoch": 4.220275344180226,
-      "grad_norm": 2.8825905323028564,
-      "learning_rate": 1.0502793296089386e-05,
-      "loss": 0.3182,
       "step": 840
     },
     {
-      "epoch": 4.270337922403003,
-      "grad_norm": 2.3349449634552,
-      "learning_rate": 1.0363128491620114e-05,
-      "loss": 0.2884,
       "step": 850
     },
     {
-      "epoch": 4.320400500625782,
-      "grad_norm": 3.996652603149414,
-      "learning_rate": 1.0223463687150838e-05,
-      "loss": 0.29,
       "step": 860
     },
     {
-      "epoch": 4.370463078848561,
-      "grad_norm": 1.9067742824554443,
-      "learning_rate": 1.0083798882681567e-05,
-      "loss": 0.2703,
       "step": 870
     },
     {
-      "epoch": 4.420525657071339,
-      "grad_norm": 3.410153388977051,
-      "learning_rate": 9.944134078212291e-06,
-      "loss": 0.2864,
       "step": 880
     },
     {
-      "epoch": 4.470588235294118,
-      "grad_norm": 2.604459285736084,
-      "learning_rate": 9.804469273743018e-06,
-      "loss": 0.2814,
       "step": 890
     },
     {
-      "epoch": 4.520650813516896,
-      "grad_norm": 1.9956718683242798,
-      "learning_rate": 9.664804469273744e-06,
-      "loss": 0.2501,
       "step": 900
     },
     {
-      "epoch": 4.570713391739675,
-      "grad_norm": 3.1284875869750977,
-      "learning_rate": 9.52513966480447e-06,
-      "loss": 0.2584,
       "step": 910
     },
     {
-      "epoch": 4.6207759699624535,
-      "grad_norm": 3.3868837356567383,
-      "learning_rate": 9.385474860335197e-06,
-      "loss": 0.2486,
       "step": 920
     },
     {
-      "epoch": 4.670838548185231,
-      "grad_norm": 2.5720443725585938,
-      "learning_rate": 9.245810055865922e-06,
-      "loss": 0.2624,
       "step": 930
     },
     {
-      "epoch": 4.72090112640801,
-      "grad_norm": 3.343977689743042,
-      "learning_rate": 9.106145251396648e-06,
-      "loss": 0.2506,
       "step": 940
     },
     {
-      "epoch": 4.7709637046307884,
-      "grad_norm": 3.791302442550659,
-      "learning_rate": 8.966480446927375e-06,
-      "loss": 0.2712,
       "step": 950
     },
     {
-      "epoch": 4.821026282853567,
-      "grad_norm": 3.8650593757629395,
-      "learning_rate": 8.826815642458101e-06,
-      "loss": 0.2508,
       "step": 960
     },
     {
-      "epoch": 4.871088861076346,
-      "grad_norm": 3.790891408920288,
-      "learning_rate": 8.687150837988828e-06,
-      "loss": 0.2653,
       "step": 970
     },
     {
-      "epoch": 4.921151439299124,
-      "grad_norm": 3.150134325027466,
-      "learning_rate": 8.547486033519554e-06,
-      "loss": 0.2431,
       "step": 980
     },
     {
-      "epoch": 4.971214017521902,
-      "grad_norm": 3.999809741973877,
-      "learning_rate": 8.40782122905028e-06,
-      "loss": 0.2512,
       "step": 990
     },
     {
-      "epoch": 4.996245306633291,
-      "eval_accuracy": 0.979552809649897,
-      "eval_loss": 0.16172775626182556,
-      "eval_runtime": 5.0947,
-      "eval_samples_per_second": 1334.339,
-      "eval_steps_per_second": 41.809,
-      "step": 995
-    },
-    {
-      "epoch": 5.025031289111389,
-      "grad_norm": 3.607999563217163,
-      "learning_rate": 8.268156424581007e-06,
-      "loss": 0.261,
       "step": 1000
     },
     {
-      "epoch": 5.075093867334168,
-      "grad_norm": 2.384503126144409,
-      "learning_rate": 8.128491620111732e-06,
-      "loss": 0.2301,
-      "step": 1010
-    },
-    {
-      "epoch": 5.1251564455569465,
-      "grad_norm": 3.3627846240997314,
-      "learning_rate": 7.988826815642458e-06,
-      "loss": 0.2363,
-      "step": 1020
-    },
-    {
-      "epoch": 5.175219023779725,
-      "grad_norm": 3.3233959674835205,
-      "learning_rate": 7.849162011173185e-06,
-      "loss": 0.2275,
-      "step": 1030
-    },
-    {
-      "epoch": 5.225281602002503,
-      "grad_norm": 3.21708083152771,
-      "learning_rate": 7.709497206703911e-06,
-      "loss": 0.2247,
-      "step": 1040
-    },
-    {
-      "epoch": 5.275344180225281,
-      "grad_norm": 2.4232187271118164,
-      "learning_rate": 7.569832402234637e-06,
-      "loss": 0.2044,
-      "step": 1050
-    },
-    {
-      "epoch": 5.32540675844806,
-      "grad_norm": 2.9417362213134766,
-      "learning_rate": 7.430167597765364e-06,
-      "loss": 0.2156,
-      "step": 1060
-    },
-    {
-      "epoch": 5.375469336670839,
-      "grad_norm": 5.781579971313477,
-      "learning_rate": 7.290502793296091e-06,
-      "loss": 0.2479,
-      "step": 1070
-    },
-    {
-      "epoch": 5.425531914893617,
-      "grad_norm": 2.417659044265747,
-      "learning_rate": 7.150837988826816e-06,
-      "loss": 0.2349,
-      "step": 1080
-    },
-    {
-      "epoch": 5.475594493116396,
-      "grad_norm": 3.229393482208252,
-      "learning_rate": 7.011173184357543e-06,
-      "loss": 0.218,
-      "step": 1090
-    },
-    {
-      "epoch": 5.5256570713391735,
-      "grad_norm": 3.5707740783691406,
-      "learning_rate": 6.871508379888268e-06,
-      "loss": 0.2287,
-      "step": 1100
-    },
-    {
-      "epoch": 5.575719649561952,
-      "grad_norm": 2.99178147315979,
-      "learning_rate": 6.731843575418995e-06,
-      "loss": 0.2474,
-      "step": 1110
-    },
-    {
-      "epoch": 5.625782227784731,
-      "grad_norm": 4.041738986968994,
-      "learning_rate": 6.592178770949721e-06,
-      "loss": 0.254,
-      "step": 1120
-    },
-    {
-      "epoch": 5.675844806007509,
-      "grad_norm": 3.7862696647644043,
-      "learning_rate": 6.452513966480447e-06,
-      "loss": 0.2336,
-      "step": 1130
-    },
-    {
-      "epoch": 5.725907384230288,
-      "grad_norm": 3.772305488586426,
-      "learning_rate": 6.312849162011173e-06,
-      "loss": 0.2366,
-      "step": 1140
-    },
-    {
-      "epoch": 5.7759699624530665,
-      "grad_norm": 3.721914291381836,
-      "learning_rate": 6.173184357541901e-06,
-      "loss": 0.2056,
-      "step": 1150
-    },
-    {
-      "epoch": 5.826032540675845,
-      "grad_norm": 3.321104049682617,
-      "learning_rate": 6.033519553072626e-06,
-      "loss": 0.2083,
-      "step": 1160
-    },
-    {
-      "epoch": 5.876095118898624,
-      "grad_norm": 2.396998405456543,
-      "learning_rate": 5.893854748603353e-06,
-      "loss": 0.2413,
-      "step": 1170
-    },
-    {
-      "epoch": 5.926157697121401,
-      "grad_norm": 2.6875176429748535,
-      "learning_rate": 5.754189944134078e-06,
-      "loss": 0.2049,
-      "step": 1180
-    },
-    {
-      "epoch": 5.97622027534418,
-      "grad_norm": 3.377181053161621,
-      "learning_rate": 5.614525139664805e-06,
-      "loss": 0.214,
-      "step": 1190
-    },
-    {
-      "epoch": 5.996245306633291,
-      "eval_accuracy": 0.9807296263606943,
-      "eval_loss": 0.13626398146152496,
-      "eval_runtime": 4.9535,
-      "eval_samples_per_second": 1372.375,
-      "eval_steps_per_second": 43.0,
-      "step": 1194
-    },
-    {
-      "epoch": 6.030037546933667,
-      "grad_norm": 2.5127053260803223,
-      "learning_rate": 5.474860335195531e-06,
-      "loss": 0.2374,
-      "step": 1200
-    },
-    {
-      "epoch": 6.080100125156446,
-      "grad_norm": 2.9415111541748047,
-      "learning_rate": 5.335195530726257e-06,
-      "loss": 0.203,
-      "step": 1210
-    },
-    {
-      "epoch": 6.130162703379224,
-      "grad_norm": 1.5115219354629517,
-      "learning_rate": 5.195530726256983e-06,
-      "loss": 0.2151,
-      "step": 1220
-    },
-    {
-      "epoch": 6.180225281602002,
-      "grad_norm": 1.8936338424682617,
-      "learning_rate": 5.055865921787711e-06,
-      "loss": 0.2159,
-      "step": 1230
-    },
-    {
-      "epoch": 6.230287859824781,
-      "grad_norm": 2.6654956340789795,
-      "learning_rate": 4.916201117318436e-06,
-      "loss": 0.2013,
-      "step": 1240
-    },
-    {
-      "epoch": 6.280350438047559,
-      "grad_norm": 3.0140798091888428,
-      "learning_rate": 4.776536312849163e-06,
-      "loss": 0.1985,
-      "step": 1250
-    },
-    {
-      "epoch": 6.330413016270338,
-      "grad_norm": 3.579763412475586,
-      "learning_rate": 4.636871508379888e-06,
-      "loss": 0.207,
-      "step": 1260
-    },
-    {
-      "epoch": 6.380475594493117,
-      "grad_norm": 2.5355074405670166,
-      "learning_rate": 4.497206703910615e-06,
-      "loss": 0.193,
-      "step": 1270
-    },
-    {
-      "epoch": 6.430538172715895,
-      "grad_norm": 2.3967621326446533,
-      "learning_rate": 4.357541899441341e-06,
-      "loss": 0.2139,
-      "step": 1280
-    },
-    {
-      "epoch": 6.480600750938673,
-      "grad_norm": 2.9278903007507324,
-      "learning_rate": 4.217877094972068e-06,
-      "loss": 0.2048,
-      "step": 1290
-    },
-    {
-      "epoch": 6.5306633291614515,
-      "grad_norm": 5.488080024719238,
-      "learning_rate": 4.078212290502794e-06,
-      "loss": 0.2098,
-      "step": 1300
-    },
-    {
-      "epoch": 6.58072590738423,
-      "grad_norm": 4.781853199005127,
-      "learning_rate": 3.93854748603352e-06,
-      "loss": 0.208,
-      "step": 1310
-    },
-    {
-      "epoch": 6.630788485607009,
-      "grad_norm": 2.9733641147613525,
-      "learning_rate": 3.798882681564246e-06,
-      "loss": 0.1923,
-      "step": 1320
-    },
-    {
-      "epoch": 6.680851063829787,
-      "grad_norm": 2.823633909225464,
-      "learning_rate": 3.6592178770949723e-06,
-      "loss": 0.185,
-      "step": 1330
-    },
-    {
-      "epoch": 6.730913642052566,
-      "grad_norm": 2.7353272438049316,
-      "learning_rate": 3.5195530726256988e-06,
-      "loss": 0.1977,
-      "step": 1340
-    },
-    {
-      "epoch": 6.7809762202753445,
-      "grad_norm": 2.489300489425659,
-      "learning_rate": 3.3798882681564248e-06,
-      "loss": 0.1999,
-      "step": 1350
-    },
-    {
-      "epoch": 6.831038798498122,
-      "grad_norm": 2.8995063304901123,
-      "learning_rate": 3.240223463687151e-06,
-      "loss": 0.2111,
-      "step": 1360
-    },
-    {
-      "epoch": 6.881101376720901,
-      "grad_norm": 2.4604063034057617,
-      "learning_rate": 3.1005586592178773e-06,
-      "loss": 0.2043,
-      "step": 1370
-    },
-    {
-      "epoch": 6.931163954943679,
-      "grad_norm": 2.1975669860839844,
-      "learning_rate": 2.9608938547486037e-06,
-      "loss": 0.203,
-      "step": 1380
-    },
-    {
-      "epoch": 6.981226533166458,
-      "grad_norm": 2.8632118701934814,
-      "learning_rate": 2.8212290502793298e-06,
-      "loss": 0.1826,
-      "step": 1390
-    },
-    {
-      "epoch": 6.996245306633291,
-      "eval_accuracy": 0.9814651368049426,
-      "eval_loss": 0.12438357621431351,
-      "eval_runtime": 4.9437,
-      "eval_samples_per_second": 1375.072,
-      "eval_steps_per_second": 43.085,
-      "step": 1393
-    },
-    {
-      "epoch": 7.035043804755945,
-      "grad_norm": 2.0548951625823975,
-      "learning_rate": 2.6815642458100562e-06,
-      "loss": 0.2089,
-      "step": 1400
-    },
-    {
-      "epoch": 7.085106382978723,
-      "grad_norm": 2.192319631576538,
-      "learning_rate": 2.5418994413407823e-06,
-      "loss": 0.1803,
-      "step": 1410
-    },
-    {
-      "epoch": 7.135168961201502,
-      "grad_norm": 3.190675973892212,
-      "learning_rate": 2.4022346368715087e-06,
-      "loss": 0.1985,
-      "step": 1420
-    },
-    {
-      "epoch": 7.18523153942428,
-      "grad_norm": 3.319995880126953,
-      "learning_rate": 2.2625698324022348e-06,
-      "loss": 0.1815,
-      "step": 1430
-    },
-    {
-      "epoch": 7.235294117647059,
-      "grad_norm": 3.1613974571228027,
-      "learning_rate": 2.1229050279329612e-06,
-      "loss": 0.1874,
-      "step": 1440
-    },
-    {
-      "epoch": 7.2853566958698375,
-      "grad_norm": 5.030276298522949,
-      "learning_rate": 1.9832402234636873e-06,
-      "loss": 0.2316,
-      "step": 1450
-    },
-    {
-      "epoch": 7.335419274092616,
-      "grad_norm": 4.310720443725586,
-      "learning_rate": 1.8435754189944135e-06,
-      "loss": 0.187,
-      "step": 1460
-    },
-    {
-      "epoch": 7.385481852315394,
-      "grad_norm": 3.277670383453369,
-      "learning_rate": 1.7039106145251397e-06,
-      "loss": 0.189,
-      "step": 1470
-    },
-    {
-      "epoch": 7.435544430538172,
-      "grad_norm": 2.657017707824707,
-      "learning_rate": 1.564245810055866e-06,
-      "loss": 0.1963,
-      "step": 1480
-    },
-    {
-      "epoch": 7.485607008760951,
-      "grad_norm": 1.9806122779846191,
-      "learning_rate": 1.4245810055865922e-06,
-      "loss": 0.1736,
-      "step": 1490
-    },
-    {
-      "epoch": 7.53566958698373,
-      "grad_norm": 2.318047285079956,
-      "learning_rate": 1.2849162011173185e-06,
-      "loss": 0.192,
-      "step": 1500
-    },
-    {
-      "epoch": 7.585732165206508,
-      "grad_norm": 1.8546510934829712,
-      "learning_rate": 1.1452513966480447e-06,
-      "loss": 0.1915,
-      "step": 1510
-    },
-    {
-      "epoch": 7.635794743429287,
-      "grad_norm": 2.3725483417510986,
-      "learning_rate": 1.005586592178771e-06,
-      "loss": 0.1924,
-      "step": 1520
-    },
-    {
-      "epoch": 7.685857321652065,
-      "grad_norm": 2.3467774391174316,
-      "learning_rate": 8.659217877094973e-07,
-      "loss": 0.1997,
-      "step": 1530
-    },
-    {
-      "epoch": 7.735919899874844,
-      "grad_norm": 2.653728485107422,
-      "learning_rate": 7.262569832402236e-07,
-      "loss": 0.2081,
-      "step": 1540
-    },
-    {
-      "epoch": 7.785982478097622,
-      "grad_norm": 3.015143394470215,
-      "learning_rate": 5.865921787709498e-07,
-      "loss": 0.2194,
-      "step": 1550
-    },
-    {
-      "epoch": 7.8360450563204,
-      "grad_norm": 1.836916446685791,
-      "learning_rate": 4.46927374301676e-07,
-      "loss": 0.2127,
-      "step": 1560
-    },
-    {
-      "epoch": 7.886107634543179,
-      "grad_norm": 1.9544241428375244,
-      "learning_rate": 3.0726256983240227e-07,
-      "loss": 0.1995,
-      "step": 1570
-    },
-    {
-      "epoch": 7.9361702127659575,
-      "grad_norm": 1.683449625968933,
-      "learning_rate": 1.6759776536312851e-07,
-      "loss": 0.1974,
-      "step": 1580
-    },
-    {
-      "epoch": 7.986232790988736,
-      "grad_norm": 2.348433494567871,
-      "learning_rate": 2.793296089385475e-08,
-      "loss": 0.1982,
-      "step": 1590
-    },
-    {
-      "epoch": 7.996245306633291,
-      "eval_accuracy": 0.9814651368049426,
-      "eval_loss": 0.12064122408628464,
-      "eval_runtime": 5.5563,
-      "eval_samples_per_second": 1223.467,
-      "eval_steps_per_second": 38.335,
-      "step": 1592
     },
     {
-      "epoch": 7.996245306633291,
-      "step": 1592,
-      "total_flos": 3.777723239743488e+18,
-      "train_loss": 0.726146658611058,
-      "train_runtime": 635.8846,
-      "train_samples_per_second": 642.808,
-      "train_steps_per_second": 2.504
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1592,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1220,8 +825,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.777723239743488e+18,
-  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.9811709326272433,
+  "best_model_checkpoint": "wav2vec2-base-ft-keyword-spotting/checkpoint-1000",
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.1,
+      "grad_norm": 2.6891753673553467,
+      "learning_rate": 3e-06,
+      "loss": 4.1933,
       "step": 10
     },
     {
+      "epoch": 0.2,
+      "grad_norm": 3.1144065856933594,
+      "learning_rate": 6e-06,
+      "loss": 4.1225,
       "step": 20
     },
     {
+      "epoch": 0.3,
+      "grad_norm": 4.312869071960449,
+      "learning_rate": 9e-06,
+      "loss": 3.8887,
       "step": 30
     },
     {
+      "epoch": 0.4,
+      "grad_norm": 5.83105993270874,
+      "learning_rate": 1.2e-05,
+      "loss": 3.4137,
       "step": 40
     },
     {
+      "epoch": 0.5,
+      "grad_norm": 5.6602678298950195,
+      "learning_rate": 1.5e-05,
+      "loss": 2.7921,
       "step": 50
     },
     {
+      "epoch": 0.6,
+      "grad_norm": 4.747939586639404,
+      "learning_rate": 1.8e-05,
+      "loss": 2.3948,
       "step": 60
     },
     {
+      "epoch": 0.7,
+      "grad_norm": 4.421939849853516,
+      "learning_rate": 2.1e-05,
+      "loss": 2.1514,
       "step": 70
     },
     {
+      "epoch": 0.8,
+      "grad_norm": 3.393974542617798,
+      "learning_rate": 2.4e-05,
+      "loss": 2.0222,
       "step": 80
     },
     {
+      "epoch": 0.9,
+      "grad_norm": 2.5288150310516357,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 1.8712,
       "step": 90
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 1.0866141319274902,
+      "learning_rate": 3e-05,
+      "loss": 1.8178,
       "step": 100
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6209179170344219,
+      "eval_loss": 1.7386223077774048,
+      "eval_runtime": 5.0695,
+      "eval_samples_per_second": 1340.971,
+      "eval_steps_per_second": 42.016,
+      "step": 100
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 0.4499356150627136,
+      "learning_rate": 2.966666666666667e-05,
+      "loss": 1.7568,
       "step": 110
     },
     {
+      "epoch": 1.2,
+      "grad_norm": 5.13858699798584,
+      "learning_rate": 2.9333333333333333e-05,
+      "loss": 1.7009,
       "step": 120
     },
     {
+      "epoch": 1.3,
+      "grad_norm": 1.0781441926956177,
+      "learning_rate": 2.9e-05,
+      "loss": 1.7067,
       "step": 130
     },
     {
+      "epoch": 1.4,
+      "grad_norm": 2.4858882427215576,
+      "learning_rate": 2.8666666666666668e-05,
+      "loss": 1.6577,
       "step": 140
     },
     {
+      "epoch": 1.5,
+      "grad_norm": 3.1494271755218506,
+      "learning_rate": 2.8333333333333332e-05,
+      "loss": 1.5608,
       "step": 150
     },
     {
+      "epoch": 1.6,
+      "grad_norm": 2.8912174701690674,
+      "learning_rate": 2.8e-05,
+      "loss": 1.5741,
       "step": 160
     },
     {
+      "epoch": 1.7,
+      "grad_norm": 1.4826748371124268,
+      "learning_rate": 2.766666666666667e-05,
+      "loss": 1.5054,
       "step": 170
     },
     {
+      "epoch": 1.8,
+      "grad_norm": 5.051352024078369,
+      "learning_rate": 2.7333333333333335e-05,
+      "loss": 1.4572,
       "step": 180
     },
     {
+      "epoch": 1.9,
+      "grad_norm": 2.021836042404175,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 1.3724,
       "step": 190
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 3.871109962463379,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 1.3138,
+      "step": 200
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6510738452486026,
+      "eval_loss": 1.1778711080551147,
+      "eval_runtime": 5.0951,
+      "eval_samples_per_second": 1334.21,
+      "eval_steps_per_second": 41.804,
       "step": 200
     },
     {
+      "epoch": 2.1,
+      "grad_norm": 5.006422519683838,
+      "learning_rate": 2.6333333333333334e-05,
+      "loss": 1.2749,
       "step": 210
     },
     {
+      "epoch": 2.2,
+      "grad_norm": 2.877138614654541,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 1.2645,
       "step": 220
     },
     {
+      "epoch": 2.3,
+      "grad_norm": 4.362603187561035,
+      "learning_rate": 2.5666666666666666e-05,
+      "loss": 1.1934,
       "step": 230
     },
     {
+      "epoch": 2.4,
+      "grad_norm": 3.1135756969451904,
+      "learning_rate": 2.5333333333333334e-05,
+      "loss": 1.153,
       "step": 240
     },
     {
+      "epoch": 2.5,
+      "grad_norm": 4.02156400680542,
+      "learning_rate": 2.5e-05,
+      "loss": 1.0804,
       "step": 250
     },
     {
+      "epoch": 2.6,
+      "grad_norm": 3.90006160736084,
+      "learning_rate": 2.4666666666666665e-05,
+      "loss": 1.0651,
       "step": 260
     },
     {
+      "epoch": 2.7,
+      "grad_norm": 2.3373022079467773,
+      "learning_rate": 2.4333333333333333e-05,
+      "loss": 1.0293,
       "step": 270
     },
     {
+      "epoch": 2.8,
+      "grad_norm": 2.3652572631835938,
+      "learning_rate": 2.4e-05,
+      "loss": 1.0356,
       "step": 280
     },
     {
+      "epoch": 2.9,
+      "grad_norm": 2.4576399326324463,
+      "learning_rate": 2.3666666666666665e-05,
+      "loss": 0.9779,
       "step": 290
     },
     {
+      "epoch": 3.0,
+      "grad_norm": 4.176488876342773,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.9632,
       "step": 300
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8679023242130038,
+      "eval_loss": 0.8326017260551453,
+      "eval_runtime": 5.1431,
+      "eval_samples_per_second": 1321.771,
+      "eval_steps_per_second": 41.415,
+      "step": 300
+    },
+    {
+      "epoch": 3.1,
+      "grad_norm": 2.0200586318969727,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.8637,
       "step": 310
     },
     {
+      "epoch": 3.2,
+      "grad_norm": 2.459822416305542,
+      "learning_rate": 2.2666666666666668e-05,
+      "loss": 0.8304,
       "step": 320
     },
     {
+      "epoch": 3.3,
+      "grad_norm": 2.8096423149108887,
+      "learning_rate": 2.2333333333333335e-05,
+      "loss": 0.7811,
       "step": 330
     },
     {
+      "epoch": 3.4,
+      "grad_norm": 2.188521385192871,
+      "learning_rate": 2.2e-05,
+      "loss": 0.7311,
       "step": 340
     },
     {
+      "epoch": 3.5,
+      "grad_norm": 2.1101114749908447,
+      "learning_rate": 2.1666666666666667e-05,
+      "loss": 0.6899,
       "step": 350
     },
     {
+      "epoch": 3.6,
+      "grad_norm": 3.0662026405334473,
+      "learning_rate": 2.1333333333333335e-05,
+      "loss": 0.6275,
       "step": 360
     },
     {
+      "epoch": 3.7,
+      "grad_norm": 2.7955899238586426,
+      "learning_rate": 2.1e-05,
+      "loss": 0.5982,
       "step": 370
     },
     {
+      "epoch": 3.8,
+      "grad_norm": 2.069448947906494,
+      "learning_rate": 2.0666666666666666e-05,
+      "loss": 0.5618,
       "step": 380
     },
     {
+      "epoch": 3.9,
+      "grad_norm": 2.3345484733581543,
+      "learning_rate": 2.0333333333333334e-05,
+      "loss": 0.5223,
       "step": 390
     },
     {
+      "epoch": 4.0,
+      "grad_norm": 2.2423112392425537,
+      "learning_rate": 1.9999999999999998e-05,
+      "loss": 0.499,
+      "step": 400
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9724919093851133,
+      "eval_loss": 0.3696895241737366,
+      "eval_runtime": 4.9717,
+      "eval_samples_per_second": 1367.332,
+      "eval_steps_per_second": 42.842,
       "step": 400
     },
     {
+      "epoch": 4.1,
+      "grad_norm": 2.581549644470215,
+      "learning_rate": 1.9666666666666666e-05,
+      "loss": 0.4643,
       "step": 410
     },
     {
+      "epoch": 4.2,
+      "grad_norm": 2.2802562713623047,
+      "learning_rate": 1.9333333333333333e-05,
+      "loss": 0.4679,
       "step": 420
     },
     {
+      "epoch": 4.3,
+      "grad_norm": 2.000401496887207,
+      "learning_rate": 1.9e-05,
+      "loss": 0.4143,
       "step": 430
     },
     {
+      "epoch": 4.4,
+      "grad_norm": 1.913470983505249,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 0.3969,
       "step": 440
     },
     {
+      "epoch": 4.5,
+      "grad_norm": 1.812354564666748,
+      "learning_rate": 1.8333333333333336e-05,
+      "loss": 0.3903,
       "step": 450
     },
     {
+      "epoch": 4.6,
+      "grad_norm": 1.731414556503296,
+      "learning_rate": 1.8e-05,
+      "loss": 0.3536,
       "step": 460
     },
     {
+      "epoch": 4.7,
+      "grad_norm": 2.4097819328308105,
+      "learning_rate": 1.7666666666666668e-05,
+      "loss": 0.3537,
       "step": 470
     },
     {
+      "epoch": 4.8,
+      "grad_norm": 2.2438652515411377,
+      "learning_rate": 1.7333333333333332e-05,
+      "loss": 0.3417,
       "step": 480
     },
     {
+      "epoch": 4.9,
+      "grad_norm": 1.8313252925872803,
+      "learning_rate": 1.7e-05,
+      "loss": 0.3269,
       "step": 490
     },
     {
+      "epoch": 5.0,
+      "grad_norm": 3.7112584114074707,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.3191,
       "step": 500
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9760223595175052,
+      "eval_loss": 0.22396039962768555,
+      "eval_runtime": 5.0015,
+      "eval_samples_per_second": 1359.188,
+      "eval_steps_per_second": 42.587,
+      "step": 500
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 2.2409660816192627,
+      "learning_rate": 1.633333333333333e-05,
+      "loss": 0.3044,
       "step": 510
     },
     {
+      "epoch": 5.2,
+      "grad_norm": 1.6726042032241821,
+      "learning_rate": 1.6e-05,
+      "loss": 0.2886,
       "step": 520
     },
     {
+      "epoch": 5.3,
+      "grad_norm": 2.055961847305298,
+      "learning_rate": 1.5666666666666667e-05,
+      "loss": 0.2745,
       "step": 530
     },
     {
+      "epoch": 5.4,
+      "grad_norm": 2.2671661376953125,
+      "learning_rate": 1.533333333333333e-05,
+      "loss": 0.2943,
       "step": 540
     },
     {
+      "epoch": 5.5,
+      "grad_norm": 2.010511636734009,
+      "learning_rate": 1.5e-05,
+      "loss": 0.246,
       "step": 550
     },
     {
+      "epoch": 5.6,
+      "grad_norm": 2.027716636657715,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 0.2962,
       "step": 560
     },
     {
+      "epoch": 5.7,
+      "grad_norm": 1.839068055152893,
+      "learning_rate": 1.4333333333333334e-05,
+      "loss": 0.2817,
       "step": 570
     },
     {
+      "epoch": 5.8,
+      "grad_norm": 2.8274471759796143,
+      "learning_rate": 1.4e-05,
+      "loss": 0.2512,
       "step": 580
     },
     {
+      "epoch": 5.9,
+      "grad_norm": 2.0226399898529053,
+      "learning_rate": 1.3666666666666667e-05,
+      "loss": 0.2756,
       "step": 590
     },
     {
+      "epoch": 6.0,
+      "grad_norm": 2.212151050567627,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.242,
+      "step": 600
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9792586054721977,
+      "eval_loss": 0.1708967536687851,
+      "eval_runtime": 4.9642,
+      "eval_samples_per_second": 1369.415,
+      "eval_steps_per_second": 42.908,
       "step": 600
     },
     {
+      "epoch": 6.1,
+      "grad_norm": 2.019993305206299,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.2557,
       "step": 610
     },
     {
+      "epoch": 6.2,
+      "grad_norm": 2.0448718070983887,
+      "learning_rate": 1.2666666666666667e-05,
+      "loss": 0.2455,
       "step": 620
     },
     {
+      "epoch": 6.3,
+      "grad_norm": 2.4769129753112793,
+      "learning_rate": 1.2333333333333333e-05,
+      "loss": 0.2435,
       "step": 630
     },
     {
+      "epoch": 6.4,
+      "grad_norm": 2.217947483062744,
+      "learning_rate": 1.2e-05,
+      "loss": 0.2392,
       "step": 640
     },
     {
+      "epoch": 6.5,
+      "grad_norm": 2.198836326599121,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 0.2194,
       "step": 650
     },
     {
+      "epoch": 6.6,
+      "grad_norm": 2.2629637718200684,
+      "learning_rate": 1.1333333333333334e-05,
+      "loss": 0.2165,
       "step": 660
     },
     {
+      "epoch": 6.7,
+      "grad_norm": 1.9289292097091675,
+      "learning_rate": 1.1e-05,
+      "loss": 0.2264,
       "step": 670
     },
     {
+      "epoch": 6.8,
+      "grad_norm": 2.585972547531128,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.2254,
       "step": 680
     },
     {
+      "epoch": 6.9,
+      "grad_norm": 2.3876583576202393,
+      "learning_rate": 1.0333333333333333e-05,
+      "loss": 0.2264,
       "step": 690
     },
     {
+      "epoch": 7.0,
+      "grad_norm": 2.297879695892334,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 0.2144,
       "step": 700
     },
     {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9805825242718447,
+      "eval_loss": 0.14598147571086884,
+      "eval_runtime": 4.9644,
+      "eval_samples_per_second": 1369.359,
+      "eval_steps_per_second": 42.906,
+      "step": 700
+    },
+    {
+      "epoch": 7.1,
+      "grad_norm": 2.2874860763549805,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 0.2217,
       "step": 710
     },
     {
+      "epoch": 7.2,
+      "grad_norm": 1.6444002389907837,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.2048,
       "step": 720
     },
     {
+      "epoch": 7.3,
+      "grad_norm": 2.211688280105591,
+      "learning_rate": 9e-06,
+      "loss": 0.2122,
       "step": 730
     },
     {
+      "epoch": 7.4,
+      "grad_norm": 2.334533929824829,
+      "learning_rate": 8.666666666666666e-06,
+      "loss": 0.2142,
       "step": 740
     },
     {
+      "epoch": 7.5,
+      "grad_norm": 1.83983314037323,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.1873,
       "step": 750
     },
     {
+      "epoch": 7.6,
+      "grad_norm": 1.8291276693344116,
+      "learning_rate": 8e-06,
+      "loss": 0.2003,
       "step": 760
     },
     {
+      "epoch": 7.7,
+      "grad_norm": 2.4695987701416016,
+      "learning_rate": 7.666666666666666e-06,
+      "loss": 0.2075,
       "step": 770
     },
     {
+      "epoch": 7.8,
+      "grad_norm": 1.7656598091125488,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 0.2089,
       "step": 780
     },
     {
+      "epoch": 7.9,
+      "grad_norm": 1.8952357769012451,
+      "learning_rate": 7e-06,
+      "loss": 0.2013,
       "step": 790
     },
     {
+      "epoch": 8.0,
+      "grad_norm": 1.6189404726028442,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.1977,
+      "step": 800
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.979994115916446,
+      "eval_loss": 0.13441701233386993,
+      "eval_runtime": 5.0435,
+      "eval_samples_per_second": 1347.881,
+      "eval_steps_per_second": 42.233,
       "step": 800
     },
     {
+      "epoch": 8.1,
+      "grad_norm": 2.2733678817749023,
+      "learning_rate": 6.333333333333333e-06,
+      "loss": 0.1908,
       "step": 810
     },
     {
+      "epoch": 8.2,
+      "grad_norm": 1.6874712705612183,
+      "learning_rate": 6e-06,
+      "loss": 0.1819,
       "step": 820
     },
     {
+      "epoch": 8.3,
+      "grad_norm": 1.4649100303649902,
+      "learning_rate": 5.666666666666667e-06,
+      "loss": 0.2037,
       "step": 830
     },
     {
+      "epoch": 8.4,
+      "grad_norm": 1.7231727838516235,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.1935,
       "step": 840
     },
     {
+      "epoch": 8.5,
+      "grad_norm": 1.6908072233200073,
+      "learning_rate": 4.9999999999999996e-06,
+      "loss": 0.1957,
       "step": 850
     },
     {
+      "epoch": 8.6,
+      "grad_norm": 2.1523678302764893,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.1955,
       "step": 860
     },
     {
+      "epoch": 8.7,
+      "grad_norm": 2.5662710666656494,
+      "learning_rate": 4.333333333333333e-06,
+      "loss": 0.2008,
       "step": 870
     },
     {
+      "epoch": 8.8,
+      "grad_norm": 1.984096884727478,
+      "learning_rate": 4e-06,
+      "loss": 0.186,
       "step": 880
     },
     {
+      "epoch": 8.9,
+      "grad_norm": 1.4925553798675537,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.1905,
       "step": 890
     },
     {
+      "epoch": 9.0,
+      "grad_norm": 4.499406814575195,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.1742,
+      "step": 900
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9796999117387467,
+      "eval_loss": 0.12820769846439362,
+      "eval_runtime": 5.0266,
+      "eval_samples_per_second": 1352.417,
+      "eval_steps_per_second": 42.375,
       "step": 900
     },
     {
+      "epoch": 9.1,
+      "grad_norm": 1.9934319257736206,
+      "learning_rate": 3e-06,
+      "loss": 0.1915,
       "step": 910
     },
     {
+      "epoch": 9.2,
+      "grad_norm": 1.9417580366134644,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.1759,
       "step": 920
     },
     {
+      "epoch": 9.3,
+      "grad_norm": 2.1848134994506836,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.1811,
       "step": 930
     },
     {
+      "epoch": 9.4,
+      "grad_norm": 1.6830646991729736,
+      "learning_rate": 2e-06,
+      "loss": 0.1905,
       "step": 940
     },
     {
+      "epoch": 9.5,
+      "grad_norm": 2.51246976852417,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.1889,
       "step": 950
     },
     {
+      "epoch": 9.6,
+      "grad_norm": 2.315727949142456,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.1755,
       "step": 960
     },
     {
+      "epoch": 9.7,
+      "grad_norm": 1.6819000244140625,
+      "learning_rate": 1e-06,
+      "loss": 0.1717,
       "step": 970
     },
     {
+      "epoch": 9.8,
+      "grad_norm": 1.7445892095565796,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 0.1756,
       "step": 980
     },
     {
+      "epoch": 9.9,
+      "grad_norm": 1.542716145515442,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.181,
       "step": 990
     },
     {
+      "epoch": 10.0,
+      "grad_norm": 2.6007721424102783,
+      "learning_rate": 0.0,
+      "loss": 0.1867,
       "step": 1000
     },
     {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9811709326272433,
+      "eval_loss": 0.12430207431316376,
+      "eval_runtime": 5.3794,
+      "eval_samples_per_second": 1263.701,
+      "eval_steps_per_second": 39.595,
+      "step": 1000
     },
     {
+      "epoch": 10.0,
+      "step": 1000,
+      "total_flos": 4.72566865822464e+18,
+      "train_loss": 0.7669839228391647,
+      "train_runtime": 621.093,
+      "train_samples_per_second": 822.646,
+      "train_steps_per_second": 1.61
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 4.72566865822464e+18,
+  "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null
 }