Training in progress, step 100

Browse files

Files changed (7) hide show

all_results.json +5 -5
pytorch_model.bin +1 -1
runs/Mar10_21-05-02_a4c3c39bee63/1678482309.2431283/events.out.tfevents.1678482309.a4c3c39bee63.128.3 +3 -0
runs/Mar10_21-05-02_a4c3c39bee63/events.out.tfevents.1678482309.a4c3c39bee63.128.2 +3 -0
train_results.json +5 -5
trainer_state.json +140 -497
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "total_flos": 1.1044933279767798e+18,
-    "train_loss": 0.1437230341363276,
-    "train_runtime": 451.3314,
-    "train_samples_per_second": 31.58,
-    "train_steps_per_second": 1.974
 }

 {
     "epoch": 3.0,
+    "total_flos": 4.665792694694584e+17,
+    "train_loss": 0.15108026370958047,
+    "train_runtime": 222.8357,
+    "train_samples_per_second": 27.02,
+    "train_steps_per_second": 1.696
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cbdcc63fadf3ac8b367f50f6613113304c72dbd9d6b1f1e0d1c1e6b96bcc1fc
 size 343268717

 version https://git-lfs.github.com/spec/v1
+oid sha256:176c26fcece8fa93ca3638cc5a44ff81006609d9ef30cd57f914e8dba43a457e
 size 343268717

runs/Mar10_21-05-02_a4c3c39bee63/1678482309.2431283/events.out.tfevents.1678482309.a4c3c39bee63.128.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04ddefbee056805dcbfa2ceef715fdeb8f19116303e5c0aa4bbcecedeab538b0
+size 5695

runs/Mar10_21-05-02_a4c3c39bee63/events.out.tfevents.1678482309.a4c3c39bee63.128.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:675c928040cca04ec1fe14efc37e49d0020bb21865ae0937c33f66f0f7ae281d
+size 5808

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "total_flos": 1.1044933279767798e+18,
-    "train_loss": 0.1437230341363276,
-    "train_runtime": 451.3314,
-    "train_samples_per_second": 31.58,
-    "train_steps_per_second": 1.974
 }

 {
     "epoch": 3.0,
+    "total_flos": 4.665792694694584e+17,
+    "train_loss": 0.15108026370958047,
+    "train_runtime": 222.8357,
+    "train_samples_per_second": 27.02,
+    "train_steps_per_second": 1.696
 }

trainer_state.json CHANGED Viewed

@@ -1,631 +1,274 @@
 {
-  "best_metric": 0.040985796600580215,
-  "best_model_checkpoint": "./output/vit-base-riego/checkpoint-800",
   "epoch": 3.0,
-  "global_step": 891,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03,
-      "learning_rate": 0.00019775533108866444,
-      "loss": 0.5334,
       "step": 10
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 0.00019551066217732884,
-      "loss": 0.4114,
       "step": 20
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 0.00019326599326599327,
-      "loss": 0.4417,
       "step": 30
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 0.0001910213243546577,
-      "loss": 0.2842,
       "step": 40
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 0.00018877665544332213,
-      "loss": 0.4106,
       "step": 50
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 0.00018653198653198653,
-      "loss": 0.2933,
       "step": 60
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 0.00018428731762065096,
-      "loss": 0.2447,
       "step": 70
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 0.00018204264870931537,
-      "loss": 0.1987,
       "step": 80
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 0.0001797979797979798,
-      "loss": 0.6804,
       "step": 90
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 0.00017755331088664423,
-      "loss": 0.4811,
       "step": 100
     },
     {
-      "epoch": 0.34,
-      "eval_f1": 0.7467948717948718,
-      "eval_loss": 0.44471248984336853,
-      "eval_runtime": 6.4953,
-      "eval_samples_per_second": 129.324,
-      "eval_steps_per_second": 16.166,
       "step": 100
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 0.00017530864197530866,
-      "loss": 0.3681,
       "step": 110
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 0.00017306397306397306,
-      "loss": 0.3704,
       "step": 120
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 0.0001708193041526375,
-      "loss": 0.1756,
       "step": 130
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 0.00016857463524130192,
-      "loss": 0.2008,
       "step": 140
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 0.00016632996632996635,
-      "loss": 0.2869,
       "step": 150
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 0.00016408529741863078,
-      "loss": 0.1804,
       "step": 160
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 0.00016184062850729518,
-      "loss": 0.1362,
       "step": 170
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 0.0001595959595959596,
-      "loss": 0.1901,
       "step": 180
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 0.00015757575757575757,
-      "loss": 0.3886,
       "step": 190
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 0.000155331088664422,
-      "loss": 0.2985,
       "step": 200
     },
     {
-      "epoch": 0.67,
-      "eval_f1": 0.8792569659442724,
-      "eval_loss": 0.2198340892791748,
-      "eval_runtime": 11.0106,
-      "eval_samples_per_second": 76.29,
-      "eval_steps_per_second": 9.536,
       "step": 200
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 0.0001530864197530864,
-      "loss": 0.2172,
       "step": 210
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 0.00015084175084175086,
-      "loss": 0.1929,
       "step": 220
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 0.00014859708193041527,
-      "loss": 0.2861,
       "step": 230
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 0.00014657687991021326,
-      "loss": 0.1706,
       "step": 240
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 0.00014433221099887769,
-      "loss": 0.1842,
       "step": 250
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 0.0001420875420875421,
-      "loss": 0.1779,
       "step": 260
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 0.00013984287317620652,
-      "loss": 0.1383,
       "step": 270
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 0.00013759820426487092,
-      "loss": 0.2297,
       "step": 280
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 0.00013535353535353538,
-      "loss": 0.2028,
       "step": 290
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 0.00013310886644219978,
-      "loss": 0.1199,
       "step": 300
     },
     {
-      "epoch": 1.01,
-      "eval_f1": 0.9709302325581396,
-      "eval_loss": 0.0845857635140419,
-      "eval_runtime": 6.2789,
-      "eval_samples_per_second": 133.781,
-      "eval_steps_per_second": 16.723,
       "step": 300
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 0.0001308641975308642,
-      "loss": 0.1548,
       "step": 310
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 0.0001286195286195286,
-      "loss": 0.1304,
       "step": 320
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 0.00012637485970819304,
-      "loss": 0.1097,
       "step": 330
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 0.00012413019079685747,
-      "loss": 0.0966,
       "step": 340
     },
     {
-      "epoch": 1.18,
-      "learning_rate": 0.00012188552188552189,
-      "loss": 0.2074,
       "step": 350
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 0.00011964085297418632,
-      "loss": 0.0986,
       "step": 360
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 0.00011739618406285073,
-      "loss": 0.1224,
       "step": 370
     },
-    {
-      "epoch": 1.28,
-      "learning_rate": 0.00011515151515151516,
-      "loss": 0.0973,
-      "step": 380
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.00011290684624017958,
-      "loss": 0.1067,
-      "step": 390
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.00011066217732884401,
-      "loss": 0.128,
-      "step": 400
-    },
-    {
-      "epoch": 1.35,
-      "eval_f1": 0.9573863636363636,
-      "eval_loss": 0.11194377392530441,
-      "eval_runtime": 8.4731,
-      "eval_samples_per_second": 99.137,
-      "eval_steps_per_second": 12.392,
-      "step": 400
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.00010841750841750841,
-      "loss": 0.1299,
-      "step": 410
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.00010617283950617284,
-      "loss": 0.1451,
-      "step": 420
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.00010392817059483726,
-      "loss": 0.0638,
-      "step": 430
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 0.00010168350168350169,
-      "loss": 0.0818,
-      "step": 440
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 9.943883277216612e-05,
-      "loss": 0.3606,
-      "step": 450
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 9.719416386083054e-05,
-      "loss": 0.092,
-      "step": 460
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 9.494949494949495e-05,
-      "loss": 0.1516,
-      "step": 470
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 9.270482603815938e-05,
-      "loss": 0.0527,
-      "step": 480
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 9.04601571268238e-05,
-      "loss": 0.1143,
-      "step": 490
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 8.821548821548821e-05,
-      "loss": 0.1387,
-      "step": 500
-    },
-    {
-      "epoch": 1.68,
-      "eval_f1": 0.9495798319327731,
-      "eval_loss": 0.12221043556928635,
-      "eval_runtime": 5.8532,
-      "eval_samples_per_second": 143.512,
-      "eval_steps_per_second": 17.939,
-      "step": 500
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 8.597081930415264e-05,
-      "loss": 0.1286,
-      "step": 510
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 8.372615039281706e-05,
-      "loss": 0.0926,
-      "step": 520
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 8.148148148148148e-05,
-      "loss": 0.0371,
-      "step": 530
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 7.92368125701459e-05,
-      "loss": 0.0766,
-      "step": 540
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 7.699214365881034e-05,
-      "loss": 0.0888,
-      "step": 550
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 7.474747474747475e-05,
-      "loss": 0.0791,
-      "step": 560
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 7.250280583613918e-05,
-      "loss": 0.0833,
-      "step": 570
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 7.02581369248036e-05,
-      "loss": 0.0651,
-      "step": 580
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 6.801346801346801e-05,
-      "loss": 0.0134,
-      "step": 590
-    },
-    {
-      "epoch": 2.02,
-      "learning_rate": 6.576879910213244e-05,
-      "loss": 0.0899,
-      "step": 600
-    },
-    {
-      "epoch": 2.02,
-      "eval_f1": 0.9765395894428153,
-      "eval_loss": 0.0800161063671112,
-      "eval_runtime": 6.9218,
-      "eval_samples_per_second": 121.356,
-      "eval_steps_per_second": 15.17,
-      "step": 600
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 6.352413019079686e-05,
-      "loss": 0.042,
-      "step": 610
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 6.150392817059484e-05,
-      "loss": 0.0251,
-      "step": 620
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 5.925925925925926e-05,
-      "loss": 0.0061,
-      "step": 630
-    },
-    {
-      "epoch": 2.15,
-      "learning_rate": 5.701459034792368e-05,
-      "loss": 0.0495,
-      "step": 640
-    },
-    {
-      "epoch": 2.19,
-      "learning_rate": 5.47699214365881e-05,
-      "loss": 0.0586,
-      "step": 650
-    },
-    {
-      "epoch": 2.22,
-      "learning_rate": 5.2525252525252536e-05,
-      "loss": 0.0062,
-      "step": 660
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 5.028058361391695e-05,
-      "loss": 0.027,
-      "step": 670
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 4.803591470258137e-05,
-      "loss": 0.0356,
-      "step": 680
-    },
-    {
-      "epoch": 2.32,
-      "learning_rate": 4.57912457912458e-05,
-      "loss": 0.0372,
-      "step": 690
-    },
-    {
-      "epoch": 2.36,
-      "learning_rate": 4.3546576879910214e-05,
-      "loss": 0.0048,
-      "step": 700
-    },
-    {
-      "epoch": 2.36,
-      "eval_f1": 0.9769452449567723,
-      "eval_loss": 0.07305397093296051,
-      "eval_runtime": 5.7864,
-      "eval_samples_per_second": 145.168,
-      "eval_steps_per_second": 18.146,
-      "step": 700
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 4.130190796857464e-05,
-      "loss": 0.0318,
-      "step": 710
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 3.905723905723906e-05,
-      "loss": 0.0858,
-      "step": 720
-    },
-    {
-      "epoch": 2.46,
-      "learning_rate": 3.681257014590348e-05,
-      "loss": 0.065,
-      "step": 730
-    },
-    {
-      "epoch": 2.49,
-      "learning_rate": 3.45679012345679e-05,
-      "loss": 0.1117,
-      "step": 740
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 3.232323232323233e-05,
-      "loss": 0.0432,
-      "step": 750
-    },
-    {
-      "epoch": 2.56,
-      "learning_rate": 3.007856341189675e-05,
-      "loss": 0.0209,
-      "step": 760
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 2.783389450056117e-05,
-      "loss": 0.0591,
-      "step": 770
-    },
-    {
-      "epoch": 2.63,
-      "learning_rate": 2.5589225589225592e-05,
-      "loss": 0.0276,
-      "step": 780
-    },
-    {
-      "epoch": 2.66,
-      "learning_rate": 2.3344556677890012e-05,
-      "loss": 0.0058,
-      "step": 790
-    },
-    {
-      "epoch": 2.69,
-      "learning_rate": 2.1099887766554435e-05,
-      "loss": 0.0195,
-      "step": 800
-    },
-    {
-      "epoch": 2.69,
-      "eval_f1": 0.9885057471264367,
-      "eval_loss": 0.040985796600580215,
-      "eval_runtime": 6.6774,
-      "eval_samples_per_second": 125.798,
-      "eval_steps_per_second": 15.725,
-      "step": 800
-    },
-    {
-      "epoch": 2.73,
-      "learning_rate": 1.8855218855218858e-05,
-      "loss": 0.0055,
-      "step": 810
-    },
-    {
-      "epoch": 2.76,
-      "learning_rate": 1.6610549943883278e-05,
-      "loss": 0.0351,
-      "step": 820
-    },
-    {
-      "epoch": 2.79,
-      "learning_rate": 1.43658810325477e-05,
-      "loss": 0.0045,
-      "step": 830
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 1.2121212121212122e-05,
-      "loss": 0.0173,
-      "step": 840
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 9.876543209876543e-06,
-      "loss": 0.0042,
-      "step": 850
-    },
-    {
-      "epoch": 2.9,
-      "learning_rate": 7.631874298540966e-06,
-      "loss": 0.008,
-      "step": 860
-    },
-    {
-      "epoch": 2.93,
-      "learning_rate": 5.387205387205387e-06,
-      "loss": 0.0648,
-      "step": 870
-    },
-    {
-      "epoch": 2.96,
-      "learning_rate": 3.1425364758698095e-06,
-      "loss": 0.0389,
-      "step": 880
-    },
-    {
-      "epoch": 3.0,
-      "learning_rate": 8.978675645342313e-07,
-      "loss": 0.0332,
-      "step": 890
-    },
     {
       "epoch": 3.0,
-      "step": 891,
-      "total_flos": 1.1044933279767798e+18,
-      "train_loss": 0.1437230341363276,
-      "train_runtime": 451.3314,
-      "train_samples_per_second": 31.58,
-      "train_steps_per_second": 1.974
     }
   ],
-  "max_steps": 891,
   "num_train_epochs": 3,
-  "total_flos": 1.1044933279767798e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4047260880470276,
+  "best_model_checkpoint": "./output/vit-base-riego/checkpoint-300",
   "epoch": 3.0,
+  "global_step": 378,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.08,
+      "learning_rate": 0.0001947089947089947,
+      "loss": 0.5579,
       "step": 10
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 0.00018941798941798943,
+      "loss": 0.3376,
       "step": 20
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 0.00018412698412698412,
+      "loss": 0.2934,
       "step": 30
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 0.00017883597883597884,
+      "loss": 0.3096,
       "step": 40
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 0.00017354497354497354,
+      "loss": 0.2475,
       "step": 50
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 0.00016825396825396826,
+      "loss": 0.173,
       "step": 60
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 0.00016296296296296295,
+      "loss": 0.3087,
       "step": 70
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 0.00015820105820105822,
+      "loss": 0.3236,
       "step": 80
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 0.0001529100529100529,
+      "loss": 0.2005,
       "step": 90
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 0.00014761904761904763,
+      "loss": 0.249,
       "step": 100
     },
     {
+      "epoch": 0.79,
+      "eval_f1": 0.31901840490797545,
+      "eval_loss": 0.6620292067527771,
+      "eval_runtime": 7.2847,
+      "eval_samples_per_second": 132.882,
+      "eval_steps_per_second": 16.61,
       "step": 100
     },
     {
+      "epoch": 0.87,
+      "learning_rate": 0.00014232804232804233,
+      "loss": 0.2803,
       "step": 110
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 0.00013703703703703705,
+      "loss": 0.163,
       "step": 120
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 0.00013174603174603174,
+      "loss": 0.2306,
       "step": 130
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 0.00012645502645502646,
+      "loss": 0.0607,
       "step": 140
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 0.00012116402116402117,
+      "loss": 0.1109,
       "step": 150
     },
     {
+      "epoch": 1.27,
+      "learning_rate": 0.0001158730158730159,
+      "loss": 0.2241,
       "step": 160
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 0.00011058201058201059,
+      "loss": 0.1394,
       "step": 170
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 0.00010529100529100531,
+      "loss": 0.153,
       "step": 180
     },
     {
+      "epoch": 1.51,
+      "learning_rate": 0.0001,
+      "loss": 0.1361,
       "step": 190
     },
     {
+      "epoch": 1.59,
+      "learning_rate": 9.470899470899471e-05,
+      "loss": 0.0348,
       "step": 200
     },
     {
+      "epoch": 1.59,
+      "eval_f1": 0.427536231884058,
+      "eval_loss": 0.514543354511261,
+      "eval_runtime": 9.2968,
+      "eval_samples_per_second": 104.122,
+      "eval_steps_per_second": 13.015,
       "step": 200
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 8.941798941798942e-05,
+      "loss": 0.1362,
       "step": 210
     },
     {
+      "epoch": 1.75,
+      "learning_rate": 8.412698412698413e-05,
+      "loss": 0.1059,
       "step": 220
     },
     {
+      "epoch": 1.83,
+      "learning_rate": 7.883597883597884e-05,
+      "loss": 0.1051,
       "step": 230
     },
     {
+      "epoch": 1.9,
+      "learning_rate": 7.354497354497355e-05,
+      "loss": 0.2335,
       "step": 240
     },
     {
+      "epoch": 1.98,
+      "learning_rate": 6.825396825396825e-05,
+      "loss": 0.0877,
       "step": 250
     },
     {
+      "epoch": 2.06,
+      "learning_rate": 6.296296296296296e-05,
+      "loss": 0.0765,
       "step": 260
     },
     {
+      "epoch": 2.14,
+      "learning_rate": 5.7671957671957676e-05,
+      "loss": 0.0409,
       "step": 270
     },
     {
+      "epoch": 2.22,
+      "learning_rate": 5.2380952380952384e-05,
+      "loss": 0.0978,
       "step": 280
     },
     {
+      "epoch": 2.3,
+      "learning_rate": 4.708994708994709e-05,
+      "loss": 0.048,
       "step": 290
     },
     {
+      "epoch": 2.38,
+      "learning_rate": 4.17989417989418e-05,
+      "loss": 0.0135,
       "step": 300
     },
     {
+      "epoch": 2.38,
+      "eval_f1": 0.580441640378549,
+      "eval_loss": 0.4047260880470276,
+      "eval_runtime": 9.0047,
+      "eval_samples_per_second": 107.499,
+      "eval_steps_per_second": 13.437,
       "step": 300
     },
     {
+      "epoch": 2.46,
+      "learning_rate": 3.650793650793651e-05,
+      "loss": 0.0093,
       "step": 310
     },
     {
+      "epoch": 2.54,
+      "learning_rate": 3.121693121693122e-05,
+      "loss": 0.0163,
       "step": 320
     },
     {
+      "epoch": 2.62,
+      "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.0783,
       "step": 330
     },
     {
+      "epoch": 2.7,
+      "learning_rate": 2.0634920634920636e-05,
+      "loss": 0.0288,
       "step": 340
     },
     {
+      "epoch": 2.78,
+      "learning_rate": 1.5343915343915344e-05,
+      "loss": 0.033,
       "step": 350
     },
     {
+      "epoch": 2.86,
+      "learning_rate": 1.0052910052910053e-05,
+      "loss": 0.0308,
       "step": 360
     },
     {
+      "epoch": 2.94,
+      "learning_rate": 4.7619047619047615e-06,
+      "loss": 0.0293,
       "step": 370
     },
     {
       "epoch": 3.0,
+      "step": 378,
+      "total_flos": 4.665792694694584e+17,
+      "train_loss": 0.15108026370958047,
+      "train_runtime": 222.8357,
+      "train_samples_per_second": 27.02,
+      "train_steps_per_second": 1.696
     }
   ],
+  "max_steps": 378,
   "num_train_epochs": 3,
+  "total_flos": 4.665792694694584e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f037a2d700160eee370bbefe6a19ec9e9dd3a4adefcc6d81620479ef744a13aa
 size 3515

 version https://git-lfs.github.com/spec/v1
+oid sha256:34043900b560431430b7737d36e5976c630010556c272b1438037be0984bfc67
 size 3515