Training in progress, epoch 1

Browse files

Files changed (10) hide show

all_results.json +10 -10
eval_results.json +6 -6
runs/Jan15_14-25-45_node3/events.out.tfevents.1642227962.node3 +2 -2
runs/Jan15_14-25-45_node3/events.out.tfevents.1642228023.node3 +3 -0
runs/Jan15_14-45-51_node3/1642229168.4472055/events.out.tfevents.1642229168.node3 +3 -0
runs/Jan15_14-45-51_node3/events.out.tfevents.1642229168.node3 +3 -0
tokenizer.json +0 -0
train_results.json +5 -5
trainer_state.json +65 -761
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 80.0,
-    "eval_accuracy": 0.8050541516245487,
-    "eval_loss": 2.2128214836120605,
-    "eval_runtime": 0.2593,
     "eval_samples": 277,
-    "eval_samples_per_second": 1068.383,
-    "eval_steps_per_second": 11.571,
-    "train_loss": 0.10918387793577634,
-    "train_runtime": 662.0132,
     "train_samples": 2490,
-    "train_samples_per_second": 300.9,
-    "train_steps_per_second": 9.426
 }

 {
+    "epoch": 10.0,
+    "eval_accuracy": 0.7472924187725631,
+    "eval_loss": 0.5988962054252625,
+    "eval_runtime": 0.3009,
     "eval_samples": 277,
+    "eval_samples_per_second": 920.67,
+    "eval_steps_per_second": 9.971,
+    "train_loss": 0.49518577380058093,
+    "train_runtime": 60.2408,
     "train_samples": 2490,
+    "train_samples_per_second": 413.341,
+    "train_steps_per_second": 12.948
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 80.0,
-    "eval_accuracy": 0.8050541516245487,
-    "eval_loss": 2.2128214836120605,
-    "eval_runtime": 0.2593,
     "eval_samples": 277,
-    "eval_samples_per_second": 1068.383,
-    "eval_steps_per_second": 11.571
 }

 {
+    "epoch": 10.0,
+    "eval_accuracy": 0.7472924187725631,
+    "eval_loss": 0.5988962054252625,
+    "eval_runtime": 0.3009,
     "eval_samples": 277,
+    "eval_samples_per_second": 920.67,
+    "eval_steps_per_second": 9.971
 }

runs/Jan15_14-25-45_node3/events.out.tfevents.1642227962.node3 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90d634be7b73075df444dc666c23dfb608d257c252ddae5a3439bfde0e0dde3d
-size 3516

 version https://git-lfs.github.com/spec/v1
+oid sha256:86ec7a2500b6f80fe87d847cac323f7130a3b730e48ada599a2f9910622e4b9c
+size 7251

runs/Jan15_14-25-45_node3/events.out.tfevents.1642228023.node3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15611aaa3f81743fc33924ae0afe13a8d36e79351c1a1dbe127cd16c92b40f95
+size 363

runs/Jan15_14-45-51_node3/1642229168.4472055/events.out.tfevents.1642229168.node3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30d75d791374ffedd3a37ac7babefce0461663bb02452e13316e0c2270b70724
+size 4585

runs/Jan15_14-45-51_node3/events.out.tfevents.1642229168.node3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ccabbb2c70db197b63cbdce1e1ed6de1e4e28d706aaed1028c4ffd55b584048
+size 3516

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 80.0,
-    "train_loss": 0.10918387793577634,
-    "train_runtime": 662.0132,
     "train_samples": 2490,
-    "train_samples_per_second": 300.9,
-    "train_steps_per_second": 9.426
 }

 {
+    "epoch": 10.0,
+    "train_loss": 0.49518577380058093,
+    "train_runtime": 60.2408,
     "train_samples": 2490,
+    "train_samples_per_second": 413.341,
+    "train_steps_per_second": 12.948
 }

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.8050541516245487,
-  "best_model_checkpoint": "outputs/lora/roberta-base/v2/rte/checkpoint-3900",
-  "epoch": 80.0,
-  "global_step": 6240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10,808 +10,112 @@
     {
       "epoch": 1.0,
       "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.6956132650375366,
-      "eval_runtime": 0.247,
-      "eval_samples_per_second": 1121.502,
-      "eval_steps_per_second": 12.146,
       "step": 78
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.6990882158279419,
-      "eval_runtime": 0.2312,
-      "eval_samples_per_second": 1197.857,
-      "eval_steps_per_second": 12.973,
       "step": 156
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6353790613718412,
-      "eval_loss": 0.6490963101387024,
-      "eval_runtime": 0.23,
-      "eval_samples_per_second": 1204.444,
-      "eval_steps_per_second": 13.045,
       "step": 234
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.6823104693140795,
-      "eval_loss": 0.607087254524231,
-      "eval_runtime": 0.2281,
-      "eval_samples_per_second": 1214.339,
-      "eval_steps_per_second": 13.152,
       "step": 312
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.7364620938628159,
-      "eval_loss": 0.486316442489624,
-      "eval_runtime": 0.231,
-      "eval_samples_per_second": 1199.159,
-      "eval_steps_per_second": 12.987,
       "step": 390
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.7075812274368231,
-      "eval_loss": 0.5595567226409912,
-      "eval_runtime": 0.2322,
-      "eval_samples_per_second": 1192.954,
-      "eval_steps_per_second": 12.92,
       "step": 468
     },
     {
       "epoch": 6.41,
-      "learning_rate": 0.0004893435635123615,
-      "loss": 0.6104,
       "step": 500
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.7220216606498195,
-      "eval_loss": 0.5245415568351746,
-      "eval_runtime": 0.2389,
-      "eval_samples_per_second": 1159.31,
-      "eval_steps_per_second": 12.556,
       "step": 546
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.7581227436823105,
-      "eval_loss": 0.54262775182724,
-      "eval_runtime": 0.3139,
-      "eval_samples_per_second": 882.519,
-      "eval_steps_per_second": 9.558,
       "step": 624
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.7220216606498195,
-      "eval_loss": 0.7142526507377625,
-      "eval_runtime": 0.3151,
-      "eval_samples_per_second": 879.035,
-      "eval_steps_per_second": 9.52,
       "step": 702
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.7545126353790613,
-      "eval_loss": 0.6892580986022949,
-      "eval_runtime": 0.2701,
-      "eval_samples_per_second": 1025.641,
-      "eval_steps_per_second": 11.108,
       "step": 780
     },
     {
-      "epoch": 11.0,
-      "eval_accuracy": 0.7725631768953068,
-      "eval_loss": 0.6529865860939026,
-      "eval_runtime": 0.2299,
-      "eval_samples_per_second": 1204.789,
-      "eval_steps_per_second": 13.048,
-      "step": 858
-    },
-    {
-      "epoch": 12.0,
-      "eval_accuracy": 0.7545126353790613,
-      "eval_loss": 0.7537366151809692,
-      "eval_runtime": 0.2349,
-      "eval_samples_per_second": 1179.15,
-      "eval_steps_per_second": 12.771,
-      "step": 936
-    },
-    {
-      "epoch": 12.82,
-      "learning_rate": 0.00044671781756180733,
-      "loss": 0.3007,
-      "step": 1000
-    },
-    {
-      "epoch": 13.0,
-      "eval_accuracy": 0.7653429602888087,
-      "eval_loss": 0.8136062622070312,
-      "eval_runtime": 0.2324,
-      "eval_samples_per_second": 1191.907,
-      "eval_steps_per_second": 12.909,
-      "step": 1014
-    },
-    {
-      "epoch": 14.0,
-      "eval_accuracy": 0.7003610108303249,
-      "eval_loss": 1.2378367185592651,
-      "eval_runtime": 0.2301,
-      "eval_samples_per_second": 1203.951,
-      "eval_steps_per_second": 13.039,
-      "step": 1092
-    },
-    {
-      "epoch": 15.0,
-      "eval_accuracy": 0.7689530685920578,
-      "eval_loss": 0.787124514579773,
-      "eval_runtime": 0.2444,
-      "eval_samples_per_second": 1133.544,
-      "eval_steps_per_second": 12.277,
-      "step": 1170
-    },
-    {
-      "epoch": 16.0,
-      "eval_accuracy": 0.7545126353790613,
-      "eval_loss": 1.070081114768982,
-      "eval_runtime": 0.2359,
-      "eval_samples_per_second": 1174.133,
-      "eval_steps_per_second": 12.716,
-      "step": 1248
-    },
-    {
-      "epoch": 17.0,
-      "eval_accuracy": 0.776173285198556,
-      "eval_loss": 0.840284526348114,
-      "eval_runtime": 0.3239,
-      "eval_samples_per_second": 855.277,
-      "eval_steps_per_second": 9.263,
-      "step": 1326
-    },
-    {
-      "epoch": 18.0,
-      "eval_accuracy": 0.7364620938628159,
-      "eval_loss": 1.004836082458496,
-      "eval_runtime": 0.2349,
-      "eval_samples_per_second": 1179.426,
-      "eval_steps_per_second": 12.774,
-      "step": 1404
-    },
-    {
-      "epoch": 19.0,
-      "eval_accuracy": 0.7725631768953068,
-      "eval_loss": 1.151750087738037,
-      "eval_runtime": 0.2448,
-      "eval_samples_per_second": 1131.443,
-      "eval_steps_per_second": 12.254,
-      "step": 1482
-    },
-    {
-      "epoch": 19.23,
-      "learning_rate": 0.0004040920716112532,
-      "loss": 0.1396,
-      "step": 1500
-    },
-    {
-      "epoch": 20.0,
-      "eval_accuracy": 0.7509025270758123,
-      "eval_loss": 1.3428694009780884,
-      "eval_runtime": 0.2276,
-      "eval_samples_per_second": 1217.064,
-      "eval_steps_per_second": 13.181,
-      "step": 1560
-    },
-    {
-      "epoch": 21.0,
-      "eval_accuracy": 0.7617328519855595,
-      "eval_loss": 1.3712104558944702,
-      "eval_runtime": 0.3329,
-      "eval_samples_per_second": 832.029,
-      "eval_steps_per_second": 9.011,
-      "step": 1638
-    },
-    {
-      "epoch": 22.0,
-      "eval_accuracy": 0.740072202166065,
-      "eval_loss": 1.764930009841919,
-      "eval_runtime": 0.2783,
-      "eval_samples_per_second": 995.158,
-      "eval_steps_per_second": 10.778,
-      "step": 1716
-    },
-    {
-      "epoch": 23.0,
-      "eval_accuracy": 0.7436823104693141,
-      "eval_loss": 1.5562723875045776,
-      "eval_runtime": 0.2305,
-      "eval_samples_per_second": 1201.943,
-      "eval_steps_per_second": 13.017,
-      "step": 1794
-    },
-    {
-      "epoch": 24.0,
-      "eval_accuracy": 0.7653429602888087,
-      "eval_loss": 1.4325311183929443,
-      "eval_runtime": 0.2723,
-      "eval_samples_per_second": 1017.092,
-      "eval_steps_per_second": 11.015,
-      "step": 1872
-    },
-    {
-      "epoch": 25.0,
-      "eval_accuracy": 0.7509025270758123,
-      "eval_loss": 1.7198717594146729,
-      "eval_runtime": 0.3389,
-      "eval_samples_per_second": 817.452,
-      "eval_steps_per_second": 8.853,
-      "step": 1950
-    },
-    {
-      "epoch": 25.64,
-      "learning_rate": 0.0003614663256606991,
-      "loss": 0.0875,
-      "step": 2000
-    },
-    {
-      "epoch": 26.0,
-      "eval_accuracy": 0.7545126353790613,
-      "eval_loss": 1.5090142488479614,
-      "eval_runtime": 0.2361,
-      "eval_samples_per_second": 1173.253,
-      "eval_steps_per_second": 12.707,
-      "step": 2028
-    },
-    {
-      "epoch": 27.0,
-      "eval_accuracy": 0.7436823104693141,
-      "eval_loss": 1.8515905141830444,
-      "eval_runtime": 0.2487,
-      "eval_samples_per_second": 1113.898,
-      "eval_steps_per_second": 12.064,
-      "step": 2106
-    },
-    {
-      "epoch": 28.0,
-      "eval_accuracy": 0.7509025270758123,
-      "eval_loss": 1.5827966928482056,
-      "eval_runtime": 0.3236,
-      "eval_samples_per_second": 856.029,
-      "eval_steps_per_second": 9.271,
-      "step": 2184
-    },
-    {
-      "epoch": 29.0,
-      "eval_accuracy": 0.7509025270758123,
-      "eval_loss": 1.9509788751602173,
-      "eval_runtime": 0.2848,
-      "eval_samples_per_second": 972.601,
-      "eval_steps_per_second": 10.534,
-      "step": 2262
-    },
-    {
-      "epoch": 30.0,
-      "eval_accuracy": 0.7617328519855595,
-      "eval_loss": 1.903420329093933,
-      "eval_runtime": 0.3114,
-      "eval_samples_per_second": 889.649,
-      "eval_steps_per_second": 9.635,
-      "step": 2340
-    },
-    {
-      "epoch": 31.0,
-      "eval_accuracy": 0.7364620938628159,
-      "eval_loss": 2.065227508544922,
-      "eval_runtime": 0.2318,
-      "eval_samples_per_second": 1195.129,
-      "eval_steps_per_second": 12.944,
-      "step": 2418
-    },
-    {
-      "epoch": 32.0,
-      "eval_accuracy": 0.7617328519855595,
-      "eval_loss": 1.5601612329483032,
-      "eval_runtime": 0.2455,
-      "eval_samples_per_second": 1128.485,
-      "eval_steps_per_second": 12.222,
-      "step": 2496
-    },
-    {
-      "epoch": 32.05,
-      "learning_rate": 0.0003188405797101449,
-      "loss": 0.0561,
-      "step": 2500
-    },
-    {
-      "epoch": 33.0,
-      "eval_accuracy": 0.7653429602888087,
-      "eval_loss": 1.9638988971710205,
-      "eval_runtime": 0.3284,
-      "eval_samples_per_second": 843.409,
-      "eval_steps_per_second": 9.134,
-      "step": 2574
-    },
-    {
-      "epoch": 34.0,
-      "eval_accuracy": 0.7653429602888087,
-      "eval_loss": 2.137803792953491,
-      "eval_runtime": 0.2261,
-      "eval_samples_per_second": 1225.21,
-      "eval_steps_per_second": 13.269,
-      "step": 2652
-    },
-    {
-      "epoch": 35.0,
-      "eval_accuracy": 0.7509025270758123,
-      "eval_loss": 1.8859294652938843,
-      "eval_runtime": 0.2755,
-      "eval_samples_per_second": 1005.403,
-      "eval_steps_per_second": 10.889,
-      "step": 2730
-    },
-    {
-      "epoch": 36.0,
-      "eval_accuracy": 0.7653429602888087,
-      "eval_loss": 1.9513648748397827,
-      "eval_runtime": 0.3253,
-      "eval_samples_per_second": 851.469,
-      "eval_steps_per_second": 9.222,
-      "step": 2808
-    },
-    {
-      "epoch": 37.0,
-      "eval_accuracy": 0.7725631768953068,
-      "eval_loss": 1.9519377946853638,
-      "eval_runtime": 0.2278,
-      "eval_samples_per_second": 1215.717,
-      "eval_steps_per_second": 13.167,
-      "step": 2886
-    },
-    {
-      "epoch": 38.0,
-      "eval_accuracy": 0.7617328519855595,
-      "eval_loss": 2.181129217147827,
-      "eval_runtime": 0.2412,
-      "eval_samples_per_second": 1148.242,
-      "eval_steps_per_second": 12.436,
-      "step": 2964
-    },
-    {
-      "epoch": 38.46,
-      "learning_rate": 0.00027621483375959077,
-      "loss": 0.0423,
-      "step": 3000
-    },
-    {
-      "epoch": 39.0,
-      "eval_accuracy": 0.7581227436823105,
-      "eval_loss": 2.104398250579834,
-      "eval_runtime": 0.3032,
-      "eval_samples_per_second": 913.545,
-      "eval_steps_per_second": 9.894,
-      "step": 3042
-    },
-    {
-      "epoch": 40.0,
-      "eval_accuracy": 0.7689530685920578,
-      "eval_loss": 2.0705928802490234,
-      "eval_runtime": 0.2647,
-      "eval_samples_per_second": 1046.589,
-      "eval_steps_per_second": 11.335,
-      "step": 3120
-    },
-    {
-      "epoch": 41.0,
-      "eval_accuracy": 0.7870036101083032,
-      "eval_loss": 1.89673912525177,
-      "eval_runtime": 0.2316,
-      "eval_samples_per_second": 1195.807,
-      "eval_steps_per_second": 12.951,
-      "step": 3198
-    },
-    {
-      "epoch": 42.0,
-      "eval_accuracy": 0.7906137184115524,
-      "eval_loss": 2.081404209136963,
-      "eval_runtime": 0.3113,
-      "eval_samples_per_second": 889.737,
-      "eval_steps_per_second": 9.636,
-      "step": 3276
-    },
-    {
-      "epoch": 43.0,
-      "eval_accuracy": 0.779783393501805,
-      "eval_loss": 2.200363874435425,
-      "eval_runtime": 0.3027,
-      "eval_samples_per_second": 914.986,
-      "eval_steps_per_second": 9.91,
-      "step": 3354
-    },
-    {
-      "epoch": 44.0,
-      "eval_accuracy": 0.7689530685920578,
-      "eval_loss": 2.4501726627349854,
-      "eval_runtime": 0.3032,
-      "eval_samples_per_second": 913.655,
-      "eval_steps_per_second": 9.895,
-      "step": 3432
-    },
-    {
-      "epoch": 44.87,
-      "learning_rate": 0.00023358908780903668,
-      "loss": 0.0294,
-      "step": 3500
-    },
-    {
-      "epoch": 45.0,
-      "eval_accuracy": 0.7725631768953068,
-      "eval_loss": 2.2387545108795166,
-      "eval_runtime": 0.308,
-      "eval_samples_per_second": 899.428,
-      "eval_steps_per_second": 9.741,
-      "step": 3510
-    },
-    {
-      "epoch": 46.0,
-      "eval_accuracy": 0.7978339350180506,
-      "eval_loss": 2.1785941123962402,
-      "eval_runtime": 0.2416,
-      "eval_samples_per_second": 1146.514,
-      "eval_steps_per_second": 12.417,
-      "step": 3588
-    },
-    {
-      "epoch": 47.0,
-      "eval_accuracy": 0.7653429602888087,
-      "eval_loss": 2.5040040016174316,
-      "eval_runtime": 0.2296,
-      "eval_samples_per_second": 1206.456,
-      "eval_steps_per_second": 13.066,
-      "step": 3666
-    },
-    {
-      "epoch": 48.0,
-      "eval_accuracy": 0.779783393501805,
-      "eval_loss": 2.4230690002441406,
-      "eval_runtime": 0.3106,
-      "eval_samples_per_second": 891.893,
-      "eval_steps_per_second": 9.659,
-      "step": 3744
-    },
-    {
-      "epoch": 49.0,
-      "eval_accuracy": 0.776173285198556,
-      "eval_loss": 2.3979299068450928,
-      "eval_runtime": 0.2331,
-      "eval_samples_per_second": 1188.417,
-      "eval_steps_per_second": 12.871,
-      "step": 3822
-    },
-    {
-      "epoch": 50.0,
-      "eval_accuracy": 0.8050541516245487,
-      "eval_loss": 2.2128214836120605,
-      "eval_runtime": 0.2857,
-      "eval_samples_per_second": 969.393,
-      "eval_steps_per_second": 10.499,
-      "step": 3900
-    },
-    {
-      "epoch": 51.0,
-      "eval_accuracy": 0.7870036101083032,
-      "eval_loss": 2.4434621334075928,
-      "eval_runtime": 0.232,
-      "eval_samples_per_second": 1193.915,
-      "eval_steps_per_second": 12.93,
-      "step": 3978
-    },
-    {
-      "epoch": 51.28,
-      "learning_rate": 0.00019096334185848252,
-      "loss": 0.0247,
-      "step": 4000
-    },
-    {
-      "epoch": 52.0,
-      "eval_accuracy": 0.8050541516245487,
-      "eval_loss": 2.1702017784118652,
-      "eval_runtime": 0.2785,
-      "eval_samples_per_second": 994.698,
-      "eval_steps_per_second": 10.773,
-      "step": 4056
-    },
-    {
-      "epoch": 53.0,
-      "eval_accuracy": 0.7942238267148014,
-      "eval_loss": 2.052528142929077,
-      "eval_runtime": 0.2278,
-      "eval_samples_per_second": 1216.111,
-      "eval_steps_per_second": 13.171,
-      "step": 4134
-    },
-    {
-      "epoch": 54.0,
-      "eval_accuracy": 0.7978339350180506,
-      "eval_loss": 2.259878396987915,
-      "eval_runtime": 0.2332,
-      "eval_samples_per_second": 1187.792,
-      "eval_steps_per_second": 12.864,
-      "step": 4212
-    },
-    {
-      "epoch": 55.0,
-      "eval_accuracy": 0.7870036101083032,
-      "eval_loss": 2.3375229835510254,
-      "eval_runtime": 0.2354,
-      "eval_samples_per_second": 1176.728,
-      "eval_steps_per_second": 12.744,
-      "step": 4290
-    },
-    {
-      "epoch": 56.0,
-      "eval_accuracy": 0.776173285198556,
-      "eval_loss": 2.3791956901550293,
-      "eval_runtime": 0.2303,
-      "eval_samples_per_second": 1202.553,
-      "eval_steps_per_second": 13.024,
-      "step": 4368
-    },
-    {
-      "epoch": 57.0,
-      "eval_accuracy": 0.7617328519855595,
-      "eval_loss": 2.6323866844177246,
-      "eval_runtime": 0.2788,
-      "eval_samples_per_second": 993.528,
-      "eval_steps_per_second": 10.76,
-      "step": 4446
-    },
-    {
-      "epoch": 57.69,
-      "learning_rate": 0.0001483375959079284,
-      "loss": 0.0262,
-      "step": 4500
-    },
-    {
-      "epoch": 58.0,
-      "eval_accuracy": 0.7725631768953068,
-      "eval_loss": 2.386228561401367,
-      "eval_runtime": 0.2333,
-      "eval_samples_per_second": 1187.256,
-      "eval_steps_per_second": 12.858,
-      "step": 4524
-    },
-    {
-      "epoch": 59.0,
-      "eval_accuracy": 0.7653429602888087,
-      "eval_loss": 2.629952907562256,
-      "eval_runtime": 0.2289,
-      "eval_samples_per_second": 1210.168,
-      "eval_steps_per_second": 13.107,
-      "step": 4602
-    },
-    {
-      "epoch": 60.0,
-      "eval_accuracy": 0.7689530685920578,
-      "eval_loss": 2.5751161575317383,
-      "eval_runtime": 0.2343,
-      "eval_samples_per_second": 1182.419,
-      "eval_steps_per_second": 12.806,
-      "step": 4680
-    },
-    {
-      "epoch": 61.0,
-      "eval_accuracy": 0.776173285198556,
-      "eval_loss": 2.4631881713867188,
-      "eval_runtime": 0.3299,
-      "eval_samples_per_second": 839.738,
-      "eval_steps_per_second": 9.095,
-      "step": 4758
-    },
-    {
-      "epoch": 62.0,
-      "eval_accuracy": 0.779783393501805,
-      "eval_loss": 2.332425117492676,
-      "eval_runtime": 0.2338,
-      "eval_samples_per_second": 1184.805,
-      "eval_steps_per_second": 12.832,
-      "step": 4836
-    },
-    {
-      "epoch": 63.0,
-      "eval_accuracy": 0.7942238267148014,
-      "eval_loss": 2.282438039779663,
-      "eval_runtime": 0.3154,
-      "eval_samples_per_second": 878.349,
-      "eval_steps_per_second": 9.513,
-      "step": 4914
-    },
-    {
-      "epoch": 64.0,
-      "eval_accuracy": 0.7725631768953068,
-      "eval_loss": 2.5226333141326904,
-      "eval_runtime": 0.2747,
-      "eval_samples_per_second": 1008.395,
-      "eval_steps_per_second": 10.921,
-      "step": 4992
-    },
-    {
-      "epoch": 64.1,
-      "learning_rate": 0.00010571184995737426,
-      "loss": 0.0163,
-      "step": 5000
-    },
-    {
-      "epoch": 65.0,
-      "eval_accuracy": 0.7833935018050542,
-      "eval_loss": 2.5482494831085205,
-      "eval_runtime": 0.2312,
-      "eval_samples_per_second": 1198.154,
-      "eval_steps_per_second": 12.976,
-      "step": 5070
-    },
-    {
-      "epoch": 66.0,
-      "eval_accuracy": 0.7906137184115524,
-      "eval_loss": 2.5009658336639404,
-      "eval_runtime": 0.2315,
-      "eval_samples_per_second": 1196.726,
-      "eval_steps_per_second": 12.961,
-      "step": 5148
-    },
-    {
-      "epoch": 67.0,
-      "eval_accuracy": 0.7653429602888087,
-      "eval_loss": 2.863718032836914,
-      "eval_runtime": 0.2338,
-      "eval_samples_per_second": 1184.556,
-      "eval_steps_per_second": 12.829,
-      "step": 5226
-    },
-    {
-      "epoch": 68.0,
-      "eval_accuracy": 0.7833935018050542,
-      "eval_loss": 2.638036012649536,
-      "eval_runtime": 0.3062,
-      "eval_samples_per_second": 904.565,
-      "eval_steps_per_second": 9.797,
-      "step": 5304
-    },
-    {
-      "epoch": 69.0,
-      "eval_accuracy": 0.779783393501805,
-      "eval_loss": 2.676180839538574,
-      "eval_runtime": 0.2797,
-      "eval_samples_per_second": 990.196,
-      "eval_steps_per_second": 10.724,
-      "step": 5382
-    },
-    {
-      "epoch": 70.0,
-      "eval_accuracy": 0.779783393501805,
-      "eval_loss": 2.7992238998413086,
-      "eval_runtime": 0.2332,
-      "eval_samples_per_second": 1187.793,
-      "eval_steps_per_second": 12.864,
-      "step": 5460
-    },
-    {
-      "epoch": 70.51,
-      "learning_rate": 6.308610400682012e-05,
-      "loss": 0.0133,
-      "step": 5500
-    },
-    {
-      "epoch": 71.0,
-      "eval_accuracy": 0.7870036101083032,
-      "eval_loss": 2.691901445388794,
-      "eval_runtime": 0.2313,
-      "eval_samples_per_second": 1197.649,
-      "eval_steps_per_second": 12.971,
-      "step": 5538
-    },
-    {
-      "epoch": 72.0,
-      "eval_accuracy": 0.7833935018050542,
-      "eval_loss": 2.6941630840301514,
-      "eval_runtime": 0.3108,
-      "eval_samples_per_second": 891.377,
-      "eval_steps_per_second": 9.654,
-      "step": 5616
-    },
-    {
-      "epoch": 73.0,
-      "eval_accuracy": 0.7942238267148014,
-      "eval_loss": 2.6317222118377686,
-      "eval_runtime": 0.2308,
-      "eval_samples_per_second": 1200.365,
-      "eval_steps_per_second": 13.0,
-      "step": 5694
-    },
-    {
-      "epoch": 74.0,
-      "eval_accuracy": 0.7870036101083032,
-      "eval_loss": 2.635883331298828,
-      "eval_runtime": 0.2325,
-      "eval_samples_per_second": 1191.569,
-      "eval_steps_per_second": 12.905,
-      "step": 5772
-    },
-    {
-      "epoch": 75.0,
-      "eval_accuracy": 0.7870036101083032,
-      "eval_loss": 2.631652593612671,
-      "eval_runtime": 0.2307,
-      "eval_samples_per_second": 1200.479,
-      "eval_steps_per_second": 13.002,
-      "step": 5850
-    },
-    {
-      "epoch": 76.0,
-      "eval_accuracy": 0.7833935018050542,
-      "eval_loss": 2.68886661529541,
-      "eval_runtime": 0.2322,
-      "eval_samples_per_second": 1193.142,
-      "eval_steps_per_second": 12.922,
-      "step": 5928
-    },
-    {
-      "epoch": 76.92,
-      "learning_rate": 2.0460358056265986e-05,
-      "loss": 0.0085,
-      "step": 6000
-    },
-    {
-      "epoch": 77.0,
-      "eval_accuracy": 0.7833935018050542,
-      "eval_loss": 2.730724811553955,
-      "eval_runtime": 0.2718,
-      "eval_samples_per_second": 1019.194,
-      "eval_steps_per_second": 11.038,
-      "step": 6006
-    },
-    {
-      "epoch": 78.0,
-      "eval_accuracy": 0.779783393501805,
-      "eval_loss": 2.7645108699798584,
-      "eval_runtime": 0.232,
-      "eval_samples_per_second": 1193.866,
-      "eval_steps_per_second": 12.93,
-      "step": 6084
-    },
-    {
-      "epoch": 79.0,
-      "eval_accuracy": 0.7833935018050542,
-      "eval_loss": 2.7476391792297363,
-      "eval_runtime": 0.3197,
-      "eval_samples_per_second": 866.393,
-      "eval_steps_per_second": 9.383,
-      "step": 6162
-    },
-    {
-      "epoch": 80.0,
-      "eval_accuracy": 0.7833935018050542,
-      "eval_loss": 2.7370429039001465,
-      "eval_runtime": 0.2352,
-      "eval_samples_per_second": 1177.509,
-      "eval_steps_per_second": 12.753,
-      "step": 6240
-    },
-    {
-      "epoch": 80.0,
-      "step": 6240,
-      "total_flos": 1.31480478461952e+16,
-      "train_loss": 0.10918387793577634,
-      "train_runtime": 662.0132,
-      "train_samples_per_second": 300.9,
-      "train_steps_per_second": 9.426
     }
   ],
-  "max_steps": 6240,
-  "num_train_epochs": 80,
-  "total_flos": 1.31480478461952e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.7472924187725631,
+  "best_model_checkpoint": "outputs/lora/roberta-base/v2/rte/checkpoint-702",
+  "epoch": 10.0,
+  "global_step": 780,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 1.0,
       "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.700201690196991,
+      "eval_runtime": 0.2542,
+      "eval_samples_per_second": 1089.901,
+      "eval_steps_per_second": 11.804,
       "step": 78
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6389891696750902,
+      "eval_loss": 0.6369197964668274,
+      "eval_runtime": 0.3571,
+      "eval_samples_per_second": 775.771,
+      "eval_steps_per_second": 8.402,
       "step": 156
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6606498194945848,
+      "eval_loss": 0.6243730783462524,
+      "eval_runtime": 0.2436,
+      "eval_samples_per_second": 1137.183,
+      "eval_steps_per_second": 12.316,
       "step": 234
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7184115523465704,
+      "eval_loss": 0.572300136089325,
+      "eval_runtime": 0.228,
+      "eval_samples_per_second": 1214.712,
+      "eval_steps_per_second": 13.156,
       "step": 312
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7220216606498195,
+      "eval_loss": 0.5677592754364014,
+      "eval_runtime": 0.2299,
+      "eval_samples_per_second": 1204.73,
+      "eval_steps_per_second": 13.048,
       "step": 390
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7220216606498195,
+      "eval_loss": 0.6392128467559814,
+      "eval_runtime": 0.2306,
+      "eval_samples_per_second": 1201.256,
+      "eval_steps_per_second": 13.01,
       "step": 468
     },
     {
       "epoch": 6.41,
+      "learning_rate": 0.00019099590723055935,
+      "loss": 0.5649,
       "step": 500
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.7364620938628159,
+      "eval_loss": 0.5661243200302124,
+      "eval_runtime": 0.3267,
+      "eval_samples_per_second": 847.854,
+      "eval_steps_per_second": 9.183,
       "step": 546
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.7328519855595668,
+      "eval_loss": 0.6633248329162598,
+      "eval_runtime": 0.228,
+      "eval_samples_per_second": 1214.709,
+      "eval_steps_per_second": 13.156,
       "step": 624
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.7472924187725631,
+      "eval_loss": 0.5988962054252625,
+      "eval_runtime": 0.2338,
+      "eval_samples_per_second": 1184.722,
+      "eval_steps_per_second": 12.831,
       "step": 702
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.7292418772563177,
+      "eval_loss": 0.6346577405929565,
+      "eval_runtime": 0.2362,
+      "eval_samples_per_second": 1172.727,
+      "eval_steps_per_second": 12.701,
       "step": 780
     },
     {
+      "epoch": 10.0,
+      "step": 780,
+      "total_flos": 1643505980774400.0,
+      "train_loss": 0.49518577380058093,
+      "train_runtime": 60.2408,
+      "train_samples_per_second": 413.341,
+      "train_steps_per_second": 12.948
     }
   ],
+  "max_steps": 780,
+  "num_train_epochs": 10,
+  "total_flos": 1643505980774400.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03da3c7b3ee601a1c60e4b1c7b52908cb0d6e3482e88e3fba532380638e91af7
 size 2991

 version https://git-lfs.github.com/spec/v1
+oid sha256:db3be2cac0cb77090e11e0d4f57a25a90219062e587aa740922cc72ee94791b6
 size 2991