update weight

Files changed (7) hide show

eval_results.txt +12 -12
optimizer.pt +1 -1
pytorch_model.bin +1 -1
scheduler.pt +1 -1
train_results.txt +3 -3
trainer_state.json +71 -119
training_args.bin +1 -1

eval_results.txt CHANGED Viewed

@@ -1,12 +1,12 @@
-epoch = 3.0
-eval_CR = 89.02
-eval_MPQA = 89.09
-eval_MR = 83.33
-eval_MRPC = 75.17
-eval_SST2 = 85.67
-eval_SUBJ = 99.65
-eval_TREC = 82.72
-eval_avg_sts = 0.8388995317355574
-eval_avg_transfer = 86.37857142857142
-eval_sickr_spearman = 0.8146857710857348
-eval_stsb_spearman = 0.86311329238538

+epoch = 10.0
+eval_CR = 88.85
+eval_MPQA = 88.99
+eval_MR = 85.36
+eval_MRPC = 74.98
+eval_SST2 = 86.01
+eval_SUBJ = 99.62
+eval_TREC = 79.7
+eval_avg_sts = 0.8315040583627913
+eval_avg_transfer = 86.21571428571428
+eval_sickr_spearman = 0.8021320742272611
+eval_stsb_spearman = 0.8608760424983216

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f877c353b81f010c67f366c2ab146aadc60349440f54c2b9e4ae87f38743bbe8
 size 875982637

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9130ff6720870248e19961fd34d1e7dc2489cc4c8a3c9b6f2191767dbb46749
 size 875982637

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0988e26f9c1e96651f452af503bba057ef2c9cc9b9f364ef9ad28e26d9af9c59
 size 438000759

 version https://git-lfs.github.com/spec/v1
+oid sha256:a66e67c01778babd040e657cf6b2a76d294f7d3faec9f620631c2d48890456c2
 size 438000759

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f676bf30734a5585dd13ee674039589cb4b9ca0275c962b5e11a3b02a83586a6
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a31db339da4025c7d348eaa0271b4dd805c3c369c78ba55a1569580cbb0e0945
 size 623

train_results.txt CHANGED Viewed

@@ -1,3 +1,3 @@
-epoch = 3.0
-train_runtime = 3382.225
-train_samples_per_second = 0.716

+epoch = 10.0
+train_runtime = 4081.7638
+train_samples_per_second = 0.407

trainer_state.json CHANGED Viewed

@@ -1,179 +1,131 @@
 {
-  "best_metric": 0.86311329238538,
   "best_model_checkpoint": "result/my-sup-simcse-bert-base-uncased",
-  "epoch": 3.0,
-  "global_step": 2421,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.15,
-      "eval_avg_sts": 0.8388995317355574,
-      "eval_sickr_spearman": 0.8146857710857348,
-      "eval_stsb_spearman": 0.86311329238538,
       "step": 125
     },
     {
-      "epoch": 0.31,
-      "eval_avg_sts": 0.8332486405485358,
-      "eval_sickr_spearman": 0.8082352902247991,
-      "eval_stsb_spearman": 0.8582619908722724,
       "step": 250
     },
     {
-      "epoch": 0.46,
-      "eval_avg_sts": 0.8315926314982992,
-      "eval_sickr_spearman": 0.8008793270395521,
-      "eval_stsb_spearman": 0.8623059359570463,
       "step": 375
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 3.9673688558446925e-05,
-      "loss": 0.1625,
       "step": 500
     },
     {
-      "epoch": 0.62,
-      "eval_avg_sts": 0.82902006063027,
-      "eval_sickr_spearman": 0.8009135732148775,
-      "eval_stsb_spearman": 0.8571265480456624,
       "step": 500
     },
     {
-      "epoch": 0.77,
-      "eval_avg_sts": 0.8234837706323759,
-      "eval_sickr_spearman": 0.7913043269678645,
-      "eval_stsb_spearman": 0.8556632142968873,
       "step": 625
     },
     {
-      "epoch": 0.93,
-      "eval_avg_sts": 0.8238431555715283,
-      "eval_sickr_spearman": 0.7974856415363409,
-      "eval_stsb_spearman": 0.8502006696067157,
       "step": 750
     },
     {
-      "epoch": 1.08,
-      "eval_avg_sts": 0.8266718232644965,
-      "eval_sickr_spearman": 0.8003919554532598,
-      "eval_stsb_spearman": 0.8529516910757333,
       "step": 875
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 2.9347377116893847e-05,
-      "loss": 0.0815,
       "step": 1000
     },
     {
-      "epoch": 1.24,
-      "eval_avg_sts": 0.819954267975217,
-      "eval_sickr_spearman": 0.7929691810059123,
-      "eval_stsb_spearman": 0.8469393549445217,
       "step": 1000
     },
     {
-      "epoch": 1.39,
-      "eval_avg_sts": 0.8249139721135836,
-      "eval_sickr_spearman": 0.8003723587638729,
-      "eval_stsb_spearman": 0.8494555854632942,
       "step": 1125
     },
     {
-      "epoch": 1.55,
-      "eval_avg_sts": 0.8211704289881193,
-      "eval_sickr_spearman": 0.794750558496049,
-      "eval_stsb_spearman": 0.8475902994801896,
       "step": 1250
     },
     {
-      "epoch": 1.7,
-      "eval_avg_sts": 0.8210084871203903,
-      "eval_sickr_spearman": 0.7898188690936879,
-      "eval_stsb_spearman": 0.8521981051470927,
       "step": 1375
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 1.902106567534077e-05,
-      "loss": 0.0673,
       "step": 1500
     },
     {
-      "epoch": 1.86,
-      "eval_avg_sts": 0.8244940569196582,
-      "eval_sickr_spearman": 0.7977014933062037,
-      "eval_stsb_spearman": 0.8512866205331128,
       "step": 1500
     },
     {
-      "epoch": 2.01,
-      "eval_avg_sts": 0.819840729451552,
-      "eval_sickr_spearman": 0.789596437062928,
-      "eval_stsb_spearman": 0.850085021840176,
       "step": 1625
     },
     {
-      "epoch": 2.17,
-      "eval_avg_sts": 0.8194523296306793,
-      "eval_sickr_spearman": 0.7900231453681041,
-      "eval_stsb_spearman": 0.8488815138932543,
-      "step": 1750
-    },
-    {
-      "epoch": 2.32,
-      "eval_avg_sts": 0.819201881270627,
-      "eval_sickr_spearman": 0.7891284700416165,
-      "eval_stsb_spearman": 0.8492752924996376,
-      "step": 1875
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 8.694754233787691e-06,
-      "loss": 0.0613,
-      "step": 2000
-    },
-    {
-      "epoch": 2.48,
-      "eval_avg_sts": 0.8205549448908287,
-      "eval_sickr_spearman": 0.7917587011874689,
-      "eval_stsb_spearman": 0.8493511885941886,
-      "step": 2000
-    },
-    {
-      "epoch": 2.63,
-      "eval_avg_sts": 0.8199800089125161,
-      "eval_sickr_spearman": 0.7909771871359695,
-      "eval_stsb_spearman": 0.8489828306890627,
-      "step": 2125
-    },
-    {
-      "epoch": 2.79,
-      "eval_avg_sts": 0.8217889587200623,
-      "eval_sickr_spearman": 0.7920187896017563,
-      "eval_stsb_spearman": 0.8515591278383683,
-      "step": 2250
-    },
-    {
-      "epoch": 2.94,
-      "eval_avg_sts": 0.8220433030575918,
-      "eval_sickr_spearman": 0.7925120690135258,
-      "eval_stsb_spearman": 0.8515745371016578,
-      "step": 2375
-    },
-    {
-      "epoch": 3.0,
-      "step": 2421,
-      "train_runtime": 3382.225,
-      "train_samples_per_second": 0.716
     }
   ],
-  "max_steps": 2421,
-  "num_train_epochs": 3,
-  "total_flos": 19636662129721344,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.8608760424983216,
   "best_model_checkpoint": "result/my-sup-simcse-bert-base-uncased",
+  "epoch": 10.0,
+  "global_step": 1660,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.75,
+      "eval_avg_sts": 0.8315040583627913,
+      "eval_sickr_spearman": 0.8021320742272611,
+      "eval_stsb_spearman": 0.8608760424983216,
       "step": 125
     },
     {
+      "epoch": 1.51,
+      "eval_avg_sts": 0.8276682684969617,
+      "eval_sickr_spearman": 0.8024215096445272,
+      "eval_stsb_spearman": 0.8529150273493963,
       "step": 250
     },
     {
+      "epoch": 2.26,
+      "eval_avg_sts": 0.8292414115876203,
+      "eval_sickr_spearman": 0.8035029298934062,
+      "eval_stsb_spearman": 0.8549798932818345,
       "step": 375
     },
     {
+      "epoch": 3.01,
+      "learning_rate": 3.4939759036144585e-05,
+      "loss": 0.1927,
       "step": 500
     },
     {
+      "epoch": 3.01,
+      "eval_avg_sts": 0.8242638816167347,
+      "eval_sickr_spearman": 0.8022541692871167,
+      "eval_stsb_spearman": 0.8462735939463528,
       "step": 500
     },
     {
+      "epoch": 3.77,
+      "eval_avg_sts": 0.8233283779153091,
+      "eval_sickr_spearman": 0.7945779827485818,
+      "eval_stsb_spearman": 0.8520787730820363,
       "step": 625
     },
     {
+      "epoch": 4.52,
+      "eval_avg_sts": 0.8215947619403889,
+      "eval_sickr_spearman": 0.7907777620027984,
+      "eval_stsb_spearman": 0.8524117618779796,
       "step": 750
     },
     {
+      "epoch": 5.27,
+      "eval_avg_sts": 0.8227357575888109,
+      "eval_sickr_spearman": 0.7947862936355189,
+      "eval_stsb_spearman": 0.8506852215421029,
       "step": 875
     },
     {
+      "epoch": 6.02,
+      "learning_rate": 1.9879518072289157e-05,
+      "loss": 0.0995,
       "step": 1000
     },
     {
+      "epoch": 6.02,
+      "eval_avg_sts": 0.8234624613863508,
+      "eval_sickr_spearman": 0.7961339983107709,
+      "eval_stsb_spearman": 0.8507909244619307,
       "step": 1000
     },
     {
+      "epoch": 6.78,
+      "eval_avg_sts": 0.8199047038936794,
+      "eval_sickr_spearman": 0.7917320919572722,
+      "eval_stsb_spearman": 0.8480773158300866,
       "step": 1125
     },
     {
+      "epoch": 7.53,
+      "eval_avg_sts": 0.8194132158921612,
+      "eval_sickr_spearman": 0.7884059381826829,
+      "eval_stsb_spearman": 0.8504204936016395,
       "step": 1250
     },
     {
+      "epoch": 8.28,
+      "eval_avg_sts": 0.8188285236637569,
+      "eval_sickr_spearman": 0.7876833102615466,
+      "eval_stsb_spearman": 0.8499737370659672,
       "step": 1375
     },
     {
+      "epoch": 9.04,
+      "learning_rate": 4.819277108433735e-06,
+      "loss": 0.0874,
       "step": 1500
     },
     {
+      "epoch": 9.04,
+      "eval_avg_sts": 0.8193720271717073,
+      "eval_sickr_spearman": 0.7877823023616106,
+      "eval_stsb_spearman": 0.850961751981804,
       "step": 1500
     },
     {
+      "epoch": 9.79,
+      "eval_avg_sts": 0.8188424049556793,
+      "eval_sickr_spearman": 0.7873486775778272,
+      "eval_stsb_spearman": 0.8503361323335314,
       "step": 1625
     },
     {
+      "epoch": 10.0,
+      "step": 1660,
+      "train_runtime": 4081.7638,
+      "train_samples_per_second": 0.407
     }
   ],
+  "max_steps": 1660,
+  "num_train_epochs": 10,
+  "total_flos": 26836143897968640,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c57010aba088aae779a723a1b3d42d330743938195c9820bfb96be9122bd6d03
 size 2095

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce75296748a079cfb523332bd12778a99b532e48fc8b97a5383cb39780b6b4b1
 size 2095