Training in progress, step 200

Browse files

Files changed (14) hide show

all_results.json +16 -16
config.json +1 -1
eval_results.json +6 -8
pytorch_model.bin +2 -2
runs/Feb13_11-49-17_node1/events.out.tfevents.1644724261.node1 +2 -2
runs/Feb13_11-49-17_node1/events.out.tfevents.1644724681.node1 +3 -0
runs/Feb13_17-52-43_node1/1644746076.9297862/events.out.tfevents.1644746076.node1 +3 -0
runs/Feb13_17-52-43_node1/events.out.tfevents.1644746076.node1 +3 -0
test_results.json +6 -6
tokenizer.json +0 -0
train_results.json +4 -4
trainer_state.json +40 -45
training_args.bin +1 -1
training_config.json +1 -1

all_results.json CHANGED Viewed

@@ -1,23 +1,23 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.7083333333333334,
-    "eval_average_metrics": 90.18092691622104,
     "eval_combined_score": 0.7652279521674141,
-    "eval_f1": 0.8221225710014948,
-    "eval_loss": 0.5735756754875183,
-    "eval_runtime": 0.4847,
     "eval_samples": 408,
-    "eval_samples_per_second": 841.743,
     "eval_steps_per_second": 14.442,
-    "test_accuracy": 89.70588235294117,
-    "test_average_metrics": 91.19440459110473,
-    "test_f1": 92.6829268292683,
-    "test_loss": 0.2836102843284607,
-    "test_runtime": 1.0233,
-    "test_samples_per_second": 199.347,
-    "train_loss": 0.5910721482901737,
-    "train_runtime": 193.8371,
     "train_samples": 3668,
-    "train_samples_per_second": 378.462,
-    "train_steps_per_second": 5.984
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 88.23529411764706,
+    "eval_average_metrics": 89.89229494614747,
     "eval_combined_score": 0.7652279521674141,
+    "eval_f1": 91.54929577464787,
+    "eval_loss": 0.16003645956516266,
+    "eval_runtime": 0.6995,
     "eval_samples": 408,
+    "eval_samples_per_second": 291.653,
     "eval_steps_per_second": 14.442,
+    "test_accuracy": 89.2156862745098,
+    "test_average_metrics": 90.86634653861545,
+    "test_f1": 92.51700680272108,
+    "test_loss": 0.14261329174041748,
+    "test_runtime": 0.7757,
+    "test_samples_per_second": 262.979,
+    "train_loss": 0.17493162812857793,
+    "train_runtime": 418.5318,
     "train_samples": 3668,
+    "train_samples_per_second": 175.279,
+    "train_steps_per_second": 2.772
 }

config.json CHANGED Viewed

@@ -7,7 +7,7 @@
   "d_kv": 64,
   "d_model": 768,
   "decoder_start_token_id": 0,
-  "dropout_rate": 0.1,
   "eos_token_id": 1,
   "feed_forward_proj": "relu",
   "initializer_factor": 1.0,

   "d_kv": 64,
   "d_model": 768,
   "decoder_start_token_id": 0,
+  "dropout_rate": 0.0,
   "eos_token_id": 1,
   "feed_forward_proj": "relu",
   "initializer_factor": 1.0,

eval_results.json CHANGED Viewed

@@ -1,11 +1,9 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.7083333333333334,
-    "eval_combined_score": 0.7652279521674141,
-    "eval_f1": 0.8221225710014948,
-    "eval_loss": 0.5735756754875183,
-    "eval_runtime": 0.4847,
-    "eval_samples": 408,
-    "eval_samples_per_second": 841.743,
-    "eval_steps_per_second": 14.442
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 88.23529411764706,
+    "eval_average_metrics": 89.89229494614747,
+    "eval_f1": 91.54929577464787,
+    "eval_loss": 0.16003645956516266,
+    "eval_runtime": 0.6995,
+    "eval_samples_per_second": 291.653
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fdcf757e2885b5216fad5766c7f89d23d581c1ad49d8816f3562354de90eba6
-size 2631685

 version https://git-lfs.github.com/spec/v1
+oid sha256:b09e19d290866a921a7cc2616939f5dd9656a5f74c49c3237fddda3484eeed7f
+size 7551621

runs/Feb13_11-49-17_node1/events.out.tfevents.1644724261.node1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7bf01c2a75a84f02ed7c4327c6b5e95250e39604ab320cd265dbb148a5a2c84
-size 6086

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f396edc54350f58cc8d99f2bc02b68f5f30681e89c1a19e33aec3590944380e
+size 6808

runs/Feb13_11-49-17_node1/events.out.tfevents.1644724681.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9050d4b6aa1251914583f3435db632594f03dddba0f359a1258077483c928cac
+size 776

runs/Feb13_17-52-43_node1/1644746076.9297862/events.out.tfevents.1644746076.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19f0864fed08298ee6fc589e408d8adf75fc8ae3794ab37582d568adb62fb872
+size 5011

runs/Feb13_17-52-43_node1/events.out.tfevents.1644746076.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7846c8c79bfdfc70d23291dc0ae5e8136915ef0ecc078355b225793e40056682
+size 4300

test_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 20.0,
-    "test_accuracy": 89.70588235294117,
-    "test_average_metrics": 91.19440459110473,
-    "test_f1": 92.6829268292683,
-    "test_loss": 0.2836102843284607,
-    "test_runtime": 1.0233,
-    "test_samples_per_second": 199.347
 }

 {
     "epoch": 20.0,
+    "test_accuracy": 89.2156862745098,
+    "test_average_metrics": 90.86634653861545,
+    "test_f1": 92.51700680272108,
+    "test_loss": 0.14261329174041748,
+    "test_runtime": 0.7757,
+    "test_samples_per_second": 262.979
 }

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.5910721482901737,
-    "train_runtime": 193.8371,
     "train_samples": 3668,
-    "train_samples_per_second": 378.462,
-    "train_steps_per_second": 5.984
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.17493162812857793,
+    "train_runtime": 418.5318,
     "train_samples": 3668,
+    "train_samples_per_second": 175.279,
+    "train_steps_per_second": 2.772
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.7083333333333334,
-  "best_model_checkpoint": "outputs/prefix/roberta-base/mrpc/checkpoint-600",
   "epoch": 20.0,
   "global_step": 1160,
   "is_hyper_param_search": false,
@@ -9,84 +9,79 @@
   "log_history": [
     {
       "epoch": 3.45,
-      "eval_accuracy": 0.7058823529411765,
-      "eval_combined_score": 0.7631208171891511,
-      "eval_f1": 0.8203592814371258,
-      "eval_loss": 0.602976381778717,
-      "eval_runtime": 1.1443,
-      "eval_samples_per_second": 356.557,
-      "eval_steps_per_second": 6.117,
       "step": 200
     },
     {
       "epoch": 6.9,
-      "eval_accuracy": 0.7034313725490197,
-      "eval_combined_score": 0.7620860566448802,
-      "eval_f1": 0.8207407407407408,
-      "eval_loss": 0.58584064245224,
-      "eval_runtime": 0.5538,
-      "eval_samples_per_second": 736.744,
-      "eval_steps_per_second": 12.64,
       "step": 400
     },
     {
       "epoch": 8.62,
       "learning_rate": 0.0001706896551724138,
-      "loss": 0.6074,
       "step": 500
     },
     {
       "epoch": 10.34,
-      "eval_accuracy": 0.7083333333333334,
-      "eval_combined_score": 0.7652279521674141,
-      "eval_f1": 0.8221225710014948,
-      "eval_loss": 0.5735756754875183,
-      "eval_runtime": 0.6085,
-      "eval_samples_per_second": 670.475,
-      "eval_steps_per_second": 11.503,
       "step": 600
     },
     {
       "epoch": 13.79,
-      "eval_accuracy": 0.7034313725490197,
-      "eval_combined_score": 0.7612822034643454,
-      "eval_f1": 0.8191330343796712,
-      "eval_loss": 0.5688421726226807,
-      "eval_runtime": 0.6104,
-      "eval_samples_per_second": 668.411,
-      "eval_steps_per_second": 11.468,
       "step": 800
     },
     {
       "epoch": 17.24,
       "learning_rate": 4.137931034482758e-05,
-      "loss": 0.5801,
       "step": 1000
     },
     {
       "epoch": 17.24,
-      "eval_accuracy": 0.7083333333333334,
-      "eval_combined_score": 0.7649612693653174,
-      "eval_f1": 0.8215892053973014,
-      "eval_loss": 0.5650697350502014,
-      "eval_runtime": 0.7692,
-      "eval_samples_per_second": 530.398,
-      "eval_steps_per_second": 9.1,
       "step": 1000
     },
     {
       "epoch": 20.0,
       "step": 1160,
-      "total_flos": 4831687561666560.0,
-      "train_loss": 0.5910721482901737,
-      "train_runtime": 193.8371,
-      "train_samples_per_second": 378.462,
-      "train_steps_per_second": 5.984
     }
   ],
   "max_steps": 1160,
   "num_train_epochs": 20,
-  "total_flos": 4831687561666560.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 89.89229494614747,
+  "best_model_checkpoint": "outputs/bitfit/t5-base/mrpc/checkpoint-600",
   "epoch": 20.0,
   "global_step": 1160,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 3.45,
+      "eval_accuracy": 87.25490196078431,
+      "eval_average_metrics": 89.04998619165977,
+      "eval_f1": 90.84507042253522,
+      "eval_loss": 0.15426486730575562,
+      "eval_runtime": 1.9622,
+      "eval_samples_per_second": 103.964,
       "step": 200
     },
     {
       "epoch": 6.9,
+      "eval_accuracy": 88.23529411764706,
+      "eval_average_metrics": 89.86232790988736,
+      "eval_f1": 91.48936170212765,
+      "eval_loss": 0.15000468492507935,
+      "eval_runtime": 0.758,
+      "eval_samples_per_second": 269.133,
       "step": 400
     },
     {
       "epoch": 8.62,
       "learning_rate": 0.0001706896551724138,
+      "loss": 0.3075,
       "step": 500
     },
     {
       "epoch": 10.34,
+      "eval_accuracy": 88.23529411764706,
+      "eval_average_metrics": 89.89229494614747,
+      "eval_f1": 91.54929577464787,
+      "eval_loss": 0.16003645956516266,
+      "eval_runtime": 0.7968,
+      "eval_samples_per_second": 256.036,
       "step": 600
     },
     {
       "epoch": 13.79,
+      "eval_accuracy": 88.23529411764706,
+      "eval_average_metrics": 89.89229494614747,
+      "eval_f1": 91.54929577464787,
+      "eval_loss": 0.17383529245853424,
+      "eval_runtime": 0.718,
+      "eval_samples_per_second": 284.125,
       "step": 800
     },
     {
       "epoch": 17.24,
       "learning_rate": 4.137931034482758e-05,
+      "loss": 0.0775,
       "step": 1000
     },
     {
       "epoch": 17.24,
+      "eval_accuracy": 86.27450980392157,
+      "eval_average_metrics": 88.13725490196079,
+      "eval_f1": 90.0,
+      "eval_loss": 0.18229342997074127,
+      "eval_runtime": 0.9163,
+      "eval_samples_per_second": 222.63,
       "step": 1000
     },
     {
       "epoch": 20.0,
       "step": 1160,
+      "total_flos": 9593848425259008.0,
+      "train_loss": 0.17493162812857793,
+      "train_runtime": 418.5318,
+      "train_samples_per_second": 175.279,
+      "train_steps_per_second": 2.772
     }
   ],
   "max_steps": 1160,
   "num_train_epochs": 20,
+  "total_flos": 9593848425259008.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7bb604d10a0afd55461caf0e5622569d6a7a1fb19a6cbca10a0d50be7bb0eff4
 size 3183

 version https://git-lfs.github.com/spec/v1
+oid sha256:17db249fae4619a2221659ee9b370dd6b54ccd58461e7019698d76ad354c5b1e
 size 3183

training_config.json CHANGED Viewed

@@ -1 +1 @@

- {"dataset_config_name": ["en"], "delta_type": "~~lora~~", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "mrpc", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "~~lora_r": 8, "~~max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/mrpc", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "mrpc", "test_dataset_config_name": ["en"], "test_dataset_name": "mrpc", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}

+ {"bottleneck_dim": 24, "dataset_config_name": ["en"], "delta_type": "adapter", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "mrpc", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/mrpc", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "mrpc", "test_dataset_config_name": ["en"], "test_dataset_name": "mrpc", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}