Training in progress, step 200

Browse files

Files changed (14) hide show

all_results.json +20 -0
eval_results.json +9 -0
pytorch_model.bin +2 -2
runs/Feb01_00-59-43_node1/1643648485.9903824/events.out.tfevents.1643648485.node1 +3 -0
runs/Feb01_00-59-43_node1/events.out.tfevents.1643648485.node1 +3 -0
runs/Feb01_01-13-39_node1/1643649325.0389245/events.out.tfevents.1643649325.node1 +3 -0
runs/Feb01_01-13-39_node1/events.out.tfevents.1643649325.node1 +3 -0
runs/Jan31_21-07-11_node1/events.out.tfevents.1643634552.node1 +2 -2
runs/Jan31_21-07-11_node1/events.out.tfevents.1643635081.node1 +3 -0
test_results.json +9 -0
train_results.json +8 -0
trainer_state.json +105 -0
training_args.bin +1 -1
training_config.json +1 -1

all_results.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+    "epoch": 3.0,
+    "eval_average_metrics": 58.41817631314976,
+    "eval_em": 49.88986784140969,
+    "eval_f1": 66.94648478488982,
+    "eval_loss": 0.2216569185256958,
+    "eval_runtime": 9.9222,
+    "eval_samples_per_second": 244.301,
+    "test_average_metrics": 59.672400265556156,
+    "test_em": 51.55555555555556,
+    "test_f1": 67.78924497555676,
+    "test_loss": 0.20578201115131378,
+    "test_runtime": 10.0457,
+    "test_samples_per_second": 241.296,
+    "train_loss": 0.23175367241920627,
+    "train_runtime": 518.4287,
+    "train_samples": 27243,
+    "train_samples_per_second": 157.648,
+    "train_steps_per_second": 4.93
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "eval_average_metrics": 58.41817631314976,
+    "eval_em": 49.88986784140969,
+    "eval_f1": 66.94648478488982,
+    "eval_loss": 0.2216569185256958,
+    "eval_runtime": 9.9222,
+    "eval_samples_per_second": 244.301
+}

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7036ad06641bf88ee05db574be8de50e141507363aba2347f384a5255b581ff0
-size 1084131

 version https://git-lfs.github.com/spec/v1
+oid sha256:50817a1be4f682cc26c6d9bcb2abfc91b62799d3dfeffa811bec565a428bae65
+size 7551621

runs/Feb01_00-59-43_node1/1643648485.9903824/events.out.tfevents.1643648485.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3623fd327d47d8ee810902649b03dffd7772ffeb77392323ed8c4d58ab09ea7
+size 5050

runs/Feb01_00-59-43_node1/events.out.tfevents.1643648485.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:778d31246871aec1ee9b7b2e79c2198eae93177d65caf3f48d91915c9ac951dd
+size 4338

runs/Feb01_01-13-39_node1/1643649325.0389245/events.out.tfevents.1643649325.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0397010ca2f06b5d3148c1fc87dc681eb1b218731fa92d5576c233929ae8a826
+size 5050

runs/Feb01_01-13-39_node1/events.out.tfevents.1643649325.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4508991822a9013c0f89d17a0398634a7ce392e520c8145ba0a7fa40192d7c5
+size 4338

runs/Jan31_21-07-11_node1/events.out.tfevents.1643634552.node1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:950d1cb6bc1a19f4b23ad27ad8d16036fc1804ba98764479c857cc68ef37402c
-size 6571

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b5c4a3b11285e36add98dc668985b6d3c8ef9728af93f7b6fae214c8e1deb24
+size 7287

runs/Jan31_21-07-11_node1/events.out.tfevents.1643635081.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf9e434f0ccd949f7cd40c19ed319c01ad16cc65232485bf1b042a53fbc8acbf
+size 764

test_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "test_average_metrics": 59.672400265556156,
+    "test_em": 51.55555555555556,
+    "test_f1": 67.78924497555676,
+    "test_loss": 0.20578201115131378,
+    "test_runtime": 10.0457,
+    "test_samples_per_second": 241.296
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "train_loss": 0.23175367241920627,
+    "train_runtime": 518.4287,
+    "train_samples": 27243,
+    "train_samples_per_second": 157.648,
+    "train_steps_per_second": 4.93
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,105 @@

+{
+  "best_metric": 58.41817631314976,
+  "best_model_checkpoint": "outputs/bitfit/t5-base/superglue-multirc/checkpoint-500",
+  "epoch": 3.0,
+  "global_step": 2556,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002413145539906103,
+      "loss": 0.3731,
+      "step": 500
+    },
+    {
+      "epoch": 0.59,
+      "eval_average_metrics": 58.41817631314976,
+      "eval_em": 49.88986784140969,
+      "eval_f1": 66.94648478488982,
+      "eval_loss": 0.2216569185256958,
+      "eval_runtime": 10.3072,
+      "eval_samples_per_second": 235.176,
+      "step": 500
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00018262910798122063,
+      "loss": 0.2051,
+      "step": 1000
+    },
+    {
+      "epoch": 1.17,
+      "eval_average_metrics": 56.51724313400503,
+      "eval_em": 48.348017621145374,
+      "eval_f1": 64.68646864686468,
+      "eval_loss": 0.2394641786813736,
+      "eval_runtime": 10.1791,
+      "eval_samples_per_second": 238.134,
+      "step": 1000
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00012394366197183098,
+      "loss": 0.1986,
+      "step": 1500
+    },
+    {
+      "epoch": 1.76,
+      "eval_average_metrics": 57.765320466809,
+      "eval_em": 48.89867841409691,
+      "eval_f1": 66.6319625195211,
+      "eval_loss": 0.21828946471214294,
+      "eval_runtime": 10.2337,
+      "eval_samples_per_second": 236.864,
+      "step": 1500
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.525821596244131e-05,
+      "loss": 0.1959,
+      "step": 2000
+    },
+    {
+      "epoch": 2.35,
+      "eval_average_metrics": 57.370821730262364,
+      "eval_em": 48.56828193832599,
+      "eval_f1": 66.17336152219873,
+      "eval_loss": 0.2225608378648758,
+      "eval_runtime": 10.1351,
+      "eval_samples_per_second": 239.168,
+      "step": 2000
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 6.5727699530516425e-06,
+      "loss": 0.1905,
+      "step": 2500
+    },
+    {
+      "epoch": 2.93,
+      "eval_average_metrics": 58.251227638040206,
+      "eval_em": 49.118942731277535,
+      "eval_f1": 67.38351254480287,
+      "eval_loss": 0.21952344477176666,
+      "eval_runtime": 10.193,
+      "eval_samples_per_second": 237.809,
+      "step": 2500
+    },
+    {
+      "epoch": 3.0,
+      "step": 2556,
+      "total_flos": 2.4915591799658496e+16,
+      "train_loss": 0.23175367241920627,
+      "train_runtime": 518.4287,
+      "train_samples_per_second": 157.648,
+      "train_steps_per_second": 4.93
+    }
+  ],
+  "max_steps": 2556,
+  "num_train_epochs": 3,
+  "total_flos": 2.4915591799658496e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:886714c4c90272017c1c51958fece0d783ad47758911de4c217a3ad37e8e36b7
 size 3183

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b69a875f82add78a43a9830f1b279342b8db3bc578b10f33b14442fb873835e
 size 3183

training_config.json CHANGED Viewed

@@ -1 +1 @@

- {"dataset_config_name": ["en"], "delta_type": "~~bitfit~~", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "superglue-multirc", "eval_steps": ~~500~~, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 256, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 3, "output_dir": "outputs/bitfit/t5-base/superglue-multirc", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": ~~500~~, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "superglue-multirc", "test_dataset_config_name": ["en"], "test_dataset_name": "superglue-multirc", "tokenizer_name": "../../../../plm_cache/t5-base", "warmup_steps": 0}

+ {"bottleneck_dim": 24, "dataset_config_name": ["en"], "delta_type": "adapter", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "superglue-multirc", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 256, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 3, "output_dir": "outputs/bitfit/t5-base/superglue-multirc", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "superglue-multirc", "test_dataset_config_name": ["en"], "test_dataset_name": "superglue-multirc", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}