Training in progress, step 200

Browse files

Files changed (12) hide show

all_results.json +13 -13
eval_results.json +6 -6
pytorch_model.bin +2 -2
runs/Feb01_08-31-08_node1/events.out.tfevents.1643675552.node1 +2 -2
runs/Feb01_08-31-08_node1/events.out.tfevents.1643676404.node1 +3 -0
runs/Feb02_20-26-01_node1/1643804875.4911196/events.out.tfevents.1643804875.node1 +3 -0
runs/Feb02_20-26-01_node1/events.out.tfevents.1643804875.node1 +3 -0
test_results.json +3 -3
train_results.json +4 -4
trainer_state.json +133 -35
training_args.bin +1 -1
training_config.json +1 -1

all_results.json CHANGED Viewed

@@ -1,20 +1,20 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 87.74509803921569,
-    "eval_average_metrics": 89.42415044309539,
-    "eval_f1": 91.1032028469751,
-    "eval_loss": 0.16199710965156555,
-    "eval_runtime": 0.7045,
-    "eval_samples_per_second": 289.552,
     "test_accuracy": 89.70588235294117,
     "test_average_metrics": 91.19440459110473,
     "test_f1": 92.6829268292683,
-    "test_loss": 0.14617003500461578,
-    "test_runtime": 0.6901,
-    "test_samples_per_second": 295.608,
-    "train_loss": 0.7308501913740828,
-    "train_runtime": 299.5389,
     "train_samples": 3668,
-    "train_samples_per_second": 244.91,
-    "train_steps_per_second": 2.47
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 88.72549019607843,
+    "eval_average_metrics": 90.18092691622104,
+    "eval_f1": 91.63636363636364,
+    "eval_loss": 0.3694871664047241,
+    "eval_runtime": 1.0502,
+    "eval_samples_per_second": 194.246,
     "test_accuracy": 89.70588235294117,
     "test_average_metrics": 91.19440459110473,
     "test_f1": 92.6829268292683,
+    "test_loss": 0.2836102843284607,
+    "test_runtime": 1.0233,
+    "test_samples_per_second": 199.347,
+    "train_loss": 0.04842971423397893,
+    "train_runtime": 850.7003,
     "train_samples": 3668,
+    "train_samples_per_second": 86.235,
+    "train_steps_per_second": 2.704
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 87.74509803921569,
-    "eval_average_metrics": 89.42415044309539,
-    "eval_f1": 91.1032028469751,
-    "eval_loss": 0.16199710965156555,
-    "eval_runtime": 0.7045,
-    "eval_samples_per_second": 289.552
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 88.72549019607843,
+    "eval_average_metrics": 90.18092691622104,
+    "eval_f1": 91.63636363636364,
+    "eval_loss": 0.3694871664047241,
+    "eval_runtime": 1.0502,
+    "eval_samples_per_second": 194.246
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4db1132eb4d4f318ec092debf436b18cf21627157a309b8cdb6bbd77024446ef
-size 879301

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbfb2ad7e2adc1edf657a4adfdaf82ea2c9087f6f8350e7ca2bb99595c7c6f2a
+size 2631685

runs/Feb01_08-31-08_node1/events.out.tfevents.1643675552.node1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:235576e4cfadbf745109bfb856f0ac034d1876902d77d22d0f544f712e3ee1b4
-size 8608

 version https://git-lfs.github.com/spec/v1
+oid sha256:6227709f5aad7ed804ebeda155906a65bf9d2206d845790d900d4680c6306b70
+size 9330

runs/Feb01_08-31-08_node1/events.out.tfevents.1643676404.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbed59f6129b8c350b99a41ea1f5747d45d6962f22bd70213e151be23b33b4b9
+size 776

runs/Feb02_20-26-01_node1/1643804875.4911196/events.out.tfevents.1643804875.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e88aadcc41bf26f9a1969a01ba4db1d50be135c2af990afb27bfac067bb62a2f
+size 5011

runs/Feb02_20-26-01_node1/events.out.tfevents.1643804875.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3c52e35645d95ab5bfb62d2403be8cf974439c5594a5950d7f9ed895a66c778
+size 4300

test_results.json CHANGED Viewed

@@ -3,7 +3,7 @@
     "test_accuracy": 89.70588235294117,
     "test_average_metrics": 91.19440459110473,
     "test_f1": 92.6829268292683,
-    "test_loss": 0.14617003500461578,
-    "test_runtime": 0.6901,
-    "test_samples_per_second": 295.608
 }

     "test_accuracy": 89.70588235294117,
     "test_average_metrics": 91.19440459110473,
     "test_f1": 92.6829268292683,
+    "test_loss": 0.2836102843284607,
+    "test_runtime": 1.0233,
+    "test_samples_per_second": 199.347
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.7308501913740828,
-    "train_runtime": 299.5389,
     "train_samples": 3668,
-    "train_samples_per_second": 244.91,
-    "train_steps_per_second": 2.47
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.04842971423397893,
+    "train_runtime": 850.7003,
     "train_samples": 3668,
+    "train_samples_per_second": 86.235,
+    "train_steps_per_second": 2.704
 }

trainer_state.json CHANGED Viewed

@@ -1,61 +1,159 @@
 {
-  "best_metric": 89.42415044309539,
-  "best_model_checkpoint": "outputs/bitfit/t5-base/mrpc/checkpoint-600",
   "epoch": 20.0,
-  "global_step": 740,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 5.41,
-      "eval_accuracy": 85.29411764705883,
-      "eval_average_metrics": 87.36536868268433,
-      "eval_f1": 89.43661971830986,
-      "eval_loss": 0.16359843313694,
-      "eval_runtime": 0.6875,
-      "eval_samples_per_second": 296.737,
       "step": 200
     },
     {
-      "epoch": 10.81,
-      "eval_accuracy": 86.76470588235294,
-      "eval_average_metrics": 88.47326203208556,
-      "eval_f1": 90.18181818181817,
-      "eval_loss": 0.15707039833068848,
-      "eval_runtime": 0.6899,
-      "eval_samples_per_second": 295.7,
       "step": 400
     },
     {
-      "epoch": 13.51,
-      "learning_rate": 0.0003,
-      "loss": 1.0294,
       "step": 500
     },
     {
-      "epoch": 16.22,
-      "eval_accuracy": 87.74509803921569,
-      "eval_average_metrics": 89.42415044309539,
-      "eval_f1": 91.1032028469751,
-      "eval_loss": 0.16199710965156555,
-      "eval_runtime": 0.7169,
-      "eval_samples_per_second": 284.564,
       "step": 600
     },
     {
       "epoch": 20.0,
-      "step": 740,
-      "total_flos": 9835227628938144.0,
-      "train_loss": 0.7308501913740828,
-      "train_runtime": 299.5389,
-      "train_samples_per_second": 244.91,
-      "train_steps_per_second": 2.47
     }
   ],
-  "max_steps": 740,
   "num_train_epochs": 20,
-  "total_flos": 9835227628938144.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 90.18092691622104,
+  "best_model_checkpoint": "outputs/bitfit/t5-base/mrpc/checkpoint-2200",
   "epoch": 20.0,
+  "global_step": 2300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.74,
+      "eval_accuracy": 86.76470588235294,
+      "eval_average_metrics": 88.54364326375712,
+      "eval_f1": 90.3225806451613,
+      "eval_loss": 0.1595430225133896,
+      "eval_runtime": 1.0042,
+      "eval_samples_per_second": 203.156,
       "step": 200
     },
     {
+      "epoch": 3.48,
+      "eval_accuracy": 87.25490196078431,
+      "eval_average_metrics": 89.1753961858716,
+      "eval_f1": 91.0958904109589,
+      "eval_loss": 0.19655147194862366,
+      "eval_runtime": 0.9978,
+      "eval_samples_per_second": 204.44,
       "step": 400
     },
     {
+      "epoch": 4.35,
+      "learning_rate": 0.00023478260869565215,
+      "loss": 0.1466,
       "step": 500
     },
     {
+      "epoch": 5.22,
+      "eval_accuracy": 88.23529411764706,
+      "eval_average_metrics": 89.83193277310924,
+      "eval_f1": 91.42857142857143,
+      "eval_loss": 0.20800147950649261,
+      "eval_runtime": 1.03,
+      "eval_samples_per_second": 198.057,
       "step": 600
     },
+    {
+      "epoch": 6.96,
+      "eval_accuracy": 87.25490196078431,
+      "eval_average_metrics": 88.91730605285592,
+      "eval_f1": 90.57971014492753,
+      "eval_loss": 0.25488224625587463,
+      "eval_runtime": 0.9975,
+      "eval_samples_per_second": 204.517,
+      "step": 800
+    },
+    {
+      "epoch": 8.7,
+      "learning_rate": 0.00016956521739130433,
+      "loss": 0.0433,
+      "step": 1000
+    },
+    {
+      "epoch": 8.7,
+      "eval_accuracy": 87.74509803921569,
+      "eval_average_metrics": 89.48658410732715,
+      "eval_f1": 91.2280701754386,
+      "eval_loss": 0.27675318717956543,
+      "eval_runtime": 1.004,
+      "eval_samples_per_second": 203.193,
+      "step": 1000
+    },
+    {
+      "epoch": 10.43,
+      "eval_accuracy": 88.23529411764706,
+      "eval_average_metrics": 89.83193277310924,
+      "eval_f1": 91.42857142857143,
+      "eval_loss": 0.3537355363368988,
+      "eval_runtime": 1.0419,
+      "eval_samples_per_second": 195.799,
+      "step": 1200
+    },
+    {
+      "epoch": 12.17,
+      "eval_accuracy": 86.76470588235294,
+      "eval_average_metrics": 88.43729799612153,
+      "eval_f1": 90.10989010989012,
+      "eval_loss": 0.4248361885547638,
+      "eval_runtime": 0.9784,
+      "eval_samples_per_second": 208.512,
+      "step": 1400
+    },
+    {
+      "epoch": 13.04,
+      "learning_rate": 0.00010434782608695651,
+      "loss": 0.0174,
+      "step": 1500
+    },
+    {
+      "epoch": 13.91,
+      "eval_accuracy": 87.25490196078431,
+      "eval_average_metrics": 88.9511919875864,
+      "eval_f1": 90.64748201438849,
+      "eval_loss": 0.35347217321395874,
+      "eval_runtime": 1.0071,
+      "eval_samples_per_second": 202.569,
+      "step": 1600
+    },
+    {
+      "epoch": 15.65,
+      "eval_accuracy": 88.23529411764706,
+      "eval_average_metrics": 89.7380850150279,
+      "eval_f1": 91.24087591240875,
+      "eval_loss": 0.37131425738334656,
+      "eval_runtime": 0.9929,
+      "eval_samples_per_second": 205.451,
+      "step": 1800
+    },
+    {
+      "epoch": 17.39,
+      "learning_rate": 3.913043478260869e-05,
+      "loss": 0.0119,
+      "step": 2000
+    },
+    {
+      "epoch": 17.39,
+      "eval_accuracy": 88.23529411764706,
+      "eval_average_metrics": 89.769820971867,
+      "eval_f1": 91.30434782608695,
+      "eval_loss": 0.3558318316936493,
+      "eval_runtime": 1.0675,
+      "eval_samples_per_second": 191.099,
+      "step": 2000
+    },
+    {
+      "epoch": 19.13,
+      "eval_accuracy": 88.72549019607843,
+      "eval_average_metrics": 90.18092691622104,
+      "eval_f1": 91.63636363636364,
+      "eval_loss": 0.3694871664047241,
+      "eval_runtime": 1.0401,
+      "eval_samples_per_second": 196.137,
+      "step": 2200
+    },
     {
       "epoch": 20.0,
+      "step": 2300,
+      "total_flos": 9229438723811328.0,
+      "train_loss": 0.04842971423397893,
+      "train_runtime": 850.7003,
+      "train_samples_per_second": 86.235,
+      "train_steps_per_second": 2.704
     }
   ],
+  "max_steps": 2300,
   "num_train_epochs": 20,
+  "total_flos": 9229438723811328.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62f92480d5f15a84117d30f2a6a088445639336c20d95f7392fa3071d4e4eb97
 size 3183

 version https://git-lfs.github.com/spec/v1
+oid sha256:751e8fa023d89d0b3545748e209d604c31d9f00e9021244fa8bb26a386f798f0
 size 3183

training_config.json CHANGED Viewed

@@ -1 +1 @@

- {"dataset_config_name": ["en"], "delta_type": "~~compacter~~", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "mrpc", "eval_steps": 200, "evaluation_strategy": "steps", "~~factorized_phm": true, "factorized_phm_rule": false, "gradient_clip": false, "~~greater_is_better": true, "~~hypercomplex_adapters~~": ~~true~~, "~~hypercomplex_division~~": ~~4, "hypercomplex_nonlinearity": "glorot-uniform", "learn_phm":~~ true, "~~learning_rate~~": ~~0.0003~~, "~~load_best_model_at_end": true, "~~max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "~~normalize_phm_weight": false, "~~num_train_epochs": 20, "output_dir": "outputs/~~lora~~/t5-base/mrpc", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "~~phm_c_init": "normal", "phm_clamp": false, "phm_init_range": 0.0001, "~~predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "~~shared_phm_rule": false, "~~split_validation_test": true, "task_name": "mrpc", "test_dataset_config_name": ["en"], "test_dataset_name": "mrpc", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "~~use_bias_down_sampler": true, "use_bias_up_sampler": true, "~~warmup_steps": 0}

+ {"dataset_config_name": ["en"], "delta_type": "lora", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "mrpc", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "lora_r": 8, "max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/mrpc", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "mrpc", "test_dataset_config_name": ["en"], "test_dataset_name": "mrpc", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}