Upload with huggingface_hub

Browse files

Files changed (7) hide show

config.json +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +248 -106
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -30,6 +30,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.22.1",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.22.2",
   "vocab_size": 30522
 }

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:431ad2bedc905016d50214e1a771b3219558d30779f412266033ca17ed597886
 size 535706209

 version https://git-lfs.github.com/spec/v1
+oid sha256:7327fe504822a05662b22d3cfe21ff0e7de6c6e4b7c374380cae868ea4a93eb6
 size 535706209

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2f4c51e09cea740af5b2f44c2c1e35be36e170c124a1f4f3773393c5f001950
 size 267857393

 version https://git-lfs.github.com/spec/v1
+oid sha256:7076639dfca474f09c658516b24750b35f5c801e3c8a6e7d16258b7436dcbb07
 size 267857393

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:963cf45a726db07a7c0602709ff01c87a884dcaf23b158e5db3ae50351d7f5c3
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bb946997ff0f7320ddf7f019e45e0110a3e181f25be61b45566bc48e9f18dfa
 size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61560d7c3158ca687a6c99d6feb9d1ce2d657a43e44e3abe5cd9a9a2d2302612
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:d77a8263d2c9ab2d2fd99749ca0bd684b2d23ea39ae6b5deffc35ec07d427d80
 size 623

trainer_state.json CHANGED Viewed

@@ -1,138 +1,280 @@
 {
-  "best_metric": 0.5875,
-  "best_model_checkpoint": "./results/checkpoint-500",
-  "epoch": 2.5,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.25,
-      "eval_accuracy": 0.5875,
-      "eval_latency_in_seconds": 0.016140898968749935,
-      "eval_loss": 1.0195873975753784,
-      "eval_runtime": 37.9935,
-      "eval_samples_per_second": 21.056,
-      "eval_steps_per_second": 1.316,
-      "eval_total_time_in_seconds": 12.91271917499995,
-      "step": 50
-    },
-    {
-      "epoch": 0.5,
-      "eval_accuracy": 0.5875,
-      "eval_latency_in_seconds": 0.016577634310000065,
-      "eval_loss": 0.9936361908912659,
-      "eval_runtime": 30.0792,
-      "eval_samples_per_second": 26.596,
-      "eval_steps_per_second": 1.662,
-      "eval_total_time_in_seconds": 13.262107448000052,
-      "step": 100
-    },
-    {
-      "epoch": 0.75,
-      "eval_accuracy": 0.5875,
-      "eval_latency_in_seconds": 0.016618314516250052,
-      "eval_loss": 1.0124518871307373,
-      "eval_runtime": 29.9038,
-      "eval_samples_per_second": 26.752,
-      "eval_steps_per_second": 1.672,
-      "eval_total_time_in_seconds": 13.294651613000042,
-      "step": 150
-    },
     {
       "epoch": 1.0,
       "learning_rate": 1.9e-05,
-      "loss": 1.007,
-      "step": 200
-    },
-    {
-      "epoch": 1.0,
-      "eval_accuracy": 0.5875,
-      "eval_latency_in_seconds": 0.01668884421499996,
-      "eval_loss": 1.0121251344680786,
-      "eval_runtime": 29.8443,
-      "eval_samples_per_second": 26.806,
-      "eval_steps_per_second": 1.675,
-      "eval_total_time_in_seconds": 13.351075371999968,
       "step": 200
     },
     {
       "epoch": 1.25,
-      "eval_accuracy": 0.5875,
-      "eval_latency_in_seconds": 0.016656154167500006,
-      "eval_loss": 0.9109314680099487,
-      "eval_runtime": 29.8759,
-      "eval_samples_per_second": 26.777,
-      "eval_steps_per_second": 1.674,
-      "eval_total_time_in_seconds": 13.324923334000005,
       "step": 250
     },
     {
-      "epoch": 1.5,
-      "eval_accuracy": 0.5875,
-      "eval_latency_in_seconds": 0.016652411622499984,
-      "eval_loss": 0.8836429119110107,
-      "eval_runtime": 29.8232,
-      "eval_samples_per_second": 26.825,
-      "eval_steps_per_second": 1.677,
-      "eval_total_time_in_seconds": 13.321929297999986,
-      "step": 300
     },
     {
-      "epoch": 1.75,
-      "eval_accuracy": 0.5875,
-      "eval_latency_in_seconds": 0.016655641563749983,
-      "eval_loss": 0.8780828714370728,
-      "eval_runtime": 29.9106,
-      "eval_samples_per_second": 26.746,
-      "eval_steps_per_second": 1.672,
-      "eval_total_time_in_seconds": 13.324513250999985,
-      "step": 350
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 1.8e-05,
-      "loss": 0.8906,
-      "step": 400
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.5875,
-      "eval_latency_in_seconds": 0.016710829281249884,
-      "eval_loss": 0.844797670841217,
-      "eval_runtime": 29.9696,
-      "eval_samples_per_second": 26.694,
-      "eval_steps_per_second": 1.668,
-      "eval_total_time_in_seconds": 13.368663424999909,
-      "step": 400
     },
     {
-      "epoch": 2.25,
-      "eval_accuracy": 0.5875,
-      "eval_latency_in_seconds": 0.016734712483749945,
-      "eval_loss": 0.8375944495201111,
-      "eval_runtime": 29.9532,
-      "eval_samples_per_second": 26.708,
-      "eval_steps_per_second": 1.669,
-      "eval_total_time_in_seconds": 13.387769986999956,
-      "step": 450
     },
     {
-      "epoch": 2.5,
-      "eval_accuracy": 0.5875,
-      "eval_latency_in_seconds": 0.016665541630000006,
-      "eval_loss": 0.828183114528656,
-      "eval_runtime": 29.8508,
-      "eval_samples_per_second": 26.8,
-      "eval_steps_per_second": 1.675,
-      "eval_total_time_in_seconds": 13.332433304000006,
-      "step": 500
     }
   ],
   "max_steps": 4000,
   "num_train_epochs": 20,
-  "total_flos": 1059758088192000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.62125,
+  "best_model_checkpoint": "./results/checkpoint-4000",
+  "epoch": 20.0,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
       "learning_rate": 1.9e-05,
+      "loss": 0.6815,
       "step": 200
     },
     {
       "epoch": 1.25,
+      "eval_accuracy": 0.63875,
+      "eval_loss": 0.9424235820770264,
+      "eval_runtime": 15.8114,
+      "eval_samples_per_second": 50.596,
+      "eval_steps_per_second": 3.162,
       "step": 250
     },
     {
+      "epoch": 2.0,
+      "learning_rate": 1.8e-05,
+      "loss": 0.4755,
+      "step": 400
     },
     {
+      "epoch": 2.5,
+      "eval_accuracy": 0.6175,
+      "eval_loss": 1.0750542879104614,
+      "eval_runtime": 15.7962,
+      "eval_samples_per_second": 50.645,
+      "eval_steps_per_second": 3.165,
+      "step": 500
     },
     {
+      "epoch": 3.0,
+      "learning_rate": 1.7e-05,
+      "loss": 0.3536,
+      "step": 600
     },
     {
+      "epoch": 3.75,
+      "eval_accuracy": 0.6125,
+      "eval_loss": 1.3325245380401611,
+      "eval_runtime": 15.7804,
+      "eval_samples_per_second": 50.696,
+      "eval_steps_per_second": 3.168,
+      "step": 750
     },
     {
+      "epoch": 4.0,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.2045,
+      "step": 800
     },
     {
+      "epoch": 5.0,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.124,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.61625,
+      "eval_loss": 1.8875421285629272,
+      "eval_runtime": 15.7904,
+      "eval_samples_per_second": 50.664,
+      "eval_steps_per_second": 3.166,
+      "step": 1000
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 1.4e-05,
+      "loss": 0.0825,
+      "step": 1200
+    },
+    {
+      "epoch": 6.25,
+      "eval_accuracy": 0.5975,
+      "eval_loss": 2.205134868621826,
+      "eval_runtime": 15.7943,
+      "eval_samples_per_second": 50.651,
+      "eval_steps_per_second": 3.166,
+      "step": 1250
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.046,
+      "step": 1400
+    },
+    {
+      "epoch": 7.5,
+      "eval_accuracy": 0.59625,
+      "eval_loss": 2.5616235733032227,
+      "eval_runtime": 15.8017,
+      "eval_samples_per_second": 50.627,
+      "eval_steps_per_second": 3.164,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 1.2e-05,
+      "loss": 0.0331,
+      "step": 1600
+    },
+    {
+      "epoch": 8.75,
+      "eval_accuracy": 0.62125,
+      "eval_loss": 2.4932045936584473,
+      "eval_runtime": 15.809,
+      "eval_samples_per_second": 50.604,
+      "eval_steps_per_second": 3.163,
+      "step": 1750
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.033,
+      "step": 1800
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 1e-05,
+      "loss": 0.0143,
+      "step": 2000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.5975,
+      "eval_loss": 2.796316623687744,
+      "eval_runtime": 15.7544,
+      "eval_samples_per_second": 50.78,
+      "eval_steps_per_second": 3.174,
+      "step": 2000
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 9e-06,
+      "loss": 0.0177,
+      "step": 2200
+    },
+    {
+      "epoch": 11.25,
+      "eval_accuracy": 0.6125,
+      "eval_loss": 2.800485134124756,
+      "eval_runtime": 15.79,
+      "eval_samples_per_second": 50.665,
+      "eval_steps_per_second": 3.167,
+      "step": 2250
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0125,
+      "step": 2400
+    },
+    {
+      "epoch": 12.5,
+      "eval_accuracy": 0.61375,
+      "eval_loss": 2.8941900730133057,
+      "eval_runtime": 15.8937,
+      "eval_samples_per_second": 50.334,
+      "eval_steps_per_second": 3.146,
+      "step": 2500
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 7e-06,
+      "loss": 0.0066,
+      "step": 2600
+    },
+    {
+      "epoch": 13.75,
+      "eval_accuracy": 0.60125,
+      "eval_loss": 3.0244345664978027,
+      "eval_runtime": 15.9227,
+      "eval_samples_per_second": 50.243,
+      "eval_steps_per_second": 3.14,
+      "step": 2750
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 6e-06,
+      "loss": 0.0109,
+      "step": 2800
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 5e-06,
+      "loss": 0.0082,
+      "step": 3000
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.6175,
+      "eval_loss": 2.967337131500244,
+      "eval_runtime": 15.7712,
+      "eval_samples_per_second": 50.725,
+      "eval_steps_per_second": 3.17,
+      "step": 3000
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0086,
+      "step": 3200
+    },
+    {
+      "epoch": 16.25,
+      "eval_accuracy": 0.61375,
+      "eval_loss": 2.9286487102508545,
+      "eval_runtime": 15.7803,
+      "eval_samples_per_second": 50.696,
+      "eval_steps_per_second": 3.169,
+      "step": 3250
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 3e-06,
+      "loss": 0.0057,
+      "step": 3400
+    },
+    {
+      "epoch": 17.5,
+      "eval_accuracy": 0.61875,
+      "eval_loss": 2.9928808212280273,
+      "eval_runtime": 15.7926,
+      "eval_samples_per_second": 50.657,
+      "eval_steps_per_second": 3.166,
+      "step": 3500
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.0041,
+      "step": 3600
+    },
+    {
+      "epoch": 18.75,
+      "eval_accuracy": 0.62375,
+      "eval_loss": 3.0005481243133545,
+      "eval_runtime": 15.78,
+      "eval_samples_per_second": 50.697,
+      "eval_steps_per_second": 3.169,
+      "step": 3750
+    },
+    {
+      "epoch": 19.0,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0029,
+      "step": 3800
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 0.0,
+      "loss": 0.0023,
+      "step": 4000
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.62125,
+      "eval_loss": 3.0099549293518066,
+      "eval_runtime": 15.792,
+      "eval_samples_per_second": 50.659,
+      "eval_steps_per_second": 3.166,
+      "step": 4000
     }
   ],
   "max_steps": 4000,
   "num_train_epochs": 20,
+  "total_flos": 8478064705536000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c8ff86c8a019682990b3e68731bbdebe11c9e8cba636f73bf25cbdcdd1ec4db
 size 3375

 version https://git-lfs.github.com/spec/v1
+oid sha256:16feb7e2c9585fbbe041e34b576d6b2ceef8285c36959cd644796abb4a7413a9
 size 3375