Upload with huggingface_hub

Browse files

Files changed (7) hide show

config.json +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +694 -34
training_args.bin +2 -2

config.json CHANGED Viewed

@@ -30,6 +30,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.21.3",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.22.1",
   "vocab_size": 30522
 }

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c405f6c40d1200845afd7ec4a280ad78efb3b4aabdfb7199f110d3784f20f9c4
 size 535706209

 version https://git-lfs.github.com/spec/v1
+oid sha256:926621184a6b7a8ac5a4774f5c694efcbfc318bc5db3481564c2e2441ce39f30
 size 535706209

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0117a50d4b2287f08ff497c869353972a1746688126e083cbb1fd3b315b22eef
 size 267857393

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7107ccbb7746e6dbde30bd9edb06601ecf5b7d95f0b337000cbae60a0f34cec
 size 267857393

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24e9e3beccc7ce8a393ea90cf69333474d4b0305b2f9b9b904790dea80380696
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:24340d944dcaa627af1c5f51313a436ed4a3ad2a03a0651b1cd4a51bbe28284d
 size 14503

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e35b3e1d3db27a8ab844c20114e9e1cec88dd3ed6b54599b8cbd45a7f79a10d2
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b5c9ed8372e0eec740369001de73734db6b5b259af9ae69a359108a1dd0fd17
 size 623

trainer_state.json CHANGED Viewed

@@ -1,105 +1,765 @@
 {
-  "best_metric": null,
-  "best_model_checkpoint": null,
   "epoch": 15.0,
   "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 1.9333333333333333e-05,
-      "loss": 0.0569,
       "step": 200
     },
     {
       "epoch": 2.0,
-      "learning_rate": 1.866666666666667e-05,
-      "loss": 0.0366,
       "step": 400
     },
     {
       "epoch": 3.0,
-      "learning_rate": 1.8e-05,
-      "loss": 0.0292,
       "step": 600
     },
     {
       "epoch": 4.0,
-      "learning_rate": 1.7333333333333336e-05,
-      "loss": 0.032,
       "step": 800
     },
     {
       "epoch": 5.0,
-      "learning_rate": 1.6666666666666667e-05,
-      "loss": 0.0253,
       "step": 1000
     },
     {
       "epoch": 6.0,
-      "learning_rate": 1.6000000000000003e-05,
-      "loss": 0.0312,
       "step": 1200
     },
     {
       "epoch": 7.0,
-      "learning_rate": 1.5333333333333334e-05,
-      "loss": 0.0285,
       "step": 1400
     },
     {
       "epoch": 8.0,
-      "learning_rate": 1.4666666666666666e-05,
-      "loss": 0.029,
       "step": 1600
     },
     {
       "epoch": 9.0,
-      "learning_rate": 1.4e-05,
-      "loss": 0.0308,
       "step": 1800
     },
     {
       "epoch": 10.0,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 0.0324,
       "step": 2000
     },
     {
       "epoch": 11.0,
-      "learning_rate": 1.2666666666666667e-05,
-      "loss": 0.0165,
       "step": 2200
     },
     {
       "epoch": 12.0,
-      "learning_rate": 1.2e-05,
-      "loss": 0.0207,
       "step": 2400
     },
     {
       "epoch": 13.0,
-      "learning_rate": 1.1333333333333334e-05,
-      "loss": 0.0157,
       "step": 2600
     },
     {
       "epoch": 14.0,
-      "learning_rate": 1.0666666666666667e-05,
-      "loss": 0.0136,
       "step": 2800
     },
     {
       "epoch": 15.0,
-      "learning_rate": 1e-05,
-      "loss": 0.0058,
       "step": 3000
     }
   ],
-  "max_steps": 6000,
-  "num_train_epochs": 30,
   "total_flos": 6358548529152000.0,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5875,
+  "best_model_checkpoint": "./results/checkpoint-500",
   "epoch": 15.0,
   "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016140898968749935,
+      "eval_loss": 1.0195873975753784,
+      "eval_runtime": 37.9935,
+      "eval_samples_per_second": 21.056,
+      "eval_steps_per_second": 1.316,
+      "eval_total_time_in_seconds": 12.91271917499995,
+      "step": 50
+    },
+    {
+      "epoch": 0.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016577634310000065,
+      "eval_loss": 0.9936361908912659,
+      "eval_runtime": 30.0792,
+      "eval_samples_per_second": 26.596,
+      "eval_steps_per_second": 1.662,
+      "eval_total_time_in_seconds": 13.262107448000052,
+      "step": 100
+    },
+    {
+      "epoch": 0.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016618314516250052,
+      "eval_loss": 1.0124518871307373,
+      "eval_runtime": 29.9038,
+      "eval_samples_per_second": 26.752,
+      "eval_steps_per_second": 1.672,
+      "eval_total_time_in_seconds": 13.294651613000042,
+      "step": 150
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.9e-05,
+      "loss": 1.007,
+      "step": 200
+    },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01668884421499996,
+      "eval_loss": 1.0121251344680786,
+      "eval_runtime": 29.8443,
+      "eval_samples_per_second": 26.806,
+      "eval_steps_per_second": 1.675,
+      "eval_total_time_in_seconds": 13.351075371999968,
       "step": 200
     },
+    {
+      "epoch": 1.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016656154167500006,
+      "eval_loss": 0.9109314680099487,
+      "eval_runtime": 29.8759,
+      "eval_samples_per_second": 26.777,
+      "eval_steps_per_second": 1.674,
+      "eval_total_time_in_seconds": 13.324923334000005,
+      "step": 250
+    },
+    {
+      "epoch": 1.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016652411622499984,
+      "eval_loss": 0.8836429119110107,
+      "eval_runtime": 29.8232,
+      "eval_samples_per_second": 26.825,
+      "eval_steps_per_second": 1.677,
+      "eval_total_time_in_seconds": 13.321929297999986,
+      "step": 300
+    },
+    {
+      "epoch": 1.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016655641563749983,
+      "eval_loss": 0.8780828714370728,
+      "eval_runtime": 29.9106,
+      "eval_samples_per_second": 26.746,
+      "eval_steps_per_second": 1.672,
+      "eval_total_time_in_seconds": 13.324513250999985,
+      "step": 350
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.8e-05,
+      "loss": 0.8906,
+      "step": 400
+    },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016710829281249884,
+      "eval_loss": 0.844797670841217,
+      "eval_runtime": 29.9696,
+      "eval_samples_per_second": 26.694,
+      "eval_steps_per_second": 1.668,
+      "eval_total_time_in_seconds": 13.368663424999909,
       "step": 400
     },
+    {
+      "epoch": 2.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016734712483749945,
+      "eval_loss": 0.8375944495201111,
+      "eval_runtime": 29.9532,
+      "eval_samples_per_second": 26.708,
+      "eval_steps_per_second": 1.669,
+      "eval_total_time_in_seconds": 13.387769986999956,
+      "step": 450
+    },
+    {
+      "epoch": 2.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016665541630000006,
+      "eval_loss": 0.828183114528656,
+      "eval_runtime": 29.8508,
+      "eval_samples_per_second": 26.8,
+      "eval_steps_per_second": 1.675,
+      "eval_total_time_in_seconds": 13.332433304000006,
+      "step": 500
+    },
+    {
+      "epoch": 2.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01663229147999999,
+      "eval_loss": 0.8245559930801392,
+      "eval_runtime": 29.8164,
+      "eval_samples_per_second": 26.831,
+      "eval_steps_per_second": 1.677,
+      "eval_total_time_in_seconds": 13.305833183999994,
+      "step": 550
+    },
     {
       "epoch": 3.0,
+      "learning_rate": 1.7e-05,
+      "loss": 0.7455,
+      "step": 600
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01658837374625023,
+      "eval_loss": 0.8258004784584045,
+      "eval_runtime": 29.782,
+      "eval_samples_per_second": 26.862,
+      "eval_steps_per_second": 1.679,
+      "eval_total_time_in_seconds": 13.270698997000181,
       "step": 600
     },
+    {
+      "epoch": 3.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016743442093749936,
+      "eval_loss": 0.8827661275863647,
+      "eval_runtime": 30.0887,
+      "eval_samples_per_second": 26.588,
+      "eval_steps_per_second": 1.662,
+      "eval_total_time_in_seconds": 13.394753674999947,
+      "step": 650
+    },
+    {
+      "epoch": 3.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01667224465624997,
+      "eval_loss": 0.8894978165626526,
+      "eval_runtime": 30.1041,
+      "eval_samples_per_second": 26.574,
+      "eval_steps_per_second": 1.661,
+      "eval_total_time_in_seconds": 13.337795724999978,
+      "step": 700
+    },
+    {
+      "epoch": 3.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016693762731250103,
+      "eval_loss": 0.9063799381256104,
+      "eval_runtime": 29.8535,
+      "eval_samples_per_second": 26.797,
+      "eval_steps_per_second": 1.675,
+      "eval_total_time_in_seconds": 13.355010185000083,
+      "step": 750
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.549,
+      "step": 800
+    },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016649374238749886,
+      "eval_loss": 0.9239490032196045,
+      "eval_runtime": 29.9071,
+      "eval_samples_per_second": 26.749,
+      "eval_steps_per_second": 1.672,
+      "eval_total_time_in_seconds": 13.319499390999908,
       "step": 800
     },
+    {
+      "epoch": 4.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01666813849999983,
+      "eval_loss": 0.9834891557693481,
+      "eval_runtime": 29.9398,
+      "eval_samples_per_second": 26.72,
+      "eval_steps_per_second": 1.67,
+      "eval_total_time_in_seconds": 13.334510799999862,
+      "step": 850
+    },
+    {
+      "epoch": 4.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01672061295875011,
+      "eval_loss": 1.0434612035751343,
+      "eval_runtime": 30.0191,
+      "eval_samples_per_second": 26.65,
+      "eval_steps_per_second": 1.666,
+      "eval_total_time_in_seconds": 13.376490367000088,
+      "step": 900
+    },
+    {
+      "epoch": 4.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016696340333749903,
+      "eval_loss": 1.0434249639511108,
+      "eval_runtime": 30.0388,
+      "eval_samples_per_second": 26.632,
+      "eval_steps_per_second": 1.665,
+      "eval_total_time_in_seconds": 13.357072266999921,
+      "step": 950
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.37,
+      "step": 1000
+    },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01674834000874995,
+      "eval_loss": 1.0716580152511597,
+      "eval_runtime": 30.0668,
+      "eval_samples_per_second": 26.607,
+      "eval_steps_per_second": 1.663,
+      "eval_total_time_in_seconds": 13.39867200699996,
       "step": 1000
     },
+    {
+      "epoch": 5.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01658757922625,
+      "eval_loss": 1.1702197790145874,
+      "eval_runtime": 29.7005,
+      "eval_samples_per_second": 26.936,
+      "eval_steps_per_second": 1.683,
+      "eval_total_time_in_seconds": 13.270063381,
+      "step": 1050
+    },
+    {
+      "epoch": 5.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016588210039999753,
+      "eval_loss": 1.363202691078186,
+      "eval_runtime": 29.7061,
+      "eval_samples_per_second": 26.931,
+      "eval_steps_per_second": 1.683,
+      "eval_total_time_in_seconds": 13.270568031999801,
+      "step": 1100
+    },
+    {
+      "epoch": 5.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016613341418749882,
+      "eval_loss": 1.3025741577148438,
+      "eval_runtime": 29.8243,
+      "eval_samples_per_second": 26.824,
+      "eval_steps_per_second": 1.676,
+      "eval_total_time_in_seconds": 13.290673134999906,
+      "step": 1150
+    },
     {
       "epoch": 6.0,
+      "learning_rate": 1.4e-05,
+      "loss": 0.231,
+      "step": 1200
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016670319153750484,
+      "eval_loss": 1.241083025932312,
+      "eval_runtime": 29.8584,
+      "eval_samples_per_second": 26.793,
+      "eval_steps_per_second": 1.675,
+      "eval_total_time_in_seconds": 13.336255323000387,
       "step": 1200
     },
+    {
+      "epoch": 6.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01664680648125,
+      "eval_loss": 1.3705066442489624,
+      "eval_runtime": 29.9316,
+      "eval_samples_per_second": 26.728,
+      "eval_steps_per_second": 1.67,
+      "eval_total_time_in_seconds": 13.317445184999997,
+      "step": 1250
+    },
+    {
+      "epoch": 6.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01666591738875013,
+      "eval_loss": 1.5176929235458374,
+      "eval_runtime": 29.9921,
+      "eval_samples_per_second": 26.674,
+      "eval_steps_per_second": 1.667,
+      "eval_total_time_in_seconds": 13.332733911000105,
+      "step": 1300
+    },
+    {
+      "epoch": 6.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016700183542499757,
+      "eval_loss": 1.8310248851776123,
+      "eval_runtime": 29.9705,
+      "eval_samples_per_second": 26.693,
+      "eval_steps_per_second": 1.668,
+      "eval_total_time_in_seconds": 13.360146833999806,
+      "step": 1350
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.1348,
+      "step": 1400
+    },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016722027651250075,
+      "eval_loss": 1.6683160066604614,
+      "eval_runtime": 30.0677,
+      "eval_samples_per_second": 26.607,
+      "eval_steps_per_second": 1.663,
+      "eval_total_time_in_seconds": 13.377622121000059,
       "step": 1400
     },
+    {
+      "epoch": 7.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016639053724999825,
+      "eval_loss": 1.8127371072769165,
+      "eval_runtime": 29.9019,
+      "eval_samples_per_second": 26.754,
+      "eval_steps_per_second": 1.672,
+      "eval_total_time_in_seconds": 13.31124297999986,
+      "step": 1450
+    },
+    {
+      "epoch": 7.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016672658619999652,
+      "eval_loss": 1.8947601318359375,
+      "eval_runtime": 29.8732,
+      "eval_samples_per_second": 26.78,
+      "eval_steps_per_second": 1.674,
+      "eval_total_time_in_seconds": 13.338126895999721,
+      "step": 1500
+    },
+    {
+      "epoch": 7.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016528693013750057,
+      "eval_loss": 1.9334509372711182,
+      "eval_runtime": 29.6754,
+      "eval_samples_per_second": 26.958,
+      "eval_steps_per_second": 1.685,
+      "eval_total_time_in_seconds": 13.222954411000046,
+      "step": 1550
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 1.2e-05,
+      "loss": 0.0896,
+      "step": 1600
+    },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016713374875000114,
+      "eval_loss": 1.8743096590042114,
+      "eval_runtime": 29.9755,
+      "eval_samples_per_second": 26.688,
+      "eval_steps_per_second": 1.668,
+      "eval_total_time_in_seconds": 13.37069990000009,
       "step": 1600
     },
+    {
+      "epoch": 8.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01665160638624968,
+      "eval_loss": 1.999316692352295,
+      "eval_runtime": 29.865,
+      "eval_samples_per_second": 26.787,
+      "eval_steps_per_second": 1.674,
+      "eval_total_time_in_seconds": 13.321285108999746,
+      "step": 1650
+    },
+    {
+      "epoch": 8.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016658729771249912,
+      "eval_loss": 2.0449576377868652,
+      "eval_runtime": 29.8258,
+      "eval_samples_per_second": 26.822,
+      "eval_steps_per_second": 1.676,
+      "eval_total_time_in_seconds": 13.326983816999928,
+      "step": 1700
+    },
+    {
+      "epoch": 8.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016647704048749573,
+      "eval_loss": 2.0946853160858154,
+      "eval_runtime": 29.8963,
+      "eval_samples_per_second": 26.759,
+      "eval_steps_per_second": 1.672,
+      "eval_total_time_in_seconds": 13.31816323899966,
+      "step": 1750
+    },
     {
       "epoch": 9.0,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.0599,
+      "step": 1800
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016691148148750015,
+      "eval_loss": 2.231701612472534,
+      "eval_runtime": 30.1095,
+      "eval_samples_per_second": 26.57,
+      "eval_steps_per_second": 1.661,
+      "eval_total_time_in_seconds": 13.352918519000013,
       "step": 1800
     },
+    {
+      "epoch": 9.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.0166487254499998,
+      "eval_loss": 2.204172134399414,
+      "eval_runtime": 29.9643,
+      "eval_samples_per_second": 26.698,
+      "eval_steps_per_second": 1.669,
+      "eval_total_time_in_seconds": 13.318980359999841,
+      "step": 1850
+    },
+    {
+      "epoch": 9.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016727415717500093,
+      "eval_loss": 2.282806396484375,
+      "eval_runtime": 30.0555,
+      "eval_samples_per_second": 26.617,
+      "eval_steps_per_second": 1.664,
+      "eval_total_time_in_seconds": 13.381932574000075,
+      "step": 1900
+    },
+    {
+      "epoch": 9.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.0166388489374998,
+      "eval_loss": 2.298581123352051,
+      "eval_runtime": 29.9445,
+      "eval_samples_per_second": 26.716,
+      "eval_steps_per_second": 1.67,
+      "eval_total_time_in_seconds": 13.311079149999841,
+      "step": 1950
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 1e-05,
+      "loss": 0.0495,
+      "step": 2000
+    },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01665341812874999,
+      "eval_loss": 2.227576494216919,
+      "eval_runtime": 29.8758,
+      "eval_samples_per_second": 26.777,
+      "eval_steps_per_second": 1.674,
+      "eval_total_time_in_seconds": 13.322734502999992,
       "step": 2000
     },
+    {
+      "epoch": 10.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016612832117500035,
+      "eval_loss": 2.2979378700256348,
+      "eval_runtime": 29.8189,
+      "eval_samples_per_second": 26.829,
+      "eval_steps_per_second": 1.677,
+      "eval_total_time_in_seconds": 13.290265694000027,
+      "step": 2050
+    },
+    {
+      "epoch": 10.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016637017281250336,
+      "eval_loss": 2.284951686859131,
+      "eval_runtime": 29.8695,
+      "eval_samples_per_second": 26.783,
+      "eval_steps_per_second": 1.674,
+      "eval_total_time_in_seconds": 13.30961382500027,
+      "step": 2100
+    },
+    {
+      "epoch": 10.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016614138501249726,
+      "eval_loss": 2.3448538780212402,
+      "eval_runtime": 29.8656,
+      "eval_samples_per_second": 26.787,
+      "eval_steps_per_second": 1.674,
+      "eval_total_time_in_seconds": 13.291310800999781,
+      "step": 2150
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 9e-06,
+      "loss": 0.0276,
+      "step": 2200
+    },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016691225096250265,
+      "eval_loss": 2.307952880859375,
+      "eval_runtime": 29.8828,
+      "eval_samples_per_second": 26.771,
+      "eval_steps_per_second": 1.673,
+      "eval_total_time_in_seconds": 13.352980077000211,
       "step": 2200
     },
+    {
+      "epoch": 11.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01659034708999968,
+      "eval_loss": 2.3699042797088623,
+      "eval_runtime": 29.8101,
+      "eval_samples_per_second": 26.837,
+      "eval_steps_per_second": 1.677,
+      "eval_total_time_in_seconds": 13.272277671999746,
+      "step": 2250
+    },
+    {
+      "epoch": 11.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01659643314749985,
+      "eval_loss": 2.4644832611083984,
+      "eval_runtime": 29.8395,
+      "eval_samples_per_second": 26.81,
+      "eval_steps_per_second": 1.676,
+      "eval_total_time_in_seconds": 13.277146517999881,
+      "step": 2300
+    },
+    {
+      "epoch": 11.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016764325188750036,
+      "eval_loss": 2.4088258743286133,
+      "eval_runtime": 30.0842,
+      "eval_samples_per_second": 26.592,
+      "eval_steps_per_second": 1.662,
+      "eval_total_time_in_seconds": 13.411460151000028,
+      "step": 2350
+    },
     {
       "epoch": 12.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0131,
       "step": 2400
     },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016665852497500282,
+      "eval_loss": 2.4499921798706055,
+      "eval_runtime": 29.9819,
+      "eval_samples_per_second": 26.683,
+      "eval_steps_per_second": 1.668,
+      "eval_total_time_in_seconds": 13.332681998000226,
+      "step": 2400
+    },
+    {
+      "epoch": 12.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01666696527499994,
+      "eval_loss": 2.471630096435547,
+      "eval_runtime": 29.8811,
+      "eval_samples_per_second": 26.773,
+      "eval_steps_per_second": 1.673,
+      "eval_total_time_in_seconds": 13.333572219999951,
+      "step": 2450
+    },
+    {
+      "epoch": 12.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016629205762500307,
+      "eval_loss": 2.5404670238494873,
+      "eval_runtime": 29.8336,
+      "eval_samples_per_second": 26.815,
+      "eval_steps_per_second": 1.676,
+      "eval_total_time_in_seconds": 13.303364610000244,
+      "step": 2500
+    },
+    {
+      "epoch": 12.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016587090722500763,
+      "eval_loss": 2.5341074466705322,
+      "eval_runtime": 29.8717,
+      "eval_samples_per_second": 26.781,
+      "eval_steps_per_second": 1.674,
+      "eval_total_time_in_seconds": 13.269672578000609,
+      "step": 2550
+    },
     {
       "epoch": 13.0,
+      "learning_rate": 7e-06,
+      "loss": 0.0127,
       "step": 2600
     },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016596427140000286,
+      "eval_loss": 2.550121784210205,
+      "eval_runtime": 29.7591,
+      "eval_samples_per_second": 26.883,
+      "eval_steps_per_second": 1.68,
+      "eval_total_time_in_seconds": 13.27714171200023,
+      "step": 2600
+    },
+    {
+      "epoch": 13.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01661448852124977,
+      "eval_loss": 2.5775039196014404,
+      "eval_runtime": 29.7738,
+      "eval_samples_per_second": 26.869,
+      "eval_steps_per_second": 1.679,
+      "eval_total_time_in_seconds": 13.291590816999815,
+      "step": 2650
+    },
+    {
+      "epoch": 13.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01660655404249951,
+      "eval_loss": 2.5819220542907715,
+      "eval_runtime": 29.8343,
+      "eval_samples_per_second": 26.815,
+      "eval_steps_per_second": 1.676,
+      "eval_total_time_in_seconds": 13.285243233999608,
+      "step": 2700
+    },
+    {
+      "epoch": 13.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01656317381874942,
+      "eval_loss": 2.562864303588867,
+      "eval_runtime": 29.749,
+      "eval_samples_per_second": 26.892,
+      "eval_steps_per_second": 1.681,
+      "eval_total_time_in_seconds": 13.250539054999535,
+      "step": 2750
+    },
     {
       "epoch": 14.0,
+      "learning_rate": 6e-06,
+      "loss": 0.0112,
       "step": 2800
     },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016711680048749712,
+      "eval_loss": 2.6634762287139893,
+      "eval_runtime": 30.0388,
+      "eval_samples_per_second": 26.632,
+      "eval_steps_per_second": 1.665,
+      "eval_total_time_in_seconds": 13.36934403899977,
+      "step": 2800
+    },
+    {
+      "epoch": 14.25,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.01673866046249941,
+      "eval_loss": 2.649559259414673,
+      "eval_runtime": 30.035,
+      "eval_samples_per_second": 26.636,
+      "eval_steps_per_second": 1.665,
+      "eval_total_time_in_seconds": 13.390928369999529,
+      "step": 2850
+    },
+    {
+      "epoch": 14.5,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016693803422499515,
+      "eval_loss": 2.6672680377960205,
+      "eval_runtime": 29.947,
+      "eval_samples_per_second": 26.714,
+      "eval_steps_per_second": 1.67,
+      "eval_total_time_in_seconds": 13.35504273799961,
+      "step": 2900
+    },
+    {
+      "epoch": 14.75,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016712438349999276,
+      "eval_loss": 2.7292675971984863,
+      "eval_runtime": 29.9456,
+      "eval_samples_per_second": 26.715,
+      "eval_steps_per_second": 1.67,
+      "eval_total_time_in_seconds": 13.36995067999942,
+      "step": 2950
+    },
     {
       "epoch": 15.0,
+      "learning_rate": 5e-06,
+      "loss": 0.0108,
+      "step": 3000
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.5875,
+      "eval_latency_in_seconds": 0.016635910904999492,
+      "eval_loss": 2.664646625518799,
+      "eval_runtime": 29.8887,
+      "eval_samples_per_second": 26.766,
+      "eval_steps_per_second": 1.673,
+      "eval_total_time_in_seconds": 13.308728723999593,
       "step": 3000
     }
   ],
+  "max_steps": 4000,
+  "num_train_epochs": 20,
   "total_flos": 6358548529152000.0,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3a822423ddf836858e1b92c846c9074238ed0a832e2ec766ae1ee99843630ed
-size 3311

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c8ff86c8a019682990b3e68731bbdebe11c9e8cba636f73bf25cbdcdd1ec4db
+size 3375