Training in progress, step 1742, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/README.md +10 -0
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +232 -2

last-checkpoint/README.md CHANGED Viewed

@@ -722,6 +722,16 @@ You can finetune this model on your own dataset.
 | 0.1770 | 616  | 2.0925        | 1.6521         | 0.9031                 |
 | 0.2022 | 704  | 2.0016        | 1.4990         | 0.8708                 |
 | 0.2275 | 792  | 1.7607        | 1.4104         | 0.8444                 |
 ### Framework Versions

 | 0.1770 | 616  | 2.0925        | 1.6521         | 0.9031                 |
 | 0.2022 | 704  | 2.0016        | 1.4990         | 0.8708                 |
 | 0.2275 | 792  | 1.7607        | 1.4104         | 0.8444                 |
+| 0.2528 | 880  | 1.7801        | 1.3015         | 0.8060                 |
+| 0.2781 | 968  | 1.5522        | 1.2201         | 0.7629                 |
+| 0.3034 | 1056 | 1.4041        | 1.1747         | 0.6738                 |
+| 0.3286 | 1144 | 1.3716        | 1.1800         | 0.6005                 |
+| 0.3539 | 1232 | 1.3107        | 1.0875         | 0.6327                 |
+| 0.3792 | 1320 | 1.3468        | 1.0540         | 0.5583                 |
+| 0.4045 | 1408 | 1.2303        | 1.0083         | 0.5666                 |
+| 0.4298 | 1496 | 1.1907        | 0.9647         | 0.5922                 |
+| 0.4550 | 1584 | 1.1587        | 0.9537         | 0.5585                 |
+| 0.4803 | 1672 | 0.9554        | 0.9304         | 0.5592                 |
 ### Framework Versions

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:839951a3b458c681d39df9cfbf4fb7e62a90ce63309b1ee342bf3eb505abfa77
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:74ae3aa245b90ed7e7fade5e22036fd4db3e79d0e60c917c98d7bb52eae949df
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80497c471d66cac6dd87976e0401d86234ba52917f323c73fec20815ae2f5803
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:a292c615b4c7184111afd8393bce447f10def285a7f193dced1d793b3f35c446
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2d8681747f3a889afbeb55310a23e4914bfed074d6b3f1c0962b05b54813ee1
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c28b09b15f7da5be865dfaddc8487a10def7b4fd10988e31421f04272831662
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6ae73bfc00f33c333c3cce2cc75ab33f53fec40d952a5013f435bd0955b417a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b19b307d6dfdc51420b9b8a249097f0d2f86a9860bd1617056feaf2607d184f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.25021545532892847,
   "eval_steps": 88,
-  "global_step": 871,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -214,6 +214,236 @@
       "eval_scitail-pairs-pos_samples_per_second": 162.017,
       "eval_scitail-pairs-pos_steps_per_second": 10.188,
       "step": 792
     }
   ],
   "logging_steps": 88,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5004309106578569,
   "eval_steps": 88,
+  "global_step": 1742,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_scitail-pairs-pos_samples_per_second": 162.017,
       "eval_scitail-pairs-pos_steps_per_second": 10.188,
       "step": 792
+    },
+    {
+      "epoch": 0.25280091927607007,
+      "grad_norm": 9.332258224487305,
+      "learning_rate": 1.5282854656222804e-05,
+      "loss": 1.7801,
+      "step": 880
+    },
+    {
+      "epoch": 0.25280091927607007,
+      "eval_nli-pairs_loss": 1.3014748096466064,
+      "eval_nli-pairs_runtime": 38.916,
+      "eval_nli-pairs_samples_per_second": 174.941,
+      "eval_nli-pairs_steps_per_second": 10.947,
+      "step": 880
+    },
+    {
+      "epoch": 0.25280091927607007,
+      "eval_scitail-pairs-pos_loss": 0.8059829473495483,
+      "eval_scitail-pairs-pos_runtime": 8.1209,
+      "eval_scitail-pairs-pos_samples_per_second": 160.573,
+      "eval_scitail-pairs-pos_steps_per_second": 10.097,
+      "step": 880
+    },
+    {
+      "epoch": 0.2780810112036771,
+      "grad_norm": 10.008861541748047,
+      "learning_rate": 1.6814621409921673e-05,
+      "loss": 1.5522,
+      "step": 968
+    },
+    {
+      "epoch": 0.2780810112036771,
+      "eval_nli-pairs_loss": 1.2200833559036255,
+      "eval_nli-pairs_runtime": 38.7857,
+      "eval_nli-pairs_samples_per_second": 175.529,
+      "eval_nli-pairs_steps_per_second": 10.983,
+      "step": 968
+    },
+    {
+      "epoch": 0.2780810112036771,
+      "eval_scitail-pairs-pos_loss": 0.7629444003105164,
+      "eval_scitail-pairs-pos_runtime": 8.1057,
+      "eval_scitail-pairs-pos_samples_per_second": 160.874,
+      "eval_scitail-pairs-pos_steps_per_second": 10.116,
+      "step": 968
+    },
+    {
+      "epoch": 0.3033611031312841,
+      "grad_norm": 4.277113437652588,
+      "learning_rate": 1.834638816362054e-05,
+      "loss": 1.4041,
+      "step": 1056
+    },
+    {
+      "epoch": 0.3033611031312841,
+      "eval_nli-pairs_loss": 1.1746500730514526,
+      "eval_nli-pairs_runtime": 38.7125,
+      "eval_nli-pairs_samples_per_second": 175.86,
+      "eval_nli-pairs_steps_per_second": 11.004,
+      "step": 1056
+    },
+    {
+      "epoch": 0.3033611031312841,
+      "eval_scitail-pairs-pos_loss": 0.6737743020057678,
+      "eval_scitail-pairs-pos_runtime": 8.0882,
+      "eval_scitail-pairs-pos_samples_per_second": 161.222,
+      "eval_scitail-pairs-pos_steps_per_second": 10.138,
+      "step": 1056
+    },
+    {
+      "epoch": 0.3286411950588911,
+      "grad_norm": 12.264771461486816,
+      "learning_rate": 1.987815491731941e-05,
+      "loss": 1.3716,
+      "step": 1144
+    },
+    {
+      "epoch": 0.3286411950588911,
+      "eval_nli-pairs_loss": 1.1800155639648438,
+      "eval_nli-pairs_runtime": 39.3141,
+      "eval_nli-pairs_samples_per_second": 173.169,
+      "eval_nli-pairs_steps_per_second": 10.836,
+      "step": 1144
+    },
+    {
+      "epoch": 0.3286411950588911,
+      "eval_scitail-pairs-pos_loss": 0.6005298495292664,
+      "eval_scitail-pairs-pos_runtime": 8.1438,
+      "eval_scitail-pairs-pos_samples_per_second": 160.123,
+      "eval_scitail-pairs-pos_steps_per_second": 10.069,
+      "step": 1144
+    },
+    {
+      "epoch": 0.3539212869864981,
+      "grad_norm": 8.721504211425781,
+      "learning_rate": 1.994052263586742e-05,
+      "loss": 1.3107,
+      "step": 1232
+    },
+    {
+      "epoch": 0.3539212869864981,
+      "eval_nli-pairs_loss": 1.0875309705734253,
+      "eval_nli-pairs_runtime": 38.8492,
+      "eval_nli-pairs_samples_per_second": 175.242,
+      "eval_nli-pairs_steps_per_second": 10.965,
+      "step": 1232
+    },
+    {
+      "epoch": 0.3539212869864981,
+      "eval_scitail-pairs-pos_loss": 0.6326610445976257,
+      "eval_scitail-pairs-pos_runtime": 8.1233,
+      "eval_scitail-pairs-pos_samples_per_second": 160.525,
+      "eval_scitail-pairs-pos_steps_per_second": 10.094,
+      "step": 1232
+    },
+    {
+      "epoch": 0.37920137891410516,
+      "grad_norm": 7.441675186157227,
+      "learning_rate": 1.974194676073964e-05,
+      "loss": 1.3468,
+      "step": 1320
+    },
+    {
+      "epoch": 0.37920137891410516,
+      "eval_nli-pairs_loss": 1.0540093183517456,
+      "eval_nli-pairs_runtime": 38.2019,
+      "eval_nli-pairs_samples_per_second": 178.211,
+      "eval_nli-pairs_steps_per_second": 11.151,
+      "step": 1320
+    },
+    {
+      "epoch": 0.37920137891410516,
+      "eval_scitail-pairs-pos_loss": 0.5582771301269531,
+      "eval_scitail-pairs-pos_runtime": 7.795,
+      "eval_scitail-pairs-pos_samples_per_second": 167.286,
+      "eval_scitail-pairs-pos_steps_per_second": 10.52,
+      "step": 1320
+    },
+    {
+      "epoch": 0.40448147084171215,
+      "grad_norm": 9.178886413574219,
+      "learning_rate": 1.9406615307701736e-05,
+      "loss": 1.2303,
+      "step": 1408
+    },
+    {
+      "epoch": 0.40448147084171215,
+      "eval_nli-pairs_loss": 1.0082660913467407,
+      "eval_nli-pairs_runtime": 38.0965,
+      "eval_nli-pairs_samples_per_second": 178.704,
+      "eval_nli-pairs_steps_per_second": 11.182,
+      "step": 1408
+    },
+    {
+      "epoch": 0.40448147084171215,
+      "eval_scitail-pairs-pos_loss": 0.5665512084960938,
+      "eval_scitail-pairs-pos_runtime": 7.756,
+      "eval_scitail-pairs-pos_samples_per_second": 168.128,
+      "eval_scitail-pairs-pos_steps_per_second": 10.572,
+      "step": 1408
+    },
+    {
+      "epoch": 0.42976156276931915,
+      "grad_norm": 7.995066165924072,
+      "learning_rate": 1.8939235595298756e-05,
+      "loss": 1.1907,
+      "step": 1496
+    },
+    {
+      "epoch": 0.42976156276931915,
+      "eval_nli-pairs_loss": 0.9647029042243958,
+      "eval_nli-pairs_runtime": 38.1584,
+      "eval_nli-pairs_samples_per_second": 178.414,
+      "eval_nli-pairs_steps_per_second": 11.164,
+      "step": 1496
+    },
+    {
+      "epoch": 0.42976156276931915,
+      "eval_scitail-pairs-pos_loss": 0.5922390818595886,
+      "eval_scitail-pairs-pos_runtime": 7.8063,
+      "eval_scitail-pairs-pos_samples_per_second": 167.044,
+      "eval_scitail-pairs-pos_steps_per_second": 10.504,
+      "step": 1496
+    },
+    {
+      "epoch": 0.45504165469692615,
+      "grad_norm": 6.889362335205078,
+      "learning_rate": 1.8346368610183863e-05,
+      "loss": 1.1587,
+      "step": 1584
+    },
+    {
+      "epoch": 0.45504165469692615,
+      "eval_nli-pairs_loss": 0.9536527991294861,
+      "eval_nli-pairs_runtime": 38.1977,
+      "eval_nli-pairs_samples_per_second": 178.231,
+      "eval_nli-pairs_steps_per_second": 11.152,
+      "step": 1584
+    },
+    {
+      "epoch": 0.45504165469692615,
+      "eval_scitail-pairs-pos_loss": 0.5585244297981262,
+      "eval_scitail-pairs-pos_runtime": 7.8456,
+      "eval_scitail-pairs-pos_samples_per_second": 166.207,
+      "eval_scitail-pairs-pos_steps_per_second": 10.452,
+      "step": 1584
+    },
+    {
+      "epoch": 0.4803217466245332,
+      "grad_norm": 9.089669227600098,
+      "learning_rate": 1.7636336905247625e-05,
+      "loss": 0.9554,
+      "step": 1672
+    },
+    {
+      "epoch": 0.4803217466245332,
+      "eval_nli-pairs_loss": 0.9304406046867371,
+      "eval_nli-pairs_runtime": 38.1126,
+      "eval_nli-pairs_samples_per_second": 178.629,
+      "eval_nli-pairs_steps_per_second": 11.177,
+      "step": 1672
+    },
+    {
+      "epoch": 0.4803217466245332,
+      "eval_scitail-pairs-pos_loss": 0.5591565370559692,
+      "eval_scitail-pairs-pos_runtime": 7.8171,
+      "eval_scitail-pairs-pos_samples_per_second": 166.813,
+      "eval_scitail-pairs-pos_steps_per_second": 10.49,
+      "step": 1672
     }
   ],
   "logging_steps": 88,