Training in progress, step 2613, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/README.md +10 -0
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +232 -2

last-checkpoint/README.md CHANGED Viewed

@@ -732,6 +732,16 @@ You can finetune this model on your own dataset.
 | 0.4298 | 1496 | 1.1907        | 0.9647         | 0.5922                 |
 | 0.4550 | 1584 | 1.1587        | 0.9537         | 0.5585                 |
 | 0.4803 | 1672 | 0.9554        | 0.9304         | 0.5592                 |
 ### Framework Versions

 | 0.4298 | 1496 | 1.1907        | 0.9647         | 0.5922                 |
 | 0.4550 | 1584 | 1.1587        | 0.9537         | 0.5585                 |
 | 0.4803 | 1672 | 0.9554        | 0.9304         | 0.5592                 |
+| 0.5056 | 1760 | 0.9837        | 0.9165         | 0.5467                 |
+| 0.5309 | 1848 | 0.8857        | 0.8931         | 0.5374                 |
+| 0.5562 | 1936 | 0.9305        | 0.8842         | 0.5331                 |
+| 0.5814 | 2024 | 0.8061        | 0.8854         | 0.5477                 |
+| 0.6067 | 2112 | 0.8286        | 0.8693         | 0.5196                 |
+| 0.6320 | 2200 | 0.7854        | 0.8592         | 0.5159                 |
+| 0.6573 | 2288 | 0.8374        | 0.8538         | 0.5090                 |
+| 0.6826 | 2376 | 0.7678        | 0.8425         | 0.5175                 |
+| 0.7078 | 2464 | 0.7064        | 0.8284         | 0.5046                 |
+| 0.7331 | 2552 | 0.8849        | 0.8329         | 0.4783                 |
 ### Framework Versions

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74ae3aa245b90ed7e7fade5e22036fd4db3e79d0e60c917c98d7bb52eae949df
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:aaee732f14b229d04a0b6c6d028c92842350429f670d7910b9ab5d292210c922
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a292c615b4c7184111afd8393bce447f10def285a7f193dced1d793b3f35c446
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:a46ba1df33f0d186a8634e3fd3902123f7ce96112f85627e6a763e3d779be99b
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c28b09b15f7da5be865dfaddc8487a10def7b4fd10988e31421f04272831662
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:51dc264fe435d10d1407e610654f4adbea838b132e0f6c5827047a283ee5ce28
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b19b307d6dfdc51420b9b8a249097f0d2f86a9860bd1617056feaf2607d184f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:54bc5d3e1ab7114cca6c72d26cc59c590fe581357d9bb65482f0e470a92fd4ae
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5004309106578569,
   "eval_steps": 88,
-  "global_step": 1742,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -444,6 +444,236 @@
       "eval_scitail-pairs-pos_samples_per_second": 166.813,
       "eval_scitail-pairs-pos_steps_per_second": 10.49,
       "step": 1672
     }
   ],
   "logging_steps": 88,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7506463659867854,
   "eval_steps": 88,
+  "global_step": 2613,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_scitail-pairs-pos_samples_per_second": 166.813,
       "eval_scitail-pairs-pos_steps_per_second": 10.49,
       "step": 1672
+    },
+    {
+      "epoch": 0.5056018385521401,
+      "grad_norm": 8.821345329284668,
+      "learning_rate": 1.681910776921864e-05,
+      "loss": 0.9837,
+      "step": 1760
+    },
+    {
+      "epoch": 0.5056018385521401,
+      "eval_nli-pairs_loss": 0.9164705276489258,
+      "eval_nli-pairs_runtime": 38.0836,
+      "eval_nli-pairs_samples_per_second": 178.765,
+      "eval_nli-pairs_steps_per_second": 11.186,
+      "step": 1760
+    },
+    {
+      "epoch": 0.5056018385521401,
+      "eval_scitail-pairs-pos_loss": 0.5467000007629395,
+      "eval_scitail-pairs-pos_runtime": 7.7942,
+      "eval_scitail-pairs-pos_samples_per_second": 167.304,
+      "eval_scitail-pairs-pos_steps_per_second": 10.521,
+      "step": 1760
+    },
+    {
+      "epoch": 0.5308819304797472,
+      "grad_norm": 9.250692367553711,
+      "learning_rate": 1.5906153307778405e-05,
+      "loss": 0.8857,
+      "step": 1848
+    },
+    {
+      "epoch": 0.5308819304797472,
+      "eval_nli-pairs_loss": 0.8931341171264648,
+      "eval_nli-pairs_runtime": 38.0639,
+      "eval_nli-pairs_samples_per_second": 178.857,
+      "eval_nli-pairs_steps_per_second": 11.192,
+      "step": 1848
+    },
+    {
+      "epoch": 0.5308819304797472,
+      "eval_scitail-pairs-pos_loss": 0.5374401807785034,
+      "eval_scitail-pairs-pos_runtime": 7.8097,
+      "eval_scitail-pairs-pos_samples_per_second": 166.972,
+      "eval_scitail-pairs-pos_steps_per_second": 10.5,
+      "step": 1848
+    },
+    {
+      "epoch": 0.5561620224073542,
+      "grad_norm": 5.3266706466674805,
+      "learning_rate": 1.491028940034468e-05,
+      "loss": 0.9305,
+      "step": 1936
+    },
+    {
+      "epoch": 0.5561620224073542,
+      "eval_nli-pairs_loss": 0.8841533064842224,
+      "eval_nli-pairs_runtime": 38.1566,
+      "eval_nli-pairs_samples_per_second": 178.423,
+      "eval_nli-pairs_steps_per_second": 11.165,
+      "step": 1936
+    },
+    {
+      "epoch": 0.5561620224073542,
+      "eval_scitail-pairs-pos_loss": 0.5330824851989746,
+      "eval_scitail-pairs-pos_runtime": 7.8415,
+      "eval_scitail-pairs-pos_samples_per_second": 166.294,
+      "eval_scitail-pairs-pos_steps_per_second": 10.457,
+      "step": 1936
+    },
+    {
+      "epoch": 0.5814421143349612,
+      "grad_norm": 6.629028797149658,
+      "learning_rate": 1.3845495793217223e-05,
+      "loss": 0.8061,
+      "step": 2024
+    },
+    {
+      "epoch": 0.5814421143349612,
+      "eval_nli-pairs_loss": 0.8853806257247925,
+      "eval_nli-pairs_runtime": 38.172,
+      "eval_nli-pairs_samples_per_second": 178.351,
+      "eval_nli-pairs_steps_per_second": 11.16,
+      "step": 2024
+    },
+    {
+      "epoch": 0.5814421143349612,
+      "eval_scitail-pairs-pos_loss": 0.5477445125579834,
+      "eval_scitail-pairs-pos_runtime": 7.8333,
+      "eval_scitail-pairs-pos_samples_per_second": 166.469,
+      "eval_scitail-pairs-pos_steps_per_second": 10.468,
+      "step": 2024
+    },
+    {
+      "epoch": 0.6067222062625682,
+      "grad_norm": 4.16071081161499,
+      "learning_rate": 1.2726719854583736e-05,
+      "loss": 0.8286,
+      "step": 2112
+    },
+    {
+      "epoch": 0.6067222062625682,
+      "eval_nli-pairs_loss": 0.8693087697029114,
+      "eval_nli-pairs_runtime": 38.1088,
+      "eval_nli-pairs_samples_per_second": 178.646,
+      "eval_nli-pairs_steps_per_second": 11.179,
+      "step": 2112
+    },
+    {
+      "epoch": 0.6067222062625682,
+      "eval_scitail-pairs-pos_loss": 0.5196370482444763,
+      "eval_scitail-pairs-pos_runtime": 7.8534,
+      "eval_scitail-pairs-pos_samples_per_second": 166.042,
+      "eval_scitail-pairs-pos_steps_per_second": 10.441,
+      "step": 2112
+    },
+    {
+      "epoch": 0.6320022981901753,
+      "grad_norm": 2.518064498901367,
+      "learning_rate": 1.1569666746235527e-05,
+      "loss": 0.7854,
+      "step": 2200
+    },
+    {
+      "epoch": 0.6320022981901753,
+      "eval_nli-pairs_loss": 0.859151303768158,
+      "eval_nli-pairs_runtime": 38.0838,
+      "eval_nli-pairs_samples_per_second": 178.764,
+      "eval_nli-pairs_steps_per_second": 11.186,
+      "step": 2200
+    },
+    {
+      "epoch": 0.6320022981901753,
+      "eval_scitail-pairs-pos_loss": 0.5159358978271484,
+      "eval_scitail-pairs-pos_runtime": 7.7611,
+      "eval_scitail-pairs-pos_samples_per_second": 168.018,
+      "eval_scitail-pairs-pos_steps_per_second": 10.566,
+      "step": 2200
+    },
+    {
+      "epoch": 0.6572823901177822,
+      "grad_norm": 4.033371925354004,
+      "learning_rate": 1.0390578957522117e-05,
+      "loss": 0.8374,
+      "step": 2288
+    },
+    {
+      "epoch": 0.6572823901177822,
+      "eval_nli-pairs_loss": 0.8537901043891907,
+      "eval_nli-pairs_runtime": 38.0742,
+      "eval_nli-pairs_samples_per_second": 178.809,
+      "eval_nli-pairs_steps_per_second": 11.189,
+      "step": 2288
+    },
+    {
+      "epoch": 0.6572823901177822,
+      "eval_scitail-pairs-pos_loss": 0.509048581123352,
+      "eval_scitail-pairs-pos_runtime": 7.7812,
+      "eval_scitail-pairs-pos_samples_per_second": 167.582,
+      "eval_scitail-pairs-pos_steps_per_second": 10.538,
+      "step": 2288
+    },
+    {
+      "epoch": 0.6825624820453893,
+      "grad_norm": 6.1265363693237305,
+      "learning_rate": 9.206008296404724e-06,
+      "loss": 0.7678,
+      "step": 2376
+    },
+    {
+      "epoch": 0.6825624820453893,
+      "eval_nli-pairs_loss": 0.8425480723381042,
+      "eval_nli-pairs_runtime": 38.0596,
+      "eval_nli-pairs_samples_per_second": 178.877,
+      "eval_nli-pairs_steps_per_second": 11.193,
+      "step": 2376
+    },
+    {
+      "epoch": 0.6825624820453893,
+      "eval_scitail-pairs-pos_loss": 0.5174906253814697,
+      "eval_scitail-pairs-pos_runtime": 7.7617,
+      "eval_scitail-pairs-pos_samples_per_second": 168.003,
+      "eval_scitail-pairs-pos_steps_per_second": 10.565,
+      "step": 2376
+    },
+    {
+      "epoch": 0.7078425739729962,
+      "grad_norm": 3.0078606605529785,
+      "learning_rate": 8.032583538354534e-06,
+      "loss": 0.7064,
+      "step": 2464
+    },
+    {
+      "epoch": 0.7078425739729962,
+      "eval_nli-pairs_loss": 0.8283973336219788,
+      "eval_nli-pairs_runtime": 38.2909,
+      "eval_nli-pairs_samples_per_second": 177.797,
+      "eval_nli-pairs_steps_per_second": 11.125,
+      "step": 2464
+    },
+    {
+      "epoch": 0.7078425739729962,
+      "eval_scitail-pairs-pos_loss": 0.5045931935310364,
+      "eval_scitail-pairs-pos_runtime": 7.8174,
+      "eval_scitail-pairs-pos_samples_per_second": 166.806,
+      "eval_scitail-pairs-pos_steps_per_second": 10.489,
+      "step": 2464
+    },
+    {
+      "epoch": 0.7331226659006033,
+      "grad_norm": 8.649880409240723,
+      "learning_rate": 6.8867769947957765e-06,
+      "loss": 0.8849,
+      "step": 2552
+    },
+    {
+      "epoch": 0.7331226659006033,
+      "eval_nli-pairs_loss": 0.8328748941421509,
+      "eval_nli-pairs_runtime": 38.2288,
+      "eval_nli-pairs_samples_per_second": 178.086,
+      "eval_nli-pairs_steps_per_second": 11.143,
+      "step": 2552
+    },
+    {
+      "epoch": 0.7331226659006033,
+      "eval_scitail-pairs-pos_loss": 0.478294312953949,
+      "eval_scitail-pairs-pos_runtime": 7.8918,
+      "eval_scitail-pairs-pos_samples_per_second": 165.235,
+      "eval_scitail-pairs-pos_steps_per_second": 10.391,
+      "step": 2552
     }
   ],
   "logging_steps": 88,