End of training

Browse files

Files changed (7) hide show

README.md +24 -24
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
runs/Jul24_11-17-11_tardis/events.out.tfevents.1753348632.tardis.445419.0 +3 -0
runs/Jul24_11-23-17_tardis/events.out.tfevents.1753348998.tardis.445572.0 +3 -0
runs/Jul24_11-33-00_tardis/events.out.tfevents.1753349581.tardis.445730.0 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -22,21 +22,21 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [allenai/led-base-16384](https://huggingface.co/allenai/led-base-16384) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 9.9818
-- Rouge1: 0.2094
-- Rouge2: 0.0604
-- Rougel: 0.1683
-- Rougelsum: 0.1689
 - Gen Len: 21.0
-- Bleu: 0.0217
-- Precisions: 0.0745
-- Brevity Penalty: 0.5581
-- Length Ratio: 0.6316
-- Translation Length: 763.0
 - Reference Length: 1208.0
-- Precision: 0.8575
-- Recall: 0.8525
-- F1: 0.8549
 - Hashcode: roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1)
 ## Model description
@@ -56,7 +56,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-05
 - train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
@@ -69,16 +69,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len | Bleu   | Precisions | Brevity Penalty | Length Ratio | Translation Length | Reference Length | Precision | Recall | F1     | Hashcode                                                  |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|:------:|:----------:|:---------------:|:------------:|:------------------:|:----------------:|:---------:|:------:|:------:|:---------------------------------------------------------:|
-| 10.5321       | 1.0   | 7    | 10.5463         | 0.2094 | 0.0604 | 0.1683 | 0.1689    | 21.0    | 0.0217 | 0.0745     | 0.5581          | 0.6316       | 763.0              | 1208.0           | 0.8575    | 0.8525 | 0.8549 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 10.3883       | 2.0   | 14   | 10.4317         | 0.2094 | 0.0604 | 0.1683 | 0.1689    | 21.0    | 0.0217 | 0.0745     | 0.5581          | 0.6316       | 763.0              | 1208.0           | 0.8575    | 0.8525 | 0.8549 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 10.2749       | 3.0   | 21   | 10.3281         | 0.2094 | 0.0604 | 0.1683 | 0.1689    | 21.0    | 0.0217 | 0.0745     | 0.5581          | 0.6316       | 763.0              | 1208.0           | 0.8575    | 0.8525 | 0.8549 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 10.2327       | 4.0   | 28   | 10.2371         | 0.2094 | 0.0604 | 0.1683 | 0.1689    | 21.0    | 0.0217 | 0.0745     | 0.5581          | 0.6316       | 763.0              | 1208.0           | 0.8575    | 0.8525 | 0.8549 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 10.1782       | 5.0   | 35   | 10.1595         | 0.2094 | 0.0604 | 0.1683 | 0.1689    | 21.0    | 0.0217 | 0.0745     | 0.5581          | 0.6316       | 763.0              | 1208.0           | 0.8575    | 0.8525 | 0.8549 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 10.0863       | 6.0   | 42   | 10.0958         | 0.2094 | 0.0604 | 0.1683 | 0.1689    | 21.0    | 0.0217 | 0.0745     | 0.5581          | 0.6316       | 763.0              | 1208.0           | 0.8575    | 0.8525 | 0.8549 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 9.9788        | 7.0   | 49   | 10.0463         | 0.2094 | 0.0604 | 0.1683 | 0.1689    | 21.0    | 0.0217 | 0.0745     | 0.5581          | 0.6316       | 763.0              | 1208.0           | 0.8575    | 0.8525 | 0.8549 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 10.0324       | 8.0   | 56   | 10.0111         | 0.2094 | 0.0604 | 0.1683 | 0.1689    | 21.0    | 0.0217 | 0.0745     | 0.5581          | 0.6316       | 763.0              | 1208.0           | 0.8575    | 0.8525 | 0.8549 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 9.872         | 9.0   | 63   | 9.9897          | 0.2094 | 0.0604 | 0.1683 | 0.1689    | 21.0    | 0.0217 | 0.0745     | 0.5581          | 0.6316       | 763.0              | 1208.0           | 0.8575    | 0.8525 | 0.8549 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 9.9103        | 10.0  | 70   | 9.9818          | 0.2094 | 0.0604 | 0.1683 | 0.1689    | 21.0    | 0.0217 | 0.0745     | 0.5581          | 0.6316       | 763.0              | 1208.0           | 0.8575    | 0.8525 | 0.8549 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
 ### Framework versions

 This model is a fine-tuned version of [allenai/led-base-16384](https://huggingface.co/allenai/led-base-16384) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 4.1136
+- Rouge1: 0.2528
+- Rouge2: 0.0697
+- Rougel: 0.2065
+- Rougelsum: 0.2056
 - Gen Len: 21.0
+- Bleu: 0.0273
+- Precisions: 0.097
+- Brevity Penalty: 0.6118
+- Length Ratio: 0.6705
+- Translation Length: 810.0
 - Reference Length: 1208.0
+- Precision: 0.8734
+- Recall: 0.8657
+- F1: 0.8695
 - Hashcode: roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1)
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.001
 - train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len | Bleu   | Precisions | Brevity Penalty | Length Ratio | Translation Length | Reference Length | Precision | Recall | F1     | Hashcode                                                  |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|:------:|:----------:|:---------------:|:------------:|:------------------:|:----------------:|:---------:|:------:|:------:|:---------------------------------------------------------:|
+| 9.3557        | 1.0   | 7    | 8.2857          | 0.1835 | 0.037  | 0.1475 | 0.1474    | 21.0    | 0.0093 | 0.0545     | 0.6661          | 0.7111       | 859.0              | 1208.0           | 0.8595    | 0.8516 | 0.8554 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 7.5243        | 2.0   | 14   | 6.2064          | 0.2082 | 0.0492 | 0.1646 | 0.1643    | 19.54   | 0.0117 | 0.073      | 0.58            | 0.6474       | 782.0              | 1208.0           | 0.8725    | 0.8561 | 0.8641 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 5.8052        | 3.0   | 21   | 5.2106          | 0.2352 | 0.0577 | 0.1872 | 0.186     | 20.1    | 0.0174 | 0.0764     | 0.6275          | 0.6821       | 824.0              | 1208.0           | 0.875     | 0.86   | 0.8674 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 5.2043        | 4.0   | 28   | 4.6310          | 0.2571 | 0.0795 | 0.2055 | 0.2052    | 20.38   | 0.0199 | 0.0913     | 0.5914          | 0.6556       | 792.0              | 1208.0           | 0.8797    | 0.8658 | 0.8726 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 4.55          | 5.0   | 35   | 4.3489          | 0.2527 | 0.0755 | 0.2017 | 0.201     | 20.3    | 0.0279 | 0.0973     | 0.5754          | 0.644        | 778.0              | 1208.0           | 0.8804    | 0.8671 | 0.8736 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 4.3215        | 6.0   | 42   | 4.2134          | 0.2517 | 0.0742 | 0.2041 | 0.203     | 20.9    | 0.0238 | 0.0888     | 0.6107          | 0.6697       | 809.0              | 1208.0           | 0.8749    | 0.8656 | 0.8702 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 4.168         | 7.0   | 49   | 4.1657          | 0.2409 | 0.0632 | 0.1934 | 0.194     | 20.82   | 0.0244 | 0.0901     | 0.5857          | 0.6515       | 787.0              | 1208.0           | 0.8728    | 0.8645 | 0.8686 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 4.0873        | 8.0   | 56   | 4.1293          | 0.2382 | 0.0584 | 0.1928 | 0.1924    | 20.96   | 0.0215 | 0.0849     | 0.5971          | 0.6598       | 797.0              | 1208.0           | 0.8732    | 0.8644 | 0.8687 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 3.9975        | 9.0   | 63   | 4.1130          | 0.2466 | 0.0657 | 0.1984 | 0.1977    | 20.98   | 0.0253 | 0.091      | 0.6084          | 0.668        | 807.0              | 1208.0           | 0.8719    | 0.8644 | 0.8681 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 3.9602        | 10.0  | 70   | 4.1136          | 0.2528 | 0.0697 | 0.2065 | 0.2056    | 21.0    | 0.0273 | 0.097      | 0.6118          | 0.6705       | 810.0              | 1208.0           | 0.8734    | 0.8657 | 0.8695 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -25,9 +25,9 @@
   "revision": null,
   "target_modules": [
     "k_proj",
-    "v_proj",
     "q_proj",
-    "out_proj"
   ],
   "task_type": "SEQ_2_SEQ_LM",
   "trainable_token_indices": null,

   "revision": null,
   "target_modules": [
     "k_proj",
     "q_proj",
+    "out_proj",
+    "v_proj"
   ],
   "task_type": "SEQ_2_SEQ_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1106339c0a0312575fa18131271402b2385dc21c9a462fee974cdcda3c0eae15
 size 2372496

 version https://git-lfs.github.com/spec/v1
+oid sha256:59246d560518384e5f67fb19948670e7ca73b58d9135d07998a3d5d6fbb64a8d
 size 2372496

runs/Jul24_11-17-11_tardis/events.out.tfevents.1753348632.tardis.445419.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5d5dd08fe49b72926dfb4368a433bb6ac026c5d8fbf651f22855d75e952d797
+size 13638

runs/Jul24_11-23-17_tardis/events.out.tfevents.1753348998.tardis.445572.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75e1418b073a59af95486d3b2ff04696bcd4574fc7dd7092aa5e0a5804a0d584
+size 16316

runs/Jul24_11-33-00_tardis/events.out.tfevents.1753349581.tardis.445730.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:073572dcc03051f16f5ba172e977589969dbcd909da7ba10eca79293264ce202
+size 19342

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:227b3210ed894811841b7bc7cacff511016b97328d32b4bd3bb6e89661ba5555
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9a913b5be24445939b94a1a2b6e884005d748a4e59552ab3b1831f4df9d3ab1
 size 5905