End of training

Browse files

Files changed (8) hide show

README.md +25 -25
adapter_config.json +3 -3
adapter_model.safetensors +1 -1
runs/Jul24_11-53-52_tardis/events.out.tfevents.1753350834.tardis.447846.0 +3 -0
runs/Jul24_12-04-52_tardis/events.out.tfevents.1753351494.tardis.450378.0 +3 -0
runs/Jul24_12-05-23_tardis/events.out.tfevents.1753351525.tardis.450578.0 +3 -0
runs/Jul24_12-11-08_tardis/events.out.tfevents.1753351870.tardis.451748.0 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -22,21 +22,21 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [allenai/led-base-16384](https://huggingface.co/allenai/led-base-16384) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 4.1136
-- Rouge1: 0.2528
-- Rouge2: 0.0697
-- Rougel: 0.2065
-- Rougelsum: 0.2056
-- Gen Len: 21.0
-- Bleu: 0.0273
-- Precisions: 0.097
-- Brevity Penalty: 0.6118
-- Length Ratio: 0.6705
-- Translation Length: 810.0
 - Reference Length: 1208.0
-- Precision: 0.8734
-- Recall: 0.8657
-- F1: 0.8695
 - Hashcode: roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1)
 ## Model description
@@ -57,7 +57,7 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.001
-- train_batch_size: 16
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
@@ -69,16 +69,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len | Bleu   | Precisions | Brevity Penalty | Length Ratio | Translation Length | Reference Length | Precision | Recall | F1     | Hashcode                                                  |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|:------:|:----------:|:---------------:|:------------:|:------------------:|:----------------:|:---------:|:------:|:------:|:---------------------------------------------------------:|
-| 9.3557        | 1.0   | 7    | 8.2857          | 0.1835 | 0.037  | 0.1475 | 0.1474    | 21.0    | 0.0093 | 0.0545     | 0.6661          | 0.7111       | 859.0              | 1208.0           | 0.8595    | 0.8516 | 0.8554 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 7.5243        | 2.0   | 14   | 6.2064          | 0.2082 | 0.0492 | 0.1646 | 0.1643    | 19.54   | 0.0117 | 0.073      | 0.58            | 0.6474       | 782.0              | 1208.0           | 0.8725    | 0.8561 | 0.8641 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 5.8052        | 3.0   | 21   | 5.2106          | 0.2352 | 0.0577 | 0.1872 | 0.186     | 20.1    | 0.0174 | 0.0764     | 0.6275          | 0.6821       | 824.0              | 1208.0           | 0.875     | 0.86   | 0.8674 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 5.2043        | 4.0   | 28   | 4.6310          | 0.2571 | 0.0795 | 0.2055 | 0.2052    | 20.38   | 0.0199 | 0.0913     | 0.5914          | 0.6556       | 792.0              | 1208.0           | 0.8797    | 0.8658 | 0.8726 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 4.55          | 5.0   | 35   | 4.3489          | 0.2527 | 0.0755 | 0.2017 | 0.201     | 20.3    | 0.0279 | 0.0973     | 0.5754          | 0.644        | 778.0              | 1208.0           | 0.8804    | 0.8671 | 0.8736 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 4.3215        | 6.0   | 42   | 4.2134          | 0.2517 | 0.0742 | 0.2041 | 0.203     | 20.9    | 0.0238 | 0.0888     | 0.6107          | 0.6697       | 809.0              | 1208.0           | 0.8749    | 0.8656 | 0.8702 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 4.168         | 7.0   | 49   | 4.1657          | 0.2409 | 0.0632 | 0.1934 | 0.194     | 20.82   | 0.0244 | 0.0901     | 0.5857          | 0.6515       | 787.0              | 1208.0           | 0.8728    | 0.8645 | 0.8686 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 4.0873        | 8.0   | 56   | 4.1293          | 0.2382 | 0.0584 | 0.1928 | 0.1924    | 20.96   | 0.0215 | 0.0849     | 0.5971          | 0.6598       | 797.0              | 1208.0           | 0.8732    | 0.8644 | 0.8687 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 3.9975        | 9.0   | 63   | 4.1130          | 0.2466 | 0.0657 | 0.1984 | 0.1977    | 20.98   | 0.0253 | 0.091      | 0.6084          | 0.668        | 807.0              | 1208.0           | 0.8719    | 0.8644 | 0.8681 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 3.9602        | 10.0  | 70   | 4.1136          | 0.2528 | 0.0697 | 0.2065 | 0.2056    | 21.0    | 0.0273 | 0.097      | 0.6118          | 0.6705       | 810.0              | 1208.0           | 0.8734    | 0.8657 | 0.8695 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
 ### Framework versions

 This model is a fine-tuned version of [allenai/led-base-16384](https://huggingface.co/allenai/led-base-16384) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 4.1201
+- Rouge1: 0.2826
+- Rouge2: 0.1016
+- Rougel: 0.2235
+- Rougelsum: 0.2227
+- Gen Len: 27.48
+- Bleu: 0.0515
+- Precisions: 0.1044
+- Brevity Penalty: 0.8659
+- Length Ratio: 0.8742
+- Translation Length: 1056.0
 - Reference Length: 1208.0
+- Precision: 0.8808
+- Recall: 0.8739
+- F1: 0.8773
 - Hashcode: roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1)
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.001
+- train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len | Bleu   | Precisions | Brevity Penalty | Length Ratio | Translation Length | Reference Length | Precision | Recall | F1     | Hashcode                                                  |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|:------:|:----------:|:---------------:|:------------:|:------------------:|:----------------:|:---------:|:------:|:------:|:---------------------------------------------------------:|
+| 8.708         | 1.0   | 13   | 6.7992          | 0.2058 | 0.0456 | 0.1594 | 0.159     | 31.68   | 0.0216 | 0.0515     | 1.0             | 1.0737       | 1297.0             | 1208.0           | 0.8535    | 0.8564 | 0.8549 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 5.8473        | 2.0   | 26   | 4.8979          | 0.2553 | 0.0817 | 0.1969 | 0.1972    | 27.54   | 0.035  | 0.0853     | 0.8901          | 0.8957       | 1082.0             | 1208.0           | 0.8761    | 0.8691 | 0.8725 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 4.6072        | 3.0   | 39   | 4.2460          | 0.269  | 0.0781 | 0.2078 | 0.2084    | 28.32   | 0.0414 | 0.0898     | 0.865           | 0.8733       | 1055.0             | 1208.0           | 0.8742    | 0.8722 | 0.8731 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 4.2016        | 4.0   | 52   | 4.1384          | 0.2709 | 0.0894 | 0.2139 | 0.2134    | 27.4    | 0.0495 | 0.0998     | 0.8753          | 0.8825       | 1066.0             | 1208.0           | 0.8792    | 0.8721 | 0.8756 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 4.0062        | 5.0   | 65   | 4.0907          | 0.2755 | 0.0825 | 0.2128 | 0.2125    | 28.64   | 0.0437 | 0.0921     | 0.901           | 0.9056       | 1094.0             | 1208.0           | 0.8733    | 0.8725 | 0.8729 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 3.892         | 6.0   | 78   | 4.0992          | 0.2806 | 0.0934 | 0.2199 | 0.2191    | 28.22   | 0.0388 | 0.0952     | 0.891           | 0.8965       | 1083.0             | 1208.0           | 0.8797    | 0.8754 | 0.8775 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 3.8119        | 7.0   | 91   | 4.0950          | 0.2985 | 0.0916 | 0.2268 | 0.2264    | 28.16   | 0.0284 | 0.0947     | 0.891           | 0.8965       | 1083.0             | 1208.0           | 0.8812    | 0.8763 | 0.8787 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 3.7427        | 8.0   | 104  | 4.1031          | 0.2942 | 0.1025 | 0.2356 | 0.2344    | 27.2    | 0.0526 | 0.1111     | 0.8394          | 0.851        | 1028.0             | 1208.0           | 0.8819    | 0.8758 | 0.8788 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 3.6902        | 9.0   | 117  | 4.1120          | 0.2981 | 0.1028 | 0.2323 | 0.232     | 28.08   | 0.0487 | 0.1036     | 0.8836          | 0.8899       | 1075.0             | 1208.0           | 0.8782    | 0.8755 | 0.8768 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 3.6548        | 10.0  | 130  | 4.1201          | 0.2826 | 0.1016 | 0.2235 | 0.2227    | 27.48   | 0.0515 | 0.1044     | 0.8659          | 0.8742       | 1056.0             | 1208.0           | 0.8808    | 0.8739 | 0.8773 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "q_proj",
     "out_proj",
-    "v_proj"
   ],
   "task_type": "SEQ_2_SEQ_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "out_proj",
+    "k_proj",
+    "q_proj"
   ],
   "task_type": "SEQ_2_SEQ_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59246d560518384e5f67fb19948670e7ca73b58d9135d07998a3d5d6fbb64a8d
 size 2372496

 version https://git-lfs.github.com/spec/v1
+oid sha256:534465ae1ca27c2a522d25577df098e585384cd46e787988aafc9c6fba8a771d
 size 2372496

runs/Jul24_11-53-52_tardis/events.out.tfevents.1753350834.tardis.447846.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3da05fff0636f87e4cb85c4734e52cca61e0a801a102e849c9331ff7512e0cf2
+size 5600

runs/Jul24_12-04-52_tardis/events.out.tfevents.1753351494.tardis.450378.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5f532ef59eda31729207441b79674d782d07e8b6023405e2ec4100e7bad3903
+size 5601

runs/Jul24_12-05-23_tardis/events.out.tfevents.1753351525.tardis.450578.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:232122de5a20d15dad1203571627e340a256bc1035f9c6a6f0e5fa2488b83b8f
+size 7146

runs/Jul24_12-11-08_tardis/events.out.tfevents.1753351870.tardis.451748.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bed1f73fd107931887cd4e183384dc3af43cd8d954fdf55534cc8af92823e763
+size 19367

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9a913b5be24445939b94a1a2b6e884005d748a4e59552ab3b1831f4df9d3ab1
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:993a07156b4546a639efcb5894ce14068d90da7fce3e8d6da188663ca08c17d4
 size 5905