End of training

Browse files

Files changed (5) hide show

README.md +24 -24
adapter_config.json +3 -3
adapter_model.safetensors +1 -1
runs/Jul28_13-14-58_tardis/events.out.tfevents.1753701300.tardis.3378.0 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -22,21 +22,21 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/long-t5-tglobal-base](https://huggingface.co/google/long-t5-tglobal-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.6427
-- Rouge1: 0.2211
-- Rouge2: 0.0523
-- Rougel: 0.1666
-- Rougelsum: 0.1668
-- Gen Len: 29.68
-- Bleu: 0.0197
-- Precisions: 0.062
-- Brevity Penalty: 0.9101
-- Length Ratio: 0.9139
-- Translation Length: 1104.0
 - Reference Length: 1208.0
-- Precision: 0.8492
-- Recall: 0.8557
-- F1: 0.8523
 - Hashcode: roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1)
 ## Model description
@@ -70,16 +70,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len | Bleu   | Precisions | Brevity Penalty | Length Ratio | Translation Length | Reference Length | Precision | Recall | F1     | Hashcode                                                  |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|:------:|:----------:|:---------------:|:------------:|:------------------:|:----------------:|:---------:|:------:|:------:|:---------------------------------------------------------:|
-| 25.0804       | 1.0   | 7    | 21.1813         | 0.1712 | 0.0314 | 0.1274 | 0.1274    | 30.9    | 0.0116 | 0.0421     | 0.9315          | 0.9338       | 1128.0             | 1208.0           | 0.8394    | 0.8498 | 0.8445 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 14.6122       | 2.0   | 14   | 5.6557          | 0.0084 | 0.0016 | 0.0082 | 0.0085    | 31.0    | 0.0    | 0.0052     | 0.2987          | 0.4528       | 547.0              | 1208.0           | 0.7027    | 0.8098 | 0.7521 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 5.5958        | 3.0   | 21   | 4.8170          | 0.1641 | 0.025  | 0.1296 | 0.13      | 30.84   | 0.0101 | 0.0395     | 0.8631          | 0.8717       | 1053.0             | 1208.0           | 0.8368    | 0.8443 | 0.8405 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 4.4566        | 4.0   | 28   | 4.0192          | 0.1641 | 0.0334 | 0.1356 | 0.136     | 30.76   | 0.0106 | 0.0402     | 0.8956          | 0.9007       | 1088.0             | 1208.0           | 0.831     | 0.8458 | 0.8382 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 3.8178        | 5.0   | 35   | 3.5994          | 0.1843 | 0.038  | 0.1413 | 0.1419    | 30.82   | 0.0132 | 0.0501     | 0.9253          | 0.928        | 1121.0             | 1208.0           | 0.8396    | 0.8509 | 0.8452 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 3.4861        | 6.0   | 42   | 3.4108          | 0.2084 | 0.0476 | 0.1602 | 0.1607    | 30.12   | 0.0186 | 0.0569     | 0.9146          | 0.918        | 1109.0             | 1208.0           | 0.8452    | 0.8542 | 0.8496 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 3.2709        | 7.0   | 49   | 3.2041          | 0.2194 | 0.0546 | 0.1702 | 0.1708    | 29.98   | 0.0199 | 0.0618     | 0.8983          | 0.9031       | 1091.0             | 1208.0           | 0.8486    | 0.8563 | 0.8524 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 3.0626        | 8.0   | 56   | 2.9598          | 0.2213 | 0.0524 | 0.1649 | 0.1651    | 29.84   | 0.0226 | 0.0627     | 0.9101          | 0.9139       | 1104.0             | 1208.0           | 0.8475    | 0.8551 | 0.8512 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 2.875         | 9.0   | 63   | 2.7419          | 0.222  | 0.053  | 0.1657 | 0.1657    | 29.78   | 0.0228 | 0.0633     | 0.9119          | 0.9156       | 1106.0             | 1208.0           | 0.8486    | 0.8558 | 0.8521 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
-| 2.749         | 10.0  | 70   | 2.6427          | 0.2211 | 0.0523 | 0.1666 | 0.1668    | 29.68   | 0.0197 | 0.062      | 0.9101          | 0.9139       | 1104.0             | 1208.0           | 0.8492    | 0.8557 | 0.8523 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
 ### Framework versions

 This model is a fine-tuned version of [google/long-t5-tglobal-base](https://huggingface.co/google/long-t5-tglobal-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.5549
+- Rouge1: 0.2119
+- Rouge2: 0.0501
+- Rougel: 0.1629
+- Rougelsum: 0.1634
+- Gen Len: 29.52
+- Bleu: 0.0187
+- Precisions: 0.0592
+- Brevity Penalty: 0.9137
+- Length Ratio: 0.9172
+- Translation Length: 1108.0
 - Reference Length: 1208.0
+- Precision: 0.8484
+- Recall: 0.8543
+- F1: 0.8513
 - Hashcode: roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1)
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Gen Len | Bleu   | Precisions | Brevity Penalty | Length Ratio | Translation Length | Reference Length | Precision | Recall | F1     | Hashcode                                                  |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:-------:|:------:|:----------:|:---------------:|:------------:|:------------------:|:----------------:|:---------:|:------:|:------:|:---------------------------------------------------------:|
+| 25.3187       | 1.0   | 7    | 21.7613         | 0.1761 | 0.0329 | 0.1284 | 0.1286    | 30.9    | 0.0122 | 0.0432     | 0.9333          | 0.9354       | 1130.0             | 1208.0           | 0.8387    | 0.8501 | 0.8443 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 15.331        | 2.0   | 14   | 5.3421          | 0.043  | 0.0097 | 0.0389 | 0.039     | 30.88   | 0.0    | 0.02       | 0.408           | 0.5273       | 637.0              | 1208.0           | 0.7369    | 0.818  | 0.7744 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 5.4959        | 3.0   | 21   | 4.6619          | 0.152  | 0.0198 | 0.1175 | 0.1179    | 30.66   | 0.0    | 0.0365     | 0.8697          | 0.8775       | 1060.0             | 1208.0           | 0.8309    | 0.8452 | 0.8379 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 4.3485        | 4.0   | 28   | 3.9824          | 0.1785 | 0.0373 | 0.1428 | 0.1425    | 30.1    | 0.0124 | 0.0475     | 0.8937          | 0.899        | 1086.0             | 1208.0           | 0.8338    | 0.8482 | 0.8408 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 3.7645        | 5.0   | 35   | 3.5558          | 0.1881 | 0.0385 | 0.1489 | 0.1484    | 29.78   | 0.0132 | 0.0506     | 0.9182          | 0.9214       | 1113.0             | 1208.0           | 0.8463    | 0.8533 | 0.8497 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 3.4345        | 6.0   | 42   | 3.3686          | 0.1986 | 0.0426 | 0.1524 | 0.1525    | 30.7    | 0.0177 | 0.0523     | 0.9315          | 0.9338       | 1128.0             | 1208.0           | 0.8434    | 0.8532 | 0.8482 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 3.2147        | 7.0   | 49   | 3.1500          | 0.1973 | 0.0412 | 0.1555 | 0.1563    | 30.1    | 0.0166 | 0.0532     | 0.9137          | 0.9172       | 1108.0             | 1208.0           | 0.8454    | 0.8526 | 0.8489 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 3.0107        | 8.0   | 56   | 2.8957          | 0.2008 | 0.0464 | 0.1574 | 0.1575    | 29.84   | 0.0174 | 0.0567     | 0.901           | 0.9056       | 1094.0             | 1208.0           | 0.847     | 0.8528 | 0.8498 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 2.8102        | 9.0   | 63   | 2.6612          | 0.2108 | 0.0484 | 0.1629 | 0.1636    | 29.62   | 0.0182 | 0.0582     | 0.9155          | 0.9189       | 1110.0             | 1208.0           | 0.8482    | 0.854  | 0.851  | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
+| 2.6845        | 10.0  | 70   | 2.5549          | 0.2119 | 0.0501 | 0.1629 | 0.1634    | 29.52   | 0.0187 | 0.0592     | 0.9137          | 0.9172       | 1108.0             | 1208.0           | 0.8484    | 0.8543 | 0.8513 | roberta-large_L17_no-idf_version=0.3.12(hug_trans=4.53.1) |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -24,10 +24,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q",
-    "o",
     "k",
-    "v"
   ],
   "task_type": "SEQ_2_SEQ_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k",
+    "q",
+    "v",
+    "o"
   ],
   "task_type": "SEQ_2_SEQ_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5ffa8256442e4557ede9291c3f0f9c9e0e88baa3d3f190dadb63cb87d8ed35d
 size 7119264

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4f0253b2d4e013756c116b204fb4c660837a8393be04a095446d2578a81cd77
 size 7119264

runs/Jul28_13-14-58_tardis/events.out.tfevents.1753701300.tardis.3378.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:800b2feee914b9831ec6a71296da8f4597e8ae25f260c1177ca24ed10e7a7d1e
+size 19105

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a253d6093f28cc7f8688ccc8d1ebd25f1312cefff873e451078c8835a5be7d32
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6264a400e8936cca885568aaf8291265e2d1264947e3e7aa37025276af03493
 size 5905