Update README.md
Browse files
README.md
CHANGED
|
@@ -24,26 +24,19 @@ python generate_text.py -i <data_id> -o <output_path>
|
|
| 24 |
|
| 25 |
**Adestramento**
|
| 26 |
|
| 27 |
-
Para adestrar o modelo na tarefa data-to-text empregouse o primeiro dataset público para data-to-text en galego liberado polo Proxecto Nós e que se atopa dispoñíbel no seguinte repositorio: https://zenodo.org/record/7661650#.ZA8aZ3bMJro
|
| 28 |
Debido a que o modelo base usa como entrada un formato textual e os nosos datos de entrada son en formato táboa, realizamos un proceso de "linearización" sobre os datos estruturados. Este proceso consiste en transformar as táboas de datos en datos textuais etiquetados da seguinte maneira:
|
| 29 |
|
| 30 |
<img src="https://huggingface.co/proxectonos/Nos_D2T-gl/resolve/main/exemplo-linearizacion.png" width="75%" style="margin:auto;">
|
| 31 |
|
| 32 |
-
Desta forma, o modelo text-to-text é quen de interpretar as táboas de datos "linearizadas" e aprender a xerar textos que describan
|
| 33 |
-
|
| 34 |
-
<!--**Procedemento de adestramento**
|
| 35 |
-
+ Pre-procesado dos datos (linearization)
|
| 36 |
-
+ Script de adestramento
|
| 37 |
-
+ ```bash
|
| 38 |
-
codigo para adestrar o modelo
|
| 39 |
-
```
|
| 40 |
-
**Hiperparámetros**
|
| 41 |
-
Os parámetros usados para o adestramento do modelo son os configurados no script de adestramento.
|
| 42 |
-
Engadir datos dos hiperparámetros por defecto
|
| 43 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 44 |
|
| 45 |
-
**Avaliación**
|
| 46 |
-
-->
|
| 47 |
**Licenzas do Modelo**
|
| 48 |
|
| 49 |
MIT License
|
|
|
|
| 24 |
|
| 25 |
**Adestramento**
|
| 26 |
|
| 27 |
+
Para adestrar o modelo na tarefa data-to-text empregouse o primeiro dataset público para data-to-text en galego liberado polo Proxecto Nós e que se atopa dispoñíbel no seguinte repositorio: https://zenodo.org/record/7661650#.ZA8aZ3bMJro.
|
| 28 |
Debido a que o modelo base usa como entrada un formato textual e os nosos datos de entrada son en formato táboa, realizamos un proceso de "linearización" sobre os datos estruturados. Este proceso consiste en transformar as táboas de datos en datos textuais etiquetados da seguinte maneira:
|
| 29 |
|
| 30 |
<img src="https://huggingface.co/proxectonos/Nos_D2T-gl/resolve/main/exemplo-linearizacion.png" width="75%" style="margin:auto;">
|
| 31 |
|
| 32 |
+
Desta forma, o modelo text-to-text é quen de interpretar as táboas de datos "linearizadas" e os seus textos asociados, e así aprender a xerar textos que describan os datos estruturados que se lle proporcionen como input.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 33 |
|
| 34 |
+
Para realizar o fine-tuning sobre o modelo empregaronse os seguintes hiperparámetros:
|
| 35 |
+
+ Batch size: 8
|
| 36 |
+
+ Optimizer: Adam
|
| 37 |
+
+ Learning rate: 1e-5
|
| 38 |
+
+ Training epochs: 1000
|
| 39 |
|
|
|
|
|
|
|
| 40 |
**Licenzas do Modelo**
|
| 41 |
|
| 42 |
MIT License
|