fhenrivx commited on
Commit
c1557bb
·
verified ·
1 Parent(s): 9116327

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +187 -3
README.md CHANGED
@@ -1,3 +1,187 @@
1
- ---
2
- license: cc-by-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ KDBERT: MODELO BASEADO EM TRANSFORMADORS PARA COMPREENSÃO DA LÍNGUA KIKONGO
2
+
3
+ KDBERT: TRANSFORMER-BASED MODEL FOR UNDERSTANDING THE KIKONGO LANGUAGE
4
+
5
+
6
+ Henriques Fernando
7
+ José Albino André Reis
8
+ Plácido Magno Caetano Dias
9
+ Alberto Joni Kosi João
10
+ Helder João Chissingi
11
+
12
+
13
+ Resumo
14
+
15
+ Este artigo apresenta o modelo de aprendizagem profunda pré-treinado DistilBERT Kikongo (KDBERT), criado no âmbito do projecto
16
+ de doutoramento em Processamento de Linguagem Natural (PLN) para Kikongo, DistilBERT é uma variante do Bidirectional Encoder
17
+ Representations from Transformers (BERT), criado com recurso a técnicas de destilação de conhecimento, é 40% menor e 60% mais
18
+ eficaz que o BERT original. Foi concebido e treinado com propósito de simular o comportamento dos seus predecessores. Kikongo é
19
+ um idioma morfologicamente muito rica e falada por cerca de 11 milhões de pessoas na região central da África, com maior incidência
20
+ nas regiões costeiras ao sul do rio congo (e.g. Angola, República do Congo, República Democrática do Congo, Gabão) e em vários
21
+ países do mundo. A produção digital de conteúdo nas línguas africanas é ínfima se comparada com línguas como inglês e outras línguas oficiais.
22
+ Em PLN, os idiomas são classificados em línguas de poucos ou muitos recursos. Nesse âmbito as línguas africanas integram o grupo de línguas
23
+ de poucos recursos, devido ao pouco investimento e, consequentemente a falta de interesse dos pesquisadores. A metodologia aplicada nessa
24
+ pesquisa integra etapas, como pré-processamento de dados, representação de palavras, treinamento, avaliação, testes do modelo e análise de
25
+ resultados. Os resultados foram avaliados, utilizando as métricas padrões, como precisão, acurácia, revocação e pontuação F1 e matriz de
26
+ confusão. O modelo alcançou uma acurácia de 98% nos experimentos e testes.
27
+
28
+ Palavras chave: Processamento de Linguagem Natural; Transformers; DistiBert; Língua Kikongo; Idiomas Bantas.
29
+
30
+ 3 RESULTADOS E DISCUSSÃO
31
+
32
+
33
+ Resultados de treinamento e validação para o classificador distilBERT
34
+
35
+
36
+ ![image](https://cdn-uploads.huggingface.co/production/uploads/690ddbcc36f9e9b8d366a54d/Rfr-xy9mjcG9tr1iyYJ0b.png)
37
+
38
+ ![image](https://cdn-uploads.huggingface.co/production/uploads/690ddbcc36f9e9b8d366a54d/iFhk4HWJRDcjx3Ok9NZkU.png)
39
+
40
+ ![image](https://cdn-uploads.huggingface.co/production/uploads/690ddbcc36f9e9b8d366a54d/LjC3SVJ8gDAX1kK-d3ZB7.png)
41
+
42
+
43
+ 3.1 ANÁLISE MORFOLÓGICA
44
+
45
+ Em Kikongo ba, be e bi se usados como prefixos na formação de uma palavra composta indicam o plural Fernando et al, 2025), como representado na Tabela 3, verificamos bana (filhos) - sub m. plural e Bingana (proverbio ) sub m.plural.
46
+
47
+ Tabela 7: Exemplo de origem da palavra e formação do plural em Kikongo
48
+ Significado em Português Singular Plural Origem
49
+ Filho muana bana Ba-ana
50
+ Pessoa mutu bantu Ba - ntu
51
+ Bacongo Mukongo Bakongo Ba- kongo
52
+ Senhor ngana Bingana Bi-ngana
53
+
54
+ Tabela 8 : Exemplo de análise morfológica do texto
55
+ ENTRADA
56
+ Enkundia ame ongudi ame oyelele.
57
+ Owawu ongeye olenda kala ye nsala za Nkelele watukuna ensala zaku wampanazo. Nkelele wavanga ezolela ya `nkundi andi, watukuna ensala zandi wavanazo kwa Mbulu. Bayenda kwa nganga. Ongudi a Mbulu wasasuka, wawu kasasuka, bazinga, bazinga, bazinga. Kuna nsuka ongudi ya Nkelele wayela. Bayenda dyaka kwa nganga. Wawu bayenda kwa nganga, wubalombele o`nkanda a Mbulu. Mbuta Mbulu, ngudi ame oyelele. Aweyi tuvanga wawu e? Ngyele kwa nganga yandi wundombele o`nkanda aku mpasi vo ongudi ame kasasuka. Ombulu kazola ko. Wavavuka fyoti vandambu ye wavova: “vutukila dyaka” onganga olombele vo ongeye ofwete kunsadisa nga wuna yasadisila mu kumvana o`nkanda aku. Omono, ongudi ame wayela kena, wawuna yavanga muna nsala zame wuna mpe ovanga muna `nkanda aku mu sadisa ongwame. Wawu kawawowo, ombulu ovavukidi vana fulu kyokyo yo vova vo.
58
+
59
+ SAÍDA
60
+ Enkundia (S) ame (V) ongudi (S) ame (V) oyelele (V) Owawu (Int) ongeye (V) olenda (V) kala (Adv) ye (Pro) nsala (S) za (Prep) Nkelele (S) watukuna (V) ensala (S) zaku (Prep+Pro) wampanazo (S) Nkelele (S) wavanga (V) ezolela (S) ya (Prep) nkundi (S) andi (Adj) watukuna (V) ensala (S) zandi (Prep+Pro) wavanazo (S) kwa (Prep) Mbulu (S) Bayenda (V) kwa (Prep) nganga (S) Ongudi (S) a (Prep) Mbulu (S) wasasuka (V) wawu (Int) kasasuka (V) bazinga (V) bazinga (V) bazinga (V) Kuna (V) nsuka (S) ongudi (S) ya (Prep) Nkelele (S) wayela (V) Bayenda (V) dyaka (S) kwa (Prep) nganga (S) Wawu (Int) bayenda (V) kwa (Prep) nganga (S) wubalombele (V) onkanda (S) a (Prep) Mbulu (S) Mbuta (S) Mbulu (S) ngudi (S) ame (V) oyelele (V) Aweyi (Int) tuvanga (V) wawu (Int) e (Pro) Ngyele (S) kwa (Prep) nganga (S) yandi (Pro) wundombele (V) onkanda (S) aku (Pro) mpasi (S) vo (Conj) ongudi (S) ame (V) kasasuka (V) Ombulu (S) kazola (V) ko (Adv) Wavavuka (V) fyoti (S) vandambu (S) ye (Pro) wavova (V) vutukila (V) dyaka (S) onganga (S) olombele (V) vo (Conj) ongeye (V) ofwete (V) kunsadisa (V) nga (Prep) wuna (Pro) yasadisila (V) mu (Prep) kumvana (S) onkanda (S) aku (Pro) Omono (Int) ongudi (S) ame (V) wayela (V) kena (Adv) wawuna (Pro) yavanga (V) muna (Prep) nsala (S) zame (Pro) wuna (Pro) mpe (Conj) ovanga (V) muna (Prep) `nkanda (S) aku (Pro) mu (Prep) sadisa (S) ongwame (S) Wawu (Int) kawawowo (V) ombulu (S) ovavukidi (V) vana (S) fulu (Adj) kyokyo (S) yo (Pro) vova (V) vo (Conj)
61
+
62
+
63
+
64
+ Fonte: elaboração própria do autor a partir de dados da pesquisa.
65
+
66
+ 3.2 ANÁLISE SINTÁTICA
67
+
68
+ Nessa tarefa as estructuras gramaticais das frases são objetos de análise para entender no sentido de identificar a relação entre as unidades. Nesse contexto especifica-se o papel de cada palavra no texto e.g. sujeito, verbo e complementos.. Nas Tabela 8 e 9 são apresentados os exemplos da tarefa.
69
+
70
+ Tabela 9: Exemplo de Análise Sintática do texto
71
+ ENTRADA
72
+ Enkundia ame ongudi ame oyelele.
73
+ Owawu ongeye olenda kala ye nsala za Nkelele watukuna ensala zaku wampanazo. Nkelele wavanga ezolela ya `nkundi andi, watukuna ensala zandi wavanazo kwa Mbulu. Bayenda kwa nganga. Ongudi a Mbulu wasasuka, wawu kasasuka, bazinga, bazinga, bazinga. Kuna nsuka ongudi ya Nkelele wayela. Bayenda dyaka kwa nganga. Wawu bayenda kwa nganga, wubalombele o`nkanda a Mbulu. Mbuta Mbulu, ngudi ame oyelele. Aweyi tuvanga wawu e? Ngyele kwa nganga yandi wundombele o`nkanda aku mpasi vo ongudi ame kasasuka. Ombulu kazola ko. Wavavuka fyoti vandambu ye wavova: “vutukila dyaka” onganga olombele vo ongeye ofwete kunsadisa nga wuna yasadisila mu kumvana o`nkanda aku. Omono, ongudi ame wayela kena, wawuna yavanga muna nsala zame wuna mpe ovanga muna `nkanda aku mu sadisa ongwame. Wawu kawawowo, ombulu ovavukidi vana fulu kyokyo yo vova vo.
74
+
75
+ SAÍDA
76
+ enkundia → sujeito; ame → pronome; ongudi → pronome; oyelele → verbo;
77
+ owawu → conjunção; ongeye → pronome; olenda → verbo; kala → verbo; nsala → substantivo; nkelele → sujeito; watukuna → verbo; ensala → substantivo; zaku → pronome possessivo; wampanazo → verbo;
78
+ nkelele → sujeito; wavanga → verbo; ezolela → substantivo; nkundi → substantivo; andi → pronome; watukuna → verbo; ensala → substantivo; zandi → pronome possessivo; wavanazo → verbo; kwa → preposição; mbulu → sujeito;
79
+ bayenda → verbo; nganga → substantivo;
80
+
81
+ Fonte: elaboração própria do autor a partir de dados da pesquisa.
82
+
83
+
84
+ Tabela 10: Exemplo de Análise Sintática do texto
85
+ ENTRADA
86
+ Enkundia ame ongudi ame oyelele.
87
+ Owawu ongeye olenda kala ye nsala za Nkelele watukuna ensala zaku wampanazo. Nkelele wavanga ezolela ya `nkundi andi, watukuna ensala zandi wavanazo kwa Mbulu. Bayenda kwa nganga. Ongudi a Mbulu wasasuka, wawu kasasuka, bazinga, bazinga, bazinga. Kuna nsuka ongudi ya Nkelele wayela. Bayenda dyaka kwa nganga. Wawu bayenda kwa nganga, wubalombele o`nkanda a Mbulu. Mbuta Mbulu, ngudi ame oyelele. Aweyi tuvanga wawu e? Ngyele kwa nganga yandi wundombele o`nkanda aku mpasi vo ongudi ame kasasuka. Ombulu kazola ko. Wavavuka fyoti vandambu ye wavova: “vutukila dyaka” onganga olombele vo ongeye ofwete kunsadisa nga wuna yasadisila mu kumvana o`nkanda aku. Omono, ongudi ame wayela kena, wawuna yavanga muna nsala zame wuna mpe ovanga muna `nkanda aku mu sadisa ongwame. Wawu kawawowo, ombulu ovavukidi vana fulu kyokyo yo vova vo.
88
+
89
+ SAÍDA
90
+
91
+
92
+ Enkundia → Sujeito | ame → Pronome possessivo | ongudi → Complemento nominal | ame → Pronome possessivo | oyelele → Predicado verbal |
93
+ Owawu → Conjunção | ongeye → Sujeito | olenda → Verbo auxiliar | kala → Verbo principal | ye → Conector | nsala → Substantivo | za → Preposição | Nkelele → Complemento nominal | watukuna → Verbo | ensala → Objeto direto | zaku → Pronome possessivo | wampanazo → Verbo (resultado) |
94
+ Nkelele → Sujeito | wavanga → Verbo | ezolela → Substantivo | ya → Preposição | nkundi → Substantivo | andi → Pronome | watukuna → Verbo | ensala → Objeto | zandi → Pronome possessivo | wavanazo → Verbo | kwa → Preposição | Mbulu → Complemento de lugar | Bayenda → Verbo (sujeito elíptico) | kwa → Preposição | nganga → Complemento de lugar | Ongudi → Sujeito | a → Partícula | Mbulu → Modificador do sujeito | wasasuka → Verbo | wawu → Conjunção | kasasuka → Verbo | bazinga → Verbo/Expressão | bazinga → Repetição enfática | bazinga → Repetição enfática | Kuna → Advérbio de lugar | nsuka → Substantivo (tempo) | ongudi → Sujeito | ya → Preposição | Nkelele → Modificador | wayela → Verbo | Bayenda → Verbo | dyaka → Advérbio (repetição) | kwa → Preposição | nganga → Complemento de lugar | Wawu → Conjunção | bayenda → Verbo | kwa → Preposição | nganga → Complemento | wubalombele → Verbo | onkanda → Objeto | a → Partícula | Mbulu → Modificador |
95
+ Mbuta → Vocativo | Mbulu → Vocativo | ngudi → Sujeito | ame → Pronome possessivo | oyelele → Predicado verbal |
96
+ Aweyi → Interrogativo | tuvanga → Verbo | wawu → Pronome | e → Marcador interrogativo |
97
+ Ngyele → Verbo (movimento) | kwa → Preposição | nganga → Complemento | yandi → Sujeito | wundombele → Verbo | onkanda → Objeto | aku → Pronome possessivo | mpasi → Causa | vo → Conjunção explicativa | ongudi → Sujeito | ame → Pronome | kasasuka → Verbo | Ombulu → Sujeito | kazola → Verbo | ko → Negação/partícula | Wavavuka → Verbo | fyoti → Advérbio | vandambu → Sujeito | ye → Conjunção | wavova → Verbo | “vutukila → Verbo | dyaka” → Advérbio de repetição | Onganga → Sujeito | olombele → Verbo | vo → Conector | ongeye → Sujeito | ofwete → Modal (obrigação) | kunsadisa → Verbo | nga → Preposição | wuna → Pronome | yasadisila → Verbo | mu → Preposição | kumvana → Verbo nominalizado | onkanda → Objeto | aku → Pronome possessivo |
98
+ Omono → Marcador discursivo | ongudi → Sujeito | ame → Pronome possessivo | wayela → Verbo | kena → Intensificador | wawuna → Pronome | yavanga → Verbo | muna → Preposição | nsala → Substantivo | zame → Pronome possessivo | wuna → Pronome | mpe → Conjunção | ovanga → Verbo | muna → Preposição | `nkanda → Substantivo | aku → Pronome possessivo | mu → Preposição | sadisa → Verbo | ongwame → Objeto |
99
+ Wawu → Conjunção | kawawowo → Ênfase | ombulu → Sujeito | ovavukidi → Verbo | vana → Intensificador | fulu → Advérbio idiomático | kyokyo → Ênfase | yo → Partícula conclusiva | vova → Verbo | vo → Marcador discursivo final |
100
+
101
+
102
+ Fonte: elaboração própria do autor a partir de dados da pesquisa.
103
+
104
+ 3.3 SUMARIZAÇÃO DO TEXTO
105
+
106
+ A sumarização automática de texto é uma técnica que aprimora a compreensão de informações cruciais e o valor do texto. Através da combinação da sintaxe e semântica e cria resumos claros e altamente coerentes, que especificam a conexão das pessoas com a informação. O exemplo apresentado na Tabela 11.
107
+
108
+ Tabela 11: Exemplos de sumarização de texto
109
+ ENTRADA
110
+ Enkundia ame ongudi ame oyelele.
111
+ Owawu ongeye olenda kala ye nsala za Nkelele watukuna ensala zaku wampanazo. Nkelele wavanga ezolela ya `nkundi andi, watukuna ensala zandi wavanazo kwa Mbulu. Bayenda kwa nganga. Ongudi a Mbulu wasasuka, wawu kasasuka, bazinga, bazinga, bazinga. Kuna nsuka ongudi ya Nkelele wayela. Bayenda dyaka kwa nganga. Wawu bayenda kwa nganga, wubalombele o`nkanda a Mbulu. Mbuta Mbulu, ngudi ame oyelele. Aweyi tuvanga wawu e? Ngyele kwa nganga yandi wundombele o`nkanda aku mpasi vo ongudi ame kasasuka. Ombulu kazola ko. Wavavuka fyoti vandambu ye wavova: “vutukila dyaka” onganga olombele vo ongeye ofwete kunsadisa nga wuna yasadisila mu kumvana o`nkanda aku. Omono, ongudi ame wayela kena, wawuna yavanga muna nsala zame wuna mpe ovanga muna `nkanda aku mu sadisa ongwame. Wawu kawawowo, ombulu ovavukidi vana fulu kyokyo yo vova vo.
112
+
113
+ SAÍDA
114
+ Enkundia ame ongudi vandaka meyo ko, sambu kale yandi mezingisa mpasi mu nitu. Bawawu bayendaka mbote-mbote kwa nganga, mu diambu nganga sadisa mpi longa mambu ma kadi mekuvutuka mu kimpeve. Nganga wilambula o`nkanda, wutala nsala zame, mpi wuvovanga ti mpasi mekuvutuka kaka mu mambu ma kimpeve.Bawu bayendaka mbala mingi kwa yandi, sambu sik’oyo ongudi kasasuka, vandaka kuzinga mpi kuyeluka ntete. Nganga wuvovanga bo vutukila dyaka sambu lusadisu lukeba kwikama. Mu nsuka, nganga sadisila bo mu kuyungisa vandambu, kusukula mpi kumvana o`nkanda, mpi wulomba bo bawu bantuwa kimvuka sambu mpasi yina mu nitu yambula.
115
+
116
+ Fonte: elaboração própria do autor a partir de dados da pesquisa.
117
+
118
+
119
+ 3.4 TREINAMENTO E TESTES
120
+
121
+ O modelo foi ajustado no conjunto de treinamento nas tarefas propostas no plano desta pesquisa, e as métricas de desempenho padrões nomeadamente acurácia, precisão, revocação e pontuação F1 foram monitorizados no conjunto de validação. No processo de validação foi usado a técnica de Cross-Validation para otimizar os hiperparâmetros. O melhor modelo resultante na validação foi testado, cujas predições são apresentadas na tabela 9.
122
+
123
+ Tabela 12: Avaliação da acurácia no treinamento, teste e validação.
124
+ Neurónios Época Treinamento
125
+ % Validação
126
+ % Teste
127
+ % Perda
128
+ 16 3 84.2 82.5 81.9 0.752
129
+ 5 86.1 83.8 82.7 0.722
130
+ 32 3 88.0 86.7 85.4 0.681
131
+ 5 89.4 87.2 86.1 0.661
132
+ 64 3 92.3 90.8 89.7 0.602
133
+ 5 93.1 91.5 90.2 0.585
134
+ 128 3 95.0 93.5 93.0 0.484
135
+ 5 94.2 92.1 92.0 0.502
136
+ 256 3 94.8 93.2 92.8 0.521
137
+ 5 94.0 92.7 92.1 0.532
138
+ 512 3 94.3 92.6 92.1 0.581
139
+ 5 93.5 92.0 91.5 0.602
140
+
141
+ Tabela 12 apresenta avaliação da acurácia por época no processo de treinamento. A maior taxa de acurácia no treinamento foi obtida com 256 neurónios, validação e teste 32 neurónios.
142
+
143
+ Tabela 13: Resumo teste de desempenho por número de Neurônios.
144
+ Nº Neurónios Treinamento Validação Teste
145
+ Acurácia
146
+ % Acurácia % Acurácia % Precisão % Recall % F1-Score % Perdas
147
+ 16 0.945 0.948 0.952 0.95 0.94 0.945 0.056
148
+ 32 0.953 0.951 0.958 0.96 0.95 0.955 0.054
149
+ 64 0.957 0.954 0.960 0.95 0.96 0.955 0.053
150
+ 128 0.950 0.958 0.957 0.96 0.95 0.955 0.052
151
+ 256 0.948 0.955 0.959 0.95 0.96 0.955 0.051
152
+ 512 0.949 0.953 0.954 95.2 95.1 95.15 0.050
153
+
154
+
155
+
156
+ REFERENCIAS BIBLIOGRÁFICAS
157
+ Adiwardana, D., Luong, M.-T., So, D. R., Hall, J., Fiedel, N., Thoppilan, R., Yang, Z., Kulshreshtha, A., Nemade, G., Lu, Y., & Le, Q. V. (2020). Towards a human-like open-domain chatbot. ArXiv Preprint ArXiv:2001.09977. https://doi.org/10.48550/arXiv.2001.09977
158
+ Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 5, 135–146. https://doi.org/10.1162/tacl_a_00051
159
+ Conneau, A., Lample, G., Cross, J., Denoyer, L., & Stoyanov, V. (2019). Unsupervised cross-lingual representation learning at scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), 8440–8451. https://doi.org/10.18653/v1/2020.acl-main.747
160
+ de Vries, W., van Cranenburgh, A., Bisazza, A., Caselli, T., van Noord, G., & Nissim, M. (2019). BERTje: A Dutch BERT Model. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, 33–40. https://doi.org/10.18653/v1/P19-3005
161
+ Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In J. Burstein, C. Doran, & T. Solorio (Eds.), Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 4171–4186. https://aclanthology.org/N19-1423/
162
+ ElJundi, O., Antoun, W., El Droubi, N., El Khatib, R., Shaban, K., & Hajj, H. (2019). hULMonA: The Universal Language Model in Arabic. Proceedings of the Fourth Arabic Natural Language Processing Workshop, 68–77. https://doi.org/10.18653/v1/W19-4608
163
+ Erdmann, A., Gweth, Y., Niyongabo, R. A., & Hovy, E. (2018). Challenges and applications of multi-dialectal word embeddings for under-resourced languages. Proceedings of the 27th International Conference on Computational Linguistics, 551–565. https://aclanthology.org/C18-1047/
164
+ Hartmann, N., Fonseca, E., Shulby, C., Treviso, M., Silva, J., & Aluísio, S. (2017). Portuguese Word Embeddings: Evaluating on Word Analogies and Natural Language Tasks. Proceedings of the 11th Brazilian Symposium in Information and Human Language Technology (STIL). https://aclanthology.org/W17-6615/
165
+ Howard, J., & Ruder, S. (2018). Universal language model fine-tuning for text classification. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL), 328–339. https://doi.org/10.48550/arXiv.1801.06146
166
+ Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., & Soricut, R. (2019). ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. ArXiv Preprint ArXiv:1909.11942. https://arxiv.org/abs/1909.11942
167
+ Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. ArXiv Preprint ArXiv:1907.11692. https://arxiv.org/abs/1907.11692
168
+ Madalena, M. M. (2022). Estudo comparativo do sistema nominal em kicongo (H10) e kimbundo (H20): caso da variante Kimbémbé e Ngóla. Universidade Agostinho Neto.
169
+ Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. https://doi.org/10.1017/CBO9780511809071
170
+ Martin, L., Muller, B., Ortiz Suárez, P. J., Dupont, Y., Romary, L., de La Clergerie, É. V., Seddah, D., & Sagot, B. (2020). CamemBERT: a Tasty French Language Model. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 7203–7219. https://doi.org/10.18653/v1/2020.acl-main.645
171
+ Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. ArXiv Preprint ArXiv:1301.3781. https://doi.org/10.48550/arXiv.1301.3781
172
+ Mikolov, T., Grave, E., Bojanowski, P., Puhrsch, C., & Joulin, A. (2017). Advances in pre-training distributed word representations. ArXiv Preprint ArXiv:1712.09405. https://doi.org/10.48550/arXiv.1712.09405
173
+ Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. Advances in Neural Information Processing Systems, 3111–3119. https://papers.nips.cc/paper/2013/hash/9aa42b31882ec039965f3c4923ce901b-Abstract.html
174
+ Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global vectors for word representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532–1543. https://doi.org/10.3115/v1/D14-1162
175
+ Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. Proceedings of NAACL-HLT, 2227–2237. https://aclanthology.org/N18-1202/
176
+ Polignano, M., Basile, P., Semeraro, G., & Basile, V. (2019). AlBERTo: Italian BERT Language Understanding Model for NLP Challenging Tasks Based on Tweets. CLiC-It 2019. https://ceur-ws.org/Vol-2481/paper57.pdf
177
+ Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. J. (2019). Exploring the limits of transfer learning with a unified text-to-text transformer. ArXiv Preprint ArXiv:1910.10683. https://doi.org/10.48550/arXiv.1910.10683
178
+ Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. J. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research, 21(140), 1–67. http://jmlr.org/papers/v21/20-074.html
179
+ Rodrigues, J. (2016). Treinamento de Word Embeddings para o Português do Brasil: Avaliação e Aplicações. Universidade Federal do Rio Grande do Sul. https://lume.ufrgs.br/handle/10183/143592
180
+ Rodrigues, J. M. N. (2011). Uso da sumarização automática de textos na representação da informação e do conhecimento. Anais do II Congresso ISKO Espanha-Portugal e IX Congresso ISKO Espanha. https://isko.org.br/ojs/index.php/iskobrasil/article/view/119
181
+ Soliman, A., Eissa, K., & El-Beltagy, S. R. (2017). Building and evaluating Arabic word embeddings. Procedia Computer Science, 117, 256–265. https://doi.org/10.1016/j.procs.2017.10.117
182
+ Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., & Le, Q. V. (2019). XLNet: Generalized Autoregressive Pretraining for Language Understanding. Advances in Neural Information Processing Systems, 32.
183
+ https://proceedings.neurips.cc/paper/2019/hash/dc6a7e655d7e5840e66733e9ee67cc69-Abstract.html
184
+
185
+
186
+
187
+