--- license: cc-by-4.0 datasets: - procesaur/znanje - procesaur/Vikipedija - procesaur/Vikizvornik - procesaur/kisobran - jerteh/SrpELTeC language: - sr ---

Аутоенкодер заснован на Т5 архитектури - 248 милиона параметара

Обучаван над корпусом српског језика - 4 милијарди речи

T5 based Autoencoder - 248 million parameters

Trained on Serbian corpora - 4 billion words

```python >>> from transformers import T5ForConditionalGeneration, T5TokenizerFast >>> import torch >>> model = T5ForConditionalGeneration.from_pretrained("te-sla/pilot5") >>> tokenizer = T5TokenizerFast.from_pretrained("te-sla/pilot5") >>> text = "ova sekcija sadrži ideje za prioritetne pravce/teme razvoja jezičkih tehnologija (NLP) za srpski jezik. Alternativni pravci razvoja su ukratko pobrojani u odeljku H2." >>> input = tokenizer(text, return_tensors="pt") >>> with torch.no_grad(): >>> output = model.generate(input_ids=input["input_ids"], attention_mask=input["attention_mask"], do_sample=False, max_length=512) >>> decoded_output = tokenizer.decode(output[0], skip_special_tokens=True) >>> print(decoded_output) ``` ```python >>> ova sekcija sadrži ideje za prioritetne pravce/teme razvoja jezičkih tehnologija (NLP) za srpski jezik. Alternativni pravci razvoja su ukratko pobrojani u odeljku H2. ```
Евалуација на задатку сумаризације - српски језик
Evaluation on the summarization task - Serbian language
Author
Mihailo Škorić
@procesaur
Computation
Nacionalna AI platforma
ai.gov.rs


Истраживање jе спроведено уз подршку Фонда за науку Републике Србиjе, #7276, Text Embeddings – Serbian Language Applications – TESLA

This research was supported by the Science Fund of the Republic of Serbia, #7276, Text Embeddings - Serbian Language Applications - TESLA