File size: 1,720 Bytes
9e49da6
 
 
 
0370ec8
 
 
 
 
9e49da6
 
0370ec8
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
---
tags:
- model_hub_mixin
- pytorch_model_hub_mixin
datasets:
- IgorVolochay/russian_jokes
language:
- ru
pipeline_tag: text-generation
---

# Домашнее задание в рамках прохождения курса NLP от VK Education

Задание было в том чтобы написать свой BPE Токенизатор и Attention, чтобы в итоге обучить модель, генерирующую анекдоты.

Пример анекдота от меня:
Один раз Дамблдор случайно поджёг Поттера. - Он почувствовал запах Гарри.

# Примеры генерации:
| Promt | Generation |
|-------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------|
| Штирлиц постучал в дверь | Штирлиц постучал в дверь. Вдруг его спрашивает:- А где ты можешь?- Сынок.- А как у нас с ней.- Ну, милиционер!- Да это, это же! |
| Зачем вопить, зачем страдать - ведь можно | Зачем вопить, зачем страдать - ведь можно волосы в туалет? |
| Спиртсмен | Спиртсменер - множество, воспитание в России. |

# Качество

![image/png](https://cdn-uploads.huggingface.co/production/uploads/67c857d14be864387e653086/ZSIL8cHjZARR12myDtELw.png)

Генерация приведены на модели в конфигурации Mini: 

Loss на валидации: 3.137 (cross-entropy)