Spaces:
Sleeping
Sleeping
Update README_Ru.md
Browse files- README_Ru.md +43 -0
README_Ru.md
CHANGED
|
@@ -128,6 +128,49 @@
|
|
| 128 |
Результат обучения показан ниже
|
| 129 |

|
| 130 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 131 |
# Архитектура
|
| 132 |
|
| 133 |
- PrepareData.ipynb <- Парсер данных из Интернета, очистка, токенизация и подготовка к набору данных
|
|
|
|
| 128 |
Результат обучения показан ниже
|
| 129 |

|
| 130 |
|
| 131 |
+
### Генерация текста
|
| 132 |
+
|
| 133 |
+
После обучения, модель собирается в pipeline
|
| 134 |
+
|
| 135 |
+
```python
|
| 136 |
+
chef = pipeline('text-generation', model="./models/en_gpt2-large_rachel_replics", tokenizer=model_type)
|
| 137 |
+
```
|
| 138 |
+
|
| 139 |
+
Для генерации текста используется следующая команда
|
| 140 |
+
```python
|
| 141 |
+
out = model.generate(inpt.cuda(),
|
| 142 |
+
max_length=50,
|
| 143 |
+
repetition_penalty=5.0,
|
| 144 |
+
do_sample=True,
|
| 145 |
+
top_k=5,
|
| 146 |
+
top_p=0.95,
|
| 147 |
+
temperature=1)
|
| 148 |
+
```
|
| 149 |
+
Sure, let's break down each line of the code snippet:
|
| 150 |
+
|
| 151 |
+
```python
|
| 152 |
+
out = model.generate(inpt.cuda(),
|
| 153 |
+
max_length=50,
|
| 154 |
+
repetition_penalty=5.0,
|
| 155 |
+
do_sample=True,
|
| 156 |
+
top_k=5,
|
| 157 |
+
top_p=0.95,
|
| 158 |
+
temperature=1)
|
| 159 |
+
```
|
| 160 |
+
где
|
| 161 |
+
1. **max_length=50**: Этот параметр задает максимальную длину генерируемого вывода. В данном случае он равен 50 лексемам.
|
| 162 |
+
|
| 163 |
+
2. **repetition_penalty=5.0**: Этот параметр наказывает модель за повторение одного и того же токена в выводе. Более высокое значение увеличивает наказание за повторение лексем, что потенциально может привести к более разнообразным выводам.
|
| 164 |
+
|
| 165 |
+
3. **do_sample=True**: Этот параметр указывает, использовать ли выборку при генерации. Если `True`, модель будет делать выборку из своего выходного распределения для генерации текста, что приведет к более разнообразным результатам.
|
| 166 |
+
|
| 167 |
+
4. **top_k=5**: Этот параметр определяет количество лексем, которые будут рассматриваться для выборки на основе их вероятностей. Он ограничивает выборку k лексемами с наибольшей вероятностью.
|
| 168 |
+
|
| 169 |
+
5. **top_p=0.95**: Этот параметр, также известный как выборка по ядрам, управляет порогом кумулятивной вероятности для выборки по ядрам. Он ограничивает выборку подмножеством лексем, чья кумулятивная вероятность превышает этот порог.
|
| 170 |
+
|
| 171 |
+
6. **temperature=1**: Этот параметр масштабирует логиты перед применением softmax во время выборки. Более высокая температура приводит к большей случайности в генерируемом тексте.
|
| 172 |
+
Overall, this code snippet generates text using a GPT-2 model with the specified input prompt and generation parameters, producing diverse and contextually relevant outputs.
|
| 173 |
+
|
| 174 |
# Архитектура
|
| 175 |
|
| 176 |
- PrepareData.ipynb <- Парсер данных из Интернета, очистка, токенизация и подготовка к набору данных
|