Spaces:

StKirill
/

GenerativeChatBot

Build error

App Files Files Community

StKirill commited on Mar 4, 2024

Commit

3384511

verified ·

1 Parent(s): 8933648

Update README_Ru.md

Browse files

Files changed (1) hide show

README_Ru.md +43 -0

README_Ru.md CHANGED Viewed

@@ -128,6 +128,49 @@
    Результат обучения показан ниже
    !["gpt2-large-results"](./images/gpt2-large-results.png)
 # Архитектура
 - PrepareData.ipynb <- Парсер данных из Интернета, очистка, токенизация и подготовка к набору данных

    Результат обучения показан ниже
    !["gpt2-large-results"](./images/gpt2-large-results.png)
+### Генерация текста
+После обучения, модель собирается в pipeline
+```python
+chef = pipeline('text-generation', model="./models/en_gpt2-large_rachel_replics", tokenizer=model_type)
+```
+Для генерации текста используется следующая команда
+```python
+out = model.generate(inpt.cuda(),
+                    max_length=50,
+                    repetition_penalty=5.0,
+                    do_sample=True,
+                    top_k=5,
+                    top_p=0.95,
+                    temperature=1)
+```
+Sure, let's break down each line of the code snippet:
+```python
+out = model.generate(inpt.cuda(),
+                    max_length=50,
+                    repetition_penalty=5.0,
+                    do_sample=True,
+                    top_k=5,
+                    top_p=0.95,
+                    temperature=1)
+```
+где
+1. **max_length=50**: Этот параметр задает максимальную длину генерируемого вывода. В данном случае он равен 50 лексемам.
+2. **repetition_penalty=5.0**: Этот параметр наказывает модель за повторение одного и того же токена в выводе. Более высокое значение увеличивает наказание за повторение лексем, что потенциально может привести к более разнообразным выводам.
+3. **do_sample=True**: Этот параметр указывает, использовать ли выборку при генерации. Если `True`, модель будет делать выборку из своего выходного распределения для генерации текста, что приведет к более разнообразным результатам.
+4. **top_k=5**: Этот параметр определяет количество лексем, которые будут рассматриваться для выборки на основе их вероятностей. Он ограничивает выборку k лексемами с наибольшей вероятностью.
+5. **top_p=0.95**: Этот параметр, также известный как выборка по ядрам, управляет порогом кумулятивной вероятности для выборки по ядрам. Он ограничивает выборку подмножеством лексем, чья кумулятивная вероятность превышает этот порог.
+6. **temperature=1**: Этот параметр масштабирует логиты перед применением softmax во время выборки. Более высокая температура приводит к большей случайности в генерируемом тексте.
+Overall, this code snippet generates text using a GPT-2 model with the specified input prompt and generation parameters, producing diverse and contextually relevant outputs.
 # Архитектура
 - PrepareData.ipynb <- Парсер данных из Интернета, очистка, токенизация и подготовка к набору данных