Порядок запуска
Требуется python 3.6.8 (на более ранних версиях 3.6 падает pickle при сериализации больших файлов)
- load_dictionary - загрузка словаря opencorpora во внутренний формат. Извлекает словарные слова и слова для обучения
- vectorize - векторизует слова для обучения
- cls_dataset - генерирует датасеты для задач классификации, расставляет во всех векторизованных словах главный класс
- lemma_dataset - генерирует датасет для лемматизации
- inflect_dataset - генерирует датасет для постановки слов в форму
- train - тренирует модель
- build_numbers - формирует данные по числительным
- generate_tags - генерирует объединенную нумерацию для тегов
- build_bad_words - собирает слова, в которых сеть делает ошибки
- release_dict - опубликовывает новый словарь
- release_tests - публикует интеграционные тесты
- release_dict - публикует релизный вариант словаря
- release_dict - публикует модель