DeepMorphy / README.md
niobures's picture
DeepMorphy
0240c6e verified

Порядок запуска

Требуется python 3.6.8 (на более ранних версиях 3.6 падает pickle при сериализации больших файлов)

  • load_dictionary - загрузка словаря opencorpora во внутренний формат. Извлекает словарные слова и слова для обучения
  • vectorize - векторизует слова для обучения
  • cls_dataset - генерирует датасеты для задач классификации, расставляет во всех векторизованных словах главный класс
  • lemma_dataset - генерирует датасет для лемматизации
  • inflect_dataset - генерирует датасет для постановки слов в форму
  • train - тренирует модель
  • build_numbers - формирует данные по числительным
  • generate_tags - генерирует объединенную нумерацию для тегов
  • build_bad_words - собирает слова, в которых сеть делает ошибки
  • release_dict - опубликовывает новый словарь
  • release_tests - публикует интеграционные тесты
  • release_dict - публикует релизный вариант словаря
  • release_dict - публикует модель