--- license: mit language: - ru library_name: transformers pipeline_tag: token-classification tags: - ner - ru - chgk base_model: - ai-forever/ruBert-large --- # NER-модель для извлечения сущностей из текстов "Что? Где? Когда?" Это модель для **распознавания именованных сущностей (NER)**, дообученная на базе `ai-forever/ruBert-large`. Модель была создана в рамках пет-проекта для анализа текстов вопросов игры "Что? Где? Когда?". ## 🚀 Интерактивное демо Вы можете протестировать эту модель в действии в интерактивном веб-приложении на **Hugging Face Spaces**: **[➡️ Перейти к демо ⬅️](https://huggingface.co/spaces/borisMI/ChGK_NER_demo)** ## 🏷️ Извлекаемые сущности Модель обучена распознавать 5 типов сущностей: * `AUTHOR`: Авторы (писатели, художники, композиторы и т.д.) * `CHARACTER`: Персонажи (литературные, вымышленные) * `LOCATION`: Локации (города, страны, географические объекты) * `PERSON`: Персоналии (реальные исторические личности, ученые, политики) * `WORK_OF_ART`: Произведения искусства (книги, картины, фильмы и т.д.) ## 📊 Качество модели Модель была оценена на тестовом наборе данных. Ниже представлены итоговые метрики F1-score для каждого класса. | Категория | F1-score | |---------------|----------| | **AUTHOR** | **0.826**| | **LOCATION** | **0.825**| | **WORK_OF_ART**| **0.810**| | **CHARACTER** | **0.672**| | **PERSON** | **0.625**| Модель демонстрирует высокую надежность для классов `AUTHOR`, `LOCATION` и `WORK_OF_ART`. Классы `PERSON` и `CHARACTER` оказались более сложными из-за семантической близости, что отражено в их метриках.