|
|
--- |
|
|
license: mit |
|
|
language: |
|
|
- ru |
|
|
library_name: transformers |
|
|
pipeline_tag: token-classification |
|
|
tags: |
|
|
- ner |
|
|
- ru |
|
|
- chgk |
|
|
base_model: |
|
|
- ai-forever/ruBert-large |
|
|
--- |
|
|
|
|
|
# NER-модель для извлечения сущностей из текстов "Что? Где? Когда?" |
|
|
|
|
|
Это модель для **распознавания именованных сущностей (NER)**, дообученная на базе `ai-forever/ruBert-large`. Модель была создана в рамках пет-проекта для анализа текстов вопросов игры "Что? Где? Когда?". |
|
|
|
|
|
## 🚀 Интерактивное демо |
|
|
|
|
|
Вы можете протестировать эту модель в действии в интерактивном веб-приложении на **Hugging Face Spaces**: |
|
|
|
|
|
**[➡️ Перейти к демо ⬅️](https://huggingface.co/spaces/borisMI/ChGK_NER_demo)** |
|
|
|
|
|
## 🏷️ Извлекаемые сущности |
|
|
|
|
|
Модель обучена распознавать 5 типов сущностей: |
|
|
|
|
|
* `AUTHOR`: Авторы (писатели, художники, композиторы и т.д.) |
|
|
* `CHARACTER`: Персонажи (литературные, вымышленные) |
|
|
* `LOCATION`: Локации (города, страны, географические объекты) |
|
|
* `PERSON`: Персоналии (реальные исторические личности, ученые, политики) |
|
|
* `WORK_OF_ART`: Произведения искусства (книги, картины, фильмы и т.д.) |
|
|
|
|
|
## 📊 Качество модели |
|
|
|
|
|
Модель была оценена на тестовом наборе данных. Ниже представлены итоговые метрики F1-score для каждого класса. |
|
|
|
|
|
| Категория | F1-score | |
|
|
|---------------|----------| |
|
|
| **AUTHOR** | **0.826**| |
|
|
| **LOCATION** | **0.825**| |
|
|
| **WORK_OF_ART**| **0.810**| |
|
|
| **CHARACTER** | **0.672**| |
|
|
| **PERSON** | **0.625**| |
|
|
|
|
|
Модель демонстрирует высокую надежность для классов `AUTHOR`, `LOCATION` и `WORK_OF_ART`. Классы `PERSON` и `CHARACTER` оказались более сложными из-за семантической близости, что отражено в их метриках. |