File size: 2,394 Bytes
166c621
c108720
 
 
166c621
c108720
166c621
c108720
 
 
 
 
166c621
 
c108720
166c621
c108720
166c621
c108720
166c621
c108720
166c621
1adc2bd
166c621
c108720
166c621
c108720
166c621
c108720
 
 
 
 
166c621
c108720
166c621
c108720
166c621
c108720
 
 
 
 
 
 
166c621
c108720
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
---
license: mit
language:
- ru
library_name: transformers
pipeline_tag: token-classification
tags:
- ner
- ru
- chgk
base_model:
- ai-forever/ruBert-large
---

# NER-модель для извлечения сущностей из текстов "Что? Где? Когда?"

Это модель для **распознавания именованных сущностей (NER)**, дообученная на базе `ai-forever/ruBert-large`. Модель была создана в рамках пет-проекта для анализа текстов вопросов игры "Что? Где? Когда?".

## 🚀 Интерактивное демо

Вы можете протестировать эту модель в действии в интерактивном веб-приложении на **Hugging Face Spaces**:

**[➡️ Перейти к демо ⬅️](https://huggingface.co/spaces/borisMI/ChGK_NER_demo)** 

## 🏷️ Извлекаемые сущности

Модель обучена распознавать 5 типов сущностей:

*   `AUTHOR`: Авторы (писатели, художники, композиторы и т.д.)
*   `CHARACTER`: Персонажи (литературные, вымышленные)
*   `LOCATION`: Локации (города, страны, географические объекты)
*   `PERSON`: Персоналии (реальные исторические личности, ученые, политики)
*   `WORK_OF_ART`: Произведения искусства (книги, картины, фильмы и т.д.)

## 📊 Качество модели

Модель была оценена на тестовом наборе данных. Ниже представлены итоговые метрики F1-score для каждого класса.

| Категория     | F1-score |
|---------------|----------|
| **AUTHOR**    | **0.826**|
| **LOCATION**  | **0.825**|
| **WORK_OF_ART**| **0.810**|
| **CHARACTER** | **0.672**|
| **PERSON**    | **0.625**|

Модель демонстрирует высокую надежность для классов `AUTHOR`, `LOCATION` и `WORK_OF_ART`. Классы `PERSON` и `CHARACTER` оказались более сложными из-за семантической близости, что отражено в их метриках.