File size: 5,033 Bytes
e97d07e
7147b26
 
 
e97d07e
 
9229401
e97d07e
 
 
 
7147b26
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
---
title: Тематический классификатор текста
emoji: 🏷️
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 6.5.1
app_file: app.py
pinned: false
---

# 🏷️ Тематический классификатор текста

Веб-приложение для автоматической классификации текстов по темам с использованием нейронных сетей. Определяет основную тему текста из 12 возможных категорий.

## 🚀 Живая демонстрация
[![Open in Spaces](https://huggingface.co/datasets/huggingface/badges/raw/main/open-in-hf-spaces-sm-dark.svg)](https://huggingface.co/spaces/marry1908/Extracting-entities)

## 📌 Возможности приложения

### ✅ Основные функции
- **Автоматическое определение** темы текста
- **12 тематических категорий:** спорт, политика, наука и другие
- **Визуализация результатов** с прогресс-барами
- **История запросов** (последние 10 запросов)
- **Настройка количества** отображаемых тем (1-5)
- **Измерение времени** обработки
- **Готовые примеры** для быстрого тестирования

### 🎯 Определяемые темы
| Тема | Иконка | Описание | Пример текста |
|------|--------|----------|---------------|
| **Спорт** | 🏀 | Спортивные события, соревнования, команды | "Сборная России выиграла чемпионат мира по хоккею" |
| **Политика** | 🏛️ | Политические новости, выборы, законы | "Парламент принял новый закон о налогах" |
| **Наука** | 🔬 | Научные открытия, исследования, технологии | "Учёные открыли новый вид динозавров" |
| **Технологии** | 💻 | IT, гаджеты, программы, интернет | "Apple представила новый iPhone 15" |
| **Здоровье** | 🏥 | Медицина, болезни, лечение, ЗОЖ | "Врачи нашли новое лекарство от рака" |
| **Образование** | 📚 | Школы, вузы, обучение, экзамены | "Министерство образования изменило правила ЕГЭ" |
| **Культура** | 🎭 | Искусство, музыка, кино, литература | "В Эрмитаже открылась выставка Ван Гога" |
| **Экономика** | 💰 | Финансы, бизнес, рынки, кризисы | "Цены на нефть выросли на 10%" |
| **Путешествия** | ✈️ | Туризм, страны, достопримечательности | "Турция стала самым популярным курортом" |
| **Развлечения** | 🎬 | Фильмы, сериалы, игры, шоу | "Вышел новый сезон Игры престолов" |
| **Погода** | ☀️ | Климат, температура, природные явления | "Завтра ожидается снегопад и метель" |
| **Происшествия** | 🚨 | Аварии, катастрофы, криминал | "В Москве произошло серьёзное ДТП" |

## 🧠 Используемая модель

### **Модель:** `facebook/bart-large-mnli`

### **Почему выбрана эта модель:**
1. **Zero-shot классификация** - не требует предварительного обучения на конкретных темах
2. **Мультиязычная поддержка** - работает с русским и английским языками
3. **Высокая точность** - показывает хорошие результаты на разнообразных текстах
4. **Гибкость** - можно легко добавлять новые темы без переобучения
5. **Оптимизирована для CPU** - достаточно быстрая для веб-приложения

### **Принцип работы:**
Модель использует технику **zero-shot классификации**, что означает:
- Не нужен предварительно размеченный датасет
- Можно задавать любые темы на лету
- Модель определяет, насколько текст соответствует каждой теме

## 📊 Примеры работы

### Пример 1: Спортивный текст
**Входной текст:**