Spaces:

dnkdm
/

russian-ner

Sleeping

App Files Files Community

dnkdm commited on Jan 20

Commit

aeee61d

1 Parent(s): a7158ed

Add NER application with Gradio interface

Browse files

Files changed (3) hide show

README.md +175 -7
app.py +596 -0
requirements.txt +4 -0

README.md CHANGED Viewed

@@ -1,14 +1,182 @@
 ---
-title: Russian Ner
-emoji: 🐠
-colorFrom: yellow
-colorTo: purple
 sdk: gradio
-sdk_version: 6.3.0
 app_file: app.py
 pinned: false
 license: mit
-short_description: 'NER для русского текста: извлечение ФИО, организаций, локаци'
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Russian NER - Извлечение именованных сущностей
+emoji: 🏷️
+colorFrom: blue
+colorTo: green
 sdk: gradio
+sdk_version: 4.0.0
 app_file: app.py
 pinned: false
 license: mit
 ---
+# 🏷️ Russian NER — Извлечение именованных сущностей
+Веб-приложение для автоматического извлечения именованных сущностей (Named Entity Recognition) из текстов на русском языке.
+## 📋 Описание задачи
+**Named Entity Recognition (NER)** — это задача извлечения и классификации именованных сущностей в тексте. Приложение распознаёт следующие типы сущностей:
+| Тип | Описание | Примеры |
+|-----|----------|---------|
+| **PER** | Персоны (ФИО) | Владимир Путин, Иван Петров |
+| **ORG** | Организации | Яндекс, Сбербанк, МГУ |
+| **LOC** | Локации (места) | Москва, Россия, Невский проспект |
+| **MISC** | Прочее | Названия событий, продуктов и т.д. |
+## 🤖 Выбранные модели
+### Модель 1: WikiNEuRal (multilingual)
+- **Hugging Face:** [Babelscape/wikineural-multilingual-ner](https://huggingface.co/Babelscape/wikineural-multilingual-ner)
+- **Архитектура:** mBERT (multilingual BERT)
+- **Почему выбрана:**
+  - Поддержка 9 языков, включая русский
+  - Распознаёт все 4 типа сущностей (PER, ORG, LOC, MISC)
+  - 457K+ загрузок — проверенная сообществом
+  - Хорошо работает на текстах общей тематики
+### Модель 2: XLM-RoBERTa NER
+- **Hugging Face:** [Davlan/xlm-roberta-base-ner-hrl](https://huggingface.co/Davlan/xlm-roberta-base-ner-hrl)
+- **Архитектура:** XLM-RoBERTa
+- **Почему выбрана:**
+  - Сильная база (XLM-RoBERTa) для славянских языков
+  - Хорошая точность на именах и организациях
+  - Альтернатива для сравнения результатов
+## ✨ Функциональность
+### Базовые функции
+- ✅ Ввод текста с ограничением 2000 символов
+- ✅ Извлечение сущностей с указанием типа и уверенности
+- ✅ Визуальная подсветка сущностей в тексте (цветовая маркировка)
+- ✅ Блок примеров для быстрого тестирования
+- ✅ Корректная обработка ошибок
+### Расширенные функции (на "отлично")
+- ✅ **Переключатель моделей** — выбор из 2 моделей через Dropdown
+- ✅ **Сравнение моделей** — side-by-side результаты обеих моделей
+- ✅ **Измерение latency** — отображение времени обработки в миллисекундах
+- ✅ **История запросов** — последние 10 запросов с результатами
+- ✅ **Пакетная обработка** — загрузка CSV/TXT и выдача результатов таблицей
+## 📊 Примеры работы
+### Вход:
+```
+Владимир Путин встретился с президентом Франции Эммануэлем Макроном в Москве для обсуждения вопросов безопасности.
+```
+### Выход:
+| Текст | Тип | Описание | Уверенность |
+|-------|-----|----------|-------------|
+| Владимир Путин | PER | Персона (ФИО) | 99.2% |
+| Франции | LOC | Локация (место) | 98.7% |
+| Эммануэлем Макроном | PER | Персона (ФИО) | 98.9% |
+| Москве | LOC | Локация (место) | 99.1% |
+### Подсветка в тексте:
+- 🔵 **Владимир Путин** — PER
+- 🔵 **Эммануэлем Макроном** — PER
+- 🟠 **Франции** — LOC
+- 🟠 **Москве** — LOC
+---
+### Вход:
+```
+Компания Яндекс открыла новый офис в Санкт-Петербурге рядом с Невским проспектом.
+```
+### Выход:
+| Текст | Тип | Описание | Уверенность |
+|-------|-----|----------|-------------|
+| Яндекс | ORG | Организация | 98.5% |
+| Санкт-Петербурге | LOC | Локация (место) | 99.3% |
+| Невским проспектом | LOC | Локация (место) | 97.8% |
+## ⚠️ Ограничения решения
+### Технические ограничения
+- **CPU-режим:** Приложение работает без GPU для совместимости с бесплатным Hugging Face Spaces
+- **Лимит текста:** Максимум 2000 символов на один запрос
+- **Лимит пакетной обработки:** Максимум 100 строк в файле
+- **Время загрузки:** Первый запрос может занять 30-60 секунд (загрузка модели)
+### Ограничения моделей
+- Модели обучены на Wikipedia и новостных текстах — могут хуже работать на сленге, диалектах
+- Редкие имена и новые организации могут не распознаваться
+- Сложные случаи (омонимия, сокращения) могут давать ошибки
+- MISC-категория может быть неточной
+### Примеры сложных случаев
+| Текст | Проблема |
+|-------|----------|
+| "Петров выиграл Петрова" | Омонимия: фамилия vs название турнира |
+| "ВТБ" | Сокращения могут не распознаваться |
+| "пойти в яндекс" | Неформальное написание |
+## 🚀 Как использовать
+### Локальный запуск
+```bash
+# Клонировать репозиторий
+git clone https://huggingface.co/spaces/YOUR_USERNAME/russian-ner
+# Установить зависимости
+pip install -r requirements.txt
+# Запустить приложение
+python app.py
+```
+### Пакетная обработка
+1. Подготовьте CSV-файл с колонкой `text`:
+```csv
+text
+"Иван Петров работает в Яндексе."
+"Мария Сидорова живёт в Казани."
+```
+2. Или TXT-файл (каждая строка — отдельный текст):
+```
+Иван Петров работает в Яндексе.
+Мария Сидорова живёт в Казани.
+```
+3. Загрузите файл во вкладке "Пакетная обработка"
+## 🔒 Правила безопасного использования
+⚠️ **ВАЖНО: Не вводите реальные персональные данные!**
+- Это демонстрационное приложение
+- Данные не сохраняются на сервере, но проходят через модели Hugging Face
+- Для обработки конфиденциальных данных используйте локальный запуск
+- Не используйте для обработки паспортных данных, медицинских записей и т.п.
+## 📁 Структура проекта
+```
+aimod/
+├── app.py              # Главное Gradio-приложение
+├── requirements.txt    # Зависимости Python
+└── README.md           # Документация (этот файл)
+```
+## 🛠️ Технологии
+- **Gradio** — веб-интерфейс
+- **Transformers** — работа с моделями NLP
+- **PyTorch** — бэкенд для моделей
+- **Pandas** — обработка табличных данных
+## 📚 Ссылки
+- [Hugging Face Transformers](https://huggingface.co/docs/transformers)
+- [Gradio Documentation](https://gradio.app/docs/)
+- [WikiNEuRal Paper](https://aclanthology.org/2021.findings-emnlp.215/)
+## 📝 Лицензия
+MIT License

app.py ADDED Viewed

	@@ -0,0 +1,596 @@

+"""
+NER-приложение для извлечения именованных сущностей из русского текста.
+Hugging Face Spaces + Gradio
+Автор: Студент
+Задача: Извлечение сущностей (ФИО, организации, города)
+"""
+import time
+import gradio as gr
+from transformers import pipeline
+import pandas as pd
+from collections import deque
+from datetime import datetime
+import io
+# ============== КОНСТАНТЫ ==============
+MAX_CHARS = 2000
+MAX_BATCH_ROWS = 100
+HISTORY_SIZE = 10
+# Доступные модели NER
+MODELS = {
+    "WikiNEuRal (multilingual)": "Babelscape/wikineural-multilingual-ner",
+    "XLM-RoBERTa NER": "Davlan/xlm-roberta-base-ner-hrl"
+}
+# Цветовая схема для подсветки сущностей
+COLOR_MAP = {
+    "PER": "#3b82f6",      # Синий — персоны
+    "ORG": "#22c55e",      # Зелёный — организации
+    "LOC": "#f97316",      # Оранжевый — локации
+    "MISC": "#a855f7"      # Фиолетовый — прочее
+}
+ENTITY_LABELS = {
+    "PER": "Персона (ФИО)",
+    "ORG": "Организация",
+    "LOC": "Локация (место)",
+    "MISC": "Прочее"
+}
+# ============== ГЛОБАЛЬНЫЕ ПЕРЕМЕННЫЕ ==============
+pipelines_cache = {}  # Кэш загруженных моделей
+history = deque(maxlen=HISTORY_SIZE)  # История запросов
+# ============== ФУНКЦИИ ЗАГРУЗКИ МОДЕЛЕЙ ==============
+def load_model(model_key: str):
+    """Ленивая загрузка модели по ключу."""
+    if model_key not in pipelines_cache:
+        model_name = MODELS[model_key]
+        pipelines_cache[model_key] = pipeline(
+            "ner",
+            model=model_name,
+            aggregation_strategy="simple"
+        )
+    return pipelines_cache[model_key]
+# ============== ФУНКЦИИ ОБРАБОТКИ ==============
+def validate_input(text: str) -> tuple[bool, str]:
+    """Валидация входного текста."""
+    if text is None or not text.strip():
+        return False, "Ошибка: введите текст для анализа."
+    text = text.strip()
+    if len(text) > MAX_CHARS:
+        return False, f"Ошибка: текст слишком длинный ({len(text)} символов). Максимум: {MAX_CHARS}."
+    return True, text
+def normalize_entity_type(entity_group: str) -> str:
+    """Нормализация типа сущности (убираем префиксы B-, I- и т.д.)."""
+    # Убираем возможные префиксы BIO-разметки
+    for prefix in ["B-", "I-", "E-", "S-", "L-", "U-"]:
+        if entity_group.startswith(prefix):
+            return entity_group[2:]
+    return entity_group
+def process_entities(entities: list) -> list[dict]:
+    """Обработка и нормализация списка сущностей."""
+    processed = []
+    for ent in entities:
+        entity_type = normalize_entity_type(ent.get("entity_group", ent.get("entity", "UNKNOWN")))
+        processed.append({
+            "text": ent["word"],
+            "type": entity_type,
+            "label": ENTITY_LABELS.get(entity_type, entity_type),
+            "score": round(ent["score"], 4),
+            "start": ent["start"],
+            "end": ent["end"]
+        })
+    return processed
+def create_highlighted_text(text: str, entities: list) -> list:
+    """Создание данных для подсветки текста."""
+    if not entities:
+        return [(text, None)]
+    # Сортируем сущности по позиции начала
+    sorted_entities = sorted(entities, key=lambda x: x["start"])
+    highlighted = []
+    last_end = 0
+    for ent in sorted_entities:
+        start, end = ent["start"], ent["end"]
+        # Добавляем текст до сущности
+        if start > last_end:
+            highlighted.append((text[last_end:start], None))
+        # Добавляем сущность с меткой
+        entity_text = text[start:end]
+        entity_type = ent["type"]
+        highlighted.append((entity_text, entity_type))
+        last_end = end
+    # Добавляем оставшийся текст
+    if last_end < len(text):
+        highlighted.append((text[last_end:], None))
+    return highlighted
+def entities_to_dataframe(entities: list) -> pd.DataFrame:
+    """Преобразование списка сущностей в DataFrame."""
+    if not entities:
+        return pd.DataFrame(columns=["Текст", "Тип", "Описание", "Уверенность"])
+    data = []
+    for ent in entities:
+        data.append({
+            "Текст": ent["text"],
+            "Тип": ent["type"],
+            "Описание": ent["label"],
+            "Уверенность": f"{ent['score']:.2%}"
+        })
+    return pd.DataFrame(data)
+def add_to_history(text: str, model: str, entities: list, latency: float):
+    """Добавление запроса в историю."""
+    timestamp = datetime.now().strftime("%H:%M:%S")
+    entity_count = len(entities)
+    entity_types = ", ".join(set(e["type"] for e in entities)) if entities else "—"
+    history.appendleft({
+        "Время": timestamp,
+        "Модель": model.split()[0],  # Короткое название
+        "Текст": text[:50] + "..." if len(text) > 50 else text,
+        "Найдено": entity_count,
+        "Типы": entity_types,
+        "Latency": f"{latency} мс"
+    })
+# ============== ОСНОВНЫЕ ФУНКЦИИ ОБРАБОТКИ ==============
+def process_single_text(text: str, model_choice: str):
+    """Обработка одиночного текста."""
+    # Валидация
+    is_valid, result = validate_input(text)
+    if not is_valid:
+        return result, None, None, "—"
+    text = result
+    try:
+        # Загрузка модели и обработка
+        pipe = load_model(model_choice)
+        t0 = time.time()
+        raw_entities = pipe(text)
+        latency = round((time.time() - t0) * 1000, 1)
+        # Обработка результатов
+        entities = process_entities(raw_entities)
+        # Создание выходных данных
+        highlighted = create_highlighted_text(text, entities)
+        df = entities_to_dataframe(entities)
+        # Добавление в историю
+        add_to_history(text, model_choice, entities, latency)
+        status = f"Найдено сущностей: {len(entities)}"
+        return status, highlighted, df, f"{latency} мс"
+    except Exception as e:
+        return f"Ошибка: {type(e).__name__}: {e}", None, None, "—"
+def compare_models(text: str):
+    """Сравнение результатов двух моделей."""
+    # Валидация
+    is_valid, result = validate_input(text)
+    if not is_valid:
+        return result, None, None, "—", None, None, "—"
+    text = result
+    results = {}
+    try:
+        for model_key in MODELS.keys():
+            pipe = load_model(model_key)
+            t0 = time.time()
+            raw_entities = pipe(text)
+            latency = round((time.time() - t0) * 1000, 1)
+            entities = process_entities(raw_entities)
+            highlighted = create_highlighted_text(text, entities)
+            df = entities_to_dataframe(entities)
+            results[model_key] = {
+                "highlighted": highlighted,
+                "df": df,
+                "latency": f"{latency} мс",
+                "count": len(entities)
+            }
+        model_keys = list(MODELS.keys())
+        m1, m2 = model_keys[0], model_keys[1]
+        status = f"Модель 1: {results[m1]['count']} сущностей | Модель 2: {results[m2]['count']} сущностей"
+        return (
+            status,
+            results[m1]["highlighted"],
+            results[m1]["df"],
+            results[m1]["latency"],
+            results[m2]["highlighted"],
+            results[m2]["df"],
+            results[m2]["latency"]
+        )
+    except Exception as e:
+        error_msg = f"Ошибка: {type(e).__name__}: {e}"
+        return error_msg, None, None, "—", None, None, "—"
+def process_batch(file, model_choice: str):
+    """Пакетная обработка файла (CSV или TXT)."""
+    if file is None:
+        return "Ошибка: загрузите файл.", None, None
+    try:
+        # Определяем тип файла и читаем
+        file_path = file.name
+        if file_path.endswith('.csv'):
+            df_input = pd.read_csv(file_path)
+            if 'text' not in df_input.columns:
+                return "Ошибка: CSV должен содержать колонку 'text'.", None, None
+            texts = df_input['text'].tolist()
+        else:  # TXT
+            with open(file_path, 'r', encoding='utf-8') as f:
+                texts = [line.strip() for line in f if line.strip()]
+        if len(texts) > MAX_BATCH_ROWS:
+            return f"Ошибка: слишком много строк ({len(texts)}). Максимум: {MAX_BATCH_ROWS}.", None, None
+        if not texts:
+            return "Ошибка: файл пустой или не содержит текстов.", None, None
+        # Загрузка модели
+        pipe = load_model(model_choice)
+        # Обработка каждого текста
+        results = []
+        t0 = time.time()
+        for i, text in enumerate(texts):
+            if len(text) > MAX_CHARS:
+                text = text[:MAX_CHARS]
+            try:
+                raw_entities = pipe(text)
+                entities = process_entities(raw_entities)
+                # Собираем сущности по типам
+                per_list = [e["text"] for e in entities if e["type"] == "PER"]
+                org_list = [e["text"] for e in entities if e["type"] == "ORG"]
+                loc_list = [e["text"] for e in entities if e["type"] == "LOC"]
+                misc_list = [e["text"] for e in entities if e["type"] == "MISC"]
+                results.append({
+                    "№": i + 1,
+                    "Текст": text[:100] + "..." if len(text) > 100 else text,
+                    "PER": ", ".join(per_list) if per_list else "—",
+                    "ORG": ", ".join(org_list) if org_list else "—",
+                    "LOC": ", ".join(loc_list) if loc_list else "—",
+                    "MISC": ", ".join(misc_list) if misc_list else "—",
+                    "Всего": len(entities)
+                })
+            except Exception as e:
+                results.append({
+                    "№": i + 1,
+                    "Текст": text[:100] + "...",
+                    "PER": "ОШИБКА",
+                    "ORG": str(e)[:30],
+                    "LOC": "—",
+                    "MISC": "—",
+                    "Всего": 0
+                })
+        total_latency = round((time.time() - t0) * 1000, 1)
+        df_results = pd.DataFrame(results)
+        # Создаём CSV для скачивания
+        csv_buffer = io.StringIO()
+        df_results.to_csv(csv_buffer, index=False, encoding='utf-8')
+        csv_content = csv_buffer.getvalue()
+        status = f"Обработано: {len(texts)} текстов за {total_latency} мс"
+        return status, df_results, csv_content
+    except Exception as e:
+        return f"Ошибка: {type(e).__name__}: {e}", None, None
+def get_history_df():
+    """Получение истории запросов как DataFrame."""
+    if not history:
+        return pd.DataFrame(columns=["Время", "Модель", "Текст", "Найдено", "Типы", "Latency"])
+    return pd.DataFrame(list(history))
+def clear_history():
+    """Очистка истории запросов."""
+    history.clear()
+    return pd.DataFrame(columns=["Время", "Модель", "Текст", "Найдено", "Типы", "Latency"]), "История очищена"
+# ============== GRADIO ИНТЕРФЕЙС ==============
+def create_interface():
+    """Создание Gradio интерфейса."""
+    with gr.Blocks(
+        theme=gr.themes.Soft(),
+        title="Russian NER — Извлечение сущностей",
+        css="""
+        .entity-legend {
+            display: flex;
+            gap: 20px;
+            margin: 10px 0;
+            flex-wrap: wrap;
+        }
+        .entity-legend-item {
+            display: flex;
+            align-items: center;
+            gap: 5px;
+        }
+        .entity-color {
+            width: 16px;
+            height: 16px;
+            border-radius: 3px;
+        }
+        """
+    ) as demo:
+        # Заголовок
+        gr.Markdown("""
+        # Russian NER — Извлечение именованных сущностей
+        Приложение для автоматического извлечения именованных сущностей из русского текста:
+        **персоны (ФИО)**, **организации**, **локации (города, страны)** и **прочее**.
+        ---
+        """)
+        # Легенда цветов
+        gr.HTML("""
+        <div class="entity-legend">
+            <div class="entity-legend-item">
+                <div class="entity-color" style="background-color: #3b82f6;"></div>
+                <span><b>PER</b> — Персоны</span>
+            </div>
+            <div class="entity-legend-item">
+                <div class="entity-color" style="background-color: #22c55e;"></div>
+                <span><b>ORG</b> — Организации</span>
+            </div>
+            <div class="entity-legend-item">
+                <div class="entity-color" style="background-color: #f97316;"></div>
+                <span><b>LOC</b> — Локации</span>
+            </div>
+            <div class="entity-legend-item">
+                <div class="entity-color" style="background-color: #a855f7;"></div>
+                <span><b>MISC</b> — Прочее</span>
+            </div>
+        </div>
+        """)
+        with gr.Tabs():
+            # ==================== ВКЛАДКА 1: АНАЛИЗ ТЕКСТА ====================
+            with gr.Tab("Анализ текста"):
+                gr.Markdown("### Введите текст для извлечения сущностей")
+                with gr.Row():
+                    with gr.Column(scale=2):
+                        model_dropdown = gr.Dropdown(
+                            choices=list(MODELS.keys()),
+                            value=list(MODELS.keys())[0],
+                            label="Выберите модель NER",
+                            interactive=True
+                        )
+                    with gr.Column(scale=1):
+                        latency_box = gr.Textbox(
+                            label="Время обработки",
+                            value="—",
+                            interactive=False
+                        )
+                text_input = gr.Textbox(
+                    label=f"Текст для анализа (максимум {MAX_CHARS} символов)",
+                    placeholder="Введите или вставьте текст на русском языке...",
+                    lines=5
+                )
+                process_btn = gr.Button("Обработать", variant="primary", size="lg")
+                status_box = gr.Textbox(label="Статус", interactive=False)
+                gr.Markdown("### Результат с подсветкой сущностей")
+                highlighted_text = gr.HighlightedText(
+                    label="Найденные сущности в тексте",
+                    combine_adjacent=True,
+                    color_map=COLOR_MAP
+                )
+                gr.Markdown("### Таблица извлечённых сущностей")
+                entities_table = gr.Dataframe(
+                    headers=["Текст", "Тип", "Описание", "Уверенность"],
+                    label="Извлечённые сущности",
+                    wrap=True
+                )
+                # Обработчик
+                process_btn.click(
+                    fn=process_single_text,
+                    inputs=[text_input, model_dropdown],
+                    outputs=[status_box, highlighted_text, entities_table, latency_box]
+                )
+                # Примеры
+                gr.Markdown("### Примеры текстов")
+                gr.Examples(
+                    examples=[
+                        ["Владимир Путин встретился с президентом Франции Эммануэлем Макроном в Москве для обсуждения вопросов безопасности."],
+                        ["Компания Яндекс открыла новый офис в Санкт-Петербурге рядом с Невским проспектом."],
+                        ["Сбербанк и ВТБ объявили о запуске совместного проекта в Казани при поддержке Министерства финансов."],
+                        ["Иван Петров работает программистом в компании Mail.ru Group в Москве с 2020 года."],
+                        ["Александр Сергеевич Пушкин родился в Москве в 1799 году и стал величайшим русским поэтом."]
+                    ],
+                    inputs=text_input,
+                    label="Нажмите на пример для автозаполнения"
+                )
+            # ==================== ВКЛАДКА 2: СРАВНЕНИЕ МОДЕЛЕЙ ====================
+            with gr.Tab("Сравнение моделей"):
+                gr.Markdown("""
+                ### Сравнение результатов двух моделей
+                Введите текст, чтобы увидеть, как разные модели распознают сущности.
+                """)
+                compare_input = gr.Textbox(
+                    label=f"Текст для сравнения (максимум {MAX_CHARS} символов)",
+                    placeholder="Введите текст для сравнения моделей...",
+                    lines=4
+                )
+                compare_btn = gr.Button("Сравнить модели", variant="primary", size="lg")
+                compare_status = gr.Textbox(label="Статус сравнения", interactive=False)
+                model_keys = list(MODELS.keys())
+                with gr.Row():
+                    with gr.Column():
+                        gr.Markdown(f"#### {model_keys[0]}")
+                        highlight_1 = gr.HighlightedText(
+                            label="Результат модели 1",
+                            color_map=COLOR_MAP
+                        )
+                        table_1 = gr.Dataframe(label="Сущности (модель 1)")
+                        latency_1 = gr.Textbox(label="Время", interactive=False)
+                    with gr.Column():
+                        gr.Markdown(f"#### {model_keys[1]}")
+                        highlight_2 = gr.HighlightedText(
+                            label="Результат модели 2",
+                            color_map=COLOR_MAP
+                        )
+                        table_2 = gr.Dataframe(label="Сущно��ти (модель 2)")
+                        latency_2 = gr.Textbox(label="Время", interactive=False)
+                compare_btn.click(
+                    fn=compare_models,
+                    inputs=[compare_input],
+                    outputs=[compare_status, highlight_1, table_1, latency_1, highlight_2, table_2, latency_2]
+                )
+            # ==================== ВКЛАДКА 3: ПАКЕТНАЯ ОБРАБОТКА ====================
+            with gr.Tab("Пакетная обработка"):
+                gr.Markdown(f"""
+                ### Массовая обработка текстов из файла
+                Загрузите файл **CSV** (с колонкой `text`) или **TXT** (каждая строка — отдельный текст).
+                **Ограничения:** максимум {MAX_BATCH_ROWS} строк, {MAX_CHARS} символов на текст.
+                """)
+                with gr.Row():
+                    batch_model = gr.Dropdown(
+                        choices=list(MODELS.keys()),
+                        value=list(MODELS.keys())[0],
+                        label="Модель для обработки"
+                    )
+                    batch_file = gr.File(
+                        label="Загрузите CSV или TXT файл",
+                        file_types=[".csv", ".txt"]
+                    )
+                batch_btn = gr.Button("Обработать файл", variant="primary", size="lg")
+                batch_status = gr.Textbox(label="Статус обработки", interactive=False)
+                batch_results = gr.Dataframe(
+                    label="Результаты обработки",
+                    wrap=True
+                )
+                batch_download = gr.Textbox(
+                    label="CSV для скачивания (скопируйте содержимое)",
+                    lines=5,
+                    visible=True
+                )
+                batch_btn.click(
+                    fn=process_batch,
+                    inputs=[batch_file, batch_model],
+                    outputs=[batch_status, batch_results, batch_download]
+                )
+            # ==================== ВКЛАДКА 4: ИСТОРИЯ ====================
+            with gr.Tab("История запросов"):
+                gr.Markdown(f"""
+                ### История последних {HISTORY_SIZE} запросов
+                Здесь отображаются ваши недавние запросы с результатами.
+                """)
+                refresh_btn = gr.Button("Обновить историю", variant="secondary")
+                clear_btn = gr.Button("Очистить историю", variant="stop")
+                history_status = gr.Textbox(label="Статус", interactive=False, visible=False)
+                history_table = gr.Dataframe(
+                    label="История запросов",
+                    headers=["Время", "Модель", "Текст", "Найдено", "Типы", "Latency"],
+                    wrap=True
+                )
+                refresh_btn.click(
+                    fn=get_history_df,
+                    outputs=[history_table]
+                )
+                clear_btn.click(
+                    fn=clear_history,
+                    outputs=[history_table, history_status]
+                )
+        # Футер
+        gr.Markdown("""
+        ---
+        **Модели:**
+        - [Babelscape/wikineural-multilingual-ner](https://huggingface.co/Babelscape/wikineural-multilingual-ner) — мультиязычная модель NER
+        - [Davlan/xlm-roberta-base-ner-hrl](https://huggingface.co/Davlan/xlm-roberta-base-ner-hrl) — XLM-RoBERTa для NER
+        **Ограничения:** CPU-режим, максимум 2000 символов на текст.
+        **Внимание:** Не вводите реальные персональные данные в демонстрационных целях.
+        """)
+    return demo
+# ============== ЗАПУСК ==============
+if __name__ == "__main__":
+    demo = create_interface()
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+gradio>=4.0.0
+transformers>=4.35.0
+torch>=2.0.0
+pandas>=2.0.0