KazNU-OCR-Layout

YOLOv8-модель для layout detection (определения структурных блоков) страниц казахской университетской газеты «Qazaq Universiteti». Часть пайплайна hybrid active learning newspaper OCR: модель находит на странице заголовки, колонки текста, фотографии, авторов и другие блоки — это первый шаг перед OCR-распознаванием текста.

Подробности подхода: см. hybrid_active_learning_newspaper_ocr.md в исходном репозитории на GitHub (ссылка появится после публикации).

Версии

Все три версии — это последовательные итерации одного active learning цикла. Каждая следующая версия обучена на расширенном/исправленном датасете.

Версия Train/Val страниц Классов mAP50 (overall) Что изменилось
v1_retry 40/10 11 0.614 Первая модель, эталонная разметка 50 страниц
v2 51/14 11 0.890 + 15 доразмеченных сложных страниц (фоторепортажи)
v3 51/14 9 0.958 Убраны редкие шумные классы caption, continuation_marker

Рекомендуется использовать v3 — самая точная и стабильная версия.

Классы (v3)

0: headline      — заголовок статьи
1: text_column   — колонка текста
2: photo         — фотография/иллюстрация
3: author        — автор статьи
4: page_number   — номер страницы
5: masthead      — шапка газеты
6: footer        — футер страницы
7: teaser        — анонс другой статьи
8: junk          — мусор, декоративные элементы

Метрики v3 (per-class mAP50)

Класс mAP50
headline 0.952
text_column 0.984
photo 0.964
author 0.904
masthead 0.990
footer 0.995
teaser 0.913

Использование

from ultralytics import YOLO

model = YOLO("v3/best.pt")
results = model("page.png")

for box in results[0].boxes:
    cls_name = model.names[int(box.cls)]
    conf = float(box.conf)
    print(f"{cls_name}: {conf:.3f}")

Ограничения

  • Обучена и протестирована только на издании «Qazaq Universiteti» (вёрстка InDesign, казахский язык). Перенос на другие газеты/вёрстки не гарантирован без доразметки.
  • Малый датасет (65 страниц) — редкие на странице элементы (например, таблицы, рекламные блоки) могут распознаваться нестабильно.
  • Не делает OCR текста — только находит и классифицирует блоки макета.
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support