Update README.md

9ad178c verified 2 days ago

11.3 kB

license: apache-2.0
language:
  - ru
  - en
base_model:
  - facebook/convnext-tiny-224
  - facebook/dinov2-small
pipeline_tag: image-classification
tags:
  - manuscript
  - bookbinding
  - cultural-heritage
  - digital-humanities
  - convnext
  - fine-tuned
library_name: timm

Kleine-Marchen — Binding Detector (ConvNeXt-Tiny)

Модель на базе ConvNeXt-Tiny (ImageNet-22k) для определения является ли изображение фотографией переплёта рукописи.

Используется как первая ступень в двухэтапном пайплайне классификации переплётов рукописей РГБ.

Назначение

Бинарная классификация:

Класс 1 — переплёт: изображение является фотографией крышки переплёта рукописи
Класс 0 — не переплёт: страница текста, разворот, предметная съёмка и т.д.

Модель решает задачу фильтрации при массовом скачивании изображений из цифровых архивов рукописей, где первые страницы оцифровки содержат как переплёты, так и текстовые страницы.

Метрики

Метрика	Значение
Accuracy (валидация)	96%

Данные

Источник: фотографии из фондов РГБ
Размер: ~500 изображений на каждый класс
Классы: переплёт / не переплёт (страницы текста, развороты)
Разрешение при обучении: 320×320 px

Архитектура

Базовая модель: convnext_tiny.fb_in22k (ImageNet-22k pretrain, 28M параметров)

Стратегия обучения: обучение только классификационной головы при замороженном бэкбоне.

Использование

Готовые скрипты доступны в репозитории:

https://github.com/Infarondus/Kleine-marchen

Быстрый старт

import torch
import timm
import numpy as np
from PIL import Image
import albumentations as A
from albumentations.pytorch import ToTensorV2

IMAGE_SIZE = 320

transform = A.Compose([
    A.LongestMaxSize(max_size=IMAGE_SIZE),
    A.PadIfNeeded(min_height=IMAGE_SIZE, min_width=IMAGE_SIZE,
                  border_mode=0, value=[255, 255, 255]),
    A.Normalize(mean=[0.485, 0.456, 0.406],
                std=[0.229, 0.224, 0.225]),
    ToTensorV2(),
])

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model  = timm.create_model('convnext_tiny_in22k', pretrained=False, num_classes=2)
ckpt   = torch.load('kleine-marchen_preprocess.pth', map_location=device, weights_only=False)
model.load_state_dict(ckpt['model_state_dict'])
model.to(device).eval()

img    = np.array(Image.open('page.jpg').convert('RGB'))
tensor = transform(image=img)['image'].unsqueeze(0).to(device)
with torch.no_grad():
    probs = torch.softmax(model(tensor), dim=1)[0]

print(f"Не переплёт: {probs[0]:.1%} | Переплёт: {probs[1]:.1%}")

Место в пайплайне

Эта модель используется совместно с binding-srednik-dinov2:

Изображение → [ConvNeXt: переплёт?] → [DINOv2: есть средник?] → Результат

Скрипт двухступенчатого скрапера scrape_bindings_v2.py из репозитория Kleine-Marchen реализует этот пайплайн полностью.

Ограничения

Не предназначена для определения типа переплёта или его элементов — только факт наличия переплёта на снимке
При сильно нестандартных условиях съёмки (белый фон, крупный план фрагмента) точность может снижаться

Kleine-Marchen — Binding Srednik Detector (DINOv2 Ensemble)

Ансамбль из 5 моделей на базе DINOv2 ViT-Small для классификации переплётов рукописей по наличию средника — центрального декоративного элемента крышки переплёта.

Модель разработана в рамках исследования рукописного фонда Российской государственной библиотеки (РГБ).

Назначение

Модель решает задачу бинарной классификации изображений переплётов:

Класс 1 — со средником: на крышке переплёта присутствует средник
Класс 0 — без средника: средник отсутствует

Модель предназначена для автоматической предварительной сортировки больших коллекций фотографий переплётов рукописей. Окончательная верификация результатов производится специалистом.

Метрики

Оценка проводилась методом 5-fold стратифицированной кросс-валидации.

Метрика	Значение
Accuracy (OOF Ensemble)	94.50%
F1-macro (OOF Ensemble)	0.9450
Precision	0.9454
Recall	0.9450

Confusion Matrix (OOF, все 5 фолдов):

	Предсказано: без средника	Предсказано: со средником
Реально: без средника	471	20
Реально: со средником	34	457

Данные

Источник: фотографии переплётов рукописей из фондов РГБ
Размер обучающей выборки: 567 изображений на каждый класс (1134 итого)
Формат: цветные фотографии переплётов на тёмном фоне
Разрешение при обучении: 280×280 px

Датасет собирался итеративно: после каждого цикла обучения производился анализ ошибок и доразметка сложных случаев (изношенные переплёты, пограничные экземпляры).

Архитектура

Базовая модель: vit_small_patch14_dinov2.lvd142m (DINOv2 ViT-Small, 22M параметров)

Голова классификатора:

LayerNorm(384) → Linear(384→256) → GELU → Dropout(0.3) → Linear(256→2)

Стратегия обучения: двухфазный fine-tuning

Фаза 1 (6 эпох): обучение только головы, LR = 5e-4
Фаза 2 (20 эпох): голова + последние 4 блока ViT, дифференциальный LR (голова: 3e-5, бэкбон: 2e-6)

Ансамбль: 5 моделей (по одной на каждый фолд) с усреднением вероятностей + TTA (5 аугментаций)

Использование

Готовые скрипты для обучения, оценки и инференса доступны в репозитории:

https://github.com/Infarondus/Kleine-marchen

Быстрый старт

import torch
import torch.nn as nn
import torch.nn.functional as F
import timm
import numpy as np
from PIL import Image
import albumentations as A
from albumentations.pytorch import ToTensorV2

MODEL_NAME   = 'vit_small_patch14_dinov2.lvd142m'
IMAGE_SIZE   = 280
DINO_MEAN    = [0.485, 0.456, 0.406]
DINO_STD     = [0.229, 0.224, 0.225]

def build_model():
    backbone = timm.create_model(
        MODEL_NAME, pretrained=False, num_classes=0,
        img_size=IMAGE_SIZE, dynamic_img_size=True,
    )
    head = nn.Sequential(
        nn.LayerNorm(backbone.embed_dim),
        nn.Linear(backbone.embed_dim, 256),
        nn.GELU(),
        nn.Dropout(0.3),
        nn.Linear(256, 2),
    )
    class DinoClassifier(nn.Module):
        def __init__(self, b, h):
            super().__init__()
            self.backbone, self.head = b, h
        def forward(self, x):
            return self.head(self.backbone(x))
    return DinoClassifier(backbone, head)

transform = A.Compose([
    A.LongestMaxSize(max_size=IMAGE_SIZE),
    A.PadIfNeeded(min_height=IMAGE_SIZE, min_width=IMAGE_SIZE,
                  border_mode=0, value=[255, 255, 255]),
    A.Normalize(mean=DINO_MEAN, std=DINO_STD),
    ToTensorV2(),
])

# Загрузка модели
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model  = build_model().to(device)
ckpt   = torch.load('fold_1_km.pth', map_location=device, weights_only=False)
model.load_state_dict(ckpt['model_state_dict'])
model.eval()

# Инференс
img    = np.array(Image.open('binding.jpg').convert('RGB'))
tensor = transform(image=img)['image'].unsqueeze(0).to(device)
with torch.no_grad():
    probs = F.softmax(model(tensor), dim=1)[0]

print(f"Без средника: {probs[0]:.1%} | Со средником: {probs[1]:.1%}")

Ограничения

Модель обучена на фотографиях переплётов РГБ и может хуже работать на изображениях из других коллекций (domain shift)
Сильно изношенные переплёты с плохо читаемым средником являются наиболее сложными случаями
Не предназначена для работы с изображениями страниц, не являющихся переплётами — для фильтрации используйте модель binding-detector-convnext на первом этапе

Цитирование

Если вы используете эту модель в исследовании, пожалуйста, укажите репозиторий:

@misc{kleine-marchen-binding,
  author = {Infarondus},
  title  = {Kleine-Marchen — Binding Detector (ConvNeXt-Tiny)},
  year   = {2026},
  url    = {https://github.com/Infarondus/Kleine-marchen_Base}
}

Infarondus
/

Klein-marchen_Base

Kleine-Marchen — Binding Detector (ConvNeXt-Tiny)

Назначение

Метрики

Данные

Архитектура

Использование

Быстрый старт

Место в пайплайне

Ограничения

Kleine-Marchen — Binding Srednik Detector (DINOv2 Ensemble)

Назначение

Метрики

Данные

Архитектура

Использование

Быстрый старт

Рекомендуемый порог

Ограничения

Цитирование