Infarondus
/

Klein-marchen_Base

+---
+license: apache-2.0
+language:
+- ru
+- en
+base_model:
+- facebook/convnext-tiny-224
+pipeline_tag: image-classification
+tags:
+- manuscript
+- bookbinding
+- cultural-heritage
+- digital-humanities
+- convnext
+- fine-tuned
+library_name: timm
+---
+# Kleine-Marchen — Binding Detector (ConvNeXt-Tiny)
+Модель на базе **ConvNeXt-Tiny (ImageNet-22k)** для определения является ли изображение фотографией переплёта рукописи.
+Используется как **первая ступень** в двухэтапном пайплайне классификации переплётов рукописей РГБ.
+---
+## Назначение
+Бинарная классификация:
+- **Класс 1 — переплёт**: изображение является фотографией крышки переплёта рукописи
+- **Класс 0 — не переплёт**: страница текста, разворот, предметная съёмка и т.д.
+Модель решает задачу фильтрации при массовом скачивании изображений из цифровых архивов рукописей, где первые страницы оцифровки содержат как переплёты, так и текстовые страницы.
+---
+## Метрики
+| Метрика | Значение |
+|---|---|
+| Accuracy (валидация) | **96%** |
+---
+## Данные
+- **Источник**: фотографии из фондов РГБ
+- **Размер**: ~500 изображений на каждый класс
+- **Классы**: переплёт / не переплёт (страницы текста, развороты)
+- **Разрешение при обучении**: 320×320 px
+---
+## Архитектура
+**Базовая модель**: `convnext_tiny.fb_in22k` (ImageNet-22k pretrain, 28M параметров)
+**Стратегия обучения**: обучение только классификационной головы при замороженном бэкбоне. Подход оправдан для задачи «переплёт vs не-переплёт» — ImageNet-22k фичи достаточно различимы для такого крупного визуального различия без fine-tuning бэкбона.
+---
+## Использование
+Готовые скрипты доступны в репозитории:
+**[https://github.com/Infarondus/Kleine-marchen](https://github.com/Infarondus/Kleine-marchen)**
+### Быстрый старт
+```python
+import torch
+import timm
+import numpy as np
+from PIL import Image
+import albumentations as A
+from albumentations.pytorch import ToTensorV2
+IMAGE_SIZE = 320
+transform = A.Compose([
+    A.LongestMaxSize(max_size=IMAGE_SIZE),
+    A.PadIfNeeded(min_height=IMAGE_SIZE, min_width=IMAGE_SIZE,
+                  border_mode=0, value=[255, 255, 255]),
+    A.Normalize(mean=[0.485, 0.456, 0.406],
+                std=[0.229, 0.224, 0.225]),
+    ToTensorV2(),
+])
+device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+model  = timm.create_model('convnext_tiny_in22k', pretrained=False, num_classes=2)
+ckpt   = torch.load('kleine-marchen_preprocess.pth', map_location=device, weights_only=False)
+model.load_state_dict(ckpt['model_state_dict'])
+model.to(device).eval()
+img    = np.array(Image.open('page.jpg').convert('RGB'))
+tensor = transform(image=img)['image'].unsqueeze(0).to(device)
+with torch.no_grad():
+    probs = torch.softmax(model(tensor), dim=1)[0]
+print(f"Не переплёт: {probs[0]:.1%} | Переплёт: {probs[1]:.1%}")
+```
+---
+## Место в пайплайне
+Эта модель используется совместно с `binding-srednik-dinov2`:
+```
+Изображение → [ConvNeXt: переплёт?] → [DINOv2: есть средник?] → Результат
+```
+Скрипт двухступенчатого скрапера `scrape_bindings_v2.py` из репозитория **Kleine-Marchen** реализует этот пайплайн полностью.
+---
+## Ограничения
+- Не предназначена для определения типа переплёта или его элементов — только факт наличия переплёта на снимке
+- При сильно нестандартных условиях съёмки (белый фон, крупный план фрагмента) точность может снижаться
+---
+## Цитирование
+```
+@misc{kleine-marchen-binding,
+  author = {Infarondus},
+  title  = {Kleine-Marchen — Binding Detector (ConvNeXt-Tiny)},
+  year   = {2025},
+  url    = {https://github.com/Infarondus/Kleine-marchen}
+}
+```

README_dinov2_srednik.md ADDED Viewed

	@@ -0,0 +1,178 @@

+---
+license: apache-2.0
+language:
+- ru
+- en
+base_model:
+- facebook/dinov2-small
+pipeline_tag: image-classification
+tags:
+- manuscript
+- bookbinding
+- cultural-heritage
+- digital-humanities
+- convnext
+- fine-tuned
+library_name: timm
+---
+# Kleine-Marchen — Binding Srednik Detector (DINOv2 Ensemble)
+Ансамбль из 5 моделей на базе **DINOv2 ViT-Small** для классификации переплётов рукописей по наличию **средника** — центрального декоративного элемента крышки переплёта.
+Модель разработана в рамках исследования рукописного фонда Российской государственной библиотеки (РГБ).
+---
+## Назначение
+Модель решает задачу бинарной классификации изображений переплётов:
+- **Класс 1 — со средником**: на крышке переплёта присутствует средник
+- **Класс 0 — без средника**: средник отсутствует
+Модель предназначена для автоматической предварительной сортировки больших коллекций фотографий переплётов рукописей. Окончательная верификация результатов производится специалистом.
+---
+## Метрики
+Оценка проводилась методом 5-fold стратифицированной кросс-валидации.
+| Метрика | Значение |
+|---|---|
+| Accuracy (OOF Ensemble) | **94.50%** |
+| F1-macro (OOF Ensemble) | **0.9450** |
+| Precision | 0.9454 |
+| Recall | 0.9450 |
+**Confusion Matrix (OOF, все 5 фолдов):**
+|  | Предсказано: без средника | Предсказано: со средником |
+|---|---|---|
+| **Реально: без средника** | 471 | 20 |
+| **Реально: со средником** | 34 | 457 |
+---
+## Данные
+- **Источник**: фотографии переплётов рукописей из фондов РГБ
+- **Размер обучающей выборки**: 567 изображений на каждый класс (1134 итого)
+- **Формат**: цветные фотографии переплётов на тёмном фоне
+- **Разрешение при обучении**: 280×280 px
+Датасет собирался итеративно: после каждого цикла обучения производился анализ ошибок и доразметка сложных случаев (изношенные переплёты, пограничные экземпляры).
+---
+## Архитектура
+**Базовая модель**: `vit_small_patch14_dinov2.lvd142m` (DINOv2 ViT-Small, 22M параметров)
+**Голова классификатора**:
+```
+LayerNorm(384) → Linear(384→256) → GELU → Dropout(0.3) → Linear(256→2)
+```
+**Стратегия обучения**: двухфазный fine-tuning
+- Фаза 1 (6 эпох): обучение только головы, LR = 5e-4
+- Фаза 2 (20 эпох): голова + последние 4 блока ViT, дифференциальный LR (голова: 3e-5, бэкбон: 2e-6)
+**Ансамбль**: 5 моделей (по одной на каждый фолд) с усреднением вероятностей + TTA (5 аугментаций)
+---
+## Использование
+Готовые скрипты для обучения, оценки и инференса доступны в репозитории:
+**[https://github.com/Infarondus/Kleine-marchen](https://github.com/Infarondus/Kleine-marchen)**
+### Быстрый старт
+```python
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import timm
+import numpy as np
+from PIL import Image
+import albumentations as A
+from albumentations.pytorch import ToTensorV2
+MODEL_NAME   = 'vit_small_patch14_dinov2.lvd142m'
+IMAGE_SIZE   = 280
+DINO_MEAN    = [0.485, 0.456, 0.406]
+DINO_STD     = [0.229, 0.224, 0.225]
+def build_model():
+    backbone = timm.create_model(
+        MODEL_NAME, pretrained=False, num_classes=0,
+        img_size=IMAGE_SIZE, dynamic_img_size=True,
+    )
+    head = nn.Sequential(
+        nn.LayerNorm(backbone.embed_dim),
+        nn.Linear(backbone.embed_dim, 256),
+        nn.GELU(),
+        nn.Dropout(0.3),
+        nn.Linear(256, 2),
+    )
+    class DinoClassifier(nn.Module):
+        def __init__(self, b, h):
+            super().__init__()
+            self.backbone, self.head = b, h
+        def forward(self, x):
+            return self.head(self.backbone(x))
+    return DinoClassifier(backbone, head)
+transform = A.Compose([
+    A.LongestMaxSize(max_size=IMAGE_SIZE),
+    A.PadIfNeeded(min_height=IMAGE_SIZE, min_width=IMAGE_SIZE,
+                  border_mode=0, value=[255, 255, 255]),
+    A.Normalize(mean=DINO_MEAN, std=DINO_STD),
+    ToTensorV2(),
+])
+# Загрузка модели
+device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+model  = build_model().to(device)
+ckpt   = torch.load('fold_1_km.pth', map_location=device, weights_only=False)
+model.load_state_dict(ckpt['model_state_dict'])
+model.eval()
+# Инференс
+img    = np.array(Image.open('binding.jpg').convert('RGB'))
+tensor = transform(image=img)['image'].unsqueeze(0).to(device)
+with torch.no_grad():
+    probs = F.softmax(model(tensor), dim=1)[0]
+print(f"Без средника: {probs[0]:.1%} | Со средником: {probs[1]:.1%}")
+```
+### Рекомендуемый порог
+При использовании ансамбля рекомендуется порог **0.55–0.75** для класса «со средником» в зависимости от допустимого уровня ложных срабатываний.
+---
+## Ограничения
+- Модель обучена на фотографиях переплётов РГБ и может хуже работать на изображениях из других коллекций (domain shift)
+- Сильно изношенные переплёты с плохо читаемым средником являются наиболее сложными случаями
+- Не предназначена для работы с изображениями страниц, не являющихся переплётами — для фильтрации используйте модель `binding-detector-convnext` на первом этапе
+---
+## Цитирование
+Если вы используете эту модель в исследовании, пожалуйста укажите репозиторий:
+```
+@misc{kleine-marchen-srednik,
+  author = {Infarondus},
+  title  = {Kleine-Marchen — Binding Srednik Detector (DINOv2 Ensemble)},
+  year   = {2025},
+  url    = {https://github.com/Infarondus/Kleine-marchen}
+}
+```