Spaces:

DocUA
/

Local_OCR_Demo

Sleeping

App Files Files Community

Local_OCR_Demo / OCR_ANALYSIS_REPORT.md

DocUA

Initial commit: DeepSeek-OCR-2 & MedGemma-1.5 multimodal analysis app with ZeroGPU support

b752d16 3 months ago

preview code

raw

history blame contribute delete

5.37 kB

A newer version of the Gradio SDK is available: 6.14.0

Upgrade

Аналіз продуктивності та точності DeepSeek-OCR-2

Дата: 28 січня 2026
Тестовий файл: doc_for_testing/pdf12_un.pdf (13 сторінок)
Середовище: Apple M3 Max (CPU Inference, float32)

1. Аналіз точності (Accuracy)

Загальна оцінка: 8/10

Модель демонструє високий рівень розуміння контексту тa структури документа, але має специфічні проблеми, характерні для Великих Мовних Моделей (LLM).

✅ Сильні сторони

Глибоке розуміння контексту: Модель чудово розрізняє секції документа ("Impression", "Plan", "Vitals"). Вихідний формат Markdown чистий і готовий до використання.
Медична термінологія: Специфічні терміни розпізнані майже бездоганно (напр., Gastroesophageal reflux disease, Cholecystectomy, Tissue Transglutaminase).
Робота з таблицями: Модель коректно перетворює візуальні таблиці у Markdown-таблиці, зберігаючи логічний зв'язок даних.
Стійкість до шумів: Добре справляється з різними шрифтами та форматуванням.

⚠️ Критичні проблеми (Слабкі сторони)

Галюцинації у власних назвах (Hallucinations): Це найсерйозніша проблема. Модель схильна "додумувати" назви брендів чи організацій, якщо текст нечіткий або логотип складний.
- Atrium Health $\rightarrow$ розпізнано як "Arthur Health".
- Carolina Imaging Services $\rightarrow$ розпізнано як "Carlos Alings Ingegvers".
Дрібні помилки розпізнавання:
- Post-menopausal $\rightarrow$ "Pilot-menopausal".
- Дублювання відповідей у чек-лістах (напр., "No No" замість "No").

2. Аналіз швидкості (Performance)

Загальна оцінка (CPU): 6/10

Швидкість тестувалася на CPU через обмежену підтримку MPS (Metal Performance Shaders) для специфічних шарів MoE (Mixture of Experts) у поточній версії коду DeepSeek.

Середній час на сторінку: ~19-20 секунд.
- Найшвидша: ~7.4 с (сторінки з малою кількістю тексту).
- Найповільніша: ~29 с (насичені сторінки).
Повний цикл (13 сторінок): ~4.5 - 5 хвилин.

Висновок по швидкості: На CPU модель придатна лише для фонової пакетної обробки (batch processing). Для інтерактивної роботи (real-time) швидкість є недостатньою.

3. Рекомендації

Для покращення точності:

Пост-обробка (Post-processing): Впровадити словник-валідатор для критично важливих сутностей (Known Entities). Наприклад, автоматична заміна "Arthur Health" на "Atrium Health" на основі списку відомих клінік.
Гібридний підхід: Використовувати класичний OCR (наприклад, Tesseract або PaddleOCR) для витягування точних назв ("сирого тексту"), а DeepSeek-OCR-2 використовувати для структурування та розуміння семантики.

Для покращення швидкості:

GPU Інференс: Перехід на NVIDIA GPU (CUDA) є обов'язковим для продакшн-середовища. Це дозволить прискорити обробку в 10-20 разів (до ~1-2 секунд на сторінку).
Квантування (Quantization): Розглянути можливість використання 4-bit або 8-bit квантування (GGUF/AWQ), якщо точність не постраждає критично. Це значно прискорить роботу навіть на CPU/Mac.

Цільове використання:

DeepSeek-OCR-2 ідеально підходить для ETL-процесів (Extract, Transform, Load), де потрібно перетворити неструктуровані PDF/Зображення у структуровані дані (JSON/Markdown) для подальшого аналізу. Вона менш придатна для задач, де потрібна 100% посимвольна точність без "творчості" (наприклад, розпізнавання кодів чи серійних номерів).