Local_OCR_Demo / OCR_ANALYSIS_REPORT.md
DocUA's picture
Initial commit: DeepSeek-OCR-2 & MedGemma-1.5 multimodal analysis app with ZeroGPU support
b752d16

A newer version of the Gradio SDK is available: 6.14.0

Upgrade

Аналіз продуктивності та точності DeepSeek-OCR-2

Дата: 28 січня 2026
Тестовий файл: doc_for_testing/pdf12_un.pdf (13 сторінок)
Середовище: Apple M3 Max (CPU Inference, float32)


1. Аналіз точності (Accuracy)

Загальна оцінка: 8/10

Модель демонструє високий рівень розуміння контексту тa структури документа, але має специфічні проблеми, характерні для Великих Мовних Моделей (LLM).

✅ Сильні сторони

  • Глибоке розуміння контексту: Модель чудово розрізняє секції документа ("Impression", "Plan", "Vitals"). Вихідний формат Markdown чистий і готовий до використання.
  • Медична термінологія: Специфічні терміни розпізнані майже бездоганно (напр., Gastroesophageal reflux disease, Cholecystectomy, Tissue Transglutaminase).
  • Робота з таблицями: Модель коректно перетворює візуальні таблиці у Markdown-таблиці, зберігаючи логічний зв'язок даних.
  • Стійкість до шумів: Добре справляється з різними шрифтами та форматуванням.

⚠️ Критичні проблеми (Слабкі сторони)

  • Галюцинації у власних назвах (Hallucinations): Це найсерйозніша проблема. Модель схильна "додумувати" назви брендів чи організацій, якщо текст нечіткий або логотип складний.
    • Atrium Health $\rightarrow$ розпізнано як "Arthur Health".
    • Carolina Imaging Services $\rightarrow$ розпізнано як "Carlos Alings Ingegvers".
  • Дрібні помилки розпізнавання:
    • Post-menopausal $\rightarrow$ "Pilot-menopausal".
    • Дублювання відповідей у чек-лістах (напр., "No No" замість "No").

2. Аналіз швидкості (Performance)

Загальна оцінка (CPU): 6/10

Швидкість тестувалася на CPU через обмежену підтримку MPS (Metal Performance Shaders) для специфічних шарів MoE (Mixture of Experts) у поточній версії коду DeepSeek.

  • Середній час на сторінку: ~19-20 секунд.
    • Найшвидша: ~7.4 с (сторінки з малою кількістю тексту).
    • Найповільніша: ~29 с (насичені сторінки).
  • Повний цикл (13 сторінок): ~4.5 - 5 хвилин.

Висновок по швидкості: На CPU модель придатна лише для фонової пакетної обробки (batch processing). Для інтерактивної роботи (real-time) швидкість є недостатньою.


3. Рекомендації

Для покращення точності:

  1. Пост-обробка (Post-processing): Впровадити словник-валідатор для критично важливих сутностей (Known Entities). Наприклад, автоматична заміна "Arthur Health" на "Atrium Health" на основі списку відомих клінік.
  2. Гібридний підхід: Використовувати класичний OCR (наприклад, Tesseract або PaddleOCR) для витягування точних назв ("сирого тексту"), а DeepSeek-OCR-2 використовувати для структурування та розуміння семантики.

Для покращення швидкості:

  1. GPU Інференс: Перехід на NVIDIA GPU (CUDA) є обов'язковим для продакшн-середовища. Це дозволить прискорити обробку в 10-20 разів (до ~1-2 секунд на сторінку).
  2. Квантування (Quantization): Розглянути можливість використання 4-bit або 8-bit квантування (GGUF/AWQ), якщо точність не постраждає критично. Це значно прискорить роботу навіть на CPU/Mac.

Цільове використання:

DeepSeek-OCR-2 ідеально підходить для ETL-процесів (Extract, Transform, Load), де потрібно перетворити неструктуровані PDF/Зображення у структуровані дані (JSON/Markdown) для подальшого аналізу. Вона менш придатна для задач, де потрібна 100% посимвольна точність без "творчості" (наприклад, розпізнавання кодів чи серійних номерів).