Spaces:
Sleeping
A newer version of the Gradio SDK is available: 6.14.0
Аналіз продуктивності та точності DeepSeek-OCR-2
Дата: 28 січня 2026
Тестовий файл: doc_for_testing/pdf12_un.pdf (13 сторінок)
Середовище: Apple M3 Max (CPU Inference, float32)
1. Аналіз точності (Accuracy)
Загальна оцінка: 8/10
Модель демонструє високий рівень розуміння контексту тa структури документа, але має специфічні проблеми, характерні для Великих Мовних Моделей (LLM).
✅ Сильні сторони
- Глибоке розуміння контексту: Модель чудово розрізняє секції документа ("Impression", "Plan", "Vitals"). Вихідний формат Markdown чистий і готовий до використання.
- Медична термінологія: Специфічні терміни розпізнані майже бездоганно (напр., Gastroesophageal reflux disease, Cholecystectomy, Tissue Transglutaminase).
- Робота з таблицями: Модель коректно перетворює візуальні таблиці у Markdown-таблиці, зберігаючи логічний зв'язок даних.
- Стійкість до шумів: Добре справляється з різними шрифтами та форматуванням.
⚠️ Критичні проблеми (Слабкі сторони)
- Галюцинації у власних назвах (Hallucinations): Це найсерйозніша проблема. Модель схильна "додумувати" назви брендів чи організацій, якщо текст нечіткий або логотип складний.
- Atrium Health $\rightarrow$ розпізнано як "Arthur Health".
- Carolina Imaging Services $\rightarrow$ розпізнано як "Carlos Alings Ingegvers".
- Дрібні помилки розпізнавання:
- Post-menopausal $\rightarrow$ "Pilot-menopausal".
- Дублювання відповідей у чек-лістах (напр., "No No" замість "No").
2. Аналіз швидкості (Performance)
Загальна оцінка (CPU): 6/10
Швидкість тестувалася на CPU через обмежену підтримку MPS (Metal Performance Shaders) для специфічних шарів MoE (Mixture of Experts) у поточній версії коду DeepSeek.
- Середній час на сторінку: ~19-20 секунд.
- Найшвидша: ~7.4 с (сторінки з малою кількістю тексту).
- Найповільніша: ~29 с (насичені сторінки).
- Повний цикл (13 сторінок): ~4.5 - 5 хвилин.
Висновок по швидкості: На CPU модель придатна лише для фонової пакетної обробки (batch processing). Для інтерактивної роботи (real-time) швидкість є недостатньою.
3. Рекомендації
Для покращення точності:
- Пост-обробка (Post-processing): Впровадити словник-валідатор для критично важливих сутностей (Known Entities). Наприклад, автоматична заміна "Arthur Health" на "Atrium Health" на основі списку відомих клінік.
- Гібридний підхід: Використовувати класичний OCR (наприклад, Tesseract або PaddleOCR) для витягування точних назв ("сирого тексту"), а DeepSeek-OCR-2 використовувати для структурування та розуміння семантики.
Для покращення швидкості:
- GPU Інференс: Перехід на NVIDIA GPU (CUDA) є обов'язковим для продакшн-середовища. Це дозволить прискорити обробку в 10-20 разів (до ~1-2 секунд на сторінку).
- Квантування (Quantization): Розглянути можливість використання 4-bit або 8-bit квантування (GGUF/AWQ), якщо точність не постраждає критично. Це значно прискорить роботу навіть на CPU/Mac.
Цільове використання:
DeepSeek-OCR-2 ідеально підходить для ETL-процесів (Extract, Transform, Load), де потрібно перетворити неструктуровані PDF/Зображення у структуровані дані (JSON/Markdown) для подальшого аналізу. Вона менш придатна для задач, де потрібна 100% посимвольна точність без "творчості" (наприклад, розпізнавання кодів чи серійних номерів).