DocUA commited on
Commit
9c73ccb
·
1 Parent(s): b752d16

Update README with HF metadata and add remote

Browse files
Files changed (1) hide show
  1. README.md +22 -46
README.md CHANGED
@@ -1,3 +1,15 @@
 
 
 
 
 
 
 
 
 
 
 
 
1
  # DeepSeek-OCR-2 & MedGemma-1.5 Multimodal Analysis
2
 
3
  Цей проект призначений для аналізу медичних та загальних документів за допомогою сучасних мультимодальних моделей: **DeepSeek-OCR-2** та **MedGemma-1.5-4B-IT**.
@@ -5,56 +17,20 @@
5
  ## 🚀 Основні можливості
6
 
7
  - **DeepSeek-OCR-2**: Високоточне розпізнавання тексту (OCR) на основі архітектури Mixture-of-Experts (MoE).
8
- - **MedGemma-1.5-4B-IT**: Мультимодальна модель від Google, спеціалізована на медичних зображеннях та текстах (архітектура Gemma 3 / PaliGemma).
9
  - **Веб-інтерфейс Gradio**: Зручне завантаження зображень/PDF, вибір моделі та візуалізація результатів.
10
- - **Порівняння моделей**: Спеціальний інструмент для одночасного аналізу однієї сторінки обома моделями.
11
- - **Оптимізація для Mac**: Патчі для підтримки MPS (Metal Performance Shaders) та виправлення сумісності з новими версіями `transformers`.
12
 
13
  ## 📦 Склад проекту
14
 
15
- - `app.py`: Головний застосунок з інтерфейсом Gradio.
16
- - `compare_models.py`: Скрипт для порівняльного аналізу DeepSeek та MedGemma.
17
- - `test_medgemma.py`: Тестовий скрипт для перевірки працездатності MedGemma.
18
- - `outputs/`: Директорія для збереження результатів аналізу.
19
- - `venv/`: Віртуальне середовище Python 3.11.9.
20
-
21
- ## 🛠 Інструкція з налаштування
22
-
23
- ### 1. Підготовка середовища
24
- ```bash
25
- # Активація віртуального середовища
26
- source venv/bin/activate
27
-
28
- # Встановлення необхідних бібліотек (якщо потрібно оновити)
29
- pip install -r requirements.txt
30
- ```
31
-
32
- ### 2. Доступ до MedGemma
33
- Для роботи з `google/medgemma-1.5-4b-it` необхідно:
34
- 1. Мати аккаунт на Hugging Face.
35
- 2. Погодитися з умовами використання моделі на [сторінці моделі](https://huggingface.co/google/medgemma-1.5-4b-it).
36
- 3. Авторизуватися локально: `huggingface-cli login`.
37
-
38
- ## 🖥 Як запустити
39
-
40
- ### Запуск веб-інтерфейсу
41
- ```bash
42
- python app.py
43
- ```
44
- Після запуску відкрийте посилання в браузері (зазвичай `http://127.0.0.1:7860`).
45
-
46
- ### Порівняння результатів
47
- ```bash
48
- python compare_models.py
49
- ```
50
- Результат буде збережено у файл `model_comparison.md`.
51
-
52
- ## 🍎 Примітки для macOS (M1/M2/M3)
53
-
54
- Проект містить автоматичні виправлення (monkeypatching) для:
55
- 1. **Сумісності з Transformers 5.0**: Виправлено помилки імпорту `LlamaFlashAttention2` та `DynamicCache`.
56
- 2. **MPS Acceleration**: Автоматичне використання GPU Mac там, де це можливо (float16).
57
- 3. **MoE на CPU**: Оскільки DeepSeek MoE має обмежену підтримку MPS, деякі його частини автоматично перемикаються на CPU для стабільності.
58
 
59
  ---
60
  *Проект розроблено для тестування та демонстрації можливостей сучасних LLM у сфері розпізнавання медичних документів.*
 
1
+ ---
2
+ title: Local OCR Demo
3
+ emoji: 🔍
4
+ colorFrom: blue
5
+ colorTo: indigo
6
+ sdk: gradio
7
+ sdk_version: 4.44.1
8
+ app_file: app_hf.py
9
+ pinned: false
10
+ license: apache-2.0
11
+ ---
12
+
13
  # DeepSeek-OCR-2 & MedGemma-1.5 Multimodal Analysis
14
 
15
  Цей проект призначений для аналізу медичних та загальних документів за допомогою сучасних мультимодальних моделей: **DeepSeek-OCR-2** та **MedGemma-1.5-4B-IT**.
 
17
  ## 🚀 Основні можливості
18
 
19
  - **DeepSeek-OCR-2**: Високоточне розпізнавання тексту (OCR) на основі архітектури Mixture-of-Experts (MoE).
20
+ - **MedGemma-1.5-4B-IT**: Мультимодальна модель від Google, спеціалізована на медичних зображеннях та текстах.
21
  - **Веб-інтерфейс Gradio**: Зручне завантаження зображень/PDF, вибір моделі та візуалізація результатів.
22
+ - **ZeroGPU Support**: Оптимізовано для запуску на Hugging Face Spaces.
 
23
 
24
  ## 📦 Склад проекту
25
 
26
+ - `app_hf.py`: Версія для Hugging Face з підтримкою ZeroGPU.
27
+ - `app.py`: Локальна версія з підтримкою MPS (Metal Performance Shaders) для Mac.
28
+ - `requirements.txt`: Список необхідних бібліотек.
29
+
30
+ ## 🛠 Налаштування на Hugging Face Spaces
31
+
32
+ 1. Додайте `HF_TOKEN` у **Settings -> Variables and secrets** для доступу до MedGemma.
33
+ 2. Система автоматично запустить `app_hf.py` завдяки метаданим у цьому файлі.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
34
 
35
  ---
36
  *Проект розроблено для тестування та демонстрації можливостей сучасних LLM у сфері розпізнавання медичних документів.*