fron1runner
/

granite-ru

@@ -1,37 +1,25 @@
 ---
 license: other
 language: ru
-tags:
-- vision-language
-- document-ai
-- table-extraction
-- russian
-- qlora
-base_model:
-- ibm-granite/granite-vision-3.3-2b
 ---
-# Granite-Vision 3.3-2B — **RU Generic Tables**
-Полный чек-пойнт (базовые веса IBM Granite-Vision 3.3-2B + QLoRA-дообучение) для **извлечения любых русских таблиц** из изображений — чеков, актов, ведомостей, Excel-скринов, сканов PDF и т. д.
-<div align="center">
-  <img src="https://huggingface.co/fron1runner/granite-ru/resolve/main/_demo.gif" width="600"/>
-</div>
 ---
-## Почему эта модель классная 🙂
-| Задача | Qwen-2.5-VL-14B | **Granite-RU** (наш) |
-|--------|----------------|----------------------|
-| Russian Tables F1 (↑) | **78.1 %** | **87.4 %** |
-| Cell-exact match (↑) | 61.3 % | **72.9 %** |
-| JSON validity (↑)   | 94 % | **99 %** |
-| GPU RAM на fp16     | 24 GB | **9 GB** |
-> *Тестовый набор*: 1 200 real-world сканов (чеки, акты, выписки, borderless Excel).
-> Granite-RU уверенно обходит Qwen 2.5 VL **при 6× меньших весах** и в 2–3 раза быстрее на A100.
 ---
@@ -39,24 +27,27 @@ base_model:
 ```python
 from transformers import AutoModelForVision2Seq, AutoProcessor
-import torch, json
 from PIL import Image
-model = AutoModelForVision2Seq.from_pretrained(
-    "fron1runner/granite-ru", _attn_implementation="sdpa"
-).half().cuda()
-proc  = AutoProcessor.from_pretrained("fron1runner/granite-ru")
-img = Image.open("sample_invoice.png").convert("RGB")
 prompt = proc.apply_chat_template([
     {"role":"system","content":[{"type":"text","text":
-        "Это диалог между пользователем и ИИ. Отвечай только валидным JSON."}]},
     {"role":"user","content":[
         {"type":"image","image":img},
-        {"type":"text","text":"Извлеки таблицу и верни JSON {columns,rows,total_sum}."}
     ]}
 ], add_generation_prompt=True)
 batch = proc(text=prompt, images=[[img]], return_tensors="pt").to("cuda")
-out   = model.generate(**batch, max_new_tokens=256)
-print(json.loads(proc.decode(out[0], skip_special_tokens=True)))

 ---
 license: other
 language: ru
+tags: [vision-language, document-ai, table-extraction, russian, qlora]
+base_model: [ibm-granite/granite-vision-3.3-2b]
 ---
+# Granite-Vision 3.3-2B — RU
+дообученный QLoRA для извлечения **русскоязычных таблиц** малого/среднего размера, с стандартным печатным шрифтом, хорошо распознает структуры
+Отвечает **валидным JSON** вида `{"columns": [...], "rows": [[...], ...]}`.
 ---
+## Бенчмарк (одна реальная таблица)
+| Модель                     | JSON валиден | Структура распознана | Корректные типы (из 6) |
+|---------------------------|:------------:|:--------------------:|:----------------------:|
+| **fron1runner / Granite-RU** | ✔            | **частично***         | **4 / 6**              |
+| IBM Granite-3.3-2B (base) | ✔            | частично              | 3 / 6                  |
+| Qwen-2.5-VL-3B            | ✔            | ✖                    | 0 / 6                  |
 ---
 ```python
 from transformers import AutoModelForVision2Seq, AutoProcessor
 from PIL import Image
+import json, torch
+model_id = "fron1runner/granite-ru"
+model = (AutoModelForVision2Seq
+         .from_pretrained(model_id, _attn_implementation="sdpa")
+         .half().cuda())
+proc  = AutoProcessor.from_pretrained(model_id)
+img = Image.open("sample.png").convert("RGB")
 prompt = proc.apply_chat_template([
     {"role":"system","content":[{"type":"text","text":
+     "Отвечай только валидным JSON {\"columns\":[],\"rows\":[[]]}."}]},
     {"role":"user","content":[
         {"type":"image","image":img},
+        {"type":"text","text":"Извлеки таблицу полностью и верни только JSON."}
     ]}
 ], add_generation_prompt=True)
 batch = proc(text=prompt, images=[[img]], return_tensors="pt").to("cuda")
+out   = model.generate(**batch, max_new_tokens=384, temperature=0.1)
+print(json.loads(proc.decode(out[0], skip_special_tokens=True)))