NAMAA-Space
/

Qari-OCR-v0.3-VL-2B-Instruct

@@ -22,7 +22,9 @@ pipeline_tag: image-text-to-text
 ## Model Description
-QARI-OCR v0.3 is a specialized vision-language model fine-tuned for Arabic Optical Character Recognition with a focus on **structural document understanding**. Built on Qwen2-VL-2B-Instruct, this model excels at preserving document layouts, HTML tags, and formatting while transcribing Arabic text.
 ### Key Features

 ## Model Description
+- QARI-OCR v0.3 is a specialized vision-language model fine-tuned for Arabic Optical Character Recognition with a focus on **structural document understanding**.
+- Built on Qwen2-VL-2B-Instruct, this model excels at preserving document layouts, HTML tags, and formatting while transcribing Arabic text.
+- It is described in detail in the paper [QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation](https://huggingface.co/papers/2506.02295).
 ### Key Features