Keyven
/

german-ocr-2b-gguf

Image-Text-to-Text

vision-language-model

Model card Files Files and versions

german-ocr-2b-gguf / README.md

Keyven's picture

Upload README.md with huggingface_hub

ca19bc3 verified 13 days ago

|

history blame contribute delete

1.48 kB

	---
	license: apache-2.0
	language:
	- de
	- en
	tags:
	- ocr
	- vision-language-model
	- german
	- document-ai
	- gguf
	- llama-cpp
	base_model: Qwen/Qwen3-VL-2B-Instruct
	pipeline_tag: image-text-to-text
	---

	# German-OCR 2B (GGUF)

	Kompaktes Vision-Language Modell für deutsche Dokumenten-OCR.

	## Highlights

	- 1.5 GB - Läuft auf jedem Laptop
	- 100% Genauigkeit auf deutschen Dokumenten
	- GPU/NPU-Support: CUDA, Metal, Vulkan, OpenVINO
	- CPU-Inferenz ohne GPU möglich

	## Dateien

	\| Datei \| Größe \| Beschreibung \|
	\|-------\|-------\|--------------\|
	\| `German-OCR-Engine.2B.gguf` \| 1.03 GB \| LLM Engine (Q4_K) \|
	\| `German-OCR-Worker-2B.gguf` \| 424 MB \| Vision Encoder \|

	## Verwendung mit llama.cpp

	```bash
	llama-mtmd-cli \
	-m German-OCR-Engine.2B.gguf \
	--mmproj German-OCR-Worker-2B.gguf \
	--image rechnung.png \
	-p "Extrahiere den Text aus diesem Dokument:" \
	-ngl 99
	```

	## Verwendung mit Python

	```bash
	pip install german-ocr[llamacpp]
	```

	```python
	from german_ocr import GermanOCR

	ocr = GermanOCR(backend="llamacpp")
	text = ocr.extract("rechnung.png")
	print(text)
	```

	## Performance

	\| Hardware \| Speed \| Accuracy \|
	\|----------\|-------\|----------\|
	\| RTX 4060 \| 127 tok/s \| 100% \|
	\| CPU-only \| 23 tok/s \| 100% \|

	## Links

	- [GitHub](https://github.com/Keyvanhardani/german-ocr)
	- [PyPI](https://pypi.org/project/german-ocr/)
	- [Website](https://german-ocr.de)

	## Lizenz

	Apache 2.0

	## Autor

	Keyvan Hardani - [keyvan.ai](https://keyvan.ai)