Emeritus-21
/

Finetuned-full-HTR-model

image-text-to-text

handwriting-recognition

text-generation-inference

Model card Files Files and versions

Emeritus-21 commited on Jun 25, 2025

Commit

69eb4cf

·

verified ·

1 Parent(s): e65f65b

Update README.md

Files changed (1) hide show

README.md +22 -22

README.md CHANGED Viewed

@@ -2,47 +2,47 @@
 language: en
 tags:
   - handwriting-recognition
-  - vision
-  - text-recognition
-  - pytorch
   - image-to-text
-  - document-processing
 license: mit
 pipeline_tag: image-to-text
 library_name: transformers
 ---
-# 🖋️ Finetuned Full HTR Model
-This is a finetuned **Handwritten Text Recognition (HTR)** model trained to accurately recognize handwritten English text from scanned images or documents.
-## ✨ Features
-- 📸 Input: Handwritten image
-- 🔤 Output: Recognized text
-- 🧠 Model: VisionEncoderDecoder (TrOCR-style architecture)
-- 🔧 Framework: Hugging Face Transformers
-## 🧪 Usage
 ```python
-from transformers import VisionEncoderDecoderModel, AutoProcessor
 from PIL import Image
 import torch
-# Load model and processor
-model = VisionEncoderDecoderModel.from_pretrained("Emeritus-21/Finetuned-full-HTR-model")
-processor = AutoProcessor.from_pretrained("Emeritus-21/Finetuned-full-HTR-model")
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model = model.to(device)
-# Load and preprocess image
 image = Image.open("your_image.jpg").convert("RGB")
-inputs = processor(images=image, return_tensors="pt").pixel_values.to(device)
-# Generate text
-generated_ids = model.generate(inputs)
-text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
-print("Recognized Text:", text)

 language: en
 tags:
   - handwriting-recognition
+  - vision2seq
+  - qwen
   - image-to-text
+  - htr
+  - tensorflow
 license: mit
 pipeline_tag: image-to-text
 library_name: transformers
 ---
+# 🖋️ Finetuned Full HTR Model (Qwen-based)
+This is a **Qwen Vision2Seq** model fine-tuned for **Handwritten Text Recognition (HTR)**. It reads handwritten text from images and generates clean, editable output using advanced transformer-based image-to-text techniques.
+## 🔍 Model Summary
+- **Model Architecture**: Qwen-Vision2Seq (Image encoder + Language decoder)
+- **Framework**: TensorFlow (via Hugging Face Transformers)
+- **Input**: Handwritten text image
+- **Output**: Recognized plain text
+## 🧠 How to Use (with Hugging Face Transformers)
 ```python
+from transformers import AutoProcessor, AutoModelForVision2Seq
 from PIL import Image
 import torch
+# Load processor and model
+processor = AutoProcessor.from_pretrained("Emeritus-21/Finetuned-full-HTR-model", trust_remote_code=True)
+model = AutoModelForVision2Seq.from_pretrained("Emeritus-21/Finetuned-full-HTR-model", trust_remote_code=True)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model = model.to(device)
+# Load and process image
 image = Image.open("your_image.jpg").convert("RGB")
+inputs = processor(images=image, return_tensors="pt").to(device)
+# Generate prediction
+generated_ids = model.generate(**inputs)
+recognized_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+print("📝 Recognized Text:", recognized_text)