updata pytorch usage and prompts

Browse files

Files changed (1) hide show

README.md +61 -1

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: apache-2.0
 pipeline_tag: image-text-to-text
 tags:
 - mindspore
 - mindnlp
 - ERNIE4.5
@@ -69,7 +71,7 @@ PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vi
 * ```2025.10.19``` 🚀 MindNLP support [PaddleOCR-VL](https://github.com/PaddlePaddle/PaddleOCR), — a multilingual documents parsing via a 0.9B Ultra-Compact Vision-Language Model with SOTA performance.
-## Usage
 ### Install Dependencies
@@ -116,6 +118,64 @@ decoded_output = processor.decode(
 print(decoded_output)
 ```
 ## Performance
 ### Page-Level Document Parsing

 license: apache-2.0
 pipeline_tag: image-text-to-text
 tags:
+- pytorch
+- transformers
 - mindspore
 - mindnlp
 - ERNIE4.5
 * ```2025.10.19``` 🚀 MindNLP support [PaddleOCR-VL](https://github.com/PaddlePaddle/PaddleOCR), — a multilingual documents parsing via a 0.9B Ultra-Compact Vision-Language Model with SOTA performance.
+## MindSpore Usage
 ### Install Dependencies
 print(decoded_output)
 ```
+### Prompts
+Besides OCR, PaddleOCR-VL also supports various tasks, including: table recognition, chart recognition and formula recognition.
+You can replace the prompt with the following usages: \n
+```python
+query = "OCR:"
+query = "Table Recognition:"
+query = "Chart Recognition:"
+query = "Formula Recognition:"
+```
+## Pytorch Usage
+You can also use Pytorch to use PaddleOCR-VL.
+### Install Dependencies
+```bash
+pip install torch
+pip install transformers==4.57.1
+```
+### Basic Usage
+```python
+import torch
+from transformers import AutoModel, AutoProcessor, AutoTokenizer
+from transformers.image_utils import load_image
+model = AutoModel.from_pretrained("lvyufeng/PaddleOCR-VL-0.9B", trust_remote_code=True, dtype=torch.bfloat16, device_map='auto')
+tokenizer = AutoTokenizer.from_pretrained("lvyufeng/PaddleOCR-VL-0.9B")
+processor = AutoProcessor.from_pretrained("lvyufeng/PaddleOCR-VL-0.9B", trust_remote_code=True)
+image = load_image(
+    "https://hf-mirror.com/datasets/hf-internal-testing/fixtures_got_ocr/resolve/main/image_ocr.jpg"
+)
+query = 'OCR:'
+messages = [
+    {
+        "role": "user",
+        "content": query,
+    }
+]
+text = tokenizer.apply_chat_template(messages, tokenize=False)
+inputs = processor(image, text=text, return_tensors="pt", format=True).to('cuda')
+generate_ids = model.generate(**inputs, do_sample=False, num_beams=1, max_new_tokens=1024)
+print(generate_ids.shape)
+decoded_output = processor.decode(
+    generate_ids[0], skip_special_tokens=True
+)
+print(decoded_output)
+```
 ## Performance
 ### Page-Level Document Parsing