Spaces:

redhairedshanks1
/

dots-ocr

Runtime error

redhairedshanks1 commited on Aug 18, 2025

Commit

a13ddef

verified ·

1 Parent(s): 1c6aa49

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,20 +13,50 @@
 #     demo.launch()
 from PIL import Image
-from huggingface_hub import snapshot_download
-from transformers import AutoProcessor, AutoModelForCausalLM
 import gradio as gr
 import torch
 MODEL_ID = "rednote-hilab/dots.ocr"
-local = snapshot_download(MODEL_ID)
-model = AutoModelForCausalLM.from_pretrained(local, trust_remote_code=True, device_map="auto", torch_dtype=torch.bfloat16)
-processor = AutoProcessor.from_pretrained(local, trust_remote_code=True)
-def parse_document(image):
     inputs = processor(images=[image], return_tensors="pt").to(model.device)
-    output = model.generate(**inputs, do_sample=False, max_new_tokens=1024)
     return processor.batch_decode(output, skip_special_tokens=True)[0]
-demo = gr.Interface(parse_document, inputs=gr.Image(type="pil"), outputs="text")
-if __name__ == "__main__": demo.launch()

 #     demo.launch()
 from PIL import Image
 import gradio as gr
 import torch
+from huggingface_hub import snapshot_download
+from transformers import AutoProcessor, AutoModelForCausalLM
+# Model ID
 MODEL_ID = "rednote-hilab/dots.ocr"
+# Download snapshot locally
+local_model_path = snapshot_download(MODEL_ID)
+# Load model & processor
+model = AutoModelForCausalLM.from_pretrained(
+    local_model_path,
+    trust_remote_code=True,
+    device_map="auto",
+    torch_dtype=torch.bfloat16
+)
+processor = AutoProcessor.from_pretrained(
+    local_model_path,
+    trust_remote_code=True
+)
+# OCR parsing function
+def parse_document(image: Image.Image):
     inputs = processor(images=[image], return_tensors="pt").to(model.device)
+    with torch.no_grad():
+        output = model.generate(
+            **inputs,
+            do_sample=False,
+            max_new_tokens=1024
+        )
     return processor.batch_decode(output, skip_special_tokens=True)[0]
+# Gradio UI
+demo = gr.Interface(
+    fn=parse_document,
+    inputs=gr.Image(type="pil", label="Upload Document"),
+    outputs=gr.Textbox(label="Extracted Text"),
+    title="Dots OCR Demo",
+    description="Upload an image or scanned document to extract text using rednote-hilab/dots.ocr"
+)
+if __name__ == "__main__":
+    demo.launch()