Spaces:

Pavan147
/

Docling_Image

Sleeping

App Files Files Community

Pavan147 commited on Aug 9, 2025

Commit

1b7aff0

verified ·

1 Parent(s): d30603a

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -4

app.py CHANGED Viewed

@@ -63,6 +63,41 @@
 # demo.launch()
 import gradio as gr
 from transformers import AutoProcessor, AutoModelForImageTextToText
 from PIL import Image
@@ -80,8 +115,17 @@ def smoldocling_readimage(image, prompt_text):
     outputs = model.generate(**inputs, max_new_tokens=1024)
     prompt_length = inputs.input_ids.shape[1]
     generated = outputs[:, prompt_length:]
-    result = processor.batch_decode(generated, skip_special_tokens=False)[0]
-    return result.replace("<end_of_utterance>", "").strip()
 # Gradio UI
 demo = gr.Interface(
@@ -90,9 +134,9 @@ demo = gr.Interface(
         gr.Image(type="pil", label="Upload Image"),
         gr.Textbox(lines=1, placeholder="Enter prompt (e.g. Convert to docling)", label="Prompt"),
     ],
-    outputs="html",
     title="SmolDocling Web App",
     description="Upload a document image and convert it to structured docling format."
 )
-demo.launch()

 # demo.launch()
+# import gradio as gr
+# from transformers import AutoProcessor, AutoModelForImageTextToText
+# from PIL import Image
+# # Load model & processor once at startup
+# processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
+# model = AutoModelForImageTextToText.from_pretrained("ds4sd/SmolDocling-256M-preview")
+# def smoldocling_readimage(image, prompt_text):
+#     messages = [
+#         {"role": "user", "content": [{"type": "image"}, {"type": "text", "text": prompt_text}]}
+#     ]
+#     prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
+#     inputs = processor(text=prompt, images=[image], return_tensors="pt")
+#     outputs = model.generate(**inputs, max_new_tokens=1024)
+#     prompt_length = inputs.input_ids.shape[1]
+#     generated = outputs[:, prompt_length:]
+#     result = processor.batch_decode(generated, skip_special_tokens=False)[0]
+#     return result.replace("<end_of_utterance>", "").strip()
+# # Gradio UI
+# demo = gr.Interface(
+#     fn=smoldocling_readimage,
+#     inputs=[
+#         gr.Image(type="pil", label="Upload Image"),
+#         gr.Textbox(lines=1, placeholder="Enter prompt (e.g. Convert to docling)", label="Prompt"),
+#     ],
+#     outputs="html",
+#     title="SmolDocling Web App",
+#     description="Upload a document image and convert it to structured docling format."
+# )
+# demo.launch()
+import re
 import gradio as gr
 from transformers import AutoProcessor, AutoModelForImageTextToText
 from PIL import Image
     outputs = model.generate(**inputs, max_new_tokens=1024)
     prompt_length = inputs.input_ids.shape[1]
     generated = outputs[:, prompt_length:]
+    raw_result = processor.batch_decode(generated, skip_special_tokens=False)[0]
+    # Remove all tags like <tag> and </tag>
+    text_without_tags = re.sub(r'<.*?>', '', raw_result)
+    # Extract all numbers (integers or decimals)
+    numbers = re.findall(r'\d+\.\d+|\d+', text_without_tags)
+    # Join numbers with commas
+    cleaned_result = ",".join(numbers)
+    return cleaned_result
 # Gradio UI
 demo = gr.Interface(
         gr.Image(type="pil", label="Upload Image"),
         gr.Textbox(lines=1, placeholder="Enter prompt (e.g. Convert to docling)", label="Prompt"),
     ],
+    outputs="text",
     title="SmolDocling Web App",
     description="Upload a document image and convert it to structured docling format."
 )
+demo.launch()