docling-project
/

SmolDocling-256M-preview

Image-Text-to-Text

Model card Files Files and versions

MaxMnemonic commited on Mar 14, 2025

Commit

3e8f36f

·

verified ·

1 Parent(s): a4c943f

Update README.md

Files changed (1) hide show

README.md +0 -71

README.md CHANGED Viewed

@@ -109,77 +109,6 @@ print(doc.export_to_markdown())
 </details>
-<details>
-<summary>Multi-page image inference using Tranformers</summary>
-```python
-# Prerequisites:
-# pip install torch
-# pip install docling_core
-import torch
-from docling_core.types.doc import DoclingDocument
-from docling_core.types.doc.document import DocTagsDocument
-from transformers import AutoProcessor, AutoModelForVision2Seq
-from transformers.image_utils import load_image
-DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
-# Load images
-page_1 = load_image("https://upload.wikimedia.org/wikipedia/commons/7/76/GazettedeFrance.jpg")
-page_2 = load_image("https://upload.wikimedia.org/wikipedia/commons/7/76/GazettedeFrance.jpg")
-# Initialize processor and model
-processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
-model = AutoModelForVision2Seq.from_pretrained(
-    "ds4sd/SmolDocling-256M-preview",
-    torch_dtype=torch.bfloat16,
-    _attn_implementation="flash_attention_2" if DEVICE == "cuda" else "eager",
-).to(DEVICE)
-# Create input messages
-messages = [
-    {
-        "role": "user",
-        "content": [
-            {"type": "image"},
-            {"type": "image"},
-            {"type": "text", "text": "Convert this document to docling."}
-        ]
-    },
-]
-# Prepare inputs
-prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
-inputs = processor(text=prompt, images=[page_1, page_2], return_tensors="pt")
-inputs = inputs.to(DEVICE)
-# Generate outputs
-generated_ids = model.generate(**inputs, max_new_tokens=8192)
-prompt_length = inputs.input_ids.shape[1]
-trimmed_generated_ids = generated_ids[:, prompt_length:]
-doctags = processor.batch_decode(
-    trimmed_generated_ids,
-    skip_special_tokens=False,
-)[0].lstrip()
-# populate it
-doctags_split = doctags.split("<page_break>")
-doctags_doc = DocTagsDocument.from_doctags_and_image_pairs(doctags_split, [page_1, page_2])
-# create a docling document
-doc = DoclingDocument(name="Document")
-doc.load_from_doctags(doctags_doc)
-# export as any format
-# HTML
-# print(doc.export_to_html())
-# with open(output_file, "w", encoding="utf-8") as f:
-#     f.write(doc.export_to_html())
-# MD
-print(doc.export_to_markdown())
-``````
-</details>
 <details>
 <summary> 🚀 Fast Batch Inference Using VLLM</summary>

 </details>
 <details>
 <summary> 🚀 Fast Batch Inference Using VLLM</summary>