Spaces:

elderprince
/

HeR-T-Demo

Configuration error

App Files Files Community

elderprince commited on Apr 4, 2025

Commit

d74a4be

0 Parent(s):

init commit

Browse files

Files changed (3) hide show

.DS_Store +0 -0
app.py +72 -0
requirements.txt +66 -0

.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

app.py ADDED Viewed

	@@ -0,0 +1,72 @@

+import gradio as gr
+from PIL import Image
+from transformers import DonutProcessor, VisionEncoderDecoderModel
+import torch
+import re
+# Load your model
+processor = DonutProcessor.from_pretrained('elderprince/HeR-T')
+model = VisionEncoderDecoderModel.from_pretrained('elderprince/HeR-T')
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)
+model.eval()
+# Convert texts to JSON
+def convert_text_to_json(sequence):
+    seq = sequence.replace(processor.tokenizer.eos_token,
+                           "").replace(processor.tokenizer.pad_token, "")
+    # Remove first task start token
+    seq = re.sub(r"<.*?>", "", seq, count=1).strip()
+    # Convert to JSON
+    seq = processor.token2json(seq)
+    return seq
+# Preprocessing function
+def preprocess(image):
+    # Resize to the model's expected input size
+    image = Image.open(image).resize((1200, 1600)).convert("RGB")
+    # Convert to tensor and normalize
+    image = processor(images=image, return_tensors="pt").pixel_values
+    # Ensure the image is on the correct device
+    if image.device != device:
+        image = image.to(device)
+    return image
+# Prediction function
+def predict(image):
+    processed_image = preprocess(image)
+    # Prepare decoder inputs
+    task_prompt = "<s_herbarium>"
+    decoder_input_ids = processor.tokenizer(task_prompt,
+                                            add_special_tokens=False,
+                                            return_tensors="pt").input_ids
+    decoder_input_ids = decoder_input_ids.to(device)
+    # Generate output
+    with torch.no_grad():
+        output = model.generate(
+            pixel_values=processed_image,
+            decoder_input_ids=decoder_input_ids,
+            max_length=processor.tokenizer.pad_token_id,
+            eos_token_id=processor.tokenizer.eos_token_id,
+            use_cache=True,
+            num_beams=1,
+            bad_words_ids=[[processor.tokenizer.unk_token_id]],
+            early_stopping=True
+        )
+    # Decode the output
+    output = processor.batch_decode(output.sequences, skip_special_tokens=True)[0]
+    # Convert to JSON
+    output = convert_text_to_json(output)
+    return output
+# Gradio interface
+demo = gr.Interface(
+    fn=predict,
+    inputs=gr.Image(type="pil"),
+    outputs="text",
+    title="Herbarium specimen label Recognition Transformer (HeR-T) Demo",
+    description="Upload a single-specimen image to see the model's output.",
+)
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,66 @@

+aiofiles==23.2.1
+annotated-types==0.7.0
+anyio==4.9.0
+audioop-lts==0.2.1
+certifi==2025.1.31
+charset-normalizer==3.4.1
+click==8.1.8
+fastapi==0.115.12
+ffmpy==0.5.0
+filelock==3.18.0
+fsspec==2025.3.2
+gradio==5.23.3
+gradio_client==1.8.0
+groovy==0.1.2
+h11==0.14.0
+httpcore==1.0.7
+httpx==0.28.1
+huggingface-hub==0.30.1
+idna==3.10
+Jinja2==3.1.6
+markdown-it-py==3.0.0
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mpmath==1.3.0
+networkx==3.4.2
+numpy==2.2.4
+orjson==3.10.16
+packaging==24.2
+pandas==2.2.3
+pillow==11.1.0
+pydantic==2.11.1
+pydantic_core==2.33.0
+pydub==0.25.1
+Pygments==2.19.1
+python-dateutil==2.9.0.post0
+python-multipart==0.0.20
+pytz==2025.2
+PyYAML==6.0.2
+regex==2024.11.6
+requests==2.32.3
+rich==14.0.0
+ruff==0.11.2
+safehttpx==0.1.6
+safetensors==0.5.3
+semantic-version==2.10.0
+setuptools==75.8.0
+shellingham==1.5.4
+six==1.17.0
+sniffio==1.3.1
+starlette==0.46.1
+sympy==1.13.1
+tokenizers==0.21.1
+tomlkit==0.13.2
+torch==2.6.0
+torchaudio==2.6.0
+torchvision==0.21.0
+tqdm==4.67.1
+transformers==4.50.3
+typer==0.15.2
+typing-inspection==0.4.0
+typing_extensions==4.13.0
+tzdata==2025.2
+urllib3==2.3.0
+uvicorn==0.34.0
+websockets==15.0.1
+wheel==0.45.1