ACIDE
/

User-VLM-3B-base

Image-Text-to-Text

text-generation-inference

Model card Files Files and versions

hamedrahimi commited on Feb 21, 2025

Commit

5121ed4

·

verified ·

1 Parent(s): 705e21d

Update README.md

Files changed (1) hide show

README.md +9 -6

README.md CHANGED Viewed

@@ -36,15 +36,18 @@ This model allows for **customization of open-weight VLMs** to produce **persona
 ## Model Usage
 ### Example Code:
 ```python
 from transformers import PaliGemmaProcessor, PaliGemmaForConditionalGeneration
 import torch
-model_id = "ACIDE/User-VLM-10B-Instruct"
 processor = PaliGemmaProcessor.from_pretrained(model_id)
 model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16).to(device)
-def generate_response(question, image, model, processor):
-    prompt = f"<image> <|im_start|>USER: {question}<|im_end|> ASSISTANT:"
     model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(torch.bfloat16).to(model.device)
     input_len = model_inputs["input_ids"].shape[-1]
@@ -58,9 +61,9 @@ def generate_response(question, image, model, processor):
 from transformers.image_utils import load_image
 url = "https://media.istockphoto.com/id/1282695693/photo/little-boy-sitting-on-chair-at-the-table.jpg"
 image = load_image(url)
-question = "Does Santa Claus exist?"
-answer = generate_response(question, image, model, processor)
-print(answer)
 ```
 ## Ethical Considerations & Limitations

 ## Model Usage
 ### Example Code:
 ```python
+# The base model is not instruction-tuned and therefore is not suitable for use in a conversational mode.
 from transformers import PaliGemmaProcessor, PaliGemmaForConditionalGeneration
 import torch
+model_id = "ACIDE/User-VLM-3B-base"
 processor = PaliGemmaProcessor.from_pretrained(model_id)
 model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16).to(device)
+def generate_description(image, model, processor):
+    prompt = "<image> "
     model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(torch.bfloat16).to(model.device)
     input_len = model_inputs["input_ids"].shape[-1]
 from transformers.image_utils import load_image
 url = "https://media.istockphoto.com/id/1282695693/photo/little-boy-sitting-on-chair-at-the-table.jpg"
 image = load_image(url)
+description = generate_description(image, model, processor)
+print(description)
 ```
 ## Ethical Considerations & Limitations