ACIDE
/

User-VLM-3B-base

Image-Text-to-Text

text-generation-inference

Model card Files Files and versions

hamedrahimi commited on Feb 15, 2025

Commit

331a115

·

verified ·

1 Parent(s): aba7e1f

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -41,7 +41,7 @@ processor = PaliGemmaProcessor.from_pretrained(model_id)
 model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16).to(device)
 def generate_response(question, image, model, processor):
-    prompt = "<image> answer en " + question
     model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(torch.bfloat16).to(model.device)
     input_len = model_inputs["input_ids"].shape[-1]

 model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16).to(device)
 def generate_response(question, image, model, processor):
+    prompt = f"<image> <|im_start|>USER: {question}<|im_end|> ASSISTANT:"
     model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(torch.bfloat16).to(model.device)
     input_len = model_inputs["input_ids"].shape[-1]