Spaces:

prithivMLmods
/

Multimodal-VLM-Thinking

Sleeping

prithivMLmods commited on Jun 20, 2025

Commit

5cdeb4d

verified ·

1 Parent(s): 914bd4d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -20,6 +20,7 @@ from transformers import (
     AutoModelForVision2Seq,
     AutoProcessor,
     TextIteratorStreamer,
 )
 from transformers.image_utils import load_image
@@ -137,6 +138,8 @@ def model_chat(prompt, image):
         add_special_tokens=False,
         return_tensors="pt"
     ).to(device)
     outputs = model.generate(
         pixel_values=pixel_values,
         decoder_input_ids=prompt_inputs.input_ids,
@@ -150,7 +153,8 @@ def model_chat(prompt, image):
         return_dict_in_generate=True,
         do_sample=False,
         num_beams=1,
-        repetition_penalty=1.1
     )
     sequence = processor.tokenizer.batch_decode(outputs.sequences, skip_special_tokens=False)[0]
     cleaned = sequence.replace(f"<s>{prompt} <Answer/>", "").replace("<pad>", "").replace("</s>", "").strip()

     AutoModelForVision2Seq,
     AutoProcessor,
     TextIteratorStreamer,
+    EncoderDecoderCache  # Added to handle the new caching mechanism
 )
 from transformers.image_utils import load_image
         add_special_tokens=False,
         return_tensors="pt"
     ).to(device)
+    # Explicitly set past_key_values to None to align with new caching mechanism and avoid deprecated tuple warning
     outputs = model.generate(
         pixel_values=pixel_values,
         decoder_input_ids=prompt_inputs.input_ids,
         return_dict_in_generate=True,
         do_sample=False,
         num_beams=1,
+        repetition_penalty=1.1,
+        past_key_values=None  # Added to prevent deprecated tuple handling
     )
     sequence = processor.tokenizer.batch_decode(outputs.sequences, skip_special_tokens=False)[0]
     cleaned = sequence.replace(f"<s>{prompt} <Answer/>", "").replace("<pad>", "").replace("</s>", "").strip()