Fix: Handle cache_position argument for newer Transformers (#1)

Browse files

- Fix: Handle cache_position argument for newer Transformers (a044327e935386945273905b74c1c7d61e7234d0)

Co-authored-by: Todokete <Todokete@users.noreply.huggingface.co>

Files changed (1) hide show

modeling_mixsense_llama.py +4 -1

modeling_mixsense_llama.py CHANGED Viewed

@@ -1115,6 +1115,7 @@ class MixsenseLlamaForCausalLM(LlamaForCausalLM, MixsenseMetaForCausalLM):
         images: Optional[torch.FloatTensor] = None,
         image_sizes: Optional[List[List[int]]] = None,
         return_dict: Optional[bool] = None,
     ) -> Union[Tuple, CausalLMOutputWithPast]:
         if inputs_embeds is None:
             (
@@ -1144,6 +1145,7 @@ class MixsenseLlamaForCausalLM(LlamaForCausalLM, MixsenseMetaForCausalLM):
             output_attentions=output_attentions,
             output_hidden_states=output_hidden_states,
             return_dict=return_dict,
         )
     @torch.no_grad()
@@ -1181,7 +1183,7 @@ class MixsenseLlamaForCausalLM(LlamaForCausalLM, MixsenseMetaForCausalLM):
         return output
     def prepare_inputs_for_generation(
-        self, input_ids, past_key_values=None, inputs_embeds=None, **kwargs
     ):
         images = kwargs.pop("images", None)
         image_sizes = kwargs.pop("image_sizes", None)
@@ -1189,6 +1191,7 @@ class MixsenseLlamaForCausalLM(LlamaForCausalLM, MixsenseMetaForCausalLM):
             input_ids,
             past_key_values=past_key_values,
             inputs_embeds=inputs_embeds,
             **kwargs,
         )
         if images is not None:

         images: Optional[torch.FloatTensor] = None,
         image_sizes: Optional[List[List[int]]] = None,
         return_dict: Optional[bool] = None,
+        cache_position: Optional[torch.LongTensor] = None,
     ) -> Union[Tuple, CausalLMOutputWithPast]:
         if inputs_embeds is None:
             (
             output_attentions=output_attentions,
             output_hidden_states=output_hidden_states,
             return_dict=return_dict,
+            cache_position=cache_position,
         )
     @torch.no_grad()
         return output
     def prepare_inputs_for_generation(
+        self, input_ids, past_key_values=None, inputs_embeds=None, cache_position=None, **kwargs
     ):
         images = kwargs.pop("images", None)
         image_sizes = kwargs.pop("image_sizes", None)
             input_ids,
             past_key_values=past_key_values,
             inputs_embeds=inputs_embeds,
+            cache_position=cache_position,
             **kwargs,
         )
         if images is not None: