andrewqian123
/

LLAMA_BATCH

Visual Question Answering

Model card Files Files and versions

andrewqian123 commited on Sep 3, 2024

Commit

b891c8c

·

verified ·

1 Parent(s): a9aab54

Update modeling_minicpmv.py

Files changed (1) hide show

modeling_minicpmv.py +4 -2

modeling_minicpmv.py CHANGED Viewed

@@ -267,7 +267,7 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
             ) = self.get_vllm_embedding(model_inputs)
             batch.append(input_embeds)
         # output_ids = self._decode(input_embeds, tokenizer, **kwargs)
         if stream:
             kwargs.pop("decode_text")
@@ -333,7 +333,9 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
             batchM.append(copy_msgs)
             batchI.append(imagelist)
         prompt = processor.tokenizer.apply_chat_template(batchM, tokenize=False, add_generation_prompt=True)
-        inputs = processor(prompt, batchI, return_tensors="pt", max_length=max_inp_length).to(self.device)
         if sampling:
             generation_config = {

             ) = self.get_vllm_embedding(model_inputs)
             batch.append(input_embeds)
+        batch = torch.stack(batch)
         # output_ids = self._decode(input_embeds, tokenizer, **kwargs)
         if stream:
             kwargs.pop("decode_text")
             batchM.append(copy_msgs)
             batchI.append(imagelist)
         prompt = processor.tokenizer.apply_chat_template(batchM, tokenize=False, add_generation_prompt=True)
+        inputs = processor(prompt, batchI, return_tensors="pt", max_length=max_inp_length)
+        for input in inputs:
+            input = input.to(sef.device)
         if sampling:
             generation_config = {