microsoft
/

Phi-3-vision-128k-instruct

Text Generation

Model card Files Files and versions

fix-tokenizer

#35

by xinsu - opened Jun 10, 2024

base: refs/heads/main

←

from: refs/pr/35

Discussion Files changed

This PR is in draft mode

Files changed (1) hide show

processing_phi3_v.py +1 -1

processing_phi3_v.py CHANGED Viewed

@@ -150,7 +150,7 @@ class Phi3VProcessor(ProcessorMixin):
             return BatchFeature(data={**model_inputs})
         pattern = r"<\|image_\d+\|>"
-        prompt_chunks = [self.tokenizer(chunk).input_ids for chunk in re.split(pattern, texts)]
         if 'num_img_tokens' in images:
             num_img_tokens = images['num_img_tokens']

             return BatchFeature(data={**model_inputs})
         pattern = r"<\|image_\d+\|>"
+        prompt_chunks = [self.tokenizer(chunk, return_tensors=return_tensors, padding=padding, truncation=truncation, max_length=max_length).input_ids for chunk in re.split(pattern, texts)]
         if 'num_img_tokens' in images:
             num_img_tokens = images['num_img_tokens']