allenai
/

MolmoE-1B-0924

@@ -2,9 +2,11 @@
 Processor class for Molmo.
 """
-from typing import List, Union, Optional
-from transformers.utils.constants import OPENAI_CLIP_STD, OPENAI_CLIP_MEAN
 try:
     from typing import Unpack
@@ -25,7 +27,7 @@ from transformers.tokenization_utils_base import TextInput
 from transformers.utils import logging
 from transformers import AutoTokenizer
-from .image_preprocessing_molmo import MolmoImagesKwargs, make_batched_images, MolmoImageProcessor
 logger = logging.get_logger(__name__)
@@ -81,7 +83,7 @@ class MolmoProcessorKwargs(ProcessingKwargs, total=False):
 class MolmoProcessor(ProcessorMixin):
     attributes = ["image_processor", "tokenizer"]
     image_processor_class = "AutoImageProcessor"
-    tokenizer_class = ("GPT2Tokenizer", "GPT2TokenizerFast")
     def __init__(self, image_processor: MolmoImageProcessor = None, tokenizer : AutoTokenizer = None, **kwargs):
         # self.image_processor = image_processor
@@ -131,8 +133,20 @@ class MolmoProcessor(ProcessorMixin):
         image_token_id = self.special_token_ids[IMAGE_PROMPT]
         if images is not None:
-            images = make_batched_images(images)
-            images = [np.array(image).astype(np.uint8) for image in images]
             # For now only support inserting images at the start
             image_idx = [-1]*len(images)
         else:

 Processor class for Molmo.
 """
+from typing import Optional
+import PIL
+from PIL import ImageOps
+from PIL.Image import Image
 try:
     from typing import Unpack
 from transformers.utils import logging
 from transformers import AutoTokenizer
+from .image_preprocessing_molmo import MolmoImagesKwargs, MolmoImageProcessor
 logger = logging.get_logger(__name__)
 class MolmoProcessor(ProcessorMixin):
     attributes = ["image_processor", "tokenizer"]
     image_processor_class = "AutoImageProcessor"
+    tokenizer_class = ("Qwen2Tokenizer", "Qwen2TokenizerFast")
     def __init__(self, image_processor: MolmoImageProcessor = None, tokenizer : AutoTokenizer = None, **kwargs):
         # self.image_processor = image_processor
         image_token_id = self.special_token_ids[IMAGE_PROMPT]
         if images is not None:
+            if not isinstance(images, (list, tuple)):
+                images = [images]
+            image_arrays = []
+            for image in images:
+                if isinstance(image, Image):
+                    image = image.convert("RGB")
+                    # Handle images with EXIF orientation tags, which PIL will ignore by default
+                    # https://github.com/python-pillow/Pillow/issues/4703
+                    img = ImageOps.exif_transpose(image)
+                    image_arrays.append(np.array(image))
+                else:
+                    assert len(image.shape) == 3 and image.shape[-1] == 3
+                    image_arrays.append(image.astype(np.uint8))
+            images = image_arrays
             # For now only support inserting images at the start
             image_idx = [-1]*len(images)
         else: