Fraser
/

gemma-3-tiled-4b-it

Fraser commited on Jan 20

Commit

f2661ac

verified ·

1 Parent(s): 68c6171

Update image_processing_gemma3_tiled.py

Files changed (1) hide show

image_processing_gemma3_tiled.py CHANGED Viewed

@@ -15,7 +15,7 @@ from PIL import Image
 from transformers.image_processing_utils import BaseImageProcessor, BatchFeature
 from transformers.image_utils import (
     ImageInput,
-    make_list_of_images,
     valid_images,
     infer_channel_dimension_format,
     to_numpy_array,
@@ -167,7 +167,7 @@ class Gemma3TiledImageProcessor(BaseImageProcessor):
     3. Returns pixel_values and tile_grid_shape metadata
     """
-    model_input_names = ["pixel_values", "tile_grid_shape"]
     def __init__(
         self,
@@ -236,7 +236,7 @@ class Gemma3TiledImageProcessor(BaseImageProcessor):
         image_std = image_std if image_std is not None else self.image_std
         do_convert_rgb = do_convert_rgb if do_convert_rgb is not None else self.do_convert_rgb
-        images = make_list_of_images(images)
         if not valid_images(images):
             raise ValueError("Invalid image input")
@@ -284,12 +284,18 @@ class Gemma3TiledImageProcessor(BaseImageProcessor):
             all_pixel_values.append(tiles)
             all_grid_shapes.append((grid_h, grid_w))
         data = {
             "pixel_values": all_pixel_values,
             "tile_grid_shape": all_grid_shapes,
         }
-        return BatchFeature(data=data, tensor_type=return_tensors)
 __all__ = ["Gemma3TiledImageProcessor", "calculate_tile_grid", "tile_image"]

 from transformers.image_processing_utils import BaseImageProcessor, BatchFeature
 from transformers.image_utils import (
     ImageInput,
+    make_flat_list_of_images,
     valid_images,
     infer_channel_dimension_format,
     to_numpy_array,
     3. Returns pixel_values and tile_grid_shape metadata
     """
+    model_input_names = ["pixel_values", "tile_grid_shape", "num_crops"]
     def __init__(
         self,
         image_std = image_std if image_std is not None else self.image_std
         do_convert_rgb = do_convert_rgb if do_convert_rgb is not None else self.do_convert_rgb
+        images = make_flat_list_of_images(images)
         if not valid_images(images):
             raise ValueError("Invalid image input")
             all_pixel_values.append(tiles)
             all_grid_shapes.append((grid_h, grid_w))
+        # num_crops is 0 for each image since we use tiling, not pan-and-scan
+        num_crops = [0] * len(all_pixel_values)
         data = {
             "pixel_values": all_pixel_values,
             "tile_grid_shape": all_grid_shapes,
+            "num_crops": num_crops,
         }
+        # Don't convert to tensors here - pixel_values have inhomogeneous shapes
+        # (different images have different tile counts). Let the model handle it.
+        return BatchFeature(data=data, tensor_type=None)
 __all__ = ["Gemma3TiledImageProcessor", "calculate_tile_grid", "tile_image"]