Spaces:

Napron
/

small_object_detection

Running

Napron commited on Mar 7

Commit

736b2a1

verified ·

1 Parent(s): ae6bf0f

modified nomic encode images

Files changed (1) hide show

nomic_fewshot.py CHANGED Viewed

@@ -228,34 +228,26 @@ class NomicVisionEncoderONNX:
     def encode_images(self, images: list[Image.Image]) -> np.ndarray:
         rgb = [img.convert("RGB") for img in images]
-        processed = self.processor(images=rgb, return_tensors="np")
         if "pixel_values" not in processed:
             raise RuntimeError(f"Processor did not return pixel_values. Keys={list(processed.keys())}")
-        pixel_values = processed["pixel_values"]
-        pixel_values = (
-            pixel_values.numpy().astype(np.float32)
-            if hasattr(pixel_values, "numpy")
-            else np.asarray(pixel_values, dtype=np.float32)
-        )
-        feeds = {}
         if self._pixel_name is None:
             raise RuntimeError(f"Could not find pixel input in ONNX inputs: {self.input_names}")
-        feeds[self._pixel_name] = pixel_values
-        outputs = self.session.run(self.output_names, feeds)
         main_out = _pick_output(outputs, self.output_names, kind="vision")
-        # Current PyTorch behavior: CLS token from last_hidden_state
         if main_out.ndim == 3:
             embs = main_out[:, 0, :]
         elif main_out.ndim == 2:
             embs = main_out
         else:
             raise RuntimeError(f"Unexpected vision output rank: {main_out.ndim}")
         return _l2_normalize(embs, axis=1)

     def encode_images(self, images: list[Image.Image]) -> np.ndarray:
         rgb = [img.convert("RGB") for img in images]
+        processed = self.processor(images=rgb, return_tensors="pt")
         if "pixel_values" not in processed:
             raise RuntimeError(f"Processor did not return pixel_values. Keys={list(processed.keys())}")
+        pixel_values = processed["pixel_values"].detach().cpu().numpy().astype(np.float32)
         if self._pixel_name is None:
             raise RuntimeError(f"Could not find pixel input in ONNX inputs: {self.input_names}")
+        outputs = self.session.run(self.output_names, {self._pixel_name: pixel_values})
         main_out = _pick_output(outputs, self.output_names, kind="vision")
         if main_out.ndim == 3:
             embs = main_out[:, 0, :]
         elif main_out.ndim == 2:
             embs = main_out
         else:
             raise RuntimeError(f"Unexpected vision output rank: {main_out.ndim}")
         return _l2_normalize(embs, axis=1)