Fix transformers 5.x API change: get_text_features now returns BaseModelOutputWithPooling

In transformers >=5.0, CLIPModel.get_text_features and get_image_features
return BaseModelOutputWithPooling instead of a Tensor. The projected
text/image embedding lives at .pooler_output (after projection).

Add backward-compatible accessor that works on both old (tensor) and
new (output object) return types.

Files changed (1) hide show

dw_queryframes.py +9 -2

dw_queryframes.py CHANGED Viewed

@@ -117,13 +117,20 @@ class QueryFrames:
         )
         inputs = {k: v.to(self.device) for k, v in inputs.items()}
         with torch.inference_mode():
-            text_emb = self.clip_model.get_text_features(
                 input_ids=inputs["input_ids"],
                 attention_mask=inputs["attention_mask"],
             )
-            image_embs = self.clip_model.get_image_features(
                 pixel_values=inputs["pixel_values"]
             )
             text_emb = F.normalize(text_emb, dim=-1)
             image_embs = F.normalize(image_embs, dim=-1)
             sims = (text_emb @ image_embs.T).squeeze(0).float().cpu()

         )
         inputs = {k: v.to(self.device) for k, v in inputs.items()}
         with torch.inference_mode():
+            # transformers ≤ 4.x returns a tensor directly; ≥ 5.x returns
+            # a BaseModelOutputWithPooling whose .pooler_output is the
+            # projected embedding. Handle both.
+            text_out = self.clip_model.get_text_features(
                 input_ids=inputs["input_ids"],
                 attention_mask=inputs["attention_mask"],
             )
+            text_emb = (text_out.pooler_output
+                        if hasattr(text_out, "pooler_output") else text_out)
+            image_out = self.clip_model.get_image_features(
                 pixel_values=inputs["pixel_values"]
             )
+            image_embs = (image_out.pooler_output
+                          if hasattr(image_out, "pooler_output") else image_out)
             text_emb = F.normalize(text_emb, dim=-1)
             image_embs = F.normalize(image_embs, dim=-1)
             sims = (text_emb @ image_embs.T).squeeze(0).float().cpu()