Spaces:

pratik-250620
/

MultiModal-Coherence-AI

Running

pratik-250620 commited on 26 days ago

Commit

960dff6

verified ·

1 Parent(s): d7c075c

Upload folder using huggingface_hub

Files changed (3) hide show

src/embeddings/audio_embedder.py CHANGED Viewed

@@ -31,18 +31,22 @@ class AudioEmbedder:
         Handles both raw tensors and BaseModelOutputWithPooling objects
         across different transformers versions.
         """
         if not isinstance(output, torch.Tensor):
-            # BaseModelOutputWithPooling — extract pooled features and project
             pooled = output.pooler_output
-            proj = getattr(self.model, projection, None)
-            if proj is not None:
-                pooled = proj(pooled)
             output = pooled
         if output.dim() == 3:
             pooled = output[:, 0, :]
-            proj = getattr(self.model, projection, None)
-            if proj is not None:
-                pooled = proj(pooled)
             output = pooled
         if output.dim() == 2:
             output = output[0]

         Handles both raw tensors and BaseModelOutputWithPooling objects
         across different transformers versions.
         """
+        target_dim = getattr(self.model.config, "projection_dim", 512)
         if not isinstance(output, torch.Tensor):
+            # BaseModelOutputWithPooling — extract pooled features
             pooled = output.pooler_output
+            # Only project if not already at target dim
+            if pooled.shape[-1] != target_dim:
+                proj = getattr(self.model, projection, None)
+                if proj is not None:
+                    pooled = proj(pooled)
             output = pooled
         if output.dim() == 3:
             pooled = output[:, 0, :]
+            if pooled.shape[-1] != target_dim:
+                proj = getattr(self.model, projection, None)
+                if proj is not None:
+                    pooled = proj(pooled)
             output = pooled
         if output.dim() == 2:
             output = output[0]

src/embeddings/image_embedder.py CHANGED Viewed

@@ -27,18 +27,20 @@ class ImageEmbedder:
         inputs = self.processor(images=image, return_tensors="pt").to(self.device)
         feats = self.model.get_image_features(**inputs)
         # Handle different transformers versions
         if not isinstance(feats, torch.Tensor):
-            # BaseModelOutputWithPooling — extract and project
             pooled = feats.pooler_output
-            proj = getattr(self.model, "visual_projection", None)
-            if proj is not None:
-                pooled = proj(pooled)
             feats = pooled
         if feats.dim() == 3:
             pooled = feats[:, 0, :]
-            proj = getattr(self.model, "visual_projection", None)
-            if proj is not None:
-                pooled = proj(pooled)
             feats = pooled
         if feats.dim() == 2:
             feats = feats[0]

         inputs = self.processor(images=image, return_tensors="pt").to(self.device)
         feats = self.model.get_image_features(**inputs)
         # Handle different transformers versions
+        target_dim = getattr(self.model.config, "projection_dim", 512)
         if not isinstance(feats, torch.Tensor):
             pooled = feats.pooler_output
+            if pooled.shape[-1] != target_dim:
+                proj = getattr(self.model, "visual_projection", None)
+                if proj is not None:
+                    pooled = proj(pooled)
             feats = pooled
         if feats.dim() == 3:
             pooled = feats[:, 0, :]
+            if pooled.shape[-1] != target_dim:
+                proj = getattr(self.model, "visual_projection", None)
+                if proj is not None:
+                    pooled = proj(pooled)
             feats = pooled
         if feats.dim() == 2:
             feats = feats[0]

src/embeddings/text_embedder.py CHANGED Viewed

@@ -30,18 +30,20 @@ class TextEmbedder:
         ).to(self.device)
         feats = self.model.get_text_features(**inputs)
         # Handle different transformers versions
         if not isinstance(feats, torch.Tensor):
-            # BaseModelOutputWithPooling — extract and project
             pooled = feats.pooler_output
-            proj = getattr(self.model, "text_projection", None)
-            if proj is not None:
-                pooled = proj(pooled)
             feats = pooled
         if feats.dim() == 3:
             pooled = feats[:, 0, :]
-            proj = getattr(self.model, "text_projection", None)
-            if proj is not None:
-                pooled = proj(pooled)
             feats = pooled
         if feats.dim() == 2:
             feats = feats[0]

         ).to(self.device)
         feats = self.model.get_text_features(**inputs)
         # Handle different transformers versions
+        target_dim = getattr(self.model.config, "projection_dim", 512)
         if not isinstance(feats, torch.Tensor):
             pooled = feats.pooler_output
+            if pooled.shape[-1] != target_dim:
+                proj = getattr(self.model, "text_projection", None)
+                if proj is not None:
+                    pooled = proj(pooled)
             feats = pooled
         if feats.dim() == 3:
             pooled = feats[:, 0, :]
+            if pooled.shape[-1] != target_dim:
+                proj = getattr(self.model, "text_projection", None)
+                if proj is not None:
+                    pooled = proj(pooled)
             feats = pooled
         if feats.dim() == 2:
             feats = feats[0]