Spaces:

skodan
/

multimodal-caption-retrieval

Sleeping

skodan commited on Jan 20

Commit

7612210

1 Parent(s): 48b6a6b

fixed txt2img and img2img error

Files changed (2) hide show

app.py CHANGED Viewed

@@ -63,8 +63,9 @@ with tab_text2img:
                 cols = st.columns(3)
                 for idx, res in enumerate(results):
                     with cols[idx % 3]:
-                        if res["image"] is not None:
-                            st.image(res["image"], width=200)
                             st.caption(f"Score: {res['score']:.3f}")
                         else:
                             st.caption(f"Score: {res['score']:.3f} (Image not available)")
@@ -101,8 +102,9 @@ with tab_img2img:
                 cols = st.columns(3)
                 for idx, res in enumerate(results):
                     with cols[idx % 3]:
-                        if res["image"] is not None:
-                            st.image(res["image"], width=200)
                             st.caption(f"Score: {res['score']:.3f}")
                         else:
                             st.caption(f"Score: {res['score']:.3f} (Image not available)")

                 cols = st.columns(3)
                 for idx, res in enumerate(results):
                     with cols[idx % 3]:
+                        if res["image"]:
+                            img_bytes = base64.b64decode(res["image"])
+                            st.image(img_bytes, width=200)
                             st.caption(f"Score: {res['score']:.3f}")
                         else:
                             st.caption(f"Score: {res['score']:.3f} (Image not available)")
                 cols = st.columns(3)
                 for idx, res in enumerate(results):
                     with cols[idx % 3]:
+                        if res["image"]:
+                            img_bytes = base64.b64decode(res["image"])
+                            st.image(img_bytes, width=200)
                             st.caption(f"Score: {res['score']:.3f}")
                         else:
                             st.caption(f"Score: {res['score']:.3f} (Image not available)")

models/resnet_lstm_attention/model.py CHANGED Viewed

@@ -6,6 +6,8 @@ from PIL import Image
 import numpy as np
 from typing import List, Dict, Any
 from datasets import load_dataset, concatenate_datasets
 from models.resnet_lstm_attention.loader import load_captioning_model
 from models.resnet_lstm_attention.retrieval import RetrievalService
@@ -122,6 +124,13 @@ class ResNetLSTMAttentionModel(UnifiedModelInterface):
         )
         return " ".join(tokens)
     def text_to_image(self, text: str, top_k: int = 5) -> List[Dict[str, Any]]:
         raw_results = self.retrieval_service.text_to_image(text, top_k)
@@ -132,7 +141,7 @@ class ResNetLSTMAttentionModel(UnifiedModelInterface):
             try:
                 pil_img = self.dataset[idx]["image"]
                 formatted.append({
-                    "image": pil_img,
                     "score": float(res["score"])
                 })
             except (IndexError, KeyError):
@@ -156,7 +165,7 @@ class ResNetLSTMAttentionModel(UnifiedModelInterface):
             try:
                 pil_img = self.dataset[idx]["image"]
                 formatted.append({
-                    "image": pil_img,
                     "score": float(res["score"])
                 })
             except (IndexError, KeyError):

 import numpy as np
 from typing import List, Dict, Any
 from datasets import load_dataset, concatenate_datasets
+import io
+import base64
 from models.resnet_lstm_attention.loader import load_captioning_model
 from models.resnet_lstm_attention.retrieval import RetrievalService
         )
         return " ".join(tokens)
+    def _pil_to_base64(self, image: Image.Image) -> str:
+        """Convert PIL image to base64 string for JSON serialization."""
+        buffered = io.BytesIO()
+        image.save(buffered, format="JPEG")
+        return base64.b64encode(buffered.getvalue()).decode("utf-8")
     def text_to_image(self, text: str, top_k: int = 5) -> List[Dict[str, Any]]:
         raw_results = self.retrieval_service.text_to_image(text, top_k)
             try:
                 pil_img = self.dataset[idx]["image"]
                 formatted.append({
+                    "image": self._pil_to_base64(pil_img),
                     "score": float(res["score"])
                 })
             except (IndexError, KeyError):
             try:
                 pil_img = self.dataset[idx]["image"]
                 formatted.append({
+                    "image": self._pil_to_base64(pil_img),
                     "score": float(res["score"])
                 })
             except (IndexError, KeyError):