Spaces:

anusha1840
/

FashionGPT

Runtime error

App Files Files Community

Anusha806 commited on Jul 9

Commit

c3e083b

1 Parent(s): c967063

gradionotworking

Browse files

Files changed (2) hide show

app.py +548 -307
requirements.txt +10 -6

app.py CHANGED Viewed

@@ -1,76 +1,483 @@
-import os
-from pinecone import Pinecone, ServerlessSpec
-from PIL import Image, ImageOps
-import numpy as np
-from datasets import load_dataset
-from pinecone_text.sparse import BM25Encoder
-from sentence_transformers import SentenceTransformer
-import torch
-from tqdm.auto import tqdm
-import gradio as gr
-# ------------------- Pinecone Setup -------------------
-os.environ["PINECONE_API_KEY"] = "pcsk_TMCYK_LrbmZMTDhkxTjUXcr8iTcQ8LxurwKBFDvv4ahFis8SVob7QexVPPEt6g2zW6d3g"
-api_key = os.environ.get('PINECONE_API_KEY')
-pc = Pinecone(api_key=api_key)
-cloud = os.environ.get('PINECONE_CLOUD') or 'aws'
-region = os.environ.get('PINECONE_REGION') or 'us-east-1'
-spec = ServerlessSpec(cloud=cloud, region=region)
-index_name = "hybrid-image-search"
-spec = ServerlessSpec(cloud="aws", region="us-east-1")
-# choose a name for your index
-index_name = "hybrid-image-search"
 import time
-# check if index already exists (it shouldn't if this is first time)
 if index_name not in pc.list_indexes().names():
-    # if does not exist, create index
-    pc.create_index(
-        index_name,
-        dimension=512,
-        metric='dotproduct',
-        spec=spec
-    )
-    # wait for index to be initialized
     while not pc.describe_index(index_name).status['ready']:
         time.sleep(1)
-# connect to index
 index = pc.Index(index_name)
-# view index stats
-index.describe_index_stats()
-# ------------------- Dataset Loading -------------------
 fashion = load_dataset("ashraq/fashion-product-images-small", split="train")
 images = fashion["image"]
 metadata = fashion.remove_columns("image").to_pandas()
-# ------------------- Encoders -------------------
 bm25 = BM25Encoder()
 bm25.fit(metadata["productDisplayName"])
-model = SentenceTransformer('sentence-transformers/clip-ViT-B-32', device='cuda' if torch.cuda.is_available() else 'cpu')
-from sentence_transformers import SentenceTransformer
-import torch
 device = 'cuda' if torch.cuda.is_available() else 'cpu'
-# load a CLIP model from huggingface
-model = SentenceTransformer(
-    'sentence-transformers/clip-ViT-B-32',
-    device=device
-)
-model
-# ------------------- Hybrid Scaling -------------------
 def hybrid_scale(dense, sparse, alpha: float):
     if alpha < 0 or alpha > 1:
         raise ValueError("Alpha must be between 0 and 1")
-    # scale sparse and dense vectors to create hybrid search vecs
     hsparse = {
         'indices': sparse['indices'],
         'values':  [v * (1 - alpha) for v in sparse['values']]
@@ -78,176 +485,77 @@ def hybrid_scale(dense, sparse, alpha: float):
     hdense = [v * alpha for v in dense]
     return hdense, hsparse
-# ------------------- Metadata Filter Extraction -------------------
-from PIL import Image, ImageOps
-import numpy as np
-from PIL import Image, ImageOps
-import numpy as np
-from PIL import Image, ImageOps
-import numpy as np
-from transformers import CLIPProcessor, CLIPModel
-clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32").to(device)
-clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
-def extract_metadata_filters(query: str):
-    query_lower = query.lower()
-    gender = None
-    category = None
-    subcategory = None
-    color = None
-    # --- Gender Mapping ---
-    gender_map = {
-        "men": "Men", "man": "Men", "mens": "Men", "mans": "Men", "male": "Men",
-        "women": "Women", "woman": "Women", "womens": "Women", "female": "Women",
-        "boys": "Boys", "boy": "Boys",
-        "girls": "Girls", "girl": "Girls",
-        "kids": "Kids","kid": "Kids",
-        "unisex": "Unisex"
-    }
-    for term, mapped_value in gender_map.items():
-        if term in query_lower:
-            gender = mapped_value
-            break
-    # --- Category Mapping ---
-    category_map = {
-        "shirt": "Shirts",
-        "tshirt": "Tshirts", "t-shirt": "Tshirts",
-        "jeans": "Jeans",
-        "watch": "Watches",
-        "kurta": "Kurtas",
-        "dress": "Dresses", "dresses": "Dresses",
-        "trousers": "Trousers", "pants": "Trousers",
-        "shorts": "Shorts",
-        "footwear": "Footwear",
-        "shoes": "Shoes",   # note kept as Shoes
-        "fashion": "Apparel"
-    }
-    for term, mapped_value in category_map.items():
-        if term in query_lower:
-            category = mapped_value
-            break
-    # --- SubCategory Mapping ---
-    subCategory_list = [
-        "Accessories", "Apparel Set", "Bags", "Bath and Body", "Beauty Accessories",
-        "Belts", "Bottomwear", "Cufflinks", "Dress", "Eyes", "Eyewear", "Flip Flops",
-        "Fragrance", "Free Gifts", "Gloves", "Hair", "Headwear", "Home Furnishing",
-        "Innerwear", "Jewellery", "Lips", "Loungewear and Nightwear", "Makeup",
-        "Mufflers", "Nails", "Perfumes", "Sandal", "Saree", "Scarves", "Shoe Accessories",
-        "Shoes", "Skin", "Skin Care", "Socks", "Sports Accessories", "Sports Equipment",
-        "Stoles", "Ties", "Topwear", "Umbrellas", "Vouchers", "Wallets", "Watches",
-        "Water Bottle", "Wristbands"
-    ]
-    if "topwear" in query_lower or "top" in query_lower:
-        subcategory = "Topwear"
-    else:
-        for subcat in subCategory_list:
-            if subcat.lower() in query_lower:
-                subcategory = subcat
-                break
-    # --- Color Extraction ---
-    colors = [
-        "red","blue","green","yellow","black","white",
-        "orange","pink","purple","brown","grey","beige"
-    ]
-    for c in colors:
-        if c in query_lower:
-            color = c.capitalize()
-            break
-    # --- Invalid pairs ---
-    invalid_pairs = {
-        ("Men", "Dresses"), ("Men", "Sarees"), ("Men", "Skirts"),
-        ("Boys", "Dresses"), ("Boys", "Sarees"),
-        ("Girls", "Boxers"), ("Men", "Heels")
-    }
-    if (gender, category) in invalid_pairs:
-        print(f"⚠️ Invalid pair: {gender} + {category}, dropping gender")
-        gender = None
-    # fallback
-    if gender and not category:
-        category = "Apparel"
-    return gender, category, subcategory, color
 def search_fashion(query: str, alpha: float, start: int = 0, end: int = 12, gender_override: str = None):
-    gender, category, subcategory, color = extract_metadata_filters(query)
-    # override from dropdown
     if gender_override:
         gender = gender_override
-    # --- Pinecone Filter ---
     filter = {}
     if gender:
         filter["gender"] = gender
     if category:
         if category in ["Footwear", "Shoes"]:
-            shoe_article_types = [
-                "Casual Shoes", "Sports Shoes", "Formal Shoes", "Training Shoes",
-                "Sneakers", "Sandals", "Slippers", "Boots", "Flip Flops"
-            ]
-            filter["articleType"] = {"$in": shoe_article_types}
         else:
             filter["articleType"] = category
     if subcategory:
         filter["subCategory"] = subcategory
     if color:
         filter["baseColour"] = color
-    print(f"🔍 Using filter: {filter} (showing {start} to {end})")
     sparse = bm25.encode_queries(query)
     dense = model.encode(query).tolist()
     hdense, hsparse = hybrid_scale(dense, sparse, alpha=alpha)
     result = index.query(
-        top_k=end,
         vector=hdense,
         sparse_vector=hsparse,
         include_metadata=True,
         filter=filter if filter else None
     )
-    # fallback if no results
     if len(result["matches"]) == 0:
         print("⚠️ No results, retrying with alpha=0 sparse only")
         hdense, hsparse = hybrid_scale(dense, sparse, alpha=0)
-        result = index.query(
-            top_k=end,
-            vector=hdense,
-            sparse_vector=hsparse,
-            include_metadata=True,
-            filter=filter if filter else None
-        )
-    # fallback if no results with gender
-    if gender and len(result["matches"]) == 0:
-        print(f"⚠️ No results for gender {gender}, relaxing gender filter")
-        filter.pop("gender", None)
-        result = index.query(
-            top_k=end,
-            vector=hdense,
-            sparse_vector=hsparse,
-            include_metadata=True,
-            filter=filter if filter else None
-        )
-    matches = result["matches"][start:end]
     imgs_with_captions = []
-    for r in matches:
         idx = int(r["id"])
         img = images[idx]
         meta = r.get("metadata", {})
@@ -255,183 +563,116 @@ def search_fashion(query: str, alpha: float, start: int = 0, end: int = 12, gend
             img = Image.fromarray(np.array(img))
         padded = ImageOps.pad(img, (256, 256), color="white")
         caption = str(meta.get("productDisplayName", "Unknown Product"))
-        imgs_with_captions.append((padded, caption))
     return imgs_with_captions
-# this is working code block
-from PIL import Image, ImageOps
-import numpy as np
 def search_by_image(uploaded_image, alpha=0.5, start=0, end=12):
-    """
-    Search visually similar products with support for pagination.
-    """
-    # Preprocess image for CLIP
     processed = clip_processor(images=uploaded_image, return_tensors="pt").to(device)
     with torch.no_grad():
         image_vec = clip_model.get_image_features(**processed)
         image_vec = image_vec.cpu().numpy().flatten().tolist()
-    # Query a larger top_k so you have enough to paginate
-    result = index.query(
-        top_k=end,
-        vector=image_vec,
-        include_metadata=True
-    )
-    matches = result["matches"][start:end]  # slice for pagination
     imgs_with_captions = []
-    for r in matches:
         idx = int(r["id"])
         img = images[idx]
         meta = r.get("metadata", {})
         if not isinstance(img, Image.Image):
             img = Image.fromarray(np.array(img))
         padded = ImageOps.pad(img, (256, 256), color="white")
-        caption = str(meta.get("productDisplayName", "Unknown Product"))
-        imgs_with_captions.append((padded, caption))
     return imgs_with_captions
-# with gr.Blocks(css=custom_css) as demo:
-#     gr.Markdown("# 🛍️ Fashion Product Hybrid Search")
-#     with gr.Row(equal_height=True):
-#         with gr.Column(scale=5, elem_classes="query-slider"):
-#             query = gr.Textbox(
-#                 label="Enter your fashion search query",
-#                 placeholder="Type something or leave blank to only use the image"
-#             )
-#             alpha = gr.Slider(
-#                 0, 1, value=0.5,
-#                 label="Hybrid Weight (alpha: 0=sparse, 1=dense)"
-#             )
-#         with gr.Column(scale=1):
-#             image_input = gr.Image(
-#                 type="pil",
-#                 label="Upload an image (optional)",
-#                 height=256,
-#                 width=356,
-#                 show_label=True
-#             )
-#     search_btn = gr.Button("Search", elem_classes="search-btn")
-#     gallery = gr.Gallery(
-#         label="Search Results",
-#         columns=6,
-#         height="40vh"
-#     )
-import gradio as gr
-import gradio as gr
 custom_css = """
-.search-btn {
-    width: 100%;
-}
-.gr-row {
-    gap: 8px !important;
-}
-.query-slider > div {
-    margin-bottom: 4px !important;
-}
-.upload-box .icon-container {
-    display: none !important;
-}
 """
 with gr.Blocks(css=custom_css) as demo:
-    gr.Markdown("# 🛍️ Fashion Product Hybrid Search")
     with gr.Row(equal_height=True):
         with gr.Column(scale=5, elem_classes="query-slider"):
-            query = gr.Textbox(
-                label="Enter your fashion search query",
-                placeholder="Type something or leave blank to only use the image"
-            )
             alpha = gr.Slider(0, 1, value=0.5, label="Hybrid Weight (alpha: 0=sparse, 1=dense)")
-            gender_dropdown = gr.Dropdown(
-                ["", "Men", "Women", "Boys", "Girls", "Kids", "Unisex"],
-                label="Gender Filter (optional)"
-            )
-        # with gr.Column(scale=1):
-        #     image_input = gr.Image(
-        #         type="pil",
-        #         label="Upload an image (optional)",
-        #         height=256,
-        #         width=356
-        #     )
         with gr.Column(scale=1):
-          image_input = gr.Image(
-            type="pil",
-            label="Upload an image (optional)",
-            height=256,
-            width=356,
-            sources=["upload", "clipboard"]  # only upload and paste allowed
-    )
     search_btn = gr.Button("Search", elem_classes="search-btn")
-    gallery = gr.Gallery(label="Search Results", columns=6, height="50vh")
     load_more_btn = gr.Button("Load More")
-    # States to track
     search_offset = gr.State(0)
     current_query = gr.State("")
     current_image = gr.State(None)
     current_gender = gr.State("")
-    shown_results = gr.State([])  # new: store the list of shown images
     def unified_search(q, uploaded_image, a, offset, gender_ui):
         start = 0
         end = 12
-        gender_override = gender_ui if gender_ui else None
         if uploaded_image is not None:
             results = search_by_image(uploaded_image, a, start, end)
-        elif q.strip() != "":
             results = search_fashion(q, a, start, end, gender_override)
         else:
             results = []
-        # reset shown_results to just these first 12
-        return results, end, q, uploaded_image, gender_ui, results
-    search_btn.click(
-        unified_search,
-        inputs=[query, image_input, alpha, search_offset, gender_dropdown],
-        outputs=[gallery, search_offset, current_query, current_image, current_gender, shown_results]
-    )
-    def load_more_fn(a, offset, q, img, gender_ui, prev_results):
         start = offset
         end = offset + 12
-        gender_override = gender_ui if gender_ui else None
         if img is not None:
             new_results = search_by_image(img, a, start, end)
-        elif q.strip() != "":
             new_results = search_fashion(q, a, start, end, gender_override)
         else:
             new_results = []
-        combined_results = prev_results + new_results
-        return combined_results, end, combined_results
-    load_more_btn.click(
-        load_more_fn,
-        inputs=[alpha, search_offset, current_query, current_image, current_gender, shown_results],
-        outputs=[gallery, search_offset, shown_results]
-    )
-    gr.Markdown("Powered by your hybrid AI search model 🚀")
-demo.launch()

+# import os
+# from pinecone import Pinecone, ServerlessSpec
+# from PIL import Image, ImageOps
+# import numpy as np
+# from datasets import load_dataset
+# from pinecone_text.sparse import BM25Encoder
+# from sentence_transformers import SentenceTransformer
+# import torch
+# from tqdm.auto import tqdm
+# import gradio as gr
+# # ------------------- Pinecone Setup -------------------
+# os.environ["PINECONE_API_KEY"] = "pcsk_TMCYK_LrbmZMTDhkxTjUXcr8iTcQ8LxurwKBFDvv4ahFis8SVob7QexVPPEt6g2zW6d3g"
+# api_key = os.environ.get('PINECONE_API_KEY')
+# pc = Pinecone(api_key=api_key)
+# cloud = os.environ.get('PINECONE_CLOUD') or 'aws'
+# region = os.environ.get('PINECONE_REGION') or 'us-east-1'
+# spec = ServerlessSpec(cloud=cloud, region=region)
+# index_name = "hybrid-image-search"
+# spec = ServerlessSpec(cloud="aws", region="us-east-1")
+# # choose a name for your index
+# index_name = "hybrid-image-search"
+# import time
+# # check if index already exists (it shouldn't if this is first time)
+# if index_name not in pc.list_indexes().names():
+#     # if does not exist, create index
+#     pc.create_index(
+#         index_name,
+#         dimension=512,
+#         metric='dotproduct',
+#         spec=spec
+#     )
+#     # wait for index to be initialized
+#     while not pc.describe_index(index_name).status['ready']:
+#         time.sleep(1)
+# # connect to index
+# index = pc.Index(index_name)
+# # view index stats
+# index.describe_index_stats()
+# # ------------------- Dataset Loading -------------------
+# fashion = load_dataset("ashraq/fashion-product-images-small", split="train")
+# images = fashion["image"]
+# metadata = fashion.remove_columns("image").to_pandas()
+# # ------------------- Encoders -------------------
+# bm25 = BM25Encoder()
+# bm25.fit(metadata["productDisplayName"])
+# model = SentenceTransformer('sentence-transformers/clip-ViT-B-32', device='cuda' if torch.cuda.is_available() else 'cpu')
+# from sentence_transformers import SentenceTransformer
+# import torch
+# device = 'cuda' if torch.cuda.is_available() else 'cpu'
+# # load a CLIP model from huggingface
+# model = SentenceTransformer(
+#     'sentence-transformers/clip-ViT-B-32',
+#     device=device
+# )
+# model
+# # ------------------- Hybrid Scaling -------------------
+# def hybrid_scale(dense, sparse, alpha: float):
+#     if alpha < 0 or alpha > 1:
+#         raise ValueError("Alpha must be between 0 and 1")
+#     # scale sparse and dense vectors to create hybrid search vecs
+#     hsparse = {
+#         'indices': sparse['indices'],
+#         'values':  [v * (1 - alpha) for v in sparse['values']]
+#     }
+#     hdense = [v * alpha for v in dense]
+#     return hdense, hsparse
+# # ------------------- Metadata Filter Extraction -------------------
+# from PIL import Image, ImageOps
+# import numpy as np
+# from PIL import Image, ImageOps
+# import numpy as np
+# from PIL import Image, ImageOps
+# import numpy as np
+# from transformers import CLIPProcessor, CLIPModel
+# clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32").to(device)
+# clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
+# def extract_metadata_filters(query: str):
+#     query_lower = query.lower()
+#     gender = None
+#     category = None
+#     subcategory = None
+#     color = None
+#     # --- Gender Mapping ---
+#     gender_map = {
+#         "men": "Men", "man": "Men", "mens": "Men", "mans": "Men", "male": "Men",
+#         "women": "Women", "woman": "Women", "womens": "Women", "female": "Women",
+#         "boys": "Boys", "boy": "Boys",
+#         "girls": "Girls", "girl": "Girls",
+#         "kids": "Kids","kid": "Kids",
+#         "unisex": "Unisex"
+#     }
+#     for term, mapped_value in gender_map.items():
+#         if term in query_lower:
+#             gender = mapped_value
+#             break
+#     # --- Category Mapping ---
+#     category_map = {
+#         "shirt": "Shirts",
+#         "tshirt": "Tshirts", "t-shirt": "Tshirts",
+#         "jeans": "Jeans",
+#         "watch": "Watches",
+#         "kurta": "Kurtas",
+#         "dress": "Dresses", "dresses": "Dresses",
+#         "trousers": "Trousers", "pants": "Trousers",
+#         "shorts": "Shorts",
+#         "footwear": "Footwear",
+#         "shoes": "Shoes",   # note kept as Shoes
+#         "fashion": "Apparel"
+#     }
+#     for term, mapped_value in category_map.items():
+#         if term in query_lower:
+#             category = mapped_value
+#             break
+#     # --- SubCategory Mapping ---
+#     subCategory_list = [
+#         "Accessories", "Apparel Set", "Bags", "Bath and Body", "Beauty Accessories",
+#         "Belts", "Bottomwear", "Cufflinks", "Dress", "Eyes", "Eyewear", "Flip Flops",
+#         "Fragrance", "Free Gifts", "Gloves", "Hair", "Headwear", "Home Furnishing",
+#         "Innerwear", "Jewellery", "Lips", "Loungewear and Nightwear", "Makeup",
+#         "Mufflers", "Nails", "Perfumes", "Sandal", "Saree", "Scarves", "Shoe Accessories",
+#         "Shoes", "Skin", "Skin Care", "Socks", "Sports Accessories", "Sports Equipment",
+#         "Stoles", "Ties", "Topwear", "Umbrellas", "Vouchers", "Wallets", "Watches",
+#         "Water Bottle", "Wristbands"
+#     ]
+#     if "topwear" in query_lower or "top" in query_lower:
+#         subcategory = "Topwear"
+#     else:
+#         for subcat in subCategory_list:
+#             if subcat.lower() in query_lower:
+#                 subcategory = subcat
+#                 break
+#     # --- Color Extraction ---
+#     colors = [
+#         "red","blue","green","yellow","black","white",
+#         "orange","pink","purple","brown","grey","beige"
+#     ]
+#     for c in colors:
+#         if c in query_lower:
+#             color = c.capitalize()
+#             break
+#     # --- Invalid pairs ---
+#     invalid_pairs = {
+#         ("Men", "Dresses"), ("Men", "Sarees"), ("Men", "Skirts"),
+#         ("Boys", "Dresses"), ("Boys", "Sarees"),
+#         ("Girls", "Boxers"), ("Men", "Heels")
+#     }
+#     if (gender, category) in invalid_pairs:
+#         print(f"⚠️ Invalid pair: {gender} + {category}, dropping gender")
+#         gender = None
+#     # fallback
+#     if gender and not category:
+#         category = "Apparel"
+#     return gender, category, subcategory, color
+# def search_fashion(query: str, alpha: float, start: int = 0, end: int = 12, gender_override: str = None):
+#     gender, category, subcategory, color = extract_metadata_filters(query)
+#     # override from dropdown
+#     if gender_override:
+#         gender = gender_override
+#     # --- Pinecone Filter ---
+#     filter = {}
+#     if gender:
+#         filter["gender"] = gender
+#     if category:
+#         if category in ["Footwear", "Shoes"]:
+#             shoe_article_types = [
+#                 "Casual Shoes", "Sports Shoes", "Formal Shoes", "Training Shoes",
+#                 "Sneakers", "Sandals", "Slippers", "Boots", "Flip Flops"
+#             ]
+#             filter["articleType"] = {"$in": shoe_article_types}
+#         else:
+#             filter["articleType"] = category
+#     if subcategory:
+#         filter["subCategory"] = subcategory
+#     if color:
+#         filter["baseColour"] = color
+#     print(f"🔍 Using filter: {filter} (showing {start} to {end})")
+#     sparse = bm25.encode_queries(query)
+#     dense = model.encode(query).tolist()
+#     hdense, hsparse = hybrid_scale(dense, sparse, alpha=alpha)
+#     result = index.query(
+#         top_k=end,
+#         vector=hdense,
+#         sparse_vector=hsparse,
+#         include_metadata=True,
+#         filter=filter if filter else None
+#     )
+#     # fallback if no results
+#     if len(result["matches"]) == 0:
+#         print("⚠️ No results, retrying with alpha=0 sparse only")
+#         hdense, hsparse = hybrid_scale(dense, sparse, alpha=0)
+#         result = index.query(
+#             top_k=end,
+#             vector=hdense,
+#             sparse_vector=hsparse,
+#             include_metadata=True,
+#             filter=filter if filter else None
+#         )
+#     # fallback if no results with gender
+#     if gender and len(result["matches"]) == 0:
+#         print(f"⚠️ No results for gender {gender}, relaxing gender filter")
+#         filter.pop("gender", None)
+#         result = index.query(
+#             top_k=end,
+#             vector=hdense,
+#             sparse_vector=hsparse,
+#             include_metadata=True,
+#             filter=filter if filter else None
+#         )
+#     matches = result["matches"][start:end]
+#     imgs_with_captions = []
+#     for r in matches:
+#         idx = int(r["id"])
+#         img = images[idx]
+#         meta = r.get("metadata", {})
+#         if not isinstance(img, Image.Image):
+#             img = Image.fromarray(np.array(img))
+#         padded = ImageOps.pad(img, (256, 256), color="white")
+#         caption = str(meta.get("productDisplayName", "Unknown Product"))
+#         imgs_with_captions.append((padded, caption))
+#     return imgs_with_captions
+# # this is working code block
+# from PIL import Image, ImageOps
+# import numpy as np
+# def search_by_image(uploaded_image, alpha=0.5, start=0, end=12):
+#     """
+#     Search visually similar products with support for pagination.
+#     """
+#     # Preprocess image for CLIP
+#     processed = clip_processor(images=uploaded_image, return_tensors="pt").to(device)
+#     with torch.no_grad():
+#         image_vec = clip_model.get_image_features(**processed)
+#         image_vec = image_vec.cpu().numpy().flatten().tolist()
+#     # Query a larger top_k so you have enough to paginate
+#     result = index.query(
+#         top_k=end,
+#         vector=image_vec,
+#         include_metadata=True
+#     )
+#     matches = result["matches"][start:end]  # slice for pagination
+#     imgs_with_captions = []
+#     for r in matches:
+#         idx = int(r["id"])
+#         img = images[idx]
+#         meta = r.get("metadata", {})
+#         if not isinstance(img, Image.Image):
+#             img = Image.fromarray(np.array(img))
+#         padded = ImageOps.pad(img, (256, 256), color="white")
+#         caption = str(meta.get("productDisplayName", "Unknown Product"))
+#         imgs_with_captions.append((padded, caption))
+#     return imgs_with_captions
+# # with gr.Blocks(css=custom_css) as demo:
+# #     gr.Markdown("# 🛍️ Fashion Product Hybrid Search")
+# #     with gr.Row(equal_height=True):
+# #         with gr.Column(scale=5, elem_classes="query-slider"):
+# #             query = gr.Textbox(
+# #                 label="Enter your fashion search query",
+# #                 placeholder="Type something or leave blank to only use the image"
+# #             )
+# #             alpha = gr.Slider(
+# #                 0, 1, value=0.5,
+# #                 label="Hybrid Weight (alpha: 0=sparse, 1=dense)"
+# #             )
+# #         with gr.Column(scale=1):
+# #             image_input = gr.Image(
+# #                 type="pil",
+# #                 label="Upload an image (optional)",
+# #                 height=256,
+# #                 width=356,
+# #                 show_label=True
+# #             )
+# #     search_btn = gr.Button("Search", elem_classes="search-btn")
+# #     gallery = gr.Gallery(
+# #         label="Search Results",
+# #         columns=6,
+# #         height="40vh"
+# #     )
+# import gradio as gr
+# custom_css = """
+# .search-btn {
+#     width: 100%;
+# }
+# .gr-row {
+#     gap: 8px !important;
+# }
+# .query-slider > div {
+#     margin-bottom: 4px !important;
+# }
+# .upload-box .icon-container {
+#     display: none !important;
+# }
+# """
+# with gr.Blocks(css=custom_css) as demo:
+#     gr.Markdown("# 🛍️ Fashion Product Hybrid Search")
+#     with gr.Row(equal_height=True):
+#         with gr.Column(scale=5, elem_classes="query-slider"):
+#             query = gr.Textbox(
+#                 label="Enter your fashion search query",
+#                 placeholder="Type something or leave blank to only use the image"
+#             )
+#             alpha = gr.Slider(0, 1, value=0.5, label="Hybrid Weight (alpha: 0=sparse, 1=dense)")
+#             gender_dropdown = gr.Dropdown(
+#                 ["", "Men", "Women", "Boys", "Girls", "Kids", "Unisex"],
+#                 label="Gender Filter (optional)"
+#             )
+#         # with gr.Column(scale=1):
+#         #     image_input = gr.Image(
+#         #         type="pil",
+#         #         label="Upload an image (optional)",
+#         #         height=256,
+#         #         width=356
+#         #     )
+#         with gr.Column(scale=1):
+#           image_input = gr.Image(
+#             type="pil",
+#             label="Upload an image (optional)",
+#             height=256,
+#             width=356,
+#             sources=["upload", "clipboard"]  # only upload and paste allowed
+#     )
+#     search_btn = gr.Button("Search", elem_classes="search-btn")
+#     gallery = gr.Gallery(label="Search Results", columns=6, height="50vh")
+#     load_more_btn = gr.Button("Load More")
+#     # States to track
+#     search_offset = gr.State(0)
+#     current_query = gr.State("")
+#     current_image = gr.State(None)
+#     current_gender = gr.State("")
+#     shown_results = gr.State([])  # new: store the list of shown images
+#     def unified_search(q, uploaded_image, a, offset, gender_ui):
+#         start = 0
+#         end = 12
+#         gender_override = gender_ui if gender_ui else None
+#         if uploaded_image is not None:
+#             results = search_by_image(uploaded_image, a, start, end)
+#         elif q.strip() != "":
+#             results = search_fashion(q, a, start, end, gender_override)
+#         else:
+#             results = []
+#         # reset shown_results to just these first 12
+#         return results, end, q, uploaded_image, gender_ui, results
+#     search_btn.click(
+#         unified_search,
+#         inputs=[query, image_input, alpha, search_offset, gender_dropdown],
+#         outputs=[gallery, search_offset, current_query, current_image, current_gender, shown_results]
+#     )
+#     def load_more_fn(a, offset, q, img, gender_ui, prev_results):
+#         start = offset
+#         end = offset + 12
+#         gender_override = gender_ui if gender_ui else None
+#         if img is not None:
+#             new_results = search_by_image(img, a, start, end)
+#         elif q.strip() != "":
+#             new_results = search_fashion(q, a, start, end, gender_override)
+#         else:
+#             new_results = []
+#         combined_results = prev_results + new_results
+#         return combined_results, end, combined_results
+#     load_more_btn.click(
+#         load_more_fn,
+#         inputs=[alpha, search_offset, current_query, current_image, current_gender, shown_results],
+#         outputs=[gallery, search_offset, shown_results]
+#     )
+#     gr.Markdown("Powered by your hybrid AI search model 🚀")
+# demo.launch()
+# app.py
+import os
 import time
+import torch
+import numpy as np
+import gradio as gr
+from PIL import Image, ImageOps
+from tqdm.auto import tqdm
+from datasets import load_dataset
+from sentence_transformers import SentenceTransformer
+from pinecone import Pinecone, ServerlessSpec
+from pinecone_text.sparse import BM25Encoder
+from transformers import CLIPProcessor, CLIPModel
+import openai
+# ------------------- Keys & Setup -------------------
+openai.api_key = os.getenv("OPENAI_API_KEY")
+pc = Pinecone(api_key=os.getenv("PINECONE_API_KEY"))
+spec = ServerlessSpec(cloud=os.getenv("PINECONE_CLOUD") or "aws", region=os.getenv("PINECONE_REGION") or "us-east-1")
+index_name = "hybrid-image-search"
 if index_name not in pc.list_indexes().names():
+    pc.create_index(index_name, dimension=512, metric='dotproduct', spec=spec)
     while not pc.describe_index(index_name).status['ready']:
         time.sleep(1)
 index = pc.Index(index_name)
+# ------------------- Models & Dataset -------------------
 fashion = load_dataset("ashraq/fashion-product-images-small", split="train")
 images = fashion["image"]
 metadata = fashion.remove_columns("image").to_pandas()
 bm25 = BM25Encoder()
 bm25.fit(metadata["productDisplayName"])
 device = 'cuda' if torch.cuda.is_available() else 'cpu'
+model = SentenceTransformer('sentence-transformers/clip-ViT-B-32', device=device)
+clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32").to(device)
+clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
+# ------------------- Helper Functions -------------------
 def hybrid_scale(dense, sparse, alpha: float):
     if alpha < 0 or alpha > 1:
         raise ValueError("Alpha must be between 0 and 1")
     hsparse = {
         'indices': sparse['indices'],
         'values':  [v * (1 - alpha) for v in sparse['values']]
     hdense = [v * alpha for v in dense]
     return hdense, hsparse
+def extract_intent_from_openai(query: str):
+    prompt = f'''
+You are an assistant for a fashion search engine. Extract the user's intent from the following query.
+Return a Python dictionary with keys: category, gender, subcategory, color.
+If something is missing, use null.
+Query: "{query}"
+Only return the dictionary.
+'''
+    try:
+        response = openai.ChatCompletion.create(
+            model="gpt-4",
+            messages=[{"role": "user", "content": prompt}],
+            temperature=0
+        )
+        raw = response.choices[0].message['content']
+        structured = eval(raw)
+        return structured
+    except Exception as e:
+        print(f"⚠️ OpenAI intent extraction failed: {e}")
+        return {}
+def is_duplicate(img, seen_hashes):
+    h = hash(img.tobytes())
+    if h in seen_hashes:
+        return True
+    seen_hashes.add(h)
+    return False
+# ------------------- Search Functions -------------------
 def search_fashion(query: str, alpha: float, start: int = 0, end: int = 12, gender_override: str = None):
+    intent = extract_intent_from_openai(query)
+    gender = intent.get("gender")
+    category = intent.get("category")
+    subcategory = intent.get("subcategory")
+    color = intent.get("color")
     if gender_override:
         gender = gender_override
     filter = {}
     if gender:
         filter["gender"] = gender
     if category:
         if category in ["Footwear", "Shoes"]:
+            filter["articleType"] = {"$regex": ".*(Shoe|Footwear).*"}
         else:
             filter["articleType"] = category
     if subcategory:
         filter["subCategory"] = subcategory
     if color:
         filter["baseColour"] = color
     sparse = bm25.encode_queries(query)
     dense = model.encode(query).tolist()
     hdense, hsparse = hybrid_scale(dense, sparse, alpha=alpha)
     result = index.query(
+        top_k=100,
         vector=hdense,
         sparse_vector=hsparse,
         include_metadata=True,
         filter=filter if filter else None
     )
     if len(result["matches"]) == 0:
         print("⚠️ No results, retrying with alpha=0 sparse only")
         hdense, hsparse = hybrid_scale(dense, sparse, alpha=0)
+        result = index.query(top_k=100, vector=hdense, sparse_vector=hsparse, include_metadata=True, filter=filter)
     imgs_with_captions = []
+    seen_hashes = set()
+    for r in result["matches"]:
         idx = int(r["id"])
         img = images[idx]
         meta = r.get("metadata", {})
             img = Image.fromarray(np.array(img))
         padded = ImageOps.pad(img, (256, 256), color="white")
         caption = str(meta.get("productDisplayName", "Unknown Product"))
+        if not is_duplicate(padded, seen_hashes):
+            imgs_with_captions.append((padded, caption))
+        if len(imgs_with_captions) >= end:
+            break
     return imgs_with_captions
 def search_by_image(uploaded_image, alpha=0.5, start=0, end=12):
     processed = clip_processor(images=uploaded_image, return_tensors="pt").to(device)
     with torch.no_grad():
         image_vec = clip_model.get_image_features(**processed)
         image_vec = image_vec.cpu().numpy().flatten().tolist()
+    result = index.query(top_k=100, vector=image_vec, include_metadata=True)
     imgs_with_captions = []
+    seen_hashes = set()
+    for r in result["matches"]:
         idx = int(r["id"])
         img = images[idx]
         meta = r.get("metadata", {})
+        caption = str(meta.get("productDisplayName", "Unknown Product"))
         if not isinstance(img, Image.Image):
             img = Image.fromarray(np.array(img))
         padded = ImageOps.pad(img, (256, 256), color="white")
+        if not is_duplicate(padded, seen_hashes):
+            imgs_with_captions.append((padded, caption))
+        if len(imgs_with_captions) >= end:
+            break
     return imgs_with_captions
+# ------------------- UI -------------------
 custom_css = """
+.search-btn { width: 100%; }
+.gr-row { gap: 8px !important; }
+.query-slider > div { margin-bottom: 4px !important; }
+.gr-gallery-item { width: 256px !important; height: 256px !important; }
+.gr-gallery-item img { width: 100% !important; height: 100% !important; object-fit: cover !important; }
 """
 with gr.Blocks(css=custom_css) as demo:
+    gr.Markdown("# 🛍️ Fashion Product Hybrid Search (with GPT-4 powered query parsing)")
     with gr.Row(equal_height=True):
         with gr.Column(scale=5, elem_classes="query-slider"):
+            query = gr.Textbox(label="Enter your fashion search query", placeholder="e.g., black sneakers for women")
             alpha = gr.Slider(0, 1, value=0.5, label="Hybrid Weight (alpha: 0=sparse, 1=dense)")
+            gender_dropdown = gr.Dropdown(["", "Men", "Women", "Boys", "Girls", "Kids", "Unisex"], label="Gender Filter (optional)")
         with gr.Column(scale=1):
+            image_input = gr.Image(type="pil", label="Upload an image (optional)", sources=["upload", "clipboard"], height=256, width=356)
     search_btn = gr.Button("Search", elem_classes="search-btn")
+    gallery = gr.Gallery(label="Search Results", columns=6, height=None)
     load_more_btn = gr.Button("Load More")
     search_offset = gr.State(0)
     current_query = gr.State("")
     current_image = gr.State(None)
     current_gender = gr.State("")
+    shown_results = gr.State([])
+    shown_ids = gr.State(set())
     def unified_search(q, uploaded_image, a, offset, gender_ui):
         start = 0
         end = 12
+        filters = extract_intent_from_openai(q) if q.strip() else {}
+        gender_override = gender_ui if gender_ui else filters.get("gender")
         if uploaded_image is not None:
             results = search_by_image(uploaded_image, a, start, end)
+        elif q.strip():
             results = search_fashion(q, a, start, end, gender_override)
         else:
             results = []
+        seen_ids = {r[1] for r in results}
+        return results, end, q, uploaded_image, gender_override, results, seen_ids
+    search_btn.click(unified_search, inputs=[query, image_input, alpha, search_offset, gender_dropdown],
+                     outputs=[gallery, search_offset, current_query, current_image, current_gender, shown_results, shown_ids])
+    def load_more_fn(a, offset, q, img, gender_ui, prev_results, prev_ids):
         start = offset
         end = offset + 12
+        gender_override = gender_ui
         if img is not None:
             new_results = search_by_image(img, a, start, end)
+        elif q.strip():
             new_results = search_fashion(q, a, start, end, gender_override)
         else:
             new_results = []
+        filtered_new = []
+        new_ids = set()
+        for item in new_results:
+            img_obj, caption = item
+            if caption not in prev_ids:
+                filtered_new.append(item)
+                new_ids.add(caption)
+        combined = prev_results + filtered_new
+        updated_ids = prev_ids.union(new_ids)
+        return combined, end, combined, updated_ids
+    load_more_btn.click(load_more_fn, inputs=[alpha, search_offset, current_query, current_image, current_gender, shown_results, shown_ids],
+                        outputs=[gallery, search_offset, shown_results, shown_ids])
+    gr.Markdown("🧠 Powered by OpenAI + Hybrid AI Fashion Search")
+demo.launch()

requirements.txt CHANGED Viewed

@@ -1,7 +1,11 @@
-gradio==4.14.0
 datasets
-transformers
-sentence-transformers
-pinecone-client==3.1.0
-pinecone-text
-pillow

+gradio==4.34.1
+openai==1.30.1
+sentence-transformers==2.6.1
+torch>=2.0.0
+transformers==4.41.1
 datasets
+Pillow
+pinecone-client==3.2.2
+scikit-learn
+tqdm
+numpy