Spaces:

Stylique
/

recomendation

Paused

Ali Mohsin commited on Nov 9, 2025

Commit

4619bfc

1 Parent(s): a9c2886

Optimizations try 1

Enhance dataset preparation logic to check for existing images and splits before processing. Introduce manual dataset preparation option in the UI. Improve user feedback during dataset setup and streamline the bootstrap process.

Files changed (2) hide show

app.py +72 -50
utils/data_fetch.py +3 -1

app.py CHANGED Viewed

@@ -270,20 +270,38 @@ def _background_bootstrap():
     global BOOT_STATUS
     global DATASET_ROOT
     try:
-        BOOT_STATUS = "preparing-dataset"
-        ds_root = ensure_dataset_ready()
-        DATASET_ROOT = ds_root
-        if not ds_root:
-            BOOT_STATUS = "dataset-not-prepared"
-            return
-        # Prepare splits from official data if missing
-        splits_dir = os.path.join(ds_root, "splits")
-        need_prepare = not (
             os.path.isfile(os.path.join(splits_dir, "train.json")) or
             os.path.isfile(os.path.join(splits_dir, "outfit_triplets_train.json"))
         )
-        if need_prepare:
             BOOT_STATUS = "creating-splits"
             os.makedirs(splits_dir, exist_ok=True)
             from scripts.prepare_polyvore import main as prepare_main
@@ -292,10 +310,12 @@ def _background_bootstrap():
             argv_bak = sys.argv
             try:
                 # Use official splits from nondisjoint/ and disjoint/ folders with default size limit (500 samples for faster training)
-                sys.argv = ["prepare_polyvore.py", "--root", ds_root, "--max_samples", "500"]
                 prepare_main()
             finally:
                 sys.argv = argv_bak
         # Train if checkpoints are absent
         export_dir = os.getenv("EXPORT_DIR", "models/exports")
@@ -1326,7 +1346,7 @@ def start_training_simple(dataset_size: str, res_epochs: int, vit_epochs: int):
         except Exception as e:
             log_message += f"\nError: {e}"
-    threading.Thread(target=_runner, daemon=True).start()
     return log_message
@@ -1440,10 +1460,48 @@ with gr.Blocks(fill_height=True, title="Dressify - Advanced Outfit Recommendatio
     with gr.Tab("🔬 Advanced Training"):
         gr.Markdown("### 🎯 Comprehensive Training Parameter Control\nCustomize every aspect of model training for research and experimentation.")
         # Global Dataset Size Control
         with gr.Row():
             gr.Markdown("#### 🎯 **Global Dataset Size Control**")
-            gr.Markdown("**Note**: Initial bootstrap downloads full dataset (required). Use 'Apply' button to limit splits for testing.")
         with gr.Row():
             gr.Markdown("#### 📊 **Current Behavior**")
@@ -1703,42 +1761,6 @@ with gr.Blocks(fill_height=True, title="Dressify - Advanced Outfit Recommendatio
                 download_all_btn.click(fn=download_all_files, inputs=[], outputs=download_result)
-    with gr.Tab("🔧 Simple Training"):
-        gr.Markdown("### 🚀 Quick Training with Default Parameters\nFast training with proven configurations for immediate results.")
-        with gr.Row():
-            with gr.Column(scale=1):
-                gr.Markdown("#### 📊 Dataset Size Control")
-                gr.Markdown("Start small for testing, increase for production training")
-                dataset_size = gr.Dropdown(
-                    choices=["160", "500", "2000", "5000", "10000", "25000", "50000", "full"],
-                    value="500",
-                    label="Training Dataset Size"
-                )
-                gr.Markdown("**2000**: Quick testing (~2-5 min)\n**5000**: Fast validation (~5-10 min)\n**10000**: Good validation (~10-20 min)\n**25000+**: Production training")
-            with gr.Column(scale=1):
-                gr.Markdown("#### ⚙️ Training Parameters")
-                epochs_res = gr.Slider(1, 50, value=3, step=1, label="ResNet epochs")
-                epochs_vit = gr.Slider(1, 100, value=3, step=1, label="ViT epochs")
-        train_log = gr.Textbox(label="Training Log", lines=10)
-        start_btn = gr.Button("Start Training")
-        start_btn.click(fn=start_training_simple, inputs=[dataset_size, epochs_res, epochs_vit], outputs=train_log)
-    with gr.Tab("📊 Embed (Debug)"):
-        inp = gr.Files(
-            label="Upload Items (multiple images)",
-            file_count="multiple"
-            # Note: file_types removed to allow API client flexibility
-            # Validation is handled by our image_utils.load_images_from_files()
-        )
-        out = gr.Textbox(label="Embeddings (JSON)")
-        btn = gr.Button("Compute Embeddings")
-        btn.click(fn=gradio_embed, inputs=inp, outputs=out)
     with gr.Tab("📈 Status"):
         gr.Markdown("### 🚦 System Status and Monitoring\nReal-time status of dataset preparation, training, and system health.")
         status = gr.Textbox(label="Bootstrap Status", value=lambda: BOOT_STATUS)

     global BOOT_STATUS
     global DATASET_ROOT
     try:
+        # Check if dataset root exists and has basic structure
+        root = os.path.abspath(os.path.join(os.getcwd(), "data", "Polyvore"))
+        images_dir = os.path.join(root, "images")
+        splits_dir = os.path.join(root, "splits")
+        # Only check dataset if images directory doesn't exist
+        has_images = os.path.isdir(images_dir) and any(os.listdir(images_dir))
+        has_splits = (
             os.path.isfile(os.path.join(splits_dir, "train.json")) or
             os.path.isfile(os.path.join(splits_dir, "outfit_triplets_train.json"))
         )
+        if has_images and has_splits:
+            print("✅ Dataset and splits already prepared, skipping startup preparation")
+            DATASET_ROOT = root
+            BOOT_STATUS = "ready"
+            return
+        # Only prepare dataset if images are missing
+        if not has_images:
+            BOOT_STATUS = "preparing-dataset"
+            ds_root = ensure_dataset_ready()
+            DATASET_ROOT = ds_root
+            if not ds_root:
+                BOOT_STATUS = "dataset-not-prepared"
+                return
+        else:
+            DATASET_ROOT = root
+            print("✅ Dataset images already exist, skipping extraction")
+        # Only prepare splits if missing
+        if not has_splits:
             BOOT_STATUS = "creating-splits"
             os.makedirs(splits_dir, exist_ok=True)
             from scripts.prepare_polyvore import main as prepare_main
             argv_bak = sys.argv
             try:
                 # Use official splits from nondisjoint/ and disjoint/ folders with default size limit (500 samples for faster training)
+                sys.argv = ["prepare_polyvore.py", "--root", DATASET_ROOT, "--max_samples", "500"]
                 prepare_main()
             finally:
                 sys.argv = argv_bak
+        else:
+            print("✅ Splits already prepared, skipping")
         # Train if checkpoints are absent
         export_dir = os.getenv("EXPORT_DIR", "models/exports")
         except Exception as e:
             log_message += f"\nError: {e}"
+            threading.Thread(target=_runner, daemon=True).start()
     return log_message
     with gr.Tab("🔬 Advanced Training"):
         gr.Markdown("### 🎯 Comprehensive Training Parameter Control\nCustomize every aspect of model training for research and experimentation.")
+        # Dataset Preparation Section
+        with gr.Accordion("📦 Dataset Preparation (Optional)", open=False):
+            gr.Markdown("**Note**: Dataset is automatically prepared on first startup. Use this only if you need to re-download or re-extract the dataset.")
+            with gr.Row():
+                prepare_dataset_btn = gr.Button("📥 Download & Prepare Dataset", variant="secondary")
+                prepare_status = gr.Textbox(label="Dataset Preparation Status", value="Dataset will be prepared if missing", interactive=False)
+            def prepare_dataset_manual():
+                """Manually trigger dataset preparation."""
+                global DATASET_ROOT, BOOT_STATUS
+                try:
+                    BOOT_STATUS = "preparing-dataset"
+                    ds_root = ensure_dataset_ready()
+                    DATASET_ROOT = ds_root
+                    if not ds_root:
+                        BOOT_STATUS = "dataset-not-prepared"
+                        return "❌ Failed to prepare dataset"
+                    # Prepare splits
+                    splits_dir = os.path.join(ds_root, "splits")
+                    os.makedirs(splits_dir, exist_ok=True)
+                    from scripts.prepare_polyvore import main as prepare_main
+                    os.environ.setdefault("PYTHONWARNINGS", "ignore")
+                    import sys
+                    argv_bak = sys.argv
+                    try:
+                        sys.argv = ["prepare_polyvore.py", "--root", ds_root, "--max_samples", "500"]
+                        prepare_main()
+                        BOOT_STATUS = "ready"
+                        return "✅ Dataset prepared successfully!"
+                    finally:
+                        sys.argv = argv_bak
+                except Exception as e:
+                    BOOT_STATUS = "error"
+                    return f"❌ Error: {str(e)}"
+            prepare_dataset_btn.click(fn=prepare_dataset_manual, inputs=[], outputs=prepare_status)
         # Global Dataset Size Control
         with gr.Row():
             gr.Markdown("#### 🎯 **Global Dataset Size Control**")
+            gr.Markdown("**Note**: Use 'Apply' button to regenerate splits with different size limits.")
         with gr.Row():
             gr.Markdown("#### 📊 **Current Behavior**")
                 download_all_btn.click(fn=download_all_files, inputs=[], outputs=download_result)
     with gr.Tab("📈 Status"):
         gr.Markdown("### 🚦 System Status and Monitoring\nReal-time status of dataset preparation, training, and system health.")
         status = gr.Textbox(label="Bootstrap Status", value=lambda: BOOT_STATUS)

utils/data_fetch.py CHANGED Viewed

@@ -78,9 +78,11 @@ def ensure_dataset_ready() -> Optional[str]:
         print("✅ Dataset already complete")
         return root
-    # If images are already present, don't return early; still ensure metadata JSONs exist
     if not has_images:
         _unzip_images_if_needed(root)
     # Download the HF dataset snapshot into root
     try:

         print("✅ Dataset already complete")
         return root
+    # If images are already present, skip extraction
     if not has_images:
         _unzip_images_if_needed(root)
+    else:
+        print("✅ Images already extracted, skipping extraction")
     # Download the HF dataset snapshot into root
     try: