Spaces:

fast-stager
/

data-collection

Sleeping

Nightfury16 commited on 23 days ago

Commit

8a439bd

1 Parent(s): 3f4e464

added new_urls.json

Files changed (2) hide show

app.py CHANGED Viewed

@@ -27,7 +27,8 @@ DATASET_REPO_ID = os.environ.get("DATASET_REPO_ID", "fast-stager/property-labels
 HF_TOKEN = os.environ.get("HF_TOKEN")
 CACHE_DIR = "/tmp"
-URL_FILE = "urls.json"
 LABEL_FILE = os.path.join(CACHE_DIR, "annotations.csv")
 VERIFY_FILE = os.path.join(CACHE_DIR, "verifications.csv")
 SKIP_FILE = os.path.join(CACHE_DIR, "skipped.csv")
@@ -101,6 +102,7 @@ def get_image_optimized(url):
     except: pass
     return url
 def load_all_urls():
     urls = []
     if not os.path.exists(URL_FILE):
@@ -108,15 +110,17 @@ def load_all_urls():
     try:
         with open(URL_FILE, 'r') as f:
-            if URL_FILE.endswith('.txt'):
-                for line in f:
-                    if line.strip(): urls.append(line.strip())
-            else:
-                data = json.load(f)
                 for query_key, rows in data.items():
-                    for row in rows:
-                        if "unstaged_images" in row:
-                            urls.append(row["unstaged_images"])
     except Exception as e:
         print(f"Error loading URLs: {e}")
@@ -379,4 +383,4 @@ with gr.Blocks(theme=gr.themes.Soft(), title="Labeling Tool") as demo:
     b_ref_cat.click(refresh_cat, None, df_cat)
     demo.load(refresh_cat, None, df_cat).then(get_stats_text, None, top_stats)
-demo.queue().launch(server_name="0.0.0.0", server_port=7860)

 HF_TOKEN = os.environ.get("HF_TOKEN")
 CACHE_DIR = "/tmp"
+# CHANGED: Updated file name
+URL_FILE = "new_urls.json"
 LABEL_FILE = os.path.join(CACHE_DIR, "annotations.csv")
 VERIFY_FILE = os.path.join(CACHE_DIR, "verifications.csv")
 SKIP_FILE = os.path.join(CACHE_DIR, "skipped.csv")
     except: pass
     return url
+# CHANGED: Updated parsing logic for new_urls.json structure
 def load_all_urls():
     urls = []
     if not os.path.exists(URL_FILE):
     try:
         with open(URL_FILE, 'r') as f:
+            data = json.load(f)
+            if "groups" in data:
+                for group in data["groups"]:
+                    if "images" in group:
+                        urls.extend(group["images"])
+            elif isinstance(data, dict):
                 for query_key, rows in data.items():
+                    if isinstance(rows, list):
+                        for row in rows:
+                            if "unstaged_images" in row:
+                                urls.append(row["unstaged_images"])
     except Exception as e:
         print(f"Error loading URLs: {e}")
     b_ref_cat.click(refresh_cat, None, df_cat)
     demo.load(refresh_cat, None, df_cat).then(get_stats_text, None, top_stats)
+demo.queue().launch(server_name="0.0.0.0", server_port=7860)

new_urls.json ADDED Viewed

The diff for this file is too large to render. See raw diff