Spaces:

wi-lab
/

LWM-Spectro

Running

App Files Files Community

stevekor commited on 8 days ago

Commit

818195e

1 Parent(s): 513757b

Make demo data source configurable (repo/revision)

Browse files

Files changed (1) hide show

app.py +13 -4

app.py CHANGED Viewed

@@ -22,7 +22,13 @@ from sklearn.preprocessing import StandardScaler
 APP_DIR = Path(__file__).resolve().parent
 DEMO_DATA_PATH = APP_DIR / "demo_data.pt"
 MOE_DATA_PATH = APP_DIR / "demo_data_moe.pt"
-HUB_REPO_ID = "wi-lab/lwm-spectro"
 def _get_hf_token() -> str | None:
@@ -207,6 +213,7 @@ def _ensure_local_file(local_path: Path, hub_filename: str) -> Optional[Path]:
                 filename=hub_filename,
                 token=token,
                 repo_type=repo_type,
             )
             cached_path = Path(cached)
             print(f"[INFO] Using cached Hub file for {hub_filename}: {cached_path} (repo_type={repo_type})")
@@ -221,6 +228,7 @@ def _ensure_local_file(local_path: Path, hub_filename: str) -> Optional[Path]:
             filename=hub_filename,
             token=token,
             repo_type="space",
         )
         cached_path = Path(cached)
         print(f"[INFO] Using cached Space file for {hub_filename}: {cached_path}")
@@ -236,8 +244,8 @@ USING_SYNTHETIC_DATA = False
 def load_augmented_samples() -> Tuple[List[Dict[str, object]], bool]:
-    moe_path = _ensure_local_file(MOE_DATA_PATH, "demo_data_moe.pt")
-    base_path = _ensure_local_file(DEMO_DATA_PATH, "demo_data.pt")
     if moe_path and moe_path.exists() and not _is_git_lfs_pointer(moe_path):
         print(f"[INFO] Loading MoE-augmented dataset from {moe_path}")
@@ -903,7 +911,8 @@ DATASET_STATUS = (
     f"Dataset loaded: {len(df)} samples | "
     f"MoE embeddings: {'yes' if has_moe_embeddings else 'no'} | "
     f"HF token detected: {'yes' if HF_TOKEN else 'no'} | "
-    f"Synthetic fallback: {'yes' if USING_SYNTHETIC_DATA else 'no'}"
 )
 has_moe_column = df["moe_embedding"].apply(lambda x: x is not None)

 APP_DIR = Path(__file__).resolve().parent
 DEMO_DATA_PATH = APP_DIR / "demo_data.pt"
 MOE_DATA_PATH = APP_DIR / "demo_data_moe.pt"
+# Where to download the demo tensors from.
+# Configure in Space settings if the default repo is private or you need to pin an older revision.
+HUB_REPO_ID = os.getenv("LWM_SPECTRO_DEMO_REPO_ID", "wi-lab/lwm-spectro")
+HUB_REVISION = os.getenv("LWM_SPECTRO_DEMO_REVISION")  # optional git sha / tag / branch
+HUB_DEMO_DATA_FILENAME = os.getenv("LWM_SPECTRO_DEMO_DATA_FILENAME", "demo_data.pt")
+HUB_MOE_DATA_FILENAME = os.getenv("LWM_SPECTRO_MOE_DATA_FILENAME", "demo_data_moe.pt")
 def _get_hf_token() -> str | None:
                 filename=hub_filename,
                 token=token,
                 repo_type=repo_type,
+                revision=HUB_REVISION,
             )
             cached_path = Path(cached)
             print(f"[INFO] Using cached Hub file for {hub_filename}: {cached_path} (repo_type={repo_type})")
             filename=hub_filename,
             token=token,
             repo_type="space",
+            revision=None,
         )
         cached_path = Path(cached)
         print(f"[INFO] Using cached Space file for {hub_filename}: {cached_path}")
 def load_augmented_samples() -> Tuple[List[Dict[str, object]], bool]:
+    moe_path = _ensure_local_file(MOE_DATA_PATH, HUB_MOE_DATA_FILENAME)
+    base_path = _ensure_local_file(DEMO_DATA_PATH, HUB_DEMO_DATA_FILENAME)
     if moe_path and moe_path.exists() and not _is_git_lfs_pointer(moe_path):
         print(f"[INFO] Loading MoE-augmented dataset from {moe_path}")
     f"Dataset loaded: {len(df)} samples | "
     f"MoE embeddings: {'yes' if has_moe_embeddings else 'no'} | "
     f"HF token detected: {'yes' if HF_TOKEN else 'no'} | "
+    f"Synthetic fallback: {'yes' if USING_SYNTHETIC_DATA else 'no'} | "
+    f"Demo repo: {HUB_REPO_ID}@{HUB_REVISION or 'main'}"
 )
 has_moe_column = df["moe_embedding"].apply(lambda x: x is not None)