Spaces:

noah34
/

AlzheimersXEquity

Sleeping

App Files Files Community

noah34 commited on Feb 28

Commit

9772250

verified ·

1 Parent(s): 5c35a85

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -8

app.py CHANGED Viewed

@@ -16,6 +16,7 @@ DISCLAIMER = "⚠️ Educational demo only. Not for clinical/diagnostic use."
 LABEL_NAMES = ["Mild_Demented", "Moderate_Demented", "Non_Demented", "Very_Mild_Demented"]
 SILPA_LABEL_MAP = {
     "MildDemented":     "Mild_Demented",
     "ModerateDemented": "Moderate_Demented",
@@ -72,15 +73,26 @@ def reset_cm():
     fig = _plot_confusion_matrix([], [], CLASS_NAMES)
     return fig, [], []
-def run_full_evaluation(progress=gr.Progress()):
-    """Evaluate on combined Falah test set (1,280) + SilpaCS train set (6,400) = 7,680 images."""
-    progress(0, desc="Loading datasets...")
     falah = load_dataset("Falah/Alzheimer_MRI", split="test")
-    silpa = load_dataset("SilpaCS/Alzheimer", split="train")
     falah_label_names = falah.features["label"].names
-    silpa_label_names = silpa.features["label"].names
     y_true, y_pred = [], []
     total = len(falah) + len(silpa)
@@ -95,12 +107,12 @@ def run_full_evaluation(progress=gr.Progress()):
         y_pred.append(top)
         i += 1
-    # --- SilpaCS train split (unseen by model) ---
     for example in silpa:
         progress(i / total, desc=f"Evaluating image {i+1}/{total}...")
         img = example["image"].convert("RGB")
         top = _get_top_label(clf(img))
-        raw = silpa_label_names[example["label"]]
         y_true.append(SILPA_LABEL_MAP.get(raw, raw))
         y_pred.append(top)
         i += 1

 LABEL_NAMES = ["Mild_Demented", "Moderate_Demented", "Non_Demented", "Very_Mild_Demented"]
+# SilpaCS uses no underscores — map to model's label format
 SILPA_LABEL_MAP = {
     "MildDemented":     "Mild_Demented",
     "ModerateDemented": "Moderate_Demented",
     fig = _plot_confusion_matrix([], [], CLASS_NAMES)
     return fig, [], []
+def load_silpa_safe():
+    """
+    SilpaCS/Alzheimer has a broken label schema on HuggingFace (git hash as label name).
+    Load the raw Parquet files directly to bypass the broken dataset builder.
+    """
+    silpa = load_dataset(
+        "parquet",
+        data_files="hf://datasets/SilpaCS/Alzheimer/data/train-*.parquet",
+        split="train"
+    )
+    return silpa
+def run_full_evaluation(progress=gr.Progress()):
+    """Evaluate on combined Falah test set (1,280) + SilpaCS (6,400) = 7,680 images."""
+    progress(0, desc="Loading Falah dataset...")
     falah = load_dataset("Falah/Alzheimer_MRI", split="test")
     falah_label_names = falah.features["label"].names
+    progress(0.05, desc="Loading SilpaCS dataset...")
+    silpa = load_silpa_safe()
     y_true, y_pred = [], []
     total = len(falah) + len(silpa)
         y_pred.append(top)
         i += 1
+    # --- SilpaCS (loaded via parquet, label column is raw string) ---
     for example in silpa:
         progress(i / total, desc=f"Evaluating image {i+1}/{total}...")
         img = example["image"].convert("RGB")
         top = _get_top_label(clf(img))
+        raw = example["label"]  # already a string when loaded via parquet
         y_true.append(SILPA_LABEL_MAP.get(raw, raw))
         y_pred.append(top)
         i += 1