Spaces:

SreekarB
/

AphasiaPred

Sleeping

App Files Files Community

SreekarB commited on Mar 11, 2025

Commit

f91cacf

verified ·

1 Parent(s): 7cf1145

Upload 3 files

Browse files

Files changed (3) hide show

README.md +9 -6
app.py +12 -7
main.py +67 -50

README.md CHANGED Viewed

@@ -4,7 +4,7 @@ emoji: 🧠
 colorFrom: blue
 colorTo: pink
 sdk: gradio
-sdk_version: 5.20.1
 app_file: app.py
 pinned: false
 ---
@@ -26,11 +26,14 @@ This application implements a VAE model that:
 This demo uses the [SreekarB/OSFData](https://huggingface.co/datasets/SreekarB/OSFData) dataset from HuggingFace, which contains:
 - Functional connectivity matrices from fMRI data
-- Demographic information in `FC_graph_covariate_data.csv` including:
-  - Age at stroke
-  - Sex
-  - Months post-stroke
-  - WAB scores (aphasia severity)
 ## How to Use

 colorFrom: blue
 colorTo: pink
 sdk: gradio
+sdk_version: 3.36.1
 app_file: app.py
 pinned: false
 ---
 This demo uses the [SreekarB/OSFData](https://huggingface.co/datasets/SreekarB/OSFData) dataset from HuggingFace, which contains:
 - Functional connectivity matrices from fMRI data
+- Demographic information directly in the dataset:
+  - ID: Subject identifier
+  - wab_aq: Aphasia quotient score (severity measure)
+  - age: Subject age
+  - mpo: Months post onset
+  - education: Years of education
+  - gender: Subject gender
+  - handedness: Subject handedness (ignored in this analysis)
 ## How to Use

app.py CHANGED Viewed

@@ -2,10 +2,10 @@ import gradio as gr
 from main import run_fc_analysis
 import os
-def gradio_fc_analysis(data_source, demographic_file, latent_dim, nepochs, bsize, use_hf_dataset):
     fig = run_fc_analysis(
         data_dir=data_source,
-        demographic_file=demographic_file,
         latent_dim=latent_dim,
         nepochs=nepochs,
         bsize=bsize,
@@ -20,12 +20,10 @@ def create_interface():
         inputs=[
             gr.Textbox(label="Data Source (HF Dataset ID or Local Directory)",
                        value="SreekarB/OSFData"),
-            gr.Textbox(label="Demographic File",
-                       value="FC_graph_covariate_data.csv"),
             gr.Slider(minimum=8, maximum=64, step=8,
                       label="Latent Dimensions", value=32),
             gr.Slider(minimum=100, maximum=5000, step=100,
-                      label="Number of Epochs", value=1000),
             gr.Slider(minimum=8, maximum=64, step=8,
                       label="Batch Size", value=16),
             gr.Checkbox(label="Use HuggingFace Dataset",
@@ -37,10 +35,17 @@ def create_interface():
         Analysis pipeline: fMRI → FC matrices → VAE → Analysis
         This demo uses the SreekarB/OSFData dataset from HuggingFace by default.
-        The demographic file FC_graph_covariate_data.csv contains age_at_stroke, sex, months_post_stroke, and wab_score.
         """,
         examples=[
-            ["SreekarB/OSFData", "FC_graph_covariate_data.csv", 32, 500, 16, True],
         ],
         cache_examples=False,
     )

 from main import run_fc_analysis
 import os
+def gradio_fc_analysis(data_source, latent_dim, nepochs, bsize, use_hf_dataset):
     fig = run_fc_analysis(
         data_dir=data_source,
+        demographic_file=None,  # We're now getting demographics directly from the dataset
         latent_dim=latent_dim,
         nepochs=nepochs,
         bsize=bsize,
         inputs=[
             gr.Textbox(label="Data Source (HF Dataset ID or Local Directory)",
                        value="SreekarB/OSFData"),
             gr.Slider(minimum=8, maximum=64, step=8,
                       label="Latent Dimensions", value=32),
             gr.Slider(minimum=100, maximum=5000, step=100,
+                      label="Number of Epochs", value=500),  # Reduced for faster demos
             gr.Slider(minimum=8, maximum=64, step=8,
                       label="Batch Size", value=16),
             gr.Checkbox(label="Use HuggingFace Dataset",
         Analysis pipeline: fMRI → FC matrices → VAE → Analysis
         This demo uses the SreekarB/OSFData dataset from HuggingFace by default.
+        The dataset contains the following columns:
+        - ID: Subject identifier
+        - wab_aq: Aphasia severity score
+        - age: Age of the subject
+        - mpo: Months post onset
+        - education: Years of education
+        - gender: Subject gender
+        - handedness: Subject handedness (ignored in the analysis)
         """,
         examples=[
+            ["SreekarB/OSFData", 32, 200, 16, True],  # Fewer epochs for faster demo
         ],
         cache_examples=False,
     )

main.py CHANGED Viewed

@@ -12,7 +12,7 @@ import pandas as pd
 import io
 from typing import List, Dict, Union, Tuple, Any
-def load_data(data_dir="SreekarB/OSFData", demographic_file="FC_graph_covariate_data.csv", use_hf_dataset=True):
     """
     Load fMRI data and demographics from HuggingFace dataset or local files
     """
@@ -23,56 +23,70 @@ def load_data(data_dir="SreekarB/OSFData", demographic_file="FC_graph_covariate_
         print(f"Loading dataset from HuggingFace: {data_dir}")
         dataset = load_dataset(data_dir)
-        # Load demographics from the dataset
-        if demographic_file in dataset["train"].features:
-            demo_df = pd.DataFrame(dataset["train"][demographic_file])
-        else:
-            # Try to load from the dataset files
-            try:
-                demo_content = dataset["train"][demographic_file][0]
-                demo_df = pd.read_csv(io.StringIO(demo_content))
-            except Exception as e:
-                print(f"Error loading demographics from dataset: {e}")
-                # Download the CSV from the dataset repo
-                import huggingface_hub
-                csv_path = huggingface_hub.hf_hub_download(repo_id=data_dir, filename=demographic_file)
-                demo_df = pd.read_csv(csv_path)
-        # Extract demographic data
         demo_data = [
-            demo_df['age_at_stroke'].values if 'age_at_stroke' in demo_df.columns else np.array([]),
-            demo_df['sex'].values if 'sex' in demo_df.columns else np.array([]),
-            demo_df['months_post_stroke'].values if 'months_post_stroke' in demo_df.columns else np.array([]),
-            demo_df['wab_score'].values if 'wab_score' in demo_df.columns else np.array([])
         ]
-        # Get fMRI/FC files from dataset
-        nii_files = []
-        for f in dataset["train"].features:
-            if f.endswith(".nii.gz") or f.endswith(".nii"):
-                nii_files.append(f)
-        if not nii_files:
-            print("No .nii/.nii.gz files found in dataset, checking for FC matrices")
-            # Try to find FC matrices directly
             fc_matrices = []
-            for f in dataset["train"].features:
-                if f.startswith("fc_") or f.endswith("_fc"):
-                    fc_matrices.append(dataset["train"][f])
-            if fc_matrices:
-                print(f"Found {len(fc_matrices)} FC matrices in dataset")
-                return fc_matrices, demo_data, demo_types
     else:
         # Original local file loading
         # Load demographics
         demo_df = pd.read_csv(demographic_file)
         demo_data = [
-            demo_df['age_at_stroke'].values,
-            demo_df['sex'].values,
-            demo_df['months_post_stroke'].values,
-            demo_df['wab_score'].values
         ]
         # Load fMRI files
@@ -82,7 +96,7 @@ def load_data(data_dir="SreekarB/OSFData", demographic_file="FC_graph_covariate_
     return nii_files, demo_data, demo_types
 def run_fc_analysis(data_dir="SreekarB/OSFData",
-                    demographic_file="FC_graph_covariate_data.csv",
                     latent_dim=32,
                     nepochs=1000,
                     bsize=16,
@@ -100,18 +114,21 @@ def run_fc_analysis(data_dir="SreekarB/OSFData",
     print("Loading data...")
     nii_files, demo_data, demo_types = load_data(data_dir, demographic_file, use_hf_dataset)
-    # Add import for io module if it's missing
-    import io
     # Check if we got FC matrices directly
-    if isinstance(nii_files, list) and all(isinstance(item, np.ndarray) for item in nii_files):
         print("Using pre-computed FC matrices...")
-        X = np.stack(nii_files)
     else:
         # Prepare data by converting fMRI to FC matrices
         print("Converting fMRI data to FC matrices...")
         X, demo_data, demo_types = preprocess_fmri_to_fc(nii_files, demo_data, demo_types)
     # Train VAE and get data
     print("Training VAE...")
     vae, X, demo_data, demo_types = train_fc_vae(X, demo_data, demo_types, MODEL_CONFIG)
@@ -128,18 +145,18 @@ def run_fc_analysis(data_dir="SreekarB/OSFData",
     # Analyze results
     print("Analyzing demographic relationships...")
     demographics = {
-        'age_at_stroke': demo_data[0] if len(demo_data[0]) > 0 else np.zeros(len(X)),
-        'months_post_stroke': demo_data[2] if len(demo_data[2]) > 0 else np.zeros(len(X)),
-        'wab_score': demo_data[3] if len(demo_data[3]) > 0 else np.zeros(len(X))
     }
     analysis_results = analyze_fc_patterns(latents, demographics)
     # Generate new FC matrix
     print("Generating new FC matrices...")
     new_demographics = [
-        [60.0],  # age at stroke
-        ['M'],   # sex
-        [12.0],  # months post stroke
         [80.0]   # wab score
     ]
     generated_fc = vae.transform(1, new_demographics, demo_types)

 import io
 from typing import List, Dict, Union, Tuple, Any
+def load_data(data_dir="SreekarB/OSFData", demographic_file=None, use_hf_dataset=True):
     """
     Load fMRI data and demographics from HuggingFace dataset or local files
     """
         print(f"Loading dataset from HuggingFace: {data_dir}")
         dataset = load_dataset(data_dir)
+        print(f"Dataset columns: {dataset['train'].column_names}")
+        # Get demographics directly from the dataset
+        # Create a DataFrame from the dataset features
+        demo_df = pd.DataFrame({
+            'ID': dataset['train']['ID'],
+            'wab_aq': dataset['train']['wab_aq'],
+            'age': dataset['train']['age'],
+            'mpo': dataset['train']['mpo'],
+            'education': dataset['train']['education'],
+            'gender': dataset['train']['gender'],
+            'handedness': dataset['train']['handedness']
+        })
+        print(f"Loaded demographic data with {len(demo_df)} subjects")
+        # Extract demographic data matching our expected format
+        # Map the dataset columns to our expected format
         demo_data = [
+            demo_df['age'].values,  # age at stroke -> age
+            demo_df['gender'].values,  # sex -> gender
+            demo_df['mpo'].values,  # months post stroke -> mpo
+            demo_df['wab_aq'].values  # wab score -> wab_aq
         ]
+        # Check for FC matrices in the dataset
+        fc_columns = []
+        for col in dataset['train'].column_names:
+            if col.startswith("fc_") or "_fc" in col:
+                fc_columns.append(col)
+        if fc_columns:
+            print(f"Found {len(fc_columns)} FC matrix columns: {fc_columns}")
+            # Extract FC matrices
             fc_matrices = []
+            for fc_col in fc_columns:
+                fc_matrices.append(dataset['train'][fc_col])
+            # If we have FC matrices, return them directly
+            demo_types = ['continuous', 'categorical', 'continuous', 'continuous']
+            return fc_matrices, demo_data, demo_types
+        # If no FC matrices, look for .nii files
+        nii_files = []
+        for col in dataset['train'].column_names:
+            if col.endswith(".nii.gz") or col.endswith(".nii"):
+                nii_files.append(dataset['train'][col])
+        if nii_files:
+            print(f"Found {len(nii_files)} .nii files")
+        else:
+            print("No FC matrices or .nii files found in dataset. Will need to construct FC matrices.")
+            # If no structured data is found, we can try to download raw files later
     else:
         # Original local file loading
         # Load demographics
         demo_df = pd.read_csv(demographic_file)
         demo_data = [
+            demo_df['age_at_stroke'].values if 'age_at_stroke' in demo_df.columns else demo_df['age'].values,
+            demo_df['sex'].values if 'sex' in demo_df.columns else demo_df['gender'].values,
+            demo_df['months_post_stroke'].values if 'months_post_stroke' in demo_df.columns else demo_df['mpo'].values,
+            demo_df['wab_score'].values if 'wab_score' in demo_df.columns else demo_df['wab_aq'].values
         ]
         # Load fMRI files
     return nii_files, demo_data, demo_types
 def run_fc_analysis(data_dir="SreekarB/OSFData",
+                    demographic_file=None,
                     latent_dim=32,
                     nepochs=1000,
                     bsize=16,
     print("Loading data...")
     nii_files, demo_data, demo_types = load_data(data_dir, demographic_file, use_hf_dataset)
     # Check if we got FC matrices directly
+    if isinstance(nii_files, list) and len(nii_files) > 0 and hasattr(nii_files[0], 'shape'):
         print("Using pre-computed FC matrices...")
+        # Convert list of FC matrices to numpy array
+        X = np.stack([np.array(fc) for fc in nii_files])
     else:
         # Prepare data by converting fMRI to FC matrices
         print("Converting fMRI data to FC matrices...")
         X, demo_data, demo_types = preprocess_fmri_to_fc(nii_files, demo_data, demo_types)
+    # Print shapes and data types
+    print(f"X shape: {X.shape}, type: {type(X)}")
+    for i, d in enumerate(demo_data):
+        print(f"Demo data {i} shape: {d.shape if hasattr(d, 'shape') else len(d)}, type: {type(d)}")
     # Train VAE and get data
     print("Training VAE...")
     vae, X, demo_data, demo_types = train_fc_vae(X, demo_data, demo_types, MODEL_CONFIG)
     # Analyze results
     print("Analyzing demographic relationships...")
     demographics = {
+        'age': demo_data[0],
+        'months_post_onset': demo_data[2],
+        'wab_aq': demo_data[3]
     }
     analysis_results = analyze_fc_patterns(latents, demographics)
     # Generate new FC matrix
     print("Generating new FC matrices...")
     new_demographics = [
+        [60.0],  # age
+        ['M'],   # gender
+        [12.0],  # months post onset
         [80.0]   # wab score
     ]
     generated_fc = vae.transform(1, new_demographics, demo_types)