Spaces:

VLAI-AIVN
/

AIO2025M03_HEART_DISEASE_PREDICTION

Running

App Files Files Community

wjnwjn59 commited on Sep 13

Commit

b99dcff

1 Parent(s): a9c2222

update dataset

Browse files

Files changed (1) hide show

app.py +27 -6

app.py CHANGED Viewed

@@ -42,7 +42,7 @@ force_light_theme_js = """
 }
 """
-def init_page():
     """Load dataset, train models, and return status, preview, metrics."""
     if not os.path.exists(DATA_PATH):
         msg = f"❌ Dataset not found at '{DATA_PATH}'. Please place Cleveland CSV there."
@@ -50,13 +50,15 @@ def init_page():
     df = load_cleveland_dataframe(file_path=DATA_PATH)
-    models, metrics = fit_all_models(df)
     STATE["df"] = df
     STATE["models"] = models
     STATE["metrics"] = metrics
     head = df.head(8)
-    msg = "✅ Cleveland dataset loaded from `data/cleveland.csv` and models trained (80/20 split)."
     return msg, head, metrics
@@ -188,9 +190,20 @@ with gr.Blocks(theme="gstaff/sketch", css=vlai_template.custom_css, fill_width=T
         # LEFT: data preview + inputs
         with gr.Column(scale=45):
             with gr.Accordion("📁 Dataset & Model Status", open=True):
                 status_md = gr.Markdown("Loading dataset and training models...")
                 preview = gr.DataFrame(label="Cleveland Preview (first rows)", interactive=False)
-                metrics_df = gr.DataFrame(label="Validation Metrics (80/20 split)", interactive=False)
             with gr.Accordion("✍️ Enter Patient Features", open=True):
                 with gr.Row():
@@ -244,8 +257,9 @@ with gr.Blocks(theme="gstaff/sketch", css=vlai_template.custom_css, fill_width=T
     gr.Markdown("""
     ## 📋 **Notes**
-    - **Models are trained once at launch** on `data/cleveland.csv` (80/20 split).
     - **Target is binarized automatically** (0 = no disease, >0 = disease).
     - **Seven optimized models are compared**: Decision Tree, k-NN, Naive Bayes, Random Forest, AdaBoost, Gradient Boosting, and XGBoost.
     - **Hyperparameters are optimized** for heart disease prediction tasks using best practices.
     - **Ensemble uses weighted soft voting** with optimized weights based on model performance.
@@ -276,7 +290,14 @@ with gr.Blocks(theme="gstaff/sketch", css=vlai_template.custom_css, fill_width=T
     vlai_template.create_footer()
     # Bind events
-    demo.load(fn=init_page, inputs=None, outputs=[status_md, preview, metrics_df])
     # Auto-fill when example is selected
     ex_selector.change(

 }
 """
+def init_page(train_split):
     """Load dataset, train models, and return status, preview, metrics."""
     if not os.path.exists(DATA_PATH):
         msg = f"❌ Dataset not found at '{DATA_PATH}'. Please place Cleveland CSV there."
     df = load_cleveland_dataframe(file_path=DATA_PATH)
+    # Convert train_split percentage to test_size for sklearn
+    test_size = (100 - train_split) / 100
+    models, metrics = fit_all_models(df, test_size=test_size)
     STATE["df"] = df
     STATE["models"] = models
     STATE["metrics"] = metrics
     head = df.head(8)
+    msg = f"✅ Cleveland dataset loaded from `data/cleveland.csv` and models trained ({train_split}/{100-train_split} split)."
     return msg, head, metrics
         # LEFT: data preview + inputs
         with gr.Column(scale=45):
             with gr.Accordion("📁 Dataset & Model Status", open=True):
+                with gr.Row():
+                    train_split = gr.Slider(
+                        minimum=60,
+                        maximum=90,
+                        value=80,
+                        step=5,
+                        label="Training Split (%)",
+                        info="Percentage of data used for training (remaining for validation)"
+                    )
+                    retrain_btn = gr.Button("🔄 Retrain Models", variant="secondary")
                 status_md = gr.Markdown("Loading dataset and training models...")
                 preview = gr.DataFrame(label="Cleveland Preview (first rows)", interactive=False)
+                metrics_df = gr.DataFrame(label="Validation Metrics", interactive=False)
             with gr.Accordion("✍️ Enter Patient Features", open=True):
                 with gr.Row():
     gr.Markdown("""
     ## 📋 **Notes**
+    - **Models are trained at launch** on `data/cleveland.csv` with customizable train/validation split (default 80/20).
     - **Target is binarized automatically** (0 = no disease, >0 = disease).
+    - **Retrain functionality**: Adjust the split ratio and click "🔄 Retrain Models" to see how data size affects performance.
     - **Seven optimized models are compared**: Decision Tree, k-NN, Naive Bayes, Random Forest, AdaBoost, Gradient Boosting, and XGBoost.
     - **Hyperparameters are optimized** for heart disease prediction tasks using best practices.
     - **Ensemble uses weighted soft voting** with optimized weights based on model performance.
     vlai_template.create_footer()
     # Bind events
+    demo.load(fn=init_page, inputs=[train_split], outputs=[status_md, preview, metrics_df])
+    # Retrain models when split changes or button is clicked
+    retrain_btn.click(
+        fn=init_page,
+        inputs=[train_split],
+        outputs=[status_md, preview, metrics_df]
+    )
     # Auto-fill when example is selected
     ex_selector.change(