Spaces:

adejumobi
/

plos-gradio

Sleeping

App Files Files Community

adejumobi commited on Nov 18, 2025

Commit

6ef275d

verified ·

1 Parent(s): 2976edd

added contents to my app

Browse files

Files changed (1) hide show

app.py +478 -0

app.py ADDED Viewed

	@@ -0,0 +1,478 @@

+import gdown
+import pickle
+gdown.download(id="1_CzPJBkTMZ_xPnoHFAmzvxkioMnL99y7", output="all_models.pkl", quiet=False)
+gdown.download(id="1dVQ0gF4tdv_-5yny2FbAXIY2ftzc8s-9", output="all_tests.pkl", quiet=False)
+import pickle
+import pandas as pd
+import numpy as np
+from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
+from scipy.stats import ttest_rel
+import seaborn as sns
+import matplotlib.pyplot as plt
+import gradio as gr
+# Load pickles
+with open("all_models.pkl", "rb") as f:
+    all_models = pickle.load(f)
+with open("all_tests.pkl", "rb") as f:
+    all_tests = pickle.load(f)
+# Define model groups
+TREE_MODELS = ["RandomForest", "DecisionTree"]
+NON_TREE_MODELS = ["KNN", "SVM", "LogisticRegression"]
+ALL_MODELS = TREE_MODELS + NON_TREE_MODELS
+# Dataset categorization
+DATASET_CATEGORIES = {
+    "Medical & Healthcare": {
+        "D1": "Heart Disease (Comprehensive)",
+        "D2": "Heart attack possibility",
+        "D3": "Heart Disease Dataset",
+        "D4": "Liver Disorders",
+        "D5": "Diabetes Prediction",
+        "D9": "Chronic Kidney Disease",
+        "D10": "Breast Cancer Prediction",
+        "D11": "Stroke Prediction",
+        "D12": "Lung Cancer Prediction",
+        "D13": "Hepatitis",
+        "D15": "Thyroid Disease",
+        "D16": "Heart Failure Prediction",
+        "D17": "Parkinson's",
+        "D18": "Indian Liver Patient",
+        "D19": "COVID-19 Effect on Liver Cancer",
+        "D20": "Liver Dataset",
+        "D21": "Specht Heart",
+        "D22": "Early-stage Diabetes",
+        "D23": "Diabetic Retinopathy",
+        "D24": "Breast Cancer Coimbra",
+        "D25": "Chronic Kidney Disease",
+        "D26": "Kidney Stone",
+        "D28": "Echocardiogram",
+        "D29": "Bladder Cancer Recurrence",
+        "D31": "Prostate Cancer",
+        "D46": "Real Breast Cancer Data",
+        "D47": "Breast Cancer (Royston)",
+        "D48": "Lung Cancer Dataset",
+        "D52": "Cervical Cancer Risk",
+        "D53": "Breast Cancer Wisconsin",
+        "D61": "Breast Cancer Prediction",
+        "D62": "Thyroid Disease",
+        "D68": "Lung Cancer",
+        "D69": "Cancer Patients Data",
+        "D70": "Labor Relations",
+        "D71": "Glioma Grading",
+        "D74": "Post-Operative Patient",
+        "D80": "Heart Rate Stress Monitoring",
+        "D82": "Diabetes 2019",
+        "D87": "Personal Heart Disease Indicators",
+        "D92": "Heart Disease (Logistic)",
+        "D95": "Diabetes Prediction",
+        "D97": "Cardiovascular Disease",
+        "D98": "Diabetes 130 US Hospitals",
+        "D99": "Heart Disease Dataset",
+        "D181": "HCV Data",
+        "D184": "Cardiotocography",
+        "D189": "Mammographic Mass",
+        "D199": "Easiest Diabetes",
+        "D200": "Monkey-Pox Patients",
+        "D54": "Breast Cancer Wisconsin",
+        "D63": "Sick-euthyroid",
+        "D64": "Ann-test",
+        "D65": "Ann-train",
+        "D66": "Hypothyroid",
+        "D67": "New-thyroid",
+        "D72": "Glioma Grading",
+    },
+    "Gaming & Sports": {
+        "D27": "Chess King-Rook",
+        "D36": "Tic-Tac-Toe",
+        "D40": "IPL 2022 Matches",
+        "D41": "League of Legends",
+        "D55": "League of Legends Diamond",
+        "D56": "Chess Game Dataset",
+        "D57": "Game of Thrones",
+        "D73": "Connect-4",
+        "D75": "FIFA 2018",
+        "D76": "Dota 2 Matches",
+        "D77": "IPL Match Analysis",
+        "D78": "CS:GO Professional",
+        "D79": "IPL 2008-2022",
+        "D114": "Video Games",
+        "D115": "Video Games Sales",
+        "D117": "Sacred Games",
+        "D118": "PC Games Sales",
+        "D119": "Popular Video Games",
+        "D120": "Olympic Games 2021",
+        "D121": "Video Games ESRB",
+        "D122": "Top Play Store Games",
+        "D123": "Steam Games",
+        "D124": "PS4 Games",
+        "D116": "Video Games Sales",
+    },
+    "Education & Students": {
+        "D43": "Student Marks",
+        "D44": "Student 2nd Year Result",
+        "D45": "Student Mat Pass/Fail",
+        "D103": "Academic Performance",
+        "D104": "Student Academic Analysis",
+        "D105": "Student Dropout Prediction",
+        "D106": "Electronic Gadgets Impact",
+        "D107": "Campus Recruitment",
+        "D108": "End-Semester Performance",
+        "D109": "Fitbits and Grades",
+        "D110": "Student Time Management",
+        "D111": "Student Feedback",
+        "D112": "Depression & Performance",
+        "D113": "University Rankings",
+        "D126": "University Ranking CWUR",
+        "D127": "University Ranking CWUR 2013-2014",
+        "D128": "University Ranking CWUR 2014-2015",
+        "D129": "University Ranking CWUR 2015-2016",
+        "D130": "University Ranking CWUR 2016-2017",
+        "D131": "University Ranking CWUR 2017-2018",
+        "D132": "University Ranking CWUR 2018-2019",
+        "D133": "University Ranking CWUR 2019-2020",
+        "D134": "University Ranking CWUR 2020-2021",
+        "D135": "University Ranking CWUR 2021-2022",
+        "D136": "University Ranking CWUR 2022-2023",
+        "D137": "University Ranking GM 2016",
+        "D138": "University Ranking GM 2017",
+        "D139": "University Ranking GM 2018",
+        "D140": "University Ranking GM 2019",
+        "D141": "University Ranking GM 2020",
+        "D142": "University Ranking GM 2021",
+        "D143": "University Ranking GM 2022",
+        "D144": "University Ranking Webometric 2012",
+        "D145": "University Ranking Webometric 2013",
+        "D146": "University Ranking Webometric 2014",
+        "D147": "University Ranking Webometric 2015",
+        "D148": "University Ranking Webometric 2016",
+        "D149": "University Ranking Webometric 2017",
+        "D150": "University Ranking Webometric 2018",
+        "D151": "University Ranking Webometric 2019",
+        "D152": "University Ranking Webometric 2020",
+        "D153": "University Ranking Webometric 2021",
+        "D154": "University Ranking Webometric 2022",
+        "D155": "University Ranking Webometric 2023",
+        "D156": "University Ranking URAP 2018-2019",
+        "D157": "University Ranking URAP 2019-2020",
+        "D158": "University Ranking URAP 2020-2021",
+        "D159": "University Ranking URAP 2021-2022",
+        "D160": "University Ranking URAP 2022-2023",
+        "D161": "University Ranking THE 2011",
+        "D162": "University Ranking THE 2012",
+        "D163": "University Ranking THE 2013",
+        "D164": "University Ranking THE 2014",
+        "D165": "University Ranking THE 2015",
+        "D166": "University Ranking THE 2016",
+        "D167": "University Ranking THE 2017",
+        "D168": "University Ranking THE 2018",
+        "D169": "University Ranking THE 2019",
+        "D170": "University Ranking THE 2020",
+        "D171": "University Ranking THE 2021",
+        "D172": "University Ranking THE 2022",
+        "D173": "University Ranking THE 2023",
+        "D174": "University Ranking QS 2022",
+        "D190": "Student Academics Performance"
+    },
+    "Banking & Finance": {
+        "D6": "Bank Marketing 1",
+        "D7": "Bank Marketing 2",
+        "D30": "Adult Income",
+        "D32": "Telco Customer Churn",
+        "D35": "Credit Approval",
+        "D50": "Term Deposit Prediction",
+        "D96": "Credit Card Fraud",
+        "D188": "South German Credit",
+        "D193": "Credit Risk Classification",
+        "D195": "Credit Score Classification",
+        "D196": "Banking Classification"
+    },
+    "Science & Engineering": {
+        "D8": "Mushroom",
+        "D14": "Ionosphere",
+        "D33": "EEG Eye State",
+        "D37": "Steel Plates Faults",
+        "D39": "Fertility",
+        "D51": "Darwin",
+        "D58": "EEG Emotions",
+        "D81": "Predictive Maintenance",
+        "D84": "Oranges vs Grapefruit",
+        "D90": "Crystal System Li-ion",
+        "D183": "Drug Consumption",
+        "D49": "Air Pressure System Failures",
+        "D93": "Air Pressure System Failures",
+        "D185": "Toxicity",
+        "D186": "Toxicity",
+    },
+    "Social & Lifestyle": {
+        "D38": "Online Shoppers",
+        "D59": "Red Wine Quality",
+        "D60": "White Wine Quality",
+        "D88": "Airline Passenger Satisfaction",
+        "D94": "Go Emotions Google",
+        "D100": "Spotify East Asian",
+        "D125": "Suicide Rates",
+        "D182": "Obesity Levels",
+        "D187": "Blood Transfusion",
+        "D191": "Obesity Classification",
+        "D192": "Gender Classification",
+        "D194": "Happiness Classification",
+        "D42": "Airline customer Holiday Booking dataset"
+    },
+    "ML Benchmarks & Synthetic": {
+        "D34": "Spambase",
+        "D85": "Synthetic Binary",
+        "D89": "Naive Bayes Data",
+        "D175": "Monk's Problems 1",
+        "D176": "Monk's Problems 2",
+        "D177": "Monk's Problems 3",
+        "D178": "Monk's Problems 4",
+        "D179": "Monk's Problems 5",
+        "D180": "Monk's Problems 6"
+    },
+    "Other": {
+        "D83": "Paris Housing",
+        "D91": "Fake Bills",
+        "D197": "Star Classification"
+    }
+}
+def compute_metrics(datasets_list, selected_models, metric_for_comparison):
+    """Compute metrics and stats for selected datasets and models"""
+    # Handle "All models" selection
+    if "All models" in selected_models:
+        selected_models = ALL_MODELS
+    records = []
+    # Compute metrics for each dataset-model combo
+    for ds in datasets_list:
+        if ds not in all_tests or ds not in all_models:
+            continue
+        X_test = all_tests[ds]["X_test"]
+        y_test = all_tests[ds]["y_test"]
+        for model_name in selected_models:
+            if model_name not in all_models[ds]:
+                continue
+            model = all_models[ds][model_name]
+            y_pred = model.predict(X_test)
+            records.append({
+                "dataset": ds,
+                "model": model_name,
+                "accuracy": accuracy_score(y_test, y_pred),
+                "precision": precision_score(y_test, y_pred, average='weighted', zero_division=0),
+                "recall": recall_score(y_test, y_pred, average='weighted', zero_division=0),
+                "f1_score": f1_score(y_test, y_pred, average='weighted', zero_division=0)
+            })
+    df = pd.DataFrame(records)
+    if df.empty:
+        return df, pd.DataFrame(), None
+    # Statistical comparisons
+    stat_records = []
+    models_list = df['model'].unique().tolist()
+    for i, m1 in enumerate(models_list):
+        for m2 in models_list[i+1:]:
+            m1_vals = df[df['model'] == m1].set_index('dataset')[metric_for_comparison]
+            m2_vals = df[df['model'] == m2].set_index('dataset')[metric_for_comparison]
+            combined = pd.concat([m1_vals, m2_vals], axis=1, keys=['m1', 'm2']).dropna()
+            if len(combined) < 2:
+                continue
+            t_stat, p_val = ttest_rel(combined['m1'], combined['m2'])
+            stat_records.append({
+                "model1": m1,
+                "model2": m2,
+                "mean_diff": combined['m1'].mean() - combined['m2'].mean(),
+                "t_stat": t_stat,
+                "p_value": p_val,
+                "significant": "Yes" if p_val < 0.05 else "No"
+            })
+    stat_df = pd.DataFrame(stat_records)
+    # Create visualization
+    fig = create_heatmap(df, metric_for_comparison)
+    return df, stat_df, fig
+def create_heatmap(df, metric):
+    """Create metric by dataset heatmap"""
+    # Create heatmap of metric by dataset and model
+    pivot = df.pivot_table(values=metric, index='dataset', columns='model')
+    fig, ax = plt.subplots(figsize=(12, max(8, len(pivot) * 0.4)))
+    sns.heatmap(pivot, annot=True, fmt='.3f', cmap='viridis', ax=ax, cbar_kws={'label': metric.capitalize()})
+    ax.set_title(f'{metric.capitalize()} by Dataset and Model', fontsize=14, fontweight='bold')
+    ax.set_xlabel('Model', fontsize=12)
+    ax.set_ylabel('Dataset', fontsize=12)
+    plt.tight_layout()
+    return fig
+def run_evaluation(selected_datasets, selected_models, metric_comparison):
+    """Main evaluation function"""
+    if not selected_datasets:
+        empty = gr.update(value=None, visible=False)
+        return "Please select datasets", empty, empty, empty, empty
+    if not selected_models:
+        selected_models = ["All models"]
+    # Ensure metric_comparison is a list
+    if isinstance(metric_comparison, str):
+        metric_comparison = [metric_comparison]
+    if not metric_comparison:
+        empty = gr.update(value=None, visible=False)
+        return "Please select at least one metric", empty, empty, empty, empty
+    # Compute metrics once
+    df, _, _ = compute_metrics(selected_datasets, selected_models, metric_comparison[0])
+    if df.empty:
+        empty = gr.update(value=None, visible=False)
+        return "No results found", empty, empty, empty, empty
+    # Create stats and figures for EACH selected metric
+    all_stats_html = ""
+    outputs = []
+    for i, metric in enumerate(metric_comparison):
+        if i >= 4:
+            break
+        _, stat_df, fig = compute_metrics(selected_datasets, selected_models, metric)
+        if not stat_df.empty:
+            stats_html = f"""
+            <h3>Statistical Tests ({metric})</h3>
+            <p>Paired t-tests comparing model performance (* = significant at p < 0.05)</p>
+            {stat_df.to_html(index=False, float_format='%.4f')}
+            <hr>
+            """
+            all_stats_html += stats_html
+        outputs.append(gr.update(value=fig, visible=True))
+    # Fill remaining slots with hidden empty plots
+    while len(outputs) < 4:
+        outputs.append(gr.update(value=None, visible=False))
+    if not all_stats_html:
+        all_stats_html = "<p>Not enough data for statistical comparisons</p>"
+    return all_stats_html, outputs[0], outputs[1], outputs[2], outputs[3]
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown("""
+    # Model Evaluation Platform
+    ### Compare model performance across different datasets
+    """)
+    selected_datasets = gr.State([])
+    with gr.Row():
+        with gr.Column(scale=1):
+            gr.Markdown("### Select Datasets")
+            # Get available datasets
+            available = list(all_models.keys())
+            # Create dropdowns
+            dropdowns = []
+            for category, datasets in DATASET_CATEGORIES.items():
+                choices = [f"{did}: {name}" for did, name in datasets.items() if did in available]
+                if choices:
+                    dd = gr.Dropdown(
+                        choices=choices,
+                        label=f"{category} ({len(choices)})",
+                        multiselect=True,
+                        value=[]
+                    )
+                    dropdowns.append(dd)
+        with gr.Column(scale=1):
+            gr.Markdown("### Evaluation Settings")
+            summary = gr.Markdown("**0 datasets selected**")
+            model_input = gr.Dropdown(
+                choices=["All models"] + ALL_MODELS,
+                label="Models",
+                value=["All models"],
+                multiselect=True
+            )
+            metric_comparison = gr.Dropdown(
+                choices=["accuracy", "precision", "recall", "f1_score"],
+                label="Primary Metric",
+                value="accuracy",
+                multiselect=True
+            )
+            run_btn = gr.Button("Run Evaluation", variant="primary", size="lg")
+    def update_selection(*dropdown_values):
+        ids = []
+        for vals in dropdown_values:
+            if vals:
+                ids.extend([v.split(":")[0] for v in vals])
+        ids = sorted(list(set(ids)))
+        if ids:
+            summary_text = f"**✓ {len(ids)} dataset{'s' if len(ids) != 1 else ''} selected:** {', '.join(ids)}"
+        else:
+            summary_text = "**No datasets selected**"
+        return summary_text, ids
+    for dd in dropdowns:
+        dd.change(update_selection, inputs=dropdowns, outputs=[summary, selected_datasets])
+    gr.Markdown("---")
+    gr.Markdown("## Evaluation Results")
+    output_stats = gr.HTML(label="Statistical Tests")
+    #heatmap_output = gr.Plot(label="Performance Heatmap")
+    #heatmap_output = gr.Gallery(label="Performance Heatmaps", columns=2, height="auto")
+    with gr.Column():
+            heatmap_output_1 = gr.Plot(label="Heatmap 1")
+            heatmap_output_2 = gr.Plot(label="Heatmap 2")
+            heatmap_output_3 = gr.Plot(label="Heatmap 3")
+            heatmap_output_4 = gr.Plot(label="Heatmap 4")
+    run_btn.click(
+    run_evaluation,
+    inputs=[selected_datasets, model_input, metric_comparison],
+    outputs=[
+        output_stats,
+        heatmap_output_1, heatmap_output_2, heatmap_output_3, heatmap_output_4]
+)
+if __name__ == "__main__":
+    demo.launch()