Spaces:

rtik007
/

AnomalyDetectionExample2

Sleeping

App Files Files Community

rtik007 commited on Nov 23, 2024

Commit

83ce25d

verified ·

1 Parent(s): c4e463e

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -82

app.py CHANGED Viewed

@@ -1,55 +1,4 @@
-import numpy as np
-import pandas as pd
-from sklearn.datasets import make_classification, make_blobs, make_moons
-from sklearn.ensemble import IsolationForest
-from sklearn.metrics import roc_curve, auc
-import matplotlib.pyplot as plt
-import gradio as gr
-from sklearn.covariance import EllipticEnvelope
-from sklearn.neighbors import LocalOutlierFactor
-from sklearn.linear_model import SGDOneClassSVM
-from sklearn.pipeline import make_pipeline
-from sklearn.kernel_approximation import Nystroem
-from sklearn import svm
-import time
-from functools import partial
-# Generate synthetic data with 20 features
-np.random.seed(42)
-X, _ = make_classification(
-    n_samples=500,
-    n_features=20,
-    n_informative=10,
-    n_redundant=5,
-    n_clusters_per_class=1,
-    random_state=42
-)
-outliers = np.random.uniform(low=-6, high=6, size=(50, 20))  # Add outliers
-X = np.vstack([X, outliers])
-# Convert to DataFrame
-columns = [f"Feature{i+1}" for i in range(20)]
-df = pd.DataFrame(X, columns=columns)
-# Fit Isolation Forest
-iso_forest = IsolationForest(
-    n_estimators=100,
-    max_samples=256,
-    contamination=0.1,
-    random_state=42
-)
-iso_forest.fit(df)
-# Predict anomaly scores
-anomaly_scores = iso_forest.decision_function(df)  # Negative values indicate anomalies
-anomaly_labels = iso_forest.predict(df)  # -1 for anomaly, 1 for normal
-# Add results to DataFrame
-df["Anomaly_Score"] = anomaly_scores
-df["Anomaly_Label"] = np.where(anomaly_labels == -1, "Anomaly", "Normal")
-# Functions for Anomaly Detection Algorithms tab
 def train_models(input_data, outliers_fraction, n_samples, clf_name):
     """Train anomaly detection models and plot results."""
     n_outliers = int(outliers_fraction * n_samples)
@@ -85,6 +34,11 @@ def train_models(input_data, outliers_fraction, n_samples, clf_name):
     X = DATA_MAPPING[input_data]
     rng = np.random.RandomState(42)
     X = np.concatenate([X, rng.uniform(low=-6, high=6, size=(n_outliers, 2))], axis=0)
     t0 = time.time()
     clf.fit(X)
     t1 = time.time()
@@ -100,7 +54,7 @@ def train_models(input_data, outliers_fraction, n_samples, clf_name):
         plt.contour(xx, yy, Z, levels=[0], linewidths=2, colors="black")
     colors = np.array(["#377eb8", "#ff7f00"])
-    plt.scatter(X[:, 0], X[:, 1], s=30, color=colors[(y_pred + 1) // 2])
     plt.xlim(-7, 7)
     plt.ylim(-7, 7)
@@ -108,32 +62,3 @@ def train_models(input_data, outliers_fraction, n_samples, clf_name):
     plt.yticks(())
     plt.title(f"{clf_name} (time: {t1 - t0:.2f}s)")
     return plt
-# Create Gradio interface
-with gr.Blocks() as demo:
-    gr.Markdown("# Anomaly Detection Algorithms Comparison")
-    input_models = [
-        "Robust covariance", "One-Class SVM", "One-Class SVM (SGD)", "Isolation Forest", "Local Outlier Factor"
-    ]
-    input_data = gr.Radio(
-        choices=["Central Blob", "Two Blobs", "Blob with Noise", "Moons", "Noise"],
-        value="Moons",
-        label="Dataset Type"
-    )
-    n_samples = gr.Slider(
-        minimum=100, maximum=500, step=25, value=300, label="Number of Samples"
-    )
-    outliers_fraction = gr.Slider(
-        minimum=0.1, maximum=0.9, step=0.1, value=0.2, label="Outlier Fraction"
-    )
-    for clf_name in input_models:
-        plot = gr.Plot(label=clf_name)
-        fn = partial(train_models, clf_name=clf_name)
-        input_data.change(fn=fn, inputs=[input_data, outliers_fraction, n_samples], outputs=plot)
-        n_samples.change(fn=fn, inputs=[input_data, outliers_fraction, n_samples], outputs=plot)
-        outliers_fraction.change(fn=fn, inputs=[input_data, outliers_fraction, n_samples], outputs=plot)
-demo.launch()

+# Updated train_models function with feature name compatibility for IsolationForest
 def train_models(input_data, outliers_fraction, n_samples, clf_name):
     """Train anomaly detection models and plot results."""
     n_outliers = int(outliers_fraction * n_samples)
     X = DATA_MAPPING[input_data]
     rng = np.random.RandomState(42)
     X = np.concatenate([X, rng.uniform(low=-6, high=6, size=(n_outliers, 2))], axis=0)
+    # Convert X to DataFrame if using IsolationForest to ensure feature names
+    if clf_name == "Isolation Forest":
+        X = pd.DataFrame(X, columns=["Feature1", "Feature2"])
     t0 = time.time()
     clf.fit(X)
     t1 = time.time()
         plt.contour(xx, yy, Z, levels=[0], linewidths=2, colors="black")
     colors = np.array(["#377eb8", "#ff7f00"])
+    plt.scatter(X.iloc[:, 0], X.iloc[:, 1], s=30, color=colors[(y_pred + 1) // 2])
     plt.xlim(-7, 7)
     plt.ylim(-7, 7)
     plt.yticks(())
     plt.title(f"{clf_name} (time: {t1 - t0:.2f}s)")
     return plt