Spaces:

rtik007
/

AnomalyDetectionExample2

Sleeping

App Files Files Community

rtik007 commited on Nov 23, 2024

Commit

f8721a9

verified ·

1 Parent(s): ca7fd2c

Update app.py

Browse files

Files changed (1) hide show

app.py +66 -12

app.py CHANGED Viewed

@@ -13,8 +13,8 @@ import pandas as pd
 import time
 # Helper function to prepare data
-def prepare_data(input_data, n_samples, outliers_fraction=0.0):
-    n_outliers = int(outliers_fraction * n_samples)
     n_inliers = n_samples - n_outliers
     blobs_params = dict(random_state=0, n_samples=n_inliers, n_features=2)
@@ -35,6 +35,9 @@ def prepare_data(input_data, n_samples, outliers_fraction=0.0):
 # Function to train models and generate plots
 def train_models(input_data, outliers_fraction, n_samples, clf_name):
     X, _ = prepare_data(input_data, n_samples, outliers_fraction)
     # Define classifiers
@@ -130,20 +133,20 @@ def detect_anomalies(input_data, n_samples, outliers_fraction, model_name):
 # Function to get anomaly samples
 def get_anomaly_samples(input_data, n_samples, outliers_fraction, model_name):
     df = detect_anomalies(input_data, n_samples, outliers_fraction, model_name)
-    # Debugging: Check the distribution of anomaly labels
-    print("Anomaly Label Counts:")
-    print(df["Anomaly_Label"].value_counts())
     # Top 10 anomalies
     top_10 = df[df["Anomaly_Label"] == "Anomaly"].head(10)
-    # If no anomalies are found, show a message
     if top_10.empty:
         top_10 = pd.DataFrame({"Message": ["No anomalies found"]})
-    # Middle 10 (mixed)
     mid_start = len(df) // 2 - 5
     middle_10 = df.iloc[mid_start: mid_start + 10]
@@ -152,25 +155,76 @@ def get_anomaly_samples(input_data, n_samples, outliers_fraction, model_name):
     return top_10, middle_10, bottom_10
 # Gradio Interface
 with gr.Blocks() as demo:
-    gr.Markdown("## Anomaly Detection App")
     input_data = gr.Radio(
         choices=["Central Blob", "Two Blobs", "Blob with Noise", "Moons", "Noise"],
         value="Moons",
         label="Dataset"
     )
     n_samples = gr.Slider(minimum=10, maximum=10000, step=25, value=500, label="Number of Samples")
-    outliers_fraction = gr.Slider(minimum=0.001, maximum=0.999, step=0.1, value=0.2, label="Fraction of Outliers")
-    model_dropdown = gr.Dropdown(choices=["Robust covariance", "One-Class SVM", "One-Class SVM (SGD)", "Isolation Forest", "Local Outlier Factor"], label="Select Model")
-    # Anomaly Samples Output
     top_table = gr.Dataframe(label="Top 10 Anomalies")
     middle_table = gr.Dataframe(label="Middle 10 Records")
     bottom_table = gr.Dataframe(label="Bottom 10 Normals")
     anomaly_samples_button = gr.Button("Show Anomaly Samples")
     anomaly_samples_button.click(
-        fn=get_anomaly_samples,
         inputs=[input_data, n_samples, outliers_fraction, model_dropdown],
         outputs=[top_table, middle_table, bottom_table],
     )

 import time
 # Helper function to prepare data
+def prepare_data(input_data, n_samples, outliers_fraction=0.01):
+    n_outliers = max(int(outliers_fraction * n_samples), 1)  # At least 1 outlier
     n_inliers = n_samples - n_outliers
     blobs_params = dict(random_state=0, n_samples=n_inliers, n_features=2)
 # Function to train models and generate plots
 def train_models(input_data, outliers_fraction, n_samples, clf_name):
+    # Ensure contamination is valid
+    outliers_fraction = max(outliers_fraction, 0.01)  # At least 0.01
     X, _ = prepare_data(input_data, n_samples, outliers_fraction)
     # Define classifiers
 # Function to get anomaly samples
 def get_anomaly_samples(input_data, n_samples, outliers_fraction, model_name):
+    outliers_fraction = max(outliers_fraction, 0.01)  # Ensure fraction is valid
     df = detect_anomalies(input_data, n_samples, outliers_fraction, model_name)
+    # Debugging: Check anomaly label counts
+    print("Anomaly Label Counts:", df["Anomaly_Label"].value_counts())
     # Top 10 anomalies
     top_10 = df[df["Anomaly_Label"] == "Anomaly"].head(10)
     if top_10.empty:
+        print("No anomalies found in Top 10 Anomalies.")
         top_10 = pd.DataFrame({"Message": ["No anomalies found"]})
+    # Middle 10 (mixed records)
     mid_start = len(df) // 2 - 5
     middle_10 = df.iloc[mid_start: mid_start + 10]
     return top_10, middle_10, bottom_10
+# Function to plot scatter plots
+def plot_interactive_feature_scatter(input_data, feature_x, feature_y, n_samples):
+    data, _ = prepare_data(input_data, n_samples)
+    x_data = data[:, 0] if feature_x == "Feature1" else data[:, 1]
+    y_data = data[:, 1] if feature_y == "Feature2" else data[:, 0]
+    plt.figure(figsize=(6, 6))
+    plt.scatter(x_data, y_data, alpha=0.8, c="blue", s=20, label="Features")
+    plt.title(f"Feature Interaction Scatter Plot - {feature_x} vs {feature_y}")
+    plt.xlabel(feature_x)
+    plt.ylabel(feature_y)
+    plt.legend()
+    return plt.gcf()
 # Gradio Interface
 with gr.Blocks() as demo:
+    gr.Markdown("## 🕵️‍♀️ Anomaly Detection App 🕵️‍♂️")
+    # Interactive Feature Scatter Plot
+    gr.Markdown("### 1. Interactive Feature Scatter Plot")
     input_data = gr.Radio(
         choices=["Central Blob", "Two Blobs", "Blob with Noise", "Moons", "Noise"],
         value="Moons",
         label="Dataset"
     )
+    feature_x = gr.Dropdown(choices=["Feature1", "Feature2"], value="Feature1", label="Feature 1")
+    feature_y = gr.Dropdown(choices=["Feature1", "Feature2"], value="Feature2", label="Feature 2")
     n_samples = gr.Slider(minimum=10, maximum=10000, step=25, value=500, label="Number of Samples")
+    scatter_plot_button = gr.Button("Generate Scatter Plot")
+    scatter_plot = gr.Plot(label="Feature Scatter Plot")
+    scatter_plot_button.click(
+        fn=plot_interactive_feature_scatter,
+        inputs=[input_data, feature_x, feature_y, n_samples],
+        outputs=scatter_plot,
+    )
+    # Compare Anomaly Detection Algorithms
+    gr.Markdown("### 2. Compare Anomaly Detection Algorithms")
+    outliers_fraction = gr.Slider(minimum=0.001, maximum=0.999, step=0.1, value=0.2, label="Fraction of Outliers")
+    input_models = ["Robust covariance", "One-Class SVM", "One-Class SVM (SGD)", "Isolation Forest", "Local Outlier Factor"]
+    plots = []
+    with gr.Row():
+        for model_name in input_models:
+            plot = gr.Plot(label=model_name)
+            plots.append((model_name, plot))
+    def update_anomaly_comparison(input_data, outliers_fraction, n_samples):
+        results = []
+        for clf_name, plot in plots:
+            fig = train_models(input_data, outliers_fraction, n_samples, clf_name)
+            results.append(fig)
+        return results
+    anomaly_inputs = [input_data, outliers_fraction, n_samples]
+    anomaly_outputs = [plot for _, plot in plots]
+    input_data.change(fn=update_anomaly_comparison, inputs=anomaly_inputs, outputs=anomaly_outputs)
+    n_samples.change(fn=update_anomaly_comparison, inputs=anomaly_inputs, outputs=anomaly_outputs)
+    outliers_fraction.change(fn=update_anomaly_comparison, inputs=anomaly_inputs, outputs=anomaly_outputs)
+    # Example Anomaly Records
+    gr.Markdown("### 3. Example Anomaly Records")
+    model_dropdown = gr.Dropdown(choices=input_models, value="Isolation Forest", label="Select Model")
     top_table = gr.Dataframe(label="Top 10 Anomalies")
     middle_table = gr.Dataframe(label="Middle 10 Records")
     bottom_table = gr.Dataframe(label="Bottom 10 Normals")
     anomaly_samples_button = gr.Button("Show Anomaly Samples")
     anomaly_samples_button.click(
+        fn=get_anomaly_samples,
         inputs=[input_data, n_samples, outliers_fraction, model_dropdown],
         outputs=[top_table, middle_table, bottom_table],
     )