Spaces:

Spencer525
/

IndSensor

Sleeping

App Files Files Community

Spencer525 commited on Sep 13, 2024

Commit

3972ce2

verified ·

1 Parent(s): 9818823

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -18

app.py CHANGED Viewed

@@ -5,8 +5,8 @@ from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
 from sklearn.metrics import silhouette_score
 from sklearn.preprocessing import StandardScaler
 from statsmodels.tsa.arima.model import ARIMA
-import matplotlib.pyplot as plt
-import seaborn as sns
 # Streamlit app title
 st.title('Clustering and Time Series Analysis')
@@ -23,13 +23,10 @@ if uploaded_file is not None:
     numerical_cols = data.select_dtypes(include=[np.number]).columns.tolist()
     st.write("Numerical columns for clustering:", numerical_cols)
-    # Option to scale data or not
-    scale_data = st.checkbox("Scale Data", value=True)
-    if scale_data:
-        scaler = StandardScaler()
-        data_scaled = scaler.fit_transform(data[numerical_cols])
-    else:
-        data_scaled = data[numerical_cols].values
     # Step 3: Clustering Algorithm Selection
     clustering_method = st.selectbox("Choose a clustering method", ["K-Means", "Hierarchical Clustering", "DBSCAN"])
@@ -61,11 +58,13 @@ if uploaded_file is not None:
         else:
             st.write("DBSCAN did not form valid clusters. Try adjusting eps or min_samples.")
-    # Step 4: Visualize the clusters if valid
     if len(set(cluster_labels)) > 1:
         st.write("Cluster Labels:", np.unique(cluster_labels))
-        sns.scatterplot(x=data_scaled[:, 0], y=data_scaled[:, 1], hue=cluster_labels, palette='Set1')
-        st.pyplot(plt)
     # Step 5: ARIMA Time Series Analysis
     # Checking if there are any time-related columns
@@ -89,11 +88,11 @@ if uploaded_file is not None:
         # Display ARIMA result summary
         st.write(arima_result.summary())
-        # Plotting the original and forecast
-        fig, ax = plt.subplots()
-        arima_result.plot_predict(dynamic=False, ax=ax)
-        st.pyplot(fig)
     # Step 6: Create Silhouette Score Table for K-Means and Hierarchical Clustering
     st.write("### Silhouette Score Table for 2-7 Clusters")
@@ -115,4 +114,24 @@ if uploaded_file is not None:
         silhouette_scores['Hierarchical Silhouette Score'].append(hierarchical_silhouette)
     silhouette_df = pd.DataFrame(silhouette_scores)
-    st.write(silhouette_df)

 from sklearn.metrics import silhouette_score
 from sklearn.preprocessing import StandardScaler
 from statsmodels.tsa.arima.model import ARIMA
+import plotly.express as px
+import plotly.graph_objects as go
 # Streamlit app title
 st.title('Clustering and Time Series Analysis')
     numerical_cols = data.select_dtypes(include=[np.number]).columns.tolist()
     st.write("Numerical columns for clustering:", numerical_cols)
+    # Step 2.1: Data Standardization using StandardScaler (always applied)
+    scaler = StandardScaler()
+    data_scaled = scaler.fit_transform(data[numerical_cols])
+    st.write("Data has been standardized using StandardScaler.")
     # Step 3: Clustering Algorithm Selection
     clustering_method = st.selectbox("Choose a clustering method", ["K-Means", "Hierarchical Clustering", "DBSCAN"])
         else:
             st.write("DBSCAN did not form valid clusters. Try adjusting eps or min_samples.")
+    # Step 4: Visualize the clusters using Plotly
     if len(set(cluster_labels)) > 1:
         st.write("Cluster Labels:", np.unique(cluster_labels))
+        fig = px.scatter(x=data_scaled[:, 0], y=data_scaled[:, 1], color=cluster_labels, title="Clustering Results",
+                         labels={'x': numerical_cols[0], 'y': numerical_cols[1]})
+        st.plotly_chart(fig)
     # Step 5: ARIMA Time Series Analysis
     # Checking if there are any time-related columns
         # Display ARIMA result summary
         st.write(arima_result.summary())
+        # Plotting the ARIMA results
+        fig = go.Figure()
+        arima_result.plot_predict(dynamic=False, ax=fig.add_subplot(1, 1, 1))
+        st.plotly_chart(fig)
     # Step 6: Create Silhouette Score Table for K-Means and Hierarchical Clustering
     st.write("### Silhouette Score Table for 2-7 Clusters")
         silhouette_scores['Hierarchical Silhouette Score'].append(hierarchical_silhouette)
     silhouette_df = pd.DataFrame(silhouette_scores)
+    # Plot the Silhouette Score Table using Plotly
+    fig = go.Figure()
+    # Plot K-Means Silhouette Scores
+    fig.add_trace(go.Scatter(x=silhouette_df['Number of Clusters'], y=silhouette_df['K-Means Silhouette Score'],
+                             mode='lines+markers', name='K-Means Silhouette Score'))
+    # Plot Hierarchical Silhouette Scores
+    fig.add_trace(go.Scatter(x=silhouette_df['Number of Clusters'], y=silhouette_df['Hierarchical Silhouette Score'],
+                             mode='lines+markers', name='Hierarchical Silhouette Score'))
+    # Set the y-axis range from -1 to 1 with intervals of 0.2
+    fig.update_layout(
+        title="Silhouette Scores for K-Means and Hierarchical Clustering",
+        xaxis_title="Number of Clusters",
+        yaxis_title="Silhouette Score",
+        yaxis=dict(range=[-1, 1], dtick=0.2)
+    )
+    st.plotly_chart(fig)