Added multivariate analysis graphs · SandyTheAdventurer/PredictCustomerChurn at 32bec34

@@ -1,12 +1,41 @@
 import pandas as pd
 import matplotlib.pyplot as plt
-from sklearn.preprocessing import LabelEncoder
 from sklearn.model_selection import train_test_split
 dataset = pd.read_csv("data.csv")
 dataset.drop(columns=['customerID'], inplace=True)
 encoder = LabelEncoder()
 for column in dataset.select_dtypes(include=['object']).columns:
-    dataset[column] = encoder.fit_transform(dataset[column])

 import pandas as pd
 import matplotlib.pyplot as plt
+import seaborn as sns
+from sklearn.linear_model import LogisticRegression
+from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, roc_auc_score
+from sklearn.preprocessing import LabelEncoder, StandardScaler
 from sklearn.model_selection import train_test_split
 dataset = pd.read_csv("data.csv")
+# Dropping customerID which is unique for each customer
+# and does not provide any useful information for prediction
 dataset.drop(columns=['customerID'], inplace=True)
+# Encoding categorical variables and Scaling numerical variables
 encoder = LabelEncoder()
+scaler = StandardScaler()
+for column in dataset.select_dtypes(include=['int64', 'float64']).columns:
+    dataset[column] = scaler.fit_transform(dataset[column].values.reshape(-1, 1))
 for column in dataset.select_dtypes(include=['object']).columns:
+    dataset[column] = encoder.fit_transform(dataset[column])
+# Plotting the correlation to find the most important features
+fig, ax = plt.subplots(figsize=(16, 10))
+corr=dataset.corr()["Churn"]
+ax.set_xticklabels(corr.index, rotation=45, ha='right', fontsize=10)
+sns.barplot(x=corr.index, y=corr.values, ax=ax)
+plt.savefig("graphs/Correlation.png")
+# Based on the correlation plot, the following features are removed
+dataset.drop(columns=['gender', 'PhoneService', 'MultipleLines', 'InternetService', 'StreamingTV', 'StreamingMovies', 'TotalCharges'], inplace=True)
+# Multivariate analysis
+fig, ax = plt.subplots(figsize=(16, 10))
+sns.heatmap(dataset.corr(), annot=True, fmt=".2f", cmap='coolwarm', ax=ax)
+plt.savefig("graphs/Heatmap.png")
+for column in dataset.columns:
+    fig, ax = plt.subplots(figsize=(16, 10))
+    sns.kdeplot(dataset[column],ax=ax)
+    plt.savefig(f"graphs/{column}.png")