Spaces:

saherPervaiz
/

ModelTrain

Running

App Files Files Community

saherPervaiz commited on Jan 12, 2025

Commit

2925188

verified ·

1 Parent(s): ae471c3

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -14

app.py CHANGED Viewed

@@ -29,25 +29,24 @@ if uploaded_file is not None:
         for column in df.select_dtypes(include=['object']).columns:
             if df[column].nunique() < 10:  # If the column has fewer unique values, encode it
                 df[column] = le.fit_transform(df[column].astype(str))
         # Handle missing values (impute numerical columns with median and categorical columns with mode)
         # Handle categorical columns
         categorical_columns = df.select_dtypes(include=['object']).columns
         if len(categorical_columns) > 0:
             imputer = SimpleImputer(strategy='most_frequent')
             df[categorical_columns] = imputer.fit_transform(df[categorical_columns])
         # Handle numerical columns
         numerical_columns = df.select_dtypes(include=['number']).columns
         if len(numerical_columns) > 0:
             imputer = SimpleImputer(strategy='median')
             df[numerical_columns] = imputer.fit_transform(df[numerical_columns])
         # Remove outliers (using z-score method)
         z_scores = np.abs(stats.zscore(df.select_dtypes(include=['number'])))
-        df = df[(z_scores < 3).all(axis=1)]
         # Normalize numerical data
         scaler = StandardScaler()
         df[df.select_dtypes(include=['number']).columns] = scaler.fit_transform(df.select_dtypes(include=['number']))
@@ -58,16 +57,16 @@ if uploaded_file is not None:
         # Ensure that all columns are numeric before using in models
         for column in df.select_dtypes(include=['object']).columns:
             df[column] = pd.to_numeric(df[column], errors='coerce')
         return df
     # Apply the clean_dataset function
     df_cleaned = clean_dataset(df)
     # Show the cleaned dataset
     st.write("Cleaned Dataset:")
     st.dataframe(df_cleaned)
     # Model Training Section
     st.subheader("Model Training")
     if df_cleaned.empty:
@@ -77,10 +76,10 @@ if uploaded_file is not None:
         features = [col for col in df_cleaned.columns if col != target]
         X = df_cleaned[features]
         y = df_cleaned[target]
         # Determine if the target is continuous or categorical
         is_classification = len(y.unique()) <= 10  # If target has fewer than or equal to 10 unique values, treat as classification
         # Ensure there is enough data before proceeding with train-test split
         if len(X) == 0 or len(y) == 0:
             st.warning("Insufficient data after cleaning. Please adjust the cleaning parameters.")
@@ -88,12 +87,11 @@ if uploaded_file is not None:
             # Split the data into training and test sets with customizable training size
             train_size = st.slider("Select Training Size", min_value=0.1, max_value=0.9, value=0.8)
             X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1-train_size, random_state=42)
             # Store results in a dictionary
             results = []
             # Model Selection and Evaluation
-            models = []
             if is_classification:
                 model_choices = [
                     ("Random Forest", RandomForestClassifier(n_estimators=50)),
@@ -124,7 +122,8 @@ if uploaded_file is not None:
                     model.fit(X_train, y_train)
                     y_pred = model.predict(X_test)
                     mse = mean_squared_error(y_test, y_pred)
-                    results.append([name, None, mse])
             # Display results in a table
             st.subheader("Model Performance Results")

         for column in df.select_dtypes(include=['object']).columns:
             if df[column].nunique() < 10:  # If the column has fewer unique values, encode it
                 df[column] = le.fit_transform(df[column].astype(str))
         # Handle missing values (impute numerical columns with median and categorical columns with mode)
         # Handle categorical columns
         categorical_columns = df.select_dtypes(include=['object']).columns
         if len(categorical_columns) > 0:
             imputer = SimpleImputer(strategy='most_frequent')
             df[categorical_columns] = imputer.fit_transform(df[categorical_columns])
         # Handle numerical columns
         numerical_columns = df.select_dtypes(include=['number']).columns
         if len(numerical_columns) > 0:
             imputer = SimpleImputer(strategy='median')
             df[numerical_columns] = imputer.fit_transform(df[numerical_columns])
         # Remove outliers (using z-score method)
         z_scores = np.abs(stats.zscore(df.select_dtypes(include=['number'])))
+        df = df[(z_scores < 3).all(axis=1)]  # Removing rows where any column exceeds a Z-score of 3
         # Normalize numerical data
         scaler = StandardScaler()
         df[df.select_dtypes(include=['number']).columns] = scaler.fit_transform(df.select_dtypes(include=['number']))
         # Ensure that all columns are numeric before using in models
         for column in df.select_dtypes(include=['object']).columns:
             df[column] = pd.to_numeric(df[column], errors='coerce')
         return df
     # Apply the clean_dataset function
     df_cleaned = clean_dataset(df)
     # Show the cleaned dataset
     st.write("Cleaned Dataset:")
     st.dataframe(df_cleaned)
     # Model Training Section
     st.subheader("Model Training")
     if df_cleaned.empty:
         features = [col for col in df_cleaned.columns if col != target]
         X = df_cleaned[features]
         y = df_cleaned[target]
         # Determine if the target is continuous or categorical
         is_classification = len(y.unique()) <= 10  # If target has fewer than or equal to 10 unique values, treat as classification
         # Ensure there is enough data before proceeding with train-test split
         if len(X) == 0 or len(y) == 0:
             st.warning("Insufficient data after cleaning. Please adjust the cleaning parameters.")
             # Split the data into training and test sets with customizable training size
             train_size = st.slider("Select Training Size", min_value=0.1, max_value=0.9, value=0.8)
             X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1-train_size, random_state=42)
             # Store results in a dictionary
             results = []
             # Model Selection and Evaluation
             if is_classification:
                 model_choices = [
                     ("Random Forest", RandomForestClassifier(n_estimators=50)),
                     model.fit(X_train, y_train)
                     y_pred = model.predict(X_test)
                     mse = mean_squared_error(y_test, y_pred)
+                    accuracy = accuracy_score(y_test, y_pred)
+                    results.append([name, accuracy, mse])
             # Display results in a table
             st.subheader("Model Performance Results")