Spaces:

opinder2906
/

final

Runtime error

App Files Files Community

opinder2906 commited on Jun 26, 2025

Commit

fda7c4e

verified ·

1 Parent(s): 27556ae

Update app2.py

Browse files

Files changed (1) hide show

app2.py +23 -112

app2.py CHANGED Viewed

@@ -1,36 +1,30 @@
 import streamlit as st
 import pandas as pd
 import numpy as np
-import seaborn as sns
 import matplotlib.pyplot as plt
-from sklearn.model_selection import train_test_split, RandomizedSearchCV
-from sklearn.preprocessing import LabelEncoder, StandardScaler, KBinsDiscretizer
-from sklearn.impute import SimpleImputer
-from sklearn.decomposition import PCA
-from sklearn.manifold import TSNE
 from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
 from sklearn.linear_model import LogisticRegression
 from sklearn.naive_bayes import GaussianNB
 from sklearn.svm import SVC
 from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, RocCurveDisplay
-from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
-from scipy.stats import uniform, randint
 st.set_option('deprecation.showPyplotGlobalUse', False)
-st.title("Electric Vehicle ML Pipeline Dashboard")
-# Load dataset
 @st.cache_data
 def load_data():
     url = "https://drive.google.com/uc?export=download&id=1QBTnXxORRbJzE5Z2aqKHsVqgB7mqowiN"
     return pd.read_csv(url)
 df = load_data()
-st.subheader("1. Dataset Preview")
-st.write(df.head())
 # Fill missing values
 for col in df.select_dtypes(include='object').columns:
@@ -38,109 +32,26 @@ for col in df.select_dtypes(include='object').columns:
 for col in df.select_dtypes(include=np.number).columns:
     df[col] = df[col].fillna(df[col].median())
-# Outlier Removal
-Q1 = df.quantile(0.25)
-Q3 = df.quantile(0.75)
-IQR = Q3 - Q1
-df = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)]
-# Encoding
-cat_cols = df.select_dtypes(include='object').columns
-for col in cat_cols:
-    le = LabelEncoder()
-    df[col] = le.fit_transform(df[col])
-# Feature Engineering
 if 'Model Year' in df.columns:
     df['Vehicle_Age'] = 2025 - df['Model Year']
-# Modeling Prep
-target = 'Electric Range'
-y = (df[target] > df[target].median()).astype(int)
-X = df.drop(columns=[target])
-# Feature Selection
 scaler = StandardScaler()
 X_scaled = scaler.fit_transform(X)
-rf = RandomForestClassifier(random_state=42)
 rf.fit(X_scaled, y)
-top_features = pd.Series(rf.feature_importances_, index=X.columns).nlargest(10).index.tolist()
-X = df[top_features]
-# Subsample for balance
-df['Target'] = y
-df_bal = df.groupby('Target').apply(lambda x: x.sample(min(len(x), 300), random_state=42)).reset_index(drop=True)
-X = df_bal[top_features]
-y = df_bal['Target']
-X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.3, random_state=42)
-# Visualization
-st.subheader("2. Data Visualization")
-if st.checkbox("Show Correlation Heatmap"):
-    plt.figure(figsize=(10, 6))
-    sns.heatmap(df[top_features + ['Target']].corr(), annot=True, cmap='coolwarm')
-    st.pyplot()
-if st.checkbox("Show PCA Plot"):
-    pca = PCA(n_components=2)
-    X_pca = pca.fit_transform(X)
-    plt.figure(figsize=(8, 5))
-    plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis', alpha=0.6)
-    plt.title("PCA Projection")
-    st.pyplot()
-if st.checkbox("Show t-SNE Plot"):
-    tsne = TSNE(n_components=2, random_state=42)
-    X_tsne = tsne.fit_transform(X)
-    plt.figure(figsize=(8, 5))
-    plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=y, cmap='plasma', alpha=0.7)
-    plt.title("t-SNE Projection")
-    st.pyplot()
-# Model Training
-st.subheader("3. Model Training & Evaluation")
-models = {
-    'Logistic Regression': LogisticRegression(max_iter=1000),
-    'SVM': SVC(probability=True),
-    'Gradient Boosting': GradientBoostingClassifier(),
-    'Naive Bayes': GaussianNB()
-}
-for name, model in models.items():
-    model.fit(X_train, y_train)
-    y_pred = model.predict(X_test)
-    st.write(f"### {name}")
-    st.text("Classification Report")
-    st.text(classification_report(y_test, y_pred))
-    st.text("Confusion Matrix")
-    st.write(confusion_matrix(y_test, y_pred))
-    if hasattr(model, "predict_proba"):
-        RocCurveDisplay.from_estimator(model, X_test, y_test)
-        st.pyplot()
-# Hyperparameter Tuning
-st.subheader("4. Hyperparameter Tuning Summary")
-if st.checkbox("Run Tuning"):
-    st.info("Running tuning... may take a few minutes")
-    param_dist_lr = {'C': uniform(0.01, 10), 'penalty': ['l2'], 'solver': ['lbfgs']}
-    param_dist_svm = {'C': uniform(0.1, 10)}
-    param_dist_gbc = {'n_estimators': randint(50, 150), 'learning_rate': uniform(0.01, 0.2), 'max_depth': randint(3, 6)}
-    sample_X = X_train.sample(min(1000, len(X_train)), random_state=42)
-    sample_y = y_train.loc[sample_X.index]
-    rs_lr = RandomizedSearchCV(LogisticRegression(max_iter=1000), param_distributions=param_dist_lr, n_iter=10, cv=3)
-    rs_lr.fit(sample_X, sample_y)
-    st.write("Best Logistic Regression:", rs_lr.best_params_)
-    rs_svm = RandomizedSearchCV(SVC(probability=True), param_distributions=param_dist_svm, n_iter=5, cv=2)
-    rs_svm.fit(sample_X, sample_y)
-    st.write("Best SVM:", rs_svm.best_params_)
-    rs_gbc = RandomizedSearchCV(GradientBoostingClassifier(), param_distributions=param_dist_gbc, n_iter=10, cv=3)
-    rs_gbc.fit(sample_X, sample_y)
-    st.write("Best Gradient Boosting:", rs_gbc.best_params_)

 import streamlit as st
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
+import seaborn as sns
+from sklearn.model_selection import train_test_split
+from sklearn.preprocessing import LabelEncoder, StandardScaler
 from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
 from sklearn.linear_model import LogisticRegression
 from sklearn.naive_bayes import GaussianNB
 from sklearn.svm import SVC
 from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, RocCurveDisplay
+from sklearn.decomposition import PCA
 st.set_option('deprecation.showPyplotGlobalUse', False)
+st.title("Electric Vehicle ML Dashboard (Optimized for Hugging Face)")
+# Load data
 @st.cache_data
 def load_data():
     url = "https://drive.google.com/uc?export=download&id=1QBTnXxORRbJzE5Z2aqKHsVqgB7mqowiN"
     return pd.read_csv(url)
 df = load_data()
+st.subheader("1. Data Preview")
+st.dataframe(df.head())
 # Fill missing values
 for col in df.select_dtypes(include='object').columns:
 for col in df.select_dtypes(include=np.number).columns:
     df[col] = df[col].fillna(df[col].median())
+# Encode categories
+for col in df.select_dtypes(include='object').columns:
+    df[col] = LabelEncoder().fit_transform(df[col])
+# Feature engineering
 if 'Model Year' in df.columns:
     df['Vehicle_Age'] = 2025 - df['Model Year']
+# Target setup
+if 'Electric Range' not in df.columns:
+    st.error("'Electric Range' column missing!")
+    st.stop()
+df['Target'] = (df['Electric Range'] > df['Electric Range'].median()).astype(int)
+y = df['Target']
+X = df.drop(columns=['Electric Range', 'Target'])
+# Feature selection via Random Forest
 scaler = StandardScaler()
 X_scaled = scaler.fit_transform(X)
+rf = RandomForestClassifier(n_estimators=50, random_state=42)
 rf.fit(X_scaled, y)
+top_features = pd.Series(rf.feature_importances_, index=X.columns).nlargest(5).index.tolis_