Spaces:

Haticece
/

HomePricePredictor

Sleeping

App Files Files Community

Haticece commited on Jan 1, 2025

Commit

94f3bdd

verified ·

1 Parent(s): 8c93418

Update app.py

Browse files

Files changed (1) hide show

app.py +232 -118

app.py CHANGED Viewed

@@ -1,121 +1,235 @@
-import streamlit as st
-import pandas as pd
 import numpy as np
-from sklearn.model_selection import train_test_split
-from sklearn.preprocessing import StandardScaler
-from sklearn.linear_model import LinearRegression
-# Veri Yükleme ve Ön İşleme (Kaggle Notebook'tan uyarlanmıştır)
-@st.cache_data
-def load_and_preprocess_data():
-    data = pd.read_csv('Housing.csv')
-    # Gereksiz sütunu sil (eğer varsa)
-    if 'date' in data.columns:
-        data = data.drop('date', axis=1)
-    # Aykırı değerleri işle
-    data = data[data['bedrooms'] != 33]
-    # Saçma değerleri düzelt
-    data.loc[data['bathrooms'] == 0, 'bathrooms'] = 1
-    data.loc[data['bedrooms'] == 0, 'bedrooms'] = 1
-    # Kategorik sütunlar için binary encoding
-    binary_columns = ['waterfront', 'view', 'condition']
-    def binary_encode(df, column, positive_value):
-        df[column] = df[column].apply(lambda x: 1 if x == positive_value else 0)
-    for col in binary_columns:
-        binary_encode(data, col, data[col].max())
-    # Log dönüşümü
-    data['sqft_living'] = np.log(data['sqft_living'])
-    data['sqft_lot'] = np.log(data['sqft_lot'])
-    data['sqft_above'] = np.log(data['sqft_above'])
-    data.loc[data['sqft_basement'] != 0, 'sqft_basement'] = np.log(data.loc[data['sqft_basement'] != 0, 'sqft_basement'])
-    # Normalleştirme
-    scaler = StandardScaler()
-    numerical_cols = ['bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'sqft_above', 'sqft_basement']
-    data[numerical_cols] = scaler.fit_transform(data[numerical_cols])
-    return data
-data = load_and_preprocess_data()
-# Model Eğitimi (Kaggle Notebook'tan uyarlanmıştır)
-@st.cache_data
-def train_model(data):
-    X = data.drop('price', axis=1)
-    y = data['price']
-    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=7)
-    model = LinearRegression()
-    model.fit(X_train, y_train)
-    return model, X_test, y_test
-model, X_test, y_test = train_model(data)
-# Streamlit Arayüzü
-st.title("Ev Fiyatı Tahmin Uygulaması")
-# Kenar Çubuğu Filtreleri
-st.sidebar.header("Filtreler")
-# Oda Sayısı
-oda_sayilari = sorted(data['bedrooms'].unique())
-secilen_oda_sayilari = st.sidebar.multiselect('Oda Sayısı', oda_sayilari, oda_sayilari)
-# Banyo Sayısı
-banyo_sayilari = sorted(data['bathrooms'].unique())
-secilen_banyo_sayilari = st.sidebar.multiselect('Banyo Sayısı', banyo_sayilari, banyo_sayilari)
-# Kat Sayısı
-kat_sayilari = sorted(data['floors'].unique())
-secilen_kat_sayilari = st.sidebar.multiselect('Kat Sayısı', kat_sayilari, kat_sayilari)
-# Manzara
-manzara_secenekleri = sorted(data['view'].unique())
-secilen_manzara = st.sidebar.multiselect('Manzara (0-4 arası)', manzara_secenekleri, manzara_secenekleri)
-# Durum
-durum_secenekleri = sorted(data['condition'].unique())
-secilen_durum = st.sidebar.multiselect('Durum (1-5 arası)', durum_secenekleri, durum_secenekleri)
-# Yaşam alanı
-min_living = int(data['sqft_living'].min())
-max_living = int(data['sqft_living'].max())
-living_range = st.sidebar.slider("Yaşam Alanı (log-dönüştürülmüş)", min_living, max_living, (min_living, max_living))
-# Filtrelenmiş Veri
-filtered_data = data[
-    (data['bedrooms'].isin(secilen_oda_sayilari)) &
-    (data['bathrooms'].isin(secilen_banyo_sayilari)) &
-    (data['floors'].isin(secilen_kat_sayilari)) &
-    (data['view'].isin(secilen_manzara)) &
-    (data['condition'].isin(secilen_durum)) &
-    (data['sqft_living'] >= living_range[0]) &
-    (data['sqft_living'] <= living_range[1])
-]
-# Sonuçları Gösterme
-st.write(f"Seçimlerinize uyan {len(filtered_data)} ev bulundu.")
-if not filtered_data.empty:
-    st.subheader("Fiyat İstatistikleri")
-    st.write(f"Ortalama Fiyat: ${filtered_data['price'].mean():,.2f}")
-    st.write(f"Minimum Fiyat: ${filtered_data['price'].min():,.2f}")
-    st.write(f"Maksimum Fiyat: ${filtered_data['price'].max():,.2f}")
-    st.write(f"Medyan Fiyat: ${filtered_data['price'].median():,.2f}")
-    st.write(f"Standart Sapma: ${filtered_data['price'].std():,.2f}")
-    st.subheader("Seçilen Evler")
-    st.dataframe(filtered_data)
-    # Model Performansı (Test verisi üzerinde)
-    st.subheader("Model Performansı (R-kare)")
-    y_pred = model.predict(X_test)
-    r2 = r2_score(y_test, y_pred)
-    st.write(f"R-kare: {r2:.3f}")
-else:
-    st.write("Seçimlerinize uyan ev bulunamadı.")

 import numpy as np
+import pandas as pd
+import matplotlib.pyplot as plt
+import seaborn as sns
+import warnings
+warnings.filterwarnings("ignore")
+from sklearn.preprocessing import LabelEncoder
+from sklearn.preprocessing import StandardScaler,MinMaxScaler
+from sklearn.model_selection import train_test_split
+from sklearn.linear_model import LinearRegression
+from sklearn.tree import DecisionTreeRegressor
+from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor,AdaBoostRegressor
+from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score,accuracy_score
+df = pd.read_csv('/Users/haticecakir/Downloads/Housing.csv')
+df.sample(15)
+df.info()
+df.describe()
+df.isnull().sum()
+df.duplicated().sum()
+bedrooms_count = df['bedrooms'].value_counts()
+bedrooms_count
+plt.figure(figsize=(8,3))
+ax=sns.barplot(x=bedrooms_count.index, y=bedrooms_count.values,palette="rocket_r")
+ax.bar_label(ax.containers[0], fontsize=8);
+plt.title('count of bedrooms')
+plt.xlabel('bedrooms')
+plt.ylabel('count')
+plt.show()
+count_bathrooms = df['bathrooms'].value_counts()
+count_bathrooms
+ax = sns.barplot(x=count_bathrooms.index,y=count_bathrooms.values,palette="mako")
+ax.bar_label(ax.containers[0], fontsize=8);
+plt.title('count of bathrooms')
+plt.xlabel('bathrooms')
+plt.ylabel('count')
+plt.show()
+stories_count = df['stories'].value_counts()
+stories_count
+ax = sns.barplot(x=stories_count.index,y=stories_count.values,palette="magma")
+ax.bar_label(ax.containers[0], fontsize=8)
+plt.title('count of stories')
+plt.xlabel('stories')
+plt.ylabel('count')
+plt.show()
+count_mainroad=df['mainroad'].value_counts()
+count_mainroad
+explode = [0, 0.09]
+colors = sns.color_palette("crest")
+plt.pie(count_mainroad.values,
+        labels=count_mainroad.index,
+        autopct='%.0f%%',explode=explode,
+        colors = colors)
+plt.title("count of mainroad")
+plt.legend(loc = "best")
+plt.show()
+guestroom_count = df['guestroom'].value_counts()
+guestroom_count
+explode = [0, 0.09]
+colors = sns.color_palette("crest")
+plt.pie(guestroom_count.values,
+        labels=guestroom_count.index,
+        autopct='%.0f%%',explode=explode,
+        colors = colors)
+plt.title("count of guestroom")
+plt.legend(loc = "best")
+plt.show()
+furnishingstatus_count = df.furnishingstatus.value_counts()
+furnishingstatus_count
+ax = sns.barplot(x=furnishingstatus_count.index,
+                 y=furnishingstatus_count.values,
+                 palette="magma"
+                )
+ax.bar_label(ax.containers[0], fontsize=8)
+plt.show()
+prefarea_count = df.prefarea.value_counts()
+prefarea_count
+explode = [0, 0.09]
+colors = sns.color_palette("magma")
+plt.pie(prefarea_count.values,
+        labels=prefarea_count.index,
+        autopct='%.0f%%',explode=explode,
+        colors = colors)
+plt.title("count of guestroom")
+plt.legend(loc = "best")
+plt.show()
+ax = sns.countplot(df, x="bedrooms", hue="parking",palette="magma")
+for i in range(len(df['parking'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.show()
+ax = sns.countplot(df, x="bedrooms", hue="bathrooms",palette="mako")
+for i in range(len(df['bathrooms'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.show()
+ax = sns.countplot(df, x="bedrooms", hue="stories",palette="mako")
+for i in range(len(df['stories'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of stoies')
+plt.show()
+ax = sns.countplot(df, x="bedrooms", hue="furnishingstatus",palette="viridis")
+for i in range(len(df['furnishingstatus'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of furnishingstatus')
+plt.show()
+ax = sns.countplot(df, x="parking", hue="furnishingstatus",palette="rocket_r")
+for i in range(len(df['furnishingstatus'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of furnishingstatus')
+plt.show()
+ax = sns.countplot(df, x="stories", hue="furnishingstatus",palette="cubehelix")
+for i in range(len(df['furnishingstatus'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of furnishingstatus')
+plt.show()
+ax = sns.countplot(df, x="bathrooms", hue="furnishingstatus",palette="rocket")
+for i in range(len(df['furnishingstatus'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of furnishingstatus')
+plt.show()
+ax = sns.countplot(df, x="bathrooms", hue="prefarea",palette="crest")
+for i in range(len(df['prefarea'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of prefarea')
+plt.show()
+ax = sns.countplot(df, x="bedrooms", hue="prefarea",palette="cubehelix")
+for i in range(len(df['prefarea'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of prefarea')
+plt.show()
+ax = sns.countplot(df, x="stories", hue="prefarea",palette="rocket")
+for i in range(len(df['prefarea'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of prefarea')
+plt.show()
+ax = sns.countplot(df, x="parking", hue="prefarea",palette="flare")
+for i in range(len(df['prefarea'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of prefarea')
+plt.show()
+ax = sns.countplot(df, x="furnishingstatus", hue="prefarea",palette="rocket")
+for i in range(len(df['prefarea'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of prefarea')
+plt.legend(loc = 'best')
+plt.show()
+ax = sns.countplot(df, x="bathrooms", hue="hotwaterheating",palette="rocket")
+for i in range(len(df['hotwaterheating'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of hotwaterheating')
+plt.legend(loc = 'best')
+plt.show()
+ax = sns.countplot(df, x="parking", hue="hotwaterheating",palette="rocket")
+for i in range(len(df['hotwaterheating'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of hotwaterheating')
+plt.legend(loc = 'best')
+plt.show()
+ax = sns.countplot(df, x="bedrooms", hue="hotwaterheating",palette="rocket")
+for i in range(len(df['hotwaterheating'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of hotwaterheating')
+plt.legend(loc = 'best')
+plt.show()
+ax = sns.countplot(df, x="stories", hue="hotwaterheating",palette="rocket")
+for i in range(len(df['hotwaterheating'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of hotwaterheating')
+plt.legend(loc = 'best')
+plt.show()
+ax = sns.countplot(df, x="mainroad", hue="hotwaterheating",palette="rocket")
+for i in range(len(df['hotwaterheating'].unique())):
+    ax.bar_label(ax.containers[i], fontsize=8)
+plt.ylabel('count of hotwaterheating')
+plt.legend(loc = 'best')
+plt.show()
+encoder = LabelEncoder()
+encoding_col = ['furnishingstatus','prefarea','airconditioning','hotwaterheating','basement','guestroom','mainroad']
+for col in encoding_col:
+    df[col]=encoder.fit_transform(df[col])
+df
+plt.figure(figsize=(10, 10))
+sns.heatmap(df.corr(), annot=True, fmt=".2f", linewidths=0.5, cbar=True)
+plt.show()
+x=df.drop(columns=['price'],axis = 1)
+y=df['price']
+scaler = MinMaxScaler()
+x = scaler.fit_transform(x)
+y = scaler.fit_transform(y.values.reshape(-1, 1))
+x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=50)
+ln_model = LinearRegression()
+ln_model.fit(x_train, y_train)
+y_pred = ln_model.predict(x_test)
+ln_acc = r2_score(y_test, y_pred)
+ln_acc
+y_pred = ln_model.predict(x_test)
+ln_acc = r2_score(y_test, y_pred)
+ln_acc
+dt_model = DecisionTreeRegressor()
+dt_model.fit(x_train, y_train)
+y_pred = dt_model.predict(x_test)
+dt_acc = r2_score(y_test, y_pred)
+dt_acc
+rf_model = RandomForestRegressor(n_estimators=100)
+rf_model.fit(x_train, y_train)
+y_pred = rf_model.predict(x_test)
+rf_acc = r2_score(y_test, y_pred)
+rf_acc
+from sklearn.svm import SVR
+svr_model = SVR(kernel='linear')
+svr_model.fit(x_train, y_train)
+y_pred = svr_model.predict(x_test)
+svr_acc = r2_score(y_test, y_pred)
+svr_acc
+from sklearn.ensemble import GradientBoostingRegressor
+gb_model = GradientBoostingRegressor()
+gb_model.fit(x_train, y_train)
+y_pred = gb_model.predict(x_test)
+gb_acc = r2_score(y_test, y_pred)
+gb_acc
+from sklearn.ensemble import AdaBoostRegressor
+ada_model = AdaBoostRegressor()
+ada_model.fit(x_train, y_train)
+y_pred = ada_model.predict(x_test)
+ada_acc = r2_score(y_test, y_pred)
+ada_acc