Spaces:

DASS-Project-Team
/

DASS_QuickTest_Model

Sleeping

App Files Files Community

lauren-cw commited on Mar 3

Commit

1913aa0

verified ·

1 Parent(s): 9ebc029

Upload AutoPreprocess.py

Browse files

Files changed (1) hide show

AutoPreprocess.py +147 -0

AutoPreprocess.py ADDED Viewed

	@@ -0,0 +1,147 @@

+import pandas as pd
+import numpy as np
+import pickle
+from sklearn.base import BaseEstimator, TransformerMixin
+from sklearn.preprocessing import MinMaxScaler
+from sklearn.preprocessing import LabelEncoder
+from sklearn.preprocessing import RobustScaler
+class AutoPreprocess(BaseEstimator, TransformerMixin):
+    def __init__(self):
+        self.scaler = {}
+        self.fillna_value = {}
+        self.onehotencode_value = {}
+        self.field_names = []
+        self.final_field_names = []
+        self.field_dtype = {}
+    def fit(self, X, y = None, field_names=None):
+        self.__init__()
+        if field_names is None:
+            self.field_names = X.columns.tolist()
+        else:
+            self.field_names = field_names
+        for fname in self.field_names:
+            self.field_dtype = X[fname].dtype
+        for fname in self.field_names:
+            #自動補空值
+            # if (X[fname].dtype == object) or (X[fname].dtype == str): #字串型態欄位
+            if pd.api.types.is_string_dtype(X[fname]):
+                self.fillna_value[fname] = X[fname].mode()[0] #補眾數
+                # self.fillna_value[fname] = 'np.nan'
+                # self.fillna_value[fname] = np.nan # 維持空值
+            # elif X[fname].dtype == bool: #布林型態
+            elif pd.api.types.is_bool_dtype(X[fname]):
+                self.fillna_value[fname] = X[fname].mode()[0] #補眾數
+            else: # 數字型態
+                self.fillna_value[fname] = X[fname].median()  #補中位數
+            #自動尺度轉換(scaling)
+            # if (X[fname].dtype == object) or (X[fname].dtype == str): #字串型態欄位
+            if pd.api.types.is_string_dtype(X[fname]):
+                pass #不用轉換
+            # elif X[fname].dtype == bool: #布林型態
+            elif pd.api.types.is_bool_dtype(X[fname]):
+                pass #不用轉換
+            else: # 數字型態
+                vc = X[fname].value_counts()
+                if X[fname].isin([0, 1]).all(): #當數值只有0跟1
+                    pass #不用轉換
+                elif pd.api.types.is_integer_dtype(X[fname]) and X[fname].nunique() <= 10: #是否簡單的整數型類別且數量小於10
+                    self.scaler[fname] = MinMaxScaler()
+                    self.scaler[fname].fit(X[[fname]])
+                else: #其他的數字型態
+                    self.scaler[fname] = RobustScaler()
+                    self.scaler[fname].fit(X[[fname]])
+            #自動編碼
+            # if (X[fname].dtype == object) or (X[fname].dtype == str): #字串型態欄位
+            if pd.api.types.is_string_dtype(X[fname]):
+                field_value = X[fname].value_counts().index
+                self.onehotencode_value[fname] = field_value
+                for value in field_value:
+                    fn = fname+"_"+value
+                    # data[fn] = (data[fname] == value).astype('int8')
+                    self.final_field_names.append(fn)
+            # elif X[fname].dtype == bool: #布林型態
+            elif pd.api.types.is_bool_dtype(X[fname]):
+                # data[fname] = data[fname].astype(int)
+                self.final_field_names.append(fname)
+            else: # 數字型態 不用重新編碼
+                self.final_field_names.append(fname)
+        return self
+    def transform(self, X):
+        #如果輸入的data是dict，要先轉成dataframe
+        if isinstance(X, dict):
+            for fname in self.field_names:
+                if fname in X:
+                    X[fname] = [X[fname]]
+                else:
+                    # X[fname] = [np.nan]
+                    X[fname] = self.fillna_value[fname]
+            data = pd.DataFrame(X)
+            # for fname in self.field_names:
+                # data[fname].astype(self.field_dtype[fname])
+        else: #將資料複製一份，不修改原本的資料
+            data = X.copy()
+        for fname in self.field_names:
+            #自動補空值
+            if data[fname].isnull().any(): #有空值
+                # if fname in self.fillna_value:
+                    data[fname] = data[fname].fillna(self.fillna_value[fname])
+            #自動尺度轉換(scaling)
+            if fname in self.scaler:
+                data[fname] = self.scaler[fname].transform(data[[fname]])
+            #自動編碼
+            # if (data[fname].dtype == object) or (data[fname].dtype == str): #字串型態欄位, onehotencode
+            if pd.api.types.is_string_dtype(data[fname]):
+                if fname in self.onehotencode_value:
+                    field_value = self.onehotencode_value[fname]
+                for value in field_value:
+                    fn = fname+"_"+value
+                    data[fn] = (data[fname] == value).astype('int8')
+            # elif data[fname].dtype == bool: #布林型態 轉成0跟1
+            elif pd.api.types.is_bool_dtype(data[fname]):
+                data[fname] = data[fname].astype(int)
+            else: # 數字型態 不用重新編碼
+                pass
+        return data[self.final_field_names]
+    def save(self, file_name):
+        with open(file_name, "wb") as f:
+            pickle.dump(self, f)
+    @staticmethod
+    def load(file_name):
+        with open(file_name, "rb") as f:
+            return pickle.load(f)
+# import pandas as pd
+# mydata = pd.read_csv('C:/DATA/class/2025-07 AI數據應用人才養成班三期/data/Automobile_Train.csv')
+# ap = AutoPreprocess()
+# # ap.fit(mydata, field_names=['symboling', 'Normalized-losses', 'make', 'Fuel-type', 'aspiration',
+# #        'Num-of-doors', 'Body-style', 'Drive-wheels', 'Engine-location',
+# #        'Wheel-base', 'length', 'width', 'height', 'Curb-weight', 'Engine-type',
+# #        'Num-of-cylinders', 'Engine-size', 'Fuel-system', 'bore', 'stroke',
+# #        'Compression-ratio', 'horsepower', 'Peak-rpm', 'City-mpg',
+# #        'Highway-mpg'])
+# ap.fit(mydata)
+# # 轉換 panddas dataframe
+# t = ap.transform(mydata)
+# print(t.head())