Spaces:

MHamzaShahid
/

Crop-Yield-Predictor-API

Sleeping

App Files Files Community

MHamzaShahid commited on Oct 7, 2025

Commit

c323a8d

verified ·

1 Parent(s): a3c60c5

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -83

app.py CHANGED Viewed

@@ -13,58 +13,34 @@ from sklearn.utils.validation import check_X_y, check_array, check_is_fitted
 # ================================
 # 1️⃣ Custom Preprocessing Functions
 # ================================
 def temp_cat(X):
-    if isinstance(X, pd.DataFrame):
-        X['avg_temp_cat'] = pd.cut(
-            X['avg_temp'],
-            bins=[0, 5, 10, 20, 30, np.inf],
-            labels=['very_cold', 'cold', 'warm', 'hot', 'very_hot']
-        )
-        return X
-    else:
-        X = pd.DataFrame(X)
-        X['avg_temp_cat'] = pd.cut(
-            X['avg_temp'],
-            bins=[0, 5, 10, 20, 30, np.inf],
-            labels=['very_cold', 'cold', 'warm', 'hot', 'very_hot']
-        )
-        return X
 def clean(X):
-    if isinstance(X, pd.DataFrame):
-        return X.dropna()
-    else:
-        return pd.DataFrame(X).dropna()
 def proxy_humidity(X):
-    if isinstance(X, pd.DataFrame):
-        X["proxy_humidity"] = X["average_rain_fall_mm_per_year"] / (X["avg_temp"] + 1)
-        return X
-    else:
-        X = pd.DataFrame(X)
-        X["proxy_humidity"] = X["average_rain_fall_mm_per_year"] / (X["avg_temp"] + 1)
-        return X
 # ================================
 # 2️⃣ Transformers and Pipelines
 # ================================
-temp_cat_transformer = FunctionTransformer(temp_cat)
 temp_cat_pipeline = make_pipeline(
-    temp_cat_transformer,
-    OrdinalEncoder(
-        handle_unknown='use_encoded_value',
-        unknown_value=-1
-    )
 )
-clean_transformer = FunctionTransformer(clean)
 clean_pipeline = make_pipeline(
-    clean_transformer,
     StandardScaler()
 )
@@ -73,25 +49,19 @@ cat_pipeline = make_pipeline(
     OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)
 )
-proxy_humidity_transformer = FunctionTransformer(proxy_humidity)
 proxy_humidity_pipeline = make_pipeline(
-    proxy_humidity_transformer,
     StandardScaler()
 )
-square_transformer = FunctionTransformer(np.square)
-square_pipeline = make_pipeline(square_transformer, StandardScaler())
-log_transformer = FunctionTransformer(np.log1p)
-log_pipeline = make_pipeline(log_transformer, StandardScaler())
 default_num_pipeline = make_pipeline(StandardScaler())
 # ================================
 # 3️⃣ Custom Feature Selector
 # ================================
 class CorrelationThresholdSelector(BaseEstimator, TransformerMixin):
     def __init__(self, threshold=0.9, target_threshold=0.0, method="pearson", min_variance=0.0):
         self.threshold = threshold
@@ -100,69 +70,47 @@ class CorrelationThresholdSelector(BaseEstimator, TransformerMixin):
         self.min_variance = min_variance
     def fit(self, X, y):
-        X_original = X
         X_arr, y_arr = check_X_y(X, y, accept_sparse=False, dtype=np.float64)
         n_features = X_arr.shape[1]
-        self.n_features_in_ = n_features
-        if hasattr(X_original, "columns"):
-            self.feature_names_in_ = np.asarray(X_original.columns)
-        else:
-            self.feature_names_in_ = np.array([f"f{i}" for i in range(n_features)])
-        if n_features <= 1:
-            self.features_to_drop_ = np.array([], dtype=int)
-            self.selected_features_ = np.arange(n_features, dtype=int)
-            return self
         X_df = pd.DataFrame(X_arr, columns=self.feature_names_in_)
         variances = X_df.var(numeric_only=True)
-        low_var_mask = variances <= self.min_variance
-        low_var_idx = np.where(low_var_mask)[0].tolist()
         corr_mat = X_df.corr(method=self.method).abs().values
         np.fill_diagonal(corr_mat, 0.0)
         y_series = pd.Series(y_arr)
-        target_corr_series = X_df.corrwith(y_series, method=self.method).abs().fillna(0.0)
-        target_corr = target_corr_series.values
         visited, drops = set(), set()
         for i in range(n_features):
             if i in visited or i in low_var_idx:
                 continue
             correlated_idx = set(np.where(corr_mat[i] > self.threshold)[0].tolist())
             cluster = {i} | correlated_idx
             visited |= cluster
-            if len(cluster) == 1:
-                continue
-            best = max(cluster, key=lambda idx: (target_corr[idx], X_df.iloc[:, idx].var()))
-            if self.target_threshold > 0 and target_corr[best] < self.target_threshold:
-                drops |= cluster
-            else:
-                cluster.remove(best)
-                drops |= cluster
         drops |= set(low_var_idx)
-        self.features_to_drop_ = np.array(sorted(drops), dtype=int)
-        retained = sorted(set(range(n_features)) - set(self.features_to_drop_))
-        self.selected_features_ = np.array(retained, dtype=int)
-        self.selected_feature_names_ = self.feature_names_in_[self.selected_features_].tolist()
-        self.dropped_feature_names_ = self.feature_names_in_[self.features_to_drop_].tolist()
         return self
     def transform(self, X):
         check_is_fitted(self, "selected_features_")
         X_arr = check_array(X, accept_sparse=False, dtype=np.float64)
-        if self.selected_features_.size == 0:
-            return np.empty((X_arr.shape[0], 0), dtype=X_arr.dtype)
-        sel = np.asarray(self.selected_features_, dtype=int)
-        return X_arr[:, sel]
 # ================================
-# 4️⃣ Register All Functions for joblib
 # ================================
 sys.modules['__main__'].temp_cat = temp_cat
 sys.modules['__main__'].clean = clean
@@ -230,7 +178,7 @@ def predict_yield(data: CropInput):
 # ================================
-# 9️⃣ Local Run
 # ================================
 if __name__ == "__main__":
     import uvicorn

 # ================================
 # 1️⃣ Custom Preprocessing Functions
 # ================================
 def temp_cat(X):
+    X = pd.DataFrame(X)
+    X['avg_temp_cat'] = pd.cut(
+        X['avg_temp'],
+        bins=[0, 5, 10, 20, 30, np.inf],
+        labels=['very_cold', 'cold', 'warm', 'hot', 'very_hot']
+    )
+    return X
 def clean(X):
+    return pd.DataFrame(X).dropna()
 def proxy_humidity(X):
+    X = pd.DataFrame(X)
+    X["proxy_humidity"] = X["average_rain_fall_mm_per_year"] / (X["avg_temp"] + 1)
+    return X
 # ================================
 # 2️⃣ Transformers and Pipelines
 # ================================
 temp_cat_pipeline = make_pipeline(
+    FunctionTransformer(temp_cat),
+    OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)
 )
 clean_pipeline = make_pipeline(
+    FunctionTransformer(clean),
     StandardScaler()
 )
     OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)
 )
 proxy_humidity_pipeline = make_pipeline(
+    FunctionTransformer(proxy_humidity),
     StandardScaler()
 )
+square_pipeline = make_pipeline(FunctionTransformer(np.square), StandardScaler())
+log_pipeline = make_pipeline(FunctionTransformer(np.log1p), StandardScaler())
 default_num_pipeline = make_pipeline(StandardScaler())
 # ================================
 # 3️⃣ Custom Feature Selector
 # ================================
 class CorrelationThresholdSelector(BaseEstimator, TransformerMixin):
     def __init__(self, threshold=0.9, target_threshold=0.0, method="pearson", min_variance=0.0):
         self.threshold = threshold
         self.min_variance = min_variance
     def fit(self, X, y):
         X_arr, y_arr = check_X_y(X, y, accept_sparse=False, dtype=np.float64)
         n_features = X_arr.shape[1]
+        self.feature_names_in_ = np.array(getattr(X, "columns", [f"f{i}" for i in range(n_features)]))
         X_df = pd.DataFrame(X_arr, columns=self.feature_names_in_)
         variances = X_df.var(numeric_only=True)
+        low_var_idx = np.where(variances <= self.min_variance)[0].tolist()
         corr_mat = X_df.corr(method=self.method).abs().values
         np.fill_diagonal(corr_mat, 0.0)
         y_series = pd.Series(y_arr)
+        target_corr = X_df.corrwith(y_series, method=self.method).abs().fillna(0.0).values
         visited, drops = set(), set()
         for i in range(n_features):
             if i in visited or i in low_var_idx:
                 continue
             correlated_idx = set(np.where(corr_mat[i] > self.threshold)[0].tolist())
             cluster = {i} | correlated_idx
             visited |= cluster
+            if len(cluster) > 1:
+                best = max(cluster, key=lambda idx: (target_corr[idx], X_df.iloc[:, idx].var()))
+                if self.target_threshold > 0 and target_corr[best] < self.target_threshold:
+                    drops |= cluster
+                else:
+                    cluster.remove(best)
+                    drops |= cluster
         drops |= set(low_var_idx)
+        self.selected_features_ = np.array(sorted(set(range(n_features)) - drops), dtype=int)
         return self
     def transform(self, X):
         check_is_fitted(self, "selected_features_")
         X_arr = check_array(X, accept_sparse=False, dtype=np.float64)
+        return X_arr[:, self.selected_features_]
 # ================================
+# 4️⃣ Register Custom Functions for joblib
 # ================================
 sys.modules['__main__'].temp_cat = temp_cat
 sys.modules['__main__'].clean = clean
 # ================================
+# 9️⃣ Local or Hugging Face Run
 # ================================
 if __name__ == "__main__":
     import uvicorn