Spaces:

03chrisk
/

air-quality-forecasting

Sleeping

App Files Files Community

atodorov284 commited on Oct 6, 2024

Commit

20c0381

1 Parent(s): 4f659cb

Created a predictor class to encapsulate and wrap the loaded models. \n Make a manual prediction to ensure the MLFlow tracking was correct, which is indeed the case. \n Can be accessed through prediction.py.

Browse files

Files changed (5) hide show

air-quality-forecast/prediction.py +144 -0
saved_models/decision_tree.pkl +3 -0
saved_models/random_forest.pkl +3 -0
saved_models/xgboost.pkl +3 -0
saved_models/xgboost.xgb +3 -0

air-quality-forecast/prediction.py ADDED Viewed

	@@ -0,0 +1,144 @@

+import os
+import numpy as np
+import pandas as pd
+from sklearn.base import BaseEstimator
+from sklearn.metrics import root_mean_squared_error, mean_squared_error
+import pickle
+import xgboost
+class PredictorModels:
+    def __init__(self) -> None:
+        '''
+        Initializes the predictor models by loading the pre-trained models from the saved_models directory.
+        The models are loaded in the following order:
+        1. XGBoost
+        2. Decision Tree
+        3. Random Forest
+        '''
+        self._xgboost: xgboost.Booster = xgboost.Booster()
+        self._d_tree: BaseEstimator = None
+        self._random_forest: BaseEstimator = None
+        self._load_models()
+    def _load_models(self) -> None:
+        '''
+        Loads the pre-trained models from the saved_models directory.
+        The models are loaded in the following order:
+        1. Decision Tree Regressor
+        2. Random Forest Regressor
+        3. XGBoost Regressor
+        The models are loaded from the following paths:
+        - Decision Tree Regressor: saved_models/decision_tree.pkl
+        - Random Forest Regressor: saved_models/random_forest.pkl
+        - XGBoost Regressor: saved_models/xgboost.xgb
+        '''
+        project_root = os.path.dirname(os.path.dirname(__file__))
+        models_path = os.path.join(project_root, "saved_models")
+        self._d_tree = pickle.load(open(os.path.join(models_path, "decision_tree.pkl"), "rb"))
+        self._random_forest = pickle.load(open(os.path.join(models_path, "random_forest.pkl"), "rb"))
+        self._xgboost.load_model(os.path.join(models_path, "xgboost.xgb"))
+    def xgb_predictions(self, x_test: pd.DataFrame) -> np.ndarray:
+        """
+        Makes predictions using the loaded XGBoost regressor.
+        Parameters
+        ----------
+        x_test : pd.DataFrame
+            Data points to make predictions on.
+        Returns
+        -------
+        y_pred : np.ndarray
+            Predicted values for the input data points.
+        """
+        if x_test is None:
+            raise ValueError("x_test is None")
+        if x_test.ndim != 2:
+            raise ValueError("x_test must be 2 dimensional, got {}".format(x_test.ndim))
+        xgb_test = xgboost.DMatrix(x_test)
+        y_pred = self._xgboost.predict(xgb_test)
+        return y_pred
+    def random_forest_predictions(self, x_test: pd.DataFrame) -> np.ndarray:
+        """
+        Makes predictions using the loaded Random Forest regressor.
+        Parameters
+        ----------
+        x_test : pd.DataFrame
+            Data points to make predictions on.
+        Returns
+        -------
+        y_pred : np.ndarray
+            Predicted values for the input data points.
+        """
+        if x_test is None:
+            raise ValueError("x_test is None")
+        if x_test.ndim != 2:
+            raise ValueError("x_test must be 2 dimensional, got {}".format(x_test.ndim))
+        y_pred = self._random_forest.predict(x_test)
+        return y_pred
+    def decision_tree_predictions(self, x_test: pd.DataFrame) -> np.ndarray:
+        """
+        Makes predictions using the loaded decision tree regressor.
+        Parameters
+        ----------
+        x_test : pd.DataFrame
+            Input data to make predictions on.
+        Returns
+        -------
+        y_pred : np.ndarray
+            Predicted values.
+        """
+        if x_test is None:
+            raise ValueError("x_test is None")
+        if x_test.ndim != 2:
+            raise ValueError("x_test must be 2 dimensional, got {}".format(x_test.ndim))
+        y_pred = self._d_tree.predict(x_test)
+        return y_pred
+if __name__ == "__main__":
+    predictor = PredictorModels()
+    x_train = pd.read_csv("data/processed/x_train.csv", index_col=0)
+    y_train = pd.read_csv("data/processed/y_train.csv", index_col=0)
+    y_test_pred_dtree = predictor.decision_tree_predictions(x_train)
+    y_test_pred_rf = predictor.random_forest_predictions(x_train)
+    y_test_pred_xgb = predictor.xgb_predictions(x_train)
+    print("Train Decision Tree MSE: ", mean_squared_error(y_train, y_test_pred_dtree))
+    print("Train Random Forest MSE: ", mean_squared_error(y_train, y_test_pred_rf))
+    print("Train XGBoost MSE: ", mean_squared_error(y_train, y_test_pred_xgb))
+    print("Train Decision Tree RMSE: ", root_mean_squared_error(y_train, y_test_pred_dtree))
+    print("Train Random Forest RMSE: ", root_mean_squared_error(y_train, y_test_pred_rf))
+    print("Train XGBoost RMSE: ", root_mean_squared_error(y_train, y_test_pred_xgb))
+    x_test = pd.read_csv("data/processed/x_test.csv", index_col=0)
+    y_test = pd.read_csv("data/processed/y_test.csv", index_col=0)
+    y_test_pred_dtree = predictor.decision_tree_predictions(x_test)
+    y_test_pred_rf = predictor.random_forest_predictions(x_test)
+    y_test_pred_xgb = predictor.xgb_predictions(x_test)
+    print("Test Decision Tree MSE: ", mean_squared_error(y_test, y_test_pred_dtree))
+    print("Test Random Forest MSE: ", mean_squared_error(y_test, y_test_pred_rf))
+    print("Test XGBoost MSE: ", mean_squared_error(y_test, y_test_pred_xgb))
+    print("Test Decision Tree RMSE: ", root_mean_squared_error(y_test, y_test_pred_dtree))
+    print("Test Random Forest RMSE: ", root_mean_squared_error(y_test, y_test_pred_rf))
+    print("Test XGBoost RMSE: ", root_mean_squared_error(y_test, y_test_pred_xgb))

saved_models/decision_tree.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c525bd86eb05bbcbc4c47b376e6ad56a6709211508dc252937cca563f5224cc8
+size 6132

saved_models/random_forest.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62ded2e5b233ca79f47b9313038de84a350758eca872d9a1e4bbba14805b8cd0
+size 2055582

saved_models/xgboost.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f5802d83d3041b537e54d20e594e0382901643af2443e4ae62b961233e95775
+size 93202

saved_models/xgboost.xgb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e0bb78e1d807c9ce321d3e5cec9dbb377ad7740991c432ef711cdc9673c637d
+size 6828485