Spaces:

CsanadT
/

Air_Quality_Index

Sleeping

App Files Files Community

adjoint-bass commited on Jan 13, 2023

Commit

a6e15b1

1 Parent(s): e8665a5

update app, add picture

Browse files

Files changed (3) hide show

app.py +24 -14
functions.py +35 -60
vienna.jpg +0 -0

app.py CHANGED Viewed

@@ -3,49 +3,59 @@ import hopsworks
 import joblib
 import pandas as pd
 from datetime import timedelta, datetime
-from functions import *
 def fancy_header(text, font_size=24):
-    res = f'<p style="color:#ff5f72; font-size: {font_size}px; text-align:center;">{text}</p>'
     st.markdown(res, unsafe_allow_html=True)
-st.set_page_config(layout="wide")
-st.title('Air Quality Prediction Project🌩')
-st.write(9 * "-")
 fancy_header('\n Connecting to Hopsworks Feature Store...')
 project = hopsworks.login()
 st.write("Successfully connected!✔️")
-st.write(18 * "-")
-fancy_header('\n Getting data from Feature Store...')
 today = datetime.date.today()
 city = "vienna"
 weekly_data = get_weather_data_weekly(city, today)
-st.write(27 * "-")
 mr = project.get_model_registry()
 model = mr.get_best_model("aqi_model", "rmse", "min")
 model_dir = model.download()
 model = joblib.load(model_dir + "/aqi_model.pkl")
-st.write("-" * 36)
 preds = model.predict(data_encoder(weekly_data)).astype(int)
 poll_level = get_aplevel(preds.T.reshape(-1, 1))
-next_week = [f"{(today + timedelta(days=d)).strftime('%Y-%m-%d')},{(today + timedelta(days=d)).strftime('%A')}" for d in range(7)]
-df = pd.DataFrame(data=[preds, poll_level], index=["AQI", "Air pollution level"], columns=next_week)
-st.write(df)
 st.button("Re-run")

 import joblib
 import pandas as pd
 from datetime import timedelta, datetime
+from functions import get_weather_data_weekly, data_encoder, get_aplevel
 def fancy_header(text, font_size=24):
+    res = f'<p style="color:#ff5f27; font-size: {font_size}px;text-align:center">{text}</p>'
     st.markdown(res, unsafe_allow_html=True)
+# TODO: set the screen to widehardo
+st.title('Air Quality Prediction Project 🌩')
+st.image("bienna.jpg", use_column_width='auto')
+st.write(36 * "-")
+st.markdown("# This is a final project in the course ID2223 Scalable Machine Learning and Deep Learning :computer:")
+st.markdown("My task was to predict the Air Quality Index (AQI) for one city (I choose Vienna) based on different weather data (pressure, snow-and cloud-coverage, temperature, etc.).")
+st.markdown("For the full list of weather data, please click [here][https://visualcrossing.com/resources/documentation/weather-api/timeline-weather-api]")
 fancy_header('\n Connecting to Hopsworks Feature Store...')
 project = hopsworks.login()
 st.write("Successfully connected!✔️")
+st.write(36 * "-")
+fancy_header('\n Collecting the weather data from Vienna...')
 today = datetime.date.today()
 city = "vienna"
 weekly_data = get_weather_data_weekly(city, today)
+st.write("Successfully collected!✔️")
+st.write(36 * "-")
+fancy_header("Loading the fitted XGBoost model...")
 mr = project.get_model_registry()
 model = mr.get_best_model("aqi_model", "rmse", "min")
 model_dir = model.download()
 model = joblib.load(model_dir + "/aqi_model.pkl")
+st.write("Succesfully loaded!✔️")
+st.sidebar.write("-" * 36)
+fancy_header("Making AQI pedictions for the next week..")
 preds = model.predict(data_encoder(weekly_data)).astype(int)
 poll_level = get_aplevel(preds.T.reshape(-1, 1))
+next_week_datetime = [today + timedelta(days=d) for d in range(7)]
+next_week_str = [f"{days.strftime('%Y-%m-%d')}, {days.strftime('%A')}" for days in next_week_datetime]
+df = pd.DataFrame(data=[preds, poll_level], index=["AQI", "Air pollution level"], columns=next_week_str)
+st.write("Here they are!")
+st.dataframe(df.style.apply) # ref to function color_aq
 st.button("Re-run")

functions.py CHANGED Viewed

@@ -1,65 +1,19 @@
 import requests
 import os
-import joblib
 import pandas as pd
 import datetime
 import numpy as np
 from sklearn.preprocessing import OrdinalEncoder
 from dotenv import load_dotenv
-load_dotenv(override=True)
-def decode_features(df, feature_view):
-    """Decodes features in the input DataFrame using corresponding Hopsworks Feature Store transformation functions"""
-    df_res = df.copy()
-    import inspect
-    td_transformation_functions = feature_view._batch_scoring_server._transformation_functions
-    res = {}
-    for feature_name in td_transformation_functions:
-        if feature_name in df_res.columns:
-            td_transformation_function = td_transformation_functions[feature_name]
-            sig, foobar_locals = inspect.signature(td_transformation_function.transformation_fn), locals()
-            param_dict = dict([(param.name, param.default) for param in sig.parameters.values() if param.default != inspect._empty])
-            if td_transformation_function.name == "min_max_scaler":
-                df_res[feature_name] = df_res[feature_name].map(
-                    lambda x: x * (param_dict["max_value"] - param_dict["min_value"]) + param_dict["min_value"])
-            elif td_transformation_function.name == "standard_scaler":
-                df_res[feature_name] = df_res[feature_name].map(
-                    lambda x: x * param_dict['std_dev'] + param_dict["mean"])
-            elif td_transformation_function.name == "label_encoder":
-                dictionary = param_dict['value_to_index']
-                dictionary_ = {v: k for k, v in dictionary.items()}
-                df_res[feature_name] = df_res[feature_name].map(
-                    lambda x: dictionary_[x])
-    return df_res
-def get_model(project, model_name, evaluation_metric, sort_metrics_by):
-    """Retrieve desired model or download it from the Hopsworks Model Registry.
-    In second case, it will be physically downloaded to this directory"""
-    TARGET_FILE = "model.pkl"
-    list_of_files = [os.path.join(dirpath,filename) for dirpath, _, filenames \
-                     in os.walk('.') for filename in filenames if filename == TARGET_FILE]
-    if list_of_files:
-        model_path = list_of_files[0]
-        model = joblib.load(model_path)
-    else:
-        if not os.path.exists(TARGET_FILE):
-            mr = project.get_model_registry()
-            # get best model based on custom metrics
-            model = mr.get_best_model(model_name,
-                                      evaluation_metric,
-                                      sort_metrics_by)
-            model_dir = model.download()
-            model = joblib.load(model_dir + "/model.pkl")
-    return model
 def get_air_quality_data(station_name):
@@ -90,7 +44,6 @@ def get_air_quality_df(data):
     new_data['pm10'] = pd.to_numeric(new_data['pm10'])
     new_data['aqi'] = pd.to_numeric(new_data['aqi'])
-    print(new_data)
     return new_data
@@ -125,6 +78,7 @@ def get_weather_data_daily(city):
         data['uvindex'],
         data['conditions']
     ]
 def get_weather_data_weekly(city: str, start_date: datetime) -> pd.DataFrame:
     WEATHER_API_KEY = os.getenv('WEATHER_API_KEY')
     end_date = f"{start_date + datetime.timedelta(days=6):%Y-%m-%d}"
@@ -135,10 +89,31 @@ def get_weather_data_weekly(city: str, start_date: datetime) -> pd.DataFrame:
     for i in range(7):
         data = weather_data[i]
         list_of_data = [
-        answer['address'].lower(), data['datetime'], data['tempmax'], data['tempmin'], data['temp'], data['feelslikemax'],
-        data['feelslikemin'], data['feelslike'], data['dew'], data['humidity'], data['precip'], data['precipprob'], data['precipcover'],
-        data['snow'], data['snowdepth'], data['windgust'], data['windspeed'], data['winddir'], data['pressure'], data['cloudcover'],
-        data['visibility'], data['solarradiation'], data['solarenergy'], data['uvindex'], data['conditions']
     ]
         weather_df = get_weather_df(list_of_data)
         final_df = pd.concat([final_df, weather_df])

 import requests
 import os
 import pandas as pd
 import datetime
 import numpy as np
 from sklearn.preprocessing import OrdinalEncoder
 from dotenv import load_dotenv
+load_dotenv()
+## TODO: write function to display the color coding of the categoies both in the df and as a guide.
+#sg like:
+def color_aq(val):
+    color = 'green' if val else 'red'
+    return f'background-color: {color}'
+# but better
 def get_air_quality_data(station_name):
     new_data['pm10'] = pd.to_numeric(new_data['pm10'])
     new_data['aqi'] = pd.to_numeric(new_data['aqi'])
     return new_data
         data['uvindex'],
         data['conditions']
     ]
 def get_weather_data_weekly(city: str, start_date: datetime) -> pd.DataFrame:
     WEATHER_API_KEY = os.getenv('WEATHER_API_KEY')
     end_date = f"{start_date + datetime.timedelta(days=6):%Y-%m-%d}"
     for i in range(7):
         data = weather_data[i]
         list_of_data = [
+        answer['address'].lower(),
+        data['datetime'],
+        data['tempmax'],
+        data['tempmin'],
+        data['temp'],
+        data['feelslikemax'],
+        data['feelslikemin'],
+        data['feelslike'],
+        data['dew'],
+        data['humidity'],
+        data['precip'],
+        data['precipprob'],
+        data['precipcover'],
+        data['snow'],
+        data['snowdepth'],
+        data['windgust'],
+        data['windspeed'],
+        data['winddir'],
+        data['pressure'],
+        data['cloudcover'],
+        data['visibility'],
+        data['solarradiation'],
+        data['solarenergy'],
+        data['uvindex'],
+        data['conditions']
     ]
         weather_df = get_weather_df(list_of_data)
         final_df = pd.concat([final_df, weather_df])

vienna.jpg ADDED Viewed