Spaces:

abnsol
/

portfolio-optimizer

Runtime error

App Files Files Community

abnsol commited on Sep 24, 2025

Commit

f32736b

verified ·

1 Parent(s): e7f10e1

refactor: remove ARIMA forcasting model

Browse files

Files changed (1) hide show

src/forecast.py +0 -106

src/forecast.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import pandas as pd
 import numpy as np
-from pmdarima import auto_arima
 from sklearn.metrics import mean_absolute_error, root_mean_squared_error, mean_squared_error
 from sklearn.preprocessing import MinMaxScaler
 from tensorflow.keras.models import Sequential
@@ -17,111 +16,6 @@ def train_test_split_series(series, split_date):
     test = series.loc[split_date:].dropna()
     return train, test
-def fit_arima_model(train, seasonal=False, m=1):
-    """
-    Fit an ARIMA/SARIMA model using auto_arima.
-    - train: pandas Series
-    - seasonal: whether to fit seasonal ARIMA
-    - m: seasonal period (e.g., 12 for monthly seasonality)
-    """
-    model = auto_arima(
-        train,
-        start_p=1, start_q=1,
-        max_p=5, max_q=5,
-        d=None,
-        seasonal=seasonal,
-        m=m,
-        trace=True,
-        error_action='ignore',
-        suppress_warnings=True,
-        stepwise=True
-    )
-    return model
-def forecast_and_evaluate(model, test, return_conf_int=True, alpha=0.05):
-    """
-    Forecast on the test set, evaluate metrics, and return confidence intervals.
-    This version is based on the user's provided working alignment logic.
-    """
-    print("TEST HEAD\n", test.head())
-    actual_series = test.dropna()
-    n_periods = len(actual_series)
-    # Generate the forecast and optionally confidence intervals
-    pred_out = model.predict(n_periods=n_periods, return_conf_int=return_conf_int, alpha=alpha)
-    # model.predict may return just an array or (array, conf_int_array)
-    if return_conf_int:
-        try:
-            forecast_vals, conf_int_array = pred_out
-        except Exception:
-            # unexpected format — try to coerce
-            forecast_vals = np.asarray(pred_out)
-            conf_int_array = None
-    else:
-        forecast_vals = np.asarray(pred_out)
-        conf_int_array = None
-    forecast_vals = np.asarray(forecast_vals)
-    print("Forecast Values Head:\n", forecast_vals[:5])
-    # Primary alignment: label-based using the test index (positional subset)
-    test_index = actual_series.index
-    if forecast_vals.shape[0] >= len(test_index):
-        # take first len(test_index) predictions
-        forecast_series = pd.Series(forecast_vals[: len(test_index)], index=test_index, name="forecast")
-    else:
-        # fewer predictions than test rows: align to the first N positions
-        forecast_series = pd.Series(forecast_vals, index=test_index[: forecast_vals.shape[0]], name="forecast")
-    # Build conf_int_df if available and match to the same index used for forecast_series
-    if conf_int_array is not None:
-        conf_arr = np.asarray(conf_int_array)
-        # match rows to forecast_series length
-        conf_len = conf_arr.shape[0]
-        conf_idx = forecast_series.index[:conf_len]
-        try:
-            conf_int_df = pd.DataFrame(conf_arr[:conf_len], index=conf_idx, columns=['lower_ci', 'upper_ci'])
-        except Exception:
-            # fallback: create numeric columns without column names
-            conf_int_df = pd.DataFrame(conf_arr[:conf_len], index=conf_idx)
-            if conf_int_df.shape[1] >= 2:
-                conf_int_df.columns = ['lower_ci', 'upper_ci']
-    else:
-        conf_int_df = pd.DataFrame(index=forecast_series.index)
-    # Create evaluation DataFrame by joining on index
-    df_eval = pd.concat([actual_series, forecast_series], axis=1)
-    df_eval.columns = ["actual", "forecast"]
-    df_eval.dropna(inplace=True)
-    # If joining by labels produced an empty DataFrame, fallback to positional alignment
-    if df_eval.empty:
-        k = min(len(actual_series), len(forecast_vals))
-        if k == 0:
-            raise ValueError("No overlapping data to evaluate: actual or predicted series is empty.")
-        pos_index = actual_series.index[:k]
-        df_eval = pd.DataFrame({
-            'actual': actual_series.values[:k],
-            'forecast': forecast_vals[:k]
-        }, index=pos_index)
-        # update conf_int_df index to pos_index if possible
-        if conf_int_array is not None:
-            conf_int_df = conf_int_df.reindex(pos_index)
-    # --- Metric Calculation ---
-    non_zero_actuals = df_eval["actual"] != 0
-    mae = mean_absolute_error(df_eval["actual"], df_eval["forecast"])
-    rmse = mean_squared_error(df_eval["actual"], df_eval["forecast"])
-    mape = np.mean(np.abs((df_eval["actual"][non_zero_actuals] - df_eval["forecast"][non_zero_actuals]) / df_eval["actual"][non_zero_actuals])) * 100
-    metrics = {"MAE": mae, "RMSE": rmse, "MAPE": mape}
-    # Return all three required components
-    return forecast_series, conf_int_df, metrics
 # --- LSTM Functions ---
 def create_lstm_sequences(data, sequence_length):
     """Create input sequences and corresponding labels for LSTM."""

 import pandas as pd
 import numpy as np
 from sklearn.metrics import mean_absolute_error, root_mean_squared_error, mean_squared_error
 from sklearn.preprocessing import MinMaxScaler
 from tensorflow.keras.models import Sequential
     test = series.loc[split_date:].dropna()
     return train, test
 # --- LSTM Functions ---
 def create_lstm_sequences(data, sequence_length):
     """Create input sequences and corresponding labels for LSTM."""