Spaces:

RichardVR
/

Commodity_Alpha

No application file

App Files Files Community

RichardVR commited on Jul 18, 2025

Commit

3d3965f

verified ·

1 Parent(s): 38f20d7

Upload Direction Classification.ipynb

Browse files

Files changed (1) hide show

Copper Google Trend Analysis/Direction Classification.ipynb +2206 -0

Copper Google Trend Analysis/Direction Classification.ipynb ADDED Viewed

	@@ -0,0 +1,2206 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "id": "16e2f19c",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\n",
+      "── Label distribution across five splits ──\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Train 0</th>\n",
+       "      <th>Train 1</th>\n",
+       "      <th>Train 0 %</th>\n",
+       "      <th>Train 1 %</th>\n",
+       "      <th>Test 0</th>\n",
+       "      <th>Test 1</th>\n",
+       "      <th>Test 0 %</th>\n",
+       "      <th>Test 1 %</th>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Split</th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>69</td>\n",
+       "      <td>85</td>\n",
+       "      <td>44.8%</td>\n",
+       "      <td>55.2%</td>\n",
+       "      <td>24</td>\n",
+       "      <td>27</td>\n",
+       "      <td>47.1%</td>\n",
+       "      <td>52.9%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>77</td>\n",
+       "      <td>90</td>\n",
+       "      <td>46.1%</td>\n",
+       "      <td>53.9%</td>\n",
+       "      <td>23</td>\n",
+       "      <td>28</td>\n",
+       "      <td>45.1%</td>\n",
+       "      <td>54.9%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>85</td>\n",
+       "      <td>95</td>\n",
+       "      <td>47.2%</td>\n",
+       "      <td>52.8%</td>\n",
+       "      <td>23</td>\n",
+       "      <td>28</td>\n",
+       "      <td>45.1%</td>\n",
+       "      <td>54.9%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>91</td>\n",
+       "      <td>102</td>\n",
+       "      <td>47.2%</td>\n",
+       "      <td>52.8%</td>\n",
+       "      <td>23</td>\n",
+       "      <td>28</td>\n",
+       "      <td>45.1%</td>\n",
+       "      <td>54.9%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>5</th>\n",
+       "      <td>93</td>\n",
+       "      <td>113</td>\n",
+       "      <td>45.1%</td>\n",
+       "      <td>54.9%</td>\n",
+       "      <td>27</td>\n",
+       "      <td>24</td>\n",
+       "      <td>52.9%</td>\n",
+       "      <td>47.1%</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "       Train 0  Train 1 Train 0 % Train 1 %  Test 0  Test 1 Test 0 % Test 1 %\n",
+       "Split                                                                        \n",
+       "1           69       85     44.8%     55.2%      24      27    47.1%    52.9%\n",
+       "2           77       90     46.1%     53.9%      23      28    45.1%    54.9%\n",
+       "3           85       95     47.2%     52.8%      23      28    45.1%    54.9%\n",
+       "4           91      102     47.2%     52.8%      23      28    45.1%    54.9%\n",
+       "5           93      113     45.1%     54.9%      27      24    52.9%    47.1%"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\n",
+      "── Accuracy per split (plus Avg & Max) ──\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Split</th>\n",
+       "      <th>1</th>\n",
+       "      <th>2</th>\n",
+       "      <th>3</th>\n",
+       "      <th>4</th>\n",
+       "      <th>5</th>\n",
+       "      <th>Avg</th>\n",
+       "      <th>Max</th>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Model</th>\n",
+       "      <th>Scenario</th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Decision Tree</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>56.86%</td>\n",
+       "      <td>60.78%</td>\n",
+       "      <td>45.10%</td>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>52.16%</td>\n",
+       "      <td>60.78%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>47.06%</td>\n",
+       "      <td>56.86%</td>\n",
+       "      <td>60.78%</td>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>41.18%</td>\n",
+       "      <td>50.98%</td>\n",
+       "      <td>60.78%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>62.75%</td>\n",
+       "      <td>62.75%</td>\n",
+       "      <td>56.86%</td>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>58.82%</td>\n",
+       "      <td>58.04%</td>\n",
+       "      <td>62.75%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Logistic Regression</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>56.86%</td>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>56.86%</td>\n",
+       "      <td>52.16%</td>\n",
+       "      <td>56.86%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>58.82%</td>\n",
+       "      <td>39.22%</td>\n",
+       "      <td>45.10%</td>\n",
+       "      <td>47.06%</td>\n",
+       "      <td>56.86%</td>\n",
+       "      <td>49.41%</td>\n",
+       "      <td>58.82%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>56.86%</td>\n",
+       "      <td>56.86%</td>\n",
+       "      <td>54.90%</td>\n",
+       "      <td>52.94%</td>\n",
+       "      <td>52.94%</td>\n",
+       "      <td>54.90%</td>\n",
+       "      <td>56.86%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Random Forest</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>41.18%</td>\n",
+       "      <td>47.06%</td>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>47.06%</td>\n",
+       "      <td>47.06%</td>\n",
+       "      <td>46.27%</td>\n",
+       "      <td>49.02%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>37.25%</td>\n",
+       "      <td>45.10%</td>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>47.06%</td>\n",
+       "      <td>47.06%</td>\n",
+       "      <td>45.10%</td>\n",
+       "      <td>49.02%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>52.94%</td>\n",
+       "      <td>60.78%</td>\n",
+       "      <td>58.82%</td>\n",
+       "      <td>60.78%</td>\n",
+       "      <td>58.82%</td>\n",
+       "      <td>58.43%</td>\n",
+       "      <td>60.78%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">SVM</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>47.06%</td>\n",
+       "      <td>58.82%</td>\n",
+       "      <td>45.10%</td>\n",
+       "      <td>47.06%</td>\n",
+       "      <td>47.06%</td>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>58.82%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>54.90%</td>\n",
+       "      <td>54.90%</td>\n",
+       "      <td>45.10%</td>\n",
+       "      <td>45.10%</td>\n",
+       "      <td>45.10%</td>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>54.90%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>60.78%</td>\n",
+       "      <td>52.94%</td>\n",
+       "      <td>45.10%</td>\n",
+       "      <td>50.98%</td>\n",
+       "      <td>52.94%</td>\n",
+       "      <td>52.55%</td>\n",
+       "      <td>60.78%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">XGBoost</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>52.94%</td>\n",
+       "      <td>50.98%</td>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>50.98%</td>\n",
+       "      <td>56.86%</td>\n",
+       "      <td>52.16%</td>\n",
+       "      <td>56.86%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>49.02%</td>\n",
+       "      <td>52.94%</td>\n",
+       "      <td>43.14%</td>\n",
+       "      <td>52.94%</td>\n",
+       "      <td>50.98%</td>\n",
+       "      <td>49.80%</td>\n",
+       "      <td>52.94%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>58.82%</td>\n",
+       "      <td>60.78%</td>\n",
+       "      <td>56.86%</td>\n",
+       "      <td>64.71%</td>\n",
+       "      <td>58.82%</td>\n",
+       "      <td>60.00%</td>\n",
+       "      <td>64.71%</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "Split                              1       2       3       4       5     Avg  \\\n",
+       "Model               Scenario                                                   \n",
+       "Decision Tree       0.05      56.86%  60.78%  45.10%  49.02%  49.02%  52.16%   \n",
+       "                    0.10      47.06%  56.86%  60.78%  49.02%  41.18%  50.98%   \n",
+       "                    without   62.75%  62.75%  56.86%  49.02%  58.82%  58.04%   \n",
+       "Logistic Regression 0.05      56.86%  49.02%  49.02%  49.02%  56.86%  52.16%   \n",
+       "                    0.10      58.82%  39.22%  45.10%  47.06%  56.86%  49.41%   \n",
+       "                    without   56.86%  56.86%  54.90%  52.94%  52.94%  54.90%   \n",
+       "Random Forest       0.05      41.18%  47.06%  49.02%  47.06%  47.06%  46.27%   \n",
+       "                    0.10      37.25%  45.10%  49.02%  47.06%  47.06%  45.10%   \n",
+       "                    without   52.94%  60.78%  58.82%  60.78%  58.82%  58.43%   \n",
+       "SVM                 0.05      47.06%  58.82%  45.10%  47.06%  47.06%  49.02%   \n",
+       "                    0.10      54.90%  54.90%  45.10%  45.10%  45.10%  49.02%   \n",
+       "                    without   60.78%  52.94%  45.10%  50.98%  52.94%  52.55%   \n",
+       "XGBoost             0.05      52.94%  50.98%  49.02%  50.98%  56.86%  52.16%   \n",
+       "                    0.10      49.02%  52.94%  43.14%  52.94%  50.98%  49.80%   \n",
+       "                    without   58.82%  60.78%  56.86%  64.71%  58.82%  60.00%   \n",
+       "\n",
+       "Split                            Max  \n",
+       "Model               Scenario          \n",
+       "Decision Tree       0.05      60.78%  \n",
+       "                    0.10      60.78%  \n",
+       "                    without   62.75%  \n",
+       "Logistic Regression 0.05      56.86%  \n",
+       "                    0.10      58.82%  \n",
+       "                    without   56.86%  \n",
+       "Random Forest       0.05      49.02%  \n",
+       "                    0.10      49.02%  \n",
+       "                    without   60.78%  \n",
+       "SVM                 0.05      58.82%  \n",
+       "                    0.10      54.90%  \n",
+       "                    without   60.78%  \n",
+       "XGBoost             0.05      56.86%  \n",
+       "                    0.10      52.94%  \n",
+       "                    without   64.71%  "
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\n",
+      "── F1-score per split (plus Avg & Max) ──\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Split</th>\n",
+       "      <th>1</th>\n",
+       "      <th>2</th>\n",
+       "      <th>3</th>\n",
+       "      <th>4</th>\n",
+       "      <th>5</th>\n",
+       "      <th>Avg</th>\n",
+       "      <th>Max</th>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Model</th>\n",
+       "      <th>Scenario</th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Decision Tree</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>60.71%</td>\n",
+       "      <td>61.54%</td>\n",
+       "      <td>48.15%</td>\n",
+       "      <td>45.83%</td>\n",
+       "      <td>61.76%</td>\n",
+       "      <td>55.60%</td>\n",
+       "      <td>61.76%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>57.14%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>64.29%</td>\n",
+       "      <td>45.83%</td>\n",
+       "      <td>37.50%</td>\n",
+       "      <td>50.95%</td>\n",
+       "      <td>64.29%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>72.46%</td>\n",
+       "      <td>64.15%</td>\n",
+       "      <td>47.62%</td>\n",
+       "      <td>51.85%</td>\n",
+       "      <td>46.15%</td>\n",
+       "      <td>56.45%</td>\n",
+       "      <td>72.46%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Logistic Regression</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>45.00%</td>\n",
+       "      <td>27.78%</td>\n",
+       "      <td>23.53%</td>\n",
+       "      <td>13.33%</td>\n",
+       "      <td>63.33%</td>\n",
+       "      <td>34.59%</td>\n",
+       "      <td>63.33%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>66.67%</td>\n",
+       "      <td>45.61%</td>\n",
+       "      <td>0.00%</td>\n",
+       "      <td>6.90%</td>\n",
+       "      <td>63.33%</td>\n",
+       "      <td>36.50%</td>\n",
+       "      <td>66.67%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>60.71%</td>\n",
+       "      <td>56.00%</td>\n",
+       "      <td>46.51%</td>\n",
+       "      <td>25.00%</td>\n",
+       "      <td>0.00%</td>\n",
+       "      <td>37.65%</td>\n",
+       "      <td>60.71%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Random Forest</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>44.44%</td>\n",
+       "      <td>27.03%</td>\n",
+       "      <td>23.53%</td>\n",
+       "      <td>18.18%</td>\n",
+       "      <td>64.00%</td>\n",
+       "      <td>35.44%</td>\n",
+       "      <td>64.00%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>42.86%</td>\n",
+       "      <td>6.67%</td>\n",
+       "      <td>13.33%</td>\n",
+       "      <td>6.90%</td>\n",
+       "      <td>64.00%</td>\n",
+       "      <td>26.75%</td>\n",
+       "      <td>64.00%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>67.57%</td>\n",
+       "      <td>61.54%</td>\n",
+       "      <td>57.14%</td>\n",
+       "      <td>60.00%</td>\n",
+       "      <td>46.15%</td>\n",
+       "      <td>58.48%</td>\n",
+       "      <td>67.57%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">SVM</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>0.00%</td>\n",
+       "      <td>61.82%</td>\n",
+       "      <td>0.00%</td>\n",
+       "      <td>6.90%</td>\n",
+       "      <td>64.00%</td>\n",
+       "      <td>26.54%</td>\n",
+       "      <td>64.00%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>64.62%</td>\n",
+       "      <td>70.89%</td>\n",
+       "      <td>0.00%</td>\n",
+       "      <td>0.00%</td>\n",
+       "      <td>61.11%</td>\n",
+       "      <td>39.32%</td>\n",
+       "      <td>70.89%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>45.45%</td>\n",
+       "      <td>0.00%</td>\n",
+       "      <td>19.35%</td>\n",
+       "      <td>0.00%</td>\n",
+       "      <td>22.96%</td>\n",
+       "      <td>50.00%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">XGBoost</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>58.62%</td>\n",
+       "      <td>46.81%</td>\n",
+       "      <td>31.58%</td>\n",
+       "      <td>28.57%</td>\n",
+       "      <td>67.65%</td>\n",
+       "      <td>46.65%</td>\n",
+       "      <td>67.65%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>42.86%</td>\n",
+       "      <td>21.62%</td>\n",
+       "      <td>33.33%</td>\n",
+       "      <td>65.75%</td>\n",
+       "      <td>43.43%</td>\n",
+       "      <td>65.75%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>68.66%</td>\n",
+       "      <td>62.96%</td>\n",
+       "      <td>52.17%</td>\n",
+       "      <td>67.86%</td>\n",
+       "      <td>53.33%</td>\n",
+       "      <td>61.00%</td>\n",
+       "      <td>68.66%</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "Split                              1       2       3       4       5     Avg  \\\n",
+       "Model               Scenario                                                   \n",
+       "Decision Tree       0.05      60.71%  61.54%  48.15%  45.83%  61.76%  55.60%   \n",
+       "                    0.10      57.14%  50.00%  64.29%  45.83%  37.50%  50.95%   \n",
+       "                    without   72.46%  64.15%  47.62%  51.85%  46.15%  56.45%   \n",
+       "Logistic Regression 0.05      45.00%  27.78%  23.53%  13.33%  63.33%  34.59%   \n",
+       "                    0.10      66.67%  45.61%   0.00%   6.90%  63.33%  36.50%   \n",
+       "                    without   60.71%  56.00%  46.51%  25.00%   0.00%  37.65%   \n",
+       "Random Forest       0.05      44.44%  27.03%  23.53%  18.18%  64.00%  35.44%   \n",
+       "                    0.10      42.86%   6.67%  13.33%   6.90%  64.00%  26.75%   \n",
+       "                    without   67.57%  61.54%  57.14%  60.00%  46.15%  58.48%   \n",
+       "SVM                 0.05       0.00%  61.82%   0.00%   6.90%  64.00%  26.54%   \n",
+       "                    0.10      64.62%  70.89%   0.00%   0.00%  61.11%  39.32%   \n",
+       "                    without   50.00%  45.45%   0.00%  19.35%   0.00%  22.96%   \n",
+       "XGBoost             0.05      58.62%  46.81%  31.58%  28.57%  67.65%  46.65%   \n",
+       "                    0.10      53.57%  42.86%  21.62%  33.33%  65.75%  43.43%   \n",
+       "                    without   68.66%  62.96%  52.17%  67.86%  53.33%  61.00%   \n",
+       "\n",
+       "Split                            Max  \n",
+       "Model               Scenario          \n",
+       "Decision Tree       0.05      61.76%  \n",
+       "                    0.10      64.29%  \n",
+       "                    without   72.46%  \n",
+       "Logistic Regression 0.05      63.33%  \n",
+       "                    0.10      66.67%  \n",
+       "                    without   60.71%  \n",
+       "Random Forest       0.05      64.00%  \n",
+       "                    0.10      64.00%  \n",
+       "                    without   67.57%  \n",
+       "SVM                 0.05      64.00%  \n",
+       "                    0.10      70.89%  \n",
+       "                    without   50.00%  \n",
+       "XGBoost             0.05      67.65%  \n",
+       "                    0.10      65.75%  \n",
+       "                    without   68.66%  "
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\n",
+      "── AUC per split (plus Avg & Max) ──\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Split</th>\n",
+       "      <th>1</th>\n",
+       "      <th>2</th>\n",
+       "      <th>3</th>\n",
+       "      <th>4</th>\n",
+       "      <th>5</th>\n",
+       "      <th>Avg</th>\n",
+       "      <th>Max</th>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Model</th>\n",
+       "      <th>Scenario</th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Decision Tree</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>0.5818</td>\n",
+       "      <td>0.5893</td>\n",
+       "      <td>0.3789</td>\n",
+       "      <td>0.5194</td>\n",
+       "      <td>0.5116</td>\n",
+       "      <td>0.5162</td>\n",
+       "      <td>0.5893</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>0.4522</td>\n",
+       "      <td>0.5831</td>\n",
+       "      <td>0.6172</td>\n",
+       "      <td>0.5217</td>\n",
+       "      <td>0.3843</td>\n",
+       "      <td>0.5117</td>\n",
+       "      <td>0.6172</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>0.6358</td>\n",
+       "      <td>0.6219</td>\n",
+       "      <td>0.6320</td>\n",
+       "      <td>0.5520</td>\n",
+       "      <td>0.6273</td>\n",
+       "      <td>0.6138</td>\n",
+       "      <td>0.6358</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Logistic Regression</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>0.5910</td>\n",
+       "      <td>0.5839</td>\n",
+       "      <td>0.6398</td>\n",
+       "      <td>0.7174</td>\n",
+       "      <td>0.5895</td>\n",
+       "      <td>0.6243</td>\n",
+       "      <td>0.7174</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>0.6080</td>\n",
+       "      <td>0.4022</td>\n",
+       "      <td>0.4379</td>\n",
+       "      <td>0.4534</td>\n",
+       "      <td>0.6188</td>\n",
+       "      <td>0.5041</td>\n",
+       "      <td>0.6188</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>0.5664</td>\n",
+       "      <td>0.5916</td>\n",
+       "      <td>0.6429</td>\n",
+       "      <td>0.7042</td>\n",
+       "      <td>0.6111</td>\n",
+       "      <td>0.6232</td>\n",
+       "      <td>0.7042</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Random Forest</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>0.4290</td>\n",
+       "      <td>0.5901</td>\n",
+       "      <td>0.6444</td>\n",
+       "      <td>0.6211</td>\n",
+       "      <td>0.5895</td>\n",
+       "      <td>0.5748</td>\n",
+       "      <td>0.6444</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>0.3318</td>\n",
+       "      <td>0.4720</td>\n",
+       "      <td>0.5124</td>\n",
+       "      <td>0.5978</td>\n",
+       "      <td>0.5216</td>\n",
+       "      <td>0.4871</td>\n",
+       "      <td>0.5978</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>0.5409</td>\n",
+       "      <td>0.6002</td>\n",
+       "      <td>0.6188</td>\n",
+       "      <td>0.6064</td>\n",
+       "      <td>0.5895</td>\n",
+       "      <td>0.5911</td>\n",
+       "      <td>0.6188</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">SVM</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>0.3565</td>\n",
+       "      <td>0.4340</td>\n",
+       "      <td>0.4332</td>\n",
+       "      <td>0.3750</td>\n",
+       "      <td>0.5185</td>\n",
+       "      <td>0.4234</td>\n",
+       "      <td>0.5185</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>0.4329</td>\n",
+       "      <td>0.4775</td>\n",
+       "      <td>0.4526</td>\n",
+       "      <td>0.4689</td>\n",
+       "      <td>0.5725</td>\n",
+       "      <td>0.4809</td>\n",
+       "      <td>0.5725</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>0.5664</td>\n",
+       "      <td>0.5730</td>\n",
+       "      <td>0.3571</td>\n",
+       "      <td>0.7042</td>\n",
+       "      <td>0.6111</td>\n",
+       "      <td>0.5624</td>\n",
+       "      <td>0.7042</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">XGBoost</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>0.4985</td>\n",
+       "      <td>0.5481</td>\n",
+       "      <td>0.5963</td>\n",
+       "      <td>0.5342</td>\n",
+       "      <td>0.5818</td>\n",
+       "      <td>0.5518</td>\n",
+       "      <td>0.5963</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>0.5139</td>\n",
+       "      <td>0.5124</td>\n",
+       "      <td>0.5404</td>\n",
+       "      <td>0.5870</td>\n",
+       "      <td>0.4429</td>\n",
+       "      <td>0.5193</td>\n",
+       "      <td>0.5870</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>0.6728</td>\n",
+       "      <td>0.6180</td>\n",
+       "      <td>0.6071</td>\n",
+       "      <td>0.6025</td>\n",
+       "      <td>0.6088</td>\n",
+       "      <td>0.6219</td>\n",
+       "      <td>0.6728</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "Split                              1       2       3       4       5     Avg  \\\n",
+       "Model               Scenario                                                   \n",
+       "Decision Tree       0.05      0.5818  0.5893  0.3789  0.5194  0.5116  0.5162   \n",
+       "                    0.10      0.4522  0.5831  0.6172  0.5217  0.3843  0.5117   \n",
+       "                    without   0.6358  0.6219  0.6320  0.5520  0.6273  0.6138   \n",
+       "Logistic Regression 0.05      0.5910  0.5839  0.6398  0.7174  0.5895  0.6243   \n",
+       "                    0.10      0.6080  0.4022  0.4379  0.4534  0.6188  0.5041   \n",
+       "                    without   0.5664  0.5916  0.6429  0.7042  0.6111  0.6232   \n",
+       "Random Forest       0.05      0.4290  0.5901  0.6444  0.6211  0.5895  0.5748   \n",
+       "                    0.10      0.3318  0.4720  0.5124  0.5978  0.5216  0.4871   \n",
+       "                    without   0.5409  0.6002  0.6188  0.6064  0.5895  0.5911   \n",
+       "SVM                 0.05      0.3565  0.4340  0.4332  0.3750  0.5185  0.4234   \n",
+       "                    0.10      0.4329  0.4775  0.4526  0.4689  0.5725  0.4809   \n",
+       "                    without   0.5664  0.5730  0.3571  0.7042  0.6111  0.5624   \n",
+       "XGBoost             0.05      0.4985  0.5481  0.5963  0.5342  0.5818  0.5518   \n",
+       "                    0.10      0.5139  0.5124  0.5404  0.5870  0.4429  0.5193   \n",
+       "                    without   0.6728  0.6180  0.6071  0.6025  0.6088  0.6219   \n",
+       "\n",
+       "Split                            Max  \n",
+       "Model               Scenario          \n",
+       "Decision Tree       0.05      0.5893  \n",
+       "                    0.10      0.6172  \n",
+       "                    without   0.6358  \n",
+       "Logistic Regression 0.05      0.7174  \n",
+       "                    0.10      0.6188  \n",
+       "                    without   0.7042  \n",
+       "Random Forest       0.05      0.6444  \n",
+       "                    0.10      0.5978  \n",
+       "                    without   0.6188  \n",
+       "SVM                 0.05      0.5185  \n",
+       "                    0.10      0.5725  \n",
+       "                    without   0.7042  \n",
+       "XGBoost             0.05      0.5963  \n",
+       "                    0.10      0.5870  \n",
+       "                    without   0.6728  "
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "# ================================================================\n",
+    "#  Direction-of-Move Classification – full pipeline (nested CV)\n",
+    "#  (MONTHLY version: all CSVs use a “Month” column in YYYY-MM format)\n",
+    "#  • HMM & LSTM removed, XGBoost retained\n",
+    "#  • Feature standardisation before model training\n",
+    "#  • Nested TimeSeriesSplit for hyper-parameter tuning\n",
+    "#  • Accuracy, AUC, F1 tables\n",
+    "# ================================================================\n",
+    "import pathlib, warnings, numpy as np, pandas as pd\n",
+    "from statsmodels.tsa.stattools import adfuller, coint, grangercausalitytests\n",
+    "from sklearn.model_selection   import GridSearchCV, TimeSeriesSplit\n",
+    "from sklearn.preprocessing     import StandardScaler\n",
+    "from sklearn.linear_model      import LogisticRegression\n",
+    "from sklearn.tree              import DecisionTreeClassifier\n",
+    "from sklearn.ensemble          import RandomForestClassifier\n",
+    "from sklearn.svm               import SVC\n",
+    "import xgboost as xgb\n",
+    "from sklearn.metrics           import accuracy_score, f1_score, roc_auc_score\n",
+    "\n",
+    "warnings.filterwarnings(\"ignore\")\n",
+    "pd.set_option(\"display.float_format\", \"{:,.4f}\".format)\n",
+    "np.random.seed(42)\n",
+    "\n",
+    "# ─────────────── 1│ data (monthly) ──────────────────────────────\n",
+    "ROOT = pathlib.Path(\".\")\n",
+    "\n",
+    "def load_copper():\n",
+    "    return (pd.read_csv(ROOT / \"Copper Prices.csv\")\n",
+    "              .assign(Month=lambda d: pd.to_datetime(d[\"Month\"], format=\"%Y-%m\"))\n",
+    "              .set_index(\"Month\")           # keep month-start stamps\n",
+    "              .asfreq(\"MS\")                 # align to month-start\n",
+    "              .rename(columns={\"Price\": \"Copper_Price\"})[\"Copper_Price\"])\n",
+    "\n",
+    "def load_trends():\n",
+    "    def one(folder):\n",
+    "        frames = []\n",
+    "        for fp in (ROOT / folder).glob(\"*.csv\"):\n",
+    "            key  = fp.stem.replace(\",\", \"\")\n",
+    "            t    = pd.read_csv(fp)\n",
+    "            t.columns = [c.strip() for c in t.columns]    # trim spaces\n",
+    "            frames.append(\n",
+    "                t.assign(Month=lambda d: pd.to_datetime(d[t.columns[0]], format=\"%Y-%m\"))\n",
+    "                 .set_index(\"Month\").asfreq(\"MS\")\n",
+    "                 .rename(columns={t.columns[1]: key})\n",
+    "            )\n",
+    "        return pd.concat(frames, axis=1)\n",
+    "    cats = [\"Supply Factors\", \"Demand Factors\",\n",
+    "            \"Speculative Factors\", \"Sudden Factors\"]\n",
+    "    return pd.concat([one(c) for c in cats], axis=1).sort_index()\n",
+    "\n",
+    "copper, trends = load_copper(), load_trends()\n",
+    "data_raw       = pd.concat([copper, trends], axis=1).dropna()\n",
+    "\n",
+    "# ─────────────── 2│ statistical filters ─────────────────────────\n",
+    "def adf_p(s, min_obs=12):\n",
+    "    x = s.dropna()\n",
+    "    if len(x) < min_obs or x.nunique() < 2:\n",
+    "        return np.nan                     # flag unusable series\n",
+    "    return adfuller(x, autolag=\"AIC\")[1]\n",
+    "\n",
+    "ADF, COINT, MAX_LAG = 0.01, 0.5, 12\n",
+    "\n",
+    "i1 = [c for c in data_raw.columns\n",
+    "      if (p0 := adf_p(data_raw[c])) is not np.nan and p0 > ADF\n",
+    "      and (p1 := adf_p(data_raw[c].diff())) is not np.nan and p1 < ADF\n",
+    "      and c != \"Copper_Price\"]\n",
+    "\n",
+    "cands = [s for s in i1\n",
+    "         if coint(data_raw[\"Copper_Price\"], data_raw[s])[1] < COINT]\n",
+    "\n",
+    "minp = {s: min(grangercausalitytests(\n",
+    "                data_raw[[\"Copper_Price\", s]].dropna().values,\n",
+    "                maxlag=MAX_LAG, verbose=False)[lag][0][\"ssr_ftest\"][1]\n",
+    "              for lag in range(1, MAX_LAG + 1))\n",
+    "        for s in cands}\n",
+    "\n",
+    "TIERS = {0.05: [s for s,p in minp.items() if p < 0.05],\n",
+    "         0.10: [s for s,p in minp.items() if p < 0.10]}\n",
+    "\n",
+    "def lag_df(feats, lag=1):\n",
+    "    out = {\"Copper_Price\": data_raw[\"Copper_Price\"],\n",
+    "           f\"Copper_Price_lag{lag}\": data_raw[\"Copper_Price\"].shift(lag)}\n",
+    "    out.update({f\"{f}_lag{lag}\": data_raw[f].shift(lag) for f in feats})\n",
+    "    return pd.DataFrame(out).dropna()\n",
+    "\n",
+    "SCENS = {\"without\": lag_df([]),\n",
+    "         \"0.05\"   : lag_df(TIERS[0.05]),\n",
+    "         \"0.10\"   : lag_df(TIERS[0.10])}\n",
+    "for k in SCENS:\n",
+    "    SCENS[k][\"y\"] = (SCENS[k][\"Copper_Price\"].diff().shift(-1) > 0).astype(int)\n",
+    "    SCENS[k].dropna(inplace=True)\n",
+    "\n",
+    "# ─────────────── 3│ label-distribution table ────────────────────\n",
+    "df_ref, n = SCENS[\"without\"], len(SCENS[\"without\"])\n",
+    "TEST_FRAC = 0.20\n",
+    "test_len  = int(n * TEST_FRAC)\n",
+    "\n",
+    "rows = []\n",
+    "for i in range(5):\n",
+    "    train_end = int(n * (0.80 + i*0.05))\n",
+    "    tr, te    = slice(0, train_end - test_len), slice(train_end - test_len, train_end)\n",
+    "    y_tr, y_te = df_ref[\"y\"].iloc[tr], df_ref[\"y\"].iloc[te]\n",
+    "    c_tr = y_tr.value_counts().reindex([0,1]).fillna(0).astype(int)\n",
+    "    c_te = y_te.value_counts().reindex([0,1]).fillna(0).astype(int)\n",
+    "    rows.append([i+1,\n",
+    "                 c_tr[0], c_tr[1], c_tr[0]/c_tr.sum()*100, c_tr[1]/c_tr.sum()*100,\n",
+    "                 c_te[0], c_te[1], c_te[0]/c_te.sum()*100, c_te[1]/c_te.sum()*100])\n",
+    "\n",
+    "label_dist = (pd.DataFrame(rows, columns=[\"Split\",\"Train 0\",\"Train 1\",\"Train 0 %\",\"Train 1 %\",\n",
+    "                                          \"Test 0\",\"Test 1\",\"Test 0 %\",\"Test 1 %\"])\n",
+    "                .set_index(\"Split\")\n",
+    "                .applymap(lambda x: f\"{x:.1f}%\" if isinstance(x,float) else x))\n",
+    "print(\"\\n── Label distribution across five splits ──\")\n",
+    "display(label_dist)\n",
+    "\n",
+    "# ─────────────── 4│ model grids (unchanged) ─────────────────────\n",
+    "GRIDS = {\n",
+    "    \"XGBoost\":[{\"n_estimators\":[400,600],\"max_depth\":[3,5],\n",
+    "                \"learning_rate\":[0.03,0.07],\"subsample\":[0.8,1.0]}],\n",
+    "    \"Logistic Regression\":[{\"C\":[0.1,1,10]}],\n",
+    "    \"Decision Tree\":[{\"max_depth\":[3,5,8],\"min_samples_leaf\":[2,4,6]}],\n",
+    "    \"Random Forest\":[{\"n_estimators\":[300,500],\"max_depth\":[4,6],\n",
+    "                      \"min_samples_leaf\":[3,5]}],\n",
+    "    \"SVM\":[{\"C\":[0.1,1,10],\"gamma\":[0.01,0.1]}],\n",
+    "}\n",
+    "\n",
+    "# ─────────────── 5│ expanding-window splits ─────────────────────\n",
+    "def expanding_splits(n_rows, test_frac=TEST_FRAC, n_splits=5):\n",
+    "    t_len = int(n_rows * test_frac)\n",
+    "    for i in range(n_splits):\n",
+    "        end = int(n_rows * (0.80 + i*0.05))\n",
+    "        yield np.arange(end - t_len), np.arange(end - t_len, end)\n",
+    "\n",
+    "INNER_CV = TimeSeriesSplit(n_splits=4)\n",
+    "records  = []\n",
+    "\n",
+    "# ─────────────── 6│ nested-CV loop ──────────────────────────────\n",
+    "for scen, df in SCENS.items():\n",
+    "    X_full, y_full = df.drop(columns=[\"Copper_Price\",\"y\"]), df[\"y\"]\n",
+    "    n = len(X_full)\n",
+    "\n",
+    "    for split_idx, (tr_idx, te_idx) in enumerate(expanding_splits(n), 1):\n",
+    "        X_tr_raw, y_tr = X_full.iloc[tr_idx], y_full.iloc[tr_idx]\n",
+    "        X_te_raw, y_te = X_full.iloc[te_idx], y_full.iloc[te_idx]\n",
+    "\n",
+    "        scaler = StandardScaler().fit(X_tr_raw)\n",
+    "        X_tr   = pd.DataFrame(scaler.transform(X_tr_raw), columns=X_tr_raw.columns, index=X_tr_raw.index)\n",
+    "        X_te   = pd.DataFrame(scaler.transform(X_te_raw), columns=X_te_raw.columns, index=X_te_raw.index)\n",
+    "\n",
+    "        counts = y_tr.value_counts()\n",
+    "\n",
+    "        for mname, grid in GRIDS.items():\n",
+    "            if mname == \"Logistic Regression\":\n",
+    "                base = LogisticRegression(max_iter=1000, class_weight='balanced')\n",
+    "            elif mname == \"Decision Tree\":\n",
+    "                base = DecisionTreeClassifier(random_state=42, class_weight='balanced')\n",
+    "            elif mname == \"Random Forest\":\n",
+    "                base = RandomForestClassifier(random_state=42, class_weight='balanced')\n",
+    "            elif mname == \"SVM\":\n",
+    "                base = SVC(kernel=\"rbf\", probability=True, class_weight='balanced', random_state=42)\n",
+    "            elif mname == \"XGBoost\":\n",
+    "                spw  = counts.get(0,1) / counts.get(1,1) if len(counts)==2 else 1\n",
+    "                base = xgb.XGBClassifier(random_state=42,\n",
+    "                                         objective=\"binary:logistic\",\n",
+    "                                         eval_metric=\"logloss\",\n",
+    "                                         use_label_encoder=False,\n",
+    "                                         scale_pos_weight=spw)\n",
+    "\n",
+    "            best = (GridSearchCV(base, grid, cv=INNER_CV,\n",
+    "                                 scoring=\"accuracy\", n_jobs=-1)\n",
+    "                    .fit(X_tr, y_tr)\n",
+    "                    .best_estimator_)\n",
+    "\n",
+    "            y_hat = best.predict(X_te)\n",
+    "            proba = (best.predict_proba(X_te)[:,1]\n",
+    "                     if hasattr(best, \"predict_proba\") else None)\n",
+    "\n",
+    "            acc = accuracy_score(y_te, y_hat)\n",
+    "            f1  = f1_score(y_te, y_hat, zero_division=0)\n",
+    "            auc = (roc_auc_score(y_te, proba)\n",
+    "                   if proba is not None and len(np.unique(y_te))==2 else np.nan)\n",
+    "\n",
+    "            records.append({\"Model\":mname,\"Scenario\":scen,\"Split\":split_idx,\n",
+    "                            \"Accuracy\":acc,\"F1\":f1,\"AUC\":auc})\n",
+    "\n",
+    "# ─────────────── 7│ summary tables ──────────────────────────────\n",
+    "tbl = pd.DataFrame(records)\n",
+    "\n",
+    "def metric_tbl(metric, fmt):\n",
+    "    piv = tbl.pivot_table(index=[\"Model\",\"Scenario\"], columns=\"Split\", values=metric)\n",
+    "    piv[\"Avg\"] = piv.mean(axis=1)\n",
+    "    piv[\"Max\"] = piv[[1,2,3,4,5]].max(axis=1)\n",
+    "    return piv.applymap(fmt)\n",
+    "\n",
+    "pct = lambda x: f\"{x:.2%}\"\n",
+    "auc_fmt = lambda x: f\"{x:.4f}\"\n",
+    "\n",
+    "print(\"\\n── Accuracy per split (plus Avg & Max) ──\")\n",
+    "display(metric_tbl(\"Accuracy\", pct))\n",
+    "print(\"\\n── F1-score per split (plus Avg & Max) ──\")\n",
+    "display(metric_tbl(\"F1\", pct))\n",
+    "print(\"\\n── AUC per split (plus Avg & Max) ──\")\n",
+    "display(metric_tbl(\"AUC\", auc_fmt))\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "c36800df",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\n",
+      "── Label distribution across five splits ──\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Train 0</th>\n",
+       "      <th>Train 1</th>\n",
+       "      <th>Train 0 %</th>\n",
+       "      <th>Train 1 %</th>\n",
+       "      <th>Test 0</th>\n",
+       "      <th>Test 1</th>\n",
+       "      <th>Test 0 %</th>\n",
+       "      <th>Test 1 %</th>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Split</th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th>1</th>\n",
+       "      <td>67</td>\n",
+       "      <td>82</td>\n",
+       "      <td>45.0%</td>\n",
+       "      <td>55.0%</td>\n",
+       "      <td>26</td>\n",
+       "      <td>30</td>\n",
+       "      <td>46.4%</td>\n",
+       "      <td>53.6%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>2</th>\n",
+       "      <td>74</td>\n",
+       "      <td>88</td>\n",
+       "      <td>45.7%</td>\n",
+       "      <td>54.3%</td>\n",
+       "      <td>26</td>\n",
+       "      <td>30</td>\n",
+       "      <td>46.4%</td>\n",
+       "      <td>53.6%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>3</th>\n",
+       "      <td>83</td>\n",
+       "      <td>92</td>\n",
+       "      <td>47.4%</td>\n",
+       "      <td>52.6%</td>\n",
+       "      <td>25</td>\n",
+       "      <td>31</td>\n",
+       "      <td>44.6%</td>\n",
+       "      <td>55.4%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>4</th>\n",
+       "      <td>89</td>\n",
+       "      <td>99</td>\n",
+       "      <td>47.3%</td>\n",
+       "      <td>52.7%</td>\n",
+       "      <td>25</td>\n",
+       "      <td>31</td>\n",
+       "      <td>44.6%</td>\n",
+       "      <td>55.4%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>5</th>\n",
+       "      <td>92</td>\n",
+       "      <td>109</td>\n",
+       "      <td>45.8%</td>\n",
+       "      <td>54.2%</td>\n",
+       "      <td>28</td>\n",
+       "      <td>28</td>\n",
+       "      <td>50.0%</td>\n",
+       "      <td>50.0%</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "       Train 0  Train 1 Train 0 % Train 1 %  Test 0  Test 1 Test 0 % Test 1 %\n",
+       "Split                                                                        \n",
+       "1           67       82     45.0%     55.0%      26      30    46.4%    53.6%\n",
+       "2           74       88     45.7%     54.3%      26      30    46.4%    53.6%\n",
+       "3           83       92     47.4%     52.6%      25      31    44.6%    55.4%\n",
+       "4           89       99     47.3%     52.7%      25      31    44.6%    55.4%\n",
+       "5           92      109     45.8%     54.2%      28      28    50.0%    50.0%"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\n",
+      "── Accuracy per split (plus Avg & Max) ──\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Split</th>\n",
+       "      <th>1</th>\n",
+       "      <th>2</th>\n",
+       "      <th>3</th>\n",
+       "      <th>4</th>\n",
+       "      <th>5</th>\n",
+       "      <th>Avg</th>\n",
+       "      <th>Max</th>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Model</th>\n",
+       "      <th>Scenario</th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Decision Tree</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>48.21%</td>\n",
+       "      <td>51.79%</td>\n",
+       "      <td>62.50%</td>\n",
+       "      <td>60.71%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>54.64%</td>\n",
+       "      <td>62.50%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>39.29%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>51.79%</td>\n",
+       "      <td>48.21%</td>\n",
+       "      <td>47.86%</td>\n",
+       "      <td>51.79%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>60.71%</td>\n",
+       "      <td>64.29%</td>\n",
+       "      <td>55.36%</td>\n",
+       "      <td>55.36%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>57.14%</td>\n",
+       "      <td>64.29%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Logistic Regression</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>46.43%</td>\n",
+       "      <td>46.43%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>51.79%</td>\n",
+       "      <td>48.93%</td>\n",
+       "      <td>51.79%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>44.64%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>51.79%</td>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>51.79%</td>\n",
+       "      <td>50.36%</td>\n",
+       "      <td>53.57%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>55.36%</td>\n",
+       "      <td>58.93%</td>\n",
+       "      <td>55.36%</td>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>54.64%</td>\n",
+       "      <td>58.93%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Random Forest</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>41.07%</td>\n",
+       "      <td>42.86%</td>\n",
+       "      <td>44.64%</td>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>46.43%</td>\n",
+       "      <td>53.57%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>44.64%</td>\n",
+       "      <td>51.79%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>55.36%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>50.36%</td>\n",
+       "      <td>55.36%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>55.36%</td>\n",
+       "      <td>57.14%</td>\n",
+       "      <td>60.71%</td>\n",
+       "      <td>58.93%</td>\n",
+       "      <td>58.93%</td>\n",
+       "      <td>58.21%</td>\n",
+       "      <td>60.71%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">SVM</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>48.21%</td>\n",
+       "      <td>46.43%</td>\n",
+       "      <td>48.21%</td>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>53.57%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>55.36%</td>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>57.14%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>53.93%</td>\n",
+       "      <td>57.14%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>55.36%</td>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>52.50%</td>\n",
+       "      <td>55.36%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">XGBoost</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>42.86%</td>\n",
+       "      <td>48.21%</td>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>48.21%</td>\n",
+       "      <td>49.29%</td>\n",
+       "      <td>53.57%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>50.00%</td>\n",
+       "      <td>51.79%</td>\n",
+       "      <td>51.79%</td>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>53.57%</td>\n",
+       "      <td>52.14%</td>\n",
+       "      <td>53.57%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>62.50%</td>\n",
+       "      <td>58.93%</td>\n",
+       "      <td>60.71%</td>\n",
+       "      <td>55.36%</td>\n",
+       "      <td>62.50%</td>\n",
+       "      <td>60.00%</td>\n",
+       "      <td>62.50%</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "Split                              1       2       3       4       5     Avg  \\\n",
+       "Model               Scenario                                                   \n",
+       "Decision Tree       0.05      48.21%  51.79%  62.50%  60.71%  50.00%  54.64%   \n",
+       "                    0.10      39.29%  50.00%  50.00%  51.79%  48.21%  47.86%   \n",
+       "                    without   60.71%  64.29%  55.36%  55.36%  50.00%  57.14%   \n",
+       "Logistic Regression 0.05      50.00%  46.43%  46.43%  50.00%  51.79%  48.93%   \n",
+       "                    0.10      44.64%  50.00%  51.79%  53.57%  51.79%  50.36%   \n",
+       "                    without   55.36%  58.93%  55.36%  53.57%  50.00%  54.64%   \n",
+       "Random Forest       0.05      41.07%  42.86%  44.64%  53.57%  50.00%  46.43%   \n",
+       "                    0.10      44.64%  51.79%  50.00%  55.36%  50.00%  50.36%   \n",
+       "                    without   55.36%  57.14%  60.71%  58.93%  58.93%  58.21%   \n",
+       "SVM                 0.05      53.57%  48.21%  46.43%  48.21%  53.57%  50.00%   \n",
+       "                    0.10      53.57%  55.36%  53.57%  57.14%  50.00%  53.93%   \n",
+       "                    without   53.57%  55.36%  53.57%  50.00%  50.00%  52.50%   \n",
+       "XGBoost             0.05      42.86%  48.21%  53.57%  53.57%  48.21%  49.29%   \n",
+       "                    0.10      50.00%  51.79%  51.79%  53.57%  53.57%  52.14%   \n",
+       "                    without   62.50%  58.93%  60.71%  55.36%  62.50%  60.00%   \n",
+       "\n",
+       "Split                            Max  \n",
+       "Model               Scenario          \n",
+       "Decision Tree       0.05      62.50%  \n",
+       "                    0.10      51.79%  \n",
+       "                    without   64.29%  \n",
+       "Logistic Regression 0.05      51.79%  \n",
+       "                    0.10      53.57%  \n",
+       "                    without   58.93%  \n",
+       "Random Forest       0.05      53.57%  \n",
+       "                    0.10      55.36%  \n",
+       "                    without   60.71%  \n",
+       "SVM                 0.05      53.57%  \n",
+       "                    0.10      57.14%  \n",
+       "                    without   55.36%  \n",
+       "XGBoost             0.05      53.57%  \n",
+       "                    0.10      53.57%  \n",
+       "                    without   62.50%  "
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\n",
+      "── F1-score per split (plus Avg & Max) ──\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Split</th>\n",
+       "      <th>1</th>\n",
+       "      <th>2</th>\n",
+       "      <th>3</th>\n",
+       "      <th>4</th>\n",
+       "      <th>5</th>\n",
+       "      <th>Avg</th>\n",
+       "      <th>Max</th>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Model</th>\n",
+       "      <th>Scenario</th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Decision Tree</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>57.97%</td>\n",
+       "      <td>49.06%</td>\n",
+       "      <td>64.41%</td>\n",
+       "      <td>52.17%</td>\n",
+       "      <td>66.67%</td>\n",
+       "      <td>58.05%</td>\n",
+       "      <td>66.67%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>45.16%</td>\n",
+       "      <td>48.15%</td>\n",
+       "      <td>46.15%</td>\n",
+       "      <td>37.21%</td>\n",
+       "      <td>0.00%</td>\n",
+       "      <td>35.33%</td>\n",
+       "      <td>48.15%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>60.71%</td>\n",
+       "      <td>65.52%</td>\n",
+       "      <td>44.44%</td>\n",
+       "      <td>48.98%</td>\n",
+       "      <td>0.00%</td>\n",
+       "      <td>43.93%</td>\n",
+       "      <td>65.52%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Logistic Regression</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>54.84%</td>\n",
+       "      <td>37.50%</td>\n",
+       "      <td>21.05%</td>\n",
+       "      <td>17.65%</td>\n",
+       "      <td>64.00%</td>\n",
+       "      <td>39.01%</td>\n",
+       "      <td>64.00%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>57.53%</td>\n",
+       "      <td>54.84%</td>\n",
+       "      <td>42.55%</td>\n",
+       "      <td>35.00%</td>\n",
+       "      <td>61.97%</td>\n",
+       "      <td>50.38%</td>\n",
+       "      <td>61.97%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>61.54%</td>\n",
+       "      <td>54.90%</td>\n",
+       "      <td>50.98%</td>\n",
+       "      <td>35.00%</td>\n",
+       "      <td>0.00%</td>\n",
+       "      <td>40.48%</td>\n",
+       "      <td>61.54%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Random Forest</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>44.07%</td>\n",
+       "      <td>38.46%</td>\n",
+       "      <td>20.51%</td>\n",
+       "      <td>27.78%</td>\n",
+       "      <td>65.85%</td>\n",
+       "      <td>39.33%</td>\n",
+       "      <td>65.85%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>52.31%</td>\n",
+       "      <td>59.70%</td>\n",
+       "      <td>22.22%</td>\n",
+       "      <td>35.90%</td>\n",
+       "      <td>66.67%</td>\n",
+       "      <td>47.36%</td>\n",
+       "      <td>66.67%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>62.69%</td>\n",
+       "      <td>60.00%</td>\n",
+       "      <td>59.26%</td>\n",
+       "      <td>59.65%</td>\n",
+       "      <td>51.06%</td>\n",
+       "      <td>58.53%</td>\n",
+       "      <td>62.69%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">SVM</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>69.77%</td>\n",
+       "      <td>29.27%</td>\n",
+       "      <td>54.55%</td>\n",
+       "      <td>50.85%</td>\n",
+       "      <td>65.79%</td>\n",
+       "      <td>54.04%</td>\n",
+       "      <td>69.77%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>69.77%</td>\n",
+       "      <td>63.77%</td>\n",
+       "      <td>64.86%</td>\n",
+       "      <td>71.43%</td>\n",
+       "      <td>66.67%</td>\n",
+       "      <td>67.30%</td>\n",
+       "      <td>71.43%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>69.77%</td>\n",
+       "      <td>32.43%</td>\n",
+       "      <td>38.10%</td>\n",
+       "      <td>22.22%</td>\n",
+       "      <td>0.00%</td>\n",
+       "      <td>32.50%</td>\n",
+       "      <td>69.77%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">XGBoost</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>46.67%</td>\n",
+       "      <td>45.28%</td>\n",
+       "      <td>51.85%</td>\n",
+       "      <td>35.00%</td>\n",
+       "      <td>43.14%</td>\n",
+       "      <td>44.39%</td>\n",
+       "      <td>51.85%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>56.25%</td>\n",
+       "      <td>55.74%</td>\n",
+       "      <td>50.91%</td>\n",
+       "      <td>31.58%</td>\n",
+       "      <td>65.79%</td>\n",
+       "      <td>52.05%</td>\n",
+       "      <td>65.79%</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>67.69%</td>\n",
+       "      <td>62.30%</td>\n",
+       "      <td>60.71%</td>\n",
+       "      <td>52.83%</td>\n",
+       "      <td>58.82%</td>\n",
+       "      <td>60.47%</td>\n",
+       "      <td>67.69%</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "Split                              1       2       3       4       5     Avg  \\\n",
+       "Model               Scenario                                                   \n",
+       "Decision Tree       0.05      57.97%  49.06%  64.41%  52.17%  66.67%  58.05%   \n",
+       "                    0.10      45.16%  48.15%  46.15%  37.21%   0.00%  35.33%   \n",
+       "                    without   60.71%  65.52%  44.44%  48.98%   0.00%  43.93%   \n",
+       "Logistic Regression 0.05      54.84%  37.50%  21.05%  17.65%  64.00%  39.01%   \n",
+       "                    0.10      57.53%  54.84%  42.55%  35.00%  61.97%  50.38%   \n",
+       "                    without   61.54%  54.90%  50.98%  35.00%   0.00%  40.48%   \n",
+       "Random Forest       0.05      44.07%  38.46%  20.51%  27.78%  65.85%  39.33%   \n",
+       "                    0.10      52.31%  59.70%  22.22%  35.90%  66.67%  47.36%   \n",
+       "                    without   62.69%  60.00%  59.26%  59.65%  51.06%  58.53%   \n",
+       "SVM                 0.05      69.77%  29.27%  54.55%  50.85%  65.79%  54.04%   \n",
+       "                    0.10      69.77%  63.77%  64.86%  71.43%  66.67%  67.30%   \n",
+       "                    without   69.77%  32.43%  38.10%  22.22%   0.00%  32.50%   \n",
+       "XGBoost             0.05      46.67%  45.28%  51.85%  35.00%  43.14%  44.39%   \n",
+       "                    0.10      56.25%  55.74%  50.91%  31.58%  65.79%  52.05%   \n",
+       "                    without   67.69%  62.30%  60.71%  52.83%  58.82%  60.47%   \n",
+       "\n",
+       "Split                            Max  \n",
+       "Model               Scenario          \n",
+       "Decision Tree       0.05      66.67%  \n",
+       "                    0.10      48.15%  \n",
+       "                    without   65.52%  \n",
+       "Logistic Regression 0.05      64.00%  \n",
+       "                    0.10      61.97%  \n",
+       "                    without   61.54%  \n",
+       "Random Forest       0.05      65.85%  \n",
+       "                    0.10      66.67%  \n",
+       "                    without   62.69%  \n",
+       "SVM                 0.05      69.77%  \n",
+       "                    0.10      71.43%  \n",
+       "                    without   69.77%  \n",
+       "XGBoost             0.05      51.85%  \n",
+       "                    0.10      65.79%  \n",
+       "                    without   67.69%  "
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "\n",
+      "── AUC per split (plus Avg & Max) ──\n"
+     ]
+    },
+    {
+     "data": {
+      "text/html": [
+       "<div>\n",
+       "<style scoped>\n",
+       "    .dataframe tbody tr th:only-of-type {\n",
+       "        vertical-align: middle;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe tbody tr th {\n",
+       "        vertical-align: top;\n",
+       "    }\n",
+       "\n",
+       "    .dataframe thead th {\n",
+       "        text-align: right;\n",
+       "    }\n",
+       "</style>\n",
+       "<table border=\"1\" class=\"dataframe\">\n",
+       "  <thead>\n",
+       "    <tr style=\"text-align: right;\">\n",
+       "      <th></th>\n",
+       "      <th>Split</th>\n",
+       "      <th>1</th>\n",
+       "      <th>2</th>\n",
+       "      <th>3</th>\n",
+       "      <th>4</th>\n",
+       "      <th>5</th>\n",
+       "      <th>Avg</th>\n",
+       "      <th>Max</th>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>Model</th>\n",
+       "      <th>Scenario</th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "      <th></th>\n",
+       "    </tr>\n",
+       "  </thead>\n",
+       "  <tbody>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Decision Tree</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>0.4359</td>\n",
+       "      <td>0.5449</td>\n",
+       "      <td>0.6174</td>\n",
+       "      <td>0.6594</td>\n",
+       "      <td>0.5000</td>\n",
+       "      <td>0.5515</td>\n",
+       "      <td>0.6594</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>0.4231</td>\n",
+       "      <td>0.5372</td>\n",
+       "      <td>0.5465</td>\n",
+       "      <td>0.5774</td>\n",
+       "      <td>0.4764</td>\n",
+       "      <td>0.5121</td>\n",
+       "      <td>0.5774</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>0.6083</td>\n",
+       "      <td>0.6090</td>\n",
+       "      <td>0.6129</td>\n",
+       "      <td>0.6271</td>\n",
+       "      <td>0.5000</td>\n",
+       "      <td>0.5915</td>\n",
+       "      <td>0.6271</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Logistic Regression</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>0.5077</td>\n",
+       "      <td>0.4679</td>\n",
+       "      <td>0.5768</td>\n",
+       "      <td>0.5523</td>\n",
+       "      <td>0.5867</td>\n",
+       "      <td>0.5383</td>\n",
+       "      <td>0.5867</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>0.5667</td>\n",
+       "      <td>0.5231</td>\n",
+       "      <td>0.5832</td>\n",
+       "      <td>0.5368</td>\n",
+       "      <td>0.5536</td>\n",
+       "      <td>0.5527</td>\n",
+       "      <td>0.5832</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>0.5603</td>\n",
+       "      <td>0.5808</td>\n",
+       "      <td>0.6348</td>\n",
+       "      <td>0.6845</td>\n",
+       "      <td>0.6250</td>\n",
+       "      <td>0.6171</td>\n",
+       "      <td>0.6845</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">Random Forest</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>0.3769</td>\n",
+       "      <td>0.4333</td>\n",
+       "      <td>0.6129</td>\n",
+       "      <td>0.6400</td>\n",
+       "      <td>0.6798</td>\n",
+       "      <td>0.5486</td>\n",
+       "      <td>0.6798</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>0.3949</td>\n",
+       "      <td>0.4205</td>\n",
+       "      <td>0.5316</td>\n",
+       "      <td>0.6258</td>\n",
+       "      <td>0.6033</td>\n",
+       "      <td>0.5152</td>\n",
+       "      <td>0.6258</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>0.5160</td>\n",
+       "      <td>0.6147</td>\n",
+       "      <td>0.6277</td>\n",
+       "      <td>0.6323</td>\n",
+       "      <td>0.6078</td>\n",
+       "      <td>0.5997</td>\n",
+       "      <td>0.6323</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">SVM</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>0.5333</td>\n",
+       "      <td>0.4385</td>\n",
+       "      <td>0.4974</td>\n",
+       "      <td>0.4916</td>\n",
+       "      <td>0.5587</td>\n",
+       "      <td>0.5039</td>\n",
+       "      <td>0.5587</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>0.5000</td>\n",
+       "      <td>0.5321</td>\n",
+       "      <td>0.4594</td>\n",
+       "      <td>0.5058</td>\n",
+       "      <td>0.5995</td>\n",
+       "      <td>0.5193</td>\n",
+       "      <td>0.5995</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>0.5192</td>\n",
+       "      <td>0.5718</td>\n",
+       "      <td>0.3742</td>\n",
+       "      <td>0.3155</td>\n",
+       "      <td>0.3750</td>\n",
+       "      <td>0.4311</td>\n",
+       "      <td>0.5718</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th rowspan=\"3\" valign=\"top\">XGBoost</th>\n",
+       "      <th>0.05</th>\n",
+       "      <td>0.5026</td>\n",
+       "      <td>0.5051</td>\n",
+       "      <td>0.5923</td>\n",
+       "      <td>0.6335</td>\n",
+       "      <td>0.5434</td>\n",
+       "      <td>0.5554</td>\n",
+       "      <td>0.6335</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>0.10</th>\n",
+       "      <td>0.5000</td>\n",
+       "      <td>0.4744</td>\n",
+       "      <td>0.5458</td>\n",
+       "      <td>0.6529</td>\n",
+       "      <td>0.6059</td>\n",
+       "      <td>0.5558</td>\n",
+       "      <td>0.6529</td>\n",
+       "    </tr>\n",
+       "    <tr>\n",
+       "      <th>without</th>\n",
+       "      <td>0.6321</td>\n",
+       "      <td>0.5872</td>\n",
+       "      <td>0.6058</td>\n",
+       "      <td>0.6181</td>\n",
+       "      <td>0.6390</td>\n",
+       "      <td>0.6164</td>\n",
+       "      <td>0.6390</td>\n",
+       "    </tr>\n",
+       "  </tbody>\n",
+       "</table>\n",
+       "</div>"
+      ],
+      "text/plain": [
+       "Split                              1       2       3       4       5     Avg  \\\n",
+       "Model               Scenario                                                   \n",
+       "Decision Tree       0.05      0.4359  0.5449  0.6174  0.6594  0.5000  0.5515   \n",
+       "                    0.10      0.4231  0.5372  0.5465  0.5774  0.4764  0.5121   \n",
+       "                    without   0.6083  0.6090  0.6129  0.6271  0.5000  0.5915   \n",
+       "Logistic Regression 0.05      0.5077  0.4679  0.5768  0.5523  0.5867  0.5383   \n",
+       "                    0.10      0.5667  0.5231  0.5832  0.5368  0.5536  0.5527   \n",
+       "                    without   0.5603  0.5808  0.6348  0.6845  0.6250  0.6171   \n",
+       "Random Forest       0.05      0.3769  0.4333  0.6129  0.6400  0.6798  0.5486   \n",
+       "                    0.10      0.3949  0.4205  0.5316  0.6258  0.6033  0.5152   \n",
+       "                    without   0.5160  0.6147  0.6277  0.6323  0.6078  0.5997   \n",
+       "SVM                 0.05      0.5333  0.4385  0.4974  0.4916  0.5587  0.5039   \n",
+       "                    0.10      0.5000  0.5321  0.4594  0.5058  0.5995  0.5193   \n",
+       "                    without   0.5192  0.5718  0.3742  0.3155  0.3750  0.4311   \n",
+       "XGBoost             0.05      0.5026  0.5051  0.5923  0.6335  0.5434  0.5554   \n",
+       "                    0.10      0.5000  0.4744  0.5458  0.6529  0.6059  0.5558   \n",
+       "                    without   0.6321  0.5872  0.6058  0.6181  0.6390  0.6164   \n",
+       "\n",
+       "Split                            Max  \n",
+       "Model               Scenario          \n",
+       "Decision Tree       0.05      0.6594  \n",
+       "                    0.10      0.5774  \n",
+       "                    without   0.6271  \n",
+       "Logistic Regression 0.05      0.5867  \n",
+       "                    0.10      0.5832  \n",
+       "                    without   0.6845  \n",
+       "Random Forest       0.05      0.6798  \n",
+       "                    0.10      0.6258  \n",
+       "                    without   0.6323  \n",
+       "SVM                 0.05      0.5587  \n",
+       "                    0.10      0.5995  \n",
+       "                    without   0.5718  \n",
+       "XGBoost             0.05      0.6335  \n",
+       "                    0.10      0.6529  \n",
+       "                    without   0.6390  "
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "# ================================================================\n",
+    "#  Direction-of-Move Classification (Monthly Version, nested CV)\n",
+    "#  • All input CSVs have first column \"Month\" (YYYY-MM)\n",
+    "#  • HMM & LSTM discarded, XGBoost retained\n",
+    "#  • Feature standardisation before model training\n",
+    "#  • Accuracy, AUC, F1 tables + label-distribution table\n",
+    "# ================================================================\n",
+    "\n",
+    "import pathlib, warnings, numpy as np, pandas as pd\n",
+    "from statsmodels.tsa.stattools import adfuller, coint, grangercausalitytests\n",
+    "from sklearn.model_selection   import GridSearchCV, TimeSeriesSplit\n",
+    "from sklearn.preprocessing     import StandardScaler\n",
+    "from sklearn.linear_model      import LogisticRegression\n",
+    "from sklearn.tree              import DecisionTreeClassifier\n",
+    "from sklearn.ensemble          import RandomForestClassifier\n",
+    "from sklearn.svm               import SVC\n",
+    "import xgboost as xgb\n",
+    "from sklearn.metrics           import accuracy_score, f1_score, roc_auc_score\n",
+    "import matplotlib.pyplot as plt\n",
+    "\n",
+    "warnings.filterwarnings(\"ignore\")\n",
+    "pd.set_option(\"display.float_format\", \"{:,.4f}\".format)\n",
+    "np.random.seed(42)\n",
+    "\n",
+    "# ─────────────── 1│ data ────────────────────────────────────────\n",
+    "ROOT = pathlib.Path(\".\")\n",
+    "\n",
+    "def load_copper():\n",
+    "    \"\"\"Load monthly copper prices (Month,Price).\"\"\"\n",
+    "    return (pd.read_csv(ROOT / \"Copper Prices.csv\")\n",
+    "              .assign(Month=lambda d: pd.to_datetime(d[\"Month\"], format=\"%Y-%m\"))\n",
+    "              .set_index(\"Month\").asfreq(\"MS\")          # monthly period-end\n",
+    "              .rename(columns={\"Price\": \"Copper_Price\"})[\"Copper_Price\"])\n",
+    "\n",
+    "def load_trends():\n",
+    "    \"\"\"Load all Google-Trend CSVs (Month,value) from sub-folders.\"\"\"\n",
+    "    def one(folder):\n",
+    "        frames = []\n",
+    "        for fp in (ROOT / folder).glob(\"*.csv\"):\n",
+    "            key = fp.stem.replace(\",\", \"\")\n",
+    "            t   = pd.read_csv(fp)\n",
+    "            t.columns = [c.strip() for c in t.columns]\n",
+    "            frames.append(\n",
+    "                t.assign(Month=lambda d: pd.to_datetime(d[t.columns[0]], format=\"%Y-%m\"))\n",
+    "                 .set_index(\"Month\").asfreq(\"MS\")\n",
+    "                 .rename(columns={t.columns[1]: key})\n",
+    "            )\n",
+    "        return pd.concat(frames, axis=1) if frames else pd.DataFrame()\n",
+    "\n",
+    "    cats = [\"Supply Factors\", \"Demand Factors\", \"Speculative Factors\", \"Sudden Factors\"]\n",
+    "    return pd.concat([one(c) for c in cats], axis=1).sort_index()\n",
+    "\n",
+    "copper, trends = load_copper(), load_trends()\n",
+    "data_raw       = pd.concat([copper, trends], axis=1).dropna()\n",
+    "\n",
+    "# ─────────────── 2│ statistical filters (same as before) ───────\n",
+    "def adf_p(s): return adfuller(s.dropna(), autolag=\"AIC\")[1]\n",
+    "ADF, COINT, MAX_LAG = 0.10, 0.10, 18      # identical thresholds\n",
+    "\n",
+    "i1 = [c for c in data_raw.columns\n",
+    "      if adf_p(data_raw[c]) > ADF\n",
+    "      and adf_p(data_raw[c].diff()) < ADF\n",
+    "      and c != \"Copper_Price\"]\n",
+    "cands = [s for s in i1 if coint(data_raw[\"Copper_Price\"], data_raw[s])[1] < COINT]\n",
+    "\n",
+    "minp = {s: min(grangercausalitytests(\n",
+    "                data_raw[[\"Copper_Price\", s]].dropna().values,\n",
+    "                maxlag=MAX_LAG, verbose=False)[lag][0][\"ssr_ftest\"][1]\n",
+    "              for lag in range(1, MAX_LAG + 1))\n",
+    "        for s in cands}\n",
+    "\n",
+    "TIERS = {0.05: [s for s, p in minp.items() if p < 0.05],\n",
+    "         0.10: [s for s, p in minp.items() if p < 0.10]}\n",
+    "\n",
+    "def lag_df(feats, lag=1):\n",
+    "    \"\"\"Add one-month lag for price + selected features; drop NA.\"\"\"\n",
+    "    out = {\"Copper_Price\": data_raw[\"Copper_Price\"],\n",
+    "           f\"Copper_Price_lag{lag}\": data_raw[\"Copper_Price\"].shift(lag)}\n",
+    "    out.update({f\"{f}_lag{lag}\": data_raw[f].shift(lag) for f in feats})\n",
+    "    return pd.DataFrame(out).dropna()\n",
+    "\n",
+    "SCENS = {\"without\": lag_df([]),\n",
+    "         \"0.05\"   : lag_df(TIERS[0.05]),\n",
+    "         \"0.10\"   : lag_df(TIERS[0.10])}\n",
+    "for k in SCENS:\n",
+    "    # label = direction of *next* month’s price change\n",
+    "    SCENS[k][\"y\"] = (SCENS[k][\"Copper_Price\"].diff().shift(-1) > 0).astype(int)\n",
+    "    SCENS[k].dropna(inplace=True)\n",
+    "\n",
+    "# ─────────────── 3│ label-distribution table (5 splits) ─────────\n",
+    "df_ref, n = SCENS[\"without\"], len(SCENS[\"without\"])\n",
+    "TEST_FRAC = 0.22\n",
+    "test_len  = int(n * TEST_FRAC)\n",
+    "\n",
+    "rows = []\n",
+    "for i in range(5):\n",
+    "    train_end = int(n * (0.80 + i * 0.05))\n",
+    "    tr, te    = slice(0, train_end - test_len), slice(train_end - test_len, train_end)\n",
+    "    y_tr, y_te = df_ref[\"y\"].iloc[tr], df_ref[\"y\"].iloc[te]\n",
+    "    c_tr = y_tr.value_counts().reindex([0,1]).fillna(0).astype(int)\n",
+    "    c_te = y_te.value_counts().reindex([0,1]).fillna(0).astype(int)\n",
+    "    rows.append([i+1,\n",
+    "                 c_tr[0], c_tr[1], c_tr[0]/c_tr.sum()*100, c_tr[1]/c_tr.sum()*100,\n",
+    "                 c_te[0], c_te[1], c_te[0]/c_te.sum()*100, c_te[1]/c_te.sum()*100])\n",
+    "\n",
+    "cols = [\"Split\",\"Train 0\",\"Train 1\",\"Train 0 %\",\"Train 1 %\",\n",
+    "        \"Test 0\",\"Test 1\",\"Test 0 %\",\"Test 1 %\"]\n",
+    "label_dist = (pd.DataFrame(rows, columns=cols)\n",
+    "                .set_index(\"Split\")\n",
+    "                .applymap(lambda x: f\"{x:.1f}%\" if isinstance(x, float) else x))\n",
+    "print(\"\\n── Label distribution across five splits ──\")\n",
+    "display(label_dist)\n",
+    "\n",
+    "# ─────────────── 4│ model grids (unchanged) ─────────────────────\n",
+    "GRIDS = {\n",
+    "    \"XGBoost\" : [{\"n_estimators\":[400,600],\n",
+    "                  \"max_depth\":[3,5],\n",
+    "                  \"learning_rate\":[0.03,0.07],\n",
+    "                  \"subsample\":[0.8,1.0]}],\n",
+    "    \"Logistic Regression\":[{\"C\":[0.1,1,10]}],\n",
+    "    \"Decision Tree\":[{\"max_depth\":[3,5,8],\n",
+    "                      \"min_samples_leaf\":[2,4,6]}],\n",
+    "    \"Random Forest\":[{\"n_estimators\":[300,500],\n",
+    "                      \"max_depth\":[4,6],\n",
+    "                      \"min_samples_leaf\":[3,5]}],\n",
+    "    \"SVM\":[{\"C\":[0.1,1,10],\"gamma\":[0.01,0.1]}],\n",
+    "}\n",
+    "\n",
+    "# ─────────────── 5│ expanding-window generator ──────────────────\n",
+    "def expanding_splits(n_rows, test_frac=TEST_FRAC, n_splits=5):\n",
+    "    t_len = int(n_rows * test_frac)\n",
+    "    for i in range(n_splits):\n",
+    "        end = int(n_rows * (0.80 + i*0.05))\n",
+    "        yield np.arange(end - t_len), np.arange(end - t_len, end)\n",
+    "\n",
+    "INNER_CV = TimeSeriesSplit(n_splits=4)\n",
+    "records  = []\n",
+    "\n",
+    "# ─────────────── 6│ nested CV loop ──────────────────────────────\n",
+    "for scen, df in SCENS.items():\n",
+    "    X_full, y_full = df.drop(columns=[\"Copper_Price\",\"y\"]), df[\"y\"]\n",
+    "    n = len(X_full)\n",
+    "\n",
+    "    for split_idx, (tr_idx, te_idx) in enumerate(expanding_splits(n), 1):\n",
+    "        X_tr_raw, y_tr = X_full.iloc[tr_idx], y_full.iloc[tr_idx]\n",
+    "        X_te_raw, y_te = X_full.iloc[te_idx], y_full.iloc[te_idx]\n",
+    "\n",
+    "        scaler = StandardScaler().fit(X_tr_raw)\n",
+    "        X_tr   = pd.DataFrame(scaler.transform(X_tr_raw), columns=X_tr_raw.columns, index=X_tr_raw.index)\n",
+    "        X_te   = pd.DataFrame(scaler.transform(X_te_raw), columns=X_te_raw.columns, index=X_te_raw.index)\n",
+    "\n",
+    "        counts = y_tr.value_counts()\n",
+    "\n",
+    "        for mname, grid in GRIDS.items():\n",
+    "            if mname == \"Logistic Regression\":\n",
+    "                base = LogisticRegression(max_iter=1000, class_weight='balanced')\n",
+    "            elif mname == \"Decision Tree\":\n",
+    "                base = DecisionTreeClassifier(random_state=42, class_weight='balanced')\n",
+    "            elif mname == \"Random Forest\":\n",
+    "                base = RandomForestClassifier(random_state=42, class_weight='balanced')\n",
+    "            elif mname == \"SVM\":\n",
+    "                base = SVC(kernel=\"rbf\", probability=True, class_weight='balanced', random_state=42)\n",
+    "            elif mname == \"XGBoost\":\n",
+    "                spw  = counts.get(0,1) / counts.get(1,1) if len(counts)==2 else 1\n",
+    "                base = xgb.XGBClassifier(random_state=42,\n",
+    "                                         objective='binary:logistic',\n",
+    "                                         eval_metric='logloss',\n",
+    "                                         use_label_encoder=False,\n",
+    "                                         scale_pos_weight=spw)\n",
+    "\n",
+    "            best = (GridSearchCV(base, grid, cv=INNER_CV,\n",
+    "                                 scoring=\"accuracy\", n_jobs=-1)\n",
+    "                    .fit(X_tr, y_tr)\n",
+    "                    .best_estimator_)\n",
+    "\n",
+    "            y_hat = best.predict(X_te)\n",
+    "            proba = best.predict_proba(X_te)[:,1] if hasattr(best,\"predict_proba\") else None\n",
+    "\n",
+    "            acc   = accuracy_score(y_te, y_hat)\n",
+    "            f1    = f1_score(y_te, y_hat, zero_division=0)\n",
+    "            auc   = (roc_auc_score(y_te, proba)\n",
+    "                     if proba is not None and len(np.unique(y_te))==2 else np.nan)\n",
+    "\n",
+    "            records.append({\"Model\":mname,\"Scenario\":scen,\"Split\":split_idx,\n",
+    "                            \"Accuracy\":acc,\"F1\":f1,\"AUC\":auc})\n",
+    "\n",
+    "# ─────────────── 7│ summary tables ──────────────────────────────\n",
+    "tbl = pd.DataFrame(records)\n",
+    "\n",
+    "def metric_tbl(metric, fmt):\n",
+    "    piv = tbl.pivot_table(index=[\"Model\",\"Scenario\"], columns=\"Split\", values=metric)\n",
+    "    piv[\"Avg\"] = piv.mean(axis=1)\n",
+    "    piv[\"Max\"] = piv[[1,2,3,4,5]].max(axis=1)\n",
+    "    return piv.applymap(fmt)\n",
+    "\n",
+    "pct = lambda x: f\"{x:.2%}\"\n",
+    "au  = lambda x: f\"{x:.4f}\"\n",
+    "\n",
+    "print(\"\\n── Accuracy per split (plus Avg & Max) ──\")\n",
+    "display(metric_tbl(\"Accuracy\", pct))\n",
+    "\n",
+    "print(\"\\n── F1-score per split (plus Avg & Max) ──\")\n",
+    "display(metric_tbl(\"F1\", pct))\n",
+    "\n",
+    "print(\"\\n── AUC per split (plus Avg & Max) ──\")\n",
+    "display(metric_tbl(\"AUC\", au))\n"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": ".venv",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.11"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}