Spaces:

AlanRex
/

AITEST

Running

App Files Files Community

AlanRex commited on Sep 25, 2025

Commit

0c9a985

verified ·

1 Parent(s): 5c15c56

Upload 2 files

Browse files

Files changed (2) hide show

app.py +50 -106
model_predictor.py +237 -159

app.py CHANGED Viewed

@@ -854,66 +854,43 @@ def simple_statistical_predict(data, predict_days=5):
 def calculate_new_features(df):
     """
-    【修正版】使用與 XGBoost 訓練時完全相同的特徵工程
-    完全對應 xgboost_for_stock 中的 create_new_features 函數
     """
     if df.empty:
         return df
-    # 1. return_t-1 — 前一日報酬率
     df['return_t-1'] = df['Close'].pct_change()
-    # 2. return_t-5 — 過去 5 日累積報酬率
     df['return_t-5'] = (df['Close'] / df['Close'].shift(5) - 1)
-    # 3. MA5_close — 5 日移動平均價
     df['MA5_close'] = df['Close'].rolling(window=5).mean()
-    # 4. volatility_5d — 5 日報酬標準差（短期波動）
     df['volatility_5d'] = df['return_t-1'].rolling(window=5).std()
-    # 5. volume_ratio_5d — 今日成交量 ÷ 5 日均量
     df['volume_5d_avg'] = df['Volume'].rolling(window=5).mean()
     df['volume_ratio_5d'] = df['Volume'] / df['volume_5d_avg']
-    # 6. MACD_diff — MACD - signal（趨勢強弱）
-    if 'MACD' in df.columns and 'MACD_Signal' in df.columns:
-        df['MACD_diff'] = df['MACD'] - df['MACD_Signal']
-    else:
-        # 計算 MACD
-        exp1 = df['Close'].ewm(span=12).mean()
-        exp2 = df['Close'].ewm(span=26).mean()
-        macd_line = exp1 - exp2
-        signal_line = macd_line.ewm(span=9).mean()
-        df['MACD_diff'] = macd_line - signal_line
-    # 7. MACDvol — 【修正】對應訓練資料中的 MACDvol 欄位
-    if 'MACDvol' in df.columns:
-        df['MACDvol'] = df['MACDvol']
-    else:
-        df['MACDvol'] = df['MACD_diff']  # 使用 MACD_diff 作為 MACDvol
-    # 8. RSI_14 — 14 日 RSI 指標
-    if 'RSI' in df.columns:
-        df['RSI_14'] = df['RSI']
-    else:
-        # 計算 RSI
-        delta = df['Close'].diff()
-        gain = (delta.where(delta > 0, 0)).rolling(window=14).mean()
-        loss = (-delta.where(delta < 0, 0)).rolling(window=14).mean()
-        rs = gain / loss
-        df['RSI_14'] = 100 - (100 / (1 + rs))
-    # 9. ADX 指標（從現有技術指標中獲取）
-    if 'ADX' not in df.columns:
-        # 如果沒有ADX，計算簡化版本或設置預設值
-        df['ADX'] = 25  # 預設中性值
-    # 10. volume_weighted_return — 當日報酬率絕對值 × 當日成交量
-    df['volume_weighted_return'] = abs(df['return_t-1']) * df['Volume']
-    # 11. close（當前收盤價）
-    df['close'] = df['Close']
     # 移除輔助欄位
     if 'volume_5d_avg' in df.columns:
@@ -922,27 +899,23 @@ def calculate_new_features(df):
     return df
 def advanced_xgboost_predict(predict_days=5):
-    """
-    【修正版】使用 XGBoost 模型進行預測 - 與訓練模型完全一致
-    """
     try:
         print(f"開始XGBoost預測 - {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
         xgb_model = XGBoostModel()
-        # 強制重新獲取台指數據
         print("正在獲取最新台指數據...")
         taiex_data = get_stock_data('^TWII', '2y')
         if taiex_data.empty or len(taiex_data) < 60:
             print("台指期數據不足，無法進行XGBoost預測")
             return None
-        # 計算技術指標
         taiex_data = calculate_technical_indicators(taiex_data)
-        # 【修正】使用新的特徵工程函數
         taiex_data = calculate_new_features(taiex_data)
-        # 獲取美股數據
         print("正在獲取美股數據...")
         us_market_data = get_us_market_data()
@@ -962,22 +935,14 @@ def advanced_xgboost_predict(predict_days=5):
         latest_data = taiex_data.iloc[-1]
         yesterday_close = latest_data['Close']
-        # 【修正】使用與訓練時完全相同的特徵列表
         new_feature_columns = [
-            'close',             # 前一日收盤價
-            'return_t-1',        # 前一日漲跌率
-            'return_t-5',        # 過去 5 日累積漲跌率
-            'MA5_close',         # 5 日移動平均價
-            'volatility_5d',     # 5 日漲跌標準差
-            'volume_ratio_5d',   # 今日成交量 ÷ 5 日均量
-            'MACD_diff',         # MACD - signal
-            'dji_return_t-1',    # 前一日道瓊指數漲跌率
-            'sox_return_t-1',    # 前一日費半指數漲跌率
-            'NEWS',              # 新聞情緒分數
-            'MACDvol',           # MACD成交量
-            'RSI_14',            # 14日RSI
-            'ADX',               # ADX指標
-            'volume_weighted_return'  # 成交量加權報酬率
         ]
         # 獲取美股報酬率
@@ -1005,49 +970,31 @@ def advanced_xgboost_predict(predict_days=5):
         feature_names = []
         for feature in new_feature_columns:
-            if feature == 'dji_return_t-1':
-                features_list.append(dji_return)
-            elif feature == 'sox_return_t-1':
-                features_list.append(sox_return)
-            elif feature == 'NEWS':
-                features_list.append(sentiment_score_raw)
-            elif feature in latest_data.index:
                 value = latest_data[feature]
                 if pd.isna(value):
-                    # 設置預設值
-                    if 'return' in feature:
-                        default_value = 0.0
-                    elif 'MA' in feature:
-                        default_value = latest_data['Close'] if not pd.isna(latest_data['Close']) else 100
-                    elif 'volatility' in feature:
-                        default_value = 0.02
-                    elif 'volume_ratio' in feature:
-                        default_value = 1.0
-                    elif 'MACD' in feature:
-                        default_value = 0.0
-                    elif feature == 'RSI_14':
-                        default_value = 50.0
-                    elif feature == 'ADX':
-                        default_value = 25.0
-                    elif feature == 'close':
-                        default_value = yesterday_close
-                    else:
-                        default_value = 0.0
                     features_list.append(default_value)
                 else:
                     features_list.append(value)
-            else:
-                # 特徵不存在，設置預設值
-                print(f"警告：特徵 {feature} 不存在，使用預設值")
-                features_list.append(0.0)
-            feature_names.append(feature)
         # 轉換為 DataFrame
         input_df = pd.DataFrame([features_list], columns=feature_names)
-        print(f"特徵向量長度: {len(features_list)}")
         print("\n=== 📊 本次預測輸入特徵 DataFrame ===")
         print(input_df)
         print("=== ✅ 檢查以上特徵是否每次都有變 ===\n")
@@ -1058,7 +1005,7 @@ def advanced_xgboost_predict(predict_days=5):
         if predictions is None:
             return None
-        # 【修正】處理預測結果 - 現在返回的已經是漲幅百分比
         pred_mapping = {
             1: 'Change_pct_t1_pred',
             5: 'Change_pct_t5_pred',
@@ -1078,7 +1025,7 @@ def advanced_xgboost_predict(predict_days=5):
         return {
             'predicted_price': predicted_price,
-            'change_pct': predicted_change_pct,  # 這已經是百分比格式
             'confidence': 0.75
         }
@@ -1126,9 +1073,8 @@ def get_prediction(data, predict_days=5):
     return simple_statistical_predict(data, predict_days)
 def calculate_technical_indicators(df):
-    """【修正版】計算技術指標，確保與模型訓練時一致"""
-    if df.empty:
-        return df
     # 移動平均線
     df['MA5'] = df['Close'].rolling(window=5).mean()
@@ -1171,9 +1117,7 @@ def calculate_technical_indicators(df):
     df['down_move'] = df['Low'].shift(1) - df['Low']
     df['+DM'] = np.where((df['up_move'] > df['down_move']) & (df['up_move'] > 0), df['up_move'], 0)
     df['-DM'] = np.where((df['down_move'] > df['up_move']) & (df['down_move'] > 0), df['down_move'], 0)
-    df['TR'] = np.max([df['High'] - df['Low'],
-                       abs(df['High'] - df['Close'].shift(1)),
-                       abs(df['Low'] - df['Close'].shift(1))], axis=0)
     df['+DI'] = (df['+DM'].ewm(com=13, adjust=False).mean() / df['TR'].ewm(com=13, adjust=False).mean()) * 100
     df['-DI'] = (df['-DM'].ewm(com=13, adjust=False).mean() / df['TR'].ewm(com=13, adjust=False).mean()) * 100
     df['DX'] = abs(df['+DI'] - df['-DI']) / (df['+DI'] + df['-DI']) * 100

 def calculate_new_features(df):
     """
+    計算新的技術指標特徵 - 針對新特徵需求
     """
     if df.empty:
         return df
+    # 1. return_t-1 – 前一日報酬率
     df['return_t-1'] = df['Close'].pct_change()
+    # 2. return_t-5 – 過去 5 日累積報酬率
     df['return_t-5'] = (df['Close'] / df['Close'].shift(5) - 1)
+    # 3. MA5_close – 5 日移動平均價
     df['MA5_close'] = df['Close'].rolling(window=5).mean()
+    # 4. MA20_close – 20 日移動平均價
+    df['MA20_close'] = df['Close'].rolling(window=20).mean()
+    # 5. volatility_5d – 5 日報酬標準差（短期波動）
     df['volatility_5d'] = df['return_t-1'].rolling(window=5).std()
+    # 6. volume_ratio_5d – 今日成交量 ÷ 5 日均量
     df['volume_5d_avg'] = df['Volume'].rolling(window=5).mean()
     df['volume_ratio_5d'] = df['Volume'] / df['volume_5d_avg']
+    # 7. RSI_14 – 14 日 RSI 指標
+    delta = df['Close'].diff()
+    gain = (delta.where(delta > 0, 0)).rolling(window=14).mean()
+    loss = (-delta.where(delta < 0, 0)).rolling(window=14).mean()
+    rs = gain / loss
+    df['RSI_14'] = 100 - (100 / (1 + rs))
+    # 8. MACD_diff – MACD - signal（趨勢強弱）
+    exp1 = df['Close'].ewm(span=12).mean()
+    exp2 = df['Close'].ewm(span=26).mean()
+    macd_line = exp1 - exp2
+    signal_line = macd_line.ewm(span=9).mean()
+    df['MACD_diff'] = macd_line - signal_line
     # 移除輔助欄位
     if 'volume_5d_avg' in df.columns:
     return df
 def advanced_xgboost_predict(predict_days=5):
+    """使用 XGBoost 模型進行預測 - 強制刷新數據版本"""
     try:
         print(f"開始XGBoost預測 - {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
         xgb_model = XGBoostModel()
+        # 強制重新獲取台指數據 - 不使用緩存
         print("正在獲取最新台指數據...")
         taiex_data = get_stock_data('^TWII', '2y')
         if taiex_data.empty or len(taiex_data) < 60:
             print("台指期數據不足，無法進行XGBoost預測")
             return None
         taiex_data = calculate_technical_indicators(taiex_data)
         taiex_data = calculate_new_features(taiex_data)
+        # 強制重新獲取美股數據
         print("正在獲取美股數據...")
         us_market_data = get_us_market_data()
         latest_data = taiex_data.iloc[-1]
         yesterday_close = latest_data['Close']
+        # 特徵列表保持不變
         new_feature_columns = [
+            'return_t-1',
+            'return_t-5',
+            'MA5_close',
+            'volatility_5d',
+            'volume_ratio_5d',
+            'MACD_diff',
         ]
         # 獲取美股報酬率
         feature_names = []
         for feature in new_feature_columns:
+            if feature in latest_data.index:
                 value = latest_data[feature]
                 if pd.isna(value):
+                    if 'return' in feature: default_value = 0.0
+                    elif 'MA' in feature: default_value = latest_data['Close'] if not pd.isna(latest_data['Close']) else 100
+                    elif 'volatility' in feature: default_value = 0.02
+                    elif 'volume_ratio' in feature: default_value = 1.0
+                    elif 'MACD' in feature: default_value = 0.0
+                    else: default_value = 0.0
                     features_list.append(default_value)
                 else:
                     features_list.append(value)
+                feature_names.append(feature)
+        # 添加其他特徵
+        features_list.extend([dji_return, sox_return, yesterday_close, sentiment_score_raw])
+        feature_names.extend(['dji_return_t-1', 'sox_return_t-1', 'close', 'NEWS'])
         # 轉換為 DataFrame
         input_df = pd.DataFrame([features_list], columns=feature_names)
+        print(f"特徵向量: {[f'{f:.4f}' for f in features_list[:5]]}...")  # 只顯示前5個
+        # 🔍 新增這段：完整印出本次預測輸入資料
         print("\n=== 📊 本次預測輸入特徵 DataFrame ===")
         print(input_df)
         print("=== ✅ 檢查以上特徵是否每次都有變 ===\n")
         if predictions is None:
             return None
+        # 處理預測結果
         pred_mapping = {
             1: 'Change_pct_t1_pred',
             5: 'Change_pct_t5_pred',
         return {
             'predicted_price': predicted_price,
+            'change_pct': predicted_change_pct,
             'confidence': 0.75
         }
     return simple_statistical_predict(data, predict_days)
 def calculate_technical_indicators(df):
+    """計算技術指標"""
+    if df.empty: return df
     # 移動平均線
     df['MA5'] = df['Close'].rolling(window=5).mean()
     df['down_move'] = df['Low'].shift(1) - df['Low']
     df['+DM'] = np.where((df['up_move'] > df['down_move']) & (df['up_move'] > 0), df['up_move'], 0)
     df['-DM'] = np.where((df['down_move'] > df['up_move']) & (df['down_move'] > 0), df['down_move'], 0)
+    df['TR'] = np.max([df['High'] - df['Low'], abs(df['High'] - df['Close'].shift(1)), abs(df['Low'] - df['Close'].shift(1))], axis=0)
     df['+DI'] = (df['+DM'].ewm(com=13, adjust=False).mean() / df['TR'].ewm(com=13, adjust=False).mean()) * 100
     df['-DI'] = (df['-DM'].ewm(com=13, adjust=False).mean() / df['TR'].ewm(com=13, adjust=False).mean()) * 100
     df['DX'] = abs(df['+DI'] - df['-DI']) / (df['+DI'] + df['-DI']) * 100

model_predictor.py CHANGED Viewed

@@ -1,3 +1,6 @@
 import os
 import pandas as pd
 import numpy as np
@@ -11,30 +14,26 @@ class XGBoostModel:
         """
         初始化 XGBoost 模型預測器
-        【修正】與訓練檔案 xgboost_for_stock 完全一致的特徵欄位
         """
         self.model = None
         self.scaler = None
-        # 【修正】使用與訓練時完全相同的特徵欄位順序
         self.feature_columns = [
-            'close',                    # 前一日收盤價
-            'return_t-1',              # 前一日漲跌率
-            'return_t-5',              # 過去 5 日累積漲跌率
-            'MA5_close',               # 5 日移動平均價
-            'volatility_5d',           # 5 日漲跌標準差
-            'volume_ratio_5d',         # 今日成交量 ÷ 5 日均量
-            'MACD_diff',               # MACD - signal
-            'dji_return_t-1',          # 前一日道瓊指數漲跌率
-            'sox_return_t-1',          # 前一日費半指數漲跌率
-            'NEWS',                    # 新聞情緒分數
-            'MACDvol',                 # MACD 成交量
-            'RSI_14',                  # 14日RSI
-            'ADX',                     # ADX指標
-            'volume_weighted_return'   # 成交量加權報酬率
         ]
-        # 輸出目標對應表（漲幅百分比）
         self.output_targets = {
             1: 'Change_pct_t1_pred',    # 1天後漲幅%
             5: 'Change_pct_t5_pred',    # 5天後漲幅%
@@ -43,125 +42,64 @@ class XGBoostModel:
         }
         print("XGBoost 模型預測器初始化完成")
-        print(f"特徵數量：{len(self.feature_columns)}")
         print("輸出格式：漲幅百分比 (1日, 5日, 10日, 20日)")
     def load_model(self, model_path):
-        """載入預訓練的 XGBoost 模型"""
         try:
             if not os.path.exists(model_path):
                 print(f"錯誤：找不到模型檔案 {model_path}")
                 return False
             self.model = xgb.XGBRegressor()
             self.model.load_model(model_path)
             print(f"成功載入模型：{model_path}")
             return True
         except Exception as e:
             print(f"載入模型時發生錯誤：{e}")
             return False
-    def create_new_features(self, df):
-        """
-        【修正】使用與訓練時完全相同的特徵工程函數
-        完全對應 xgboost_for_stock 中的 create_new_features 函數
-        """
-        # 1. return_t-1 — 前一日報酬率
-        df['return_t-1'] = df['Close'].pct_change()
-        # 2. return_t-5 — 過去 5 日累積報酬率
-        df['return_t-5'] = (df['Close'] / df['Close'].shift(5) - 1)
-        # 3. MA5_close — 5 日移動平均價
-        df['MA5_close'] = df['Close'].rolling(window=5).mean()
-        # 4. volatility_5d — 5 日報酬標準差（短期波動）
-        df['volatility_5d'] = df['return_t-1'].rolling(window=5).std()
-        # 5. volume_ratio_5d — 今日成交量 ÷ 5 日均量
-        df['volume_5d_avg'] = df['Volume'].rolling(window=5).mean()
-        df['volume_ratio_5d'] = df['Volume'] / df['volume_5d_avg']
-        # 6. MACD_diff — MACD - signal（趨勢強弱）
-        if 'MACD' in df.columns and 'MACD_Signal' in df.columns:
-            df['MACD_diff'] = df['MACD'] - df['MACD_Signal']
-        elif 'MACD' in df.columns and 'MACDsign' in df.columns:
-            # 【修正】支援訓練資料中的欄位名稱
-            df['MACD_diff'] = df['MACD'] - df['MACDsign']
-        else:
-            # 計算 MACD
-            exp1 = df['Close'].ewm(span=12).mean()
-            exp2 = df['Close'].ewm(span=26).mean()
-            macd_line = exp1 - exp2
-            signal_line = macd_line.ewm(span=9).mean()
-            df['MACD_diff'] = macd_line - signal_line
-        # 7. dji_return_t-1 — 前一日道瓊指數報酬率（需外部提供）
-        if 'dji_return_t-1' not in df.columns:
-            df['dji_return_t-1'] = 0  # 預設值，實際使用時由外部傳入
-        # 8. sox_return_t-1 — 前一日費半指數報酬率（需外部提供）
-        if 'sox_return_t-1' not in df.columns:
-            df['sox_return_t-1'] = 0  # 預設值，實際使用時由外部傳入
-        # 9. NEWS — 新聞情緒分數（需外部提供）
-        if 'NEWS' not in df.columns:
-            df['NEWS'] = 0  # 預設值，實際使用時由外部傳入
-        # 10. MACDvol — 【修正】對應訓練資料中的 MACDvol 欄位
-        if 'MACDvol' in df.columns:
-            df['MACDvol'] = df['MACDvol']
-        elif 'MACD_Histogram' in df.columns:
-            df['MACDvol'] = df['MACD_Histogram']
-        else:
-            df['MACDvol'] = df['MACD_diff']  # 使用 MACD_diff 作為替代
-        # 11. RSI_14 — 14 日 RSI 指標
-        if 'RSI' in df.columns:
-            df['RSI_14'] = df['RSI']
-        else:
-            # 計算 RSI
-            delta = df['Close'].diff()
-            gain = (delta.where(delta > 0, 0)).rolling(window=14).mean()
-            loss = (-delta.where(delta < 0, 0)).rolling(window=14).mean()
-            rs = gain / loss
-            df['RSI_14'] = 100 - (100 / (1 + rs))
-        # 12. ADX（需要從技術指標中獲取）
-        if 'ADX' not in df.columns:
-            df['ADX'] = 50  # 預設值
-        # 13. volume_weighted_return — 當日報酬率絕對值 × 當日成交量
-        df['volume_weighted_return'] = abs(df['return_t-1']) * df['Volume']
-        # 14. close（當前收盤價）
-        df['close'] = df['Close']
-        # 移除輔助欄位
-        if 'volume_5d_avg' in df.columns:
-            df.drop('volume_5d_avg', axis=1, inplace=True)
-        return df
     def preprocess_features(self, input_df):
-        """預處理特徵數據"""
         # 確保特徵齊全
         missing_features = [f for f in self.feature_columns if f not in input_df.columns]
         if missing_features:
             print(f"警告：缺少以下特徵：{missing_features}")
             for feature in missing_features:
                 input_df[feature] = 0
-        # 選擇並排序特徵（確保順序與訓練時一致）
         input_df = input_df[self.feature_columns].fillna(0)
         return input_df
     def predict(self, model_name, input_df):
         """
         進行股價漲幅預測
         Returns:
             dict: 預測結果，包含各時間點的漲幅百分比
         """
@@ -172,42 +110,36 @@ class XGBoostModel:
                 if not self.load_model(model_path):
                     return None
             # 預處理特徵
             processed_df = self.preprocess_features(input_df.copy())
-            print("=== 模型輸入特徵檢查 ===")
-            print(f"輸入形狀: {processed_df.shape}")
-            print("前5個特徵值:")
-            for i, col in enumerate(processed_df.columns[:5]):
-                print(f"  {col}: {processed_df[col].iloc[0]:.6f}")
             # 進行預測
             predictions = self.model.predict(processed_df)
-            print(f"原始預測輸出形狀: {predictions.shape}")
-            print(f"原始預測值: {predictions}")
-            # 【修正】處理多輸出預測結果
             if predictions.ndim == 1:
-                # 單輸出情況 - 只有一個時間點的預測
                 result = {
                     'Change_pct_t1_pred': float(predictions[0])
                 }
             else:
-                # 多輸出情況：[t1, t5, t10, t20] - 對應訓練模型的四個輸出
-                result = {}
-                target_keys = ['Change_pct_t1_pred', 'Change_pct_t5_pred',
-                              'Change_pct_t10_pred', 'Change_pct_t20_pred']
-                for i, key in enumerate(target_keys):
-                    if i < predictions.shape[1]:
-                        result[key] = float(predictions[0][i])
-                    else:
-                        result[key] = 0.0
             # 輸出預測結果摘要
             print("=== 漲幅預測結果 ===")
             for key, value in result.items():
-                days = key.split('_')[2][1:]
                 direction = "上漲" if value > 0 else "下跌"
                 print(f"  {days}日後預測: {value:+.2f}% ({direction})")
@@ -219,19 +151,24 @@ class XGBoostModel:
             traceback.print_exc()
             return None
-        except Exception as e:
-            print(f"預測過程中發生錯誤：{e}")
-            import traceback
-            traceback.print_exc()
-            return None
     def predict_single_timeframe(self, model_name, input_df, days):
-        """預測特定時間框架的漲幅"""
         try:
             predictions = self.predict(model_name, input_df)
             if predictions is None:
                 return None
             target_key = f'Change_pct_t{days}_pred'
             if target_key in predictions:
@@ -244,54 +181,195 @@ class XGBoostModel:
             print(f"單一時間框架預測時發生錯誤：{e}")
             return None
     def get_feature_importance(self):
-        """獲取特徵重要性"""
         try:
             if self.model is None:
                 return None
             importance_scores = self.model.feature_importances_
             importance_dict = {}
             for i, feature in enumerate(self.feature_columns):
                 if i < len(importance_scores):
                     importance_dict[feature] = float(importance_scores[i])
-            return dict(sorted(importance_dict.items(),
-                              key=lambda x: x[1],
-                              reverse=True))
         except Exception as e:
             print(f"獲取特徵重要性時發生錯誤：{e}")
             return None
-# 測試函數
 if __name__ == "__main__":
     model = XGBoostModel()
-    # 創建測試數據
     test_data = pd.DataFrame({
-        'Close': [150.0] * 30,  # 需要足夠的歷史數據來計算技術指標
-        'Volume': [1000000] * 30,
-        'High': [152.0] * 30,
-        'Low': [148.0] * 30,
-        'Open': [149.0] * 30
     })
-    # 創建特徵
-    test_data = model.create_new_features(test_data)
-    # 手動設置外部特徵
-    test_data['dji_return_t-1'] = 0.01
-    test_data['sox_return_t-1'] = 0.015
-    test_data['NEWS'] = 0.1
-    # 取最後一行作為輸入
-    input_data = test_data.tail(1)
-    print("測試特徵工程...")
-    print("可用特徵:")
-    for col in model.feature_columns:
-        if col in input_data.columns:
-            print(f"✓ {col}: {input_data[col].iloc[0]:.4f}")
-        else:
-            print(f"✗ {col}: 缺失")

+# model_predictor.py - 支援漲幅百分比輸出的XGBoost模型預測器
+# 修改版本：輸出改為漲幅百分比而非絕對價格
 import os
 import pandas as pd
 import numpy as np
         """
         初始化 XGBoost 模型預測器
+        【重要更新】
+        - 模型現在輸出漲幅百分比而非絕對價格
+        - 支援 1日、5日、10日、20日的漲幅預測
         """
         self.model = None
         self.scaler = None
         self.feature_columns = [
+            'close',             # 前一日收盤價
+            'return_t-1',        # 前一日報酬率
+            'return_t-5',        # 過去 5 日累積報酬率
+            'MA5_close',         # 5 日移動平均價
+            'volatility_5d',     # 5 日報酬標準差
+            'volume_ratio_5d',   # 今日成交量 ÷ 5 日均量
+            'MACD_diff',         # MACD - signal
+            'dji_return_t-1',    # 前一日道瓊指數報酬率
+            'sox_return_t-1',    # 前一日費半指數報酬率
+            'NEWS'               # 新聞情緒分數
         ]
+        # 【新增】輸出目標對應表
         self.output_targets = {
             1: 'Change_pct_t1_pred',    # 1天後漲幅%
             5: 'Change_pct_t5_pred',    # 5天後漲幅%
         }
         print("XGBoost 模型預測器初始化完成")
         print("輸出格式：漲幅百分比 (1日, 5日, 10日, 20日)")
     def load_model(self, model_path):
+        """
+        載入預訓練的 XGBoost 模型
+        Args:
+            model_path (str): 模型檔案路徑 (.json 格式)
+        Returns:
+            bool: 是否成功載入
+        """
         try:
+            # 檢查模型檔案是否存在
             if not os.path.exists(model_path):
                 print(f"錯誤：找不到模型檔案 {model_path}")
                 return False
+            # 載入 XGBoost 模型
             self.model = xgb.XGBRegressor()
             self.model.load_model(model_path)
             print(f"成功載入模型：{model_path}")
+            print(f"預期特徵數量：{len(self.feature_columns)}")
             return True
         except Exception as e:
             print(f"載入模型時發生錯誤：{e}")
             return False
+    def load_scaler(self, scaler_path):
+        """停用標準化流程"""
+        print("⚠️ 已停用標準化：模型使用原始特徵進行預測。")
+        self.scaler = None
+        return False
     def preprocess_features(self, input_df):
         # 確保特徵齊全
         missing_features = [f for f in self.feature_columns if f not in input_df.columns]
         if missing_features:
             print(f"警告：缺少以下特徵：{missing_features}")
             for feature in missing_features:
                 input_df[feature] = 0
         input_df = input_df[self.feature_columns].fillna(0)
+        # ✅ 直接回傳原始特徵
         return input_df
     def predict(self, model_name, input_df):
         """
         進行股價漲幅預測
+        Args:
+            model_name (str): 模型名稱（用於載入對應模型）
+            input_df (pd.DataFrame): 輸入特徵
         Returns:
             dict: 預測結果，包含各時間點的漲幅百分比
         """
                 if not self.load_model(model_path):
                     return None
+            # 載入標準化器（如果存在）
+            if self.scaler is None:
+                scaler_path = f"{model_name}_scaler.pkl"
+                self.load_scaler(scaler_path)
             # 預處理特徵
             processed_df = self.preprocess_features(input_df.copy())
             # 進行預測
             predictions = self.model.predict(processed_df)
+            # 【重要修改】將預測結果格式化為漲幅百分比
             if predictions.ndim == 1:
+                # 如果只有一個輸出，假設是 1 日預測
                 result = {
                     'Change_pct_t1_pred': float(predictions[0])
                 }
             else:
+                # 多輸出情況：1日, 5日, 10日, 20日
+                result = {
+                    'Change_pct_t1_pred': float(predictions[0][0]) if len(predictions[0]) > 0 else 0.0,
+                    'Change_pct_t5_pred': float(predictions[0][1]) if len(predictions[0]) > 1 else 0.0,
+                    'Change_pct_t10_pred': float(predictions[0][2]) if len(predictions[0]) > 2 else 0.0,
+                    'Change_pct_t20_pred': float(predictions[0][3]) if len(predictions[0]) > 3 else 0.0
+                }
             # 輸出預測結果摘要
             print("=== 漲幅預測結果 ===")
             for key, value in result.items():
+                days = key.split('_')[2][1:]  # 提取天數
                 direction = "上漲" if value > 0 else "下跌"
                 print(f"  {days}日後預測: {value:+.2f}% ({direction})")
             traceback.print_exc()
             return None
     def predict_single_timeframe(self, model_name, input_df, days):
+        """
+        預測特定時間框架的漲幅
+        Args:
+            model_name (str): 模型名稱
+            input_df (pd.DataFrame): 輸入特徵
+            days (int): 預測天數 (1, 5, 10, 20)
+        Returns:
+            float: 預測的漲幅百分比
+        """
         try:
             predictions = self.predict(model_name, input_df)
             if predictions is None:
                 return None
+            # 根據天數選擇對應的預測結果
             target_key = f'Change_pct_t{days}_pred'
             if target_key in predictions:
             print(f"單一時間框架預測時發生錯誤：{e}")
             return None
+    def get_prediction_confidence(self, input_df):
+        """
+        評估預測的信心度
+        Args:
+            input_df (pd.DataFrame): 輸入特徵
+        Returns:
+            float: 信心度 (0-1)
+        """
+        try:
+            # 基於特徵完整性和質量評估信心度
+            feature_completeness = 0
+            total_features = len(self.feature_columns)
+            for feature in self.feature_columns:
+                if feature in input_df.columns:
+                    value = input_df[feature].iloc[0]
+                    if not pd.isna(value) and value != 0:
+                        feature_completeness += 1
+            completeness_ratio = feature_completeness / total_features
+            # 基於數據質量調整信心度
+            base_confidence = max(0.5, completeness_ratio)
+            # 如果重要特徵缺失，降低信心度
+            important_features = ['close', 'return_t-1', 'MA5_close']
+            missing_important = 0
+            for feature in important_features:
+                if feature not in input_df.columns or pd.isna(input_df[feature].iloc[0]):
+                    missing_important += 1
+            if missing_important > 0:
+                base_confidence *= (1 - missing_important * 0.1)
+            return min(0.9, max(0.3, base_confidence))
+        except Exception as e:
+            print(f"計算信心度時發生錯誤：{e}")
+            return 0.5
+    def validate_input(self, input_df):
+        """
+        驗證輸入數據的有效性
+        Args:
+            input_df (pd.DataFrame): 輸入特徵
+        Returns:
+            tuple: (是否有效, 錯誤訊息列表)
+        """
+        errors = []
+        try:
+            # 檢查是否為空
+            if input_df.empty:
+                errors.append("輸入數據為空")
+            # 檢查必要特徵
+            required_features = ['close', 'return_t-1']
+            for feature in required_features:
+                if feature not in input_df.columns:
+                    errors.append(f"缺少必要特徵：{feature}")
+                elif pd.isna(input_df[feature].iloc[0]):
+                    errors.append(f"必要特徵包含空值：{feature}")
+            # 檢查數據合理性
+            if 'close' in input_df.columns:
+                close_price = input_df['close'].iloc[0]
+                if close_price <= 0:
+                    errors.append(f"收盤價不合理：{close_price}")
+            if 'return_t-1' in input_df.columns:
+                return_val = input_df['return_t-1'].iloc[0]
+                if abs(return_val) > 0.5:  # 單日漲跌幅超過50%可能有問題
+                    errors.append(f"報酬率異常：{return_val:.3f}")
+            return len(errors) == 0, errors
+        except Exception as e:
+            errors.append(f"驗證過程發生錯誤：{e}")
+            return False, errors
     def get_feature_importance(self):
+        """
+        獲取特徵重要性
+        Returns:
+            dict: 特徵重要性字典
+        """
         try:
             if self.model is None:
                 return None
+            # 獲取特徵重要性
             importance_scores = self.model.feature_importances_
+            # 創建特徵重要性字典
             importance_dict = {}
             for i, feature in enumerate(self.feature_columns):
                 if i < len(importance_scores):
                     importance_dict[feature] = float(importance_scores[i])
+            # 按重要性排序
+            sorted_importance = dict(sorted(importance_dict.items(),
+                                          key=lambda x: x[1],
+                                          reverse=True))
+            return sorted_importance
         except Exception as e:
             print(f"獲取特徵重要性時發生錯誤：{e}")
             return None
+    def explain_prediction(self, input_df, predictions):
+        """
+        解釋預測結果
+        Args:
+            input_df (pd.DataFrame): 輸入特徵
+            predictions (dict): 預測結果
+        Returns:
+            str: 解釋文本
+        """
+        try:
+            explanation = []
+            explanation.append("=== 預測解釋 ===")
+            # 分析主要驅動因素
+            feature_importance = self.get_feature_importance()
+            if feature_importance:
+                explanation.append("主要影響因素:")
+                top_features = list(feature_importance.keys())[:3]
+                for feature in top_features:
+                    if feature in input_df.columns:
+                        value = input_df[feature].iloc[0]
+                        importance = feature_importance[feature]
+                        explanation.append(f"  - {feature}: {value:.4f} (重要性: {importance:.3f})")
+            # 分析預測趨勢
+            explanation.append("\n預測趨勢分析:")
+            for key, value in predictions.items():
+                days = key.split('_')[2][1:]
+                trend = "看漲" if value > 1 else "看跌" if value < -1 else "持平"
+                explanation.append(f"  - {days}日: {value:+.2f}% ({trend})")
+            return "\n".join(explanation)
+        except Exception as e:
+            return f"解釋生成失敗: {e}"
+# 範例使用方式
 if __name__ == "__main__":
+    # 初始化模型
     model = XGBoostModel()
+    # 準備測試數據
     test_data = pd.DataFrame({
+        'close': [150.0],
+        'return_t-1': [0.02],
+        'return_t-5': [0.05],
+        'MA5_close': [148.0],
+        'volatility_5d': [0.025],
+        'volume_ratio_5d': [1.2],
+        'MACD_diff': [0.5],
+        'dji_return_t-1': [0.01],
+        'sox_return_t-1': [0.015],
+        'NEWS': [0.1]
     })
+    print("測試模型預測器...")
+    print("輸入特徵:")
+    print(test_data)
+    # 進行預測
+    predictions = model.predict('xgboost_model', test_data)
+    if predictions:
+        print("\n預測成功！")
+        print("結果說明：輸出為相對於當前價格的漲幅百分比")
+        # 解釋預測
+        explanation = model.explain_prediction(test_data, predictions)
+        print(f"\n{explanation}")
+        # 計算信心度
+        confidence = model.get_prediction_confidence(test_data)
+        print(f"\n預測信心度: {confidence:.2%}")
+    else:
+        print("預測失敗！")