Spaces:

AlanRex
/

AITEST

Running

App Files Files Community

AlanRex commited on Sep 19, 2025

Commit

fbcdeb9

verified ·

1 Parent(s): 8b6ebf4

Update app.py

Browse files

Files changed (1) hide show

app.py +158 -77

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# HUGING_FACE_V3.1.2.py (整合 Bert_predict 和 XGBoost 版本)
 # 系統套件
 import os
@@ -60,13 +60,13 @@ TAIWAN_STOCKS = {
     '元大金': '2885.TW',
     '智邦': '2345.TW',
     '緯創': '3231.TW',
-    '聯詠': '3034.TW',
     '第一金': '2892.TW',
     '瑞昱': '2379.TW',
     '緯穎': '6669.TWO',
     '永豐金': '2890.TW',
     '合庫金': '5880.TW',
-    '華南金': '2880.TW',
     '台光電': '2383.TW',
     '世芯-KY': '3661.TWO',
     '奇鋐': '3017.TW',
@@ -90,7 +90,7 @@ TAIWAN_STOCKS = {
     '藥華藥': '6446.TWO',
     '南亞': '1303.TW',
     '陽明': '2609.TW',
-    '萬海': '2615.TW',
     '台塑化': '6505.TW',
     '慧洋-KY': '2637.TW',
     '上銀': '2049.TW',
@@ -240,12 +240,58 @@ def simple_statistical_predict(data, predict_days=5):
         'confidence': max(0.6, 1 - volatility * 2)
     }
 def advanced_xgboost_predict(predict_days=5):
     """
-    【進階模型】使用 XGBoost 模型進行預測 - 8個特徵版本
     """
     try:
-        print(f"開始使用 XGBoost 模型進行 {predict_days} 天預測...")
         # 初始化 XGBoost 模型
         xgb_model = XGBoostModel()
@@ -256,9 +302,15 @@ def advanced_xgboost_predict(predict_days=5):
             print("台指期數據不足，無法進行XGBoost預測")
             return None
-        # 計算技術指標
         taiex_data = calculate_technical_indicators(taiex_data)
         # 獲取新聞情緒分數
         try:
             if predictor is not None:
@@ -273,94 +325,122 @@ def advanced_xgboost_predict(predict_days=5):
         # 準備特徵數據 (使用最新的數據點)
         latest_data = taiex_data.iloc[-1]
-        # 技術指標檢查和狀態記錄 - 只處理需要的8個特徵
-        tech_indicators_status = {}
-        # 檢查各技術指標並記錄狀態 - 移除MACD相關指標
-        indicators_map = {
-            'K': (latest_data['K'], 50),
-            'D': (latest_data['D'], 50),
-            '+DI': (latest_data['+DI'], 25),
-            '-DI': (latest_data['-DI'], 25),
-            'ADX': (latest_data['ADX'], 25),
-            'RSI': (latest_data['RSI'], 50),
-        }
-        processed_values = {}
-        for indicator, (value, default) in indicators_map.items():
-            if pd.isna(value):
-                processed_values[indicator] = default
-                tech_indicators_status[indicator] = {
-                    'value': default,
-                    'is_real': False,
-                    'source': 'default'
-                }
-            else:
-                processed_values[indicator] = value
-                tech_indicators_status[indicator] = {
-                    'value': value,
-                    'is_real': True,
-                    'source': 'calculated'
-                }
-        # 建立8個特徵的向量 (按您指定的順序)
-        features_list = [
-            latest_data['Close'],           # close
-            sentiment_score_raw,            # NEWS
-            processed_values['K'],          # K
-            processed_values['D'],          # D
-            processed_values['+DI'],        # +DI
-            processed_values['-DI'],        # -DI
-            processed_values['ADX'],        # ADX
-            processed_values['RSI'],        # RSI
-        ]
-        # 對應的欄位名稱 - 必須與模型訓練時的順序完全一致
-        column_names = [
-            'close', 'NEWS', 'K', 'D', '+DI', '-DI', 'ADX', 'RSI'
-        ]
         # 轉換為 DataFrame (XGBoost 模型期望的格式)
-        input_df = pd.DataFrame([features_list], columns=column_names)
         # 詳細的資料驗證日誌
-        print("=" * 50)
-        print("XGBoost 模型輸入特徵檢查報告 (8特徵版)")
-        print("=" * 50)
-        # 基本資料
-        print(f"收盤價 (close): {latest_data['Close']:.2f}")
-        print(f"新聞情緒 (NEWS): {sentiment_score_raw:.6f}")
-        if sentiment_score_raw == 0:
-            print("  警告: 新聞情緒分數為0，可能無新聞數據")
-        else:
-            print("  新聞情緒分數正常")
-        # 技術指標詳細狀態
-        print("\n技術指標狀態:")
-        for indicator in ['K', 'D', '+DI', '-DI', 'ADX', 'RSI']:
-            status = tech_indicators_status[indicator]
-            status_symbol = "正常" if status['is_real'] else "預設值"
-            print(f"  {indicator:6s}: {status['value']:8.4f} ({status_symbol})")
         # 統計完整性
-        real_indicators = sum(1 for status in tech_indicators_status.values() if status['is_real'])
-        total_indicators = len(tech_indicators_status)
-        completeness = (real_indicators / total_indicators) * 100
-        print(f"\n技術指標完整性:")
-        print(f"  實際計算指標: {real_indicators}/{total_indicators} ({completeness:.1f}%)")
         if completeness < 70:
-            print("  警告: 超過30%的指標使用預設值，可能影響預測準確性")
         else:
-            print("  指標完整性良好")
         # 顯示完整特徵向量
         print(f"\n完整特徵向量 (共{len(features_list)}個特徵):")
-        for i, (name, value) in enumerate(zip(column_names, features_list)):
-            print(f"  [{i:1d}] {name:6s}: {value:12.6f}")
-        print("=" * 50)
         # 進行預測
         predictions = xgb_model.predict('xgboost_model', input_df)
@@ -388,11 +468,12 @@ def advanced_xgboost_predict(predict_days=5):
         print(f"- 預測價格: {predicted_price:.2f}")
         print(f"- 預測變化: {change_pct:+.2f}%")
         print(f"- 使用特徵數: {len(features_list)} 個")
         return {
             'predicted_price': predicted_price,
             'change_pct': change_pct,
-            'confidence': 0.75  # XGBoost 模型的信心度
         }
     except Exception as e:

+# HUGING_FACE_V3.2.0.py (整合 Bert_predict 和 XGBoost 版本 - 新特徵版本)
 # 系統套件
 import os
     '元大金': '2885.TW',
     '智邦': '2345.TW',
     '緯創': '3231.TW',
+    '華邦': '3034.TW',
     '第一金': '2892.TW',
     '瑞昱': '2379.TW',
     '緯穎': '6669.TWO',
     '永豐金': '2890.TW',
     '合庫金': '5880.TW',
+    '臺南金': '2880.TW',
     '台光電': '2383.TW',
     '世芯-KY': '3661.TWO',
     '奇鋐': '3017.TW',
     '藥華藥': '6446.TWO',
     '南亞': '1303.TW',
     '陽明': '2609.TW',
+    '謝海': '2615.TW',
     '台塑化': '6505.TW',
     '慧洋-KY': '2637.TW',
     '上銀': '2049.TW',
         'confidence': max(0.6, 1 - volatility * 2)
     }
+def calculate_new_features(df):
+    """
+    計算新的技術指標特徵 - 針對新特徵需求
+    """
+    if df.empty:
+        return df
+    # 1. return_t-1 – 前一日報酬率
+    df['return_t-1'] = df['Close'].pct_change()
+    # 2. return_t-5 – 過去 5 日累積報酬率
+    df['return_t-5'] = (df['Close'] / df['Close'].shift(5) - 1)
+    # 3. MA5_close – 5 日移動平均價
+    df['MA5_close'] = df['Close'].rolling(window=5).mean()
+    # 4. MA20_close – 20 日移動平均價
+    df['MA20_close'] = df['Close'].rolling(window=20).mean()
+    # 5. volatility_5d – 5 日報酬標準差（短期波動）
+    df['volatility_5d'] = df['return_t-1'].rolling(window=5).std()
+    # 6. volume_ratio_5d – 今日成交量 ÷ 5 日均量
+    df['volume_5d_avg'] = df['Volume'].rolling(window=5).mean()
+    df['volume_ratio_5d'] = df['Volume'] / df['volume_5d_avg']
+    # 7. RSI_14 – 14 日 RSI 指標
+    delta = df['Close'].diff()
+    gain = (delta.where(delta > 0, 0)).rolling(window=14).mean()
+    loss = (-delta.where(delta < 0, 0)).rolling(window=14).mean()
+    rs = gain / loss
+    df['RSI_14'] = 100 - (100 / (1 + rs))
+    # 8. MACD_diff – MACD - signal（趨勢強弱）
+    exp1 = df['Close'].ewm(span=12).mean()
+    exp2 = df['Close'].ewm(span=26).mean()
+    macd_line = exp1 - exp2
+    signal_line = macd_line.ewm(span=9).mean()
+    df['MACD_diff'] = macd_line - signal_line
+    # 移除輔助欄位
+    if 'volume_5d_avg' in df.columns:
+        df = df.drop('volume_5d_avg', axis=1)
+    return df
 def advanced_xgboost_predict(predict_days=5):
     """
+    【進階模型】使用 XGBoost 模型進行預測 - 新特徵版本
     """
     try:
+        print(f"開始使用 XGBoost 模型進行 {predict_days} 天預測（新特徵版本）...")
         # 初始化 XGBoost 模型
         xgb_model = XGBoostModel()
             print("台指期數據不足，無法進行XGBoost預測")
             return None
+        # 計算技術指標（包含舊的指標）
         taiex_data = calculate_technical_indicators(taiex_data)
+        # 計算新特徵
+        taiex_data = calculate_new_features(taiex_data)
+        # 獲取美股指數數據來計算外部指標
+        us_market_data = get_us_market_data()
         # 獲取新聞情緒分數
         try:
             if predictor is not None:
         # 準備特徵數據 (使用最新的數據點)
         latest_data = taiex_data.iloc[-1]
+        # 新特徵列表 - 按照您指定的10個特徵
+        new_feature_columns = [
+            'return_t-1',        # 前一日報酬率
+            'return_t-5',        # 過去 5 日累積報酬率
+            'MA5_close',         # 5 日移動平均價
+            'MA20_close',        # 20 日移動平均價
+            'volatility_5d',     # 5 日報酬標準差
+            'volume_ratio_5d',   # 今日成交量 ÷ 5 日均量
+            'RSI_14',           # 14 日 RSI 指標
+            'MACD_diff',        # MACD - signal
+        ]
+        # 添加美股指標（如果有數據的話）
+        dji_return = 0
+        sox_return = 0
+        # 嘗試獲取美股前一日報酬率
+        try:
+            dji_data = get_stock_data('^DJI', '5d')
+            if not dji_data.empty and len(dji_data) >= 2:
+                dji_return = (dji_data['Close'].iloc[-1] / dji_data['Close'].iloc[-2] - 1)
+        except:
+            pass
+        try:
+            sox_data = get_stock_data('^SOX', '5d')
+            if not sox_data.empty and len(sox_data) >= 2:
+                sox_return = (sox_data['Close'].iloc[-1] / sox_data['Close'].iloc[-2] - 1)
+        except:
+            pass
+        # 檢查並處理 NaN 值，建立特徵狀態記錄
+        feature_status = {}
+        features_list = []
+        feature_names = []
+        # 處理本地計算的特徵
+        for feature in new_feature_columns:
+            if feature in latest_data.index:
+                value = latest_data[feature]
+                if pd.isna(value):
+                    # 使用合理的預設值
+                    if 'return' in feature:
+                        default_value = 0.0
+                    elif 'MA' in feature:
+                        default_value = latest_data['Close'] if not pd.isna(latest_data['Close']) else 100
+                    elif 'volatility' in feature:
+                        default_value = 0.02
+                    elif 'volume_ratio' in feature:
+                        default_value = 1.0
+                    elif 'RSI' in feature:
+                        default_value = 50.0
+                    elif 'MACD' in feature:
+                        default_value = 0.0
+                    else:
+                        default_value = 0.0
+                    features_list.append(default_value)
+                    feature_status[feature] = {'value': default_value, 'is_real': False, 'source': 'default'}
+                else:
+                    features_list.append(value)
+                    feature_status[feature] = {'value': value, 'is_real': True, 'source': 'calculated'}
+                feature_names.append(feature)
+        # 添加美股指標
+        features_list.extend([dji_return, sox_return])
+        feature_names.extend(['dji_return_t-1', 'sox_return_t-1'])
+        feature_status['dji_return_t-1'] = {
+            'value': dji_return,
+            'is_real': dji_return != 0,
+            'source': 'calculated' if dji_return != 0 else 'default'
+        }
+        feature_status['sox_return_t-1'] = {
+            'value': sox_return,
+            'is_real': sox_return != 0,
+            'source': 'calculated' if sox_return != 0 else 'default'
+        }
         # 轉換為 DataFrame (XGBoost 模型期望的格式)
+        input_df = pd.DataFrame([features_list], columns=feature_names)
         # 詳細的資料驗證日誌
+        print("=" * 60)
+        print("XGBoost 模型輸入特徵檢查報告 (新特徵版本)")
+        print("=" * 60)
+        print(f"總特徵數量: {len(features_list)} 個")
+        print(f"新聞情緒分數: {sentiment_score_raw:.6f}")
+        # 特徵詳細狀態
+        print("\n特徵狀態詳情:")
+        for i, (name, value) in enumerate(zip(feature_names, features_list)):
+            status = feature_status.get(name, {})
+            status_symbol = "✓正常" if status.get('is_real', False) else "⚠預設值"
+            print(f"  [{i:2d}] {name:18s}: {value:12.6f} ({status_symbol})")
         # 統計完整性
+        real_features = sum(1 for status in feature_status.values() if status.get('is_real', False))
+        total_features = len(feature_status)
+        completeness = (real_features / total_features) * 100 if total_features > 0 else 0
+        print(f"\n特徵完整性:")
+        print(f"  實際計算特徵: {real_features}/{total_features} ({completeness:.1f}%)")
         if completeness < 70:
+            print("  警告: 超過30%的特徵使用預設值，可能影響預測準確性")
         else:
+            print("  特徵完整性良好")
         # 顯示完整特徵向量
         print(f"\n完整特徵向量 (共{len(features_list)}個特徵):")
+        for i, (name, value) in enumerate(zip(feature_names, features_list)):
+            print(f"  [{i:2d}] {name:18s}: {value:12.6f}")
+        print("=" * 60)
         # 進行預測
         predictions = xgb_model.predict('xgboost_model', input_df)
         print(f"- 預測價格: {predicted_price:.2f}")
         print(f"- 預測變化: {change_pct:+.2f}%")
         print(f"- 使用特徵數: {len(features_list)} 個")
+        print(f"- 特徵完整性: {completeness:.1f}%")
         return {
             'predicted_price': predicted_price,
             'change_pct': change_pct,
+            'confidence': max(0.6, min(0.85, completeness / 100))  # 根據特徵完整性調整信心度
         }
     except Exception as e: