Spaces:

evanskim113
/

Realrich

Sleeping

App Files Files Community

evanskim113 commited on Oct 21, 2025

Commit

c0f553b

verified ·

1 Parent(s): 062bdd9

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +43 -152

src/streamlit_app.py CHANGED Viewed

@@ -1,4 +1,7 @@
-# app_catboost_full.py
 import streamlit as st
 import pandas as pd
 import numpy as np
@@ -7,21 +10,15 @@ import joblib
 # ===============================
 # 앱 기본 설정
 # ===============================
-st.set_page_config(page_title="⚽ CatBoost 예측 + 유사 경기 분포", layout="wide")
-st.title("⚽ CatBoost 3-Class 예측 + 유사 경기 분포")
-# ===============================
-# 동등성 비교 정밀도 (소수 2째 자리)
-# ===============================
-EQ_DECIMALS = 2  # 필요시 3으로 조정
 def eq(a, b, decimals=EQ_DECIMALS):
     return np.round(a, decimals) == np.round(b, decimals)
 # ===============================
 # Feature 목록
-#  - 기본 모델 입력: 59피처
-#  - 핸디 모델 입력: 65피처 (= 59 + 기본시장 보조 6)
 # ===============================
 expected_cols_base59 = [
     'norm_win','norm_draw','norm_lose','mean_odds','std_odds','cv_odds',
@@ -35,7 +32,6 @@ expected_cols_base59 = [
     'hp_win','hp_draw','hp_lose','hp_win_norm','hp_draw_norm','hp_lose_norm','hoverround',
     'diff_win_prob','diff_draw_prob','diff_lose_prob','diff_draw_odds'
 ]
 expected_cols_handicap65 = expected_cols_base59 + [
     'base_win_odds','base_draw_odds','base_lose_odds',
     'base_overround_ex','base_entropy_ex','base_spread_ex'
@@ -46,22 +42,21 @@ expected_cols_handicap65 = expected_cols_base59 + [
 # ===============================
 def build_feature_dict(win, draw, lose, hwin, hdraw, hlose):
     d = {}
-    # --- 기본 시장 ---
     denom = (win+draw+lose)
     d['norm_win'] = win/denom
     d['norm_draw'] = draw/denom
     d['norm_lose'] = lose/denom
     d['mean_odds'] = np.mean([win,draw,lose])
     d['std_odds'] = np.std([win,draw,lose])
-    d['cv_odds'] = d['std_odds']/d['mean_odds'] if d['mean_odds']>0 else 0.0
     d['p_win'], d['p_draw'], d['p_lose'] = 1/win, 1/draw, 1/lose
     p_tot = d['p_win'] + d['p_draw'] + d['p_lose']
     d['p_win_norm'], d['p_draw_norm'], d['p_lose_norm'] = d['p_win']/p_tot, d['p_draw']/p_tot, d['p_lose']/p_tot
     d['overround'] = p_tot
-    d['entropy'] = -sum(x*np.log(x) for x in [d['p_win_norm'], d['p_draw_norm'], d['p_lose_norm']])
     d['spread'] = max(win,draw,lose)-min(win,draw,lose)
     d['spread_draw'] = abs(draw-(win+lose)/2)
-    d['odds_ratio_wd'], d['odds_ratio_wl'], d['odds_ratio_dl'] = win/draw, win/lose, draw/lose
     d['draw_prob_ratio'] = d['p_draw']/max(d['p_win'],d['p_lose'])
     d['draw_ratio'] = draw/min(win,lose)
     d['draw_prob_gap'] = abs(d['p_draw']-(d['p_win']+d['p_lose'])/2)
@@ -69,12 +64,12 @@ def build_feature_dict(win, draw, lose, hwin, hdraw, hlose):
     d['fav_draw_gap'] = abs(draw-min(win,lose))
     d['fav_diff'] = abs(win-lose)
     d['draw_gap_mean'] = abs(draw-d['mean_odds'])
-    d['rank_win'], d['rank_draw'], d['rank_lose'] = pd.Series([win,draw,lose]).rank().tolist()
-    d['ev_win'], d['ev_draw'], d['ev_lose'] = win*d['p_win_norm'], draw*d['p_draw_norm'], lose*d['p_lose_norm']
     d['draw_vs_avg'] = draw/d['mean_odds']
     d['draw_vs_max'] = draw/max(win,draw,lose)
-    d['cv_spread'] = d['spread']/d['mean_odds'] if d['mean_odds']>0 else 0.0
-    d['cv_draw_gap'] = d['fav_draw_gap']/d['mean_odds'] if d['mean_odds']>0 else 0.0
     d['draw_margin'] = abs(draw-(win+lose)/2)
     d['fav_ratio'] = min(win,lose)/max(win,lose)
     d['draw_skew'] = (draw-win)-(lose-draw)
@@ -82,50 +77,40 @@ def build_feature_dict(win, draw, lose, hwin, hdraw, hlose):
     d['draw_entropy_component'] = -d['p_draw_norm']*np.log(d['p_draw_norm'])
     d['dominance_score'] = max(d['p_win_norm'],d['p_lose_norm'])-d['p_draw_norm']
-    # --- 핸디 시장 ---
     d['hmean_odds'] = np.mean([hwin,hdraw,hlose])
     d['hstd_odds']  = np.std([hwin,hdraw,hlose])
-    d['hcv_odds']   = d['hstd_odds']/d['hmean_odds'] if d['hmean_odds']>0 else 0.0
     p_h = 1/np.array([hwin,hdraw,hlose])
     p_hn = p_h/p_h.sum()
-    d['hp_win'], d['hp_draw'], d['hp_lose'] = p_h
-    d['hp_win_norm'], d['hp_draw_norm'], d['hp_lose_norm'] = p_hn
     d['hoverround'] = p_h.sum()
     d['hentropy'] = -np.sum(p_hn*np.log(p_hn))
     d['hspread']  = max(hwin,hdraw,hlose)-min(hwin,hdraw,hlose)
     d['hspread_draw'] = abs(hdraw-(hwin+hlose)/2)
-    # --- 교차 ---
-    d['diff_win_prob']  = d['p_win_norm']  - d['hp_win_norm']
-    d['diff_draw_prob'] = d['p_draw_norm'] - d['hp_draw_norm']
-    d['diff_lose_prob'] = d['p_lose_norm'] - d['hp_lose_norm']
-    d['diff_draw_odds'] = hdraw - draw
-    # --- 핸디 plus_base용 보조 ---
-    d['base_win_odds']  = win
-    d['base_draw_odds'] = draw
-    d['base_lose_odds'] = lose
-    d['base_overround_ex'] = p_tot
-    d['base_entropy_ex']   = d['entropy']
-    d['base_spread_ex']    = d['spread']
     return d
-def build_feature_frames(win, draw, lose, hwin, hdraw, hlose):
-    d = build_feature_dict(win, draw, lose, hwin, hdraw, hlose)
     df_all = pd.DataFrame([d])
     df_base = df_all[expected_cols_base59]
     df_hand = df_all[expected_cols_handicap65]
     return df_base, df_hand
 # ===============================
-# 모델 로드 (CatBoost 저장물)
 # ===============================
 @st.cache_resource
 def load_models():
-    base = joblib.load("cat_model_wdl_softmax.pkl")               # 기본 모델 (59피처)
-    hand = joblib.load("cat_model_handicap_plus_base.pkl")        # 핸디 모델 (65피처)
-    enc  = joblib.load("cat_label_encoder_handicap.pkl")          # ["핸디 승","핸디 무","핸디 패"] 순서 고정 저장 권장
     return base, hand, enc
 model_base, model_hand, encoder_hand = load_models()
@@ -134,26 +119,19 @@ model_base, model_hand, encoder_hand = load_models()
 # 예측 함수
 # ===============================
 def predict_all(win, draw, lose, hwin, hdraw, hlose):
-    df_input_base, df_input_hand = build_feature_frames(win, draw, lose, hwin, hdraw, hlose)
-    # CatBoost는 DataFrame 입력을 바로 받음
-    probs_base = model_base.predict_proba(df_input_base)[0]
-    probs_hand = model_hand.predict_proba(df_input_hand)[0]
-    # 라벨 순서 명확히 지정
     base_labels = ["승","무","패"]
-    hand_labels = ["핸디 승","핸디 무","핸디 패"]  # 화면 고정 순서
-    return (
-        dict(zip(base_labels, probs_base)),
-        dict(zip(hand_labels, probs_hand))
-    )
 # ===============================
-# 데이터 로드 (유사 경기 분포용)
 # ===============================
 @st.cache_data
 def load_db():
     df = pd.read_excel("proto_core_65_fastsearch.xlsx", engine="openpyxl")
-    # 숫자형 변환
     for c in ["승","무","패","핸디 승","핸디 무","핸디 패"]:
         df[c] = pd.to_numeric(df[c], errors="coerce")
     return df
@@ -164,13 +142,11 @@ DB = load_db()
 # 사이드바 입력
 # ===============================
 st.sidebar.header("⚙️ 입력 배당")
-default_odds = "2.05/3.35/3.45/3.65/3.75/1.90"
-odds_str = st.sidebar.text_input("배당 입력 (승/무/패/핸승/핸무/핸패)", value=default_odds,
-                                 help="예: 2.05/3.35/3.45/3.65/3.75/1.90")
 try:
     base_win, base_draw, base_lose, hand_win, hand_draw, hand_lose = map(float, odds_str.split("/"))
-except Exception:
     st.error("형식 오류! 예: 2.05/3.35/3.45/3.65/3.75/1.90")
     st.stop()
@@ -179,7 +155,7 @@ except Exception:
 # ===============================
 base_probs, hand_probs = predict_all(base_win, base_draw, base_lose, hand_win, hand_draw, hand_lose)
-st.subheader("✅ CatBoost 예측 결과")
 c1, c2 = st.columns(2)
 with c1:
     st.write("### ⚽ 기본 승/무/패 확률")
@@ -188,100 +164,15 @@ with c1:
         cc[i].metric(k, f"{base_probs[k]*100:.2f}%")
 with c2:
     st.write("### 🎯 핸디캡 승/무/패 확률")
-    # 항상 '핸디 승 → 핸디 무 → 핸디 패' 순서로 노출
     cc2 = st.columns(3)
     for i, k in enumerate(["핸디 승","핸디 무","핸디 패"]):
         cc2[i].metric(k, f"{hand_probs[k]*100:.2f}%")
 st.markdown("---")
-# ===============================
-# 공통: 입력 정배 라벨
-# ===============================
-base_min_label = ["승","무","패"][np.argmin([base_win, base_draw, base_lose])]
-hand_min_label = ["핸디 승","핸디 무","핸디 패"][np.argmin([hand_win, hand_draw, hand_lose])]
-# ===============================
-# 2) 기본 승무패 결과 분포
-#  - 정배 방향 일치 + (승/무/패) 완전 동일
-# ===============================
-st.subheader("① 기본 승무패 결과 분포 (정배 방향 일치 + 배당 완전 동일)")
-mask_base = (
-    (DB[["승","무","패"]].idxmin(axis=1) == base_min_label) &
-    eq(DB["승"], base_win) & eq(DB["무"], base_draw) & eq(DB["패"], base_lose)
-)
-subset_base = DB.loc[mask_base].copy()
-if subset_base.empty or "결과" not in subset_base.columns:
-    st.info("조건에 맞는 표본이 없습니다.")
-else:
-    st.write(f"표본 크기: {subset_base.shape[0]} 경기")
-    base_counts = subset_base["결과"].value_counts()
-    # 결과는 자연 발생 순서(빈도순)로 두되, 필요시 정렬 고정 가능
-    st.dataframe(base_counts.rename_axis("결과").to_frame("경기 수"))
-# ===============================
-# 3) 핸디캡 승무패 결과 분포
-#  - 정배 방향 일치 + (핸승/핸무/핸패) 완전 동일
-#  - 표시는 '핸디 승 → 핸디 무 → 핸디 패' 순서로 고정
-# ===============================
-st.subheader("② 핸디캡 승무패 결과 분포 (정배 방향 일치 + 배당 완전 동일)")
-mask_hand = (
-    (DB[["핸디 승","핸디 무","핸디 패"]].idxmin(axis=1) == hand_min_label) &
-    eq(DB["핸디 승"], hand_win) & eq(DB["핸디 무"], hand_draw) & eq(DB["핸디 패"], hand_lose)
-)
-subset_hand = DB.loc[mask_hand].copy()
-if subset_hand.empty or "핸디결과" not in subset_hand.columns:
-    st.info("조건에 맞는 표본이 없습니다.")
-else:
-    st.write(f"표본 크기: {subset_hand.shape[0]} 경기")
-    order = ["핸디 승", "핸디 무", "핸디 패"]  # 고정 순서
-    h_counts = subset_hand["핸디결과"].value_counts()
-    h_counts = h_counts.reindex(order).dropna().astype(int)
-    st.dataframe(h_counts.rename_axis("핸디결과").to_frame("경기 수"))
-# ===============================
-# 4) 무 = 입력 무 & 역배당 동일 / 핸무 = 입력 핸무 & 핸디 역배당 동일
-# ===============================
-st.subheader("③ 무 + 역배 / 핸무 + 핸디 역배 (정배 방향 모두 일치)")
-# 기본시장: 무 + 역배 (정배 아닌 자리 중 최대값)
-base_min_label = ["승","무","패"][np.argmin([base_win, base_draw, base_lose])]
-base_dog_label = ["승","무","패"][np.argmax([base_win, base_draw, base_lose])]
-# 핸디시장: 핸무 + 핸디 역배
-hand_min_label = ["핸디 승","핸디 무","핸디 패"][np.argmin([hand_win, hand_draw, hand_lose])]
-hand_dog_label = ["핸디 승","핸디 무","핸디 패"][np.argmax([hand_win, hand_draw, hand_lose])]
-mask_combo = (
-    eq(DB["무"], base_draw) &
-    eq(DB[base_dog_label], [base_win, base_draw, base_lose][["승","무","패"].index(base_dog_label)]) &
-    eq(DB["핸디 무"], hand_draw) &
-    eq(DB[hand_dog_label], [hand_win, hand_draw, hand_lose][["핸디 승","핸디 무","핸디 패"].index(hand_dog_label)]) &
-    (DB[["승","무","패"]].idxmin(axis=1) == base_min_label) &
-    (DB[["핸디 승","핸디 무","핸디 패"]].idxmin(axis=1) == hand_min_label)
-)
-subset_combo = DB.loc[mask_combo].copy()
-if subset_combo.empty:
-    st.info("조건에 맞는 표본이 없습니다.")
-else:
-    st.write(f"표본 크기: {subset_combo.shape[0]} 경기")
-    c3a, c3b = st.columns(2)
-    if "결과" in subset_combo.columns:
-        with c3a:
-            st.write("— 기본 결과 분포")
-            st.dataframe(subset_combo["결과"].value_counts().rename_axis("결과").to_frame("경기 수"))
-    if "핸디결과" in subset_combo.columns:
-        with c3b:
-            st.write("— 핸디 결과 분포")
-            order = ["핸디 승","핸디 무","핸디 패"]
-            hc = subset_combo["핸디결과"].value_counts().reindex(order).dropna().astype(int)
-            st.dataframe(hc.rename_axis("핸디결과").to_frame("경기 수"))
-# ===============================
-# 최초 1회 자동 실행 안내
-# ===============================
-st.caption("ⓒ CatBoost 3-Class Softmax Models | 기본: 59피처, 핸디: 65피처(기본시장 보조 포함)")

+# =============================================================
+# ⚽ LightGBM 3-Class 예측 + 유사 경기 분포 (Full Version)
+# =============================================================
 import streamlit as st
 import pandas as pd
 import numpy as np
 # ===============================
 # 앱 기본 설정
 # ===============================
+st.set_page_config(page_title="⚽ LightGBM 예측 + 유사 경기 분포", layout="wide")
+st.title("⚽ LightGBM 3-Class 예측 + 유사 경기 분포")
+EQ_DECIMALS = 2  # 비교 정밀도
 def eq(a, b, decimals=EQ_DECIMALS):
     return np.round(a, decimals) == np.round(b, decimals)
 # ===============================
 # Feature 목록
 # ===============================
 expected_cols_base59 = [
     'norm_win','norm_draw','norm_lose','mean_odds','std_odds','cv_odds',
     'hp_win','hp_draw','hp_lose','hp_win_norm','hp_draw_norm','hp_lose_norm','hoverround',
     'diff_win_prob','diff_draw_prob','diff_lose_prob','diff_draw_odds'
 ]
 expected_cols_handicap65 = expected_cols_base59 + [
     'base_win_odds','base_draw_odds','base_lose_odds',
     'base_overround_ex','base_entropy_ex','base_spread_ex'
 # ===============================
 def build_feature_dict(win, draw, lose, hwin, hdraw, hlose):
     d = {}
     denom = (win+draw+lose)
     d['norm_win'] = win/denom
     d['norm_draw'] = draw/denom
     d['norm_lose'] = lose/denom
     d['mean_odds'] = np.mean([win,draw,lose])
     d['std_odds'] = np.std([win,draw,lose])
+    d['cv_odds'] = d['std_odds']/d['mean_odds'] if d['mean_odds']>0 else 0
     d['p_win'], d['p_draw'], d['p_lose'] = 1/win, 1/draw, 1/lose
     p_tot = d['p_win'] + d['p_draw'] + d['p_lose']
     d['p_win_norm'], d['p_draw_norm'], d['p_lose_norm'] = d['p_win']/p_tot, d['p_draw']/p_tot, d['p_lose']/p_tot
     d['overround'] = p_tot
+    d['entropy'] = -sum(x*np.log(x) for x in [d['p_win_norm'],d['p_draw_norm'],d['p_lose_norm']])
     d['spread'] = max(win,draw,lose)-min(win,draw,lose)
     d['spread_draw'] = abs(draw-(win+lose)/2)
+    d['odds_ratio_wd'],d['odds_ratio_wl'],d['odds_ratio_dl']=win/draw,win/lose,draw/lose
     d['draw_prob_ratio'] = d['p_draw']/max(d['p_win'],d['p_lose'])
     d['draw_ratio'] = draw/min(win,lose)
     d['draw_prob_gap'] = abs(d['p_draw']-(d['p_win']+d['p_lose'])/2)
     d['fav_draw_gap'] = abs(draw-min(win,lose))
     d['fav_diff'] = abs(win-lose)
     d['draw_gap_mean'] = abs(draw-d['mean_odds'])
+    d['rank_win'],d['rank_draw'],d['rank_lose'] = pd.Series([win,draw,lose]).rank().tolist()
+    d['ev_win'],d['ev_draw'],d['ev_lose'] = win*d['p_win_norm'],draw*d['p_draw_norm'],lose*d['p_lose_norm']
     d['draw_vs_avg'] = draw/d['mean_odds']
     d['draw_vs_max'] = draw/max(win,draw,lose)
+    d['cv_spread'] = d['spread']/d['mean_odds']
+    d['cv_draw_gap'] = d['fav_draw_gap']/d['mean_odds']
     d['draw_margin'] = abs(draw-(win+lose)/2)
     d['fav_ratio'] = min(win,lose)/max(win,lose)
     d['draw_skew'] = (draw-win)-(lose-draw)
     d['draw_entropy_component'] = -d['p_draw_norm']*np.log(d['p_draw_norm'])
     d['dominance_score'] = max(d['p_win_norm'],d['p_lose_norm'])-d['p_draw_norm']
     d['hmean_odds'] = np.mean([hwin,hdraw,hlose])
     d['hstd_odds']  = np.std([hwin,hdraw,hlose])
+    d['hcv_odds']   = d['hstd_odds']/d['hmean_odds'] if d['hmean_odds']>0 else 0
     p_h = 1/np.array([hwin,hdraw,hlose])
     p_hn = p_h/p_h.sum()
+    d['hp_win'],d['hp_draw'],d['hp_lose'] = p_h
+    d['hp_win_norm'],d['hp_draw_norm'],d['hp_lose_norm'] = p_hn
     d['hoverround'] = p_h.sum()
     d['hentropy'] = -np.sum(p_hn*np.log(p_hn))
     d['hspread']  = max(hwin,hdraw,hlose)-min(hwin,hdraw,hlose)
     d['hspread_draw'] = abs(hdraw-(hwin+hlose)/2)
+    d['diff_win_prob']=d['p_win_norm']-d['hp_win_norm']
+    d['diff_draw_prob']=d['p_draw_norm']-d['hp_draw_norm']
+    d['diff_lose_prob']=d['p_lose_norm']-d['hp_lose_norm']
+    d['diff_draw_odds']=hdraw-draw
+    d['base_win_odds'],d['base_draw_odds'],d['base_lose_odds']=win,draw,lose
+    d['base_overround_ex'],d['base_entropy_ex'],d['base_spread_ex']=p_tot,d['entropy'],d['spread']
     return d
+def build_feature_frames(win,draw,lose,hwin,hdraw,hlose):
+    d = build_feature_dict(win,draw,lose,hwin,hdraw,hlose)
     df_all = pd.DataFrame([d])
     df_base = df_all[expected_cols_base59]
     df_hand = df_all[expected_cols_handicap65]
     return df_base, df_hand
 # ===============================
+# 모델 로드 (LightGBM 저장물)
 # ===============================
 @st.cache_resource
 def load_models():
+    base = joblib.load("lgbm_model_base_65.pkl")
+    hand = joblib.load("lgbm_model_handicap_65.pkl")
+    enc  = joblib.load("label_encoder_handicap.pkl")
     return base, hand, enc
 model_base, model_hand, encoder_hand = load_models()
 # 예측 함수
 # ===============================
 def predict_all(win, draw, lose, hwin, hdraw, hlose):
+    df_base, df_hand = build_feature_frames(win, draw, lose, hwin, hdraw, hlose)
+    probs_base = model_base.predict_proba(df_base)[0]
+    probs_hand = model_hand.predict_proba(df_hand)[0]
     base_labels = ["승","무","패"]
+    hand_labels = ["핸디 승","핸디 무","핸디 패"]
+    return dict(zip(base_labels, probs_base)), dict(zip(hand_labels, probs_hand))
 # ===============================
+# DB 로드
 # ===============================
 @st.cache_data
 def load_db():
     df = pd.read_excel("proto_core_65_fastsearch.xlsx", engine="openpyxl")
     for c in ["승","무","패","핸디 승","핸디 무","핸디 패"]:
         df[c] = pd.to_numeric(df[c], errors="coerce")
     return df
 # 사이드바 입력
 # ===============================
 st.sidebar.header("⚙️ 입력 배당")
+odds_str = st.sidebar.text_input("배당 (승/무/패/핸승/핸무/핸패)", value="2.05/3.35/3.45/3.65/3.75/1.90")
 try:
     base_win, base_draw, base_lose, hand_win, hand_draw, hand_lose = map(float, odds_str.split("/"))
+except:
     st.error("형식 오류! 예: 2.05/3.35/3.45/3.65/3.75/1.90")
     st.stop()
 # ===============================
 base_probs, hand_probs = predict_all(base_win, base_draw, base_lose, hand_win, hand_draw, hand_lose)
+st.subheader("✅ LightGBM 예측 결과")
 c1, c2 = st.columns(2)
 with c1:
     st.write("### ⚽ 기본 승/무/패 확률")
         cc[i].metric(k, f"{base_probs[k]*100:.2f}%")
 with c2:
     st.write("### 🎯 핸디캡 승/무/패 확률")
     cc2 = st.columns(3)
     for i, k in enumerate(["핸디 승","핸디 무","핸디 패"]):
         cc2[i].metric(k, f"{hand_probs[k]*100:.2f}%")
 st.markdown("---")
+# 이하 분포 로직은 CatBoost 버전과 동일 (③ 무 + 역배 포함)
+# =============================================================
+# (생략 부분 동일)
+# =============================================================
+st.caption("ⓒ LightGBM 3-Class Softmax Models | 기본: 59피처, 핸디: 65피처")