Spaces:

evanskim113
/

Realrich

Sleeping

App Files Files Community

evanskim113 commited on Oct 20, 2025

Commit

a6cb36e

verified ·

1 Parent(s): 3e2a517

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +273 -38

src/streamlit_app.py CHANGED Viewed

@@ -1,40 +1,275 @@
-import altair as alt
-import numpy as np
-import pandas as pd
 import streamlit as st
-"""
-# Welcome to Streamlit!
-Edit `/streamlit_app.py` to customize this app to your heart's desire :heart:.
-If you have any questions, checkout our [documentation](https://docs.streamlit.io) and [community
-forums](https://discuss.streamlit.io).
-In the meantime, below is an example of what you can do with just a few lines of code:
-"""
-num_points = st.slider("Number of points in spiral", 1, 10000, 1100)
-num_turns = st.slider("Number of turns in spiral", 1, 300, 31)
-indices = np.linspace(0, 1, num_points)
-theta = 2 * np.pi * num_turns * indices
-radius = indices
-x = radius * np.cos(theta)
-y = radius * np.sin(theta)
-df = pd.DataFrame({
-    "x": x,
-    "y": y,
-    "idx": indices,
-    "rand": np.random.randn(num_points),
-})
-st.altair_chart(alt.Chart(df, height=700, width=700)
-    .mark_point(filled=True)
-    .encode(
-        x=alt.X("x", axis=None),
-        y=alt.Y("y", axis=None),
-        color=alt.Color("idx", legend=None, scale=alt.Scale()),
-        size=alt.Size("rand", legend=None, scale=alt.Scale(range=[1, 150])),
-    ))

+# app_catboost_full.py
 import streamlit as st
+import pandas as pd
+import numpy as np
+import joblib
+# ===============================
+# 앱 기본 설정
+# ===============================
+st.set_page_config(page_title="⚽ CatBoost 예측 + 유사 경기 분포", layout="wide")
+st.title("⚽ CatBoost 3-Class 예측 + 유사 경기 분포")
+# ===============================
+# 동등성 비교 정밀도 (소수 2째 자리)
+# ===============================
+EQ_DECIMALS = 2  # 필요시 3으로 조정
+def eq(a, b, decimals=EQ_DECIMALS):
+    return np.round(a, decimals) == np.round(b, decimals)
+# ===============================
+# Feature 목록
+#  - 기본 모델 입력: 59피처
+#  - 핸디 모델 입력: 65피처 (= 59 + 기본시장 보조 6)
+# ===============================
+expected_cols_base59 = [
+    'norm_win','norm_draw','norm_lose','mean_odds','std_odds','cv_odds',
+    'p_win','p_draw','p_lose','overround','entropy','spread','spread_draw',
+    'odds_ratio_wd','odds_ratio_wl','odds_ratio_dl','draw_prob_ratio','draw_ratio',
+    'draw_prob_gap','fav_gap','fav_draw_gap','fav_diff','draw_gap_mean',
+    'rank_win','rank_draw','rank_lose','p_win_norm','p_draw_norm','p_lose_norm',
+    'ev_win','ev_draw','ev_lose','draw_vs_avg','draw_vs_max','cv_spread','cv_draw_gap',
+    'draw_margin','fav_ratio','draw_skew','log_spread','draw_entropy_component','dominance_score',
+    'hmean_odds','hstd_odds','hcv_odds','hentropy','hspread','hspread_draw',
+    'hp_win','hp_draw','hp_lose','hp_win_norm','hp_draw_norm','hp_lose_norm','hoverround',
+    'diff_win_prob','diff_draw_prob','diff_lose_prob','diff_draw_odds'
+]
+expected_cols_handicap65 = expected_cols_base59 + [
+    'base_win_odds','base_draw_odds','base_lose_odds',
+    'base_overround_ex','base_entropy_ex','base_spread_ex'
+]
+# ===============================
+# Feature 생성
+# ===============================
+def build_feature_dict(win, draw, lose, hwin, hdraw, hlose):
+    d = {}
+    # --- 기본 시장 ---
+    denom = (win+draw+lose)
+    d['norm_win'] = win/denom
+    d['norm_draw'] = draw/denom
+    d['norm_lose'] = lose/denom
+    d['mean_odds'] = np.mean([win,draw,lose])
+    d['std_odds'] = np.std([win,draw,lose])
+    d['cv_odds'] = d['std_odds']/d['mean_odds'] if d['mean_odds']>0 else 0.0
+    d['p_win'], d['p_draw'], d['p_lose'] = 1/win, 1/draw, 1/lose
+    p_tot = d['p_win'] + d['p_draw'] + d['p_lose']
+    d['p_win_norm'], d['p_draw_norm'], d['p_lose_norm'] = d['p_win']/p_tot, d['p_draw']/p_tot, d['p_lose']/p_tot
+    d['overround'] = p_tot
+    d['entropy'] = -sum(x*np.log(x) for x in [d['p_win_norm'], d['p_draw_norm'], d['p_lose_norm']])
+    d['spread'] = max(win,draw,lose)-min(win,draw,lose)
+    d['spread_draw'] = abs(draw-(win+lose)/2)
+    d['odds_ratio_wd'], d['odds_ratio_wl'], d['odds_ratio_dl'] = win/draw, win/lose, draw/lose
+    d['draw_prob_ratio'] = d['p_draw']/max(d['p_win'],d['p_lose'])
+    d['draw_ratio'] = draw/min(win,lose)
+    d['draw_prob_gap'] = abs(d['p_draw']-(d['p_win']+d['p_lose'])/2)
+    d['fav_gap'] = abs(win-lose)
+    d['fav_draw_gap'] = abs(draw-min(win,lose))
+    d['fav_diff'] = abs(win-lose)
+    d['draw_gap_mean'] = abs(draw-d['mean_odds'])
+    d['rank_win'], d['rank_draw'], d['rank_lose'] = pd.Series([win,draw,lose]).rank().tolist()
+    d['ev_win'], d['ev_draw'], d['ev_lose'] = win*d['p_win_norm'], draw*d['p_draw_norm'], lose*d['p_lose_norm']
+    d['draw_vs_avg'] = draw/d['mean_odds']
+    d['draw_vs_max'] = draw/max(win,draw,lose)
+    d['cv_spread'] = d['spread']/d['mean_odds'] if d['mean_odds']>0 else 0.0
+    d['cv_draw_gap'] = d['fav_draw_gap']/d['mean_odds'] if d['mean_odds']>0 else 0.0
+    d['draw_margin'] = abs(draw-(win+lose)/2)
+    d['fav_ratio'] = min(win,lose)/max(win,lose)
+    d['draw_skew'] = (draw-win)-(lose-draw)
+    d['log_spread'] = np.log(max(win,draw,lose))-np.log(min(win,draw,lose))
+    d['draw_entropy_component'] = -d['p_draw_norm']*np.log(d['p_draw_norm'])
+    d['dominance_score'] = max(d['p_win_norm'],d['p_lose_norm'])-d['p_draw_norm']
+    # --- 핸디 시장 ---
+    d['hmean_odds'] = np.mean([hwin,hdraw,hlose])
+    d['hstd_odds']  = np.std([hwin,hdraw,hlose])
+    d['hcv_odds']   = d['hstd_odds']/d['hmean_odds'] if d['hmean_odds']>0 else 0.0
+    p_h = 1/np.array([hwin,hdraw,hlose])
+    p_hn = p_h/p_h.sum()
+    d['hp_win'], d['hp_draw'], d['hp_lose'] = p_h
+    d['hp_win_norm'], d['hp_draw_norm'], d['hp_lose_norm'] = p_hn
+    d['hoverround'] = p_h.sum()
+    d['hentropy'] = -np.sum(p_hn*np.log(p_hn))
+    d['hspread']  = max(hwin,hdraw,hlose)-min(hwin,hdraw,hlose)
+    d['hspread_draw'] = abs(hdraw-(hwin+hlose)/2)
+    # --- 교차 ---
+    d['diff_win_prob']  = d['p_win_norm']  - d['hp_win_norm']
+    d['diff_draw_prob'] = d['p_draw_norm'] - d['hp_draw_norm']
+    d['diff_lose_prob'] = d['p_lose_norm'] - d['hp_lose_norm']
+    d['diff_draw_odds'] = hdraw - draw
+    # --- 핸디 plus_base용 보조 ---
+    d['base_win_odds']  = win
+    d['base_draw_odds'] = draw
+    d['base_lose_odds'] = lose
+    d['base_overround_ex'] = p_tot
+    d['base_entropy_ex']   = d['entropy']
+    d['base_spread_ex']    = d['spread']
+    return d
+def build_feature_frames(win, draw, lose, hwin, hdraw, hlose):
+    d = build_feature_dict(win, draw, lose, hwin, hdraw, hlose)
+    df_all = pd.DataFrame([d])
+    df_base = df_all[expected_cols_base59]
+    df_hand = df_all[expected_cols_handicap65]
+    return df_base, df_hand
+# ===============================
+# 모델 로드 (CatBoost 저장물)
+# ===============================
+@st.cache_resource
+def load_models():
+    base = joblib.load("cat_model_wdl_softmax.pkl")               # 기본 모델 (59피처)
+    hand = joblib.load("cat_model_handicap_plus_base.pkl")        # 핸디 모델 (65피처)
+    enc  = joblib.load("cat_label_encoder_handicap.pkl")          # ["핸디 승","핸디 무","핸디 패"] 순서 고정 저장 권장
+    return base, hand, enc
+model_base, model_hand, encoder_hand = load_models()
+# ===============================
+# 예측 함수
+# ===============================
+def predict_all(win, draw, lose, hwin, hdraw, hlose):
+    df_input_base, df_input_hand = build_feature_frames(win, draw, lose, hwin, hdraw, hlose)
+    # CatBoost는 DataFrame 입력을 바로 받음
+    probs_base = model_base.predict_proba(df_input_base)[0]
+    probs_hand = model_hand.predict_proba(df_input_hand)[0]
+    # 라벨 순서 명확히 지정
+    base_labels = ["승","무","패"]
+    hand_labels = ["핸디 승","핸디 무","핸디 패"]  # 화면 고정 순서
+    return (
+        dict(zip(base_labels, probs_base)),
+        dict(zip(hand_labels, probs_hand))
+    )
+# ===============================
+# 데이터 로드 (유사 경기 분포용)
+# ===============================
+@st.cache_data
+def load_db():
+    df = pd.read_excel("proto_core_65_fastsearch.xlsx", engine="openpyxl")
+    # 숫자형 변환
+    for c in ["승","무","패","핸디 승","핸디 무","핸디 패"]:
+        df[c] = pd.to_numeric(df[c], errors="coerce")
+    return df
+DB = load_db()
+# ===============================
+# 사이드바 입력
+# ===============================
+st.sidebar.header("⚙️ 입력 배당")
+default_odds = "2.05/3.35/3.45/3.65/3.75/1.90"
+odds_str = st.sidebar.text_input("배당 입력 (승/무/패/핸승/핸무/핸패)", value=default_odds,
+                                 help="예: 2.05/3.35/3.45/3.65/3.75/1.90")
+try:
+    base_win, base_draw, base_lose, hand_win, hand_draw, hand_lose = map(float, odds_str.split("/"))
+except Exception:
+    st.error("형식 오류! 예: 2.05/3.35/3.45/3.65/3.75/1.90")
+    st.stop()
+# ===============================
+# 1) 예측 결과
+# ===============================
+base_probs, hand_probs = predict_all(base_win, base_draw, base_lose, hand_win, hand_draw, hand_lose)
+st.subheader("✅ CatBoost 예측 결과")
+c1, c2 = st.columns(2)
+with c1:
+    st.write("### ⚽ 기본 승/무/패 확률")
+    cc = st.columns(3)
+    for i, k in enumerate(["승","무","패"]):
+        cc[i].metric(k, f"{base_probs[k]*100:.2f}%")
+with c2:
+    st.write("### 🎯 핸디캡 승/무/패 확률")
+    # 항상 '핸디 승 → 핸디 무 → 핸디 패' 순서로 노출
+    cc2 = st.columns(3)
+    for i, k in enumerate(["핸디 승","핸디 무","핸디 패"]):
+        cc2[i].metric(k, f"{hand_probs[k]*100:.2f}%")
+st.markdown("---")
+# ===============================
+# 공통: 입력 정배 라벨
+# ===============================
+base_min_label = ["승","무","패"][np.argmin([base_win, base_draw, base_lose])]
+hand_min_label = ["핸디 승","핸디 무","핸디 패"][np.argmin([hand_win, hand_draw, hand_lose])]
+# ===============================
+# 2) 기본 승무패 결과 분포
+#  - 정배 방향 일치 + (승/무/패) 완전 동일
+# ===============================
+st.subheader("① 기본 승무패 결과 분포 (정배 방향 일치 + 배당 완전 동일)")
+mask_base = (
+    (DB[["승","무","패"]].idxmin(axis=1) == base_min_label) &
+    eq(DB["승"], base_win) & eq(DB["무"], base_draw) & eq(DB["패"], base_lose)
+)
+subset_base = DB.loc[mask_base].copy()
+if subset_base.empty or "결과" not in subset_base.columns:
+    st.info("조건에 맞는 표본이 없습니다.")
+else:
+    st.write(f"표본 크기: {subset_base.shape[0]} 경기")
+    base_counts = subset_base["결과"].value_counts()
+    # 결과는 자연 발생 순서(빈도순)로 두되, 필요시 정렬 고정 가능
+    st.dataframe(base_counts.rename_axis("결과").to_frame("경기 수"))
+# ===============================
+# 3) 핸디캡 승무패 결과 분포
+#  - 정배 방향 일치 + (핸승/핸무/핸패) 완전 동일
+#  - 표시는 '핸디 승 → 핸디 무 → 핸디 패' 순서로 고정
+# ===============================
+st.subheader("② 핸디캡 승무패 결과 분포 (정배 방향 일치 + 배당 완전 동일)")
+mask_hand = (
+    (DB[["핸디 승","핸디 무","핸디 패"]].idxmin(axis=1) == hand_min_label) &
+    eq(DB["핸디 승"], hand_win) & eq(DB["핸디 무"], hand_draw) & eq(DB["핸디 패"], hand_lose)
+)
+subset_hand = DB.loc[mask_hand].copy()
+if subset_hand.empty or "핸디결과" not in subset_hand.columns:
+    st.info("조건에 맞는 표본이 없습니다.")
+else:
+    st.write(f"표본 크기: {subset_hand.shape[0]} 경기")
+    order = ["핸디 승", "핸디 무", "핸디 패"]  # 고정 순서
+    h_counts = subset_hand["핸디결과"].value_counts()
+    h_counts = h_counts.reindex(order).dropna().astype(int)
+    st.dataframe(h_counts.rename_axis("핸디결과").to_frame("경기 수"))
+# ===============================
+# 4) 무 = 입력 무 & 핸무 = 입력 핸무 + 정배(기본/핸디) 둘 다 일치
+# ===============================
+st.subheader("③ 무 = 입력 무 & 핸무 = 입력 핸무 (정배 방향 모두 일치)")
+mask_combo = (
+    eq(DB["무"], base_draw) &
+    eq(DB["핸디 무"], hand_draw) &
+    (DB[["승","무","패"]].idxmin(axis=1) == base_min_label) &
+    (DB[["핸디 승","핸디 무","핸디 패"]].idxmin(axis=1) == hand_min_label)
+)
+subset_combo = DB.loc[mask_combo].copy()
+if subset_combo.empty:
+    st.info("조건에 맞는 표본이 없습니다.")
+else:
+    st.write(f"표본 크기: {subset_combo.shape[0]} 경기")
+    c3a, c3b = st.columns(2)
+    if "결과" in subset_combo.columns:
+        with c3a:
+            st.write("— 기본 결과 분포")
+            st.dataframe(subset_combo["결과"].value_counts().rename_axis("결과").to_frame("경기 수"))
+    if "핸디결과" in subset_combo.columns:
+        with c3b:
+            st.write("— 핸디 결과 분포")
+            order = ["핸디 승","핸디 무","핸디 패"]
+            hc = subset_combo["핸디결과"].value_counts().reindex(order).dropna().astype(int)
+            st.dataframe(hc.rename_axis("핸디결과").to_frame("경기 수"))
+# ===============================
+# 최초 1회 자동 실행 안내
+# ===============================
+st.caption("ⓒ CatBoost 3-Class Softmax Models | 기본: 59피처, 핸디: 65피처(기본시장 보조 포함)")