Add KDE ensemble models (overall, major, minor) + training script

Browse files

Files changed (5) hide show

models/major_dict.pkl +3 -0
models/minor_dict.pkl +3 -0
models/overall_dict.pkl +3 -0
onbid-map-prob-train.py +181 -0
requirements.txt +5 -0

models/major_dict.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6e7bb0661f907adf9e0455875811ec5629e51b6fd7361796260d612eb5745a8
+size 2503542

models/minor_dict.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f78559db04aeaeb876a4e909b903b48819d5ce64eeb1bfc7b31c69f597cf979
+size 6767078

models/overall_dict.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:657b13bff9e0ffd51d21dee18f885354ea5537fc7d6cb4bd30b33a9cb9da5736
+size 1819026

onbid-map-prob-train.py ADDED Viewed

	@@ -0,0 +1,181 @@

+# onbid-map-prob-train.py
+import os
+import shutil
+import stat
+import numpy as np
+import pandas as pd
+from sklearn.neighbors import KernelDensity
+import joblib
+from huggingface_hub import HfApi, Repository
+# 환경 변수에서 Hugging Face 토큰 읽기
+HF_REPO_NAME = "asteroidddd/onbid-map-prob"
+HF_TOKEN = os.getenv("HF_TOKEN")
+if HF_TOKEN is None:
+    raise ValueError("환경 변수 HF_TOKEN이 설정되어 있지 않습니다.")
+# KDE 학습용 함수 정의
+def train_kde_models(df,
+                     car_df,
+                     value_col='낙찰가율_최초최저가기준',
+                     major_col='대분류',
+                     minor_col='중분류',
+                     bandwidth=2.0,
+                     num_grid=1000,
+                     margin=10):
+    # 전체 데이터 KDE 학습
+    values_all = df[value_col].dropna().values.reshape(-1, 1)
+    x_all_min = values_all.min() - margin
+    x_all_max = values_all.max() + margin
+    x_all = np.linspace(x_all_min, x_all_max, num_grid).reshape(-1, 1)
+    kde_all = KernelDensity(kernel='gaussian', bandwidth=bandwidth)
+    kde_all.fit(values_all)
+    log_pdf_all = kde_all.score_samples(x_all)
+    pdf_all = np.exp(log_pdf_all)
+    dx_all = (x_all[1, 0] - x_all[0, 0])
+    cdf_all = np.cumsum(pdf_all) * dx_all
+    overall_dict = {
+        'kde': kde_all,
+        'x_range': x_all.flatten(),
+        'cdf': cdf_all,
+        'x_min': x_all_min,
+        'x_max': x_all_max,
+    }
+    # 대분류별 KDE 학습: 자동차 car_df 사용
+    major_dict = {}
+    for major_cat, group in df.groupby(major_col):
+        # 만약 대분류가 '자동차'라면 car_df 사용
+        if str(major_cat) == '자동차':
+            vals = car_df[value_col].dropna().values.reshape(-1, 1)
+        else:
+            vals = group[value_col].dropna().values.reshape(-1, 1)
+        if len(vals) < 2:
+            major_dict[major_cat] = overall_dict
+            continue
+        x_min = vals.min() - margin
+        x_max = vals.max() + margin
+        x_range = np.linspace(x_min, x_max, num_grid).reshape(-1, 1)
+        kde = KernelDensity(kernel='gaussian', bandwidth=bandwidth)
+        kde.fit(vals)
+        log_pdf = kde.score_samples(x_range)
+        pdf = np.exp(log_pdf)
+        dx = x_range[1, 0] - x_range[0, 0]
+        cdf = np.cumsum(pdf) * dx
+        major_dict[major_cat] = {
+            'kde': kde,
+            'x_range': x_range.flatten(),
+            'cdf': cdf,
+            'x_min': x_min,
+            'x_max': x_max,
+        }
+    # 중분류별 KDE 학습: 자동차 car_df 사용
+    minor_dict = {}
+    for minor_cat, group in df.groupby(minor_col):
+        vals = group[value_col].dropna().values.reshape(-1, 1)
+        if len(vals) < 2:
+            minor_dict[minor_cat] = overall_dict
+            continue
+        x_min = vals.min() - margin
+        x_max = vals.max() + margin
+        x_range = np.linspace(x_min, x_max, num_grid).reshape(-1, 1)
+        kde = KernelDensity(kernel='gaussian', bandwidth=bandwidth)
+        kde.fit(vals)
+        log_pdf = kde.score_samples(x_range)
+        pdf = np.exp(log_pdf)
+        dx = x_range[1, 0] - x_range[0, 0]
+        cdf = np.cumsum(pdf) * dx
+        minor_dict[minor_cat] = {
+            'kde': kde,
+            'x_range': x_range.flatten(),
+            'cdf': cdf,
+            'x_min': x_min,
+            'x_max': x_max,
+        }
+    return overall_dict, major_dict, minor_dict
+def rm_readonly(func, path, exc_info):
+    os.chmod(path, stat.S_IWRITE)
+    func(path)
+# 메인
+def main():
+    # 데이터 불러오기
+    df = pd.read_pickle(r'C:\Users\hwang\Desktop\OSSP\data.pkl')
+    car_df = pd.read_pickle(r'C:\Users\hwang\Desktop\OSSP\car_data.pkl')
+    # KDE 모델 학습
+    overall_model, major_models, minor_models = train_kde_models(
+        df=df,
+        car_df=car_df,
+        value_col='낙찰가율_최초최저가기준',
+        major_col='대분류',
+        minor_col='중분류',
+        bandwidth=2.0,
+        num_grid=1000,
+        margin=10
+    )
+    # KDE 모델 저장
+    os.makedirs("output/kde_models", exist_ok=True)
+    joblib.dump(overall_model, "output/kde_models/overall_dict.pkl")
+    joblib.dump(major_models,  "output/kde_models/major_dict.pkl")
+    joblib.dump(minor_models,  "output/kde_models/minor_dict.pkl")
+    print("KDE 모델 파일 저장 완료: output/kde_models/overall_dict.pkl, major_dict.pkl, minor_dict.pkl")
+    # requirements.txt 작성
+    deps = ["numpy", "pandas", "scikit-learn", "joblib", "huggingface_hub"]
+    with open("requirements.txt", "w", encoding="utf-8") as f:
+        f.write("\n".join(deps))
+    # Hugging Face 레포 생성 및 클론
+    api = HfApi()
+    try:
+        api.create_repo(repo_id=HF_REPO_NAME, token=HF_TOKEN)
+    except Exception:
+        pass  # 이미 레포가 존재하면 무시
+    local_dir = "hf_repo"
+    if os.path.isdir(local_dir):
+        shutil.rmtree(local_dir, onerror=rm_readonly)
+    repo = Repository(local_dir=local_dir, clone_from=HF_REPO_NAME, use_auth_token=HF_TOKEN)
+    # 모델 파일 및 스크립트 복사
+    dst_models_dir = os.path.join(local_dir, "models")
+    os.makedirs(dst_models_dir, exist_ok=True)
+    for fname in ["overall_dict.pkl", "major_dict.pkl", "minor_dict.pkl"]:
+        src = os.path.join("output/kde_models", fname)
+        if os.path.isfile(src):
+            shutil.copy(src, os.path.join(dst_models_dir, fname))
+    # 스크립트 파일 및 requirements.txt 복사
+    script_name = os.path.basename(__file__)
+    shutil.copy(__file__, os.path.join(local_dir, script_name))
+    shutil.copy("requirements.txt", os.path.join(local_dir, "requirements.txt"))
+    # 커밋 및 푸시
+    repo.git_add(auto_lfs_track=True)
+    repo.git_commit("Add KDE ensemble models (overall, major, minor) + training script")
+    repo.git_push()
+    print("Hugging Face Hub에 KDE 모델 업로드 완료")
+if __name__ == "__main__":
+    main()

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+numpy
+pandas
+scikit-learn
+joblib
+huggingface_hub