Add trained pipelines for orders 1~5 (개별 파라미터) + training script

Browse files

Files changed (7) hide show

models_by_order/order1/pipeline.pkl +3 -0
models_by_order/order2/pipeline.pkl +3 -0
models_by_order/order3/pipeline.pkl +3 -0
models_by_order/order4/pipeline.pkl +3 -0
models_by_order/order5/pipeline.pkl +3 -0
onbid-map-etcp-train.py +202 -0
requirements.txt +5 -0

models_by_order/order1/pipeline.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fab13277dd54bccfc5d65419da333aa8999d70275fa8a2963e9dc892226aafa1
+size 178082

models_by_order/order2/pipeline.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9245c5f2c2452e9568f551c42b6da759ec0dc59a8ca1f948ab1425624d08ae67
+size 271793

models_by_order/order3/pipeline.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04c66492081b1032b210c18849065f221af61495706f18cdcc3313aaad24fef8
+size 371671

models_by_order/order4/pipeline.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b113a083518042de617cf76452f4e46368a64b91da2cdd230d4708e61458bbb
+size 580403

models_by_order/order5/pipeline.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f590a9679bc247b716bc0e2dfb57799c6253c10e00fa7cebdc627ee9967d212
+size 1267904

onbid-map-etcp-train.py ADDED Viewed

	@@ -0,0 +1,202 @@

+# onbid_map_round_train.py
+import os
+import shutil
+import stat
+import pandas as pd
+import joblib
+from sklearn.preprocessing import OneHotEncoder
+from sklearn.compose import ColumnTransformer
+from sklearn.pipeline import Pipeline
+from xgboost import XGBRegressor
+from huggingface_hub import HfApi, Repository
+# -----------------------------
+# 차수별 하이퍼파라미터 설정
+# -----------------------------
+# ORDER_PARAMS[차수] = 해당 차수 XGBRegressor에 넘길 파라미터 딕셔너리
+ORDER_PARAMS = {
+    1: {
+        "objective": "reg:squarederror",
+        "max_depth": 4,
+        "learning_rate": 0.10,
+        "n_estimators": 100,
+        "subsample": 0.8,
+        "colsample_bytree": 0.8,
+        "random_state": 42,
+    },
+    2: {
+        "objective": "reg:squarederror",
+        "max_depth": 5,
+        "learning_rate": 0.05,
+        "n_estimators": 120,
+        "subsample": 0.85,
+        "colsample_bytree": 0.9,
+        "random_state": 42,
+    },
+    3: {
+        "objective": "reg:squarederror",
+        "max_depth": 6,
+        "learning_rate": 0.03,
+        "n_estimators": 150,
+        "subsample": 0.9,
+        "colsample_bytree": 0.9,
+        "random_state": 42,
+    },
+    4: {
+        "objective": "reg:squarederror",
+        "max_depth": 7,
+        "learning_rate": 0.02,
+        "n_estimators": 180,
+        "subsample": 0.9,
+        "colsample_bytree": 0.95,
+        "random_state": 42,
+    },
+    5: {
+        "objective": "reg:squarederror",
+        "max_depth": 8,
+        "learning_rate": 0.01,
+        "n_estimators": 200,
+        "subsample": 0.95,
+        "colsample_bytree": 0.95,
+        "random_state": 42,
+    },
+}
+# -----------------------------
+# Hugging Face 환경 변수
+# -----------------------------
+HF_REPO_NAME = "asteroidddd/onbid-map-etcp"
+HF_TOKEN     = os.getenv("HF_TOKEN")
+if HF_TOKEN is None:
+    raise ValueError("환경 변수 HF_TOKEN이 설정되어 있지 않습니다.")
+# 이 스크립트의 경로
+SCRIPT_PATH = os.path.abspath(__file__)
+def rm_readonly(func, path, exc_info):
+    os.chmod(path, stat.S_IWRITE)
+    func(path)
+def main():
+    # -----------------------------
+    # 데이터 로드 파트
+    # -----------------------------
+    # TODO: 실제 데이터 경로로 변경하고, '최초입찰시기' 컬럼을 datetime 타입으로 로드해주세요.
+    # 예시:
+    # df = pd.read_csv("data/onbid_data.csv", parse_dates=["최초입찰시기"])
+    df = pd.read_pickle(r'C:\Users\hwang\Desktop\OSSP\data.pkl')  # 실제 DataFrame으로 교체하세요.
+    # '자동차' 대분류 행 제거
+    if "대분류" in df.columns:
+        df = df[~(df["대분류"] == "자동차")].reset_index(drop=True)
+    # '낙찰차수' 컬럼을 정수형으로 변환하고, 5 이상은 5로 통일
+    df["낙찰차수"] = df["낙찰차수"].astype(int).apply(lambda x: x if x < 5 else 5)
+    # -----------------------------
+    # 차수별 모델 학습 & 저장
+    # -----------------------------
+    for order in [1, 2, 3, 4, 5]:
+        # 1) 해당 차수 데이터만 필터링
+        subset = df[df["낙찰차수"] == order].copy().reset_index(drop=True)
+        if subset.empty:
+            print(f"차수 {order} 데이터가 없습니다. 건너뜁니다.")
+            continue
+        # 2) 사용할 피처 컬럼 결정
+        base_cols = ["대분류", "중분류", "기관"]
+        date_col = ["최초입찰시기"]
+        if order == 1:
+            bid_cols = ["1차최저입찰가"]
+        elif order == 2:
+            bid_cols = ["1차최저입찰가", "2차최저입찰가"]
+        elif order == 3:
+            bid_cols = ["1차최저입찰가", "2차최저입찰가", "3차최저입찰가"]
+        elif order == 4:
+            bid_cols = ["1차최저입찰가", "2차최저입찰가", "3차최저입찰가", "4차최저입찰가"]
+        else:  # order == 5
+            bid_cols = ["1차최저입찰가", "2차최저입찰가", "3차최저입찰가", "4차최저입찰가", "5차최저입찰가"]
+        X = subset[base_cols + date_col + bid_cols].copy()
+        y = subset["낙찰가율_최초최저가기준"].copy()
+        # 3) 날짜형 컬럼을 정수형(UNIX 타임스탬프)으로 변환
+        if "최초입찰시기" in X.columns:
+            X["최초입찰시기"] = X["최초입찰시기"].astype("int64")
+        # 4) 전처리 + 모델 파이프라인 정의
+        preprocessor = ColumnTransformer(
+            transformers=[("ohe", OneHotEncoder(handle_unknown="ignore"), base_cols)],
+            remainder="passthrough"
+        )
+        # 5) 차수별 파라미터를 꺼내서 XGBRegressor 생성
+        params = ORDER_PARAMS.get(order)
+        model = XGBRegressor(**params)
+        pipeline = Pipeline([
+            ("preprocessor", preprocessor),
+            ("regressor", model)
+        ])
+        # 6) 전체 데이터로 학습
+        pipeline.fit(X, y)
+        print(f"차수 {order} 모델 학습 완료 (params: {params})")
+        # 7) 모델 저장
+        output_dir = f"output/order{order}"
+        os.makedirs(output_dir, exist_ok=True)
+        joblib.dump(pipeline, os.path.join(output_dir, "pipeline.pkl"))
+        print(f"  → pipeline.pkl 저장: {output_dir}/pipeline.pkl")
+    # -----------------------------
+    # requirements.txt 작성
+    # -----------------------------
+    deps = ["pandas", "scikit-learn", "xgboost", "joblib", "huggingface_hub"]
+    with open("requirements.txt", "w", encoding="utf-8") as f:
+        f.write("\n".join(deps))
+    # -----------------------------
+    # Hugging Face 업로드 파트
+    # -----------------------------
+    # 1) 레포 생성 시도
+    api = HfApi()
+    try:
+        api.create_repo(repo_id=HF_REPO_NAME, token=HF_TOKEN)
+    except Exception:
+        pass
+    # 2) 로컬에 레포 클론 (기존 디렉토리 삭제 포함)
+    local_dir = "hf_repo"
+    if os.path.isdir(local_dir):
+        shutil.rmtree(local_dir, onerror=rm_readonly)
+    repo = Repository(local_dir=local_dir, clone_from=HF_REPO_NAME, use_auth_token=HF_TOKEN)
+    # 3) output/order{차수} 내 파일을 hf_repo/models_by_order/order{차수} 폴더로 복사
+    for order in [1, 2, 3, 4, 5]:
+        src_dir = f"output/order{order}"
+        if not os.path.isdir(src_dir):
+            continue
+        dst_dir = os.path.join(local_dir, "models_by_order", f"order{order}")
+        os.makedirs(dst_dir, exist_ok=True)
+        src_file = os.path.join(src_dir, "pipeline.pkl")
+        if os.path.isfile(src_file):
+            shutil.copy(src_file, os.path.join(dst_dir, "pipeline.pkl"))
+    # 4) 스크립트 파일 및 requirements.txt도 함께 복사
+    for src in [SCRIPT_PATH, "requirements.txt"]:
+        dst = os.path.join(local_dir, os.path.basename(src))
+        shutil.copy(src, dst)
+    # 5) 커밋 및 푸시
+    repo.git_add(auto_lfs_track=True)
+    repo.git_commit("Add trained pipelines for orders 1~5 (개별 파라미터) + training script")
+    repo.git_push()
+    print("Hugging Face Hub에 모델 업로드 완료")
+if __name__ == "__main__":
+    main()

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+pandas
+scikit-learn
+xgboost
+joblib
+huggingface_hub