asteroidddd
/

onbid-map-round

Model card Files Files and versions

xet

Community

asteroidddd commited on Jun 1, 2025

Commit

ba69daf

1 Parent(s): b6795f3

Add trained pipeline + preprocessing code

Browse files

Files changed (2) hide show

auction_pipeline.pkl +2 -2
onbid-map-round-train.py +21 -26

auction_pipeline.pkl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b2302cd4ef6f2af0d667e28288ebf90cf823cef5f08a4e372f443d506f8a42e
-size 3567270

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c1acd90a22aaf1e5520ebfc531247896e5d33df2f3fb66e0e9e74020f59ed71
+size 3575369

onbid-map-round-train.py CHANGED Viewed

@@ -5,34 +5,22 @@ import shutil
 import stat
 import pandas as pd
 import joblib
-from sklearn.preprocessing import OneHotEncoder, LabelEncoder, FunctionTransformer
 from sklearn.compose import ColumnTransformer
 from sklearn.pipeline import Pipeline
 from xgboost import XGBClassifier
 from huggingface_hub import HfApi, Repository
-# 환경 변수에서 토큰 읽어오기
 HF_REPO_NAME = "asteroidddd/onbid-map-round"
 HF_TOKEN     = os.getenv("HF_TOKEN")
 if HF_TOKEN is None:
     raise ValueError("환경 변수 HF_TOKEN이 설정되어 있지 않습니다.")
-# 이 스크립트의 경로와 파일명
 SCRIPT_PATH = os.path.abspath(__file__)
-SCRIPT_NAME = os.path.basename(SCRIPT_PATH)
-def extract_date_features(df):
-    """최초입찰시기에서 연도/월/일/요일을 추출하고 원본 컬럼 제거."""
-    X = df.copy()
-    dt = pd.to_datetime(X["최초입찰시기"])
-    X["최초입찰_연도"] = dt.dt.year
-    X["최초입찰_월"]   = dt.dt.month
-    X["최초입찰_일"]   = dt.dt.day
-    X["최초입찰_요일"] = dt.dt.weekday
-    return X.drop(columns=["최초입찰시기"])
 def rm_readonly(func, path, exc_info):
-    """읽기 전용 파일 삭제 시 권한 변경 후 재시도."""
     os.chmod(path, stat.S_IWRITE)
     func(path)
@@ -40,22 +28,30 @@ def main():
     # 데이터 로드
     df = pd.read_pickle(r'C:\Users\hwang\Desktop\OSSP\data.pkl')
-    # 낙찰차수 레이블 인코딩 후, 빈도 ≤ 10인 클래스 제거
     le_label = LabelEncoder()
     df["낙찰차수_LE"] = le_label.fit_transform(df["낙찰차수"])
     counts = df["낙찰차수_LE"].value_counts()
     rare = counts[counts <= 10].index.tolist()
     df = df[~df["낙찰차수_LE"].isin(rare)].reset_index(drop=True)
-    # 입력(X)과 타깃(y) 분리
-    X = df[["대분류", "중분류", "기관", "최초입찰시기", "1차최저입찰가"]]
     y = df["낙찰차수_LE"]
-    # 전처리 및 모델 파이프라인 정의
     cat_cols = ["대분류", "중분류", "기관"]
     preprocessor = ColumnTransformer(
         transformers=[
-            ("datefeat", FunctionTransformer(extract_date_features, validate=False), ["최초입찰시기"]),
             ("ohe", OneHotEncoder(handle_unknown="ignore"), cat_cols)
         ],
         remainder="passthrough"
@@ -65,10 +61,10 @@ def main():
         ("classifier", XGBClassifier(eval_metric="mlogloss", random_state=42))
     ])
-    # 파이프라인 학습
     pipeline.fit(X, y)
-    # 학습된 파이프라인과 레이블 인코더 저장
     os.makedirs("output", exist_ok=True)
     pipeline_path = "output/auction_pipeline.pkl"
     label_path    = "output/label_encoder.pkl"
@@ -80,20 +76,20 @@ def main():
     with open("requirements.txt", "w", encoding="utf-8") as f:
         f.write("\n".join(deps))
-    # Hugging Face 레포지토리 생성 시도
     api = HfApi()
     try:
         api.create_repo(repo_id=HF_REPO_NAME, token=HF_TOKEN)
     except:
         pass
-    # 로컬에 레포 클론 (기존 삭제 시 read-only 오류 처리)
     local_dir = "hf_repo"
     if os.path.isdir(local_dir):
         shutil.rmtree(local_dir, onerror=rm_readonly)
     repo = Repository(local_dir=local_dir, clone_from=HF_REPO_NAME, use_auth_token=HF_TOKEN)
-    # 필요한 파일 복사
     for src in [SCRIPT_PATH, "requirements.txt", pipeline_path, label_path]:
         dst = os.path.join(local_dir, os.path.basename(src))
         shutil.copy(src, dst)
@@ -103,6 +99,5 @@ def main():
     repo.git_commit("Add trained pipeline + preprocessing code")
     repo.git_push()
 if __name__ == "__main__":
     main()

 import stat
 import pandas as pd
 import joblib
+from sklearn.preprocessing import OneHotEncoder, LabelEncoder
 from sklearn.compose import ColumnTransformer
 from sklearn.pipeline import Pipeline
 from xgboost import XGBClassifier
 from huggingface_hub import HfApi, Repository
+# 환경 변수에서 Hugging Face 토큰 읽기
 HF_REPO_NAME = "asteroidddd/onbid-map-round"
 HF_TOKEN     = os.getenv("HF_TOKEN")
 if HF_TOKEN is None:
     raise ValueError("환경 변수 HF_TOKEN이 설정되어 있지 않습니다.")
+# 이 스크립트의 경로
 SCRIPT_PATH = os.path.abspath(__file__)
 def rm_readonly(func, path, exc_info):
     os.chmod(path, stat.S_IWRITE)
     func(path)
     # 데이터 로드
     df = pd.read_pickle(r'C:\Users\hwang\Desktop\OSSP\data.pkl')
+    # 라벨 인코딩 & 빈도 ≤ 10인 클래스 제거
     le_label = LabelEncoder()
     df["낙찰차수_LE"] = le_label.fit_transform(df["낙찰차수"])
     counts = df["낙찰차수_LE"].value_counts()
     rare = counts[counts <= 10].index.tolist()
     df = df[~df["낙찰차수_LE"].isin(rare)].reset_index(drop=True)
+    # 날짜 파생 변수 생성
+    df["최초입찰_연도"] = df["최초입찰시기"].dt.year
+    df["최초입찰_월"]   = df["최초입찰시기"].dt.month
+    df["최초입찰_일"]   = df["최초입찰시기"].dt.day
+    df["최초입찰_요일"] = df["최초입찰시기"].dt.weekday
+    df = df.drop(columns=["최초입찰시기"])
+    # 피처/타깃 분리
+    X = df[["대분류", "중분류", "기관",
+            "최초입찰_연도", "최초입찰_월", "최초입찰_일", "최초입찰_요일",
+            "1차최저입찰가"]]
     y = df["낙찰차수_LE"]
+    # 전처리 + 모델 파이프라인
     cat_cols = ["대분류", "중분류", "기관"]
     preprocessor = ColumnTransformer(
         transformers=[
             ("ohe", OneHotEncoder(handle_unknown="ignore"), cat_cols)
         ],
         remainder="passthrough"
         ("classifier", XGBClassifier(eval_metric="mlogloss", random_state=42))
     ])
+    # 학습
     pipeline.fit(X, y)
+    # 파이프라인 & 라벨 인코더 저장
     os.makedirs("output", exist_ok=True)
     pipeline_path = "output/auction_pipeline.pkl"
     label_path    = "output/label_encoder.pkl"
     with open("requirements.txt", "w", encoding="utf-8") as f:
         f.write("\n".join(deps))
+    # Hugging Face 레포 생성 시도
     api = HfApi()
     try:
         api.create_repo(repo_id=HF_REPO_NAME, token=HF_TOKEN)
     except:
         pass
+    # 로컬에 레포 클론 (기존 삭제 시 read-only 처리)
     local_dir = "hf_repo"
     if os.path.isdir(local_dir):
         shutil.rmtree(local_dir, onerror=rm_readonly)
     repo = Repository(local_dir=local_dir, clone_from=HF_REPO_NAME, use_auth_token=HF_TOKEN)
+    # 파일 복사
     for src in [SCRIPT_PATH, "requirements.txt", pipeline_path, label_path]:
         dst = os.path.join(local_dir, os.path.basename(src))
         shutil.copy(src, dst)
     repo.git_commit("Add trained pipeline + preprocessing code")
     repo.git_push()
 if __name__ == "__main__":
     main()