๋ฐ์ดํฐ ๋๋ ํ ๋ฆฌ ๊ฐ์ด๋
๋ฐ์ดํฐ ์ค๋น ๋ฐฉ๋ฒ
1. ํ์ํ ํ์ผ
data/raw/ ํด๋์ ๋ค์ 3๊ฐ์ CSV ํ์ผ์ ๋ฃ๊ธฐ:
โ big_data_set1_f.csv - ๋งค์ฅ ๊ธฐ๋ณธ ์ ๋ณด
ํ์ ์ปฌ๋ผ:
ENCODED_MCT: ๋งค์ฅ ID(๊ณ ์ ์๋ณ์)MCT_ME_D: ํ์ ๋ ์ง(ํ์ ์์๋ง ๊ฐ ์กด์ฌ, ํ๊ฒ ๋ณ์)HPSN_MCT_BZN_CD_NM: ์ ์ข ๋ช (์นดํ, ์์์ ๋ฑ)MCT_SIGUNGU_NM: ์ง์ญ๋ช
โก ds2_monthly_usage.csv - ์๋ณ ์ด์ฉ ๋ฐ์ดํฐ
ํ์ ์ปฌ๋ผ:
ENCODED_MCT: ๋งค์ฅ IDTA_YM: ๋ ์(์: 202401)RC_M1_SAA: ์ ๋งค์ถ์ก ๊ตฌ๊ฐ(1_0-25%, 2_25-50% ๋ฑ)MCT_OPE_MS_CN: ์์ ๊ฐ์ ์ ๊ตฌ๊ฐRC_M1_AV_NP_AT: ํ๊ท ์ด์ฉ ๊ธ์ก ๊ตฌ๊ฐ
์ ํ ์ปฌ๋ผ:
APV_CE_RAT: ์น์ธ ์ทจ์์จDLV_SAA_RAT: ๋ฐฐ๋ฌ ๋งค์ถ ๋น์จ
โข ds3_monthly_customers.csv - ์๋ณ ๊ณ ๊ฐ ๋ฐ์ดํฐ
ํ์ ์ปฌ๋ผ:
ENCODED_MCT: ๋งค์ฅ IDTA_YM: ๋ ์MCT_UE_CLN_REU_RAT: ์ฌ์ด์ฉ ๊ณ ๊ฐ ๋น์จ (%)
์ ํ ์ปฌ๋ผ:
MCT_UE_CLN_NEW_RAT: ์ ๊ท ๊ณ ๊ฐ ๋น์จM12_MAL_1020_RAT,M12_MAL_30_RAT๋ฑ: ์ฐ๋ น๋๋ณ ๋จ์ฑ ๊ณ ๊ฐ ๋น์จM12_FME_1020_RAT,M12_FME_30_RAT๋ฑ: ์ฐ๋ น๋๋ณ ์ฌ์ฑ ๊ณ ๊ฐ ๋น์จ
๋ฐ์ดํฐ ํ์ ์ฐธ๊ณ
๋งค์ถ/์ด์ ๊ตฌ๊ฐ ์ฝ๋
# ๋งค์ถ ๊ตฌ๊ฐ (RC_M1_SAA)
'1_0-25%' โ ํ์ 25 % (๋งค์ฐ ๋ฎ์)
'2_25-50%' โ 25 - 50 % (๋ฎ์)
'3_25-50%' โ 25 - 50 % (๋ฎ์)
'4_50-75%' โ 50 - 75 % (๋ณดํต)
'5_75-100%' โ 75 - 100 % (๋์)
'6_100%+' โ ์์๊ถ(๋งค์ฐ ๋์)
# ์์
๊ฐ์ ์ ๊ตฌ๊ฐ (MCT_OPE_MS_CN)
'1_0-25%' โ ์ ์(0 - 6๊ฐ์)
'2_25-50%' โ ์ด๊ธฐ(6 - 12๊ฐ์)
'3_25-50%' โ ์ด๊ธฐ(6 - 12๊ฐ์)
'4_50-75%' โ ์ค๊ธฐ(12 - 24๊ฐ์)
'5_75-100%' โ ์ฅ๊ธฐ(24 - 36๊ฐ์)
'6_100%+' โ ์ค๋๋ ๋งค์ฅ(36๊ฐ์ +)
ํน์๊ฐ ์ฒ๋ฆฌ
# ๊ฒฐ์ธก๊ฐ ํ์
-999999.9 โ ๋ฐ์ดํฐ ์์(NaN์ผ๋ก ์ฒ๋ฆฌ๋จ)
NaN โ ๋ฐ์ดํฐ ์์
๋ค์ ๋จ๊ณ
๋ฐ์ดํฐ ์ค๋น๊ฐ ์๋ฃ๋๋ฉด:
Jupyter ๋ ธํธ๋ถ์ผ๋ก ํ์ต:
jupyter notebook notebooks/train_model.ipynb๋๋ ์คํฌ๋ฆฝํธ๋ก ํ์ต:
python src/train.py๋ชจ๋ธ ํ์ธ:
ls models/ # xgboost_model.pkl, lightgbm_model.pkl, config.json ๋ฑ ํ์ธ
์์ฃผ ๋ฌป๋ ์ง๋ฌธ
Q1. ํ์ผ ์ธ์ฝ๋ฉ ์ค๋ฅ๊ฐ ๋ฐ์ํฉ๋๋ค.
A: CSV ํ์ผ์ ์ธ์ฝ๋ฉ์ ํ์ธํ๊ณ encoding='cp949' ๋๋ encoding='utf-8'๋ก ๋ณ๊ฒฝํ์ธ์.
Q2. ์๋ณ ๋ฐ์ดํฐ๊ฐ 2๊ฐ์๋ฐ์ ์๋๋ฐ ๊ด์ฐฎ๋์?
A: ์ต์ 3๊ฐ์ ์ด์์ ๋ฐ์ดํฐ๊ฐ ํ์ํฉ๋๋ค. ์ถ์ธ ๋ถ์์ ์ํด 6๊ฐ์ ์ด์ ๊ถ์ฅํฉ๋๋ค.
Q3. ํ์ ๋งค์ฅ์ด ๋๋ฌด ์ ์๋ฐ ๊ด์ฐฎ๋์?
A: ์ ์ฒด์ 1-5% ์ ๋๋ฉด ์ถฉ๋ถํฉ๋๋ค. SMOTE๋ก ํด๋์ค ๋ถ๊ท ํ์ ํด๊ฒฐํฉ๋๋ค.
Q4. ํ์ ์ปฌ๋ผ์ด ์์ผ๋ฉด ์ด๋ป๊ฒ ํ๋์?
A: feature_engineering.py์์ ํด๋น ํน์ง ์์ฑ ๋ถ๋ถ์ ์์ ํ๊ฑฐ๋ ๊ธฐ๋ณธ๊ฐ์ ์ฌ์ฉํ๋๋ก ์ค์ ํ์ธ์.
์ง์
๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ฉด GitHub Issues์ ๋ฐ์ดํฐ ๊ตฌ์กฐ์ ์ค๋ฅ ๋ฉ์์ง๋ฅผ ํฌํจํ์ฌ ๋ฑ๋กํด์ฃผ์ธ์.