Spaces:

Antonio0616
/

FormingStar

Running

App Files Files Community

FormingStar / study_model.py

Antonio0616

Upload 3 files

f0671e0 verified 3 months ago

raw

history blame contribute delete

17 kB

	# train_blend_ftt_lgbm.py
	# FT-Transformer (weighted MAE + 5-Fold OOF) + LightGBM (5-Fold OOF) + OOF blending
	# pip install pandas numpy scikit-learn torch lightgbm openpyxl

	import os, math, json, random, pathlib
	import numpy as np
	import pandas as pd
	from typing import List, Tuple
	from sklearn.model_selection import KFold
	from sklearn.preprocessing import StandardScaler
	from sklearn.metrics import mean_absolute_error
	import lightgbm as lgb
	import torch
	import torch.nn as nn
	from torch.utils.data import Dataset, DataLoader

	# =========================
	# Config
	# =========================
	SEED = 42
	DATA_PATH = r"C:\Users\KDT10\OneDrive\바탕 화면\AutoForm\데이터통합.xlsx" # .xlsx 또는 .csv
	TARGET = "max_failure"
	CAT_COL = "material" # 범주형
	NUM_COLS = ["thickness","diameter","degree","upper_radius","lower_radius","LB","RB"] # 필요 시 물성/파생변수 추가
	N_SPLITS = 5

	# FT-Transformer 하이퍼파라미터 (튜닝안)
	D_MODEL = 256
	NHEAD = 8
	LAYERS = 6
	DIM_FF = 1024
	DROPOUT = 0.25
	EPOCHS = 500
	PATIENCE = 50
	LR = 5e-4
	WEIGHT_DECAY = 2e-4
	BATCH_TRAIN = 256
	BATCH_VAL = 512

	# LightGBM 하이퍼파라미터
	LGB_PARAMS = {
	"objective": "mae",
	"metric": "mae",
	"learning_rate": 0.05,
	"num_leaves": 31,
	"feature_fraction": 0.9,
	"bagging_fraction": 0.9,
	"bagging_freq": 1,
	"min_data_in_leaf": 20,
	"verbosity": -1,
	"seed": SEED,
	}
	NUM_BOOST_ROUND = 8000
	EARLY_STOP = 400

	ART_DIR = "artifacts_blend"
	os.makedirs(ART_DIR, exist_ok=True)

	# =========================
	# Utils
	# =========================
	def get_safe_device():
	"""CUDA가 실제 사용 가능한지 미리 검증하고, 실패 시 CPU로 폴백."""
	if torch.cuda.is_available():
	try:
	_ = torch.zeros(1, device="cuda")
	torch.cuda.synchronize()
	print("[INFO] Using CUDA")
	return torch.device("cuda")
	except Exception as e:
	print(f"[WARN] CUDA available but failed to initialize: {e}")
	print("[INFO] Using CPU")
	return torch.device("cpu")

	def set_seed(seed: int, device: torch.device):
	random.seed(seed)
	np.random.seed(seed)
	torch.manual_seed(seed)
	if device.type == "cuda":
	try:
	torch.cuda.manual_seed_all(seed)
	except Exception as e:
	print(f"[WARN] torch.cuda.manual_seed_all failed: {e}")

	def read_table(path: str) -> pd.DataFrame:
	p = pathlib.Path(path)
	if p.suffix.lower() in (".xlsx", ".xls"):
	return pd.read_excel(p) # openpyxl 필요
	return pd.read_csv(p)

	def ensure_categorical(df: pd.DataFrame, col: str) -> pd.DataFrame:
	df = df.copy()
	df[col] = df[col].astype(str).astype("category")
	return df

	def tukey_biweight_weights_by_group(df, target=TARGET, group=CAT_COL, c=4.685, eps=1e-9):
	"""재질별 median/IQR 기준 Tukey biweight 가중치(0~1)"""
	df = df.copy()
	w = np.ones(len(df), dtype=np.float32)
	for g, idx in df.groupby(group).groups.items():
	y = df.loc[idx, target].astype(float)
	med = np.median(y)
	q1, q3 = np.percentile(y, 25), np.percentile(y, 75)
	iqr = max(q3 - q1, eps)
	u = (y - med) / (c * iqr)
	w_g = np.where(np.abs(u) < 1, (1 - u2)2, 0.0)
	w[idx] = w_g.astype(np.float32)
	return np.clip(w, 0.05, 1.0).astype(np.float32)

	def search_best_alpha(oof_a: np.ndarray, oof_b: np.ndarray, y_true: np.ndarray):
	alphas = np.linspace(0.0, 1.0, 1001) # 0.0001 간격 정밀 탐색
	best_a, best_mae = None, 1e9
	for a in alphas:
	blend = aoof_a + (1-a)oof_b
	mae = mean_absolute_error(y_true, blend)
	if mae < best_mae:
	best_a, best_mae = a, mae
	return best_a, best_mae

	# =========================
	# Dataset / Model
	# =========================
	class TabDataset(Dataset):
	def __init__(self, mat_ids, num_feats, target=None, weights=None):
	self.mat_ids = torch.tensor(mat_ids, dtype=torch.long)
	self.num_feats = torch.tensor(num_feats, dtype=torch.float32)
	self.target = None if target is None else torch.tensor(target, dtype=torch.float32).view(-1,1)
	self.weights = None if weights is None else torch.tensor(weights, dtype=torch.float32).view(-1,1)
	def __len__(self): return len(self.mat_ids)
	def __getitem__(self, i):
	if self.target is None:
	return self.mat_ids[i], self.num_feats[i]
	if self.weights is None:
	return self.mat_ids[i], self.num_feats[i], self.target[i]
	return self.mat_ids[i], self.num_feats[i], self.target[i], self.weights[i]

	class FTTransformer(nn.Module):
	def __init__(self, n_materials:int, n_num:int, d_model:int=128, nhead:int=8,
	num_layers:int=4, dim_ff:int=256, dropout:float=0.2):
	super().__init__()
	self.mat_emb = nn.Embedding(n_materials, d_model)
	self.num_linears = nn.ModuleList([nn.Linear(1, d_model) for _ in range(n_num)])
	self.cls = nn.Parameter(torch.zeros(1, 1, d_model))
	nn.init.trunc_normal_(self.cls, std=0.02)
	enc_layer = nn.TransformerEncoderLayer(
	d_model=d_model, nhead=nhead,
	dim_feedforward=dim_ff, dropout=dropout,
	batch_first=True, activation='gelu', norm_first=True
	)
	self.encoder = nn.TransformerEncoder(enc_layer, num_layers=num_layers)
	self.head = nn.Sequential(
	nn.LayerNorm(d_model),
	nn.Linear(d_model, d_model),
	nn.GELU(),
	nn.Dropout(dropout),
	nn.Linear(d_model, 1)
	)
	def forward(self, mat_ids: torch.LongTensor, x_num: torch.FloatTensor):
	B = x_num.size(0)
	mat_tok = self.mat_emb(mat_ids).unsqueeze(1) # (B,1,d)
	num_tok = torch.cat([lin(x_num[:, i:i+1]).unsqueeze(1) for i,lin in enumerate(self.num_linears)], dim=1)
	tokens = torch.cat([self.cls.expand(B, -1, -1), mat_tok, num_tok], dim=1)
	h = self.encoder(tokens)
	return self.head(h[:, 0, :]) # (B,1)

	def weighted_l1_loss(pred, y, w):
	return (w * (pred - y).abs()).sum() / (w.sum() + 1e-9)

	def val_mae(model, loader, device):
	model.eval()
	mae, n = 0.0, 0
	with torch.no_grad():
	for batch in loader:
	if len(batch) == 4:
	m,x,y,_ = batch
	else:
	m,x,y = batch
	m,x,y = m.to(device), x.to(device), y.to(device)
	p = model(m,x)
	mae += (p - y).abs().sum().item()
	n += y.size(0)
	return mae / n

	# =========================
	# Main
	# =========================
	def main():
	# 안전 디바이스 결정 → 그 디바이스 기준으로 시드 설정
	device = get_safe_device()
	set_seed(SEED, device)

	# ----- Load -----
	df = read_table(DATA_PATH).copy()
	need = [CAT_COL] + NUM_COLS + [TARGET]
	missing = [c for c in need if c not in df.columns]
	if missing: raise RuntimeError(f"입력 데이터에 없는 컬럼: {missing}")
	df = df.dropna(subset=[TARGET]).reset_index(drop=True)
	df = ensure_categorical(df, CAT_COL)

	# 샘플 가중치(없으면 로버스트 가중치 생성)
	if "sample_weight" in df.columns:
	df["sample_weight"] = df["sample_weight"].astype(np.float32)
	else:
	df["sample_weight"] = tukey_biweight_weights_by_group(df, target=TARGET, group=CAT_COL, c=4.685)

	# material → id
	materials = sorted(df[CAT_COL].astype(str).unique())
	mat2id = {m:i for i,m in enumerate(materials)}
	df["_mat_id"] = df[CAT_COL].astype(str).map(mat2id).astype(int)

	# 공통 어레이
	X_num_full = df[NUM_COLS].values.astype(np.float32)
	y_full = df[TARGET].values.astype(np.float32)
	m_full = df["_mat_id"].values
	w_full = df["sample_weight"].values.astype(np.float32)

	# =========================
	# 1) FT-Transformer 5-Fold OOF
	# =========================
	kf = KFold(n_splits=N_SPLITS, shuffle=True, random_state=SEED)
	oof_dl = np.zeros(len(df), dtype=np.float32)
	dl_models, dl_scalers = [], []
	fold_summ_dl = []

	for fold, (tr_idx, va_idx) in enumerate(kf.split(X_num_full), 1):
	print(f"\n========== [DL] FOLD {fold}/{N_SPLITS} ==========")
	# 스케일러 누수 방지
	scaler = StandardScaler()
	X_tr = scaler.fit_transform(X_num_full[tr_idx]).astype(np.float32)
	X_va = scaler.transform(X_num_full[va_idx]).astype(np.float32)
	y_tr, y_va = y_full[tr_idx], y_full[va_idx]
	m_tr, m_va = m_full[tr_idx], m_full[va_idx]
	w_tr, w_va = w_full[tr_idx], w_full[va_idx]

	train_ds = TabDataset(m_tr, X_tr, y_tr, w_tr)
	val_ds = TabDataset(m_va, X_va, y_va, w_va)
	train_dl = DataLoader(train_ds, batch_size=BATCH_TRAIN, shuffle=True, num_workers=0)
	val_dl = DataLoader(val_ds, batch_size=BATCH_VAL, shuffle=False, num_workers=0)

	model = FTTransformer(
	n_materials=len(materials), n_num=len(NUM_COLS),
	d_model=D_MODEL, nhead=NHEAD, num_layers=LAYERS, dim_ff=DIM_FF, dropout=DROPOUT
	)
	# 디바이스 이동에 실패하면 CPU 폴백
	try:
	model = model.to(device)
	except Exception as e:
	print(f"[WARN] model.to({device}) failed: {e}. Falling back to CPU.")
	device = torch.device("cpu")
	model = model.to(device)

	optim = torch.optim.AdamW(model.parameters(), lr=LR, weight_decay=WEIGHT_DECAY)
	sched = torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(optim, T_0=10)

	best_mae, best_state, wait = 1e9, None, 0
	for epoch in range(1, EPOCHS+1):
	model.train()
	for m,x,y,w in train_dl:
	m,x,y,w = m.to(device), x.to(device), y.to(device), w.to(device)
	optim.zero_grad(set_to_none=True)
	pred = model(m,x)
	loss = weighted_l1_loss(pred, y, w)
	loss.backward()
	torch.nn.utils.clip_grad_norm_(model.parameters(), 2.0)
	optim.step()
	sched.step(epoch)

	mae = val_mae(model, val_dl, device)
	print(f"[DL {epoch:03d}] VAL MAE={mae:.4f}")
	if mae < best_mae - 1e-4:
	best_mae, wait = mae, 0
	best_state = {k:v.cpu().clone() for k,v in model.state_dict().items()}
	else:
	wait += 1
	if wait >= PATIENCE:
	print("Early stopping.")
	break

	# 복원 + fold 저장
	if best_state is not None:
	model.load_state_dict(best_state)
	torch.save({
	"state_dict": model.state_dict(),
	"materials": materials,
	"num_cols": NUM_COLS,
	"scaler_mean": scaler.mean_, "scaler_scale": scaler.scale_,
	}, os.path.join(ART_DIR, f"ftt_fold{fold}.pt"))
	fold_summ_dl.append(best_mae)
	print(f"[DL FOLD {fold}] best VAL MAE={best_mae:.4f}")

	# ── OOF 채우기 (모델과 텐서를 같은 device에서)
	try:
	model = model.to(device)
	except Exception as e:
	print(f"[WARN] model.to({device}) failed during OOF: {e}. Falling back to CPU.")
	device = torch.device("cpu")
	model = model.to(device)

	model.eval()
	preds = []
	with torch.no_grad():
	val_loader = DataLoader(val_ds, batch_size=BATCH_VAL, shuffle=False, num_workers=0)
	for batch in val_loader:
	if len(batch)==4:
	m,x,y,_ = batch
	else:
	m,x,y = batch
	m,x = m.to(device), x.to(device)
	p = model(m,x).cpu().numpy().ravel()
	preds.append(p)
	oof_dl[va_idx] = np.concatenate(preds).astype(np.float32)

	# ── OOF 완료 후 CPU로 내려서 보관
	dl_models.append(model.cpu())
	dl_scalers.append(scaler)

	oof_mae_dl = mean_absolute_error(y_full, oof_dl)
	print("\n[DL] Fold best MAEs:", [f"{m:.4f}" for m in fold_summ_dl])
	print(f"[DL] OOF MAE : {oof_mae_dl:.4f}")
	pd.DataFrame({"y_true": y_full, "y_oof_dl": oof_dl}).to_csv(os.path.join(ART_DIR, "oof_dl.csv"), index=False)

	# =========================
	# 2) LightGBM 5-Fold OOF (callbacks로 조기 종료/로그)
	# =========================
	df = ensure_categorical(df, CAT_COL)
	FEATS_GBDT = [CAT_COL] + NUM_COLS
	X_gbdt = df[FEATS_GBDT].copy()
	y = y_full
	w = w_full

	kf2 = KFold(n_splits=N_SPLITS, shuffle=True, random_state=SEED)
	oof_lgbm = np.zeros(len(df), dtype=np.float32)
	lgbm_models = []
	fold_summ_lgb = []

	for fold, (tr_idx, va_idx) in enumerate(kf2.split(X_gbdt), 1):
	print(f"\n========== [LGBM] FOLD {fold}/{N_SPLITS} ==========")
	X_tr, X_va = X_gbdt.iloc[tr_idx], X_gbdt.iloc[va_idx]
	y_tr, y_va = y[tr_idx], y[va_idx]
	w_tr, w_va = w[tr_idx], w[va_idx]

	dtr = lgb.Dataset(X_tr, label=y_tr, weight=w_tr,
	categorical_feature=[CAT_COL], free_raw_data=False)
	dva = lgb.Dataset(X_va, label=y_va, weight=w_va,
	categorical_feature=[CAT_COL], reference=dtr, free_raw_data=False)

	callbacks = [
	lgb.early_stopping(EARLY_STOP, verbose=False),
	lgb.log_evaluation(100),
	]

	model = lgb.train(
	LGB_PARAMS,
	dtr,
	num_boost_round=NUM_BOOST_ROUND,
	valid_sets=[dtr, dva],
	valid_names=["train","valid"],
	callbacks=callbacks,
	)

	pred_va = model.predict(X_va, num_iteration=model.best_iteration)
	oof_lgbm[va_idx] = pred_va.astype(np.float32)
	mae = mean_absolute_error(y_va, pred_va)
	fold_summ_lgb.append(mae)
	print(f"[LGBM FOLD {fold}] VAL MAE={mae:.4f}")
	model.save_model(os.path.join(ART_DIR, f"lgbm_fold{fold}.txt"),
	num_iteration=model.best_iteration)
	lgbm_models.append(model)

	oof_mae_lgb = mean_absolute_error(y, oof_lgbm)
	print("\n[LGBM] Fold MAEs:", [f"{m:.4f}" for m in fold_summ_lgb])
	print(f"[LGBM] OOF MAE : {oof_mae_lgb:.4f}")
	pd.DataFrame({"y_true": y, "y_oof_lgbm": oof_lgbm}).to_csv(os.path.join(ART_DIR, "oof_lgbm.csv"), index=False)

	# =========================
	# 3) OOF Blending (DL + LGBM)
	# =========================
	best_alpha, best_mae = search_best_alpha(oof_dl, oof_lgbm, y_full)
	print(f"\n[BLEND] best α={best_alpha:.3f}, blended OOF MAE={best_mae:.4f}")
	with open(os.path.join(ART_DIR, "blend_alpha.json"), "w") as f:
	json.dump({"best_alpha": float(best_alpha), "oof_mae_blend": float(best_mae),
	"oof_mae_dl": float(oof_mae_dl), "oof_mae_lgbm": float(oof_mae_lgb)}, f, indent=2)

	# =========================
	# 4) Inference helper (예시)
	# =========================
	def predict_dl_ensemble(df_new: pd.DataFrame) -> np.ndarray:
	df_new = df_new.copy()
	df_new["_mat_id"] = df_new[CAT_COL].astype(str).map(mat2id).fillna(0).astype(int)
	Xn = df_new[NUM_COLS].values.astype(np.float32)

	preds = []
	for mdl, sc in zip(dl_models, dl_scalers):
	x = sc.transform(Xn).astype(np.float32)
	mdl.eval()
	with torch.no_grad():
	m_ids = torch.tensor(df_new["_mat_id"].values, dtype=torch.long)
	x_t = torch.tensor(x, dtype=torch.float32)
	p = mdl(m_ids, x_t).cpu().numpy().ravel()
	preds.append(p)
	return np.mean(preds, axis=0)

	def predict_lgbm_ensemble(df_new: pd.DataFrame) -> np.ndarray:
	Xn = df_new[[CAT_COL] + NUM_COLS].copy()
	Xn[CAT_COL] = Xn[CAT_COL].astype(str).astype("category")
	preds = [mdl.predict(Xn, num_iteration=mdl.best_iteration) for mdl in lgbm_models]
	return np.mean(preds, axis=0)

	with open(os.path.join(ART_DIR, "materials.json"), "w", encoding="utf-8") as f:
	json.dump({"materials": materials}, f, ensure_ascii=False, indent=2)
	with open(os.path.join(ART_DIR, "columns.json"), "w", encoding="utf-8") as f:
	json.dump({"num_cols": NUM_COLS, "cat_col": CAT_COL, "target": TARGET}, f, ensure_ascii=False, indent=2)

	print(f"\nArtifacts saved in: {ART_DIR}")
	print("Use predict_dl_ensemble / predict_lgbm_ensemble, and blend with best_alpha for new data.")

	if __name__ == "__main__":
	device = get_safe_device()
	main()