Spaces:

gionuibk
/

HPLL-DataReview

Running

App Files Files Community

HPLL-DataReview / validation_layer.py

gionuibk

T5: Full validation layer - WF, regime, benchmark, paper trading

0b8c22e verified about 13 hours ago

raw

history blame contribute delete

23.1 kB

	"""
	T5 — Validation Layer (Standalone)
	Runs after every training cycle. Results saved to HF.

	1. Per-expert validation (E1..E5 individually)
	2. Walk-forward OOS (5 rolling windows, no lookahead)
	3. Regime-specific tests (TRENDING / RANGING / VOLATILE)
	4. Benchmark: vs Buy-Hold, vs Random
	5. Paper Trading Sim (lightweight, slippage-aware)
	6. Promotion gate: model only keeps if Sharpe > threshold
	"""
	from __future__ import annotations
	import os, json, math, logging, time
	from datetime import datetime, timezone
	from typing import Any

	import numpy as np
	import pandas as pd

	log = logging.getLogger("validation_layer")

	HF_TOKEN = os.environ.get("HF_TOKEN", "")
	EXPERIENCE_REPO = os.environ.get("EXPERIENCE_REPO", "gionuibk/aetheris-experiences")
	MODEL_REPO = os.environ.get("MODEL_REPO", "gionuibk/aetheris-models")

	# Promotion gates
	GATE = {
	"min_sharpe_oos": 0.80,
	"min_win_rate": 0.52,
	"max_drawdown": -0.15,
	"min_edge_vs_random": 0.03,
	"min_folds_pass": 3, # must pass at least 3/5 OOS windows
	}


	# ─────────────────────────────────────────────────────────────────
	# UTILS
	# ─────────────────────────────────────────────────────────────────

	def _sharpe(returns: list[float]) -> float:
	if len(returns) < 2: return 0.0
	arr = np.array(returns)
	return float(np.mean(arr) / (np.std(arr) + 1e-9) * math.sqrt(len(arr)))

	def _max_drawdown(equity_curve: list[float]) -> float:
	if not equity_curve: return 0.0
	peak = equity_curve[0]
	max_dd = 0.0
	for v in equity_curve:
	if v > peak: peak = v
	dd = (v - peak) / (peak + 1e-9)
	if dd < max_dd: max_dd = dd
	return round(max_dd, 4)


	# ─────────────────────────────────────────────────────────────────
	# 1. PER-EXPERT VALIDATOR
	# ─────────────────────────────────────────────────────────────────

	class PerExpertValidator:
	"""Test each Expert model on its own held-out data."""

	EXPERT_FEATURE_MAP = {
	"E1": ["obi","spread_pct","vpin","entropy","cvd_norm","absorption",
	"tape_speed","large_trade","vol_adjusted_spread","poc_proximity","vol_skew"],
	"E2": ["ema_cross_fs","ema_cross_sl","adx","plus_di","minus_di",
	"momentum_zscore","trend_strength","vol_surge","macd_hist","macd_line"],
	"E3": ["zscore_60","zscore_300","rsi","hurst","bb_pct_b","bb_width",
	"vwap_dev","mean_rev_signal"],
	"E4": ["market_structure","bos","wyckoff_phase","fib_618_prox",
	"fvg_score","ob_score","pin_bar","engulfing","inside_bar",
	"pivot_dist_h","pivot_dist_l"],
	"E5": ["funding","funding_trend","oi_delta","ls_ratio",
	"session_hour","session_asian","session_london","session_ny",
	"session_overlap","day_of_week"],
	}

	def validate_expert(self, model, df: pd.DataFrame,
	expert_id: str, strategy: str = "general") -> dict:
	feat_cols = self.EXPERT_FEATURE_MAP.get(expert_id, [])
	available = [c for c in feat_cols if c in df.columns]
	if not available:
	return {"status": "no_features", "expert": expert_id}

	# Held-out: last 20%
	n = len(df)
	cutoff = int(n * 0.8)
	df_oos = df.iloc[cutoff:].copy()
	for c in available:
	if c not in df_oos.columns: df_oos[c] = 0.0

	X = df_oos[available].fillna(0).values.astype(np.float32)
	y = df_oos["label"].values.astype(np.int32)

	try:
	preds = model.predict(X)
	probs = model.predict_proba(X)
	conf = np.max(probs, axis=1)
	except Exception as e:
	return {"status": "predict_error", "error": str(e)}

	acc = float(np.mean(preds == y))
	sharpe_oos = (float(np.mean(conf)) - 0.5) / (float(np.std(conf)) + 1e-9) * math.sqrt(len(conf))
	non_flat = [(t, p) for t, p in zip(y, preds) if p != 0]
	win_rate = sum(1 for t, p in non_flat if t == p) / max(len(non_flat), 1)

	return {
	"expert": expert_id,
	"strategy": strategy,
	"status": "ok",
	"n_oos": len(y),
	"accuracy": round(acc, 4),
	"sharpe": round(sharpe_oos, 4),
	"win_rate": round(win_rate, 4),
	"n_signals": len(non_flat),
	}


	# ─────────────────────────────────────────────────────────────────
	# 2. WALK-FORWARD VALIDATOR
	# ─────────────────────────────────────────────────────────────────

	class WalkForwardValidator:
	"""5-fold rolling OOS — no lookahead bias."""

	N_FOLDS = 5

	def validate(self, model, df: pd.DataFrame, feat_cols: list) -> dict:
	# Sort by time
	df = df.sort_values("timestamp").reset_index(drop=True) if "timestamp" in df.columns else df.reset_index(drop=True)
	n = len(df)
	if n < 200:
	return {"status": "insufficient", "n": n}

	window = n // (self.N_FOLDS + 1)
	fold_results = []

	for i in range(self.N_FOLDS):
	train_end = window * (i + 1)
	test_start = train_end
	test_end = min(test_start + window, n)
	if test_end - test_start < 30:
	continue

	df_train = df.iloc[:train_end]
	df_test = df.iloc[test_start:test_end]

	for c in feat_cols:
	if c not in df_train.columns: df_train = df_train.copy(); df_train[c] = 0.0
	if c not in df_test.columns: df_test = df_test.copy(); df_test[c] = 0.0

	X_tr = df_train[feat_cols].fillna(0).values.astype(np.float32)
	y_tr = df_train["label"].values.astype(np.int32)
	X_te = df_test[feat_cols].fillna(0).values.astype(np.float32)
	y_te = df_test["label"].values.astype(np.int32)

	try:
	model.fit(X_tr, y_tr)
	preds = model.predict(X_te)
	probs = model.predict_proba(X_te)
	conf = np.max(probs, axis=1)
	acc = float(np.mean(preds == y_te))
	sharpe = (float(np.mean(conf)) - 0.5) / (float(np.std(conf)) + 1e-9) * math.sqrt(len(conf))
	non_flat = [(t, p) for t, p in zip(y_te, preds) if p != 0]
	win_rate = sum(1 for t, p in non_flat if t == p) / max(len(non_flat), 1)
	passed = sharpe >= GATE["min_sharpe_oos"] and win_rate >= GATE["min_win_rate"]
	fold_results.append({
	"fold": i, "n_train": len(X_tr), "n_test": len(X_te),
	"acc": round(acc, 4), "sharpe": round(sharpe, 4),
	"win_rate": round(win_rate, 4), "passed": passed,
	})
	except Exception as e:
	log.warning(f"WF fold {i}: {e}")

	if not fold_results:
	return {"status": "no_folds"}

	n_pass = sum(1 for f in fold_results if f["passed"])
	avg_sh = sum(f["sharpe"] for f in fold_results) / len(fold_results)
	avg_wr = sum(f["win_rate"] for f in fold_results) / len(fold_results)
	overall_pass = n_pass >= GATE["min_folds_pass"]

	return {
	"status": "pass" if overall_pass else "fail",
	"n_folds": len(fold_results),
	"folds_passed": n_pass,
	"avg_sharpe": round(avg_sh, 4),
	"avg_win_rate": round(avg_wr, 4),
	"fold_details": fold_results,
	}


	# ─────────────────────────────────────────────────────────────────
	# 3. REGIME-SPECIFIC VALIDATOR
	# ─────────────────────────────────────────────────────────────────

	class RegimeValidator:
	"""Test model separately in each market regime."""

	REGIMES = {
	"TRENDING": lambda df: df["adx"] > 25 if "adx" in df.columns else pd.Series([True]*len(df)),
	"RANGING": lambda df: df["adx"] < 20 if "adx" in df.columns else pd.Series([False]*len(df)),
	"VOLATILE": lambda df: df["vol_surge"] > 2.0 if "vol_surge" in df.columns else pd.Series([False]*len(df)),
	"QUIET": lambda df: df["vol_surge"] < 0.7 if "vol_surge" in df.columns else pd.Series([False]*len(df)),
	}

	def validate(self, model, df: pd.DataFrame, feat_cols: list) -> dict:
	results = {}
	for regime, mask_fn in self.REGIMES.items():
	try:
	mask = mask_fn(df)
	sub = df[mask].copy()
	if len(sub) < 30:
	results[regime] = {"status": "insufficient", "n": len(sub)}
	continue
	for c in feat_cols:
	if c not in sub.columns: sub[c] = 0.0
	X = sub[feat_cols].fillna(0).values.astype(np.float32)
	y = sub["label"].values.astype(np.int32)
	preds = model.predict(X)
	probs = model.predict_proba(X)
	conf = np.max(probs, axis=1)
	acc = float(np.mean(preds == y))
	sharpe = (float(np.mean(conf)) - 0.5) / (float(np.std(conf)) + 1e-9) * math.sqrt(len(conf))
	non_flat = [(t, p) for t, p in zip(y, preds) if p != 0]
	win_rate = sum(1 for t, p in non_flat if t == p) / max(len(non_flat), 1)
	results[regime] = {
	"n": len(y), "accuracy": round(acc, 4),
	"sharpe": round(sharpe, 4), "win_rate": round(win_rate, 4),
	"n_signals": len(non_flat),
	}
	except Exception as e:
	results[regime] = {"status": "error", "error": str(e)}
	return results


	# ─────────────────────────────────────────────────────────────────
	# 4. BENCHMARK COMPARATOR
	# ─────────────────────────────────────────────────────────────────

	class BenchmarkComparator:
	"""Compare model vs Buy-Hold and vs Random."""

	def compare(self, model, df: pd.DataFrame, feat_cols: list) -> dict:
	df_oos = df.iloc[int(len(df)*0.8):].copy()
	for c in feat_cols:
	if c not in df_oos.columns: df_oos[c] = 0.0

	X = df_oos[feat_cols].fillna(0).values.astype(np.float32)
	y = df_oos["label"].values.astype(np.int32)

	try:
	preds = model.predict(X)
	except Exception:
	return {"status": "error"}

	model_acc = float(np.mean(preds == y))
	random_acc = float(np.mean(np.random.choice([-1,0,1], size=len(y)) == y))
	# Buy-hold baseline: always predict +1
	buyhold_acc = float(np.mean(np.ones(len(y), dtype=int) == y))
	edge_vs_random = model_acc - random_acc
	edge_vs_buyhold = model_acc - buyhold_acc

	# Signal quality
	non_flat = [(t, p) for t, p in zip(y, preds) if p != 0]
	signal_rate = len(non_flat) / max(len(preds), 1)
	win_rate = sum(1 for t, p in non_flat if t == p) / max(len(non_flat), 1)

	passes_edge = edge_vs_random >= GATE["min_edge_vs_random"]
	return {
	"model_acc": round(model_acc, 4),
	"random_acc": round(random_acc, 4),
	"buyhold_acc": round(buyhold_acc, 4),
	"edge_vs_random": round(edge_vs_random, 4),
	"edge_vs_buyhold": round(edge_vs_buyhold, 4),
	"signal_rate": round(signal_rate, 4),
	"win_rate": round(win_rate, 4),
	"passes_edge_gate": passes_edge,
	}


	# ─────────────────────────────────────────────────────────────────
	# 5. PAPER TRADING SIMULATOR
	# ─────────────────────────────────────────────────────────────────

	class PaperTradingSimulator:
	"""
	Lightweight paper trading sim using OOS experience data.
	Simulates actual trade P&L with slippage and spread costs.
	No NautilusTrader dependency — runs on historical experience data.
	"""
	SLIPPAGE_PCT = 0.0002 # 0.02% slippage per side
	SPREAD_COST = 0.0001 # 0.01% spread cost
	MAX_POSITION = 1.0 # fraction of capital
	STOP_LOSS_PCT = 0.005 # 0.5% hard stop

	def simulate(self, model, df: pd.DataFrame, feat_cols: list,
	initial_capital: float = 10_000.0) -> dict:
	"""
	Walk through OOS data chronologically.
	Open/close trades based on model signals.
	Track P&L, drawdown, win rate.
	"""
	df_oos = df.sort_values("timestamp").iloc[int(len(df)*0.8):].copy() \
	if "timestamp" in df.columns else df.iloc[int(len(df)*0.8):].copy()

	if len(df_oos) < 50:
	return {"status": "insufficient_oos_data"}

	for c in feat_cols:
	if c not in df_oos.columns: df_oos[c] = 0.0

	X = df_oos[feat_cols].fillna(0).values.astype(np.float32)
	y = df_oos["label"].values.astype(np.int32)
	pnl = df_oos["actual_pnl"].values if "actual_pnl" in df_oos.columns else np.zeros(len(y))

	try:
	preds = model.predict(X)
	probs = model.predict_proba(X)
	except Exception as e:
	return {"status": "predict_error", "error": str(e)}

	capital = initial_capital
	equity_curve = [capital]
	trades = []
	in_trade = False
	entry_direction = 0

	for i, (pred, prob, actual_pnl_pct) in enumerate(zip(preds, np.max(probs, axis=1), pnl)):
	if pred == 0:
	# No signal — if in trade, check stop
	if in_trade:
	current_ret = actual_pnl_pct * entry_direction
	if current_ret < -self.STOP_LOSS_PCT:
	# Hit stop loss
	net = current_ret - self.SLIPPAGE_PCT - self.SPREAD_COST
	capital *= (1 + net)
	trades.append({"type": "stop_loss", "ret": net, "capital": capital})
	equity_curve.append(capital)
	in_trade = False
	continue

	if not in_trade:
	# Open new trade
	cost = self.SLIPPAGE_PCT + self.SPREAD_COST
	in_trade = True
	entry_direction = pred
	else:
	# Already in trade — if signal flips, close and reopen
	if pred != entry_direction:
	# Close current
	net = actual_pnl_pct * entry_direction - self.SLIPPAGE_PCT - self.SPREAD_COST
	capital *= (1 + net)
	trades.append({"type": "close_flip", "ret": net, "capital": capital})
	equity_curve.append(capital)
	# Open new
	entry_direction = pred
	else:
	# Confirm existing trade
	net = actual_pnl_pct * entry_direction - self.SLIPPAGE_PCT
	capital *= (1 + net)
	trades.append({"type": "confirm", "ret": net, "capital": capital})
	equity_curve.append(capital)

	if not trades:
	return {"status": "no_trades"}

	returns = [t["ret"] for t in trades]
	winning = [r for r in returns if r > 0]
	losing = [r for r in returns if r < 0]
	total_ret = (capital - initial_capital) / initial_capital
	sharpe_sim = _sharpe(returns)
	max_dd = _max_drawdown(equity_curve)
	win_rate_sim = len(winning) / max(len(returns), 1)
	profit_factor = abs(sum(winning)) / max(abs(sum(losing)), 1e-9)

	passed = (sharpe_sim >= GATE["min_sharpe_oos"]
	and win_rate_sim >= GATE["min_win_rate"]
	and max_dd >= GATE["max_drawdown"])

	return {
	"status": "pass" if passed else "fail",
	"initial_capital":initial_capital,
	"final_capital": round(capital, 2),
	"total_return": round(total_ret, 4),
	"sharpe": round(sharpe_sim, 4),
	"max_drawdown": round(max_dd, 4),
	"win_rate": round(win_rate_sim, 4),
	"profit_factor": round(profit_factor, 4),
	"n_trades": len(trades),
	"n_wins": len(winning),
	"n_losses": len(losing),
	}


	# ─────────────────────────────────────────────────────────────────
	# 6. MASTER VALIDATOR — ties everything together
	# ─────────────────────────────────────────────────────────────────

	class MasterValidator:
	"""
	Run full validation suite on a model.
	Publishes results to HF. Updates model_registry.
	"""

	def __init__(self):
	self.per_expert = PerExpertValidator()
	self.walk_fwd = WalkForwardValidator()
	self.regime = RegimeValidator()
	self.benchmark = BenchmarkComparator()
	self.paper = PaperTradingSimulator()

	def run_full_validation(self, model, df_oos: pd.DataFrame,
	model_name: str, feat_cols: list,
	expert_id: str = "E1",
	strategy: str = "general") -> dict:
	log.info(f"🧪 Validating {model_name} ({len(df_oos):,} OOS rows)")
	ts = datetime.now(timezone.utc).isoformat()
	report = {"model": model_name, "validated_at": ts, "strategy": strategy}

	report["per_expert"] = self.per_expert.validate_expert(model, df_oos, expert_id, strategy)
	report["walk_forward"] = self.walk_fwd.validate(model, df_oos, feat_cols)
	report["regime"] = self.regime.validate(model, df_oos, feat_cols)
	report["benchmark"] = self.benchmark.compare(model, df_oos, feat_cols)
	report["paper_trading"] = self.paper.simulate(model, df_oos, feat_cols)

	# Overall promotion decision
	wf = report["walk_forward"]
	bm = report["benchmark"]
	pt = report["paper_trading"]
	pe = report["per_expert"]

	promotion_checks = {
	"wf_pass": wf.get("status") == "pass",
	"edge_vs_random": bm.get("passes_edge_gate", False),
	"paper_pass": pt.get("status") == "pass",
	"expert_sharpe": pe.get("sharpe", 0) >= GATE["min_sharpe_oos"],
	}
	promote = sum(promotion_checks.values()) >= 3 # need 3/4 checks
	report["promotion"] = {"promote": promote, "checks": promotion_checks}

	log.info(f" {'✅ PROMOTE' if promote else '❌ REJECT'} {model_name} \| "
	f"WF={wf.get('avg_sharpe','?')} PT={pt.get('sharpe','?')}")

	self._save_report(model_name, report)
	return report

	def _save_report(self, model_name: str, report: dict):
	path = f"validation_{model_name.replace('/','_')}.json"
	with open(path, "w") as f:
	json.dump(report, f, indent=2)
	try:
	from huggingface_hub import HfApi
	api = HfApi(token=HF_TOKEN)
	ts = datetime.now(timezone.utc).strftime("%Y%m%d_%H%M")
	api.upload_file(
	path_or_fileobj=path, token=HF_TOKEN,
	path_in_repo=f"validation/{model_name}_{ts}.json",
	repo_id=EXPERIENCE_REPO, repo_type="dataset",
	commit_message=f"Validation: {model_name}",
	)
	except Exception as e:
	log.warning(f"Cannot push report: {e}")


	# ─────────────────────────────────────────────────────────────────
	# Run loop (called from forge_controller or training_engine)
	# ─────────────────────────────────────────────────────────────────

	def validate_after_training(model, df_oos: pd.DataFrame,
	model_name: str, feat_cols: list,
	expert_id: str = "E1",
	strategy: str = "general") -> bool:
	"""Returns True if model should be promoted."""
	mv = MasterValidator()
	report = mv.run_full_validation(model, df_oos, model_name, feat_cols, expert_id, strategy)
	return report["promotion"]["promote"]


	if __name__ == "__main__":
	logging.basicConfig(level=logging.INFO)
	# Quick self-test with synthetic data
	from sklearn.ensemble import GradientBoostingClassifier
	import numpy as np

	np.random.seed(42)
	n = 1000
	feat_cols = ["obi","vpin","adx","rsi","zscore_60","funding"]
	df_test = pd.DataFrame({c: np.random.randn(n) for c in feat_cols})
	df_test["label"] = np.random.choice([-1,0,1], n)
	df_test["actual_pnl"] = np.random.uniform(-0.01, 0.01, n)
	df_test["timestamp"] = np.arange(n)

	model = GradientBoostingClassifier(n_estimators=30, random_state=42)
	X = df_test[feat_cols].values; y = df_test["label"].values
	model.fit(X, y)

	mv = MasterValidator()
	report = mv.run_full_validation(model, df_test, "test_model", feat_cols, "E1", "test")
	print(json.dumps({
	"wf_status": report["walk_forward"]["status"],
	"wf_sharpe": report["walk_forward"].get("avg_sharpe"),
	"pt_status": report["paper_trading"]["status"],
	"pt_sharpe": report["paper_trading"].get("sharpe"),
	"promote": report["promotion"]["promote"],
	}, indent=2))