Upload folder using huggingface_hub

22d888b verified about 1 month ago

23.4 kB

	"""Gymnasium trading environment for offline RL data collection.

	This environment produces episodes from the parquet data.
	It is used both for:
	1. Online validation / replay of trained policies
	2. Generating offline transitions for IQL training
	"""
	from __future__ import annotations

	from dataclasses import dataclass
	from typing import Any

	import gymnasium as gym
	import numpy as np
	import pandas as pd

	from .constants import (
	ACTIONS,
	ACTION_INDEX_BY_NAME,
	DEFAULT_EPISODE_SPAN_DAYS,
	DEFAULT_EPISODE_STRIDE_DAYS,
	DEFAULT_HISTORY_LENGTH,
	DEFAULT_REBALANCE_TOLERANCE,
	DRAWDOWN_LIMIT,
	MARKET_FEATURE_COLUMNS,
	PORTFOLIO_FEATURE_COLUMNS,
	STARTING_CASH,
	)


	@dataclass
	class FillResult:
	executed: bool
	action_name: str
	side: str \| None
	shares: float = 0.0
	price: float = 0.0
	cost: float = 0.0
	fee: float = 0.0
	reason: str = ""


	@dataclass
	class PositionState:
	side: str \| None = None # "YES" or "NO" or None
	shares: float = 0.0
	cost_basis_usdc: float = 0.0
	avg_entry_price: float = 0.0
	steps_held: int = 0

	def is_open(self) -> bool:
	return self.side is not None and self.shares > 0

	def reset(self):
	self.side = None
	self.shares = 0.0
	self.cost_basis_usdc = 0.0
	self.avg_entry_price = 0.0
	self.steps_held = 0


	@dataclass
	class PortfolioState:
	starting_cash: float = STARTING_CASH
	cash: float = STARTING_CASH
	peak_equity: float = STARTING_CASH
	max_drawdown_fraction: float = 0.0
	realized_pnl: float = 0.0
	fill_count: int = 0
	position: PositionState = None

	def __post_init__(self):
	if self.position is None:
	self.position = PositionState()

	def equity(self, yes_bid: float, no_bid: float) -> float:
	if self.position.is_open():
	bid = yes_bid if self.position.side == "YES" else no_bid
	liquidation_value = self.position.shares * bid
	return self.cash + liquidation_value
	return self.cash

	def mark_to_liquidation(self, yes_bid: float, no_bid: float) -> float:
	if self.position.is_open():
	bid = yes_bid if self.position.side == "YES" else no_bid
	return self.position.shares * bid
	return 0.0

	def update_drawdown(self, yes_bid: float, no_bid: float) -> float:
	current = self.equity(yes_bid=yes_bid, no_bid=no_bid)
	if current > self.peak_equity:
	self.peak_equity = current
	if self.peak_equity > 1e-12:
	dd = max(0.0, (self.peak_equity - current) / self.peak_equity)
	self.max_drawdown_fraction = max(self.max_drawdown_fraction, dd)
	return self.max_drawdown_fraction


	def _to_utc_timestamp(value) -> pd.Timestamp:
	ts = pd.Timestamp(value)
	if ts.tzinfo is None:
	return ts.tz_localize("UTC")
	return ts.tz_convert("UTC")


	@dataclass
	class EpisodeData:
	episode_index: int
	episode_start_day: pd.Timestamp
	episode_end_day: pd.Timestamp
	episode_days: tuple[pd.Timestamp, ...]
	frame: pd.DataFrame
	market_features_raw: np.ndarray


	class BTCTradingEnv(gym.Env[np.ndarray, int]):
	"""Gymnasium environment for BTC 5m trading.

	Observation = flattened [history of market features] + [current portfolio state].
	Action = discrete action ID from ACTIONS.
	"""

	metadata = {"render_modes": []}

	def __init__(
	self,
	df: pd.DataFrame,
	*,
	market_feature_columns: list[str] \| None = None,
	starting_cash: float = STARTING_CASH,
	market_feature_mean: np.ndarray \| None = None,
	market_feature_std: np.ndarray \| None = None,
	episode_days: list[pd.Timestamp] \| None = None,
	history_length: int = DEFAULT_HISTORY_LENGTH,
	episode_span_days: int = DEFAULT_EPISODE_SPAN_DAYS,
	episode_stride_days: int = DEFAULT_EPISODE_STRIDE_DAYS,
	max_position_cost_fraction_of_equity: float \| None = 0.50,
	max_position_steps: int \| None = None,
	soft_drawdown_increment_penalty: float = 0.50,
	rebalance_tolerance: float = DEFAULT_REBALANCE_TOLERANCE,
	risk_lambda: float = 1.0,
	cvar_alpha: float = 0.05,
	taker_fee_rate: float = 0.072,
	) -> None:
	super().__init__()
	self.market_feature_columns = market_feature_columns or list(MARKET_FEATURE_COLUMNS)
	self.starting_cash = float(starting_cash)
	self.market_feature_mean = market_feature_mean
	self.market_feature_std = market_feature_std
	self.history_length = max(1, int(history_length))
	self.episode_span_days = max(1, int(episode_span_days))
	self.episode_stride_days = max(1, int(episode_stride_days))
	self.max_position_cost_fraction_of_equity = (
	None if max_position_cost_fraction_of_equity is None
	else float(max_position_cost_fraction_of_equity)
	)
	self.max_position_steps = None if max_position_steps is None else int(max_position_steps)
	self.soft_drawdown_increment_penalty = float(soft_drawdown_increment_penalty)
	self.rebalance_tolerance = max(0.0, float(rebalance_tolerance))
	self.risk_lambda = float(risk_lambda)
	self.cvar_alpha = float(cvar_alpha)
	self.taker_fee_rate = float(taker_fee_rate)

	working = df.copy()
	working["episode_day"] = pd.to_datetime(working["episode_day"], utc=True)
	feature_defaults = {
	"funding_rate": 0.0,
	"funding_rate_prev": 0.0,
	"oi_delta_5m": 0.0,
	"oi_delta_15m": 0.0,
	"oi_delta_60m": 0.0,
	"long_short_ratio": 1.0,
	"label_up": 0.0,
	}
	for col in self.market_feature_columns:
	if col not in working.columns:
	working[col] = feature_defaults.get(col, 0.0)
	elif working[col].isna().all():
	working[col] = feature_defaults.get(col, 0.0)
	else:
	working[col] = working[col].fillna(feature_defaults.get(col, 0.0))
	if "label_up" in working.columns:
	working["label_up"] = working["label_up"].fillna(0.0)
	available_days = list(episode_days or sorted(pd.Index(working["episode_day"].drop_duplicates())))
	available_days = [_to_utc_timestamp(day) for day in available_days]

	self._episodes: list[EpisodeData] = []
	for start_idx in range(0, len(available_days), self.episode_stride_days):
	window_days = tuple(available_days[start_idx:start_idx + self.episode_span_days])
	if not window_days:
	continue
	frame = (
	working.loc[working["episode_day"].isin(window_days)]
	.sort_values(["start_time", "obs_pos"])
	.reset_index(drop=True)
	)
	if frame.empty:
	continue
	self._episodes.append(EpisodeData(
	episode_index=len(self._episodes),
	episode_start_day=window_days[0],
	episode_end_day=window_days[-1],
	episode_days=window_days,
	frame=frame,
	market_features_raw=np.nan_to_num(
	frame[self.market_feature_columns].to_numpy(dtype=np.float32),
	nan=0.0,
	posinf=0.0,
	neginf=0.0,
	),
	))

	if not self._episodes:
	raise ValueError("BTCTradingEnv requires at least one non-empty episode.")

	obs_size = (self.history_length * len(self.market_feature_columns)) + len(PORTFOLIO_FEATURE_COLUMNS)
	self.action_space = gym.spaces.Discrete(len(ACTIONS))
	self.observation_space = gym.spaces.Box(
	low=-np.inf, high=np.inf, shape=(obs_size,), dtype=np.float32,
	)

	self._rng = np.random.default_rng()
	self._episode_index = 0
	self._episode: EpisodeData \| None = None
	self._cursor = 0
	self._portfolio = PortfolioState(starting_cash=self.starting_cash, cash=self.starting_cash)

	@property
	def portfolio(self) -> PortfolioState:
	return self._portfolio

	def current_row(self) -> pd.Series:
	if self._episode is None:
	raise RuntimeError("Environment not reset.")
	return self._episode.frame.iloc[self._cursor]

	def _normalize_market_features(self, raw: np.ndarray) -> np.ndarray:
	raw = np.nan_to_num(raw.astype(np.float32), nan=0.0, posinf=0.0, neginf=0.0)
	if self.market_feature_mean is None or self.market_feature_std is None:
	return raw
	normalized = ((raw - self.market_feature_mean) / self.market_feature_std).astype(np.float32)
	return np.nan_to_num(normalized, nan=0.0, posinf=0.0, neginf=0.0)

	def _position_fraction(self, yes_bid: float, no_bid: float) -> float:
	equity = self._portfolio.equity(yes_bid=yes_bid, no_bid=no_bid)
	if equity <= 1e-12:
	return 0.0
	return self._portfolio.mark_to_liquidation(yes_bid=yes_bid, no_bid=no_bid) / equity

	def _portfolio_features(self, row: pd.Series) -> np.ndarray:
	yes_bid = float(row["yes_bid_validated"])
	no_bid = float(row["no_bid_validated"])
	equity = self._portfolio.equity(yes_bid=yes_bid, no_bid=no_bid)
	mark_value = self._portfolio.mark_to_liquidation(yes_bid=yes_bid, no_bid=no_bid)
	position = self._portfolio.position
	position_side = 0.0
	if position.side == "YES":
	position_side = 1.0
	elif position.side == "NO":
	position_side = -1.0
	unrealized = mark_value - position.cost_basis_usdc if position.is_open() else 0.0
	position_fraction = self._position_fraction(yes_bid=yes_bid, no_bid=no_bid)
	return np.array([
	self._portfolio.cash / self.starting_cash,
	equity / self.starting_cash,
	self._portfolio.max_drawdown_fraction,
	position_side,
	position_fraction,
	position.shares,
	position.avg_entry_price,
	unrealized / self.starting_cash,
	position.steps_held / 5.0,
	], dtype=np.float32)

	def _history_features(self) -> np.ndarray:
	if self._episode is None:
	raise RuntimeError("Environment not reset.")
	history_vectors: list[np.ndarray] = []
	first_index = max(0, self._cursor - self.history_length + 1)
	for idx in range(first_index, self._cursor + 1):
	history_vectors.append(self._normalize_market_features(self._episode.market_features_raw[idx]))
	while len(history_vectors) < self.history_length:
	history_vectors.insert(0, np.zeros(len(self.market_feature_columns), dtype=np.float32))
	return np.concatenate(history_vectors, dtype=np.float32)

	def _get_observation(self) -> np.ndarray:
	row = self.current_row()
	market_history = self._history_features()
	portfolio = self._portfolio_features(row)
	return np.concatenate([market_history, portfolio], dtype=np.float32)

	def _compute_fee(self, shares: float, price: float) -> float:
	"""Compute taker fee for a trade.

	Quadratic fee model: fee = shares × fee_rate × price × (1 - price).
	Highest near price=0.50, zero at price=0 or 1.
	Matches Crypto/BTC prediction market fee schedule.
	"""
	if self.taker_fee_rate <= 0:
	return 0.0
	return float(shares) * self.taker_fee_rate * price * (1.0 - price)

	def _buy_to_target(self, *, row: pd.Series, side: str, target_fraction: float,
	equity_reference: float) -> FillResult:
	ask = float(row["yes_ask_validated"] if side == "YES" else row["no_ask_validated"])
	budget = min(self._portfolio.cash, max(0.0, float(target_fraction) * float(equity_reference)))
	if self.max_position_cost_fraction_of_equity is not None:
	cap = float(self.max_position_cost_fraction_of_equity) * float(equity_reference)
	budget = min(budget, cap)
	if ask <= 0 or budget <= 0:
	return FillResult(False, "BUY", side, reason="INVALID_PRICE")
	shares = budget / ask
	fee = self._compute_fee(shares, ask)
	total_cost = budget + fee
	if total_cost > self._portfolio.cash:
	# Adjust to what we can actually afford
	shares = self._portfolio.cash / (ask + self.taker_fee_rate * ask * (1.0 - ask))
	budget = shares * ask
	fee = self._compute_fee(shares, ask)
	total_cost = budget + fee
	new_cost = self._portfolio.position.cost_basis_usdc + budget
	new_shares = self._portfolio.position.shares + shares
	new_avg = new_cost / new_shares if new_shares > 0 else 0
	self._portfolio.position.side = side
	self._portfolio.position.shares = new_shares
	self._portfolio.position.cost_basis_usdc = new_cost
	self._portfolio.position.avg_entry_price = new_avg
	self._portfolio.cash -= total_cost
	self._portfolio.fill_count += 1
	return FillResult(True, "BUY", side, shares=shares, price=ask, cost=budget, fee=fee)

	def _liquidate(self, *, row: pd.Series) -> FillResult:
	position = self._portfolio.position
	if not position.is_open():
	return FillResult(False, "LIQUIDATE", None, reason="NO_POSITION")
	side = position.side
	shares = position.shares
	yes_bid = float(row["yes_bid_validated"])
	no_bid = float(row["no_bid_validated"])
	bid = yes_bid if side == "YES" else no_bid
	proceeds = shares * bid
	fee = self._compute_fee(shares, bid)
	net_proceeds = proceeds - fee
	pnl = net_proceeds - position.cost_basis_usdc
	self._portfolio.cash += net_proceeds
	self._portfolio.realized_pnl += pnl
	position.reset()
	self._portfolio.fill_count += 1
	return FillResult(True, "LIQUIDATE", side, shares=shares, price=bid, fee=fee)

	def _apply_action(self, action_id: int) -> FillResult:
	action = ACTIONS[int(action_id)]
	row = self.current_row()
	yes_bid = float(row["yes_bid_validated"])
	no_bid = float(row["no_bid_validated"])
	equity = self._portfolio.equity(yes_bid=yes_bid, no_bid=no_bid)
	current_fraction = self._position_fraction(yes_bid=yes_bid, no_bid=no_bid)
	target_fraction = float(action.target_fraction)
	if self.max_position_cost_fraction_of_equity is not None and target_fraction > 0.0:
	target_fraction = min(target_fraction, float(self.max_position_cost_fraction_of_equity))

	if action.kind == "hold":
	return FillResult(False, action.name, None, reason="HOLD")

	if int(row.get("obs_pos", 0)) == 4:
	# The settlement row resolves any existing inventory in `step`.
	# Opening or changing positions here would let a policy buy using
	# same-row outcome information, which is not executable.
	return FillResult(False, action.name, action.target_side, reason="SETTLEMENT_ROW")

	if target_fraction <= 0.0:
	# FLAT action: liquidate if open
	if self._portfolio.position.is_open():
	return self._liquidate(row=row)
	return FillResult(False, action.name, None, reason="ALREADY_FLAT")

	# Side switch: liquidate first
	if (self._portfolio.position.is_open()
	and self._portfolio.position.side != action.target_side):
	self._liquidate(row=row)
	equity = self._portfolio.equity(yes_bid=yes_bid, no_bid=no_bid)

	current_fraction = self._position_fraction(yes_bid=yes_bid, no_bid=no_bid)
	delta = target_fraction - current_fraction
	if abs(delta) <= self.rebalance_tolerance:
	return FillResult(False, action.name, action.target_side, reason="AT_TARGET")

	if delta > 0:
	return self._buy_to_target(
	row=row, side=action.target_side,
	target_fraction=delta, equity_reference=equity,
	)
	else:
	# Reduce: sell fraction of current position
	sell_frac = min(1.0, abs(delta) / max(current_fraction, 1e-12))
	if sell_frac <= 0:
	return FillResult(False, action.name, action.target_side, reason="NO_REDUCTION")
	position = self._portfolio.position
	yes_bid = float(row["yes_bid_validated"])
	no_bid = float(row["no_bid_validated"])
	bid = yes_bid if position.side == "YES" else no_bid
	shares_to_sell = position.shares * sell_frac
	proceeds = shares_to_sell * bid
	fee = self._compute_fee(shares_to_sell, bid)
	net_proceeds = proceeds - fee
	cost_portion = position.cost_basis_usdc * sell_frac
	pnl = net_proceeds - cost_portion
	self._portfolio.cash += net_proceeds
	self._portfolio.realized_pnl += pnl
	position.shares -= shares_to_sell
	position.cost_basis_usdc -= cost_portion
	side = position.side
	if position.shares <= 1e-6:
	position.reset()
	self._portfolio.fill_count += 1
	return FillResult(True, "REDUCE", side, shares=shares_to_sell, price=bid, fee=fee)

	def _compute_risk_sensitive_reward(self, equity_before: float, equity_after: float,
	prev_drawdown: float, current_drawdown: float) -> float:
	"""Compute risk-sensitive reward based on PnL, drawdown, and CVaR-like penalty."""
	# Bounded log-equity return. This matches the offline dataset reward
	# scaling and prevents rare near-expiry binary payouts from dominating
	# the critic target scale.
	equity_floor = max(1e-6, 0.01 * self.starting_cash)
	before = max(float(equity_before), equity_floor)
	after = max(float(equity_after), equity_floor)
	pnl_reward = float(np.log(after / before))
	pnl_reward = max(-2.0, min(2.0, pnl_reward))

	# Drawdown increment penalty
	dd_penalty = self.soft_drawdown_increment_penalty * max(0.0, current_drawdown - prev_drawdown)

	# Risk penalty: heavily penalise large drawdown increments
	risk_penalty = self.risk_lambda * max(0.0, current_drawdown - prev_drawdown) ** 2

	# CVaR-like: penalise tail losses (amplify negative returns during drawdown)
	if pnl_reward < 0:
	cvar_penalty = self.risk_lambda * abs(pnl_reward) * (1.0 + current_drawdown)
	else:
	cvar_penalty = 0.0

	reward = pnl_reward - dd_penalty - risk_penalty - cvar_penalty
	return max(-4.0, min(4.0, reward))

	def reset(self, *, seed: int \| None = None,
	options: dict[str, Any] \| None = None) -> tuple[np.ndarray, dict[str, Any]]:
	super().reset(seed=seed)
	if seed is not None:
	self._rng = np.random.default_rng(seed)

	options = options or {}
	if "episode_index" in options:
	episode_index = int(options["episode_index"])
	else:
	episode_index = int(self._rng.integers(0, len(self._episodes)))

	starting_cash = float(options.get("starting_cash", self.starting_cash))
	starting_peak = float(options.get("starting_peak_equity", starting_cash))
	starting_dd = float(options.get("starting_max_drawdown_fraction", 0.0))

	self._episode_index = episode_index
	self._episode = self._episodes[episode_index]
	self._cursor = 0
	self._portfolio = PortfolioState(
	starting_cash=self.starting_cash, cash=starting_cash,
	peak_equity=starting_peak, max_drawdown_fraction=starting_dd,
	)
	obs = self._get_observation()
	row = self.current_row()
	info = {
	"episode_index": self._episode_index,
	"episode_day": row["episode_day"].isoformat(),
	"episode_start_day": self._episode.episode_start_day.isoformat(),
	"episode_end_day": self._episode.episode_end_day.isoformat(),
	}
	return obs, info

	def step(self, action_id: int) -> tuple[np.ndarray, float, bool, bool, dict[str, Any]]:
	row = self.current_row()
	yes_bid = float(row["yes_bid_validated"])
	no_bid = float(row["no_bid_validated"])
	equity_before = self._portfolio.equity(yes_bid=yes_bid, no_bid=no_bid)
	prev_drawdown = self._portfolio.max_drawdown_fraction

	fill = self._apply_action(int(action_id))

	# Check settlement: obs_pos==4 means end of 5m window
	settlement_pnl = 0.0
	if int(row.get("obs_pos", 0)) == 4 and self._portfolio.position.is_open():
	# Settle position based on label
	label_up = int(row.get("label_up", 0))
	position = self._portfolio.position
	# YES pays $1 if UP (label_up==1), $0 if DOWN
	# NO pays $1 if DOWN (label_up==0), $0 if UP
	if position.side == "YES":
	proceeds = position.shares * (1.0 if label_up == 1 else 0.0)
	else: # NO
	proceeds = position.shares * (1.0 if label_up == 0 else 0.0)
	settlement_pnl = proceeds - position.cost_basis_usdc
	self._portfolio.cash += proceeds
	self._portfolio.realized_pnl += settlement_pnl
	position.reset()
	self._portfolio.fill_count += 1

	equity_after = self._portfolio.equity(yes_bid=yes_bid, no_bid=no_bid)
	current_drawdown = self._portfolio.update_drawdown(yes_bid=yes_bid, no_bid=no_bid)

	reward = self._compute_risk_sensitive_reward(
	equity_before, equity_after, prev_drawdown, current_drawdown,
	)

	# Drawdown breach
	terminated = current_drawdown >= DRAWDOWN_LIMIT
	if terminated:
	if self._portfolio.position.is_open():
	self._liquidate(row=row)
	reward -= 1.0

	is_last_row = self._cursor >= len(self._episode.frame) - 1
	truncated = is_last_row and not terminated

	info: dict[str, Any] = {
	"episode_day": row["episode_day"].isoformat(),
	"episode_start_day": self._episode.episode_start_day.isoformat(),
	"episode_end_day": self._episode.episode_end_day.isoformat(),
	"action_name": ACTIONS[int(action_id)].name,
	"fill_executed": fill.executed,
	"fill_fee": fill.fee,
	"equity_before": equity_before,
	"equity_after": equity_after,
	"reward": reward,
	}

	if terminated or truncated:
	info["episode_summary"] = {
	"ending_equity": self._portfolio.equity(yes_bid=yes_bid, no_bid=no_bid),
	"total_pnl": self._portfolio.equity(yes_bid=yes_bid, no_bid=no_bid) - self.starting_cash,
	"realized_pnl": self._portfolio.realized_pnl,
	"max_drawdown_fraction": self._portfolio.max_drawdown_fraction,
	"fill_count": self._portfolio.fill_count,
	}
	obs = np.zeros(self.observation_space.shape, dtype=np.float32)
	else:
	self._cursor += 1
	obs = self._get_observation()

	return obs, float(reward), terminated, truncated, info