Premchan369
/

alphaforge-quant-system

+"""Cross-Asset Statistical Arbitrage
+Jane Street and Two Sigma's bread and butter.
+Not directional bets — finding RELATIVE mispricings between assets.
+Strategies:
+1. Pairs Trading: Find cointegrated pairs, trade spread mean-reversion
+2. PCA Mean-Reversion: Extract risk factors, trade residuals
+3. Correlation Arbitrage: Options on baskets vs. baskets of options
+4. ETF Arbitrage: Price discrepancies between ETF and NAV
+5. Cross-Asset Momentum: Lead-lag effects (e.g., VIX → SPX)
+"""
+import numpy as np
+import pandas as pd
+from typing import Dict, List, Tuple, Optional
+from scipy import stats
+from scipy.optimize import minimize
+import warnings
+warnings.filterwarnings('ignore')
+def engle_granger_cointegration(x: np.ndarray, y: np.ndarray,
+                                  maxlag: int = 5) -> Dict:
+    """
+    Engle-Granger two-step cointegration test.
+    H0: No cointegration (spread is unit root = non-stationary)
+    H1: Cointegration exists (spread is stationary = mean-reverting)
+    If cointegrated, the spread WILL mean-revert. That's the trade.
+    """
+    # Step 1: OLS regression y = α + βx + ε
+    x_const = np.column_stack([np.ones(len(x)), x])
+    # Use simple linear regression
+    beta = np.linalg.lstsq(x_const, y, rcond=None)[0]
+    alpha, slope = beta[0], beta[1]
+    # Residuals (the spread)
+    spread = y - alpha - slope * x
+    # Step 2: ADF test on spread
+    adf_stat, pvalue, _, _, critical_values = adf_test(spread, maxlag=maxlag)
+    is_cointegrated = pvalue < 0.05
+    # Half-life of mean reversion
+    spread_lag = spread[:-1]
+    spread_diff = np.diff(spread)
+    if len(spread_lag) > 1 and np.var(spread_lag) > 0:
+        theta = np.cov(spread_diff, spread_lag)[0,1] / np.var(spread_lag)
+        half_life = -np.log(2) / theta if theta < 0 and theta > -1 else np.inf
+    else:
+        half_life = np.inf
+    return {
+        'cointegrated': is_cointegrated,
+        'adf_statistic': adf_stat,
+        'pvalue': pvalue,
+        'critical_values': critical_values,
+        'alpha': alpha,
+        'beta': slope,
+        'spread_mean': np.mean(spread),
+        'spread_std': np.std(spread),
+        'half_life': half_life,
+        'spread': spread
+    }
+def adf_test(series: np.ndarray, maxlag: int = 5) -> Tuple:
+    """Simplified ADF unit root test"""
+    n = len(series)
+    # Difference
+    dy = np.diff(series)
+    y_lag = series[:-1]
+    # Regression: dy = α + β*y_lag + ε
+    X = np.column_stack([np.ones(len(dy)), y_lag])
+    beta = np.linalg.lstsq(X, dy, rcond=None)[0]
+    residuals = dy - X @ beta
+    # Standard error of beta (slope on lag)
+    mse = np.mean(residuals ** 2)
+    var_beta = mse * np.linalg.inv(X.T @ X)
+    se_beta = np.sqrt(var_beta[1, 1]) if var_beta.shape == (2, 2) else 1.0
+    t_stat = beta[1] / se_beta if se_beta > 0 else 0
+    # Critical values (Dickey-Fuller distribution, approx)
+    critical = {
+        '1%': -3.43,
+        '5%': -2.86,
+        '10%': -2.57
+    }
+    # P-value approximation
+    pvalue = 0.1 if t_stat > critical['10%'] else 0.05 if t_stat > critical['5%'] else 0.01
+    return t_stat, pvalue, maxlag, n, critical
+class PairsTradingStrategy:
+    """
+    Pairs trading on cointegrated assets.
+    Signal: Spread z-score (how many std devs from mean)
+    Entry: |z-score| > threshold
+    Exit: z-score reverts to 0
+    Risk: Cointegration breaks (regime change) → stop loss
+    """
+    def __init__(self,
+                 lookback: int = 60,
+                 entry_z: float = 2.0,
+                 exit_z: float = 0.5,
+                 stop_z: float = 3.5,
+                 max_holding: int = 20):
+        self.lookback = lookback
+        self.entry_z = entry_z
+        self.exit_z = exit_z
+        self.stop_z = stop_z
+        self.max_holding = max_holding
+        self.positions = []  # Active trades
+        self.trade_history = []
+    def calculate_spread(self,
+                        prices1: np.ndarray,
+                        prices2: np.ndarray,
+                        hedge_ratio: Optional[float] = None) -> np.ndarray:
+        """Calculate spread between two price series"""
+        if hedge_ratio is None:
+            # Rolling hedge ratio
+            hedge_ratio = np.ones(len(prices1))
+            for i in range(self.lookback, len(prices1)):
+                y_window = prices2[i-self.lookback:i]
+                x_window = prices1[i-self.lookback:i]
+                if np.var(x_window) > 0:
+                    hr = np.cov(y_window, x_window)[0,1] / np.var(x_window)
+                    hedge_ratio[i] = hr
+                else:
+                    hedge_ratio[i] = hedge_ratio[i-1]
+        return prices2 - hedge_ratio * prices1
+    def generate_signals(self,
+                        spread: np.ndarray,
+                        spread_mean: Optional[float] = None,
+                        spread_std: Optional[float] = None) -> pd.DataFrame:
+        """Generate entry/exit signals from spread z-scores"""
+        if spread_mean is None:
+            spread_mean = pd.Series(spread).rolling(self.lookback).mean().values
+        if spread_std is None:
+            spread_std = pd.Series(spread).rolling(self.lookback).std().values
+        zscore = (spread - spread_mean) / (spread_std + 1e-10)
+        signals = pd.DataFrame({
+            'spread': spread,
+            'zscore': zscore,
+            'spread_mean': spread_mean,
+            'spread_std': spread_std
+        })
+        # Signals
+        signals['long_spread'] = zscore < -self.entry_z   # Spread cheap → long spread
+        signals['short_spread'] = zscore > self.entry_z     # Spread expensive → short spread
+        signals['exit_long'] = zscore > -self.exit_z        # Exit long
+        signals['exit_short'] = zscore < self.exit_z          # Exit short
+        signals['stop_loss'] = np.abs(zscore) > self.stop_z  # Stop loss
+        return signals
+    def backtest(self,
+                 prices1: np.ndarray,
+                 prices2: np.ndarray,
+                 hedge_ratio: Optional[np.ndarray] = None,
+                 transaction_cost: float = 0.001) -> pd.DataFrame:
+        """
+        Backtest pairs trading strategy.
+        Position sizing:
+        - Dollar-neutral: invest $X in asset1, short $X*hedge_ratio in asset2
+        - Residual exposure should be ~0 beta
+        """
+        spread = self.calculate_spread(prices1, prices2, hedge_ratio)
+        signals = self.generate_signals(spread)
+        # Position tracking
+        position = 0  # 0 = flat, 1 = long spread, -1 = short spread
+        entry_price1 = 0
+        entry_price2 = 0
+        entry_z = 0
+        holding_days = 0
+        pnl = []
+        positions = []
+        zscores = []
+        for i in range(len(signals)):
+            sig = signals.iloc[i]
+            # Check exits
+            if position == 1 and (sig['exit_long'] or sig['stop_loss'] or holding_days >= self.max_holding):
+                # Close long spread
+                pnl_pct = ((prices1[i] - entry_price1) / entry_price1 -
+                          (prices2[i] - entry_price2) / entry_price2)
+                pnl.append(pnl_pct - 2 * transaction_cost)
+                position = 0
+                holding_days = 0
+            elif position == -1 and (sig['exit_short'] or sig['stop_loss'] or holding_days >= self.max_holding):
+                # Close short spread
+                pnl_pct = ((entry_price1 - prices1[i]) / entry_price1 -
+                          (entry_price2 - prices2[i]) / entry_price2)
+                pnl.append(pnl_pct - 2 * transaction_cost)
+                position = 0
+                holding_days = 0
+            # Check entries (only if flat)
+            elif position == 0:
+                if sig['long_spread']:
+                    position = 1
+                    entry_price1 = prices1[i]
+                    entry_price2 = prices2[i]
+                    entry_z = sig['zscore']
+                    holding_days = 0
+                elif sig['short_spread']:
+                    position = -1
+                    entry_price1 = prices1[i]
+                    entry_price2 = prices2[i]
+                    entry_z = sig['zscore']
+                    holding_days = 0
+            if position != 0:
+                holding_days += 1
+            positions.append(position)
+            zscores.append(sig['zscore'])
+        results = pd.DataFrame({
+            'position': positions,
+            'zscore': zscores,
+            'spread': spread
+        })
+        # Add PnL (forward fill from trade list)
+        if pnl:
+            results['trade_pnl'] = pd.Series(pnl).reindex(results.index)
+        return results
+class PCAMeanReversion:
+    """
+    PCA-based mean-reversion strategy.
+    Insight: Extract principal components (market factors).
+    Residuals = stock return minus projection on factors.
+    Trade residuals: long underperformers, short outperformers.
+    This is what quant funds do: factor-neutral = pure alpha.
+    """
+    def __init__(self, n_factors: int = 5):
+        self.n_factors = n_factors
+        self.eigenvectors = None
+        self.eigenvalues = None
+        self.mean_returns = None
+    def fit(self, returns: pd.DataFrame):
+        """Fit PCA on return matrix"""
+        # Demean
+        self.mean_returns = returns.mean()
+        centered = returns - self.mean_returns
+        # SVD for numerical stability
+        cov = centered.T @ centered / len(centered)
+        eigenvalues, eigenvectors = np.linalg.eigh(cov)
+        # Sort descending
+        idx = np.argsort(eigenvalues)[::-1]
+        self.eigenvalues = eigenvalues[idx]
+        self.eigenvectors = eigenvectors[:, idx]
+        return self
+    def transform(self, returns: pd.DataFrame) -> pd.DataFrame:
+        """Project returns onto principal components"""
+        centered = returns - self.mean_returns
+        # Factor exposures (what the market is doing)
+        factors = centered @ self.eigenvectors[:, :self.n_factors]
+        # Reconstruct using top factors
+        reconstructed = factors @ self.eigenvectors[:, :self.n_factors].T + self.mean_returns
+        # Residuals = actual - predicted (idiosyncratic component)
+        residuals = returns - reconstructed
+        return residuals
+    def get_factor_exposures(self, returns: pd.DataFrame) -> pd.DataFrame:
+        """Get each asset's exposure to each factor"""
+        return pd.DataFrame(
+            self.eigenvectors[:, :self.n_factors],
+            index=returns.columns,
+            columns=[f'factor_{i+1}' for i in range(self.n_factors)]
+        )
+    def generate_residual_signals(self,
+                                   returns: pd.DataFrame,
+                                   lookback: int = 20,
+                                   entry_z: float = 2.0) -> pd.DataFrame:
+        """
+        Generate mean-reversion signals on residuals.
+        Signal: z-score of residual.
+        Long assets with negative residual (underperformed factor model).
+        Short assets with positive residual (outperformed).
+        """
+        residuals = self.transform(returns)
+        # Z-score of residuals
+        zscores = (residuals - residuals.rolling(lookback).mean()) / \
+                  (residuals.rolling(lookback).std() + 1e-10)
+        # Rank for portfolio construction
+        latest_z = zscores.iloc[-1] if len(zscores) > 0 else pd.Series(0, index=returns.columns)
+        # Long bottom decile (most negative residual = biggest underperformance)
+        # Short top decile (most positive residual = biggest outperformance)
+        signals = pd.DataFrame({
+            'zscore': latest_z,
+            'signal': 0
+        })
+        # Rank-based signals
+        signals['rank'] = signals['zscore'].rank()
+        n = len(signals)
+        # Bottom 20%: long (expect mean reversion up)
+        signals.loc[signals['rank'] <= n * 0.2, 'signal'] = 1
+        # Top 20%: short (expect mean reversion down)
+        signals.loc[signals['rank'] >= n * 0.8, 'signal'] = -1
+        return signals
+class LeadLagDetector:
+    """
+    Detect lead-lag relationships between assets.
+    Example: VIX futures lead SPX. Commodity futures lead ETFs.
+    Use cross-correlation at different lags.
+    """
+    def __init__(self, max_lag: int = 10):
+        self.max_lag = max_lag
+    def cross_correlation(self, x: np.ndarray, y: np.ndarray) -> Dict:
+        """
+        Compute cross-correlation at different lags.
+        If corr at lag +k is high: x leads y by k periods.
+        If corr at lag -k is high: y leads x by k periods.
+        """
+        # Normalize
+        x = (x - np.mean(x)) / (np.std(x) + 1e-10)
+        y = (y - np.mean(y)) / (np.std(y) + 1e-10)
+        correlations = {}
+        for lag in range(-self.max_lag, self.max_lag + 1):
+            if lag == 0:
+                corr = np.corrcoef(x, y)[0, 1]
+            elif lag > 0:
+                # x leads y
+                corr = np.corrcoef(x[:-lag], y[lag:])[0, 1]
+            else:
+                # y leads x
+                corr = np.corrcoef(x[-lag:], y[:lag])[0, 1]
+            correlations[lag] = corr
+        # Find best lag
+        best_lag = max(correlations, key=lambda k: abs(correlations[k]))
+        best_corr = correlations[best_lag]
+        return {
+            'correlations': correlations,
+            'best_lag': best_lag,
+            'best_correlation': best_corr,
+            'leader': 'x' if best_lag > 0 else ('y' if best_lag < 0 else 'none')
+        }
+    def find_all_lead_lag(self, returns_df: pd.DataFrame) -> pd.DataFrame:
+        """Find lead-lag relationships across all asset pairs"""
+        assets = returns_df.columns
+        results = []
+        for i, a1 in enumerate(assets):
+            for j, a2 in enumerate(assets):
+                if i >= j:
+                    continue
+                result = self.cross_correlation(
+                    returns_df[a1].values,
+                    returns_df[a2].values
+                )
+                results.append({
+                    'asset1': a1,
+                    'asset2': a2,
+                    'best_lag': result['best_lag'],
+                    'best_correlation': result['best_correlation'],
+                    'leader': result['leader']
+                })
+        return pd.DataFrame(results).sort_values('best_correlation', key=abs, ascending=False)
+if __name__ == '__main__':
+    print("=" * 70)
+    print("  STATISTICAL ARBITRAGE ENGINE")
+    print("=" * 70)
+    np.random.seed(42)
+    # Generate cointegrated pair
+    n = 500
+    common_factor = np.cumsum(np.random.randn(n) * 0.01)
+    # Asset 1: 50% common factor + noise
+    prices1 = 100 + 0.5 * common_factor + np.cumsum(np.random.randn(n) * 0.005)
+    # Asset 2: 70% common factor + noise
+    prices2 = 100 + 0.7 * common_factor + np.cumsum(np.random.randn(n) * 0.005)
+    # Cointegration test
+    print("\n1. COINTEGRATION TEST")
+    result = engle_granger_cointegration(prices1, prices2)
+    print(f"   Cointegrated: {result['cointegrated']}")
+    print(f"   ADF Statistic: {result['adf_statistic']:.3f}")
+    print(f"   P-value: {result['pvalue']:.3f}")
+    print(f"   Half-life: {result['half_life']:.1f} periods")
+    print(f"   Hedge ratio: {result['beta']:.3f}")
+    # Pairs trading
+    print("\n2. PAIRS TRADING BACKTEST")
+    strategy = PairsTradingStrategy(lookback=60, entry_z=2.0, exit_z=0.5)
+    results = strategy.backtest(prices1, prices2, transaction_cost=0.001)
+    trades = results[results['position'].diff() != 0]
+    print(f"   Number of trades: {len(trades)}")
+    # PCA Mean-Reversion
+    print("\n3. PCA MEAN-REVERSION")
+    n_assets = 10
+    returns = pd.DataFrame(
+        np.random.randn(n, n_assets) * 0.02 + 0.0001,
+        columns=[f'ASSET_{i}' for i in range(n_assets)]
+    )
+    # Add common factor to some assets
+    for i in [0, 1, 2, 3]:
+        returns.iloc[:, i] += common_factor[1:] * 0.01
+    pca = PCAMeanReversion(n_factors=3)
+    pca.fit(returns)
+    print(f"   Explained variance by top 3 factors: {pca.eigenvalues[:3].sum() / pca.eigenvalues.sum() * 100:.1f}%")
+    signals = pca.generate_residual_signals(returns)
+    print(f"   Long signals: {(signals['signal'] == 1).sum()}")
+    print(f"   Short signals: {(signals['signal'] == -1).sum()}")
+    # Lead-lag
+    print("\n4. LEAD-LAG DETECTION")
+    # VIX-like and SPX-like
+    vix_like = np.abs(np.random.randn(n) * 0.02)
+    spx_like = np.cumsum(-vix_like[1:] * 0.3 + np.random.randn(n-1) * 0.01)
+    detector = LeadLagDetector(max_lag=5)
+    ll = detector.cross_correlation(vix_like, spx_like)
+    print(f"   Best lag: {ll['best_lag']} (negative = VIX leads SPX)")
+    print(f"   Best correlation: {ll['best_correlation']:.3f}")
+    print(f"   Leader: {ll['leader']}")
+    print(f"\n  This is what Two Sigma and Jane Street do ALL DAY:")
+    print(f"    Find mispricings between RELATED assets, not bet on direction")
+    print(f"    Market-neutral = zero beta exposure")
+    print(f"    Pure alpha from statistical relationships")