# %%
# ============================================================================
# CELL 1: PYTORCH GPU SETUP (KAGGLE 30GB GPU)
# ============================================================================

!pip install -q ta

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

print("="*70)
print(" PYTORCH GPU SETUP (30GB GPU)")
print("="*70)

# ============================================================================
# GPU CONFIGURATION FOR MAXIMUM PERFORMANCE
# ============================================================================

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

if torch.cuda.is_available():
    # Get GPU info
    gpu_name = torch.cuda.get_device_name(0)
    gpu_mem = torch.cuda.get_device_properties(0).total_memory / 1e9
    
    print(f"✅ GPU: {gpu_name}")
    print(f"✅ GPU Memory: {gpu_mem:.1f} GB")
    
    # Enable TF32 for faster matmul (Ampere GPUs: A100, RTX 30xx, 40xx)
    torch.backends.cuda.matmul.allow_tf32 = True
    torch.backends.cudnn.allow_tf32 = True
    print("✅ TF32: Enabled (2-3x speedup on Ampere)")
    
    # Enable cuDNN autotuner
    torch.backends.cudnn.benchmark = True
    print("✅ cuDNN benchmark: Enabled")
    
    # Set default tensor type to CUDA
    torch.set_default_device('cuda')
    print("✅ Default device: CUDA")
    
else:
    print("⚠️ No GPU detected, using CPU")

print(f"\n✅ PyTorch: {torch.__version__}")
print(f"✅ Device: {device}")
print("="*70)

# %%
# ============================================================================
# CELL 2: LOAD DATA + FEATURES + ENVIRONMENT (MULTI-TIMEFRAME)
# ============================================================================

import numpy as np
import pandas as pd
import gym
from gym import spaces
from ta.momentum import RSIIndicator, StochasticOscillator, ROCIndicator, WilliamsRIndicator
from ta.trend import MACD, EMAIndicator, SMAIndicator, ADXIndicator, CCIIndicator
from ta.volatility import BollingerBands, AverageTrueRange
from ta.volume import OnBalanceVolumeIndicator
import os

print("="*70)
print(" LOADING MULTI-TIMEFRAME DATA + FEATURES")
print("="*70)

# ============================================================================
# HELPER: CALCULATE INDICATORS FOR ANY TIMEFRAME
# ============================================================================
def calculate_indicators(df, suffix=''):
    """Calculate all technical indicators for a given dataframe"""
    data = df.copy()
    s = f'_{suffix}' if suffix else ''
    
    # Momentum
    data[f'rsi_14{s}'] = RSIIndicator(close=data['close'], window=14).rsi() / 100
    data[f'rsi_7{s}'] = RSIIndicator(close=data['close'], window=7).rsi() / 100
    
    stoch = StochasticOscillator(high=data['high'], low=data['low'], close=data['close'], window=14)
    data[f'stoch_k{s}'] = stoch.stoch() / 100
    data[f'stoch_d{s}'] = stoch.stoch_signal() / 100
    
    roc = ROCIndicator(close=data['close'], window=12)
    data[f'roc_12{s}'] = np.tanh(roc.roc() / 100)
    
    williams = WilliamsRIndicator(high=data['high'], low=data['low'], close=data['close'], lbp=14)
    data[f'williams_r{s}'] = (williams.williams_r() + 100) / 100
    
    macd = MACD(close=data['close'])
    data[f'macd{s}'] = np.tanh(macd.macd() / data['close'] * 100)
    data[f'macd_signal{s}'] = np.tanh(macd.macd_signal() / data['close'] * 100)
    data[f'macd_diff{s}'] = np.tanh(macd.macd_diff() / data['close'] * 100)
    
    # Trend
    data[f'sma_20{s}'] = SMAIndicator(close=data['close'], window=20).sma_indicator()
    data[f'sma_50{s}'] = SMAIndicator(close=data['close'], window=50).sma_indicator()
    data[f'ema_12{s}'] = EMAIndicator(close=data['close'], window=12).ema_indicator()
    data[f'ema_26{s}'] = EMAIndicator(close=data['close'], window=26).ema_indicator()
    
    data[f'price_vs_sma20{s}'] = (data['close'] - data[f'sma_20{s}']) / data[f'sma_20{s}']
    data[f'price_vs_sma50{s}'] = (data['close'] - data[f'sma_50{s}']) / data[f'sma_50{s}']
    
    adx = ADXIndicator(high=data['high'], low=data['low'], close=data['close'], window=14)
    data[f'adx{s}'] = adx.adx() / 100
    data[f'adx_pos{s}'] = adx.adx_pos() / 100
    data[f'adx_neg{s}'] = adx.adx_neg() / 100
    
    cci = CCIIndicator(high=data['high'], low=data['low'], close=data['close'], window=20)
    data[f'cci{s}'] = np.tanh(cci.cci() / 100)
    
    # Volatility
    bb = BollingerBands(close=data['close'], window=20, window_dev=2)
    data[f'bb_width{s}'] = (bb.bollinger_hband() - bb.bollinger_lband()) / bb.bollinger_mavg()
    data[f'bb_position{s}'] = (data['close'] - bb.bollinger_lband()) / (bb.bollinger_hband() - bb.bollinger_lband())
    
    atr = AverageTrueRange(high=data['high'], low=data['low'], close=data['close'], window=14)
    data[f'atr_percent{s}'] = atr.average_true_range() / data['close']
    
    # Volume
    data[f'volume_ma_20{s}'] = data['volume'].rolling(20).mean()
    data[f'volume_ratio{s}'] = data['volume'] / (data[f'volume_ma_20{s}'] + 1e-8)
    
    obv = OnBalanceVolumeIndicator(close=data['close'], volume=data['volume'])
    data[f'obv_slope{s}'] = (obv.on_balance_volume().diff(5) / (obv.on_balance_volume().shift(5).abs() + 1e-8))
    
    # Price action
    data[f'returns_1{s}'] = data['close'].pct_change()
    data[f'returns_5{s}'] = data['close'].pct_change(5)
    data[f'returns_20{s}'] = data['close'].pct_change(20)
    data[f'volatility_20{s}'] = data[f'returns_1{s}'].rolling(20).std()
    
    data[f'body_size{s}'] = abs(data['close'] - data['open']) / (data['open'] + 1e-8)
    data[f'high_20{s}'] = data['high'].rolling(20).max()
    data[f'low_20{s}'] = data['low'].rolling(20).min()
    data[f'price_position{s}'] = (data['close'] - data[f'low_20{s}']) / (data[f'high_20{s}'] - data[f'low_20{s}'] + 1e-8)
    
    # Drop intermediate columns
    cols_to_drop = [c for c in [f'sma_20{s}', f'sma_50{s}', f'ema_12{s}', f'ema_26{s}', 
                                f'volume_ma_20{s}', f'high_20{s}', f'low_20{s}'] if c in data.columns]
    data = data.drop(columns=cols_to_drop)
    
    return data

def load_and_clean_btc(filepath):
    """Load and clean BTC data from CSV"""
    df = pd.read_csv(filepath)
    column_mapping = {'Open time': 'timestamp', 'Open': 'open', 'High': 'high', 
                     'Low': 'low', 'Close': 'close', 'Volume': 'volume'}
    df = df.rename(columns=column_mapping)
    df['timestamp'] = pd.to_datetime(df['timestamp'])
    df.set_index('timestamp', inplace=True)
    df = df[['open', 'high', 'low', 'close', 'volume']]
    
    for col in df.columns:
        df[col] = pd.to_numeric(df[col], errors='coerce')
    
    df = df[df.index >= '2021-01-01']
    df = df[~df.index.duplicated(keep='first')]
    df = df.replace(0, np.nan).dropna().sort_index()
    return df

# ============================================================================
# 1. LOAD ALL TIMEFRAMES
# ============================================================================
data_path = '/kaggle/input/bitcoin-historical-datasets-2018-2024/'

print("📊 Loading 15-minute data...")
btc_15m = load_and_clean_btc(data_path + 'btc_15m_data_2018_to_2025.csv')
print(f"   ✅ 15m: {len(btc_15m):,} candles")

print("📊 Loading 1-hour data...")
btc_1h = load_and_clean_btc(data_path + 'btc_1h_data_2018_to_2025.csv')
print(f"   ✅ 1h: {len(btc_1h):,} candles")

print("📊 Loading 4-hour data...")
btc_4h = load_and_clean_btc(data_path + 'btc_4h_data_2018_to_2025.csv')
print(f"   ✅ 4h: {len(btc_4h):,} candles")

# ============================================================================
# 2. LOAD FEAR & GREED INDEX
# ============================================================================
fgi_loaded = False

try:
    fgi_path = '/kaggle/input/btc-usdt-4h-ohlc-fgi-daily-2020/'
    files = os.listdir(fgi_path)
    
    for filename in files:
        if filename.endswith('.csv'):
            fgi_data = pd.read_csv(fgi_path + filename)
            
            time_col = [c for c in fgi_data.columns if 'time' in c.lower() or 'date' in c.lower()]
            if time_col:
                fgi_data['timestamp'] = pd.to_datetime(fgi_data[time_col[0]])
            else:
                fgi_data['timestamp'] = pd.to_datetime(fgi_data.iloc[:, 0])
            
            fgi_data.set_index('timestamp', inplace=True)
            
            fgi_col = [c for c in fgi_data.columns if 'fgi' in c.lower() or 'fear' in c.lower() or 'greed' in c.lower()]
            if fgi_col:
                fgi_data = fgi_data[[fgi_col[0]]].rename(columns={fgi_col[0]: 'fgi'})
                fgi_loaded = True
                print(f"✅ Fear & Greed loaded: {len(fgi_data):,} values")
                break
except:
    pass

if not fgi_loaded:
    fgi_data = pd.DataFrame(index=btc_15m.index)
    fgi_data['fgi'] = 50
    print("⚠️ Using neutral FGI values")

# ============================================================================
# 3. CALCULATE INDICATORS FOR EACH TIMEFRAME
# ============================================================================
print("\n🔧 Calculating indicators for 15m...")
data_15m = calculate_indicators(btc_15m, suffix='15m')

print("🔧 Calculating indicators for 1h...")
data_1h = calculate_indicators(btc_1h, suffix='1h')

print("🔧 Calculating indicators for 4h...")
data_4h = calculate_indicators(btc_4h, suffix='4h')

# ============================================================================
# 4. MERGE HIGHER TIMEFRAMES INTO 15M (FORWARD FILL)
# ============================================================================
print("\n🔗 Merging timeframes...")

cols_1h = [c for c in data_1h.columns if c not in ['open', 'high', 'low', 'close', 'volume']]
cols_4h = [c for c in data_4h.columns if c not in ['open', 'high', 'low', 'close', 'volume']]

data = data_15m.copy()
data = data.join(data_1h[cols_1h], how='left')
data = data.join(data_4h[cols_4h], how='left')

for col in cols_1h + cols_4h:
    data[col] = data[col].fillna(method='ffill')

# Merge FGI
data = data.join(fgi_data, how='left')
data['fgi'] = data['fgi'].fillna(method='ffill').fillna(method='bfill').fillna(50)

# Fear & Greed derived features
data['fgi_normalized'] = (data['fgi'] - 50) / 50
data['fgi_change'] = data['fgi'].diff() / 50
data['fgi_ma7'] = data['fgi'].rolling(7).mean()
data['fgi_vs_ma'] = (data['fgi'] - data['fgi_ma7']) / 50

# Time features
data['hour'] = data.index.hour / 24
data['day_of_week'] = data.index.dayofweek / 7
data['us_session'] = ((data.index.hour >= 14) & (data.index.hour < 21)).astype(float)

btc_features = data.dropna()

feature_cols = [col for col in btc_features.columns 
                if col not in ['open', 'high', 'low', 'close', 'volume', 'fgi', 'fgi_ma7']]

print(f"\n✅ Multi-timeframe features complete!")
print(f"   15m features: {len([c for c in feature_cols if '15m' in c])}")
print(f"   1h features: {len([c for c in feature_cols if '1h' in c])}")
print(f"   4h features: {len([c for c in feature_cols if '4h' in c])}")
print(f"   Other features: {len([c for c in feature_cols if '15m' not in c and '1h' not in c and '4h' not in c])}")
print(f"   TOTAL features: {len(feature_cols)}")
print(f"   Clean data: {len(btc_features):,} candles")

# ============================================================================
# 5. TRAIN/VALID/TEST SPLITS
# ============================================================================
print("\n📊 Creating Data Splits...")

train_size = int(len(btc_features) * 0.70)
valid_size = int(len(btc_features) * 0.15)

train_data = btc_features.iloc[:train_size].copy()
valid_data = btc_features.iloc[train_size:train_size+valid_size].copy()
test_data = btc_features.iloc[train_size+valid_size:].copy()

print(f"   Train: {len(train_data):,} | Valid: {len(valid_data):,} | Test: {len(test_data):,}")

# Store full data for walk-forward
full_data = btc_features.copy()

# ============================================================================
# 6. ROLLING NORMALIZATION CLASS
# ============================================================================
class RollingNormalizer:
    """
    Rolling z-score normalization to prevent look-ahead bias.
    Uses a rolling window to calculate mean and std.
    """
    def __init__(self, window_size=2880):  # 2880 = 30 days of 15m candles
        self.window_size = window_size
        self.feature_cols = None
        
    def fit_transform(self, df, feature_cols):
        """Apply rolling normalization to dataframe"""
        self.feature_cols = feature_cols
        result = df.copy()
        
        for col in feature_cols:
            rolling_mean = df[col].rolling(window=self.window_size, min_periods=100).mean()
            rolling_std = df[col].rolling(window=self.window_size, min_periods=100).std()
            result[col] = (df[col] - rolling_mean) / (rolling_std + 1e-8)
        
        # Clip extreme values
        result[feature_cols] = result[feature_cols].clip(-5, 5)
        
        # Fill NaN at start with 0 (neutral)
        result[feature_cols] = result[feature_cols].fillna(0)
        
        return result

print("✅ RollingNormalizer class defined")

# ============================================================================
# 7. TRADING ENVIRONMENT WITH DSR + RANDOM FLIP AUGMENTATION
# ============================================================================
class BitcoinTradingEnv(gym.Env):
    """
    Trading environment with:
    - Differential Sharpe Ratio (DSR) reward with warmup
    - Previous action in state (to learn cost of switching)
    - Transaction fee ramping (0 -> 0.1% after warmup)
    - Random flip data augmentation (50% chance to invert market)
    """
    
    def __init__(self, df, initial_balance=10000, episode_length=500,
                 base_transaction_fee=0.001,  # 0.1% max fee
                 dsr_eta=0.01):  # DSR adaptation rate
        super().__init__()
        self.df = df.reset_index(drop=True)
        self.initial_balance = initial_balance
        self.episode_length = episode_length
        self.base_transaction_fee = base_transaction_fee
        self.dsr_eta = dsr_eta
        
        # Fee ramping (controlled externally via set_fee_multiplier)
        self.fee_multiplier = 0.0
        
        # Training mode for data augmentation (random flips)
        self.training_mode = True
        self.flip_sign = 1.0  # Will be -1 or +1 for augmentation
        
        # DSR warmup period (return 0 reward until EMAs settle)
        self.dsr_warmup_steps = 100
        
        self.feature_cols = [col for col in df.columns 
                            if col not in ['open', 'high', 'low', 'close', 'volume', 'fgi', 'fgi_ma7']]
        
        self.action_space = spaces.Box(low=-1, high=1, shape=(1,), dtype=np.float32)
        # +6 for: position, total_return, drawdown, returns_1, rsi_14, PREVIOUS_ACTION
        self.observation_space = spaces.Box(
            low=-10, high=10, 
            shape=(len(self.feature_cols) + 6,), 
            dtype=np.float32
        )
        self.reset()
    
    def set_fee_multiplier(self, multiplier):
        """Set fee multiplier (0.0 to 1.0) for fee ramping"""
        self.fee_multiplier = np.clip(multiplier, 0.0, 1.0)
    
    def set_training_mode(self, training=True):
        """Set training mode (enables random flips for augmentation)"""
        self.training_mode = training
    
    @property
    def current_fee(self):
        """Current transaction fee based on multiplier"""
        return self.base_transaction_fee * self.fee_multiplier
    
    def reset(self):
        max_start = len(self.df) - self.episode_length - 1
        self.start_idx = np.random.randint(100, max(101, max_start))
        
        self.current_step = 0
        self.balance = self.initial_balance
        self.position = 0.0
        self.entry_price = 0.0
        self.total_value = self.initial_balance
        self.prev_total_value = self.initial_balance
        self.max_value = self.initial_balance
        
        # Previous action for state
        self.prev_action = 0.0
        
        # DSR variables (Differential Sharpe Ratio)
        self.A_t = 0.0  # EMA of returns
        self.B_t = 0.0  # EMA of squared returns
        
        # Position tracking
        self.long_steps = 0
        self.short_steps = 0
        self.neutral_steps = 0
        self.num_trades = 0
        
        # Random flip for data augmentation (50% chance during training)
        # This inverts price movements: what was bullish becomes bearish
        if self.training_mode:
            self.flip_sign = -1.0 if np.random.random() < 0.5 else 1.0
        else:
            self.flip_sign = 1.0  # No flip during eval
        
        return self._get_obs()
    
    def _get_obs(self):
        idx = self.start_idx + self.current_step
        features = self.df.loc[idx, self.feature_cols].values.copy()
        
        # Apply random flip augmentation to return-based features
        # This inverts bullish/bearish signals when flip_sign = -1
        if self.flip_sign < 0:
            for i, col in enumerate(self.feature_cols):
                if any(x in col.lower() for x in ['returns', 'roc', 'macd', 'cci', 'obv', 'sentiment']):
                    features[i] *= self.flip_sign
        
        total_return = (self.total_value / self.initial_balance) - 1
        drawdown = (self.max_value - self.total_value) / self.max_value if self.max_value > 0 else 0
        
        # Apply flip to market returns shown in portfolio info
        market_return = self.df.loc[idx, 'returns_1_15m'] * self.flip_sign
        
        portfolio_info = np.array([
            self.position,
            total_return,
            drawdown,
            market_return,
            self.df.loc[idx, 'rsi_14_15m'],
            self.prev_action
        ], dtype=np.float32)
        
        obs = np.concatenate([features, portfolio_info])
        return np.clip(obs, -10, 10).astype(np.float32)
    
    def _calculate_dsr(self, return_t):
        """
        Calculate Differential Sharpe Ratio reward.
        DSR = (B_{t-1} * ΔA_t - 0.5 * A_{t-1} * ΔB_t) / (B_{t-1} - A_{t-1}^2)^1.5
        """
        eta = self.dsr_eta
        
        A_prev = self.A_t
        B_prev = self.B_t
        
        delta_A = eta * (return_t - A_prev)
        delta_B = eta * (return_t**2 - B_prev)
        
        self.A_t = A_prev + delta_A
        self.B_t = B_prev + delta_B
        
        variance = B_prev - A_prev**2
        
        if variance <= 1e-8:
            return return_t
        
        dsr = (B_prev * delta_A - 0.5 * A_prev * delta_B) / (variance ** 1.5 + 1e-8)
        return np.clip(dsr, -0.5, 0.5)
    
    def step(self, action):
        idx = self.start_idx + self.current_step
        current_price = self.df.loc[idx, 'close']
        target_position = np.clip(action[0], -1.0, 1.0)
        
        self.prev_total_value = self.total_value
        
        # Position change logic with transaction costs
        if abs(target_position - self.position) > 0.1:
            if self.position != 0:
                self._close_position(current_price)
            if abs(target_position) > 0.1:
                self._open_position(target_position, current_price)
            self.num_trades += 1
        
        self._update_total_value(current_price)
        self.max_value = max(self.max_value, self.total_value)
        
        # Track position type
        if self.position > 0.1:
            self.long_steps += 1
        elif self.position < -0.1:
            self.short_steps += 1
        else:
            self.neutral_steps += 1
        
        self.current_step += 1
        done = (self.current_step >= self.episode_length) or (self.total_value <= self.initial_balance * 0.5)
        
        # ============ DSR REWARD WITH WARMUP ============
        raw_return = (self.total_value - self.prev_total_value) / self.initial_balance
        
        # Apply flip_sign to reward (if we flipped the market, flip what "good" means)
        raw_return *= self.flip_sign
        
        # DSR Warmup: Return tiny penalty for first N steps to let EMAs settle
        if self.current_step < self.dsr_warmup_steps:
            reward = -0.0001  # Tiny constant penalty during warmup
        else:
            reward = self._calculate_dsr(raw_return)
        
        self.prev_action = target_position
        
        obs = self._get_obs()
        info = {
            'total_value': self.total_value, 
            'position': self.position,
            'long_steps': self.long_steps,
            'short_steps': self.short_steps,
            'neutral_steps': self.neutral_steps,
            'num_trades': self.num_trades,
            'current_fee': self.current_fee,
            'flip_sign': self.flip_sign,
            'raw_return': raw_return,
            'dsr_reward': reward
        }
        
        return obs, reward, done, info
    
    def _update_total_value(self, current_price):
        if self.position != 0:
            if self.position > 0:
                pnl = self.position * self.initial_balance * (current_price / self.entry_price - 1)
            else:
                pnl = abs(self.position) * self.initial_balance * (1 - current_price / self.entry_price)
            self.total_value = self.balance + pnl
        else:
            self.total_value = self.balance
    
    def _open_position(self, size, price):
        self.position = size
        self.entry_price = price
        fee_cost = abs(size) * self.initial_balance * self.current_fee
        self.balance -= fee_cost
    
    def _close_position(self, price):
        if self.position > 0:
            pnl = self.position * self.initial_balance * (price / self.entry_price - 1)
        else:
            pnl = abs(self.position) * self.initial_balance * (1 - price / self.entry_price)
        
        fee_cost = abs(pnl) * self.current_fee
        self.balance += pnl - fee_cost
        self.position = 0.0

print("✅ Environment class ready:")
print("   - DSR reward with 100-step warmup")
print("   - Random flip augmentation (50% probability)")
print("   - Previous action in state")
print("   - Transaction fee ramping")
print("="*70)

# %%
# ============================================================================
# CELL 3: LOAD SENTIMENT DATA
# ============================================================================

print("="*70)
print(" LOADING SENTIMENT DATA")
print("="*70)

sentiment_file = '/kaggle/input/bitcoin-news-with-sentimen/bitcoin_news_3hour_intervals_with_sentiment.csv'

try:
    sentiment_raw = pd.read_csv(sentiment_file)
    
    def parse_time_range(time_str):
        parts = str(time_str).split(' ')
        if len(parts) >= 2:
            date = parts[0]
            time_range = parts[1]
            start_time = time_range.split('-')[0]
            return f"{date} {start_time}:00"
        return time_str
    
    sentiment_raw['timestamp'] = sentiment_raw['time_interval'].apply(parse_time_range)
    sentiment_raw['timestamp'] = pd.to_datetime(sentiment_raw['timestamp'])
    sentiment_raw = sentiment_raw.set_index('timestamp').sort_index()
    
    sentiment_clean = pd.DataFrame(index=sentiment_raw.index)
    sentiment_clean['prob_bullish'] = pd.to_numeric(sentiment_raw['prob_bullish'], errors='coerce')
    sentiment_clean['prob_bearish'] = pd.to_numeric(sentiment_raw['prob_bearish'], errors='coerce')
    sentiment_clean['prob_neutral'] = pd.to_numeric(sentiment_raw['prob_neutral'], errors='coerce')
    sentiment_clean['confidence'] = pd.to_numeric(sentiment_raw['sentiment_confidence'], errors='coerce')
    sentiment_clean = sentiment_clean.dropna()
    
    # Merge with data
    for df in [train_data, valid_data, test_data]:
        df_temp = df.join(sentiment_clean, how='left')
        for col in ['prob_bullish', 'prob_bearish', 'prob_neutral', 'confidence']:
            df[col] = df_temp[col].fillna(method='ffill').fillna(method='bfill').fillna(0.33 if col != 'confidence' else 0.5)
        
        df['sentiment_net'] = df['prob_bullish'] - df['prob_bearish']
        df['sentiment_strength'] = (df['prob_bullish'] - df['prob_bearish']).abs()
        df['sentiment_weighted'] = df['sentiment_net'] * df['confidence']
    
    print(f"✅ Sentiment loaded: {len(sentiment_clean):,} records")
    print(f"✅ Features added: 7 sentiment features")
    
except Exception as e:
    print(f"⚠️ Sentiment not loaded: {e}")
    for df in [train_data, valid_data, test_data]:
        df['sentiment_net'] = 0
        df['sentiment_strength'] = 0
        df['sentiment_weighted'] = 0

print("="*70)

# %%
# ============================================================================
# CELL 4: ROLLING NORMALIZATION + CREATE ENVIRONMENTS
# ============================================================================

print("="*70)
print(" ROLLING NORMALIZATION + CREATING ENVIRONMENTS")
print("="*70)

# Get feature columns (all except OHLCV and intermediate columns)
feature_cols = [col for col in train_data.columns 
                if col not in ['open', 'high', 'low', 'close', 'volume', 'fgi', 'fgi_ma7']]

print(f"📊 Total features: {len(feature_cols)}")

# ============================================================================
# ROLLING NORMALIZATION (Prevents look-ahead bias!)
# Uses only past data for normalization at each point
# ============================================================================
rolling_normalizer = RollingNormalizer(window_size=2880)  # 30 days of 15m data

print("🔄 Applying rolling normalization (window=2880)...")

# Apply rolling normalization to each split
train_data_norm = rolling_normalizer.fit_transform(train_data, feature_cols)
valid_data_norm = rolling_normalizer.fit_transform(valid_data, feature_cols)  
test_data_norm = rolling_normalizer.fit_transform(test_data, feature_cols)

print("✅ Rolling normalization complete (no look-ahead bias!)")

# Create environments
train_env = BitcoinTradingEnv(train_data_norm, episode_length=500)
valid_env = BitcoinTradingEnv(valid_data_norm, episode_length=500)
test_env = BitcoinTradingEnv(test_data_norm, episode_length=500)

state_dim = train_env.observation_space.shape[0]
action_dim = 1

print(f"\n✅ Environments created:")
print(f"   State dim: {state_dim} (features={len(feature_cols)} + portfolio=6)")
print(f"   Action dim: {action_dim}")
print(f"   Train samples: {len(train_data):,}")
print(f"   Fee starts at: 0% (ramps to 0.1% after warmup)")
print("="*70)

# %%
# ============================================================================
# CELL 5: PYTORCH SAC AGENT (GPU OPTIMIZED)
# ============================================================================

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.distributions import Normal

print("="*70)
print(" PYTORCH SAC AGENT")
print("="*70)

# ============================================================================
# ACTOR NETWORK (Policy)
# ============================================================================
class Actor(nn.Module):
    def __init__(self, state_dim, action_dim, hidden_dim=512):
        super().__init__()
        # Larger network for 90+ features: 512 -> 512 -> 256 -> output
        self.fc1 = nn.Linear(state_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, hidden_dim)
        self.fc3 = nn.Linear(hidden_dim, hidden_dim // 2)  # Taper down
        
        self.mean = nn.Linear(hidden_dim // 2, action_dim)
        self.log_std = nn.Linear(hidden_dim // 2, action_dim)
        
        self.LOG_STD_MIN = -20
        self.LOG_STD_MAX = 2
        
    def forward(self, state):
        x = F.relu(self.fc1(state))
        x = F.relu(self.fc2(x))
        x = F.relu(self.fc3(x))
        
        mean = self.mean(x)
        log_std = self.log_std(x)
        log_std = torch.clamp(log_std, self.LOG_STD_MIN, self.LOG_STD_MAX)
        
        return mean, log_std
    
    def sample(self, state):
        mean, log_std = self.forward(state)
        std = log_std.exp()
        
        normal = Normal(mean, std)
        x_t = normal.rsample()  # Reparameterization trick
        action = torch.tanh(x_t)
        
        # Log prob with tanh correction
        log_prob = normal.log_prob(x_t)
        log_prob -= torch.log(1 - action.pow(2) + 1e-6)
        log_prob = log_prob.sum(dim=-1, keepdim=True)
        
        return action, log_prob, mean

# ============================================================================
# CRITIC NETWORK (Twin Q-functions)
# ============================================================================
class Critic(nn.Module):
    def __init__(self, state_dim, action_dim, hidden_dim=512):
        super().__init__()
        # Q1 network: 512 -> 512 -> 256 -> 1
        self.fc1_1 = nn.Linear(state_dim + action_dim, hidden_dim)
        self.fc1_2 = nn.Linear(hidden_dim, hidden_dim)
        self.fc1_3 = nn.Linear(hidden_dim, hidden_dim // 2)
        self.fc1_out = nn.Linear(hidden_dim // 2, 1)
        
        # Q2 network: 512 -> 512 -> 256 -> 1
        self.fc2_1 = nn.Linear(state_dim + action_dim, hidden_dim)
        self.fc2_2 = nn.Linear(hidden_dim, hidden_dim)
        self.fc2_3 = nn.Linear(hidden_dim, hidden_dim // 2)
        self.fc2_out = nn.Linear(hidden_dim // 2, 1)
        
    def forward(self, state, action):
        x = torch.cat([state, action], dim=-1)
        
        # Q1
        q1 = F.relu(self.fc1_1(x))
        q1 = F.relu(self.fc1_2(q1))
        q1 = F.relu(self.fc1_3(q1))
        q1 = self.fc1_out(q1)
        
        # Q2
        q2 = F.relu(self.fc2_1(x))
        q2 = F.relu(self.fc2_2(q2))
        q2 = F.relu(self.fc2_3(q2))
        q2 = self.fc2_out(q2)
        
        return q1, q2
    
    def q1(self, state, action):
        x = torch.cat([state, action], dim=-1)
        q1 = F.relu(self.fc1_1(x))
        q1 = F.relu(self.fc1_2(q1))
        q1 = F.relu(self.fc1_3(q1))
        return self.fc1_out(q1)

# ============================================================================
# SAC AGENT
# ============================================================================
class SACAgent:
    def __init__(self, state_dim, action_dim, device,
                 actor_lr=3e-4, critic_lr=3e-4, alpha_lr=3e-4,
                 gamma=0.99, tau=0.005, initial_alpha=0.2):
        
        self.device = device
        self.gamma = gamma
        self.tau = tau
        self.action_dim = action_dim
        
        # Networks
        self.actor = Actor(state_dim, action_dim).to(device)
        self.critic = Critic(state_dim, action_dim).to(device)
        self.critic_target = Critic(state_dim, action_dim).to(device)
        self.critic_target.load_state_dict(self.critic.state_dict())
        
        # Optimizers
        self.actor_optimizer = optim.Adam(self.actor.parameters(), lr=actor_lr)
        self.critic_optimizer = optim.Adam(self.critic.parameters(), lr=critic_lr)
        
        # Entropy (auto-tuning alpha)
        self.target_entropy = -action_dim
        self.log_alpha = torch.tensor(np.log(initial_alpha), requires_grad=True, device=device)
        self.alpha_optimizer = optim.Adam([self.log_alpha], lr=alpha_lr)
        
    @property
    def alpha(self):
        return self.log_alpha.exp()
    
    def select_action(self, state, deterministic=False):
        with torch.no_grad():
            state = torch.FloatTensor(state).unsqueeze(0).to(self.device)
            if deterministic:
                mean, _ = self.actor(state)
                action = torch.tanh(mean)
            else:
                action, _, _ = self.actor.sample(state)
            return action.cpu().numpy()[0]
    
    def update(self, batch):
        states, actions, rewards, next_states, dones = batch
        
        states = torch.FloatTensor(states).to(self.device)
        actions = torch.FloatTensor(actions).to(self.device)
        rewards = torch.FloatTensor(rewards).unsqueeze(1).to(self.device)
        next_states = torch.FloatTensor(next_states).to(self.device)
        dones = torch.FloatTensor(dones).unsqueeze(1).to(self.device)
        
        # ============ Update Critic ============
        with torch.no_grad():
            next_actions, next_log_probs, _ = self.actor.sample(next_states)
            q1_target, q2_target = self.critic_target(next_states, next_actions)
            q_target = torch.min(q1_target, q2_target)
            target_q = rewards + (1 - dones) * self.gamma * (q_target - self.alpha * next_log_probs)
        
        q1, q2 = self.critic(states, actions)
        critic_loss = F.mse_loss(q1, target_q) + F.mse_loss(q2, target_q)
        
        self.critic_optimizer.zero_grad()
        critic_loss.backward()
        self.critic_optimizer.step()
        
        # ============ Update Actor ============
        new_actions, log_probs, _ = self.actor.sample(states)
        q1_new, q2_new = self.critic(states, new_actions)
        q_new = torch.min(q1_new, q2_new)
        actor_loss = (self.alpha * log_probs - q_new).mean()
        
        self.actor_optimizer.zero_grad()
        actor_loss.backward()
        self.actor_optimizer.step()
        
        # ============ Update Alpha ============
        alpha_loss = -(self.log_alpha * (log_probs.detach() + self.target_entropy)).mean()
        
        self.alpha_optimizer.zero_grad()
        alpha_loss.backward()
        self.alpha_optimizer.step()
        
        # ============ Update Target Network ============
        for param, target_param in zip(self.critic.parameters(), self.critic_target.parameters()):
            target_param.data.copy_(self.tau * param.data + (1 - self.tau) * target_param.data)
        
        return {
            'critic_loss': critic_loss.item(),
            'actor_loss': actor_loss.item(),
            'alpha': self.alpha.item()
        }

print("✅ Actor: 512→512→256→1")
print("✅ Critic: Twin Q (512→512→256→1)")
print("✅ SAC Agent with auto-tuning alpha")
print("="*70)

# %%
# ============================================================================
# CELL 6: REPLAY BUFFER (GPU-FRIENDLY)
# ============================================================================

print("="*70)
print(" REPLAY BUFFER")
print("="*70)

class ReplayBuffer:
    def __init__(self, state_dim, action_dim, max_size=1_000_000):
        self.max_size = max_size
        self.ptr = 0
        self.size = 0
        
        self.states = np.zeros((max_size, state_dim), dtype=np.float32)
        self.actions = np.zeros((max_size, action_dim), dtype=np.float32)
        self.rewards = np.zeros((max_size, 1), dtype=np.float32)
        self.next_states = np.zeros((max_size, state_dim), dtype=np.float32)
        self.dones = np.zeros((max_size, 1), dtype=np.float32)
        
        mem_gb = (self.states.nbytes + self.actions.nbytes + self.rewards.nbytes + 
                  self.next_states.nbytes + self.dones.nbytes) / 1e9
        print(f"📦 Buffer capacity: {max_size:,} | Memory: {mem_gb:.2f} GB")
    
    def add(self, state, action, reward, next_state, done):
        self.states[self.ptr] = state
        self.actions[self.ptr] = action
        self.rewards[self.ptr] = reward
        self.next_states[self.ptr] = next_state
        self.dones[self.ptr] = done
        
        self.ptr = (self.ptr + 1) % self.max_size
        self.size = min(self.size + 1, self.max_size)
    
    def sample(self, batch_size):
        idx = np.random.randint(0, self.size, size=batch_size)
        return (
            self.states[idx],
            self.actions[idx],
            self.rewards[idx],
            self.next_states[idx],
            self.dones[idx]
        )

print("✅ ReplayBuffer defined")
print("="*70)

# %%
# ============================================================================
# CELL 7: CREATE AGENT + BUFFER
# ============================================================================

print("="*70)
print(" CREATING AGENT + BUFFER")
print("="*70)

# Create SAC agent
agent = SACAgent(
    state_dim=state_dim,
    action_dim=action_dim,
    device=device,
    actor_lr=3e-4,
    critic_lr=3e-4,
    alpha_lr=3e-4,
    gamma=0.99,
    tau=0.005,
    initial_alpha=0.2
)

# Create replay buffer
buffer = ReplayBuffer(
    state_dim=state_dim,
    action_dim=action_dim,
    max_size=1_000_000
)

# Count parameters
total_params = sum(p.numel() for p in agent.actor.parameters()) + \
               sum(p.numel() for p in agent.critic.parameters())

print(f"\n✅ Agent created on {device}")
print(f"   Actor params: {sum(p.numel() for p in agent.actor.parameters()):,}")
print(f"   Critic params: {sum(p.numel() for p in agent.critic.parameters()):,}")
print(f"   Total params: {total_params:,}")
print("="*70)

# %%
# ============================================================================
# CELL 8: TRAINING FUNCTION (GPU OPTIMIZED + FEE RAMPING)
# ============================================================================

from tqdm.notebook import tqdm
import time

print("="*70)
print(" TRAINING FUNCTION")
print("="*70)

def train_sac(agent, env, valid_env, buffer, 
              total_timesteps=700_000,
              warmup_steps=10_000,
              batch_size=1024,
              update_freq=1,
              fee_warmup_steps=100_000,  # When to start fee ramping
              fee_ramp_steps=100_000,     # Steps to ramp from 0 to max fee
              save_path="sac_v9"):
    
    print(f"\n🚀 Training Configuration:")
    print(f"   Total steps: {total_timesteps:,}")
    print(f"   Warmup: {warmup_steps:,}")
    print(f"   Batch size: {batch_size}")
    print(f"   Fee warmup: {fee_warmup_steps:,} steps (then ramp over {fee_ramp_steps:,})")
    print(f"   Data augmentation: Random flips (50% probability)")
    print(f"   DSR warmup: 100 steps per episode (0 reward)")
    print(f"   Device: {agent.device}")
    
    # Set training modes for augmentation
    env.set_training_mode(True)   # Enable random flips
    valid_env.set_training_mode(False)  # No augmentation for validation
    
    # Stats tracking
    episode_rewards = []
    episode_lengths = []
    eval_rewards = []
    best_reward = -np.inf
    best_eval = -np.inf
    
    # Training stats
    critic_losses = []
    actor_losses = []
    
    state = env.reset()
    episode_reward = 0
    episode_length = 0
    episode_count = 0
    
    start_time = time.time()
    
    pbar = tqdm(range(total_timesteps), desc="Training")
    
    for step in pbar:
        # ============ FEE RAMPING CURRICULUM ============
        # 0 fees until fee_warmup_steps, then ramp to 1.0 over fee_ramp_steps
        if step < fee_warmup_steps:
            fee_multiplier = 0.0
        else:
            progress = (step - fee_warmup_steps) / fee_ramp_steps
            fee_multiplier = min(1.0, progress)
        
        env.set_fee_multiplier(fee_multiplier)
        valid_env.set_fee_multiplier(fee_multiplier)
        
        # Select action
        if step < warmup_steps:
            action = env.action_space.sample()
        else:
            action = agent.select_action(state, deterministic=False)
        
        # Step environment
        next_state, reward, done, info = env.step(action)
        
        # Store transition
        buffer.add(state, action, reward, next_state, float(done))
        
        state = next_state
        episode_reward += reward
        episode_length += 1
        
        # Update agent
        stats = None
        if step >= warmup_steps and step % update_freq == 0:
            batch = buffer.sample(batch_size)
            stats = agent.update(batch)
            critic_losses.append(stats['critic_loss'])
            actor_losses.append(stats['actor_loss'])
        
        # Episode end
        if done:
            episode_rewards.append(episode_reward)
            episode_lengths.append(episode_length)
            episode_count += 1
            
            # Calculate episode stats
            final_value = info.get('total_value', 10000)
            pnl_pct = (final_value / 10000 - 1) * 100
            num_trades = info.get('num_trades', 0)
            current_fee = info.get('current_fee', 0) * 100  # Convert to %
            
            # Get position distribution
            long_steps = info.get('long_steps', 0)
            short_steps = info.get('short_steps', 0)
            neutral_steps = info.get('neutral_steps', 0)
            total_active = long_steps + short_steps
            long_pct = (long_steps / total_active * 100) if total_active > 0 else 0
            short_pct = (short_steps / total_active * 100) if total_active > 0 else 0
            
            # Update progress bar with detailed info
            avg_reward = np.mean(episode_rewards[-10:]) if len(episode_rewards) >= 10 else episode_reward
            avg_critic = np.mean(critic_losses[-100:]) if critic_losses else 0
            
            pbar.set_postfix({
                'ep': episode_count,
                'R': f'{episode_reward:.4f}',
                'avg10': f'{avg_reward:.4f}',
                'PnL%': f'{pnl_pct:+.2f}',
                'L/S': f'{long_pct:.0f}/{short_pct:.0f}',
                'fee%': f'{current_fee:.3f}',
                'α': f'{agent.alpha.item():.3f}',
            })
            
            # ============ EVAL EVERY EPISODE ============
            eval_reward, eval_pnl, eval_long_pct = evaluate_agent(agent, valid_env, n_episodes=1)
            eval_rewards.append(eval_reward)
            
            # Print detailed episode summary
            elapsed = time.time() - start_time
            steps_per_sec = (step + 1) / elapsed
            
            print(f"\n{'='*60}")
            print(f"📊 Episode {episode_count} Complete | Step {step+1:,}/{total_timesteps:,}")
            print(f"{'='*60}")
            print(f"   🎮 TRAIN:")
            print(f"      Reward (DSR): {episode_reward:.4f} | PnL: {pnl_pct:+.2f}%")
            print(f"      Length: {episode_length} steps | Trades: {num_trades}")
            print(f"      Avg (last 10): {avg_reward:.4f}")
            print(f"   📊 POSITION BALANCE:")
            print(f"      Long: {long_steps} steps ({long_pct:.1f}%)")
            print(f"      Short: {short_steps} steps ({short_pct:.1f}%)")
            print(f"      Neutral: {neutral_steps} steps")
            print(f"   💰 FEE CURRICULUM:")
            print(f"      Current fee: {current_fee:.4f}% (multiplier: {fee_multiplier:.2f})")
            print(f"   📈 EVAL (validation):")
            print(f"      Reward: {eval_reward:.4f} | PnL: {eval_pnl:+.2f}%")
            print(f"      Long%: {eval_long_pct:.1f}%")
            print(f"      Avg (last 5): {np.mean(eval_rewards[-5:]):.4f}")
            print(f"   🧠 AGENT:")
            print(f"      Alpha: {agent.alpha.item():.4f}")
            print(f"      Critic loss: {avg_critic:.5f}")
            print(f"   ⚡ Speed: {steps_per_sec:.0f} steps/sec")
            print(f"   💾 Buffer: {buffer.size:,} transitions")
            
            # Save best train
            if episode_reward > best_reward:
                best_reward = episode_reward
                torch.save({
                    'actor': agent.actor.state_dict(),
                    'critic': agent.critic.state_dict(),
                    'critic_target': agent.critic_target.state_dict(),
                    'log_alpha': agent.log_alpha,
                }, f"{save_path}_best_train.pt")
                print(f"   🏆 NEW BEST TRAIN: {best_reward:.4f}")
            
            # Save best eval
            if eval_reward > best_eval:
                best_eval = eval_reward
                torch.save({
                    'actor': agent.actor.state_dict(),
                    'critic': agent.critic.state_dict(),
                    'critic_target': agent.critic_target.state_dict(),
                    'log_alpha': agent.log_alpha,
                }, f"{save_path}_best_eval.pt")
                print(f"   🏆 NEW BEST EVAL: {best_eval:.4f}")
            
            # Reset
            state = env.reset()
            episode_reward = 0
            episode_length = 0
    
    # Final save
    torch.save({
        'actor': agent.actor.state_dict(),
        'critic': agent.critic.state_dict(),
        'critic_target': agent.critic_target.state_dict(),
        'log_alpha': agent.log_alpha,
    }, f"{save_path}_final.pt")
    
    total_time = time.time() - start_time
    print(f"\n{'='*70}")
    print(f" TRAINING COMPLETE")
    print(f"{'='*70}")
    print(f"   Total time: {total_time/60:.1f} min")
    print(f"   Episodes: {episode_count}")
    print(f"   Best train reward (DSR): {best_reward:.4f}")
    print(f"   Best eval reward (DSR): {best_eval:.4f}")
    print(f"   Avg speed: {total_timesteps/total_time:.0f} steps/sec")
    
    return episode_rewards, eval_rewards


def evaluate_agent(agent, env, n_episodes=1):
    """Run evaluation episodes"""
    total_reward = 0
    total_pnl = 0
    total_long_pct = 0
    
    for _ in range(n_episodes):
        state = env.reset()
        episode_reward = 0
        done = False
        
        while not done:
            action = agent.select_action(state, deterministic=True)
            state, reward, done, info = env.step(action)
            episode_reward += reward
        
        total_reward += episode_reward
        final_value = info.get('total_value', 10000)
        total_pnl += (final_value / 10000 - 1) * 100
        
        # Calculate long percentage
        long_steps = info.get('long_steps', 0)
        short_steps = info.get('short_steps', 0)
        total_active = long_steps + short_steps
        total_long_pct += (long_steps / total_active * 100) if total_active > 0 else 0
    
    return total_reward / n_episodes, total_pnl / n_episodes, total_long_pct / n_episodes


print("✅ Training function ready:")
print("   - Per-episode eval + position tracking")
print("   - DSR reward (risk-adjusted)")
print("   - Fee ramping: 0% → 0.1% after 100k steps")
print("   - Model checkpointing")
print("="*70)

# %%
# ============================================================================
# CELL 9: START TRAINING
# ============================================================================

print("="*70)
print(" STARTING SAC TRAINING")
print("="*70)

# Training parameters
TOTAL_STEPS = 500_000      # 500K steps
WARMUP_STEPS = 10_000      # 10K random warmup
BATCH_SIZE = 256           # Standard batch size
UPDATE_FREQ = 1            # Update every step
FEE_WARMUP = 100_000       # Start fee ramping after 100k steps
FEE_RAMP = 100_000         # Ramp fees over 100k steps (0 → 0.1%)

print(f"\n📋 Configuration:")
print(f"   Steps: {TOTAL_STEPS:,}")
print(f"   Batch: {BATCH_SIZE}")
print(f"   Train env: {len(train_data):,} candles")
print(f"   Valid env: {len(valid_data):,} candles")
print(f"   Device: {device}")
print(f"\n💰 Fee Curriculum:")
print(f"   Steps 0-{FEE_WARMUP:,}: 0% fee (learn basic trading)")
print(f"   Steps {FEE_WARMUP:,}-{FEE_WARMUP+FEE_RAMP:,}: Ramp 0%→0.1%")
print(f"   Steps {FEE_WARMUP+FEE_RAMP:,}+: Full 0.1% fee")
print(f"\n🎯 Reward: Differential Sharpe Ratio (DSR)")
print(f"   - Risk-adjusted returns (not just PnL)")
print(f"   - Small values (-0.5 to 0.5) are normal")
print(f"   - NOT normalized further")

# Run training with validation eval every episode
episode_rewards, eval_rewards = train_sac(
    agent=agent,
    env=train_env,
    valid_env=valid_env,
    buffer=buffer,
    total_timesteps=TOTAL_STEPS,
    warmup_steps=WARMUP_STEPS,
    batch_size=BATCH_SIZE,
    update_freq=UPDATE_FREQ,
    fee_warmup_steps=FEE_WARMUP,
    fee_ramp_steps=FEE_RAMP,
    save_path="sac_v9_pytorch"
)

print("\n" + "="*70)
print(" TRAINING COMPLETE")
print("="*70)