"""
Trainable interface layers for frozen threshold circuits.
BitEncoder, OpRouter, BitDecoder wrap the frozen circuits.
HiddenStateExtractor and AugmentedArithmeticModel for LLM integration.
"""

import torch
import torch.nn as nn
import torch.nn.functional as F
from circuits import FrozenThresholdCircuits, heaviside_ste

MODEL_ID = 'HuggingFaceTB/SmolLM2-360M-Instruct'
OPERATIONS = ['add', 'sub', 'mul', 'gt', 'lt', 'eq']
OP_SYMBOLS = {'add': '+', 'sub': '-', 'mul': '*', 'gt': '>', 'lt': '<', 'eq': '=='}


class BitEncoder(nn.Module):
    """
    Encodes two 8-bit operands from input representation.
    Uses residual connection to preserve ground truth bits while allowing learned refinement.
    """

    def __init__(self, input_dim: int = 16 + 6, hidden_dim: int = 32):
        super().__init__()
        self.refine = nn.Sequential(
            nn.Linear(input_dim, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, 16),
        )
        self.scale = nn.Parameter(torch.tensor(0.0))

    def forward(self, x: torch.Tensor) -> tuple[torch.Tensor, torch.Tensor]:
        """
        Args:
            x: [batch, input_dim] input with first 16 dims being a_bits, b_bits

        Returns:
            a_bits: [batch, 8] first operand bits
            b_bits: [batch, 8] second operand bits
        """
        base_bits = x[:, :16]
        refinement = self.refine(x) * torch.sigmoid(self.scale)
        bits = base_bits + refinement
        bits = torch.clamp(bits, 0, 1)
        hard_bits = heaviside_ste(bits - 0.5)
        out = hard_bits - bits.detach() + bits

        return out[:, :8], out[:, 8:]


class OpRouter(nn.Module):
    """
    Routes computation to the appropriate circuit based on input.
    Outputs soft weights over operations for gradient flow.
    """

    def __init__(self, input_dim: int = 16 + 6, hidden_dim: int = 32, n_ops: int = 6):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(input_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, n_ops),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        Args:
            x: [batch, input_dim] input features

        Returns:
            op_weights: [batch, n_ops] soft operation weights (softmax)
        """
        logits = self.net(x)
        return F.softmax(logits, dim=-1)


class BitDecoder(nn.Module):
    """
    Decodes circuit output bits to target representation.
    For standalone training: outputs soft bits for loss computation.
    For LLM integration: would project to hidden state delta.
    """

    def __init__(self, output_dim: int = 8):
        super().__init__()
        self.output_dim = output_dim

    def forward(self, result_bits: torch.Tensor) -> torch.Tensor:
        return result_bits


class ThresholdALU(nn.Module):
    """
    Complete trainable interface + frozen circuits.
    Learns to encode inputs, route to circuits, decode outputs.
    """

    def __init__(self, device: str = 'cuda'):
        super().__init__()
        self.device = device

        self.circuits = FrozenThresholdCircuits(device=device)

        for key in self.circuits.weights:
            self.circuits.weights[key].requires_grad = False

        self.encoder = BitEncoder(input_dim=16 + 6, hidden_dim=64).to(device)
        self.router = OpRouter(input_dim=16 + 6, hidden_dim=32, n_ops=6).to(device)
        self.decoder = BitDecoder(output_dim=8).to(device)

    def forward(self, a_bits_in: torch.Tensor, b_bits_in: torch.Tensor,
                op_onehot: torch.Tensor) -> torch.Tensor:
        """
        Forward pass through trainable interface + frozen circuits.

        Args:
            a_bits_in: [batch, 8] input A bits (ground truth for training)
            b_bits_in: [batch, 8] input B bits (ground truth for training)
            op_onehot: [batch, 6] one-hot operation selector

        Returns:
            result_bits: [batch, 8] output bits
        """
        x = torch.cat([a_bits_in, b_bits_in, op_onehot], dim=-1)

        a_bits, b_bits = self.encoder(x)

        op_weights = self.router(x)

        result = self.circuits(a_bits, b_bits, op_weights)

        output = self.decoder(result)

        return output

    def forward_direct(self, a_bits: torch.Tensor, b_bits: torch.Tensor,
                       op_onehot: torch.Tensor) -> torch.Tensor:
        """
        Direct forward through circuits (bypass encoder/router for testing).
        """
        return self.circuits(a_bits, b_bits, op_onehot)


class DirectCircuitModel(nn.Module):
    """
    Minimal model that directly uses circuits without learned encoding.
    For validating that circuits themselves achieve 100% fitness.
    """

    def __init__(self, device: str = 'cuda'):
        super().__init__()
        self.device = device
        self.circuits = FrozenThresholdCircuits(device=device)

    def forward(self, a_bits: torch.Tensor, b_bits: torch.Tensor,
                op_onehot: torch.Tensor) -> torch.Tensor:
        return self.circuits(a_bits, b_bits, op_onehot)


class HiddenStateExtractor(nn.Module):
    """
    Extracts operands and operation from LLM hidden states.
    This is the hard part - must learn to parse numbers from embeddings.
    """

    def __init__(self, hidden_dim: int = 960, intermediate_dim: int = 256):
        super().__init__()

        self.a_extractor = nn.Sequential(
            nn.Linear(hidden_dim, intermediate_dim),
            nn.GELU(),
            nn.Linear(intermediate_dim, 8),
        )

        self.b_extractor = nn.Sequential(
            nn.Linear(hidden_dim, intermediate_dim),
            nn.GELU(),
            nn.Linear(intermediate_dim, 8),
        )

        self.op_router = nn.Sequential(
            nn.Linear(hidden_dim, intermediate_dim),
            nn.GELU(),
            nn.Linear(intermediate_dim, len(OPERATIONS)),
        )

    def forward(self, hidden_states: torch.Tensor):
        """
        Args:
            hidden_states: [batch, hidden_dim] from LLM

        Returns:
            a_bits: [batch, 8]
            b_bits: [batch, 8]
            op_logits: [batch, 6]
        """
        a_logits = self.a_extractor(hidden_states)
        b_logits = self.b_extractor(hidden_states)
        op_logits = self.op_router(hidden_states)

        a_soft = torch.sigmoid(a_logits)
        b_soft = torch.sigmoid(b_logits)

        a_hard = heaviside_ste(a_logits)
        b_hard = heaviside_ste(b_logits)

        a_bits = a_hard - a_soft.detach() + a_soft
        b_bits = b_hard - b_soft.detach() + b_soft

        return a_bits, b_bits, op_logits


class AttentionPooling(nn.Module):
    """
    Learnable attention pooling over sequence positions.
    Replaces mean pooling - learns which tokens matter for extraction.
    """

    def __init__(self, hidden_dim: int = 960, num_heads: int = 4):
        super().__init__()
        self.num_heads = num_heads
        self.head_dim = hidden_dim // num_heads

        self.query = nn.Linear(hidden_dim, hidden_dim)
        self.key = nn.Linear(hidden_dim, hidden_dim)
        self.value = nn.Linear(hidden_dim, hidden_dim)
        self.out_proj = nn.Linear(hidden_dim, hidden_dim)

        self.cls_token = nn.Parameter(torch.randn(1, 1, hidden_dim) * 0.02)

    def forward(self, embeddings: torch.Tensor, mask: torch.Tensor) -> torch.Tensor:
        """
        Args:
            embeddings: [batch, seq_len, hidden_dim]
            mask: [batch, seq_len] attention mask (1 = attend, 0 = ignore)

        Returns:
            pooled: [batch, hidden_dim]
        """
        batch_size, seq_len, hidden_dim = embeddings.shape

        cls_expanded = self.cls_token.expand(batch_size, -1, -1)
        embeddings = torch.cat([cls_expanded, embeddings], dim=1)

        cls_mask = torch.ones(batch_size, 1, device=mask.device)
        mask = torch.cat([cls_mask, mask], dim=1)

        Q = self.query(embeddings[:, :1, :])
        K = self.key(embeddings)
        V = self.value(embeddings)

        Q = Q.view(batch_size, 1, self.num_heads, self.head_dim).transpose(1, 2)
        K = K.view(batch_size, seq_len + 1, self.num_heads, self.head_dim).transpose(1, 2)
        V = V.view(batch_size, seq_len + 1, self.num_heads, self.head_dim).transpose(1, 2)

        scores = torch.matmul(Q, K.transpose(-2, -1)) / (self.head_dim ** 0.5)

        mask_expanded = mask.unsqueeze(1).unsqueeze(2)
        scores = scores.masked_fill(mask_expanded == 0, -1e9)

        attn_weights = torch.softmax(scores, dim=-1)
        attn_weights = torch.nan_to_num(attn_weights, nan=0.0)

        context = torch.matmul(attn_weights, V)
        context = context.transpose(1, 2).contiguous().view(batch_size, 1, hidden_dim)

        pooled = self.out_proj(context).squeeze(1)
        pooled = torch.nan_to_num(pooled, nan=0.0)

        return pooled


class MultiHeadBitExtractor(nn.Module):
    """
    8 separate extractors for 8 bits - each bit gets its own specialized network.
    More expressive than single MLP predicting all 8 bits at once.
    """

    def __init__(self, hidden_dim: int = 960, intermediate_dim: int = 128):
        super().__init__()

        self.bit_extractors = nn.ModuleList([
            nn.Sequential(
                nn.Linear(hidden_dim, intermediate_dim),
                nn.GELU(),
                nn.Linear(intermediate_dim, 1),
            )
            for _ in range(8)
        ])

    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
        """
        Args:
            hidden_states: [batch, hidden_dim]

        Returns:
            bits: [batch, 8] - one bit from each extractor
        """
        hidden_states = torch.nan_to_num(hidden_states, nan=0.0)

        bit_logits = [extractor(hidden_states) for extractor in self.bit_extractors]
        logits = torch.cat(bit_logits, dim=-1)
        logits = torch.clamp(logits, -20, 20)

        soft = torch.sigmoid(logits)
        hard = heaviside_ste(logits)
        bits = hard - soft.detach() + soft

        return bits, logits


class Extractor(nn.Module):
    """
    Extracts operands and operation from LLM hidden states.
    Uses attention pooling and per-bit extraction networks.
    """

    def __init__(self, hidden_dim: int = 960, intermediate_dim: int = 256, num_heads: int = 4):
        super().__init__()

        self.attention_pool = AttentionPooling(hidden_dim, num_heads)

        self.a_extractor = MultiHeadBitExtractor(hidden_dim, intermediate_dim // 2)
        self.b_extractor = MultiHeadBitExtractor(hidden_dim, intermediate_dim // 2)

        self.op_router = nn.Sequential(
            nn.Linear(hidden_dim, intermediate_dim),
            nn.GELU(),
            nn.Linear(intermediate_dim, len(OPERATIONS)),
        )

    def forward(self, embeddings: torch.Tensor, mask: torch.Tensor):
        """
        Args:
            embeddings: [batch, seq_len, hidden_dim]
            mask: [batch, seq_len]

        Returns:
            a_bits: [batch, 8]
            b_bits: [batch, 8]
            op_logits: [batch, 6]
        """
        pooled = self.attention_pool(embeddings, mask)

        a_bits, _ = self.a_extractor(pooled)
        b_bits, _ = self.b_extractor(pooled)
        op_logits = self.op_router(pooled)

        return a_bits, b_bits, op_logits


class PositionExtractor(nn.Module):
    """
    Position-specific extraction with dynamic operator detection.

    Tokenization pattern for "A op B":
        [A_digits...] [operator] [space] [B_digits...]

    Examples:
        "5 + 3"     -> ['5', ' +', ' ', '3']           (positions: A=0, op=1, B=3)
        "47 + 86"   -> ['4', '7', ' +', ' ', '8', '6'] (positions: A=0-1, op=2, B=4-5)
        "127 + 128" -> ['1','2','7',' +', ' ','1','2','8'] (positions: A=0-2, op=3, B=5-7)

    Token IDs (SmolLM2):
        Digits '0'-'9': 32-41
        Operators: ' +'=1232, ' -'=731, ' *'=1672, ' >'=2986, ' <'=2067, ' =='=1758
        Space: 216
    """

    DIGIT_TOKENS = set(range(32, 42))
    OPERATOR_TOKENS = {
        1232: 0,   # ' +' -> add
        731: 1,    # ' -' -> sub
        1672: 2,   # ' *' -> mul
        2986: 3,   # ' >' -> gt
        2067: 4,   # ' <' -> lt
        1758: 5,   # ' ==' -> eq
    }
    SPACE_TOKEN = 216
    MAX_DIGITS = 3

    def __init__(self, hidden_dim: int = 960, intermediate_dim: int = 256):
        super().__init__()
        self.hidden_dim = hidden_dim

        self.a_extractor = nn.Sequential(
            nn.Linear(hidden_dim * self.MAX_DIGITS, intermediate_dim),
            nn.GELU(),
            nn.Linear(intermediate_dim, intermediate_dim // 2),
            nn.GELU(),
            nn.Linear(intermediate_dim // 2, 8),
        )

        self.b_extractor = nn.Sequential(
            nn.Linear(hidden_dim * self.MAX_DIGITS, intermediate_dim),
            nn.GELU(),
            nn.Linear(intermediate_dim, intermediate_dim // 2),
            nn.GELU(),
            nn.Linear(intermediate_dim // 2, 8),
        )

        self.op_extractor = nn.Sequential(
            nn.Linear(hidden_dim, intermediate_dim // 2),
            nn.GELU(),
            nn.Linear(intermediate_dim // 2, len(OPERATIONS)),
        )

    def _find_operator_position(self, token_ids: torch.Tensor) -> tuple[int, int]:
        """
        Find operator token position and its operation index.

        Args:
            token_ids: [seq_len] tensor of token IDs

        Returns:
            (position, op_index) or (-1, -1) if not found
        """
        for pos, tid in enumerate(token_ids.tolist()):
            if tid in self.OPERATOR_TOKENS:
                return pos, self.OPERATOR_TOKENS[tid]
        return -1, -1

    def _extract_digit_features(self, hidden: torch.Tensor, start: int, end: int) -> torch.Tensor:
        """
        Extract and pad digit hidden states to fixed size.

        Args:
            hidden: [seq_len, hidden_dim]
            start: start position (inclusive)
            end: end position (exclusive)

        Returns:
            [hidden_dim * MAX_DIGITS] flattened features, zero-padded on the LEFT
            (so units digit is always at the same position regardless of number length)
        """
        n_digits = end - start
        features = torch.zeros(self.MAX_DIGITS * self.hidden_dim, device=hidden.device)

        if n_digits > 0 and n_digits <= self.MAX_DIGITS:
            digit_hidden = hidden[start:end, :].reshape(-1)
            pad_size = (self.MAX_DIGITS - n_digits) * self.hidden_dim
            features[pad_size:] = digit_hidden

        return features

    def forward(self, hidden: torch.Tensor, mask: torch.Tensor, token_ids: torch.Tensor = None):
        """
        Args:
            hidden: [batch, seq_len, hidden_dim]
            mask: [batch, seq_len] attention mask
            token_ids: [batch, seq_len] token IDs (required for operator detection)

        Returns:
            a_bits: [batch, 8]
            b_bits: [batch, 8]
            op_logits: [batch, 6]
        """
        if token_ids is None:
            raise ValueError("PositionExtractor requires token_ids for operator detection")

        batch_size, seq_len, hidden_dim = hidden.shape
        device = hidden.device

        a_features = []
        b_features = []
        op_features = []
        op_indices = []

        for i in range(batch_size):
            seq_mask = mask[i].bool()
            valid_len = seq_mask.sum().item()
            start_pos = seq_len - valid_len

            valid_tokens = token_ids[i, start_pos:]
            valid_hidden = hidden[i, start_pos:, :]

            op_pos, op_idx = self._find_operator_position(valid_tokens)

            if op_pos == -1:
                a_feat = torch.zeros(self.MAX_DIGITS * hidden_dim, device=device)
                b_feat = torch.zeros(self.MAX_DIGITS * hidden_dim, device=device)
                op_feat = torch.zeros(hidden_dim, device=device)
                op_idx = 0
            else:
                a_feat = self._extract_digit_features(valid_hidden, 0, op_pos)

                op_feat = valid_hidden[op_pos, :]

                b_start = op_pos + 2 if (op_pos + 1 < valid_len and
                                          valid_tokens[op_pos + 1].item() == self.SPACE_TOKEN) else op_pos + 1
                b_feat = self._extract_digit_features(valid_hidden, b_start, valid_len)

            a_features.append(a_feat)
            b_features.append(b_feat)
            op_features.append(op_feat)
            op_indices.append(op_idx)

        a_features = torch.stack(a_features)
        b_features = torch.stack(b_features)
        op_features = torch.stack(op_features)
        op_indices_tensor = torch.tensor(op_indices, device=device, dtype=torch.long)

        a_logits = self.a_extractor(a_features)
        b_logits = self.b_extractor(b_features)
        op_logits = self.op_extractor(op_features)

        a_soft = torch.sigmoid(a_logits)
        b_soft = torch.sigmoid(b_logits)
        a_hard = heaviside_ste(a_logits)
        b_hard = heaviside_ste(b_logits)
        a_bits = a_hard - a_soft.detach() + a_soft
        b_bits = b_hard - b_soft.detach() + b_soft

        return a_bits, b_bits, op_logits, op_indices_tensor


class PositionalDigitExtractor(nn.Module):
    """
    Position-aware digit extraction: classifies each digit position independently.

    This approach achieves 100% accuracy because:
    1. Each digit token position is classified independently (100% accuracy on layer 0)
    2. Numbers are reconstructed using place values (×100, ×10, ×1)
    3. No information is lost through pooling

    Token IDs (SmolLM2):
        Digits '0'-'9': 32-41
        Operators: ' +'=1232, ' -'=731, ' *'=1672, ' >'=2986, ' <'=2067, ' =='=1758
        Space: 216
    """

    DIGIT_TOKENS = set(range(32, 42))
    OPERATOR_TOKENS = {
        1232: 0,   # ' +' -> add
        731: 1,    # ' -' -> sub
        1672: 2,   # ' *' -> mul
        2986: 3,   # ' >' -> gt
        2067: 4,   # ' <' -> lt
        1758: 5,   # ' ==' -> eq
    }
    SPACE_TOKEN = 216

    def __init__(self, hidden_dim: int = 960):
        super().__init__()
        self.hidden_dim = hidden_dim

        self.digit_classifier = nn.Linear(hidden_dim, 10)

        self.op_classifier = nn.Linear(hidden_dim, len(OPERATIONS))

    def _find_positions(self, token_ids: torch.Tensor) -> tuple:
        """Find A digit positions, B digit positions, and operator position."""
        token_list = token_ids.tolist()

        op_pos = -1
        op_idx = 0
        for i, tid in enumerate(token_list):
            if tid in self.OPERATOR_TOKENS:
                op_pos = i
                op_idx = self.OPERATOR_TOKENS[tid]
                break

        if op_pos == -1:
            return [], [], -1, 0

        a_positions = [i for i in range(op_pos) if token_list[i] in self.DIGIT_TOKENS]

        b_start = op_pos + 2 if (op_pos + 1 < len(token_list) and
                                  token_list[op_pos + 1] == self.SPACE_TOKEN) else op_pos + 1
        b_positions = [i for i in range(b_start, len(token_list)) if token_list[i] in self.DIGIT_TOKENS]

        return a_positions, b_positions, op_pos, op_idx

    def _predict_value(self, hidden: torch.Tensor, positions: list) -> tuple:
        """Predict digit at each position and reconstruct number."""
        if not positions:
            return torch.tensor(0.0, device=hidden.device), []

        digit_logits_list = []
        soft_value = torch.tensor(0.0, device=hidden.device)

        for idx, pos in enumerate(positions):
            logits = self.digit_classifier(hidden[pos])
            digit_logits_list.append(logits)

            probs = torch.softmax(logits, dim=-1)
            digit_values = torch.arange(10, device=hidden.device, dtype=torch.float32)
            soft_digit = (probs * digit_values).sum()

            place_value = 10 ** (len(positions) - idx - 1)
            soft_value = soft_value + soft_digit * place_value

        return soft_value, digit_logits_list

    def _value_to_bits(self, value: torch.Tensor) -> torch.Tensor:
        """Convert soft value to 8 bits using differentiable operations."""
        value = torch.clamp(value, 0, 255)

        bits = []
        for i in range(7, -1, -1):
            bit = torch.sigmoid((value - (2 ** i - 0.5)) * 10)
            value = value - bit * (2 ** i)
            bits.append(bit)

        return torch.stack(bits)

    def forward(self, hidden: torch.Tensor, mask: torch.Tensor, token_ids: torch.Tensor):
        """
        Args:
            hidden: [batch, seq_len, hidden_dim]
            mask: [batch, seq_len]
            token_ids: [batch, seq_len]

        Returns:
            a_bits: [batch, 8]
            b_bits: [batch, 8]
            op_logits: [batch, 6]
            op_indices: [batch] ground truth op from tokens
            a_digit_logits: list of [batch, 10] per digit position
            b_digit_logits: list of [batch, 10] per digit position
        """
        batch_size = hidden.shape[0]
        device = hidden.device

        a_bits_list = []
        b_bits_list = []
        op_logits_list = []
        op_indices_list = []
        a_values_list = []
        b_values_list = []
        a_digit_logits_list = []
        b_digit_logits_list = []

        for i in range(batch_size):
            seq_mask = mask[i].bool()
            valid_len = seq_mask.sum().item()
            start_pos = hidden.shape[1] - valid_len

            valid_hidden = hidden[i, start_pos:]
            valid_tokens = token_ids[i, start_pos:]

            a_pos, b_pos, op_pos, op_idx = self._find_positions(valid_tokens)

            a_value, a_digit_logits = self._predict_value(valid_hidden, a_pos)
            b_value, b_digit_logits = self._predict_value(valid_hidden, b_pos)

            a_bits = self._value_to_bits(a_value)
            b_bits = self._value_to_bits(b_value)

            if op_pos >= 0:
                op_logits = self.op_classifier(valid_hidden[op_pos])
            else:
                op_logits = torch.zeros(len(OPERATIONS), device=device)

            a_bits_list.append(a_bits)
            b_bits_list.append(b_bits)
            op_logits_list.append(op_logits)
            op_indices_list.append(op_idx)
            a_values_list.append(a_value)
            b_values_list.append(b_value)
            a_digit_logits_list.append(a_digit_logits)
            b_digit_logits_list.append(b_digit_logits)

        a_bits = torch.stack(a_bits_list)
        b_bits = torch.stack(b_bits_list)
        op_logits = torch.stack(op_logits_list)
        op_indices = torch.tensor(op_indices_list, device=device, dtype=torch.long)
        a_values = torch.stack(a_values_list)
        b_values = torch.stack(b_values_list)

        return a_bits, b_bits, op_logits, op_indices, a_values, b_values, a_digit_logits_list, b_digit_logits_list


class DigitExtractor(nn.Module):
    """
    Digit-level extraction: predicts digits (0-9) then converts to bits.
    Uses attention pooling (less accurate than PositionalDigitExtractor).
    """

    def __init__(self, hidden_dim: int = 960, intermediate_dim: int = 256, num_heads: int = 4):
        super().__init__()

        self.attention_pool = AttentionPooling(hidden_dim, num_heads)

        self.a_digit_pred = nn.Sequential(
            nn.Linear(hidden_dim, intermediate_dim),
            nn.GELU(),
            nn.Linear(intermediate_dim, 3 * 10),
        )

        self.b_digit_pred = nn.Sequential(
            nn.Linear(hidden_dim, intermediate_dim),
            nn.GELU(),
            nn.Linear(intermediate_dim, 3 * 10),
        )

        self.op_router = nn.Sequential(
            nn.Linear(hidden_dim, intermediate_dim),
            nn.GELU(),
            nn.Linear(intermediate_dim, len(OPERATIONS)),
        )

    def digits_to_bits(self, digit_logits: torch.Tensor) -> torch.Tensor:
        """
        Convert 3-digit predictions to 8-bit representation.
        digit_logits: [batch, 30] (3 digits * 10 classes each)
        Returns: [batch, 8] bits
        """
        batch_size = digit_logits.shape[0]

        logits = digit_logits.view(batch_size, 3, 10)
        probs = torch.softmax(logits, dim=-1)

        digit_values = torch.arange(10, device=digit_logits.device).float()
        soft_digits = (probs * digit_values).sum(dim=-1)

        hundreds = soft_digits[:, 0]
        tens = soft_digits[:, 1]
        ones = soft_digits[:, 2]

        value = hundreds * 100 + tens * 10 + ones
        value = torch.clamp(value, 0, 255)

        bits = []
        for i in range(7, -1, -1):
            bit = torch.fmod(torch.floor(value / (2 ** i)), 2)
            bits.append(bit)

        return torch.stack(bits, dim=-1)

    def forward(self, hidden: torch.Tensor, mask: torch.Tensor):
        """
        Returns:
            a_bits, b_bits, op_logits, a_digit_logits, b_digit_logits
        """
        pooled = self.attention_pool(hidden, mask)

        a_digit_logits = self.a_digit_pred(pooled)
        b_digit_logits = self.b_digit_pred(pooled)
        op_logits = self.op_router(pooled)

        a_bits = self.digits_to_bits(a_digit_logits)
        b_bits = self.digits_to_bits(b_digit_logits)

        return a_bits, b_bits, op_logits, a_digit_logits, b_digit_logits


class HybridExtractor(nn.Module):
    """
    Hybrid extractor that handles both digit tokens and word numbers.

    For digit tokens (32-41): Direct lookup, no training needed
    For word numbers: Learned MLP extraction from pooled hidden states

    This is the real training target - learning to extract numbers from
    natural language like "forty seven plus eighty six".
    """

    DIGIT_TOKENS = set(range(32, 42))
    SYMBOL_OP_TOKENS = {
        1232: 0,   # ' +' -> add
        731: 1,    # ' -' -> sub
        1672: 2,   # ' *' -> mul
        2986: 3,   # ' >' -> gt
        2067: 4,   # ' <' -> lt
        1758: 5,   # ' ==' -> eq
    }
    WORD_OP_TOKENS = {
        2068: 0,   # 'plus' -> add
        8500: 1,   # 'minus' -> sub
        1580: 2,   # 'times' -> mul
        6301: 3,   # 'greater' -> gt
        1912: 4,   # 'less' -> lt
        16364: 5,  # 'equals' -> eq
        11540: 5,  # 'equal' -> eq
    }
    ALL_OP_TOKENS = {**SYMBOL_OP_TOKENS, **WORD_OP_TOKENS}

    def __init__(self, hidden_dim: int = 960, intermediate_dim: int = 256, num_heads: int = 4):
        super().__init__()
        self.hidden_dim = hidden_dim

        self.attention_pool = AttentionPooling(hidden_dim, num_heads)
        self.a_pool = AttentionPooling(hidden_dim, num_heads)
        self.b_pool = AttentionPooling(hidden_dim, num_heads)

        self.a_digit_pred = nn.Sequential(
            nn.Linear(hidden_dim, intermediate_dim),
            nn.GELU(),
            nn.Dropout(0.1),
            nn.Linear(intermediate_dim, 3 * 10),
        )

        self.b_digit_pred = nn.Sequential(
            nn.Linear(hidden_dim, intermediate_dim),
            nn.GELU(),
            nn.Dropout(0.1),
            nn.Linear(intermediate_dim, 3 * 10),
        )

        self.op_predictor = nn.Sequential(
            nn.Linear(hidden_dim, intermediate_dim // 2),
            nn.GELU(),
            nn.Linear(intermediate_dim // 2, len(OPERATIONS)),
        )

    def _has_digit_tokens(self, token_ids: torch.Tensor) -> bool:
        """Check if input contains digit tokens."""
        for tid in token_ids.tolist():
            if tid in self.DIGIT_TOKENS:
                return True
        return False

    def _find_op_position(self, token_ids: torch.Tensor) -> int:
        """Find position of operator token, returns -1 if not found."""
        tokens = token_ids.tolist()
        for i, tid in enumerate(tokens):
            if tid in self.ALL_OP_TOKENS:
                return i
        return -1

    def _extract_from_digits(self, token_ids: torch.Tensor) -> tuple:
        """
        Extract values directly from digit tokens (hardcoded lookup).
        Handles both symbol operators (' +') and word operators ('plus').
        Returns (a_value, b_value, op_idx) or None if pattern not found.
        """
        tokens = token_ids.tolist()

        op_pos = -1
        op_idx = 0
        for i, tid in enumerate(tokens):
            if tid in self.ALL_OP_TOKENS:
                op_pos = i
                op_idx = self.ALL_OP_TOKENS[tid]
                break

        if op_pos == -1:
            return None

        a_digits = []
        for i in range(op_pos):
            if tokens[i] in self.DIGIT_TOKENS:
                a_digits.append(tokens[i] - 32)

        b_start = op_pos + 1
        if b_start < len(tokens) and tokens[b_start] == 216:
            b_start += 1

        b_digits = []
        for i in range(b_start, len(tokens)):
            if tokens[i] in self.DIGIT_TOKENS:
                b_digits.append(tokens[i] - 32)

        if not a_digits or not b_digits:
            return None

        a_val = 0
        for d in a_digits:
            a_val = a_val * 10 + d

        b_val = 0
        for d in b_digits:
            b_val = b_val * 10 + d

        return min(a_val, 255), min(b_val, 255), op_idx

    def _value_to_bits(self, value: int, device) -> torch.Tensor:
        """Convert integer to 8-bit tensor."""
        bits = torch.zeros(8, device=device)
        for i in range(8):
            bits[7 - i] = (value >> i) & 1
        return bits

    def _digits_to_value_and_bits(self, digit_logits: torch.Tensor, device) -> tuple:
        """
        Convert 3-digit logits to value and bits.
        digit_logits: [30] (3 digits × 10 classes)
        Returns: (value tensor, bits tensor [8])
        """
        logits = digit_logits.view(3, 10)
        probs = torch.softmax(logits, dim=-1)

        digit_values = torch.arange(10, device=device, dtype=torch.float32)
        soft_digits = (probs * digit_values).sum(dim=-1)

        hundreds = soft_digits[0]
        tens = soft_digits[1]
        ones = soft_digits[2]

        value = hundreds * 100 + tens * 10 + ones
        value = torch.clamp(value, 0, 255)

        bits = []
        for i in range(7, -1, -1):
            threshold = 2 ** i
            bit = torch.sigmoid((value - threshold + 0.5) * 10)
            bits.append(bit)
            value = value - bit * threshold
        return hundreds * 100 + tens * 10 + ones, torch.stack(bits)

    def forward(self, hidden: torch.Tensor, mask: torch.Tensor, token_ids: torch.Tensor = None):
        """
        Args:
            hidden: [batch, seq_len, hidden_dim]
            mask: [batch, seq_len]
            token_ids: [batch, seq_len] - optional, enables digit lookup

        Returns:
            a_bits, b_bits, op_logits, a_values, b_values, used_lookup,
            a_digit_logits, b_digit_logits
        """
        batch_size = hidden.shape[0]
        device = hidden.device

        a_bits_list = []
        a_digit_logits_list = []
        b_digit_logits_list = []
        b_bits_list = []
        op_logits_list = []
        a_values_list = []
        b_values_list = []
        used_lookup_list = []

        pooled = self.attention_pool(hidden, mask)

        for i in range(batch_size):
            lookup_result = None
            if token_ids is not None:
                seq_mask = mask[i].bool()
                valid_len = seq_mask.sum().item()
                start_pos = hidden.shape[1] - valid_len
                valid_tokens = token_ids[i, start_pos:]

                if self._has_digit_tokens(valid_tokens):
                    lookup_result = self._extract_from_digits(valid_tokens)

            if lookup_result is not None:
                a_val, b_val, op_idx = lookup_result
                a_bits = self._value_to_bits(a_val, device)
                b_bits = self._value_to_bits(b_val, device)
                op_logits = torch.zeros(len(OPERATIONS), device=device)
                op_logits[op_idx] = 10.0

                a_bits_list.append(a_bits)
                b_bits_list.append(b_bits)
                op_logits_list.append(op_logits)
                a_values_list.append(float(a_val))
                b_values_list.append(float(b_val))
                used_lookup_list.append(True)
                a_digit_logits_list.append(None)
                b_digit_logits_list.append(None)
            else:
                sample_hidden = hidden[i:i+1]
                sample_mask = mask[i:i+1]

                seq_mask = mask[i].bool()
                valid_len = int(seq_mask.sum().item())
                start_pos = hidden.shape[1] - valid_len
                valid_tokens = token_ids[i, start_pos:] if token_ids is not None else None

                op_pos = self._find_op_position(valid_tokens) if valid_tokens is not None else -1

                if op_pos > 0 and op_pos < valid_len - 1:
                    a_end = start_pos + op_pos
                    b_start = start_pos + op_pos + 1

                    a_mask = torch.zeros_like(sample_mask)
                    a_mask[0, start_pos:a_end] = 1.0
                    b_mask = torch.zeros_like(sample_mask)
                    b_mask[0, b_start:] = sample_mask[0, b_start:]

                    a_pooled = self.a_pool(sample_hidden, a_mask)[0]
                    b_pooled = self.b_pool(sample_hidden, b_mask)[0]
                else:
                    a_pooled = pooled[i]
                    b_pooled = pooled[i]

                a_digit_logits = self.a_digit_pred(a_pooled)
                b_digit_logits = self.b_digit_pred(b_pooled)
                op_logits = self.op_predictor(pooled[i])

                a_val, a_bits = self._digits_to_value_and_bits(a_digit_logits, device)
                b_val, b_bits = self._digits_to_value_and_bits(b_digit_logits, device)

                a_bits_list.append(a_bits)
                b_bits_list.append(b_bits)
                op_logits_list.append(op_logits)
                a_values_list.append(a_val)
                b_values_list.append(b_val)
                used_lookup_list.append(False)
                a_digit_logits_list.append(a_digit_logits)
                b_digit_logits_list.append(b_digit_logits)

        a_bits = torch.stack(a_bits_list)
        b_bits = torch.stack(b_bits_list)
        op_logits = torch.stack(op_logits_list)
        a_values = torch.stack([v if isinstance(v, torch.Tensor) else torch.tensor(v, device=device) for v in a_values_list])
        b_values = torch.stack([v if isinstance(v, torch.Tensor) else torch.tensor(v, device=device) for v in b_values_list])
        used_lookup = torch.tensor(used_lookup_list, device=device, dtype=torch.bool)
        valid_a_logits = [x for x in a_digit_logits_list if x is not None]
        valid_b_logits = [x for x in b_digit_logits_list if x is not None]
        a_digit_logits_out = torch.stack(valid_a_logits) if valid_a_logits else None
        b_digit_logits_out = torch.stack(valid_b_logits) if valid_b_logits else None

        return a_bits, b_bits, op_logits, a_values, b_values, used_lookup, a_digit_logits_out, b_digit_logits_out

    def _soft_value_to_bits(self, value: torch.Tensor, device) -> torch.Tensor:
        """Convert soft value (0-255) to 8-bit representation differentiably."""
        value = torch.clamp(value, 0, 255)
        bits = []
        remaining = value
        for i in range(7, -1, -1):
            threshold = 2 ** i
            bit = torch.sigmoid((remaining - threshold + 0.5) * 10)
            bits.append(bit)
            remaining = remaining - bit * threshold
        return torch.stack(bits)


class ArithmeticModel(nn.Module):
    """
    LLM + extractor + frozen threshold circuits.
    Optionally unfreeze top N transformer layers with --unfreeze_layers.
    """

    def __init__(self, device: str = 'cuda', unfreeze_layers: int = 0,
                 extract_layer: int = -1, position_extract: bool = False,
                 digit_pred: bool = False, positional_digit: bool = False,
                 hybrid: bool = False):
        super().__init__()
        self.device = device
        self.unfreeze_layers = unfreeze_layers
        self.extract_layer = extract_layer
        self.position_extract = position_extract
        self.digit_pred = digit_pred
        self.positional_digit = positional_digit
        self.hybrid = hybrid

        from transformers import AutoModelForCausalLM, AutoTokenizer

        print("[1/4] Loading tokenizer...", flush=True)
        self.tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
        self.tokenizer.padding_side = 'left'
        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token
        print("  Tokenizer loaded.", flush=True)

        print("[2/4] Loading SmolLM2-360M...", flush=True)
        self.llm = AutoModelForCausalLM.from_pretrained(
            MODEL_ID,
            torch_dtype=torch.float16,
            device_map=device,
            output_hidden_states=True
        )

        for param in self.llm.parameters():
            param.requires_grad = False

        if unfreeze_layers > 0:
            num_layers = len(self.llm.model.layers)
            layers_to_unfreeze = list(range(num_layers - unfreeze_layers, num_layers))
            print(f"  Unfreezing layers {layers_to_unfreeze}...", flush=True)
            for layer_idx in layers_to_unfreeze:
                for param in self.llm.model.layers[layer_idx].parameters():
                    param.requires_grad = True

        hidden_dim = self.llm.config.hidden_size
        llm_params = sum(p.numel() for p in self.llm.parameters())
        trainable_llm = sum(p.numel() for p in self.llm.parameters() if p.requires_grad)
        print(f"  LLM loaded. Hidden dim: {hidden_dim}", flush=True)
        print(f"  LLM params: {llm_params:,} total, {trainable_llm:,} trainable", flush=True)

        print("[3/4] Loading threshold circuits...", flush=True)
        self.circuits = FrozenThresholdCircuits(device=device)
        print(f"  Circuits loaded. {len(self.circuits.weights)} tensors", flush=True)

        print("[4/4] Initializing extractor...", flush=True)
        if hybrid:
            print("  Using HYBRID extraction (digit lookup + word learning)", flush=True)
            self.extractor = HybridExtractor(
                hidden_dim=hidden_dim,
                intermediate_dim=256,
                num_heads=4
            ).to(device)
        elif positional_digit:
            print("  Using POSITIONAL DIGIT extraction (100% proven)", flush=True)
            self.extractor = PositionalDigitExtractor(
                hidden_dim=hidden_dim
            ).to(device)
        elif position_extract:
            print("  Using position-specific extraction", flush=True)
            self.extractor = PositionExtractor(
                hidden_dim=hidden_dim,
                intermediate_dim=256
            ).to(device)
        elif digit_pred:
            print("  Using digit-level prediction", flush=True)
            self.extractor = DigitExtractor(
                hidden_dim=hidden_dim,
                intermediate_dim=256,
                num_heads=4
            ).to(device)
        else:
            self.extractor = Extractor(
                hidden_dim=hidden_dim,
                intermediate_dim=256,
                num_heads=4
            ).to(device)

        if extract_layer != -1:
            print(f"  Extracting from layer {extract_layer}", flush=True)

        trainable_ext = sum(p.numel() for p in self.extractor.parameters())
        total_trainable = trainable_llm + trainable_ext
        print(f"  Extractor params: {trainable_ext:,}", flush=True)
        print(f"  Total trainable: {total_trainable:,}", flush=True)

    def get_hidden_states(self, texts: list[str]) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
        """
        Get hidden states from specified layer.

        Returns:
            hidden: [batch, seq_len, hidden_dim] hidden states
            mask: [batch, seq_len] attention mask
            token_ids: [batch, seq_len] input token IDs
        """
        inputs = self.tokenizer(
            texts,
            return_tensors='pt',
            padding=True,
            truncation=True,
            max_length=64
        ).to(self.device)

        if self.unfreeze_layers > 0:
            outputs = self.llm(**inputs, output_hidden_states=True)
        else:
            with torch.no_grad():
                outputs = self.llm(**inputs, output_hidden_states=True)

        hidden = outputs.hidden_states[self.extract_layer].float()
        mask = inputs.attention_mask.float()
        token_ids = inputs.input_ids

        return hidden, mask, token_ids

    def forward(self, texts: list[str]):
        """
        Full forward pass: text -> hidden states -> extractor -> circuits -> result

        Returns:
            result_bits, a_bits, b_bits, op_logits
            If digit_pred: also returns a_digit_logits, b_digit_logits
            If position_extract or positional_digit: also returns op_indices
            If positional_digit: also returns a_values, b_values
        """
        hidden, mask, token_ids = self.get_hidden_states(texts)

        if self.hybrid or self.positional_digit or self.position_extract:
            extractor_out = self.extractor(hidden, mask, token_ids)
        else:
            extractor_out = self.extractor(hidden, mask)

        if self.hybrid:
            a_bits, b_bits, op_logits, a_values, b_values, used_lookup, a_digit_logits, b_digit_logits = extractor_out
            op_indices_from_tokens = None
        elif self.positional_digit:
            a_bits, b_bits, op_logits, op_indices_from_tokens, a_values, b_values, a_digit_logits, b_digit_logits = extractor_out
            used_lookup = None
        elif self.digit_pred:
            a_bits, b_bits, op_logits, a_digit_logits, b_digit_logits = extractor_out
            op_indices_from_tokens = None
            a_values, b_values = None, None
            used_lookup = None
        elif self.position_extract:
            a_bits, b_bits, op_logits, op_indices_from_tokens = extractor_out
            a_digit_logits, b_digit_logits = None, None
            a_values, b_values = None, None
            used_lookup = None
        else:
            a_bits, b_bits, op_logits = extractor_out
            a_digit_logits, b_digit_logits = None, None
            op_indices_from_tokens = None
            a_values, b_values = None, None
            used_lookup = None

        op_probs = torch.softmax(op_logits, dim=-1)

        result_bits = self.circuits(a_bits, b_bits, op_probs)

        if self.hybrid:
            return result_bits, a_bits, b_bits, op_logits, a_values, b_values, used_lookup, a_digit_logits, b_digit_logits
        if self.positional_digit:
            return result_bits, a_bits, b_bits, op_logits, op_indices_from_tokens, a_values, b_values, a_digit_logits, b_digit_logits
        if self.digit_pred:
            return result_bits, a_bits, b_bits, op_logits, a_digit_logits, b_digit_logits
        if self.position_extract:
            return result_bits, a_bits, b_bits, op_logits, op_indices_from_tokens
        return result_bits, a_bits, b_bits, op_logits

    def trainable_parameters(self):
        """Return all trainable parameters for optimizer."""
        params = list(self.extractor.parameters())
        if self.unfreeze_layers > 0:
            params += [p for p in self.llm.parameters() if p.requires_grad]
        return params


if __name__ == "__main__":
    import sys
    sys.path.insert(0, '.')
    from fitness import generate_batch, compute_fitness, OPERATIONS

    print("Testing model components...")

    device = 'cuda'
    batch = generate_batch(32, device)

    print("\n1. Testing DirectCircuitModel (should get ~100% fitness)...")
    direct_model = DirectCircuitModel(device=device)

    def direct_fn(a, b, op):
        return direct_model(a, b, op)

    fitness, details = compute_fitness(direct_fn, n_samples=2000, batch_size=128,
                                       device=device, return_details=True)
    print(f"   Direct circuit fitness: {fitness:.4f}")
    for op in OPERATIONS:
        acc = details['by_op'][op]['accuracy']
        print(f"   {op}: {acc:.4f}")

    print("\n2. Testing ThresholdALU (trainable interface)...")
    model = ThresholdALU(device=device)

    x = torch.cat([batch['a_bits'], batch['b_bits'], batch['op_onehot']], dim=-1)
    a_enc, b_enc = model.encoder(x)
    print(f"   Encoder output shapes: a={a_enc.shape}, b={b_enc.shape}")

    op_weights = model.router(x)
    print(f"   Router output shape: {op_weights.shape}")
    print(f"   Router output sample: {op_weights[0].tolist()}")

    result = model(batch['a_bits'], batch['b_bits'], batch['op_onehot'])
    print(f"   Full model output shape: {result.shape}")

    print("\n3. Testing untrained ThresholdALU fitness...")

    def model_fn(a, b, op):
        return model(a, b, op)

    fitness = compute_fitness(model_fn, n_samples=1000, batch_size=128, device=device)
    print(f"   Untrained model fitness: {fitness:.4f} (expected low)")

    print("\n4. Counting parameters...")
    total = sum(p.numel() for p in model.parameters() if p.requires_grad)
    encoder_params = sum(p.numel() for p in model.encoder.parameters())
    router_params = sum(p.numel() for p in model.router.parameters())
    print(f"   Encoder: {encoder_params:,}")
    print(f"   Router: {router_params:,}")
    print(f"   Total trainable: {total:,}")

    print("\nDone.")