import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.distributed as dist


class CrossAttentionBlock(nn.Module):
    def __init__(self, hidden_dim, num_heads, mlp_ratio=4.0, dropout=0.1):
        super().__init__()
        self.norm1 = nn.LayerNorm(hidden_dim)
        self.cross_attn = nn.MultiheadAttention(
            embed_dim=hidden_dim, num_heads=num_heads, batch_first=True, dropout=dropout
        )

        self.norm2 = nn.LayerNorm(hidden_dim)
        self.mlp = nn.Sequential(
            nn.Linear(hidden_dim, int(hidden_dim * mlp_ratio)),
            nn.GELU(),
            nn.Linear(int(hidden_dim * mlp_ratio), hidden_dim),
        )
        self.dropout = nn.Dropout(dropout)

    def forward(self, query, encoder_hidden_state, encoder_attention_mask=None):
        """
        Cross-attention block forward.
        Args:
            query (Tensor): Shape [B, Q, D]. Learnable query tokens propagated across layers.
            encoder_hidden_state (Tensor): Shape [B, L, D]. Features from one encoder layer.
            encoder_attention_mask (Tensor | None): Shape [B, L]. 1/True=keep (visible), 0/False=mask. None disables masking.
        Returns:
            Tensor: Updated query tokens of shape [B, Q, D].
        Details:
            1. LayerNorm + MultiheadAttention (Q = query, K/V = encoder_hidden_state).
            2. Residual path: query = query + attn_output, then add MLP residual.
            3. Dropout is applied only on the MLP output.
        """
        q = self.norm1(query)
        kv = encoder_hidden_state

        if encoder_attention_mask is not None:
            attn_mask = encoder_attention_mask.unsqueeze(1).to(dtype=torch.bool)  # [B, 1, L]
        else:
            attn_mask = None

        attn_output, _ = self.cross_attn(q, kv, kv, key_padding_mask=attn_mask)
        query = query + attn_output
        query = query + self.dropout(self.mlp(self.norm2(query)))
        return query


class LayerwiseQFormer(nn.Module):
    def __init__(
        self, input_hidden_dim=2048, output_hidden_dim=768, num_query_tokens=64, num_layers=37, num_heads=8, config=None
    ):
        super().__init__()
        self.input_hidden_dim = input_hidden_dim
        self.output_hidden_dim = output_hidden_dim
        self.num_query_tokens = num_query_tokens
        self.num_layers = num_layers
        self.config = config
        # Project input to output dimension
        self.proj = nn.Linear(input_hidden_dim, output_hidden_dim)
        # Learnable query tokens
        self.query_tokens = nn.Parameter(torch.randn(num_query_tokens, output_hidden_dim))

        # Independent cross-attention blocks (one per encoder layer)
        self.layers = nn.ModuleList([CrossAttentionBlock(output_hidden_dim, num_heads) for _ in range(num_layers)])

    def forward(self, hidden_states_list, encoder_attention_mask=None):
        """
        Layer-wise Q-Former forward pass.
        Args:
            hidden_states_list (List[Tensor]): Length == num_layers. Each tensor is [B, L, Din], raw encoder layer outputs (before projection).
            encoder_attention_mask (Tensor | None): Shape [B, L]. Same semantics as in CrossAttentionBlock.
        Returns:
            Tensor: Aggregated query tokens of shape [B, Q, Dout].
        Pipeline:
            1. Stack per-layer features to [B, N, L, Din] and linearly project to Dout.
            2. Expand global learnable query tokens to batch: [B, Q, Dout].
            3. Apply cross-attention layer-by-layer: each query attends only to the corresponding encoder layer features.
        Notes:
            - Asserts len(hidden_states_list) == num_layers.
            - Does not modify gradient flow of hidden_states_list.
        """
        # hidden_states_list = self.scale_hook(hidden_states_list)

        assert (
            len(hidden_states_list) == self.num_layers
        ), f"Expected {self.num_layers} layers, got {len(hidden_states_list)}"

        B = hidden_states_list[0].size(0)
        # Project input hidden states to output dimension
        #    Result shape [B, N, L, Din]
        hs = torch.stack(hidden_states_list, dim=1)
        #    proj_hs shape [B, N, L, Dout]
        proj_hs = self.proj(hs)
        # 3) Unbind back to list, each element restored to [B, L, Dout]
        hidden_states_list = list(proj_hs.unbind(dim=1))

        # Expand query tokens for each batch
        query = self.query_tokens.unsqueeze(0).expand(B, -1, -1)  # [B, Q, D]

        # Iterate through each layer and apply cross-attention
        for i, layer in enumerate(self.layers):
            query = layer(query, hidden_states_list[i], encoder_attention_mask)

        return query

    def scale_hook(self, hidden_states_list, scale_factor=0.1):
        """
        (Experimental / optional) Register gradient scaling hooks on each layer's hidden states.
        Args:
            hidden_states_list (List[Tensor]): Per-layer feature tensors.
            scale_factor (float): Gradient scaling factor (effective only if enabled via config and != 1).
        Returns:
            List[Tensor]: Original list (no data copy); hooks may be attached in-place.
        Design:
            - Currently returns immediately (guard condition hard-coded False) as a placeholder.
            - Uses attribute _scaled_hook to avoid duplicate hook registration in distributed settings.
            - Can be enabled later for gradient dampening or perturbation experiments.
        Performance:
            - Excessive hook registrations can hurt speed; kept lazy by default.
        """
        # --- 1. Register gradient scaling hooks on input hidden_states_list ---
        if (
            self.config
            and hasattr(self.config.vla, "layer_qformer")
            and hasattr(self.config.vla.layer_qformer, "grad_scale")
            and self.config.vla.layer_qformer.grad_scale != 1
        ):
            scale_factor = self.config.vla.layer_qformer.grad_scale
        else:
            return hidden_states_list  # If grad_scale is not configured, return the original list

        scaled_hidden_states_list = []
        for hidden_states in hidden_states_list:
            if hidden_states.requires_grad:
                # Ensure gradient scaling is executed only once in distributed settings
                if not hasattr(hidden_states, "_scaled_hook"):  # Prevent duplicate registration --> Seems to accelerate
                    hook = lambda grad: grad * scale_factor
                    hidden_states.register_hook(hook)
                    hidden_states._scaled_hook = True  # Mark as processed
            scaled_hidden_states_list.append(hidden_states)

        return hidden_states_list


import torch
import torch.nn as nn


def get_layerwise_qformer(num_heads=8, config=None, **kwargs):
    """
    Build a LayerwiseQFormer instance.
    Args:
        num_heads (int): Number of attention heads for CrossAttentionBlock.
        config: Configuration object; must contain config.framework.layer_qformer with:
            - qformer_start_layer / qformer_end_layer: range of layers (start inclusive, end exclusive).
            - num_query_tokens: Number of learnable query tokens.
            - input_dim: Input feature dimension (Din).
            - ouptput_dim: Output feature dimension (Dout).
        **kwargs: Reserved for future extensions (unused).
    Returns:
        LayerwiseQFormer: Instantiated model.
    Notes:
        - num_layers = end_layer - start_layer (half-open interval).
        - Does not perform weight loading or device moves here.
    """
    # dist.barrier()
    qformer_cfg = config.framework.layer_qformer
    num_layers = qformer_cfg.qformer_end_layer - qformer_cfg.qformer_start_layer if config else num_layers
    num_query_tokens = qformer_cfg.num_query_tokens
    input_hidden_dim = config.framework.layer_qformer.input_dim
    output_hidden_dim = config.framework.layer_qformer.ouptput_dim
    num_query_tokens = qformer_cfg.num_query_tokens

    qformer = LayerwiseQFormer(
        input_hidden_dim=input_hidden_dim,
        output_hidden_dim=output_hidden_dim,
        num_query_tokens=num_query_tokens,
        num_layers=num_layers,
        num_heads=num_heads,
        config=config,
    )
    return qformer