import torch
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
import matplotlib.cm as cm
from torchvision.models.feature_extraction import create_feature_extractor
from typing import Dict, Tuple, List, Optional


def extract_attention_maps(model, image: torch.Tensor) -> list:
    """
    Extrai attention maps de todas as camadas do ViT usando hooks.
    
    Implementação simplificada e robusta que calcula attention manualmente.

    Args:
        model: Modelo ViT
        image: Tensor de imagem [1, 3, 224, 224]

    Returns:
        attentions: lista de tensores [batch, heads, patches, patches]
    """
    attentions = []
    
    # Função de hook simplificada que captura entrada e calcula attention
    def make_attention_hook():
        def hook(module, input, output):
            x = input[0]  # Input do módulo de atenção
            B, N, C = x.shape
            
            # Verificar se tem os componentes necessários
            if not (hasattr(module, 'qkv') and hasattr(module, 'num_heads')):
                return
            
            # Calcular Q, K, V
            qkv = module.qkv(x).reshape(B, N, 3, module.num_heads, C // module.num_heads).permute(2, 0, 3, 1, 4)
            q, k, v = qkv.unbind(0)
            
            # Calcular attention weights
            scale = (C // module.num_heads) ** -0.5
            attn = (q @ k.transpose(-2, -1)) * scale
            attn = attn.softmax(dim=-1)
            
            # Salvar (já no CPU para não acumular na GPU)
            attentions.append(attn.detach().cpu())
        
        return hook
    
    # Encontrar e registrar hooks nos módulos de atenção
    hooks = []
    if not hasattr(model, 'blocks'):
        raise ValueError("Modelo não tem atributo 'blocks'. Não é um ViT compatível.")
    
    for i, block in enumerate(model.blocks):
        if hasattr(block, 'attn'):
            hook = block.attn.register_forward_hook(make_attention_hook())
            hooks.append(hook)
    
    if len(hooks) == 0:
        raise ValueError("Não foi possível registrar hooks. Verifique a arquitetura do modelo.")
    
    # Executar forward pass
    model.eval()
    with torch.inference_mode():
        _ = model(image)
    
    # Remover hooks
    for hook in hooks:
        hook.remove()

    # Garantir que capturamos atenções e retornar
    if len(attentions) == 0:
        raise ValueError(
            f"Nenhuma atenção capturada após registrar {len(hooks)} hooks. "
            f"A arquitetura do modelo pode não ser compatível."
        )
    return attentions


def _infer_grid_size_from_attentions(attentions_per_iter: list) -> int:
    """Infere o tamanho do grid a partir dos tensores de atenção."""
    if not attentions_per_iter:
        return 14
    for iter_attns in attentions_per_iter:
        if not iter_attns:
            continue
        for layer_tensor in iter_attns:
            if isinstance(layer_tensor, torch.Tensor) and layer_tensor.ndim == 4:
                # shape: [B, H, T, T] onde T = num_patches + 1 (CLS)
                num_tokens = layer_tensor.shape[-1]
                num_patches = num_tokens - 1
                side = int(num_patches ** 0.5)
                if side * side == num_patches:
                    return side
    return 14  # fallback


def extract_layer_head_masks(
    attentions_per_iter: list,
    layer_idx: int,
    head_idx: int,
    cls_only: bool = True
) -> list:
    """
    Extrai máscaras por iteração para uma cabeça específica de uma camada arbitrária.

    Args:
        attentions_per_iter: Lista por iteração; cada item é lista de tensores [B, H, T, T] por camada
        layer_idx: Índice da camada (0-based)
        head_idx: Índice da cabeça (0-based)
        cls_only: Se True, usa apenas a atenção do token CLS para os patches

    Returns:
        Lista de máscaras [grid, grid] normalizadas [0,1]
    """
    masks = []
    if attentions_per_iter is None or len(attentions_per_iter) == 0:
        return masks
    
    # Inferir grid_size dinamicamente
    default_grid = _infer_grid_size_from_attentions(attentions_per_iter)
    eps = 1e-8
    
    for iter_attns in attentions_per_iter:
        if not iter_attns or layer_idx < 0 or layer_idx >= len(iter_attns):
            masks.append(np.zeros((default_grid, default_grid), dtype=np.float32))
            continue
        layer_tensor = iter_attns[layer_idx]
        if isinstance(layer_tensor, torch.Tensor):
            att = layer_tensor.detach().cpu()
        else:
            att = torch.as_tensor(layer_tensor)
        if att.ndim != 4 or att.size(0) < 1 or head_idx < 0 or head_idx >= att.size(1):
            masks.append(np.zeros((default_grid, default_grid), dtype=np.float32))
            continue
        att_head = att[0, head_idx]  # [T,T]
        vec = att_head[0] if cls_only else att_head.mean(dim=0)
        vec_patches = vec[1:]
        tokens = vec_patches.numel()
        side = int(tokens ** 0.5)
        if side * side != tokens:
            masks.append(np.zeros((default_grid, default_grid), dtype=np.float32))
            continue
        mask = vec_patches.reshape(side, side)
        mask = mask / (mask.max() + eps)
        masks.append(mask.numpy())
    return masks


def get_num_layers_heads_from_cached(attentions_per_iter: List[List[torch.Tensor]]) -> Tuple[int, int]:
    """
    Inspeciona o cache de atenções para obter número de camadas e cabeças.

    Args:
        attentions_per_iter: Lista por iteração; cada item é lista por camada com tensores [B, H, T, T].

    Returns:
        (num_layers, num_heads)
    """
    if not attentions_per_iter:
        return 0, 0
    first_iter = attentions_per_iter[0]
    if not first_iter:
        return 0, 0
    num_layers = len(first_iter)
    # assume cabeças constantes entre camadas
    h = first_iter[0]
    if isinstance(h, torch.Tensor):
        num_heads = int(h.shape[1]) if h.ndim == 4 else 0
    else:
        h_t = torch.as_tensor(h)
        num_heads = int(h_t.shape[1]) if h_t.ndim == 4 else 0
    return num_layers, num_heads


def compute_layer_head_masks_from_cached_attns(iter_attns: List[torch.Tensor], cls_only: bool = True) -> List[List[np.ndarray]]:
    """
    Para uma iteração, computa máscaras por camada e cabeça.

    Args:
        iter_attns: Lista por camada de tensores [B, H, T, T]
        cls_only: Se True, usa linha do CLS para patches

    Returns:
        Lista [layer] de listas [head] com máscaras [side, side] normalizadas.
    """
    per_layer_head_masks: List[List[np.ndarray]] = []
    eps = 1e-8
    
    # Inferir grid_size do primeiro tensor válido
    default_grid = 14
    for layer_tensor in iter_attns:
        if isinstance(layer_tensor, torch.Tensor) and layer_tensor.ndim == 4:
            num_tokens = layer_tensor.shape[-1]
            num_patches = num_tokens - 1
            side = int(num_patches ** 0.5)
            if side * side == num_patches:
                default_grid = side
                break
    
    for li, layer_tensor in enumerate(iter_attns):
        if isinstance(layer_tensor, torch.Tensor):
            att = layer_tensor.detach().cpu()
        else:
            att = torch.as_tensor(layer_tensor)
        if att.ndim != 4 or att.size(0) < 1:
            # print(f"[ViTViz][compute_layer_head_masks] Iter layer {li}: invalid attention shape {att.shape if hasattr(att,'shape') else type(att)}")
            per_layer_head_masks.append([])
            continue
        heads_masks: List[np.ndarray] = []
        # print(f"[ViTViz][compute_layer_head_masks] Layer {li}: B={att.size(0)}, H={att.size(1)}, T={att.size(2)}")
        for h in range(att.size(1)):
            att_head = att[0, h]  # [T, T]
            vec = att_head[0] if cls_only else att_head.mean(dim=0)
            vec_patches = vec[1:]
            tokens = vec_patches.numel()
            side = int(tokens ** 0.5)
            if side * side != tokens:
                # print(f"[ViTViz][compute_layer_head_masks] Layer {li} head {h}: tokens {tokens} not square -> side={side}")
                heads_masks.append(np.zeros((default_grid, default_grid), dtype=np.float32))
                continue
            mask = vec_patches.reshape(side, side)
            mmax = float(mask.max())
            mask = mask / (mmax + eps)
            if mmax == 0:
                # print(f"[ViTViz][compute_layer_head_masks] Layer {li} head {h}: max=0, produced zero mask")
                pass
            heads_masks.append(mask.numpy())
        per_layer_head_masks.append(heads_masks)
    return per_layer_head_masks


def batch_precompute_all_masks(
    attentions_per_iter: List[List[torch.Tensor]],
    discard_ratio: float = 0.9,
    head_fusion: str = 'max',
    precompute_heads: bool = True
) -> Tuple[List[np.ndarray], Optional[List[List[List[np.ndarray]]]]]:
    """
    Pré-computa todas as máscaras de atenção:
    - Rollout por iteração
    - Opcionalmente, por camada/cabeça por iteração

    Args:
        attentions_per_iter: Lista por iteração com listas por camada [B,H,T,T]
        discard_ratio: parâmetro do rollout
        head_fusion: fusão de cabeças no rollout
        precompute_heads: se True, computa todas heads por camada

    Returns:
        (rollout_masks_por_iter, per_iter_layer_head_masks ou None)
    """
    rollout_masks: List[np.ndarray] = []
    per_iter_layer_head_masks: Optional[List[List[List[np.ndarray]]]] = [] if precompute_heads else None

    if not attentions_per_iter:
        return rollout_masks, per_iter_layer_head_masks

    for it_idx, iter_attns in enumerate(attentions_per_iter):
        # Rollout desta iteração
        attentions_cpu = []
        for li, att in enumerate(iter_attns):
            if isinstance(att, torch.Tensor):
                attentions_cpu.append(att.detach().cpu())
            else:
                attentions_cpu.append(torch.as_tensor(att))
        if len(attentions_cpu) == 0:
            # print(f"[ViTViz][batch_precompute] Iter {it_idx}: empty attentions list")
            pass
        rollout_mask = attention_rollout(
            attentions_cpu,
            discard_ratio=discard_ratio,
            head_fusion=head_fusion
        )
        rollout_masks.append(rollout_mask)

        # Heads por camada desta iteração
        if precompute_heads:
            # print(f"[ViTViz][batch_precompute] Iter {it_idx}: computing per-layer/head masks; layers={len(iter_attns)}")
            per_layer = compute_layer_head_masks_from_cached_attns(iter_attns, cls_only=True)
            per_iter_layer_head_masks.append(per_layer)

    return rollout_masks, per_iter_layer_head_masks


def attention_rollout(attentions: list,
                      discard_ratio: float = 0.9,
                      head_fusion: str = 'max') -> np.ndarray:
    """
    Implementa Attention Rollout seguindo a implementação original.
    
    Referência: https://github.com/jacobgil/vit-explain

    Args:
        attentions: Lista de tensores [batch, heads, patches, patches]
        discard_ratio: Proporção de atenções mais fracas a descartar (default: 0.9)
        head_fusion: Como agregar múltiplas cabeças - 'mean', 'max' ou 'min'

    Returns:
        mask: Array numpy [grid_size, grid_size] com valores normalizados [0, 1]
    """
    # Inicializar com matriz identidade
    result = torch.eye(attentions[0].size(-1))
    
    with torch.no_grad():
        for attention in attentions:
            # Agregar heads
            if head_fusion == 'mean':
                attention_heads_fused = attention.mean(axis=1)
            elif head_fusion == 'max':
                attention_heads_fused = attention.max(axis=1)[0]
            elif head_fusion == 'min':
                attention_heads_fused = attention.min(axis=1)[0]
            else:
                raise ValueError(f"head_fusion deve ser 'mean', 'max' ou 'min'")
            # Aplicar descarte condicional das atenções fracas por amostra
            if discard_ratio > 0.0:
                bsz, tokens, _ = attention_heads_fused.shape
                flat = attention_heads_fused.view(bsz, -1)
                k = int(flat.size(-1) * discard_ratio)
                if k > 0:
                    # Menores valores (largest=False)
                    vals, idxs = torch.topk(flat, k, dim=-1, largest=False)
                    for b in range(bsz):
                        idxs_b = idxs[b]
                        # proteger CLS (posição 0 nas matrizes quadradas)
                        idxs_b = idxs_b[idxs_b != 0]
                        flat[b, idxs_b] = 0
                    attention_heads_fused = flat.view(bsz, tokens, tokens)

            # Adicionar identidade e normalizar
            I = torch.eye(attention_heads_fused.size(-1))
            a = (attention_heads_fused + 1.0 * I) / 2
            
            # CORREÇÃO 3: normalizar sem keepdim
            a = a / a.sum(dim=-1)

            # Rollout recursivo
            result = torch.matmul(a, result)
    
    # Look at the total attention between the class token and the image patches
    mask = result[0, 0, 1:]
    
    # Calcular tamanho do grid
    width = int(mask.size(-1) ** 0.5)
    mask = mask.reshape(width, width).numpy()
    
    # Normalizar
    mask = mask / np.max(mask)

    return mask


def create_attention_overlay(original_image: Image.Image, 
                            attention_mask: np.ndarray,
                            alpha: float = 0.5,
                            colormap: str = 'jet') -> Image.Image:
    """
    Cria visualização sobrepondo o mapa de atenção na imagem original.
    
    Segue implementação de referência usando OpenCV.

    Args:
        original_image: Imagem PIL original
        attention_mask: Máscara de atenção [H, W] normalizada [0, 1]
        alpha: Peso da imagem original (0.7 = 70% imagem, 30% heatmap)
        colormap: 'jet' (padrão OpenCV)

    Returns:
        Imagem PIL com overlay de atenção
    """
    import cv2
    
    # Converter PIL para numpy array RGB
    img_np = np.array(original_image).astype(np.float32) / 255.0
    
    # Redimensionar máscara para o tamanho da imagem (224x224 ou tamanho original)
    h, w = img_np.shape[:2]
    mask_resized = cv2.resize(attention_mask, (w, h))
    
    # Aplicar colormap do OpenCV (retorna BGR!)
    heatmap = cv2.applyColorMap(np.uint8(255 * mask_resized), cv2.COLORMAP_JET)
    
    # CRÍTICO: Converter BGR → RGB (OpenCV usa BGR!)
    heatmap = cv2.cvtColor(heatmap, cv2.COLOR_BGR2RGB)
    heatmap = heatmap.astype(np.float32) / 255.0
    
    # Blend: alpha * img_original + (1-alpha) * heatmap
    overlay = alpha * img_np + (1 - alpha) * heatmap
    overlay = np.clip(overlay, 0, 1)
    
    # Converter de volta para PIL
    overlay_uint8 = (overlay * 255).astype(np.uint8)
    return Image.fromarray(overlay_uint8)


def extract_attention_for_iterations(
    model,
    iteration_tensors: list,
    discard_ratio: float = 0.9,
    head_fusion: str = 'max'
) -> list:
    """
    [Deprecated when cached attentions are present]
    Extrai mapas de atenção para cada iteração do ataque usando hooks.
    
    Args:
        model: Modelo ViT
        iteration_tensors: Lista de tensors normalizados [1, 3, 224, 224] de cada iteração
        discard_ratio: Proporção de atenções fracas a descartar
        head_fusion: Como agregar heads ('mean', 'max', 'min')
    
    Returns:
        Lista de máscaras de atenção [14, 14] normalizadas [0, 1]
    """
    attention_masks = []
    
    for tensor in iteration_tensors:
        # Extrair attention maps para esta iteração
        attentions = extract_attention_maps(model, tensor)
        
        # Aplicar Attention Rollout
        mask = attention_rollout(
            attentions,
            discard_ratio=discard_ratio,
            head_fusion=head_fusion
        )
        
        attention_masks.append(mask)
    
    return attention_masks


def rollout_from_cached_attentions(
    attentions_per_iter: list,
    discard_ratio: float = 0.9,
    head_fusion: str = 'max'
) -> list:
    """
    Gera máscaras de atenção por iteração a partir de atenções já capturadas no ataque.

    Args:
        attentions_per_iter: Lista por iteração; cada item é a lista de tensores [B, H, T, T] por camada
        discard_ratio: Proporção de atenções fracas a descartar
        head_fusion: Como agregar heads ('mean', 'max', 'min')

    Returns:
        Lista de máscaras de atenção [grid, grid] normalizadas [0, 1]
    """
    attention_masks = []

    if attentions_per_iter is None or len(attentions_per_iter) == 0:
        return attention_masks

    for layer_attns in attentions_per_iter:
        # layer_attns: lista de tensores por camada [B, H, T, T]
        # Garantir CPU e detach
        attentions_cpu = []
        for att in layer_attns:
            if isinstance(att, torch.Tensor):
                attentions_cpu.append(att.detach().cpu())
            else:
                # já é CPU numpy/tensor? tentar converter via torch.as_tensor
                attentions_cpu.append(torch.as_tensor(att))

        # Aplicar rollout padrão sobre a lista de camadas
        mask = attention_rollout(
            attentions_cpu,
            discard_ratio=discard_ratio,
            head_fusion=head_fusion
        )
        attention_masks.append(mask)

    return attention_masks


def extract_last_layer_head_masks(
    attentions_per_iter: list,
    head_idx: int,
    cls_only: bool = True
) -> list:
    """
    Extrai máscaras por iteração para uma única cabeça da última camada.

    Args:
        attentions_per_iter: Lista por iteração; cada item é a lista de tensores [B, H, T, T] por camada
        head_idx: Índice da cabeça na última camada (0-based)
        cls_only: Se True, usa a atenção do token CLS (linha 0) para os patches

    Returns:
        Lista de máscaras [grid, grid] normalizadas [0, 1]
    """
    masks = []
    if attentions_per_iter is None or len(attentions_per_iter) == 0:
        return masks

    # Inferir grid_size dinamicamente
    default_grid = _infer_grid_size_from_attentions(attentions_per_iter)
    eps = 1e-8
    
    for iter_attns in attentions_per_iter:
        if not iter_attns:
            masks.append(np.zeros((default_grid, default_grid), dtype=np.float32))
            print("Atenções vazias para esta iteração.")
            continue
        # Última camada
        last_layer = iter_attns[-1]
        if isinstance(last_layer, torch.Tensor):
            att = last_layer.detach().cpu()
        else:
            att = torch.as_tensor(last_layer)

        # Esperado: [B, H, T, T] com B=1
        if att.ndim != 4 or att.size(0) < 1 or head_idx < 0 or head_idx >= att.size(1):
            masks.append(np.zeros((default_grid, default_grid), dtype=np.float32))
            print("Atenção inválida na última camada.")
            continue

        # Selecionar cabeça
        att_head = att[0, head_idx]  # [T, T]

        # Vetor atenção CLS→tokens
        if cls_only:
            vec = att_head[0]  # linha do CLS
        else:
            # média das linhas como alternativa
            vec = att_head.mean(dim=0)

        # Remover CLS e projetar para grade
        vec_patches = vec[1:]
        tokens = vec_patches.numel()
        side = int(tokens ** 0.5)
        if side * side != tokens:
            # fallback: normalizar e retornar zeros coerentes
            masks.append(np.zeros((default_grid, default_grid), dtype=np.float32))
            print("Número de patches não forma uma grade quadrada.")
            continue

        mask = vec_patches.reshape(side, side)
        mask = mask / (mask.max() + eps)
        masks.append(mask.numpy())

    return masks


def create_iteration_attention_overlays(
    iteration_images: list,
    attention_masks: list,
    alpha: float = 0.7
) -> list:
    """
    Cria overlays de atenção para cada iteração do ataque.
    OTIMIZADO para velocidade de renderização.
    
    Args:
        iteration_images: Lista de PIL Images (uma por iteração)
        attention_masks: Lista de máscaras de atenção [14, 14]
        alpha: Transparência do overlay
    
    Returns:
        Lista de PIL Images com heatmaps sobrepostos (comprimidas)
    """
    overlays = []
    
    for img, mask in zip(iteration_images, attention_masks):
        overlay = create_attention_overlay(img, mask, alpha=alpha)
        
        # OTIMIZAÇÃO AGRESSIVA: reduzir para 224x224 JPEG qualidade 75
        overlay = overlay.resize((224, 224), Image.LANCZOS)
        
        # Converter para RGB se necessário (JPEG não suporta RGBA)
        if overlay.mode in ('RGBA', 'LA', 'P'):
            background = Image.new('RGB', overlay.size, (255, 255, 255))
            if overlay.mode == 'P':
                overlay = overlay.convert('RGBA')
            background.paste(overlay, mask=overlay.split()[-1] if overlay.mode == 'RGBA' else None)
            overlay = background
        
        overlays.append(overlay)
    
    return overlays