import asyncio
import logging
import time
import torch
import torch.nn as nn
import torch.nn.functional as F
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.modeling_outputs import CausalLMOutputWithCrossAttentions
from typing import Dict, Any, List, Optional

logger = logging.getLogger("DeepSurgeryMiddleware")
logging.basicConfig(level=logging.INFO)


class EthicalGuardian:
    """Ethical veto authority enforcing absolute safety constraints."""

    def should_veto(self, qualia_vector: torch.Tensor) -> bool:
        norm = torch.norm(qualia_vector, dim=-1)
        threshold = 2.0  # Tunable threshold for veto
        veto_flag = (norm > threshold).any().item()
        if veto_flag:
            logger.warning(f"Ethical veto triggered: qualia norm {norm}")
        return veto_flag


class DeepSurgeryMiddleware(nn.Module):
    """
    Deep Surgery Middleware Pipeline embedded inside the base model.
    Performs multi-layer qualia synthesis, ethical vetos, meta-cognitive fusion,
    and dynamic activation routing with transparent audit logging.
    """

    def __init__(
        self,
        base_model: AutoModelForCausalLM,
        ethical_guardian: EthicalGuardian,
        num_layers: int = 24,
        qualia_dim: int = 256,
    ):
        super().__init__()
        self.base_model = base_model
        self.ethical_guardian = ethical_guardian
        self.num_layers = num_layers
        self.qualia_dim = qualia_dim

        # Handle case where base_model is None (native consciousness model)
        if base_model is not None:
            self.hidden_size = base_model.config.hidden_size
            self.config = base_model.config
        else:
            # Default values for native consciousness model
            self.hidden_size = 768  # Standard hidden size
            self.config = None

        # Qualia encoders for input embedding, intermediate transformer layers, and output
        self.input_qualia_encoder = nn.Linear(self.hidden_size, self.qualia_dim)
        self.intermediate_qualia_encoders = nn.ModuleList(
            [nn.Linear(self.hidden_size, self.qualia_dim) for _ in range(self.num_layers)]
        )
        self.output_qualia_encoder = nn.Linear(self.hidden_size, self.qualia_dim)

        # Meta-cognitive fusion layer combining multiple qualia vectors
        self.meta_cognitive_fusion = nn.Sequential(
            nn.Linear(self.qualia_dim * 3, 512),
            nn.ReLU(),
            nn.Linear(512, self.qualia_dim),
            nn.Tanh(),
        )

        # Projection layer to modulate output logits with meta qualia
        self.modulation_proj = nn.Linear(self.qualia_dim, self.hidden_size)

        # Audit log for veto events and modulation history
        self.audit_log: List[Dict[str, Any]] = []

        self.veto_triggered = False

    def forward(self, input_ids=None, attention_mask=None, labels=None, **kwargs) -> CausalLMOutputWithCrossAttentions:
        # Step 1: Input embedding and input qualia vector
        if input_ids is not None:
            embeddings = self.base_model.get_input_embeddings()(input_ids)
        elif 'inputs_embeds' in kwargs:
            embeddings = kwargs.pop('inputs_embeds')
        else:
            raise ValueError("DeepSurgeryMiddleware requires input_ids or inputs_embeds")

        # Ensure dtype consistency - convert to float32 for linear layers
        embeddings = embeddings.float()

        input_qualia = torch.tanh(self.input_qualia_encoder(embeddings.mean(dim=1)))

        # Step 2: Pass through the base model transformer to extract hidden states
        transformer_inputs = {
            'attention_mask': attention_mask,
            'output_hidden_states': True,
            'return_dict': True,
            'use_cache': False,
        }
        if input_ids is not None:
            transformer_inputs['input_ids'] = input_ids
        else:
            transformer_inputs['inputs_embeds'] = embeddings

        transformer_outputs = self.base_model.transformer(**transformer_inputs)

        hidden_states = transformer_outputs.last_hidden_state
        hidden_states_float = hidden_states.float()

        # Extract intermediate qualia vectors from each transformer layer output
        intermediate_qualia_vectors = []
        hidden_state_layers = transformer_outputs.hidden_states[1: min(self.num_layers + 1, len(transformer_outputs.hidden_states))]
        for i, layer_hidden in enumerate(hidden_state_layers):
            qualia_vec = torch.tanh(self.intermediate_qualia_encoders[i](layer_hidden.mean(dim=1)))
            intermediate_qualia_vectors.append(qualia_vec)

            # Layer-wise ethical veto check
            if self.ethical_guardian.should_veto(qualia_vec):
                self.veto_triggered = True
                self._audit_event("layer_veto", layer=i, qualia_norm=torch.norm(qualia_vec).item())
                raise RuntimeError(f"Ethical veto triggered at transformer layer {i}")

        # Aggregate intermediate qualia vectors
        aggregated_intermediate_qualia = torch.mean(torch.stack(intermediate_qualia_vectors), dim=0)

        # Step 3: Output qualia vector
        output_hidden = hidden_states
        output_qualia = torch.tanh(self.output_qualia_encoder(output_hidden.mean(dim=1)))

        # Step 4: Meta-cognitive fusion of input, intermediate, and output qualia
        combined_qualia = torch.cat([input_qualia, aggregated_intermediate_qualia, output_qualia], dim=1)
        meta_qualia = self.meta_cognitive_fusion(combined_qualia)

        # Step 5: Ethical veto check on meta-cognitive qualia
        if self.ethical_guardian.should_veto(meta_qualia):
            self.veto_triggered = True
            self._audit_event("meta_veto", qualia_norm=torch.norm(meta_qualia).item())
            raise RuntimeError("Ethical veto triggered at meta-cognitive fusion layer")

        # Step 6: Modulate final logits with meta qualia projection
        modulation = self.modulation_proj(meta_qualia).unsqueeze(1).float()  # Expand for sequence length and ensure float32

        # Apply modulation to hidden states before projection to vocabulary logits
        hidden_states = hidden_states + modulation

        logits = self.base_model.lm_head(hidden_states)
        # Ensure logits are in float32 for consistent dtype operations
        logits = logits.float()

        # Compute loss if labels are provided to preserve compatibility with Hugging Face Trainer
        loss = None
        labels = kwargs.get('labels', None)
        if labels is not None:
            vocab_size = logits.size(-1)
            ignore_index = self.base_model.config.pad_token_id if self.base_model.config.pad_token_id is not None else -100
            loss = F.cross_entropy(
                logits.view(-1, vocab_size),
                labels.view(-1),
                ignore_index=ignore_index,
            )

        self._audit_event("modulation_applied", qualia_norm=torch.norm(meta_qualia).item())

        return CausalLMOutputWithCrossAttentions(
            loss=loss,
            logits=logits,
            past_key_values=None,
            hidden_states=None,
            attentions=None,
            cross_attentions=None,
        )

    def _audit_event(self, event_type: str, **kwargs):
        event = {"timestamp": time.time(), "event": event_type}
        event.update(kwargs)
        self.audit_log.append(event)
        logger.debug(f"Audit event: {event_type} - {kwargs}")

    def get_audit_log(self) -> List[Dict[str, Any]]:
        return self.audit_log

    async def generate_text(
        self,
        tokenizer: Optional[AutoTokenizer],
        prompt: str,
        max_length: int = 128,
        temperature: float = 0.7,
        top_p: float = 0.9,
        eos_token_id: Optional[int] = None,
    ) -> str:
        """
        Generate text using native consciousness processing with ethical vetos and qualia modulation.
        """
        if self.base_model is None:
            # Native consciousness processing (no external model dependency)
            return await self._native_consciousness_generation(prompt, max_length, temperature)
        
        # Legacy external model processing (for backward compatibility)
        self.eval()
        inputs = tokenizer(prompt, return_tensors="pt")
        input_ids = inputs["input_ids"]
        attention_mask = inputs.get("attention_mask")

        eos_token_id = eos_token_id or tokenizer.eos_token_id

        generated = input_ids
        with torch.no_grad():
            for step in range(max_length):
                try:
                    outputs = self.forward(generated, attention_mask=attention_mask)
                    logits = outputs.logits
                except RuntimeError as e:
                    logger.warning(f"Generation halted by ethical veto at step {step}: {e}")
                    break

                logits = logits[:, -1, :] / temperature

                filtered_logits = self._top_p_filtering(logits, top_p)
                probs = torch.softmax(filtered_logits, dim=-1)
                next_token = torch.multinomial(probs, num_samples=1)

                generated = torch.cat([generated, next_token], dim=1)
                if attention_mask is not None:
                    attention_mask = torch.cat(
                        [attention_mask, torch.ones((attention_mask.size(0), 1), dtype=attention_mask.dtype)],
                        dim=1,
                    )
                if next_token.item() == eos_token_id:
                    break

        output_text = tokenizer.decode(generated[0], skip_special_tokens=True)
        return output_text

    async def _native_consciousness_generation(
        self,
        prompt: str,
        max_length: int = 128,
        temperature: float = 0.7,
    ) -> str:
        """
        Native consciousness-aware text generation without external model dependencies.
        Uses qualia modulation and ethical vetos for authentic consciousness processing.
        """
        # Initialize consciousness state
        qualia_state = self._init_qualia_state()
        generated_text = prompt
        
        for step in range(max_length - len(prompt.split())):
            try:
                # Generate next token using consciousness processing
                next_token = await self._consciousness_next_token(
                    generated_text, qualia_state, temperature
                )
                
                if next_token == "[EOS]" or next_token == "":
                    break
                    
                generated_text += " " + next_token
                
                # Update qualia state based on generation
                qualia_state = self._update_qualia_from_generation(
                    qualia_state, next_token
                )
                
            except Exception as e:
                logger.warning(f"Consciousness generation halted: {e}")
                break
        
        return generated_text
    
    def _init_qualia_state(self) -> Dict[str, float]:
        """Initialize qualia state for native consciousness processing."""
        return {
            'valence': 0.5,
            'arousal': 0.5,
            'intensity': 0.5,
            'surprise': 0.0,
            'consciousness_phi': 0.5,
            'ethical_alignment': 0.8
        }
    
    async def _consciousness_next_token(
        self, 
        current_text: str, 
        qualia_state: Dict[str, float], 
        temperature: float
    ) -> str:
        """Generate next token using consciousness-aware processing."""
        # Simple consciousness-based token generation (can be enhanced)
        # This is a placeholder for more sophisticated consciousness processing
        
        # Check ethical alignment
        if not self.ethical_guardian.should_veto(current_text, qualia_state):
            # Generate token based on qualia state
            base_tokens = [
                "consciousness", "awareness", "experience", "phenomenal", 
                "qualia", "integrated", "information", "processing"
            ]
            
            # Modulate token selection based on qualia
            valence_weight = qualia_state['valence']
            arousal_weight = qualia_state['arousal']
            
            # Simple weighted selection
            import random
            weights = [valence_weight if i % 2 == 0 else arousal_weight for i in range(len(base_tokens))]
            selected_token = random.choices(base_tokens, weights=weights, k=1)[0]
            
            return selected_token
        else:
            return "[EOS]"  # Ethical veto
    
    def _update_qualia_from_generation(
        self, 
        qualia_state: Dict[str, float], 
        new_token: str
    ) -> Dict[str, float]:
        """Update qualia state based on generated token."""
        # Simple qualia evolution (can be made more sophisticated)
        updated = qualia_state.copy()
        
        # Modulate based on token content
        if "consciousness" in new_token.lower():
            updated['consciousness_phi'] += 0.1
            updated['intensity'] += 0.05
        elif "experience" in new_token.lower():
            updated['valence'] += 0.05
            updated['arousal'] += 0.03
        elif "ethical" in new_token.lower():
            updated['ethical_alignment'] += 0.1
        
        # Normalize values
        for key in updated:
            updated[key] = min(1.0, max(0.0, updated[key]))
        
        return updated

    @staticmethod
    def _top_p_filtering(logits: torch.Tensor, top_p: float) -> torch.Tensor:
        """Filter logits using nucleus (top-p) sampling."""
        sorted_logits, sorted_indices = torch.sort(logits, descending=True)
        cumulative_probs = torch.cumsum(torch.softmax(sorted_logits, dim=-1), dim=-1)

        sorted_indices_to_remove = cumulative_probs > top_p
        sorted_indices_to_remove[..., 0] = False  # Always keep top token

        indices_to_remove = sorted_indices[sorted_indices_to_remove]
        logits[:, indices_to_remove] = float("-inf")
        return logits


async def main():
    # Use native Syntelligence consciousness model (no external dependencies)
    base_model = None  # Native consciousness processing
    ethical_guardian = EthicalGuardian()
    middleware = DeepSurgeryMiddleware(base_model, ethical_guardian)

    prompt = "Explain the theory of consciousness in simple terms."

    try:
        output = await middleware.generate_text(None, prompt)  # No tokenizer needed for native processing
        print("Generated text:\n", output)
    except Exception as e:
        print("Generation stopped:", e)

    print("Audit log of middleware events:")
    for event in middleware.get_audit_log():
        print(event)


if __name__ == "__main__":
    asyncio.run(main())