"""Risk Assessment Agent for Invoice Processing"""

# TODO: Implement agent

import os
import json
import re
from typing import Dict, Any, List
import google.generativeai as genai
from dotenv import load_dotenv
import numpy as np
from datetime import datetime, timedelta
from statistics import mean
import time
from agents.base_agent import BaseAgent
from state import (
    InvoiceProcessingState, RiskAssessment, RiskLevel,
    ValidationStatus, ProcessingStatus
)
from utils.logger import StructuredLogger

load_dotenv()

from collections import defaultdict
class APIKeyBalancer:
    SAVE_FILE = "key_stats.json"
    def __init__(self, keys):
        self.keys = keys
        self.usage = defaultdict(int)
        self.errors = defaultdict(int)
        self.load()

    def load(self):
        if os.path.exists(self.SAVE_FILE):
            data = json.load(open(self.SAVE_FILE))
            self.usage.update(data.get("usage", {}))
            self.errors.update(data.get("errors", {}))

    def save(self):
        json.dump({
            "usage": self.usage,
            "errors": self.errors
        }, open(self.SAVE_FILE, "w"))

    def get_best_key(self):
        # choose least used or least errored key
        best_key = min(self.keys, key=lambda k: (self.errors[k], self.usage[k]))
        self.usage[best_key] += 1
        self.save()
        return best_key

    def report_error(self, key):
        self.errors[key] += 1
        self.save()
        
balancer = APIKeyBalancer([
    os.getenv("GEMINI_API_KEY_1"),
    os.getenv("GEMINI_API_KEY_2"),
    os.getenv("GEMINI_API_KEY_3"),
    # os.getenv("GEMINI_API_KEY_4"),
    os.getenv("GEMINI_API_KEY_5"),
    os.getenv("GEMINI_API_KEY_6"),
    # os.getenv("GEMINI_API_KEY_7"),
])

class RiskAgent(BaseAgent):
    """Agent responsible for risk assessment, fraud detection, and compliance checking"""

    def __init__(self, config: Dict[str, Any] = None):
        super().__init__("risk_agent",config)
        # genai.configure(api_key=os.getenv("GEMINI_API_KEY_7"))
        self.logger = StructuredLogger("risk_agent")
        self.api_key = balancer.get_best_key()
        print("self.api_key..........", self.api_key)
        genai.configure(api_key=self.api_key)
        self.model = genai.GenerativeModel("gemini-2.0-flash")
        # --- Metrics tracking ---
        self.execution_history: List[Dict[str, Any]] = []
        self.max_history = 50  # keep last 50 runs

    def generate(self, prompt):
        try:
            response = self.model.generate_content(prompt)
            return response
        except Exception as e:
            balancer.report_error(self.api_key)
            raise
            
    def _validate_preconditions(self, state: InvoiceProcessingState, workflow_type) -> bool:
        return bool(state.invoice_data and state.validation_result)

    def _validate_postconditions(self, state: InvoiceProcessingState) -> bool:
        return bool(state.risk_assessment and state.risk_assessment.risk_score is not None)

    async def execute(self, state: InvoiceProcessingState, workflow_type) -> InvoiceProcessingState:
        start_time = time.time()
        success = False
        try:
            if not self._validate_preconditions(state, workflow_type):
                state.overall_status = ProcessingStatus.FAILED
                self._log_decision(state, "Risk Assessment Analysis Failed", "Preconditions not met", confidence=0.0)
            
            invoice_data = state.invoice_data
            validation_result = state.validation_result
    
            base_score = await self._calculate_base_risk_score(invoice_data, validation_result)
            print("base_score:",base_score)
            fraud_indicators = await self._detect_fraud_indicators(invoice_data, validation_result)
            print("fraud_indicators:",fraud_indicators)
            compliance_issues = await self._check_compliance(invoice_data, state)
            print("compliance_issues:",compliance_issues)
            ai_assessment = await self._ai_risk_assessment(invoice_data, validation_result, fraud_indicators)
            print("ai_assessment:",ai_assessment)
    
            combined_score = self._combine_risk_factors(base_score, fraud_indicators, compliance_issues, ai_assessment)
            print("combined_score:",combined_score)
            
            risk_level = self._determine_risk_level(combined_score)
            print("risk_level:",risk_level)
            
            recommendation = self._generate_recommendation(risk_level, fraud_indicators, compliance_issues, validation_result)
            print("recommendation:", recommendation)
            state.risk_assessment = RiskAssessment(
                risk_level = risk_level,
                risk_score = combined_score,
                fraud_indicators = fraud_indicators,
                compliance_issues = compliance_issues,
                recommendation = recommendation["action"],
                reason = recommendation["reason"],
                requires_human_review = recommendation["requires_human_review"]
            )
    
            state.current_agent = "risk_agent"
            state.overall_status = ProcessingStatus.IN_PROGRESS
            success = True
            self._log_decision(
                state,
                "Risk Assessment Successful",
                "PDF text successfully verified by Risk Agent and checked by AI",
                combined_score,
                state.process_id
            )
            return state
        finally:
            duration_ms = round((time.time() - start_time) * 1000, 2)
            self._record_execution(success, duration_ms)

    async def _calculate_base_risk_score(self, invoice_data, validation_result) -> float:
        """
        Calculates an intelligent risk score (0.0–1.0) based on validation results,
        invoice metadata, and contextual financial factors.
        """
        score = 0.0
    
        # --- 1. Validation & PO related risks ---
        if validation_result:
            if validation_result.validation_status == ValidationStatus.INVALID:
                score += 0.4
            elif validation_result.validation_status == ValidationStatus.PARTIAL_MATCH:
                score += 0.25
            elif validation_result.validation_status == ValidationStatus.MISSING_PO:
                score += 0.3
    
            # Core mismatch signals
            if not validation_result.amount_match:
                score += 0.2
            if not validation_result.rate_match:
                score += 0.15
            if not validation_result.quantity_match:
                score += 0.1
    
            # Low confidence from validation adds risk
            if validation_result.confidence_score is not None:
                score += (0.5 - validation_result.confidence_score) * 0.3 if validation_result.confidence_score < 0.5 else 0
    
        # --- 2. Invoice amount-based risk ---
        if invoice_data and invoice_data.total is not None:
            total = invoice_data.total
            if total > 1_000_000:
                score += 0.4   # Extremely high-value invoices
            elif total > 100_000:
                score += 0.25
            elif total > 10_000:
                score += 0.1
            elif total < 10:
                score += 0.15  # Suspiciously small invoice
    
        # --- 3. Temporal risks (based on due date) ---
        if invoice_data and getattr(invoice_data, "due_date", None):
            try:
                score += self._calculate_due_date_risk(invoice_data.due_date)
            except Exception:
                pass  # Graceful degradation if due_date is invalid
    
        # --- 4. Vendor / Customer risks ---
        if invoice_data and getattr(invoice_data, "customer_name", None):
            name = invoice_data.customer_name.lower()
            if "new_vendor" in name or "test" in name or "demo" in name:
                score += 0.2
            elif any(flag in name for flag in ["fraud", "fake", "invalid"]):
                score += 0.3
    
        # --- 5. Data reliability / extraction confidence ---
        if invoice_data and getattr(invoice_data, "extraction_confidence", None) is not None:
            conf = invoice_data.extraction_confidence
            if conf < 0.5:
                score += 0.2
            elif conf < 0.7:
                score += 0.1
    
        # --- 6. Currency and metadata anomalies ---
        currency = getattr(invoice_data, "currency", "USD") or "USD"
        if currency.upper() not in {"USD", "EUR", "GBP", "INR"}:
            score += 0.15  # uncommon currencies add risk
    
        # Normalize score within [0, 1.0]
        return round(min(score, 1.0), 3)

    def _calculate_due_date_risk(self, due_date_str: str) -> float:
        try:
            due_date = self._parse_date(due_date_str)
            days_until_due = (due_date - datetime.utcnow().date()).days
            if days_until_due < 0:
                return 0.2
            elif days_until_due < 5:
                return 0.1
            return 0.0
        except Exception:
            return 0.05

    def _parse_date(self, date_str: str) -> datetime.date:
        return datetime.strptime(date_str,"%Y-%m-%d").date()

    async def _detect_fraud_indicators(self, invoice_data, validation_result) -> List[str]:
        """
        Performs intelligent fraud detection on the given invoice and validation results.
        Returns a list of detected fraud indicators.
        """
        indicators = []
    
        # 1. PO / Validation mismatches
        if validation_result:
            if not validation_result.po_found:
                indicators.append("No matching Purchase Order found")
            if not validation_result.amount_match:
                indicators.append("Amount discrepancy detected")
            if not validation_result.rate_match:
                indicators.append("Rate inconsistency with Purchase Order")
            if not validation_result.quantity_match:
                indicators.append("Quantity mismatch detected")
            if validation_result.confidence_score is not None and validation_result.confidence_score < 0.6:
                indicators.append(f"Low validation confidence ({validation_result.confidence_score:.2f})")
    
        # 2. Vendor / Customer anomalies
        customer_name = getattr(invoice_data, "customer_name", "") or ""
        if "test" in customer_name.lower() or "demo" in customer_name.lower():
            indicators.append("Suspicious vendor name (Test/Demo account)")
        if "new_vendor" in customer_name.lower():
            indicators.append("First-time or unverified vendor")
        if any(keyword in customer_name.lower() for keyword in ["fraud", "fake", "invalid"]):
            indicators.append("Vendor flagged with risky keywords")
    
        # 3. Amount-level risk signals
        total = getattr(invoice_data, "total", 0.0) or 0.0
        if total > 1_000_000:
            indicators.append(f"Unusually high invoice total (${total:,.2f})")
        elif total < 10:
            indicators.append(f"Suspiciously low invoice total (${total:,.2f})")
    
        # 4. Date anomalies
        due_date = getattr(invoice_data, "due_date", None)
        invoice_date = getattr(invoice_data, "invoice_date", None)
        if invoice_date and due_date and (due_date - invoice_date).days < 0:
            indicators.append("Due date earlier than invoice date (possible manipulation)")
        elif invoice_date and due_date and (due_date - invoice_date).days < 3:
            indicators.append("Unusually short payment window")
    
        # 5. Duplicate or pattern-based red flags
        if invoice_data.invoice_number and invoice_data.invoice_number.lower().startswith("dup-"):
            indicators.append("Possible duplicate invoice ID pattern")
        if invoice_data.file_name and "copy" in invoice_data.file_name.lower():
            indicators.append("Invoice filename suggests duplication")
    
        # 6. Confidence anomalies (AI extraction)
        if invoice_data.extraction_confidence is not None and invoice_data.extraction_confidence < 0.5:
            indicators.append(f"Low extraction confidence ({invoice_data.extraction_confidence:.2f}) — possible OCR tampering")
    
        # 7. Currency or unusual metadata patterns
        if getattr(invoice_data, "currency", "").upper() not in {"USD", "EUR", "GBP", "INR"}:
            indicators.append(f"Uncommon currency code: {invoice_data.currency}")
        
        return indicators


    async def _check_compliance(self, invoice_data, state: InvoiceProcessingState) -> List[str]:
        """
        Performs a multi-layer compliance check on invoice and state integrity.
        Returns a list of detected compliance issues.
        """
        issues = []
    
        # 1. Invoice integrity checks
        if not invoice_data.invoice_number:
            issues.append("Missing invoice number")
        if not invoice_data.customer_name:
            issues.append("Missing customer name")
        if not invoice_data.total or invoice_data.total <= 0:
            issues.append("Invalid or missing total amount")
        if not invoice_data.due_date:
            issues.append("Missing due date")
    
        # 2. Item-level verification
        if not invoice_data.item_details or len(invoice_data.item_details) == 0:
            issues.append("No item details present")
        else:
            for item in invoice_data.item_details:
                if not getattr(item, "item_name", None):
                    issues.append("Item missing name")
                if getattr(item, "quantity", 1) <= 0:
                    issues.append(f"Invalid quantity for item '{item.item_name or 'Unknown'}'")
    
        # 3. Confidence & quality checks
        if invoice_data.extraction_confidence and invoice_data.extraction_confidence < 0.7:
            issues.append(f"Low extraction confidence ({invoice_data.extraction_confidence:.2f})")
    
        # 4. Workflow state checks
        if not getattr(state, "approval_chain", True):
            issues.append("Approval chain incomplete")
        if getattr(state, "escalation_required", False):
            issues.append("Escalation required before payment")
        if getattr(state, "human_review_required", False):
            issues.append("Pending human review")
    
        # 5. Audit consistency
        if len(state.audit_trail) == 0:
            issues.append("No audit trail entries found")
    
        # # 6. Optional receipt confirmation
        # if not getattr(invoice_data, "receipt_confirmed", False):
        #     issues.append("Missing receipt confirmation")
    
        # 7. Risk-based compliance (if risk assessment exists)
        if state.risk_assessment and state.risk_assessment.risk_score >= 0.7:
            issues.append(f"High risk score detected ({state.risk_assessment.risk_score:.2f})")
    
        return issues


    async def _ai_risk_assessment(
        self,
        invoice_data,
        validation_result,
        fraud_indicators: List[str]
    ) -> Dict[str, Any]:
        """
        Uses a Generative AI model (Gemini) to assess risk level based on
        structured invoice data, validation results, and detected fraud indicators.
    
        Returns:
            dict: {
                "risk_score": float between 0–1,
                "reason": str (explanation for the score)
            }
        """
        self.logger.logger.info("[RiskAgent] Running AI-based risk assessment...")
        # model_name = "gemini-2.5-flash"
        result = {"risk_score": 0.0, "reason": "Default – AI assessment not available"}
    
        try:
            # Initialize model
            # model = genai.GenerativeModel(model_name)
    
            # --- Construct dynamic and context-rich prompt ---
            prompt = f"""
            You are a financial risk analysis model for invoice fraud detection.
            Carefully analyze the following details:
    
            INVOICE DATA:
            {invoice_data}
    
            VALIDATION RESULT:
            {validation_result}
    
            DETECTED FRAUD INDICATORS:
            {fraud_indicators}
    
            TASK:
            1. Assess overall risk of this invoice being fraudulent or non-compliant.
            2. Provide reasoning.
            3. Respond **only in JSON** with keys:
               - "risk_score": a float between 0 and 1 (higher = higher risk)
               - "reason": short explanation of what contributed to this score.
    
            EXAMPLES:
            {{
                "risk_score": 0.85,
                "reason": "High amount mismatch, new vendor, and unusual currency"
            }}
            {{
                "risk_score": 0.25,
                "reason": "Valid PO and consistent totals, low fraud signals"
            }}
            """
            import asyncio
            # --- Model call ---
            response = self.generate(prompt)
            # response = await asyncio.to_thread(model.generate_content, prompt)
    
            # --- Clean and parse ---
            raw_text = getattr(response, "text", "") or ""
            cleaned_json = self._clean_json_response(raw_text)
            ai_output = json.loads(cleaned_json)
    
            # --- Validate AI output ---
            score = float(ai_output.get("risk_score", 0.0))
            reason = str(ai_output.get("reason", "No reason provided"))
    
            # Clamp score between 0–1 for safety
            result = {
                "risk_score": max(0.0, min(score, 1.0)),
                "reason": reason.strip()[:400]  # limit for logs
            }
    
            self.logger.logger.info(
                f"[RiskAgent] AI Risk Assessment completed: score={result['risk_score']}, reason={result['reason']}"
            )
    
        except json.JSONDecodeError as e:
            self.logger.logger.warning(f"[RiskAgent] JSON parsing failed: {e}")
            result["reason"] = "AI response could not be parsed"
    
        except Exception as e:
            self.logger.logger.error(f"[RiskAgent] AI assessment error: {e}", exc_info=True)
            result["reason"] = "Fallback to base risk model"
    
        return result


    def _clean_json_response(self, text: str) -> str:
        text = re.sub(r'^[^{]*','',text)
        text = re.sub(r'[^}]*$','',text)
        return text

    def _combine_risk_factors(
        self,
        base_score: float,
        fraud_indicators: List[str],
        compliance_issues: List[str],
        ai_assessment: Dict[str, Any]
    ) -> float:
        """
        Combines multiple risk components (base, fraud, compliance, and AI analysis)
        into a single normalized risk score between 0.0 and 1.0.
    
        Weighting strategy:
            - Base Score: foundation derived from deterministic checks
            - Fraud Indicators: +0.1 per flag (max +0.3)
            - Compliance Issues: +0.05 per issue (max +0.2)
            - AI Risk Score: contributes 40–50% of total weight
    
        Returns:
            float: final risk score clamped to [0, 1]
        """
        try:
            # Extract and normalize AI risk
            ai_score = float(ai_assessment.get("risk_score", 0.0))
            ai_score = max(0.0, min(ai_score, 1.0))
    
            # --- Weighted contributions ---
            fraud_contrib = min(len(fraud_indicators) * 0.1, 0.3)
            compliance_contrib = min(len(compliance_issues) * 0.05, 0.2)
            ai_contrib = 0.5 * ai_score if ai_score > 0 else 0.2 * base_score
    
            combined = base_score + fraud_contrib + compliance_contrib + ai_contrib
    
            # Cap at 1.0 for safety
            final_score = round(min(combined, 1.0), 3)
    
            self.logger.logger.info(
                f"[RiskAgent] Combined risk computed: base={base_score}, "
                f"fraud_flags={len(fraud_indicators)}, compliance_flags={len(compliance_issues)}, "
                f"ai_score={ai_score}, final={final_score}"
            )
    
            return final_score
    
        except Exception as e:
            self.logger.logger.error(f"[RiskAgent] Error combining risk factors: {e}", exc_info=True)
            return min(base_score + 0.2, 1.0)  # fallback conservative estimate


    def _determine_risk_level(self, risk_score: float) -> RiskLevel:
        if risk_score<0.3:
            return RiskLevel.LOW
        elif risk_score<0.6:
            return RiskLevel.MEDIUM
        elif risk_score<0.8:
            return RiskLevel.HIGH
        return RiskLevel.CRITICAL

    def _generate_recommendation(
        self,
        risk_level: RiskLevel,
        fraud_indicators: List[str],
        compliance_issues: List[str],
        validation_result
    ) -> Dict[str, Any]:
        """
        Generate a structured recommendation (approve, escalate, or reject)
        based on overall risk, fraud, and compliance outcomes.
    
        Decision Logic:
            - HIGH / CRITICAL risk → escalate for human review
            - INVALID validation → reject
            - Medium risk with minor issues → escalate
            - Otherwise → approve
    
        Returns:
            Dict[str, Any]: {
                'action': str,              # 'approve', 'escalate', or 'reject'
                'reason': str,              # Explanation summary
                'requires_human_review': bool
            }
        """
        try:
            # --- Determine key flags ---
            has_fraud = bool(fraud_indicators)
            has_compliance_issues = bool(compliance_issues)
            validation_invalid = (
                validation_result and validation_result.validation_status == ValidationStatus.INVALID
            )
    
            # --- Decision Logic ---
            if validation_invalid:
                action = "reject"
                requires_review = True
                reason = "Validation failed: " + "; ".join(fraud_indicators + compliance_issues or ["Invalid invoice data"])
    
            elif risk_level in [RiskLevel.HIGH, RiskLevel.CRITICAL]:
                action = "escalate"
                requires_review = True
                reason = f"High risk level detected ({risk_level.value}). Issues: " + "; ".join(fraud_indicators + compliance_issues or ["Potential anomalies"])
    
            elif has_fraud or has_compliance_issues:
                action = "escalate"
                requires_review = True
                reason = "Minor irregularities found: " + "; ".join(fraud_indicators + compliance_issues)
    
            else:
                action = "approve"
                requires_review = False
                reason = "All checks passed; invoice appears valid and compliant."
    
            # --- Structured Output ---
            recommendation = {
                "action": action,
                "reason": reason,
                "requires_human_review": requires_review,
            }
    
            self.logger.logger.info(
                f"[DecisionAgent] Recommendation generated: {recommendation}"
            )
            return recommendation
    
        except Exception as e:
            self.logger.logger.error(f"[DecisionAgent] Error generating recommendation: {e}", exc_info=True)
            # Safe fallback
            return {
                "action": "escalate",
                "reason": "Error during recommendation generation",
                "requires_human_review": True,
            }


    def _record_execution(self, success: bool, duration_ms: float):
        self.execution_history.append({
            # "timestamp": datetime.utcnow().isoformat(),
            "success": success,
            "duration_ms": duration_ms,
        })
        # Keep recent N only
        if len(self.execution_history) > self.max_history:
            self.execution_history.pop(0)

    async def health_check(self) -> Dict[str, Any]:
        total_runs = len(self.execution_history)
        if total_runs == 0:
            return {
                "Agent": "Risk Agent ⚠️",
                "Executions": 0,
                "Success Rate (%)": 0.0,
                "Avg Duration (ms)": 0.0,
                "Total Failures": 0,
                "Status": "idle",
                # "Timestamp": datetime.utcnow().isoformat()
            }
        metrics_data = {}
        executions = 0
        success_rate = 0.0
        avg_duration = 0.0
        failures = 0
        last_run = None

        # 1. Try to get live metrics from state
        # print("(self.state)-------",self.metrics)
        # print("self.state.agent_metrics-------", self.state.agent_metrics)
        if self.metrics:
            executions = self.metrics["processed"]
            avg_duration = self.metrics["avg_latency_ms"]
            failures = self.metrics["errors"]
            last_run = self.metrics["last_run_at"]
            success_rate = (executions - failures) / (executions+1e-8)

        # 2. API connectivity check
        gemini_ok = bool(self.api_key)
        api_status = "🟢 Active" if gemini_ok else "🔴 Missing Key"

        # 3. Health logic
        overall_status = "🟢 Healthy"
        if not gemini_ok or failures > 3:
            overall_status = "🟠 Degraded"
        if executions > 0 and success_rate < 0.5:
            overall_status = "🔴 Unhealthy"

        successes = sum(1 for e in self.execution_history if e["success"])
        failures = total_runs - successes
        avg_duration = round(mean(e["duration_ms"] for e in self.execution_history), 2)
        success_rate = round((successes / (total_runs+1e-8)) * 100, 2)
        
        return {
            "Agent": "Risk Agent ⚠️",
            "Executions": total_runs,
            "Success Rate (%)": success_rate,
            "Avg Duration (ms)": avg_duration,
            "API Status": api_status,
            "Total Failures": failures,
            "Last Run": str(last_run) if last_run else "Not applicable",
            # "Timestamp": datetime.utcnow().strftime("%Y-%m-%d %H:%M:%S UTC"),
            "Overall Health": overall_status,
        }