Spaces:

adi-123
/

Project-Report-Analyzer

Sleeping

App Files Files Community

adi-123 commited on Jan 20

Commit

8c35759

verified ·

1 Parent(s): d955ccf

Upload 21 files

Browse files

Files changed (21) hide show

src/__init__.py +9 -0
src/config/__init__.py +28 -0
src/config/logging_config.py +290 -0
src/config/schema.py +87 -0
src/config/settings.py +81 -0
src/models/__init__.py +6 -0
src/models/project.py +163 -0
src/models/state.py +32 -0
src/parsers/__init__.py +6 -0
src/parsers/project_parser.py +319 -0
src/parsers/smart_chunker.py +197 -0
src/services/__init__.py +19 -0
src/services/answerer.py +498 -0
src/services/builder.py +693 -0
src/services/cache.py +317 -0
src/services/cypher_templates.py +1332 -0
src/services/neo4j_service.py +588 -0
src/services/reranker.py +254 -0
src/services/retriever.py +177 -0
src/ui/__init__.py +5 -0
src/ui/gradio_app.py +301 -0

src/__init__.py ADDED Viewed

	@@ -0,0 +1,9 @@

+"""
+GraphRAG Solution Package.
+A modular GraphRAG (Graph Retrieval-Augmented Generation) application
+for analyzing industrial project-report PDFs using Neo4j and Together AI.
+"""
+__version__ = "1.0.0"
+__author__ = "GraphRAG Team"

src/config/__init__.py ADDED Viewed

	@@ -0,0 +1,28 @@

+"""Configuration module for GraphRAG application."""
+from src.config.schema import SchemaPolicy
+from src.config.settings import Settings
+from src.config.logging_config import (
+    configure_logging,
+    get_logger,
+    get_flow_logger,
+    trace_step,
+    trace_flow,
+    trace_context,
+    log_step,
+    TraceContext,
+)
+__all__ = [
+    "SchemaPolicy",
+    "Settings",
+    # Logging
+    "configure_logging",
+    "get_logger",
+    "get_flow_logger",
+    "trace_step",
+    "trace_flow",
+    "trace_context",
+    "log_step",
+    "TraceContext",
+]

src/config/logging_config.py ADDED Viewed

	@@ -0,0 +1,290 @@

+"""Centralized logging configuration with flow tracing support."""
+from __future__ import annotations
+import functools
+import logging
+import sys
+import threading
+import time
+import uuid
+from contextlib import contextmanager
+from dataclasses import dataclass, field
+from datetime import datetime
+from typing import Any, Callable, Dict, List, Optional, TypeVar
+F = TypeVar('F', bound=Callable[..., Any])
+class GraphRAGFormatter(logging.Formatter):
+    """Custom formatter with color support and structured output."""
+    COLORS = {
+        'DEBUG': '\033[36m',
+        'INFO': '\033[32m',
+        'WARNING': '\033[33m',
+        'ERROR': '\033[31m',
+        'CRITICAL': '\033[35m',
+        'RESET': '\033[0m',
+        'DIM': '\033[2m',
+    }
+    STEP_ICONS = {
+        'start': '▶',
+        'end': '✓',
+        'error': '✗',
+        'info': '•',
+        'substep': '  ↳',
+    }
+    def __init__(self, fmt: Optional[str] = None, datefmt: Optional[str] = None, use_colors: bool = True):
+        super().__init__(fmt, datefmt)
+        self.use_colors = use_colors and sys.stdout.isatty()
+    def format(self, record: logging.LogRecord) -> str:
+        trace_id = getattr(record, 'trace_id', None)
+        step_type = getattr(record, 'step_type', None)
+        duration = getattr(record, 'duration', None)
+        prefix_parts = []
+        if trace_id:
+            prefix_parts.append(f"[{trace_id[:8]}]")
+        if step_type and step_type in self.STEP_ICONS:
+            prefix_parts.append(self.STEP_ICONS[step_type])
+        prefix = " ".join(prefix_parts) + " " if prefix_parts else ""
+        suffix = f" ({duration:.3f}s)" if duration is not None else ""
+        if self.use_colors:
+            level_color = self.COLORS.get(record.levelname, '')
+            reset = self.COLORS['RESET']
+            dim = self.COLORS['DIM']
+            timestamp = datetime.fromtimestamp(record.created).strftime('%H:%M:%S.%f')[:-3]
+            return (
+                f"{dim}{timestamp}{reset} | "
+                f"{level_color}{record.levelname:8}{reset} | "
+                f"{dim}{record.name:30}{reset} | "
+                f"{prefix}{record.getMessage()}{suffix}"
+            )
+        return f"{prefix}{super().format(record)}{suffix}"
+@dataclass
+class TraceContext:
+    """Context for tracking execution flow."""
+    trace_id: str = field(default_factory=lambda: str(uuid.uuid4()))
+    steps: List[Dict[str, Any]] = field(default_factory=list)
+    start_time: float = field(default_factory=time.time)
+    current_step: int = 0
+    def add_step(self, name: str, status: str = "completed", duration: Optional[float] = None,
+                 details: Optional[Dict[str, Any]] = None) -> None:
+        self.current_step += 1
+        self.steps.append({
+            "step": self.current_step,
+            "name": name,
+            "status": status,
+            "duration": duration,
+            "details": details or {},
+            "timestamp": time.time(),
+        })
+    def get_summary(self) -> Dict[str, Any]:
+        return {
+            "trace_id": self.trace_id,
+            "total_duration": time.time() - self.start_time,
+            "step_count": len(self.steps),
+            "steps": self.steps,
+        }
+_trace_context = threading.local()
+def get_current_trace() -> Optional[TraceContext]:
+    return getattr(_trace_context, 'current', None)
+def set_current_trace(trace: Optional[TraceContext]) -> None:
+    _trace_context.current = trace
+class FlowLogger:
+    """Logger wrapper with flow tracing capabilities."""
+    def __init__(self, name: str):
+        self.logger = logging.getLogger(name)
+        self.name = name
+    def _log_with_context(self, level: int, msg: str, step_type: Optional[str] = None,
+                          duration: Optional[float] = None, **kwargs) -> None:
+        trace = get_current_trace()
+        extra = kwargs.pop('extra', {})
+        extra['step_type'] = step_type
+        extra['duration'] = duration
+        extra['trace_id'] = trace.trace_id if trace else None
+        self.logger.log(level, msg, extra=extra, **kwargs)
+    def step_start(self, step_name: str, details: str = "") -> float:
+        msg = f"Starting: {step_name}" + (f" - {details}" if details else "")
+        self._log_with_context(logging.INFO, msg, step_type='start')
+        return time.time()
+    def step_end(self, step_name: str, start_time: float, details: str = "") -> None:
+        duration = time.time() - start_time
+        msg = f"Completed: {step_name}" + (f" - {details}" if details else "")
+        self._log_with_context(logging.INFO, msg, step_type='end', duration=duration)
+        trace = get_current_trace()
+        if trace:
+            trace.add_step(step_name, "completed", duration)
+    def step_error(self, step_name: str, error: Exception, start_time: Optional[float] = None) -> None:
+        duration = time.time() - start_time if start_time else None
+        msg = f"Failed: {step_name} - {type(error).__name__}: {error}"
+        self._log_with_context(logging.ERROR, msg, step_type='error', duration=duration)
+        trace = get_current_trace()
+        if trace:
+            trace.add_step(step_name, "failed", duration, {"error": str(error)})
+    def substep(self, msg: str) -> None:
+        self._log_with_context(logging.DEBUG, msg, step_type='substep')
+    def info(self, msg: str, **kwargs) -> None:
+        self._log_with_context(logging.INFO, msg, step_type='info', **kwargs)
+    def debug(self, msg: str, **kwargs) -> None:
+        self._log_with_context(logging.DEBUG, msg, **kwargs)
+    def warning(self, msg: str, **kwargs) -> None:
+        self._log_with_context(logging.WARNING, msg, **kwargs)
+    def error(self, msg: str, **kwargs) -> None:
+        self._log_with_context(logging.ERROR, msg, **kwargs)
+def get_flow_logger(name: str) -> FlowLogger:
+    return FlowLogger(name)
+def get_logger(name: str) -> FlowLogger:
+    return FlowLogger(name)
+def trace_step(step_name: Optional[str] = None):
+    """Decorator to trace a function as a step."""
+    def decorator(func: F) -> F:
+        @functools.wraps(func)
+        def wrapper(*args, **kwargs):
+            name = step_name or func.__name__
+            logger = get_flow_logger(func.__module__)
+            start = logger.step_start(name)
+            try:
+                result = func(*args, **kwargs)
+                logger.step_end(name, start)
+                return result
+            except Exception as e:
+                logger.step_error(name, e, start)
+                raise
+        return wrapper  # type: ignore
+    return decorator
+def trace_flow(flow_name: str):
+    """Decorator to trace an entire flow with a new trace context."""
+    def decorator(func: F) -> F:
+        @functools.wraps(func)
+        def wrapper(*args, **kwargs):
+            logger = get_flow_logger(func.__module__)
+            trace = TraceContext()
+            set_current_trace(trace)
+            logger.info(f"{'='*60}")
+            logger.info(f"FLOW START: {flow_name} [Trace: {trace.trace_id[:8]}]")
+            logger.info(f"{'='*60}")
+            start = time.time()
+            try:
+                result = func(*args, **kwargs)
+                duration = time.time() - start
+                logger.info(f"{'='*60}")
+                logger.info(f"FLOW COMPLETE: {flow_name} ({duration:.3f}s)")
+                logger.info(f"Steps completed: {len(trace.steps)}")
+                logger.info(f"{'='*60}")
+                return result
+            except Exception as e:
+                duration = time.time() - start
+                logger.error(f"{'='*60}")
+                logger.error(f"FLOW FAILED: {flow_name} ({duration:.3f}s)")
+                logger.error(f"Error: {type(e).__name__}: {e}")
+                logger.error(f"{'='*60}")
+                raise
+            finally:
+                set_current_trace(None)
+        return wrapper  # type: ignore
+    return decorator
+@contextmanager
+def trace_context(flow_name: str):
+    """Context manager for tracing a flow."""
+    logger = get_flow_logger(__name__)
+    trace = TraceContext()
+    set_current_trace(trace)
+    logger.info(f"{'='*60}")
+    logger.info(f"FLOW START: {flow_name} [Trace: {trace.trace_id[:8]}]")
+    logger.info(f"{'='*60}")
+    start = time.time()
+    try:
+        yield trace
+        duration = time.time() - start
+        logger.info(f"{'='*60}")
+        logger.info(f"FLOW COMPLETE: {flow_name} ({duration:.3f}s)")
+        logger.info(f"{'='*60}")
+    except Exception as e:
+        duration = time.time() - start
+        logger.error(f"{'='*60}")
+        logger.error(f"FLOW FAILED: {flow_name} ({duration:.3f}s)")
+        logger.error(f"Error: {type(e).__name__}: {e}")
+        logger.error(f"{'='*60}")
+        raise
+    finally:
+        set_current_trace(None)
+@contextmanager
+def log_step(logger: FlowLogger, step_name: str, details: str = ""):
+    """Context manager for logging a step."""
+    start = logger.step_start(step_name, details)
+    try:
+        yield
+        logger.step_end(step_name, start)
+    except Exception as e:
+        logger.step_error(step_name, e, start)
+        raise
+def configure_logging(level: int = logging.INFO, use_colors: bool = True,
+                      log_file: Optional[str] = None, detailed: bool = False) -> None:
+    """Configure logging for the application."""
+    root = logging.getLogger()
+    root.handlers.clear()
+    root.setLevel(level)
+    console_handler = logging.StreamHandler(sys.stdout)
+    console_handler.setLevel(level)
+    console_handler.setFormatter(GraphRAGFormatter(use_colors=use_colors))
+    root.addHandler(console_handler)
+    if log_file:
+        file_handler = logging.FileHandler(log_file)
+        file_handler.setLevel(level)
+        file_handler.setFormatter(logging.Formatter(
+            "%(asctime)s | %(levelname)-8s | %(name)-30s | %(message)s"
+        ))
+        root.addHandler(file_handler)
+    for logger_name in ["httpx", "httpcore", "neo4j", "urllib3"]:
+        logging.getLogger(logger_name).setLevel(logging.WARNING)
+    if not detailed:
+        for logger_name in ["langchain", "langchain_community"]:
+            logging.getLogger(logger_name).setLevel(logging.WARNING)

src/config/schema.py ADDED Viewed

	@@ -0,0 +1,87 @@

+"""Schema policy for LLM-driven graph extraction."""
+from __future__ import annotations
+from typing import List
+class SchemaPolicy:
+    """Defines allowed node labels and relationship types for LLM graph extraction.
+    The LLMGraphTransformer benefits from explicit schema constraints. This schema
+    is intentionally broad to support diverse project report questions (stakeholders,
+    contracts, permitting, schedule, finance, risks, etc.).
+    """
+    ALLOWED_NODES: List[str] = [
+        # Document structure
+        "Project", "Report", "Document", "Section", "Chunk", "Source", "Evidence",
+        # Organizations
+        "Organization", "Company", "Owner", "ParentCompany", "Client", "Customer",
+        "Partner", "JV", "Consortium", "Contractor", "Subcontractor", "Vendor", "Supplier",
+        "Consultant", "EngineeringFirm", "EPC", "EPCM", "Operator",
+        "GovernmentAgency", "Regulator", "Stakeholder",
+        # People
+        "Person", "Role", "Team", "Department",
+        # Geography
+        "Location", "Address", "City", "State", "Province", "Region", "Country", "County",
+        "Zone", "Port", "Site", "Plant",
+        # Finance
+        "Budget", "Cost", "Capex", "Opex", "Estimate", "Investment", "Funding",
+        "Currency", "TIV", "Revenue", "Tariff", "Price",
+        # Timeline
+        "Timeline", "Schedule", "Milestone", "Phase", "Stage", "Date", "Quarter", "Year",
+        "Duration", "StartDate", "EndDate",
+        # Technical
+        "Industry", "Sector", "Market", "Demand", "Product", "Output", "Capacity",
+        "Feedstock", "Fuel", "Technology", "Process", "Equipment", "Unit", "System", "Utility",
+        "Specification", "Standard",
+        # Contracts
+        "Contract", "Agreement", "Tender", "Bid", "RFQ", "Procurement", "Permit",
+        "WorkPackage", "Deliverable", "Requirement", "KPI", "Metric",
+        # Status
+        "Status", "StatusReason", "Decision", "Change", "Assumption", "Dependency",
+        "Risk", "Issue", "Challenge", "Constraint", "Delay", "Cancellation",
+        # ESG
+        "EnvironmentalAspect", "Emissions", "Wastewater", "Water", "Waste", "Safety",
+        "Regulation", "Compliance",
+    ]
+    ALLOWED_RELATIONSHIPS: List[str] = [
+        # Document structure
+        "HAS_REPORT", "HAS_DOCUMENT", "HAS_SECTION", "HAS_CHUNK", "HAS_EVIDENCE",
+        "EVIDENCED_BY", "SUPPORTED_BY", "MENTIONS", "ABOUT",
+        # Lifecycle
+        "HAS_STATUS", "HAS_STATUS_REASON", "HAS_PHASE", "HAS_STAGE",
+        "HAS_TIMELINE", "HAS_SCHEDULE", "HAS_MILESTONE",
+        "STARTS_AT", "ENDS_AT", "UPDATED_ON", "RELEASED_ON", "COMPLETES_AT",
+        # Organizations
+        "OWNED_BY", "PARENT_OF", "HAS_PARENT", "MANAGED_BY", "OPERATED_BY",
+        "LED_BY", "RESPONSIBLE_FOR", "WORKS_FOR", "HAS_ROLE",
+        "PARTNERED_WITH", "CONTRACTED_BY", "DESIGNED_BY", "ENGINEERED_BY",
+        "CONSTRUCTED_BY", "PROCURED_BY", "SUPPLIED_BY", "REGULATED_BY",
+        # Geography
+        "LOCATED_IN", "HAS_ADDRESS", "IN_CITY", "IN_STATE", "IN_COUNTRY", "IN_REGION", "IN_ZONE",
+        # Finance
+        "HAS_BUDGET", "HAS_COST", "HAS_CAPEX", "HAS_OPEX", "HAS_TIV", "IN_CURRENCY",
+        "FUNDED_BY", "ALLOCATED_TO",
+        # Technical
+        "IN_INDUSTRY", "IN_SECTOR", "IN_MARKET",
+        "PRODUCES", "USES_FEEDSTOCK", "USES_FUEL", "USES_TECHNOLOGY", "USES_PROCESS",
+        "REQUIRES_EQUIPMENT", "HAS_UNIT", "HAS_SYSTEM", "HAS_UTILITY", "HAS_CAPACITY",
+        "MEETS_STANDARD",
+        # Governance
+        "REQUIRES_PERMIT", "HAS_REQUIREMENT", "HAS_DELIVERABLE",
+        "HAS_ENVIRONMENTAL_ASPECT", "HAS_SAFETY_REQUIREMENT",
+        # Risks
+        "HAS_RISK", "HAS_ISSUE", "HAS_CHALLENGE", "HAS_CONSTRAINT",
+        "CAUSED_BY", "RESULTED_IN", "AFFECTED_BY", "DELAYED_BY", "CANCELLED_DUE_TO",
+    ]
+    @classmethod
+    def get_allowed_nodes(cls) -> List[str]:
+        return cls.ALLOWED_NODES.copy()
+    @classmethod
+    def get_allowed_relationships(cls) -> List[str]:
+        return cls.ALLOWED_RELATIONSHIPS.copy()

src/config/settings.py ADDED Viewed

	@@ -0,0 +1,81 @@

+"""Application settings and configuration management."""
+from __future__ import annotations
+import os
+from dataclasses import dataclass, field
+from typing import Optional
+from dotenv import load_dotenv
+@dataclass
+class Neo4jConfig:
+    """Neo4j database connection configuration."""
+    uri: str = ""
+    username: str = "neo4j"
+    password: str = ""
+    database: str = "neo4j"
+    def is_valid(self) -> bool:
+        return bool(self.uri and self.username and self.password)
+@dataclass
+class TogetherAIConfig:
+    """Together AI API configuration."""
+    api_key: str = ""
+    chat_model: str = "meta-llama/meta-llama-3.1-8b-instruct-turbo"
+    embedding_model: str = "BAAI/bge-base-en-v1.5"
+    def is_valid(self) -> bool:
+        return bool(self.api_key)
+@dataclass
+class AppConfig:
+    """Application-level configuration."""
+    port: int = 7860
+    host: str = "0.0.0.0"
+@dataclass
+class Settings:
+    """Centralized application settings."""
+    neo4j: Neo4jConfig = field(default_factory=Neo4jConfig)
+    together_ai: TogetherAIConfig = field(default_factory=TogetherAIConfig)
+    app: AppConfig = field(default_factory=AppConfig)
+    @classmethod
+    def from_env(cls, dotenv_path: Optional[str] = None) -> "Settings":
+        """Load settings from environment variables."""
+        load_dotenv(dotenv_path)
+        neo4j = Neo4jConfig(
+            uri=os.getenv("NEO4J_URI", ""),
+            username=os.getenv("NEO4J_USERNAME", "neo4j"),
+            password=os.getenv("NEO4J_PASSWORD", ""),
+            database=os.getenv("NEO4J_DATABASE", "neo4j"),
+        )
+        together_ai = TogetherAIConfig(
+            api_key=os.getenv("TOGETHER_API_KEY", ""),
+            chat_model=os.getenv("TOGETHER_CHAT_MODEL", "meta-llama/meta-llama-3.1-8b-instruct-turbo"),
+            embedding_model=os.getenv("TOGETHER_EMBED_MODEL", "BAAI/bge-base-en-v1.5"),
+        )
+        app = AppConfig(
+            port=int(os.getenv("PORT", "7860")),
+            host=os.getenv("HOST", "0.0.0.0"),
+        )
+        return cls(neo4j=neo4j, together_ai=together_ai, app=app)
+    def apply_to_env(self) -> None:
+        """Apply current settings to environment variables."""
+        if self.together_ai.api_key:
+            os.environ["TOGETHER_API_KEY"] = self.together_ai.api_key

src/models/__init__.py ADDED Viewed

	@@ -0,0 +1,6 @@

+"""Data models for GraphRAG application."""
+from src.models.project import ProjectRecord
+from src.models.state import AppState
+__all__ = ["ProjectRecord", "AppState"]

src/models/project.py ADDED Viewed

	@@ -0,0 +1,163 @@

+"""Project record data model for structured extraction from PDF reports."""
+from __future__ import annotations
+from dataclasses import dataclass
+from typing import Any, Dict, Optional
+@dataclass
+class ProjectRecord:
+    """Canonical structured fields parsed from a single PDF project report."""
+    # Identification
+    source: str
+    project_id: Optional[str] = None
+    project_name: Optional[str] = None
+    # Classification
+    industry_code: Optional[str] = None
+    project_type: Optional[str] = None
+    sector: Optional[str] = None
+    sic_code: Optional[str] = None
+    sic_product: Optional[str] = None
+    # Financial
+    tiv_amount: Optional[float] = None
+    tiv_currency: Optional[str] = None
+    # Status
+    status: Optional[str] = None
+    status_reason: Optional[str] = None
+    project_probability: Optional[str] = None
+    # Timeline
+    last_update: Optional[str] = None
+    initial_release: Optional[str] = None
+    pec_timing: Optional[str] = None
+    pec_activity: Optional[str] = None
+    # Location
+    address: Optional[str] = None
+    city_state_line: Optional[str] = None
+    zone_county: Optional[str] = None
+    # Plant Info
+    plant_owner: Optional[str] = None
+    plant_parent: Optional[str] = None
+    plant_name: Optional[str] = None
+    plant_id: Optional[str] = None
+    unit_name: Optional[str] = None
+    # Contacts
+    project_manager: Optional[str] = None
+    project_manager_company: Optional[str] = None
+    project_manager_title: Optional[str] = None
+    project_manager_email: Optional[str] = None
+    project_manager_phone: Optional[str] = None
+    engineer_company: Optional[str] = None
+    ec_firm: Optional[str] = None
+    phone: Optional[str] = None
+    # Technical
+    scope_text: Optional[str] = None
+    project_capacity: Optional[str] = None
+    environmental: Optional[str] = None
+    construction_labor: Optional[str] = None
+    operations_labor: Optional[str] = None
+    fuel_type: Optional[str] = None
+    # Derived text sections
+    schedule_text: Optional[str] = None
+    details_text: Optional[str] = None
+    @property
+    def owner_company(self) -> Optional[str]:
+        """Alias for plant_owner (backward compatibility)."""
+        return self.plant_owner
+    def get_unique_key(self) -> str:
+        return self.project_id or self.project_name or self.source
+    def has_budget_info(self) -> bool:
+        return self.tiv_amount is not None and self.tiv_currency is not None
+    def has_location_info(self) -> bool:
+        return any([self.address, self.city_state_line, self.zone_county])
+    def has_timeline_info(self) -> bool:
+        return bool(self.schedule_text)
+    def to_dict(self) -> Dict[str, Any]:
+        """Convert record to dictionary with non-None fields only."""
+        return {
+            k: v for k, v in {
+                "source": self.source,
+                "project_id": self.project_id,
+                "project_name": self.project_name,
+                "industry_code": self.industry_code,
+                "project_type": self.project_type,
+                "sector": self.sector,
+                "sic_code": self.sic_code,
+                "sic_product": self.sic_product,
+                "tiv_amount": self.tiv_amount,
+                "tiv_currency": self.tiv_currency,
+                "status": self.status,
+                "status_reason": self.status_reason,
+                "project_probability": self.project_probability,
+                "last_update": self.last_update,
+                "initial_release": self.initial_release,
+                "pec_timing": self.pec_timing,
+                "pec_activity": self.pec_activity,
+                "address": self.address,
+                "city_state_line": self.city_state_line,
+                "zone_county": self.zone_county,
+                "plant_owner": self.plant_owner,
+                "plant_parent": self.plant_parent,
+                "plant_name": self.plant_name,
+                "plant_id": self.plant_id,
+                "unit_name": self.unit_name,
+                "project_manager": self.project_manager,
+                "project_manager_company": self.project_manager_company,
+                "project_manager_title": self.project_manager_title,
+                "project_manager_email": self.project_manager_email,
+                "project_manager_phone": self.project_manager_phone,
+                "engineer_company": self.engineer_company,
+                "ec_firm": self.ec_firm,
+                "phone": self.phone,
+                "scope_text": self.scope_text,
+                "project_capacity": self.project_capacity,
+                "environmental": self.environmental,
+                "construction_labor": self.construction_labor,
+                "operations_labor": self.operations_labor,
+                "fuel_type": self.fuel_type,
+                "schedule_text": self.schedule_text,
+                "details_text": self.details_text,
+            }.items() if v is not None
+        }
+@dataclass
+class Milestone:
+    """A project milestone extracted from schedule text."""
+    name: str
+    date_text: str = ""
+    sentence: str = ""
+    source: str = ""
+    def to_dict(self) -> Dict[str, str]:
+        return {"name": self.name, "dateText": self.date_text, "sentence": self.sentence}
+@dataclass
+class GeoComponents:
+    """Parsed geographic components from city/state line."""
+    city: Optional[str] = None
+    state: Optional[str] = None
+    postal: Optional[str] = None
+    country: Optional[str] = None
+    def to_dict(self) -> Dict[str, Optional[str]]:
+        return {"city": self.city, "state": self.state, "postal": self.postal, "country": self.country}

src/models/state.py ADDED Viewed

	@@ -0,0 +1,32 @@

+"""Application state container for runtime handles."""
+from __future__ import annotations
+from dataclasses import dataclass
+from typing import TYPE_CHECKING, Any, Optional
+if TYPE_CHECKING:
+    from src.services.neo4j_service import Neo4jService
+@dataclass
+class AppState:
+    """Runtime handles required for query-time execution after ingestion."""
+    neo4j: Optional[Any] = None
+    vector: Optional[Any] = None
+    qa_chain: Optional[Any] = None
+    llm: Optional[Any] = None
+    def is_ready(self) -> bool:
+        return all([self.neo4j, self.vector, self.qa_chain, self.llm])
+    def get_graph(self) -> Optional[Any]:
+        return self.neo4j.graph if self.neo4j else None
+    def close(self) -> None:
+        if self.neo4j:
+            try:
+                self.neo4j.close()
+            except Exception:
+                pass

src/parsers/__init__.py ADDED Viewed

	@@ -0,0 +1,6 @@

+"""Parsing utilities for document extraction."""
+from src.parsers.project_parser import ProjectReportParser
+from src.parsers.smart_chunker import SemanticChunker, get_chunker
+__all__ = ["ProjectReportParser", "SemanticChunker", "get_chunker"]

src/parsers/project_parser.py ADDED Viewed

	@@ -0,0 +1,319 @@

+"""Project report parser for semi-structured PDF documents."""
+from __future__ import annotations
+import re
+from typing import Dict, List, Optional, Tuple
+from src.models.project import GeoComponents, Milestone, ProjectRecord
+from src.config import get_logger
+logger = get_logger(__name__)
+class ProjectReportParser:
+    """Comprehensive parser for semi-structured project report PDFs."""
+    # Identification patterns
+    PATTERN_PROJECT_ID = r"Project ID:\s*([0-9]+)"
+    PATTERN_PROJECT_NAME = r"Project Name\s+(.+?)\s+PEC Activity Diagram"
+    # Classification patterns
+    PATTERN_INDUSTRY_CODE = r"Industry Code\s+([0-9]+\s+[A-Za-z\s&\(\)]+?)(?:\s+Project Type)"
+    PATTERN_PROJECT_TYPE = r"Project Type\s+([A-Za-z]+)"
+    PATTERN_SECTOR = r"Sector\s+([A-Za-z\s]+?)(?:\s+SIC Product|\s+Status)"
+    PATTERN_SIC_CODE = r"SIC Code\s+([0-9]+\s+[A-Za-z\s&,\[\]]+?)(?:\s+Sector)"
+    PATTERN_SIC_PRODUCT = r"SIC Product\s+([0-9\*]+\s+[A-Za-z\s,\(\)\-]+?)(?:\s+Status)"
+    # Financial patterns
+    PATTERN_TIV_USD = r"TIV \(USD\)\s*([0-9,]+)"
+    PATTERN_TIV_CNY = r"TIV \(CNY\)\s*([0-9,]+)"
+    # Status patterns
+    PATTERN_STATUS = r"Status\s+([A-Za-z]+)\s+Last Update"
+    PATTERN_STATUS_REASON = r"Status Reason\s+(.+?)\s+Environmental"
+    PATTERN_PROJECT_PROBABILITY = r"Project Probability\s+([A-Za-z]+\s*\([0-9\-]+%\))"
+    # Timeline patterns
+    PATTERN_LAST_UPDATE = r"Last Update\s+([0-9]{2}-[A-Za-z]{3}-[0-9]{4})"
+    PATTERN_INITIAL_RELEASE = r"Initial Release\s+([0-9]{2}-[A-Za-z]{3}-[0-9]{4})"
+    PATTERN_PEC_TIMING = r"PEC.\s*Timing\s+([A-Z][0-9])"
+    PATTERN_PEC_ACTIVITY = r"PEC.\s*Activity\s+([A-Za-z\s\-]+?)(?:\s+Project Probability)"
+    # Location patterns
+    PATTERN_LOCATION = r"Location\s+(.+?)\s+Phone"
+    PATTERN_CITY_STATE = r"City/State\s+(.+?)\s+Zone/County"
+    PATTERN_ZONE_COUNTY = r"Zone/County\s+(.+?)\s+Project Responsibility"
+    PATTERN_PHONE = r"Phone\s+(\+?[0-9\s\-]+)"
+    # Plant info patterns
+    PATTERN_PLANT_OWNER = r"Plant Owner\s+([A-Za-z\s&,\.]+?)(?:\s+Plant Parent)"
+    PATTERN_PLANT_PARENT = r"Plant Parent\s+([A-Za-z\s&,\.]+?)(?:\s+Plant Name|\s+Unit Name)"
+    PATTERN_PLANT_NAME = r"Plant Name\s+([A-Za-z\s&,\.]+?)(?:\s+Unit Name|\s+Plant ID)"
+    PATTERN_PLANT_ID = r"Plant ID\s+([0-9]+)"
+    PATTERN_UNIT_NAME = r"Unit Name\s+([A-Za-z0-9\s&]+?)(?:\s+Plant ID|\s+Location)"
+    # Contact patterns
+    PATTERN_PROJECT_MANAGER = r"Project Manager\s+([A-Za-z\s&,\.]+?)\s+([A-Z][a-z]+\s+[A-Z][a-z]+)\s+(?:\d|No\.|[A-Z][a-z]+\s+(?:Road|Street|Drive|Ave|Suite|Manager))"
+    PATTERN_ENGINEER = r"Eng\s+([A-Za-z\s&,\.]+?)\s+(?:[A-Z][a-z]+\s+[A-Z][a-z]+|[0-9])"
+    PATTERN_EC_FIRM = r"E&C\s+([A-Za-z\s&,\.]+?)\s+(?:[A-Z][a-z]+\s+[A-Z][a-z]+|[0-9])"
+    PATTERN_EMAIL = r"\[E-Mail\]\s*([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})"
+    # Technical patterns
+    PATTERN_SCOPE = r"Scope\s+(.+?)\s+Schedule\s+"
+    PATTERN_PROJECT_CAPACITY = r"Project Capacity\s+(?:Planned\s+)?([0-9,]+\s*(?:MW|BBL|Megawatts)[^\n]*)"
+    PATTERN_ENVIRONMENTAL = r"Environmental\s+(Air\s*\([A-Z]\)[^C]*?)(?:\s+Construction Labor)"
+    PATTERN_CONSTRUCTION_LABOR = r"Construction Labor Preference\s+([A-Za-z\-]+)"
+    PATTERN_OPERATIONS_LABOR = r"Operations Labor Preference\s+([A-Za-z\-]+)"
+    PATTERN_FUEL_TYPE = r"Project Fuel Type\s+([A-Za-z]+)"
+    # Schedule/details patterns
+    PATTERN_SCHEDULE = r"Schedule\s+(.+?)\bDetails\b"
+    PATTERN_SCHEDULE_FALLBACK = r"Schedule\s+(.+?)\s+Engineering\s+(?:Civil|Contracting|Electrical)"
+    PATTERN_DETAILS = r"Details\s+(.+?)\s+Engineering\s+(?:Civil|Contracting)"
+    # Milestone pattern
+    PATTERN_MILESTONE = (
+        r"(?P<name>[A-Za-z0-9\-\s&/]+?)\s+"
+        r"(?P<date>(?:[1-4]Q\d{2,4}|\d{4}|[A-Za-z]{3}-\d{4})(?:\s*\([^\)]*\))?)"
+    )
+    CHALLENGE_KEYWORDS = r"funding|partners|agreement|RFQ|bid|cancelled|delay|escalat"
+    PATTERN_GEO = r"^(?P<city>[^,]+),\s*(?P<state>[^\d]+?)\s+(?P<postal>\d+)\s+(?P<country>.+)$"
+    def __init__(self) -> None:
+        self._compiled_patterns: Dict[str, re.Pattern] = {}
+    def _get_pattern(self, pattern: str, flags: int = 0) -> re.Pattern:
+        key = f"{pattern}:{flags}"
+        if key not in self._compiled_patterns:
+            self._compiled_patterns[key] = re.compile(pattern, flags)
+        return self._compiled_patterns[key]
+    def _find_match(self, text: str, pattern: str, flags: int = 0) -> Optional[str]:
+        compiled = self._get_pattern(pattern, flags)
+        match = compiled.search(text)
+        return match.group(1).strip() if match else None
+    def _find_all_matches(self, text: str, pattern: str, flags: int = 0) -> List[str]:
+        compiled = self._get_pattern(pattern, flags)
+        return [m.group(1).strip() for m in compiled.finditer(text)]
+    @staticmethod
+    def _money_to_float(value: str) -> Optional[float]:
+        try:
+            return float(value.replace(",", ""))
+        except (ValueError, AttributeError):
+            return None
+    def _extract_project_manager(self, text: str) -> Tuple[Optional[str], Optional[str], Optional[str]]:
+        """Extract project manager name, company, and email."""
+        pm_pattern = self._get_pattern(self.PATTERN_PROJECT_MANAGER, re.IGNORECASE)
+        pm_match = pm_pattern.search(text)
+        name, company, email = None, None, None
+        if pm_match:
+            company = pm_match.group(1).strip()
+            name = pm_match.group(2).strip()
+            pm_section = text[pm_match.start():pm_match.start() + 500]
+            email_match = re.search(self.PATTERN_EMAIL, pm_section)
+            if email_match:
+                email = email_match.group(1)
+            logger.info(f"Found Project Manager: {name} ({company})")
+        return name, company, email
+    def parse(self, text: str, source_name: str) -> ProjectRecord:
+        """Parse a report into a ProjectRecord with comprehensive field extraction."""
+        normalized = re.sub(r"\s+", " ", text)
+        # Identification
+        project_id = self._find_match(normalized, self.PATTERN_PROJECT_ID)
+        project_name = self._find_match(normalized, self.PATTERN_PROJECT_NAME, re.IGNORECASE)
+        # Classification
+        industry_code = self._find_match(normalized, self.PATTERN_INDUSTRY_CODE, re.IGNORECASE)
+        project_type = self._find_match(normalized, self.PATTERN_PROJECT_TYPE, re.IGNORECASE)
+        sector = self._find_match(normalized, self.PATTERN_SECTOR, re.IGNORECASE)
+        sic_code = self._find_match(normalized, self.PATTERN_SIC_CODE, re.IGNORECASE)
+        sic_product = self._find_match(normalized, self.PATTERN_SIC_PRODUCT, re.IGNORECASE)
+        # Financial
+        tiv_usd = self._find_match(normalized, self.PATTERN_TIV_USD)
+        tiv_cny = self._find_match(normalized, self.PATTERN_TIV_CNY)
+        tiv_amount: Optional[float] = None
+        tiv_currency: Optional[str] = None
+        if tiv_usd:
+            tiv_amount = self._money_to_float(tiv_usd)
+            tiv_currency = "USD"
+        elif tiv_cny:
+            tiv_amount = self._money_to_float(tiv_cny)
+            tiv_currency = "CNY"
+        # Status
+        status = self._find_match(normalized, self.PATTERN_STATUS, re.IGNORECASE)
+        status_reason = self._find_match(normalized, self.PATTERN_STATUS_REASON, re.IGNORECASE)
+        project_probability = self._find_match(normalized, self.PATTERN_PROJECT_PROBABILITY, re.IGNORECASE)
+        # Timeline
+        last_update = self._find_match(normalized, self.PATTERN_LAST_UPDATE)
+        initial_release = self._find_match(normalized, self.PATTERN_INITIAL_RELEASE)
+        pec_timing = self._find_match(normalized, self.PATTERN_PEC_TIMING, re.IGNORECASE)
+        pec_activity = self._find_match(normalized, self.PATTERN_PEC_ACTIVITY, re.IGNORECASE)
+        # Location
+        address = self._find_match(normalized, self.PATTERN_LOCATION, re.IGNORECASE)
+        city_state_line = self._find_match(normalized, self.PATTERN_CITY_STATE, re.IGNORECASE)
+        zone_county = self._find_match(normalized, self.PATTERN_ZONE_COUNTY, re.IGNORECASE)
+        phone = self._find_match(normalized, self.PATTERN_PHONE)
+        # Plant info
+        plant_owner = self._find_match(normalized, self.PATTERN_PLANT_OWNER, re.IGNORECASE)
+        plant_parent = self._find_match(normalized, self.PATTERN_PLANT_PARENT, re.IGNORECASE)
+        plant_name = self._find_match(normalized, self.PATTERN_PLANT_NAME, re.IGNORECASE)
+        plant_id = self._find_match(normalized, self.PATTERN_PLANT_ID)
+        unit_name = self._find_match(normalized, self.PATTERN_UNIT_NAME, re.IGNORECASE)
+        # Contacts
+        project_manager, project_manager_company, project_manager_email = self._extract_project_manager(normalized)
+        engineer_company = self._find_match(normalized, self.PATTERN_ENGINEER, re.IGNORECASE)
+        ec_firm = self._find_match(normalized, self.PATTERN_EC_FIRM, re.IGNORECASE)
+        # Technical
+        scope_text = self._find_match(normalized, self.PATTERN_SCOPE, re.IGNORECASE | re.DOTALL)
+        project_capacity = self._find_match(normalized, self.PATTERN_PROJECT_CAPACITY, re.IGNORECASE)
+        environmental = self._find_match(normalized, self.PATTERN_ENVIRONMENTAL, re.IGNORECASE)
+        construction_labor = self._find_match(normalized, self.PATTERN_CONSTRUCTION_LABOR, re.IGNORECASE)
+        operations_labor = self._find_match(normalized, self.PATTERN_OPERATIONS_LABOR, re.IGNORECASE)
+        fuel_type = self._find_match(normalized, self.PATTERN_FUEL_TYPE, re.IGNORECASE)
+        # Schedule/details
+        schedule_text = self._find_match(normalized, self.PATTERN_SCHEDULE, re.IGNORECASE | re.DOTALL)
+        if not schedule_text:
+            schedule_text = self._find_match(normalized, self.PATTERN_SCHEDULE_FALLBACK, re.IGNORECASE | re.DOTALL)
+        details_text = self._find_match(normalized, self.PATTERN_DETAILS, re.IGNORECASE | re.DOTALL)
+        extracted_count = sum(1 for v in [
+            project_id, project_name, industry_code, project_type, sector,
+            tiv_amount, status, plant_owner, project_manager, scope_text,
+            schedule_text, pec_timing, pec_activity
+        ] if v is not None)
+        logger.info(f"Extracted {extracted_count}/13 key fields from {source_name}")
+        return ProjectRecord(
+            source=source_name,
+            project_id=project_id,
+            project_name=project_name,
+            industry_code=industry_code,
+            project_type=project_type,
+            sector=sector,
+            sic_code=sic_code,
+            sic_product=sic_product,
+            tiv_amount=tiv_amount,
+            tiv_currency=tiv_currency,
+            status=status,
+            status_reason=status_reason,
+            project_probability=project_probability,
+            last_update=last_update,
+            initial_release=initial_release,
+            pec_timing=pec_timing,
+            pec_activity=pec_activity,
+            address=address,
+            city_state_line=city_state_line,
+            zone_county=zone_county,
+            plant_owner=plant_owner,
+            plant_parent=plant_parent,
+            plant_name=plant_name,
+            plant_id=plant_id,
+            unit_name=unit_name,
+            project_manager=project_manager,
+            project_manager_company=project_manager_company,
+            project_manager_email=project_manager_email,
+            engineer_company=engineer_company,
+            ec_firm=ec_firm,
+            phone=phone,
+            scope_text=scope_text,
+            project_capacity=project_capacity,
+            environmental=environmental,
+            construction_labor=construction_labor,
+            operations_labor=operations_labor,
+            fuel_type=fuel_type,
+            schedule_text=schedule_text,
+            details_text=details_text,
+        )
+    def extract_milestones(self, schedule_text: Optional[str]) -> List[Milestone]:
+        """Extract milestone-like statements from schedule text."""
+        if not schedule_text:
+            return []
+        milestones: List[Milestone] = []
+        pattern = self._get_pattern(self.PATTERN_MILESTONE)
+        for match in pattern.finditer(schedule_text):
+            name = match.group("name").strip()
+            date_text = match.group("date").strip()
+            if len(name) >= 3 and name.lower() not in ("the", "and", "for", "with"):
+                milestones.append(Milestone(
+                    name=name,
+                    date_text=date_text,
+                    sentence=schedule_text[max(0, match.start()-50):match.end()+20].strip(),
+                ))
+        if not milestones and schedule_text.strip():
+            milestones.append(Milestone(name="Schedule", date_text="", sentence=schedule_text.strip()[:200]))
+        return milestones
+    def derive_challenges(self, record: ProjectRecord) -> List[str]:
+        """Derive candidate challenges/constraints from record fields."""
+        candidates: List[str] = []
+        if record.status_reason:
+            candidates.append(f"Status reason: {record.status_reason}")
+        if record.details_text:
+            candidates.append(record.details_text)
+        if record.schedule_text and re.search(self.CHALLENGE_KEYWORDS, record.schedule_text, re.IGNORECASE):
+            candidates.append("Dependencies / commercial gating mentioned in schedule (funding, partners, RFQs/bids).")
+        if record.status and record.status.lower() == "cancelled":
+            candidates.append("Project status is Cancelled.")
+        seen: set = set()
+        cleaned: List[str] = []
+        for candidate in candidates:
+            candidate = candidate.strip()
+            if candidate and candidate not in seen:
+                seen.add(candidate)
+                cleaned.append(candidate)
+        return cleaned
+    def parse_city_state_country(self, city_state_line: Optional[str]) -> GeoComponents:
+        """Parse City/State line into structured components."""
+        if not city_state_line:
+            return GeoComponents()
+        line = city_state_line.strip()
+        pattern = self._get_pattern(self.PATTERN_GEO)
+        match = pattern.match(line)
+        if not match:
+            return GeoComponents(city=line)
+        return GeoComponents(
+            city=match.group("city").strip(),
+            state=match.group("state").strip(),
+            postal=match.group("postal").strip(),
+            country=match.group("country").strip(),
+        )
+_default_parser: Optional[ProjectReportParser] = None
+def get_parser() -> ProjectReportParser:
+    """Get the default parser instance (singleton)."""
+    global _default_parser
+    if _default_parser is None:
+        _default_parser = ProjectReportParser()
+    return _default_parser

src/parsers/smart_chunker.py ADDED Viewed

	@@ -0,0 +1,197 @@

+"""Smart chunking for semi-structured project reports."""
+from __future__ import annotations
+import re
+from typing import Any, Dict, List, Optional
+from langchain.schema import Document
+class SemanticChunker:
+    """Section-aware chunking that respects document structure."""
+    SECTION_PATTERNS = [
+        r"^(?:Project\s+)?(?:ID|Name|Summary|Overview)",
+        r"^(?:Budget|TIV|Investment|Cost)",
+        r"^(?:Schedule|Timeline|Milestones?)",
+        r"^(?:Location|Site|Address)",
+        r"^(?:Status|Progress|Update)",
+        r"^(?:Details?|Description|Scope)",
+        r"^(?:Challenge|Risk|Issue|Constraint)",
+        r"^(?:Engineering|Construction|Procurement)",
+        r"^(?:Environmental|Regulatory|Permit)",
+    ]
+    DENSE_INDICATORS = [
+        r'\$[\d,]+',
+        r'\d{1,2}[-/]\d{1,2}[-/]\d{2,4}',
+        r'\b[A-Z]{2,}\b',
+        r'\d+\s*(?:MW|GW|tons?|MT|units?|km|miles?)',
+    ]
+    def __init__(
+        self,
+        max_chunk_size: int = 1200,
+        min_chunk_size: int = 200,
+        overlap_sentences: int = 2,
+    ) -> None:
+        self.max_chunk_size = max_chunk_size
+        self.min_chunk_size = min_chunk_size
+        self.overlap_sentences = overlap_sentences
+        self._section_pattern = re.compile(
+            "|".join(f"({p})" for p in self.SECTION_PATTERNS),
+            re.IGNORECASE | re.MULTILINE
+        )
+    def _detect_sections(self, text: str) -> List[Dict[str, Any]]:
+        """Identify section boundaries in document."""
+        sections: List[Dict[str, Any]] = []
+        matches = list(self._section_pattern.finditer(text))
+        for i, match in enumerate(matches):
+            start = match.start()
+            end = matches[i + 1].start() if i + 1 < len(matches) else len(text)
+            sections.append({
+                "header": match.group().strip(),
+                "start": start,
+                "end": end,
+                "content": text[start:end].strip()
+            })
+        if not sections:
+            sections.append({
+                "header": "Document",
+                "start": 0,
+                "end": len(text),
+                "content": text.strip()
+            })
+        return sections
+    def _calculate_density(self, text: str) -> float:
+        """Calculate information density of text (matches per 100 chars)."""
+        total_matches = sum(len(re.findall(p, text)) for p in self.DENSE_INDICATORS)
+        return (total_matches / max(len(text), 1)) * 100
+    def _optimal_chunk_size(self, text: str) -> int:
+        """Determine optimal chunk size based on content density."""
+        density = self._calculate_density(text)
+        if density > 5:
+            return 600
+        elif density > 2:
+            return 900
+        return 1200
+    def _split_section(
+        self,
+        section: Dict[str, Any],
+        source: str,
+        chunk_size: Optional[int] = None
+    ) -> List[Document]:
+        """Split a section into appropriately sized chunks."""
+        content = section["content"]
+        header = section["header"]
+        effective_chunk_size = chunk_size or self.max_chunk_size
+        if len(content) <= effective_chunk_size:
+            return [Document(
+                page_content=f"[{header}] {content}",
+                metadata={
+                    "source": source,
+                    "section": header,
+                    "chunk_size": len(content),
+                    "density": self._calculate_density(content),
+                }
+            )]
+        sentences = re.split(r'(?<=[.!?])\s+', content)
+        chunks: List[Document] = []
+        current_chunk: List[str] = []
+        current_length = 0
+        for sentence in sentences:
+            sentence_len = len(sentence)
+            if current_length + sentence_len > effective_chunk_size and current_chunk:
+                chunk_text = " ".join(current_chunk)
+                chunks.append(Document(
+                    page_content=f"[{header}] {chunk_text}",
+                    metadata={
+                        "source": source,
+                        "section": header,
+                        "chunk_size": len(chunk_text),
+                        "density": self._calculate_density(chunk_text),
+                    }
+                ))
+                current_chunk = current_chunk[-self.overlap_sentences:]
+                current_length = sum(len(s) for s in current_chunk)
+            current_chunk.append(sentence)
+            current_length += sentence_len
+        if current_chunk:
+            chunk_text = " ".join(current_chunk)
+            if len(chunk_text) >= self.min_chunk_size or not chunks:
+                chunks.append(Document(
+                    page_content=f"[{header}] {chunk_text}",
+                    metadata={
+                        "source": source,
+                        "section": header,
+                        "chunk_size": len(chunk_text),
+                        "density": self._calculate_density(chunk_text),
+                    }
+                ))
+        return chunks
+    def chunk_document(self, text: str, source: str, adaptive: bool = True) -> List[Document]:
+        """Chunk document respecting section boundaries."""
+        sections = self._detect_sections(text)
+        all_chunks: List[Document] = []
+        for section in sections:
+            chunk_size = self._optimal_chunk_size(section["content"]) if adaptive else self.max_chunk_size
+            chunks = self._split_section(section, source, chunk_size)
+            all_chunks.extend(chunks)
+        return all_chunks
+    def chunk_pages(self, pages: List[Document], adaptive: bool = True) -> List[Document]:
+        """Chunk a list of page Documents."""
+        if not pages:
+            return []
+        source = pages[0].metadata.get("source", "document.pdf")
+        full_text = ""
+        page_boundaries: List[int] = []
+        for page in pages:
+            page_boundaries.append(len(full_text))
+            full_text += page.page_content + "\n\n"
+        chunks = self.chunk_document(full_text, source, adaptive)
+        for chunk in chunks:
+            chunk_start = full_text.find(
+                chunk.page_content.replace(f"[{chunk.metadata.get('section', '')}] ", "")[:50]
+            )
+            if chunk_start >= 0:
+                page_num = 1
+                for i, boundary in enumerate(page_boundaries):
+                    if chunk_start >= boundary:
+                        page_num = i + 1
+                chunk.metadata["page"] = page_num
+        return chunks
+_default_chunker: Optional[SemanticChunker] = None
+def get_chunker() -> SemanticChunker:
+    """Get the default chunker instance (singleton)."""
+    global _default_chunker
+    if _default_chunker is None:
+        _default_chunker = SemanticChunker()
+    return _default_chunker

src/services/__init__.py ADDED Viewed

	@@ -0,0 +1,19 @@

+"""Core services for GraphRAG application."""
+from src.services.neo4j_service import Neo4jService, Neo4jConnectionError
+from src.services.builder import GraphRAGBuilder
+from src.services.answerer import QueryAnswerer
+from src.services.retriever import OptimizedRetriever
+from src.services.cache import QueryCache, AnswerCache, get_query_cache, get_answer_cache
+__all__ = [
+    "Neo4jService",
+    "Neo4jConnectionError",
+    "GraphRAGBuilder",
+    "QueryAnswerer",
+    "OptimizedRetriever",
+    "QueryCache",
+    "AnswerCache",
+    "get_query_cache",
+    "get_answer_cache",
+]

src/services/answerer.py ADDED Viewed

	@@ -0,0 +1,498 @@

+"""Query answering service with hybrid strategy."""
+from __future__ import annotations
+from typing import Any, Dict, List, Optional, Set, Tuple
+from langchain.schema import Document
+from src.config import get_logger, trace_flow, log_step
+from src.models.state import AppState
+from src.services.retriever import OptimizedRetriever
+from src.services.cache import AnswerCache, get_answer_cache
+from src.services.cypher_templates import (
+    CypherTemplateRouter,
+    TemplateResultFormatter,
+    QueryIntent,
+)
+# Module logger
+logger = get_logger(__name__)
+class QueryAnswerer:
+    """Answers user questions using an optimized hybrid strategy.
+    Strategy:
+        1) Template-first routing: Pattern matching classifies intent and
+           executes pre-validated Cypher templates for most queries.
+           This is deterministic, fast, and reliable.
+        2) For general queries: GraphRAG with optimized retrieval:
+           - Pattern-based query expansion (no LLM)
+           - Cross-encoder reranking (faster than LLM)
+           - Single LLM call for synthesis only
+    """
+    # Default retrieval settings
+    DEFAULT_K = 6
+    # Optimized synthesis prompt (simpler, more focused)
+    SYNTHESIS_PROMPT = """You are an expert analyst for industrial project reports.
+## Question
+{question}
+## Retrieved Document Excerpts
+{context}
+## Graph Database Context
+{graph_context}
+## Instructions
+1. Answer directly and concisely based on the evidence
+2. If information is incomplete, acknowledge what's missing
+3. For comparison questions, structure answer by project
+4. Use citations like [1], [2] to reference sources
+5. For challenges/risks, consider: cancellation reasons, delays, funding issues, permitting
+Answer:""".strip()
+    def __init__(
+        self,
+        k: int = DEFAULT_K,
+        use_optimized_retrieval: bool = True,
+        use_caching: bool = True,
+        cache_ttl: float = 3600,
+        use_reranking: bool = True,
+    ) -> None:
+        """Initialize query answerer.
+        Args:
+            k: Number of chunks to retrieve for similarity search.
+            use_optimized_retrieval: If True, uses fast pattern-based expansion
+                and cross-encoder reranking. If False, uses original LLM-based.
+            use_caching: If True, caches answers for repeated queries.
+            cache_ttl: Cache time-to-live.
+            use_reranking: If True, uses cross-encoder reranking.
+        """
+        self.k = k
+        self.use_optimized_retrieval = use_optimized_retrieval
+        self.use_caching = use_caching
+        self.use_reranking = use_reranking
+        self._retriever: Optional[OptimizedRetriever] = None
+        self._cache: Optional[AnswerCache] = None
+        # Initialize template router for fast intent classification
+        self._template_router = CypherTemplateRouter()
+        if use_caching:
+            self._cache = get_answer_cache(default_ttl=cache_ttl)
+    def _format_citations(self, docs: List[Document]) -> str:
+        """Format unique citations from retrieved chunk documents.
+        Args:
+            docs: List of retrieved documents.
+        Returns:
+            Formatted citation string.
+        """
+        seen: Set[Tuple[str, Optional[int]]] = set()
+        lines: List[str] = []
+        for doc in docs:
+            src = doc.metadata.get("source", "")
+            page = doc.metadata.get("page", None)
+            key = (src, page)
+            if key in seen:
+                continue
+            seen.add(key)
+            if page is not None:
+                lines.append(f"- {src} p.{page}")
+            else:
+                lines.append(f"- {src}")
+        return "\n".join(lines)
+    def _format_budget_value(
+        self,
+        budget: Optional[Any],
+        currency: Optional[str]
+    ) -> str:
+        """Format budget value for display.
+        Args:
+            budget: Budget amount (may be None or numeric).
+            currency: Currency code.
+        Returns:
+            Formatted budget string.
+        """
+        if isinstance(budget, (int, float)) and currency:
+            return f"{budget:,.0f} {currency}"
+        elif budget:
+            return str(budget)
+        return "—"
+    def _format_location(self, row: Dict[str, Any]) -> str:
+        """Format location components into a string.
+        Args:
+            row: Query result row with location fields.
+        Returns:
+            Formatted location string.
+        """
+        loc_parts = [
+            x for x in [
+                row.get("address"),
+                row.get("city"),
+                row.get("state"),
+                row.get("postal"),
+                row.get("country"),
+            ] if x
+        ]
+        return ", ".join(loc_parts) if loc_parts else "—"
+    def _budget_location(self, graph: Any) -> str:
+        """Deterministic answer for budget allocation and location.
+        Args:
+            graph: Neo4jGraph instance.
+        Returns:
+            Formatted budget and location answer.
+        """
+        rows = graph.query(self.CYPHER_BUDGET_LOCATION)
+        if not rows:
+            return "No structured budget/location data found in the graph yet."
+        out = ["**Budget allocation (TIV) and location**"]
+        for row in rows:
+            budget_str = self._format_budget_value(
+                row.get("budget"),
+                row.get("currency"),
+            )
+            loc = self._format_location(row)
+            out.append(f"- **{row.get('project')}**: {budget_str}; {loc}")
+        return "\n".join(out)
+    def _timelines(self, graph: Any) -> str:
+        """Deterministic timeline comparison using extracted milestones.
+        Args:
+            graph: Neo4jGraph instance.
+        Returns:
+            Formatted timeline answer.
+        """
+        rows = graph.query(self.CYPHER_TIMELINES)
+        logger.info(f"Timeline query returned {len(rows) if rows else 0} rows")
+        if not rows:
+            return "No structured timeline data found in the graph yet."
+        out = ["**Timelines (milestones extracted from Schedule)**"]
+        for row in rows:
+            project_name = row.get('project') or 'Unknown Project'
+            out.append(f"\n### {project_name}")
+            milestones = row.get("milestones") or []
+            logger.info(f"Project '{project_name}': {len(milestones)} milestones raw")
+            # Filter out null milestones (from OPTIONAL MATCH returning nulls)
+            valid_milestones = [m for m in milestones if m and m.get("name")]
+            logger.info(f"Project '{project_name}': {len(valid_milestones)} valid milestones")
+            if not valid_milestones:
+                out.append("- No milestones extracted")
+            else:
+                for m in valid_milestones[:14]:  # Limit display
+                    dt = (m.get("dateText") or "").strip()
+                    nm = (m.get("name") or "Milestone").strip()
+                    if dt:
+                        out.append(f"- {nm}: {dt}")
+                    else:
+                        sent = m.get('sentence') or ''
+                        out.append(f"- {nm}: {sent[:100]}")
+        result = "\n".join(out)
+        logger.info(f"Timeline result: {len(result)} chars")
+        return result
+    def _challenges(self, graph: Any) -> str:
+        """Deterministic challenges listing from structured Challenge nodes.
+        Args:
+            graph: Neo4jGraph instance.
+        Returns:
+            Formatted challenges answer.
+        """
+        rows = graph.query(self.CYPHER_CHALLENGES)
+        if not rows:
+            return "No structured challenges found yet."
+        out = [
+            "**Potential challenges / constraints "
+            "(from Status reason + Details + schedule heuristics)**"
+        ]
+        for row in rows:
+            out.append(f"\n### {row['project']}")
+            challenges = [x for x in (row.get("challenges") or []) if x]
+            if not challenges:
+                out.append("- —")
+            else:
+                for ch in challenges[:14]:  # Limit display
+                    out.append(f"- {ch}")
+        return "\n".join(out)
+    def _get_graph_context(self, question: str, graph: Any) -> str:
+        """Get relevant graph context without LLM Cypher generation.
+        Uses simple pattern matching to find related entities.
+        Args:
+            question: User question
+            graph: Neo4j graph instance
+        Returns:
+            Formatted graph context string
+        """
+        import re
+        # Extract potential project names from question
+        potential_names = re.findall(r'\b[A-Z][a-z]+(?:\s+[A-Z][a-z]+)*\b', question)
+        if not potential_names:
+            return ""
+        context_parts = []
+        for name in potential_names[:2]:
+            try:
+                results = graph.query("""
+                    MATCH (p:Project)
+                    WHERE toLower(p.name) CONTAINS toLower($name)
+                    OPTIONAL MATCH (p)-[:HAS_BUDGET]->(b:Budget)
+                    OPTIONAL MATCH (p)-[:LOCATED_IN]->(l:Location)
+                    RETURN p.name AS project,
+                           p.status AS status,
+                           b.amount AS budget,
+                           b.currency AS currency,
+                           l.city AS city,
+                           l.country AS country
+                    LIMIT 3
+                """, {"name": name.lower()})
+                for r in results:
+                    parts = [f"**{r['project']}**"]
+                    if r.get('status'):
+                        parts.append(f"Status: {r['status']}")
+                    if r.get('budget'):
+                        parts.append(f"Budget: {r['budget']:,.0f} {r.get('currency', '')}")
+                    if r.get('city'):
+                        parts.append(f"Location: {r['city']}, {r.get('country', '')}")
+                    context_parts.append(" | ".join(parts))
+            except Exception:
+                pass
+        return "\n".join(context_parts) if context_parts else ""
+    def _get_retriever(self, state: AppState) -> OptimizedRetriever:
+        """Get or create the optimized retriever.
+        Args:
+            state: Application state with vector store.
+        Returns:
+            OptimizedRetriever instance (fast pattern-based + cross-encoder).
+        """
+        if self._retriever is None:
+            self._retriever = OptimizedRetriever(
+                vector_store=state.vector,
+                k_initial=self.k * 2,  # Retrieve more initially for reranking
+                k_final=self.k,
+                use_expansion=True,
+                use_reranking=self.use_reranking,
+                use_cache=True,
+            )
+        return self._retriever
+    def _format_context(self, docs: List[Document]) -> str:
+        """Format retrieved documents into context string.
+        Args:
+            docs: List of retrieved documents.
+        Returns:
+            Formatted context string with source attribution.
+        """
+        context_parts = []
+        for i, doc in enumerate(docs, 1):
+            source = doc.metadata.get('source', 'Unknown')
+            page = doc.metadata.get('page', '?')
+            section = doc.metadata.get('section', '')
+            header = f"[{i}] Source: {source}, Page {page}"
+            if section:
+                header += f", Section: {section}"
+            context_parts.append(f"{header}\n{doc.page_content}")
+        return "\n\n---\n\n".join(context_parts)
+    def _graphrag_answer(
+        self,
+        question: str,
+        state: AppState,
+    ) -> str:
+        """Generate answer using optimized GraphRAG approach.
+        Optimized flow:
+        1. Retrieve with optimized retriever (pattern expansion + cross-encoder)
+        2. Get graph context (no LLM Cypher generation)
+        3. Single LLM call for synthesis
+        Args:
+            question: User question.
+            state: Application state.
+        Returns:
+            Synthesized answer with citations.
+        """
+        with log_step(logger, "GraphRAG answer generation"):
+            # Retrieve relevant chunks with optimized retriever
+            with log_step(logger, "Retrieve relevant chunks"):
+                if self.use_optimized_retrieval:
+                    logger.substep("Using optimized retrieval (pattern expansion + cross-encoder)")
+                    retriever = self._get_retriever(state)
+                    docs = retriever.retrieve(question)
+                else:
+                    logger.substep("Using simple similarity search")
+                    docs = state.vector.similarity_search(question, k=self.k)
+                logger.info(f"Retrieved {len(docs)} chunks")
+            # Get graph context (fast, no LLM)
+            with log_step(logger, "Get graph context"):
+                graph = state.get_graph()
+                graph_context = self._get_graph_context(question, graph)
+                if graph_context:
+                    logger.substep(f"Found graph context")
+                else:
+                    logger.substep("No direct graph context found")
+            # Format context
+            context = self._format_context(docs)
+            # Single LLM call for synthesis
+            with log_step(logger, "Synthesize answer"):
+                logger.substep("Invoking LLM for synthesis")
+                synthesis_prompt = self.SYNTHESIS_PROMPT.format(
+                    question=question,
+                    context=context,
+                    graph_context=graph_context if graph_context else "(No structured data found)",
+                )
+                resp = state.llm.invoke(synthesis_prompt)
+                answer = getattr(resp, "content", str(resp))
+            # Cache the answer
+            if self._cache and self.use_caching:
+                logger.substep("Caching answer")
+                self._cache.set_answer(
+                    query=question,
+                    answer=answer,
+                    documents=docs,
+                    cypher_result=graph_context,
+                )
+        return answer
+    def clear_cache(self) -> int:
+        """Clear the answer cache.
+        Returns:
+            Number of cached entries cleared.
+        """
+        if self._cache:
+            return self._cache.invalidate_all()
+        return 0
+    def get_cache_stats(self) -> Dict[str, Any]:
+        """Get cache statistics.
+        Returns:
+            Dictionary with cache metrics.
+        """
+        if self._cache:
+            return self._cache.get_stats()
+        return {"caching_enabled": False}
+    @trace_flow("Query Processing")
+    def answer(self, question: str, state: AppState) -> str:
+        """Answer a user question using optimized hybrid approach.
+        Flow:
+        1. Check answer cache
+        2. Template routing with pattern classification
+        3. For structured queries: Execute template + format
+        4. For general queries: Vector search + rerank + synthesis
+        Args:
+            question: Natural language user query.
+            state: AppState initialized after successful ingestion.
+        Returns:
+            Markdown response suitable for display.
+        """
+        logger.info(f"Processing question: {question[:80]}...")
+        if not state or not state.is_ready():
+            logger.warning("State not ready - PDFs not ingested")
+            return "Please ingest PDFs first."
+        # Check cache first
+        if self._cache and self.use_caching:
+            with log_step(logger, "Check cache"):
+                cached = self._cache.get_answer(question)
+                if cached:
+                    logger.info("Cache hit")
+                    return cached.answer
+        graph = state.get_graph()
+        # Try template routing first (handles 70-80% of queries)
+        with log_step(logger, "Template routing"):
+            results, intent = self._template_router.route_query(question, graph)
+            if intent != QueryIntent.GENERAL and results is not None:
+                # Format template results (no LLM needed)
+                answer = TemplateResultFormatter.format(results, intent)
+                # Cache the answer
+                if self._cache and self.use_caching:
+                    self._cache.set_answer(
+                        query=question,
+                        answer=answer,
+                        documents=[],
+                        cypher_result=str(results[:3]) if results else "",
+                    )
+                logger.info(f"Template answer (intent: {intent.value})")
+                return answer
+            logger.info(f"Intent: {intent.value} - using RAG fallback")
+        # GraphRAG fallback for general queries
+        answer = self._graphrag_answer(question, state)
+        logger.info("RAG answer generated")
+        return answer

src/services/builder.py ADDED Viewed

	@@ -0,0 +1,693 @@

+"""GraphRAG builder for PDF ingestion."""
+from __future__ import annotations
+import os
+import time
+from concurrent.futures import ThreadPoolExecutor, as_completed
+from typing import Any, Dict, Generator, List, Optional, Tuple
+from langchain.schema import Document
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.prompts import PromptTemplate
+from src.config import get_logger, trace_flow, log_step
+# LangChain imports with compatibility handling
+try:
+    from langchain_community.document_loaders import PyPDFLoader
+    from langchain_community.vectorstores import Neo4jVector
+except ImportError:
+    from langchain.document_loaders import PyPDFLoader
+    from langchain.vectorstores import Neo4jVector
+from langchain_experimental.graph_transformers import LLMGraphTransformer
+from langchain_community.chains.graph_qa.cypher import GraphCypherQAChain
+from langchain_together import ChatTogether, TogetherEmbeddings
+from src.config.schema import SchemaPolicy
+from src.config.settings import Neo4jConfig, TogetherAIConfig
+from src.models.state import AppState
+from src.parsers.project_parser import ProjectReportParser
+from src.parsers.smart_chunker import SemanticChunker
+from src.services.neo4j_service import Neo4jService, Neo4jConnectionError
+# Module logger
+logger = get_logger(__name__)
+class GraphRAGBuilder:
+    """Builds and populates Neo4j-backed GraphRAG resources from uploaded PDFs.
+    Responsibilities:
+        - Configure Together AI chat + embeddings models.
+        - Parse PDFs into pages and chunks with provenance metadata.
+        - Upsert deterministic structured graph nodes for stable Q/A.
+        - Run LLMGraphTransformer for broader entity/relationship extraction.
+        - Create/refresh Neo4jVector hybrid indexes.
+        - Create GraphCypherQAChain for graph-native Q/A.
+    This class is intentionally stateless across runs; it returns AppState
+    for query-time usage.
+    Attributes:
+        llm: Chat model instance.
+        embeddings: Embeddings model instance.
+    Example:
+        >>> builder = GraphRAGBuilder(
+        ...     together_config=TogetherAIConfig(api_key="key")
+        ... )
+        >>> message, state = builder.ingest(pdf_files, neo4j_config)
+    """
+    # Chunk configuration
+    DEFAULT_CHUNK_SIZE = 900
+    DEFAULT_CHUNK_OVERLAP = 150
+    # Parallel extraction configuration (optimized for speed)
+    EXTRACTION_BATCH_SIZE = 8  # Increased from 5
+    MAX_EXTRACTION_WORKERS = 5  # Increased from 3
+    # Vector index configuration
+    INDEX_NAME = "project_chunks_vector"
+    KEYWORD_INDEX_NAME = "project_chunks_keyword"
+    NODE_LABEL = "Chunk"
+    # Enhanced Cypher QA prompt with examples
+    CYPHER_PROMPT_TEMPLATE = """You are a Neo4j Cypher expert. Generate a Cypher query to answer the question.
+## Schema
+{schema}
+## Key Patterns
+1. **Project with Budget and Location:**
+```cypher
+MATCH (p:Project)
+OPTIONAL MATCH (p)-[:HAS_BUDGET]->(b:Budget)
+OPTIONAL MATCH (p)-[:LOCATED_IN]->(l:Location)
+RETURN p.name, b.amount, b.currency, l.city, l.country
+```
+2. **Project Milestones/Timeline:**
+```cypher
+MATCH (p:Project)-[:HAS_MILESTONE]->(m:Milestone)
+RETURN p.name, m.name AS milestone, m.dateText
+ORDER BY p.name, m.dateText
+```
+3. **Challenges and Risks:**
+```cypher
+MATCH (p:Project)-[:HAS_CHALLENGE]->(c:Challenge)
+RETURN p.name, collect(c.text) AS challenges
+```
+4. **Cross-Project Comparison:**
+```cypher
+MATCH (p:Project)
+OPTIONAL MATCH (p)-[:HAS_BUDGET]->(b:Budget)
+OPTIONAL MATCH (p)-[:HAS_MILESTONE]->(m:Milestone)
+WITH p, b, collect(m) AS milestones
+RETURN p.name, b.amount, size(milestones) AS milestone_count
+ORDER BY b.amount DESC
+```
+5. **Entity Relationships:**
+```cypher
+MATCH (p:Project)-[r]->(related)
+WHERE NOT related:Chunk
+RETURN p.name, type(r) AS relationship, labels(related)[0] AS entity_type,
+       coalesce(related.name, related.text, related.amount) AS value
+LIMIT 50
+```
+## Rules
+- Use OPTIONAL MATCH when relationships may not exist
+- Always include ORDER BY for consistent results
+- Use collect() to aggregate multiple related nodes
+- Limit results if the query could return many rows
+- Return human-readable names, not IDs
+- For comparisons across projects, ensure all projects are included
+## Question
+{question}
+Return ONLY the Cypher query, no explanation.""".strip()
+    def __init__(
+        self,
+        together_config: Optional[TogetherAIConfig] = None,
+        together_api_key: Optional[str] = None,
+        chat_model: str = "deepseek-ai/DeepSeek-V3",
+        embedding_model: str = "togethercomputer/m2-bert-80M-8k-retrieval",
+    ) -> None:
+        """Initialize GraphRAG builder.
+        Args:
+            together_config: Together AI configuration object.
+            together_api_key: API key (alternative to config object).
+            chat_model: Chat model identifier.
+            embedding_model: Embedding model identifier.
+        Raises:
+            ValueError: If no API key is provided.
+        """
+        # Handle configuration
+        if together_config:
+            api_key = together_config.api_key
+            chat_model = together_config.chat_model or chat_model
+            embedding_model = together_config.embedding_model or embedding_model
+        else:
+            api_key = together_api_key
+        if not api_key:
+            raise ValueError("Together API key is required.")
+        # Set environment variable for SDK
+        os.environ["TOGETHER_API_KEY"] = api_key
+        # Initialize models
+        self.llm = ChatTogether(model=chat_model, temperature=0)
+        self.embeddings = TogetherEmbeddings(model=embedding_model)
+        # Initialize parsers and chunkers
+        self._parser = ProjectReportParser()
+        self._chunker = SemanticChunker(
+            max_chunk_size=self.DEFAULT_CHUNK_SIZE + 300,  # Slightly larger for semantic chunks
+            min_chunk_size=200,
+            overlap_sentences=2,
+        )
+    def _load_pdf_pages(
+        self,
+        pdf_files: List[Any]
+    ) -> Tuple[List[Document], List[Tuple[str, str]]]:
+        """Load PDF files and extract pages with metadata.
+        Args:
+            pdf_files: List of gradio-uploaded file handles.
+        Returns:
+            Tuple of (all pages as Documents, list of (source_name, full_text)).
+        """
+        all_pages: List[Document] = []
+        raw_texts: List[Tuple[str, str]] = []
+        with log_step(logger, "Load PDF files", f"{len(pdf_files)} file(s)"):
+            for f in pdf_files:
+                src_name = (
+                    getattr(f, "name", None) or
+                    getattr(f, "orig_name", None) or
+                    "uploaded.pdf"
+                )
+                logger.substep(f"Loading: {os.path.basename(src_name)}")
+                loader = PyPDFLoader(f.name)
+                pages = loader.load()
+                all_pages.extend(pages)
+                logger.substep(f"Extracted {len(pages)} pages")
+                joined = "\n".join([p.page_content for p in pages])
+                raw_texts.append((os.path.basename(src_name), joined))
+        logger.info(f"Total pages loaded: {len(all_pages)}")
+        return all_pages, raw_texts
+    def _create_chunks(
+        self,
+        pages: List[Document],
+        use_semantic_chunking: bool = True,
+    ) -> List[Document]:
+        """Split pages into chunks with normalized metadata.
+        Args:
+            pages: List of page Documents.
+            use_semantic_chunking: If True, uses section-aware chunking.
+        Returns:
+            List of chunk Documents with metadata.
+        """
+        chunking_type = "semantic" if use_semantic_chunking else "character-based"
+        with log_step(logger, "Create document chunks", chunking_type):
+            if use_semantic_chunking:
+                # Use semantic chunker that respects document structure
+                logger.substep("Using section-aware semantic chunking")
+                chunks = self._chunker.chunk_pages(pages, adaptive=True)
+            else:
+                # Fallback to simple character-based splitting
+                logger.substep("Using RecursiveCharacterTextSplitter")
+                splitter = RecursiveCharacterTextSplitter(
+                    chunk_size=self.DEFAULT_CHUNK_SIZE,
+                    chunk_overlap=self.DEFAULT_CHUNK_OVERLAP,
+                )
+                chunks = splitter.split_documents(pages)
+            logger.substep(f"Raw chunks created: {len(chunks)}")
+            processed_chunks: List[Document] = []
+            for chunk in chunks:
+                meta = dict(chunk.metadata or {})
+                meta["source"] = os.path.basename(meta.get("source", "")) or "uploaded.pdf"
+                # Normalize page numbers (PyPDFLoader uses 0-index)
+                if "page" in meta and isinstance(meta["page"], int):
+                    if meta["page"] == 0 or (not use_semantic_chunking):
+                        meta["page"] = int(meta["page"]) + 1
+                processed_chunks.append(Document(
+                    page_content=chunk.page_content.replace("\n", " "),
+                    metadata=meta,
+                ))
+        logger.info(f"Final chunks: {len(processed_chunks)}")
+        return processed_chunks
+    def _extract_structured_data(
+        self,
+        neo4j: Neo4jService,
+        raw_texts: List[Tuple[str, str]],
+    ) -> List[Dict[str, Any]]:
+        """Extract and upsert structured project data.
+        Args:
+            neo4j: Neo4j service instance.
+            raw_texts: List of (source_name, full_text) tuples.
+        Returns:
+            List of project dictionaries with results/warnings.
+        """
+        projects_created: List[Dict[str, Any]] = []
+        with log_step(logger, "Extract structured data", f"{len(raw_texts)} document(s)"):
+            for source, full_text in raw_texts:
+                logger.substep(f"Parsing: {source}")
+                record = self._parser.parse(full_text, source)
+                try:
+                    proj = neo4j.upsert_structured_project(record)
+                    projects_created.append(proj)
+                    logger.substep(f"Created project: {proj.get('name', source)}")
+                except Exception as e:
+                    logger.warning(f"Failed to create project {source}: {e}")
+                    projects_created.append({
+                        "projectId": record.project_id or source,
+                        "name": record.project_name or source,
+                        "warning": str(e),
+                    })
+        logger.info(f"Structured extraction complete: {len(projects_created)} project(s)")
+        return projects_created
+    def _extract_llm_graph(
+        self,
+        neo4j: Neo4jService,
+        chunks: List[Document],
+        parallel: bool = True,
+    ) -> None:
+        """Extract entities/relationships using LLM and add to graph.
+        Args:
+            neo4j: Neo4j service instance.
+            chunks: Document chunks for extraction.
+            parallel: If True, uses parallel batch processing.
+        """
+        mode = "parallel" if parallel else "sequential"
+        with log_step(logger, "LLM graph extraction", f"{len(chunks)} chunks, {mode}"):
+            logger.substep("Initializing LLMGraphTransformer")
+            transformer = LLMGraphTransformer(
+                llm=self.llm,
+                allowed_nodes=SchemaPolicy.ALLOWED_NODES,
+                allowed_relationships=SchemaPolicy.ALLOWED_RELATIONSHIPS,
+                node_properties=True,  # Enable property extraction for richer graph
+            )
+            if not parallel or len(chunks) <= self.EXTRACTION_BATCH_SIZE:
+                # Sequential extraction for small chunk sets
+                logger.substep("Using sequential extraction (small chunk set)")
+                graph_documents = transformer.convert_to_graph_documents(chunks)
+                neo4j.graph.add_graph_documents(graph_documents, include_source=True)
+                logger.info(f"Added {len(graph_documents)} graph documents")
+                return
+            # Parallel extraction for larger chunk sets
+            def process_batch(batch: List[Document]) -> List:
+                """Process a batch of chunks."""
+                try:
+                    return transformer.convert_to_graph_documents(batch)
+                except Exception:
+                    return []
+            # Split into batches
+            batches = [
+                chunks[i:i + self.EXTRACTION_BATCH_SIZE]
+                for i in range(0, len(chunks), self.EXTRACTION_BATCH_SIZE)
+            ]
+            logger.substep(f"Split into {len(batches)} batches ({self.EXTRACTION_BATCH_SIZE} chunks each)")
+            all_graph_docs = []
+            failed_batches = 0
+            # Process batches with thread pool for IO-bound LLM calls
+            logger.substep(f"Starting parallel extraction with {self.MAX_EXTRACTION_WORKERS} workers")
+            with ThreadPoolExecutor(max_workers=self.MAX_EXTRACTION_WORKERS) as executor:
+                futures = {
+                    executor.submit(process_batch, batch): i
+                    for i, batch in enumerate(batches)
+                }
+                for future in as_completed(futures):
+                    batch_idx = futures[future]
+                    try:
+                        result = future.result(timeout=120)
+                        all_graph_docs.extend(result)
+                        logger.substep(f"Batch {batch_idx + 1}/{len(batches)} complete")
+                    except Exception as e:
+                        failed_batches += 1
+                        logger.warning(f"Batch {batch_idx + 1} failed: {e}")
+            # Bulk add to graph
+            if all_graph_docs:
+                logger.substep(f"Adding {len(all_graph_docs)} graph documents to Neo4j")
+                neo4j.graph.add_graph_documents(all_graph_docs, include_source=True)
+            if failed_batches > 0:
+                logger.warning(f"{failed_batches} batch(es) failed during extraction")
+        logger.info(f"LLM extraction complete: {len(all_graph_docs)} graph documents")
+    def _create_vector_index(
+        self,
+        chunks: List[Document],
+        neo4j_config: Neo4jConfig,
+    ) -> Neo4jVector:
+        """Create or refresh vector index for chunks.
+        Args:
+            chunks: Document chunks to index.
+            neo4j_config: Neo4j connection configuration.
+        Returns:
+            Neo4jVector index instance.
+        """
+        with log_step(logger, "Create vector index", f"{len(chunks)} chunks"):
+            logger.substep(f"Index name: {self.INDEX_NAME}")
+            logger.substep(f"Keyword index: {self.KEYWORD_INDEX_NAME}")
+            logger.substep("Creating hybrid search index (dense + BM25)")
+            vector = Neo4jVector.from_documents(
+                documents=chunks,
+                embedding=self.embeddings,
+                url=neo4j_config.uri,
+                username=neo4j_config.username,
+                password=neo4j_config.password,
+                database=neo4j_config.database or "neo4j",
+                index_name=self.INDEX_NAME,
+                keyword_index_name=self.KEYWORD_INDEX_NAME,
+                node_label=self.NODE_LABEL,
+                embedding_node_property="embedding",
+                search_type="hybrid",
+            )
+        logger.info("Vector index created successfully")
+        return vector
+    def _create_qa_chain(self, neo4j: Neo4jService) -> GraphCypherQAChain:
+        """Create Cypher QA chain for graph querying.
+        Args:
+            neo4j: Neo4j service instance.
+        Returns:
+            GraphCypherQAChain instance.
+        """
+        with log_step(logger, "Create Cypher QA chain"):
+            logger.substep("Configuring enhanced Cypher prompt template")
+            cypher_prompt = PromptTemplate(
+                template=self.CYPHER_PROMPT_TEMPLATE,
+                input_variables=["schema", "question"],
+            )
+            logger.substep("Initializing GraphCypherQAChain")
+            chain = GraphCypherQAChain.from_llm(
+                llm=self.llm,
+                graph=neo4j.graph,
+                cypher_prompt=cypher_prompt,
+                verbose=False,
+                allow_dangerous_requests=True,
+            )
+        logger.info("Cypher QA chain ready")
+        return chain
+    @trace_flow("PDF Ingestion Pipeline")
+    def ingest(
+        self,
+        pdf_files: List[Any],
+        neo4j_config: Optional[Neo4jConfig] = None,
+        neo4j_uri: Optional[str] = None,
+        neo4j_user: Optional[str] = None,
+        neo4j_password: Optional[str] = None,
+        neo4j_database: str = "neo4j",
+        clear_db: bool = True,
+    ) -> Tuple[str, AppState]:
+        """Ingest one or more PDF reports into Neo4j and build GraphRAG indices.
+        Args:
+            pdf_files: List of gradio-uploaded file handles.
+            neo4j_config: Neo4j configuration object (preferred).
+            neo4j_uri: Neo4j connection URI (alternative).
+            neo4j_user: Username (alternative).
+            neo4j_password: Password (alternative).
+            neo4j_database: Database name.
+            clear_db: If True, deletes all existing nodes prior to ingestion.
+        Returns:
+            Tuple of (human-readable status message, AppState).
+        Notes:
+            - The ingestion process can be compute-heavy due to LLM graph extraction.
+            - Even if the deterministic parser yields partial results, chunk retrieval
+              still works.
+        """
+        # Validate inputs
+        if not pdf_files:
+            logger.warning("No PDF files provided")
+            return "Please upload at least one PDF.", AppState()
+        logger.info(f"Starting ingestion of {len(pdf_files)} PDF file(s)")
+        # Build config from parameters if not provided
+        if neo4j_config is None:
+            neo4j_config = Neo4jConfig(
+                uri=neo4j_uri or "",
+                username=neo4j_user or "neo4j",
+                password=neo4j_password or "",
+                database=neo4j_database,
+            )
+        if not neo4j_config.is_valid():
+            logger.error("Invalid Neo4j configuration")
+            return "Please provide Neo4j connection details.", AppState()
+        # Connect to Neo4j
+        with log_step(logger, "Connect to Neo4j"):
+            try:
+                neo4j = Neo4jService(
+                    uri=neo4j_config.uri,
+                    user=neo4j_config.username,
+                    password=neo4j_config.password,
+                    database=neo4j_config.database,
+                )
+                logger.substep(f"Connected to {neo4j_config.uri}")
+            except Neo4jConnectionError as e:
+                logger.error(f"Neo4j connection failed: {e}")
+                return (
+                    f"Neo4j connection failed. For Aura, use the exact URI shown in the "
+                    f"console (typically starts with neo4j+s://...). Error: {e}",
+                    AppState(),
+                )
+        # Ensure constraints
+        with log_step(logger, "Ensure database constraints"):
+            neo4j.ensure_constraints()
+        # Clear database if requested
+        if clear_db:
+            with log_step(logger, "Clear existing data"):
+                neo4j.clear()
+        # 1) Load PDF pages
+        all_pages, raw_texts = self._load_pdf_pages(pdf_files)
+        # 2) Structured extraction (high precision)
+        projects_created = self._extract_structured_data(neo4j, raw_texts)
+        # 3) Create chunks
+        chunks = self._create_chunks(all_pages)
+        # 4) LLM-based KG extraction (high recall)
+        self._extract_llm_graph(neo4j, chunks)
+        # 5) Vector index
+        vector = self._create_vector_index(chunks, neo4j_config)
+        # 6) Cypher QA chain
+        qa_chain = self._create_qa_chain(neo4j)
+        # Build status message
+        proj_lines = []
+        for p in projects_created:
+            warn = f" (warning: {p.get('warning')})" if "warning" in p else ""
+            proj_lines.append(f"- {p.get('name')} [{p.get('projectId')}]{warn}")
+        msg = (
+            "Ingestion complete.\n\n"
+            f"Neo4j database: `{neo4j_config.database}`\n\n"
+            "Projects found:\n" + "\n".join(proj_lines)
+        )
+        logger.info(f"Ingestion complete: {len(projects_created)} project(s), {len(chunks)} chunks")
+        return msg, AppState(
+            neo4j=neo4j,
+            vector=vector,
+            qa_chain=qa_chain,
+            llm=self.llm,
+        )
+    def ingest_with_progress(
+        self,
+        pdf_files: List[Any],
+        neo4j_config: Optional[Neo4jConfig] = None,
+        neo4j_uri: Optional[str] = None,
+        neo4j_user: Optional[str] = None,
+        neo4j_password: Optional[str] = None,
+        neo4j_database: str = "neo4j",
+        clear_db: bool = True,
+        skip_llm_extraction: bool = True,  # Skip LLM extraction for faster ingestion
+    ) -> Generator[Tuple[str, float, Optional[AppState]], None, None]:
+        """Ingest PDFs with progress updates for UI.
+        This generator yields progress updates during ingestion, allowing
+        the UI to display a progress bar with status messages.
+        Args:
+            pdf_files: List of gradio-uploaded file handles.
+            neo4j_config: Neo4j configuration object (preferred).
+            neo4j_uri: Neo4j connection URI (alternative).
+            neo4j_user: Username (alternative).
+            neo4j_password: Password (alternative).
+            neo4j_database: Database name.
+            clear_db: If True, deletes all existing nodes prior to ingestion.
+            skip_llm_extraction: If True, skips LLM graph extraction for faster ingestion.
+        Yields:
+            Tuple of (status_message, progress_fraction, optional_state)
+            - progress_fraction is 0.0 to 1.0
+            - optional_state is None until final yield, then contains AppState
+        Example:
+            >>> for status, progress, state in builder.ingest_with_progress(files, config):
+            ...     print(f"{progress*100:.0f}%: {status}")
+            ...     if state:
+            ...         print("Done!")
+        """
+        start_time = time.time()
+        # Validate inputs
+        if not pdf_files:
+            yield "❌ Please upload at least one PDF file.", 0.0, None
+            return
+        # Build config from parameters if not provided
+        if neo4j_config is None:
+            neo4j_config = Neo4jConfig(
+                uri=neo4j_uri or "",
+                username=neo4j_user or "neo4j",
+                password=neo4j_password or "",
+                database=neo4j_database,
+            )
+        if not neo4j_config.is_valid():
+            yield "❌ Please provide Neo4j connection details.", 0.0, None
+            return
+        # Step 1: Connect to Neo4j (5%)
+        yield "🔌 Connecting to Neo4j...", 0.05, None
+        try:
+            neo4j = Neo4jService(
+                uri=neo4j_config.uri,
+                user=neo4j_config.username,
+                password=neo4j_config.password,
+                database=neo4j_config.database,
+            )
+        except Neo4jConnectionError as e:
+            yield f"❌ Neo4j connection failed: {e}", 0.05, None
+            return
+        # Step 2: Ensure constraints (10%)
+        yield "📋 Setting up database constraints...", 0.10, None
+        neo4j.ensure_constraints()
+        # Step 3: Clear database if requested (15%)
+        if clear_db:
+            yield "🗑️ Clearing existing data...", 0.15, None
+            neo4j.clear()
+        # Step 4: Load PDF pages (25%)
+        yield f"📄 Loading {len(pdf_files)} PDF file(s)...", 0.20, None
+        all_pages, raw_texts = self._load_pdf_pages(pdf_files)
+        yield f"📄 Loaded {len(all_pages)} pages from PDFs", 0.25, None
+        # Step 5: Structured extraction (35%)
+        yield "🔍 Extracting structured project data...", 0.30, None
+        projects_created = self._extract_structured_data(neo4j, raw_texts)
+        project_names = [p.get('name', 'Unknown') for p in projects_created]
+        yield f"✅ Found {len(projects_created)} project(s): {', '.join(project_names)}", 0.35, None
+        # Step 6: Create chunks (45%)
+        yield "✂️ Creating document chunks...", 0.40, None
+        chunks = self._create_chunks(all_pages)
+        yield f"✅ Created {len(chunks)} chunks", 0.45, None
+        # Step 7: LLM Graph Extraction (optional) (45-70%)
+        if not skip_llm_extraction:
+            yield f"🧠 Extracting entities with LLM ({len(chunks)} chunks)...", 0.50, None
+            # This is the slowest step - show batch progress
+            total_batches = (len(chunks) + self.EXTRACTION_BATCH_SIZE - 1) // self.EXTRACTION_BATCH_SIZE
+            for batch_num in range(total_batches):
+                progress = 0.50 + (0.20 * (batch_num + 1) / total_batches)
+                yield f"🧠 LLM extraction: batch {batch_num + 1}/{total_batches}...", progress, None
+            self._extract_llm_graph(neo4j, chunks)
+            yield "✅ LLM graph extraction complete", 0.70, None
+        else:
+            yield "⏩ Skipping LLM extraction (using fast mode)", 0.70, None
+        # Step 8: Create vector index (90%)
+        yield f"📊 Creating vector index ({len(chunks)} chunks)...", 0.75, None
+        vector = self._create_vector_index(chunks, neo4j_config)
+        yield "✅ Vector index created", 0.90, None
+        # Step 9: Create QA chain (95%)
+        yield "⚙️ Initializing QA chain...", 0.95, None
+        qa_chain = self._create_qa_chain(neo4j)
+        # Final step: Complete (100%)
+        elapsed = time.time() - start_time
+        proj_lines = []
+        for p in projects_created:
+            warn = f" ⚠️ {p.get('warning')}" if "warning" in p else ""
+            proj_lines.append(f"- **{p.get('name')}** [{p.get('projectId')}]{warn}")
+        final_msg = (
+            f"## ✅ Ingestion Complete ({elapsed:.1f}s)\n\n"
+            f"**Database:** `{neo4j_config.database}`\n\n"
+            f"**Projects found:**\n" + "\n".join(proj_lines) + "\n\n"
+            f"**Stats:** {len(chunks)} chunks indexed"
+        )
+        yield final_msg, 1.0, AppState(
+            neo4j=neo4j,
+            vector=vector,
+            qa_chain=qa_chain,
+            llm=self.llm,
+        )

src/services/cache.py ADDED Viewed

	@@ -0,0 +1,317 @@

+"""
+Query result caching for improved performance.
+Provides in-memory caching with TTL for query results,
+reducing latency and API costs for repeated queries.
+"""
+from __future__ import annotations
+import hashlib
+import threading
+import time
+from dataclasses import dataclass, field
+from typing import Any, Dict, List, Optional
+from langchain.schema import Document
+@dataclass
+class CacheEntry:
+    """A single cache entry with TTL support."""
+    value: Any
+    timestamp: float
+    ttl: float
+    hits: int = 0
+    def is_expired(self) -> bool:
+        """Check if entry has expired.
+        Returns:
+            True if entry is past its TTL.
+        """
+        return time.time() - self.timestamp > self.ttl
+    def access(self) -> Any:
+        """Access the cached value and increment hit counter.
+        Returns:
+            Cached value.
+        """
+        self.hits += 1
+        return self.value
+class QueryCache:
+    """In-memory cache for query results with TTL."""
+    def __init__(
+        self,
+        default_ttl: float = 3600,
+        max_size: int = 1000,
+    ) -> None:
+        self._cache: Dict[str, CacheEntry] = {}
+        self._lock = threading.RLock()
+        self.default_ttl = default_ttl
+        self.max_size = max_size
+        self._total_hits = 0
+        self._total_misses = 0
+    def _make_key(self, query: str, context_hash: str = "") -> str:
+        """Create cache key from query and context.
+        Args:
+            query: Query string.
+            context_hash: Optional context identifier.
+        Returns:
+            MD5 hash key.
+        """
+        combined = f"{query.lower().strip()}:{context_hash}"
+        return hashlib.md5(combined.encode()).hexdigest()
+    def _evict_if_needed(self) -> None:
+        """Evict oldest entries if cache is at capacity."""
+        if len(self._cache) < self.max_size:
+            return
+        # Remove expired entries first
+        self.cleanup_expired()
+        # If still over capacity, remove oldest entries
+        if len(self._cache) >= self.max_size:
+            sorted_keys = sorted(
+                self._cache.keys(),
+                key=lambda k: self._cache[k].timestamp
+            )
+            # Remove oldest 10%
+            to_remove = max(1, len(sorted_keys) // 10)
+            for key in sorted_keys[:to_remove]:
+                del self._cache[key]
+    def get(
+        self,
+        query: str,
+        context_hash: str = ""
+    ) -> Optional[Any]:
+        """Get cached result if exists and not expired.
+        Args:
+            query: Query string.
+            context_hash: Optional context identifier.
+        Returns:
+            Cached value or None if not found/expired.
+        """
+        key = self._make_key(query, context_hash)
+        with self._lock:
+            entry = self._cache.get(key)
+            if entry is None:
+                self._total_misses += 1
+                return None
+            if entry.is_expired():
+                del self._cache[key]
+                self._total_misses += 1
+                return None
+            self._total_hits += 1
+            return entry.access()
+    def set(
+        self,
+        query: str,
+        context_hash: str,
+        value: Any,
+        ttl: Optional[float] = None,
+    ) -> None:
+        """Cache a result.
+        Args:
+            query: Query string.
+            context_hash: Context identifier.
+            value: Value to cache.
+            ttl: Optional TTL override.
+        """
+        key = self._make_key(query, context_hash)
+        with self._lock:
+            self._evict_if_needed()
+            self._cache[key] = CacheEntry(
+                value=value,
+                timestamp=time.time(),
+                ttl=ttl or self.default_ttl,
+            )
+    def invalidate(self, query: str, context_hash: str = "") -> bool:
+        """Invalidate a specific cache entry.
+        Args:
+            query: Query string.
+            context_hash: Context identifier.
+        Returns:
+            True if entry was found and removed.
+        """
+        key = self._make_key(query, context_hash)
+        with self._lock:
+            if key in self._cache:
+                del self._cache[key]
+                return True
+            return False
+    def invalidate_all(self) -> int:
+        """Clear entire cache.
+        Returns:
+            Number of entries cleared.
+        """
+        with self._lock:
+            count = len(self._cache)
+            self._cache.clear()
+            return count
+    def cleanup_expired(self) -> int:
+        """Remove expired entries.
+        Returns:
+            Number of entries removed.
+        """
+        with self._lock:
+            expired_keys = [
+                k for k, v in self._cache.items() if v.is_expired()
+            ]
+            for key in expired_keys:
+                del self._cache[key]
+            return len(expired_keys)
+    def get_stats(self) -> Dict[str, Any]:
+        """Get cache statistics.
+        Returns:
+            Dictionary with cache metrics.
+        """
+        with self._lock:
+            total_requests = self._total_hits + self._total_misses
+            hit_rate = (
+                self._total_hits / total_requests
+                if total_requests > 0
+                else 0.0
+            )
+            return {
+                "size": len(self._cache),
+                "max_size": self.max_size,
+                "total_hits": self._total_hits,
+                "total_misses": self._total_misses,
+                "hit_rate": round(hit_rate, 3),
+                "default_ttl": self.default_ttl,
+            }
+class AnswerCache(QueryCache):
+    """Specialized cache for GraphRAG answers.
+    Extends QueryCache with answer-specific functionality like
+    caching both the answer and supporting documents.
+    """
+    @dataclass
+    class AnswerEntry:
+        """Cached answer with supporting documents."""
+        answer: str
+        documents: List[Document] = field(default_factory=list)
+        cypher_result: str = ""
+        metadata: Dict[str, Any] = field(default_factory=dict)
+    def set_answer(
+        self,
+        query: str,
+        answer: str,
+        documents: Optional[List[Document]] = None,
+        cypher_result: str = "",
+        context_hash: str = "",
+        ttl: Optional[float] = None,
+    ) -> None:
+        """Cache a complete answer with metadata.
+        Args:
+            query: User query.
+            answer: Generated answer.
+            documents: Supporting documents.
+            cypher_result: Cypher query result if any.
+            context_hash: Context identifier.
+            ttl: Optional TTL override.
+        """
+        entry = self.AnswerEntry(
+            answer=answer,
+            documents=documents or [],
+            cypher_result=cypher_result,
+            metadata={"cached_at": time.time()},
+        )
+        self.set(query, context_hash, entry, ttl)
+    def get_answer(
+        self,
+        query: str,
+        context_hash: str = ""
+    ) -> Optional[AnswerEntry]:
+        """Get cached answer.
+        Args:
+            query: User query.
+            context_hash: Context identifier.
+        Returns:
+            AnswerEntry or None if not found.
+        """
+        result = self.get(query, context_hash)
+        if isinstance(result, self.AnswerEntry):
+            return result
+        return None
+# Global cache instances
+_query_cache: Optional[QueryCache] = None
+_answer_cache: Optional[AnswerCache] = None
+def get_query_cache(
+    default_ttl: float = 3600,
+    max_size: int = 1000,
+) -> QueryCache:
+    """Get or create the global query cache.
+    Args:
+        default_ttl: Default TTL for entries.
+        max_size: Maximum cache size.
+    Returns:
+        QueryCache singleton instance.
+    """
+    global _query_cache
+    if _query_cache is None:
+        _query_cache = QueryCache(default_ttl=default_ttl, max_size=max_size)
+    return _query_cache
+def get_answer_cache(
+    default_ttl: float = 3600,
+    max_size: int = 500,
+) -> AnswerCache:
+    """Get or create the global answer cache.
+    Args:
+        default_ttl: Default TTL for entries.
+        max_size: Maximum cache size.
+    Returns:
+        AnswerCache singleton instance.
+    """
+    global _answer_cache
+    if _answer_cache is None:
+        _answer_cache = AnswerCache(default_ttl=default_ttl, max_size=max_size)
+    return _answer_cache

src/services/cypher_templates.py ADDED Viewed

	@@ -0,0 +1,1332 @@

+"""Pre-validated Cypher query templates for deterministic query routing."""
+from __future__ import annotations
+import os
+import re
+import hashlib
+from dataclasses import dataclass, field
+from enum import Enum
+from typing import Any, Dict, List, Optional, Tuple
+import logging
+logger = logging.getLogger(__name__)
+# =============================================================================
+# LLM-BASED INTENT CLASSIFIER
+# =============================================================================
+class LLMIntentClassifier:
+    """Classifies query intent using a lightweight LLM.
+    Uses a small model from Together AI for intent classification.
+    Handles synonyms naturally without hardcoding patterns.
+    Caches results and falls back to pattern matching if LLM fails.
+    """
+    # Cheap, fast model for classification
+    DEFAULT_MODEL = "meta-llama/Llama-3.2-3B-Instruct-Turbo"
+    # Classification prompt - designed to be concise for speed
+    CLASSIFICATION_PROMPT = """Classify this query into exactly ONE category. For compound queries, pick the combined category.
+Categories:
+- TIMELINE_LOCATION: Questions about BOTH timeline/schedule AND location/place
+- TIMELINE_BUDGET: Questions about BOTH timeline/schedule AND budget/cost
+- BUDGET_LOCATION: Questions about BOTH cost/money AND location/place
+- CONTACTS: Questions about project manager, owner, engineer, contractor, lead, head, E&C firm, personnel, who is responsible
+- TIMELINE: Questions ONLY about schedule, dates, milestones, deadlines, duration, when things happen
+- CHALLENGES: Questions about problems, risks, issues, obstacles, delays, failures, difficulties, constraints
+- BUDGET: Questions ONLY about cost, money, investment, funding, expenses, price, TIV, financial aspects, spend
+- LOCATION: Questions ONLY about where, place, site, city, country, address, geography, region
+- TECHNICAL: Questions about capacity, scope, technical details, specifications, requirements, fuel type, labor
+- COMPARISON: Generic comparison of ALL aspects of projects (budget, timeline, location, challenges, contacts)
+- STATUS: Questions about current state, progress, whether active/cancelled, probability
+- OVERVIEW: Questions asking for summary, description, general information, tell me about
+- GENERAL: Questions that don't fit above categories or need detailed analysis
+Query: "{query}"
+Respond with ONLY the category name, nothing else."""
+    def __init__(
+        self,
+        model: str = None,
+        api_key: str = None,
+        use_cache: bool = True,
+        fallback_to_patterns: bool = True,
+    ):
+        """Initialize LLM intent classifier.
+        Args:
+            model: Together AI model ID. Defaults to Llama-3.2-3B.
+            api_key: Together AI API key. Uses env var if not provided.
+            use_cache: Whether to cache classification results.
+            fallback_to_patterns: Whether to use pattern matching as fallback.
+        """
+        self.model = model or self.DEFAULT_MODEL
+        self.api_key = api_key or os.environ.get("TOGETHER_API_KEY")
+        self.use_cache = use_cache
+        self.fallback_to_patterns = fallback_to_patterns
+        self._cache: Dict[str, str] = {}
+        self._client = None
+    def _get_client(self):
+        """Lazy-load Together AI client."""
+        if self._client is None:
+            try:
+                from together import Together
+                self._client = Together(api_key=self.api_key)
+            except ImportError:
+                logger.warning("together package not installed")
+                return None
+            except Exception as e:
+                logger.warning(f"Failed to initialize Together client: {e}")
+                return None
+        return self._client
+    def _cache_key(self, query: str) -> str:
+        """Generate cache key for query."""
+        return hashlib.md5(query.lower().strip().encode()).hexdigest()
+    def classify(self, query: str) -> str:
+        """Classify query intent using LLM.
+        Args:
+            query: User query string
+        Returns:
+            Intent category name (e.g., "TIMELINE", "BUDGET")
+        """
+        # Check cache first
+        if self.use_cache:
+            cache_key = self._cache_key(query)
+            if cache_key in self._cache:
+                logger.debug(f"Intent cache hit: {self._cache[cache_key]}")
+                return self._cache[cache_key]
+        # Try LLM classification
+        client = self._get_client()
+        if client:
+            try:
+                response = client.chat.completions.create(
+                    model=self.model,
+                    messages=[
+                        {"role": "user", "content": self.CLASSIFICATION_PROMPT.format(query=query)}
+                    ],
+                    max_tokens=20,  # Only need category name
+                    temperature=0,  # Deterministic
+                )
+                intent = response.choices[0].message.content.strip().upper()
+                # Validate intent is a known category
+                valid_intents = {
+                    "BUDGET_LOCATION", "TIMELINE_LOCATION", "TIMELINE_BUDGET",
+                    "TIMELINE", "CHALLENGES", "BUDGET", "LOCATION",
+                    "CONTACTS", "TECHNICAL", "COMPARISON", "STATUS",
+                    "OVERVIEW", "GENERAL"
+                }
+                # Handle variations in response - check longer names first
+                matched = False
+                for valid in sorted(valid_intents, key=len, reverse=True):
+                    if valid in intent:
+                        intent = valid
+                        matched = True
+                        break
+                if not matched:
+                    intent = "GENERAL"
+                # Cache result
+                if self.use_cache:
+                    self._cache[cache_key] = intent
+                logger.info(f"LLM classified query as: {intent}")
+                return intent
+            except Exception as e:
+                logger.warning(f"LLM classification failed: {e}")
+        # Fallback to pattern matching
+        if self.fallback_to_patterns:
+            return self._pattern_fallback(query)
+        return "GENERAL"
+    def _pattern_fallback(self, query: str) -> str:
+        """Simple pattern-based fallback if LLM fails."""
+        q = query.lower()
+        # Check for keywords - expanded synonym sets
+        has_timeline = any(w in q for w in [
+            "timeline", "schedule", "milestone", "deadline", "when", "date",
+            "duration", "start", "finish", "complete", "begin", "end"
+        ])
+        has_budget = any(w in q for w in [
+            "budget", "cost", "investment", "money", "spend", "fund", "price",
+            "expense", "tiv", "financial", "dollar", "amount", "funding"
+        ])
+        has_location = any(w in q for w in [
+            "location", "where", "site", "city", "country", "place", "address",
+            "region", "state", "area", "geography", "situated"
+        ])
+        has_challenge = any(w in q for w in [
+            "challenge", "risk", "issue", "problem", "obstacle", "delay",
+            "difficult", "constraint", "failure", "cancelled", "cancel"
+        ])
+        has_contacts = any(w in q for w in [
+            "manager", "owner", "engineer", "contractor", "lead", "head",
+            "contact", "personnel", "responsible", "e&c", "firm", "who"
+        ])
+        has_technical = any(w in q for w in [
+            "capacity", "scope", "technical", "specification", "requirement",
+            "fuel", "labor", "megawatt", "mw", "barrel", "bbl", "unit"
+        ])
+        # Check for compound intents first (most specific)
+        if has_timeline and has_location:
+            return "TIMELINE_LOCATION"
+        if has_timeline and has_budget:
+            return "TIMELINE_BUDGET"
+        if has_budget and has_location:
+            return "BUDGET_LOCATION"
+        # Single intents - prioritize more specific ones
+        if has_contacts:
+            return "CONTACTS"
+        if has_technical:
+            return "TECHNICAL"
+        if has_timeline:
+            return "TIMELINE"
+        if has_challenge:
+            return "CHALLENGES"
+        if has_budget:
+            return "BUDGET"
+        if has_location:
+            return "LOCATION"
+        # Generic intents
+        if any(w in q for w in ["compare", "comparison", "versus", "vs", "differ", "difference"]):
+            return "COMPARISON"
+        if any(w in q for w in ["status", "progress", "state", "active", "probability"]):
+            return "STATUS"
+        if any(w in q for w in ["overview", "summary", "describe", "explain", "tell me", "about"]):
+            return "OVERVIEW"
+        return "GENERAL"
+    def clear_cache(self) -> int:
+        """Clear the classification cache."""
+        count = len(self._cache)
+        self._cache.clear()
+        return count
+class QueryIntent(Enum):
+    """Detected query intents for template routing."""
+    BUDGET = "budget"
+    LOCATION = "location"
+    BUDGET_LOCATION = "budget_location"
+    TIMELINE = "timeline"
+    TIMELINE_LOCATION = "timeline_location"  # Combined: timeline + location
+    TIMELINE_BUDGET = "timeline_budget"      # Combined: timeline + budget
+    CHALLENGES = "challenges"
+    CONTACTS = "contacts"                    # Project manager, owner, engineer
+    TECHNICAL = "technical"                  # Capacity, scope, specifications
+    COMPARISON = "comparison"                # Full comparison with all data
+    PROJECT_OVERVIEW = "overview"
+    PROJECT_STATUS = "status"
+    GENERAL = "general"  # Requires RAG fallback
+@dataclass
+class CypherTemplate:
+    """Pre-validated Cypher query template.
+    Attributes:
+        intent: The query intent this template handles
+        cypher: The Cypher query string
+        description: Human-readable description
+        required_params: List of required parameter names (if any)
+    """
+    intent: QueryIntent
+    cypher: str
+    description: str
+    required_params: List[str] = field(default_factory=list)
+    def execute(self, graph: Any, params: Optional[Dict[str, Any]] = None) -> List[Dict]:
+        """Execute template against the graph.
+        Args:
+            graph: Neo4j graph instance (LangChain Neo4jGraph)
+            params: Optional query parameters
+        Returns:
+            List of result dictionaries
+        """
+        try:
+            return graph.query(self.cypher, params or {})
+        except Exception as e:
+            logger.warning(f"Template execution failed: {e}")
+            return []
+class CypherTemplateRouter:
+    """Routes queries to pre-validated Cypher templates.
+    This eliminates LLM Cypher generation for ~70-80% of queries,
+    providing deterministic, fast, and reliable results.
+    Example:
+        >>> router = CypherTemplateRouter()
+        >>> results, intent = router.route_query("What is the budget?", graph)
+        >>> if results is not None:
+        ...     print(f"Used template for {intent.value}")
+    """
+    # =====================================================================
+    # PRE-VALIDATED CYPHER TEMPLATES
+    # =====================================================================
+    # These queries have been tested against the actual graph schema and
+    # are guaranteed to work correctly.
+    TEMPLATES = {
+        QueryIntent.BUDGET_LOCATION: CypherTemplate(
+            intent=QueryIntent.BUDGET_LOCATION,
+            cypher="""
+                MATCH (p:Project)
+                OPTIONAL MATCH (p)-[:HAS_BUDGET]->(b:Budget)
+                OPTIONAL MATCH (p)-[:LOCATED_IN]->(l:Location)
+                RETURN p.name AS project,
+                       p.projectId AS projectId,
+                       p.status AS status,
+                       b.amount AS budget,
+                       b.currency AS currency,
+                       l.address AS address,
+                       l.city AS city,
+                       l.state AS state,
+                       l.postal AS postal,
+                       l.country AS country,
+                       l.zoneCounty AS zoneCounty
+                ORDER BY p.name
+            """,
+            description="Get budget (TIV) and location for all projects",
+        ),
+        QueryIntent.BUDGET: CypherTemplate(
+            intent=QueryIntent.BUDGET,
+            cypher="""
+                MATCH (p:Project)
+                OPTIONAL MATCH (p)-[:HAS_BUDGET]->(b:Budget)
+                RETURN p.name AS project,
+                       p.projectId AS projectId,
+                       p.status AS status,
+                       b.amount AS budget,
+                       b.currency AS currency,
+                       b.kind AS budgetType
+                ORDER BY b.amount DESC
+            """,
+            description="Get budget/investment information for all projects",
+        ),
+        QueryIntent.LOCATION: CypherTemplate(
+            intent=QueryIntent.LOCATION,
+            cypher="""
+                MATCH (p:Project)
+                OPTIONAL MATCH (p)-[:LOCATED_IN]->(l:Location)
+                RETURN p.name AS project,
+                       p.projectId AS projectId,
+                       l.address AS address,
+                       l.city AS city,
+                       l.state AS state,
+                       l.postal AS postal,
+                       l.country AS country,
+                       l.zoneCounty AS zone
+                ORDER BY p.name
+            """,
+            description="Get location information for all projects",
+        ),
+        QueryIntent.TIMELINE: CypherTemplate(
+            intent=QueryIntent.TIMELINE,
+            cypher="""
+                MATCH (p:Project)
+                OPTIONAL MATCH (p)-[:HAS_MILESTONE]->(m:Milestone)
+                WITH p, m
+                ORDER BY p.name, m.dateText
+                RETURN p.name AS project,
+                       p.projectId AS projectId,
+                       p.status AS status,
+                       collect({
+                           name: m.name,
+                           date: m.dateText,
+                           detail: m.sentence
+                       }) AS milestones
+                ORDER BY p.name
+            """,
+            description="Get timeline and milestones for all projects",
+        ),
+        QueryIntent.CHALLENGES: CypherTemplate(
+            intent=QueryIntent.CHALLENGES,
+            cypher="""
+                MATCH (p:Project)
+                OPTIONAL MATCH (p)-[:HAS_CHALLENGE]->(c:Challenge)
+                RETURN p.name AS project,
+                       p.projectId AS projectId,
+                       p.status AS status,
+                       p.statusReason AS statusReason,
+                       collect(DISTINCT c.text) AS challenges
+                ORDER BY p.name
+            """,
+            description="Get challenges, constraints, and risks for all projects",
+        ),
+        QueryIntent.TIMELINE_LOCATION: CypherTemplate(
+            intent=QueryIntent.TIMELINE_LOCATION,
+            cypher="""
+                MATCH (p:Project)
+                OPTIONAL MATCH (p)-[:LOCATED_IN]->(l:Location)
+                OPTIONAL MATCH (p)-[:HAS_MILESTONE]->(m:Milestone)
+                WITH p, l, m
+                ORDER BY p.name, m.dateText
+                RETURN p.name AS project,
+                       p.projectId AS projectId,
+                       p.status AS status,
+                       l.city AS city,
+                       l.state AS state,
+                       l.country AS country,
+                       l.address AS address,
+                       collect({
+                           name: m.name,
+                           date: m.dateText,
+                           detail: m.sentence
+                       }) AS milestones
+                ORDER BY p.name
+            """,
+            description="Get timeline milestones AND location for all projects",
+        ),
+        QueryIntent.TIMELINE_BUDGET: CypherTemplate(
+            intent=QueryIntent.TIMELINE_BUDGET,
+            cypher="""
+                MATCH (p:Project)
+                OPTIONAL MATCH (p)-[:HAS_BUDGET]->(b:Budget)
+                OPTIONAL MATCH (p)-[:HAS_MILESTONE]->(m:Milestone)
+                WITH p, b, m
+                ORDER BY p.name, m.dateText
+                RETURN p.name AS project,
+                       p.projectId AS projectId,
+                       p.status AS status,
+                       b.amount AS budget,
+                       b.currency AS currency,
+                       collect({
+                           name: m.name,
+                           date: m.dateText,
+                           detail: m.sentence
+                       }) AS milestones
+                ORDER BY p.name
+            """,
+            description="Get timeline milestones AND budget for all projects",
+        ),
+        QueryIntent.CONTACTS: CypherTemplate(
+            intent=QueryIntent.CONTACTS,
+            cypher="""
+                MATCH (p:Project)
+                RETURN p.name AS project,
+                       p.projectId AS projectId,
+                       p.status AS status,
+                       p.projectManager AS projectManager,
+                       p.projectManagerCompany AS projectManagerCompany,
+                       p.projectManagerTitle AS projectManagerTitle,
+                       p.projectManagerEmail AS projectManagerEmail,
+                       p.projectManagerPhone AS projectManagerPhone,
+                       p.plantOwner AS plantOwner,
+                       p.plantParent AS plantParent,
+                       p.plantName AS plantName,
+                       p.engineerCompany AS engineerCompany,
+                       p.ecFirm AS ecFirm,
+                       p.phone AS phone
+                ORDER BY p.name
+            """,
+            description="Get project manager, owner, engineer, and contact information",
+        ),
+        QueryIntent.TECHNICAL: CypherTemplate(
+            intent=QueryIntent.TECHNICAL,
+            cypher="""
+                MATCH (p:Project)
+                RETURN p.name AS project,
+                       p.projectId AS projectId,
+                       p.status AS status,
+                       p.industryCode AS industryCode,
+                       p.projectType AS projectType,
+                       p.sector AS sector,
+                       p.sicCode AS sicCode,
+                       p.sicProduct AS sicProduct,
+                       p.pecTiming AS pecTiming,
+                       p.pecActivity AS pecActivity,
+                       p.projectCapacity AS projectCapacity,
+                       p.scopeText AS scopeText,
+                       p.environmental AS environmental,
+                       p.constructionLabor AS constructionLabor,
+                       p.operationsLabor AS operationsLabor,
+                       p.fuelType AS fuelType,
+                       p.unitName AS unitName
+                ORDER BY p.name
+            """,
+            description="Get technical details including capacity, scope, and specifications",
+        ),
+        QueryIntent.COMPARISON: CypherTemplate(
+            intent=QueryIntent.COMPARISON,
+            cypher="""
+                MATCH (p:Project)
+                OPTIONAL MATCH (p)-[:HAS_BUDGET]->(b:Budget)
+                OPTIONAL MATCH (p)-[:LOCATED_IN]->(l:Location)
+                OPTIONAL MATCH (p)-[:HAS_MILESTONE]->(m:Milestone)
+                OPTIONAL MATCH (p)-[:HAS_CHALLENGE]->(c:Challenge)
+                WITH p, b, l, m, c
+                ORDER BY p.name, m.dateText
+                WITH p, b, l,
+                     collect(DISTINCT {name: m.name, date: m.dateText}) AS milestones,
+                     collect(DISTINCT c.text) AS challenges
+                RETURN p.name AS project,
+                       p.projectId AS projectId,
+                       p.status AS status,
+                       p.statusReason AS statusReason,
+                       p.projectProbability AS projectProbability,
+                       p.projectManager AS projectManager,
+                       p.projectManagerCompany AS projectManagerCompany,
+                       p.projectManagerTitle AS projectManagerTitle,
+                       p.plantOwner AS plantOwner,
+                       p.plantParent AS plantParent,
+                       p.plantName AS plantName,
+                       p.engineerCompany AS engineerCompany,
+                       p.ecFirm AS ecFirm,
+                       p.industryCode AS industryCode,
+                       p.projectType AS projectType,
+                       p.sector AS sector,
+                       p.sicCode AS sicCode,
+                       p.pecTiming AS pecTiming,
+                       p.pecActivity AS pecActivity,
+                       p.projectCapacity AS projectCapacity,
+                       p.scopeText AS scopeText,
+                       b.amount AS budget,
+                       b.currency AS currency,
+                       l.city AS city,
+                       l.state AS state,
+                       l.country AS country,
+                       l.address AS address,
+                       milestones,
+                       challenges
+                ORDER BY b.amount DESC
+            """,
+            description="Compare all projects with full details (budget, location, timeline, challenges, contacts, technical)",
+        ),
+        QueryIntent.PROJECT_OVERVIEW: CypherTemplate(
+            intent=QueryIntent.PROJECT_OVERVIEW,
+            cypher="""
+                MATCH (p:Project)
+                OPTIONAL MATCH (p)-[:HAS_BUDGET]->(b:Budget)
+                OPTIONAL MATCH (p)-[:LOCATED_IN]->(l:Location)
+                OPTIONAL MATCH (p)-[:HAS_REPORT]->(r:Report)
+                RETURN p.name AS project,
+                       p.projectId AS projectId,
+                       p.status AS status,
+                       p.statusReason AS statusReason,
+                       p.projectProbability AS projectProbability,
+                       p.projectManager AS projectManager,
+                       p.projectManagerCompany AS projectManagerCompany,
+                       p.projectManagerTitle AS projectManagerTitle,
+                       p.plantOwner AS plantOwner,
+                       p.plantParent AS plantParent,
+                       p.plantName AS plantName,
+                       p.engineerCompany AS engineerCompany,
+                       p.ecFirm AS ecFirm,
+                       p.industryCode AS industryCode,
+                       p.projectType AS projectType,
+                       p.sector AS sector,
+                       p.sicCode AS sicCode,
+                       p.pecTiming AS pecTiming,
+                       p.pecActivity AS pecActivity,
+                       p.projectCapacity AS projectCapacity,
+                       p.constructionLabor AS constructionLabor,
+                       p.operationsLabor AS operationsLabor,
+                       p.fuelType AS fuelType,
+                       p.unitName AS unitName,
+                       b.amount AS budget,
+                       b.currency AS currency,
+                       l.city AS city,
+                       l.state AS state,
+                       l.country AS country,
+                       l.address AS address,
+                       r.lastUpdate AS lastUpdate,
+                       r.initialRelease AS initialRelease
+                ORDER BY p.name
+            """,
+            description="Get comprehensive overview of all projects with all attributes",
+        ),
+        QueryIntent.PROJECT_STATUS: CypherTemplate(
+            intent=QueryIntent.PROJECT_STATUS,
+            cypher="""
+                MATCH (p:Project)
+                OPTIONAL MATCH (p)-[:HAS_REPORT]->(r:Report)
+                RETURN p.name AS project,
+                       p.projectId AS projectId,
+                       p.status AS status,
+                       p.statusReason AS statusReason,
+                       r.lastUpdate AS lastUpdate
+                ORDER BY p.name
+            """,
+            description="Get project status information",
+        ),
+    }
+    def __init__(self, use_llm: bool = True) -> None:
+        """Initialize the template router.
+        Args:
+            use_llm: If True, uses LLM for intent classification (handles synonyms).
+                     If False, uses simple pattern matching (faster but limited).
+        """
+        self.use_llm = use_llm
+        self._llm_classifier: Optional[LLMIntentClassifier] = None
+    def _get_classifier(self) -> LLMIntentClassifier:
+        """Lazy-load the LLM classifier."""
+        if self._llm_classifier is None:
+            self._llm_classifier = LLMIntentClassifier(
+                use_cache=True,
+                fallback_to_patterns=True,
+            )
+        return self._llm_classifier
+    def classify_intent(self, query: str) -> QueryIntent:
+        """Classify query intent using LLM or pattern matching.
+        Args:
+            query: User query string
+        Returns:
+            Detected QueryIntent
+        """
+        if self.use_llm:
+            classifier = self._get_classifier()
+            intent_str = classifier.classify(query)
+        else:
+            # Fallback to simple pattern matching
+            intent_str = self._simple_pattern_match(query)
+        # Map string to QueryIntent enum
+        intent_map = {
+            "BUDGET_LOCATION": QueryIntent.BUDGET_LOCATION,
+            "TIMELINE_LOCATION": QueryIntent.TIMELINE_LOCATION,
+            "TIMELINE_BUDGET": QueryIntent.TIMELINE_BUDGET,
+            "TIMELINE": QueryIntent.TIMELINE,
+            "CHALLENGES": QueryIntent.CHALLENGES,
+            "CONTACTS": QueryIntent.CONTACTS,
+            "TECHNICAL": QueryIntent.TECHNICAL,
+            "BUDGET": QueryIntent.BUDGET,
+            "LOCATION": QueryIntent.LOCATION,
+            "COMPARISON": QueryIntent.COMPARISON,
+            "STATUS": QueryIntent.PROJECT_STATUS,
+            "OVERVIEW": QueryIntent.PROJECT_OVERVIEW,
+            "GENERAL": QueryIntent.GENERAL,
+        }
+        return intent_map.get(intent_str, QueryIntent.GENERAL)
+    def _simple_pattern_match(self, query: str) -> str:
+        """Simple pattern matching fallback (no LLM)."""
+        q = query.lower()
+        # Check for combined intents first
+        if any(w in q for w in ["budget", "cost", "money"]) and any(w in q for w in ["location", "where", "site"]):
+            return "BUDGET_LOCATION"
+        # Single intents - check domain keywords
+        if any(w in q for w in ["timeline", "schedule", "milestone", "deadline", "when", "duration"]):
+            return "TIMELINE"
+        if any(w in q for w in ["challenge", "risk", "issue", "problem", "obstacle", "delay"]):
+            return "CHALLENGES"
+        if any(w in q for w in ["budget", "cost", "investment", "money", "spend", "fund", "price"]):
+            return "BUDGET"
+        if any(w in q for w in ["location", "where", "site", "city", "country", "place"]):
+            return "LOCATION"
+        if any(w in q for w in ["compare", "comparison", "versus", "differ"]):
+            return "COMPARISON"
+        if any(w in q for w in ["status", "progress", "state"]):
+            return "STATUS"
+        if any(w in q for w in ["overview", "summary", "describe", "explain"]):
+            return "OVERVIEW"
+        return "GENERAL"
+    def get_template(self, intent: QueryIntent) -> Optional[CypherTemplate]:
+        """Get template for a given intent.
+        Args:
+            intent: Query intent
+        Returns:
+            CypherTemplate or None if no template for intent
+        """
+        return self.TEMPLATES.get(intent)
+    def route_query(
+        self,
+        query: str,
+        graph: Any,
+    ) -> Tuple[Optional[List[Dict]], QueryIntent]:
+        """Route query to template or indicate fallback needed.
+        Args:
+            query: User query string
+            graph: Neo4j graph instance
+        Returns:
+            Tuple of (results or None, detected intent)
+            Results is None if intent is GENERAL or template execution failed
+        """
+        intent = self.classify_intent(query)
+        logger.info(f"Query classified as: {intent.value}")
+        if intent == QueryIntent.GENERAL:
+            return None, intent
+        template = self.get_template(intent)
+        if template is None:
+            logger.warning(f"No template found for intent: {intent.value}")
+            return None, intent
+        try:
+            results = template.execute(graph)
+            if results:
+                logger.info(f"Template returned {len(results)} results")
+                return results, intent
+            else:
+                logger.warning("Template returned empty results")
+                return [], intent
+        except Exception as e:
+            logger.warning(f"Template execution error: {e}")
+            return None, intent
+    def get_all_intents(self) -> List[QueryIntent]:
+        """Get list of all supported intents (excluding GENERAL)."""
+        return [intent for intent in QueryIntent if intent != QueryIntent.GENERAL]
+    def get_template_description(self, intent: QueryIntent) -> str:
+        """Get human-readable description of what a template does."""
+        template = self.get_template(intent)
+        if template:
+            return template.description
+        return f"No template available for {intent.value}"
+# =========================================================================
+# RESULT FORMATTERS
+# =========================================================================
+# These functions format Cypher results into human-readable markdown
+# without requiring LLM synthesis.
+class TemplateResultFormatter:
+    """Formats template results into markdown without LLM."""
+    # Standard message for missing information
+    NOT_FOUND_MSG = "I couldn't find this information in the provided documents."
+    @staticmethod
+    def format_budget(results: List[Dict]) -> str:
+        """Format budget results."""
+        if not results:
+            return "I couldn't find any budget information in the provided documents."
+        lines = ["## Budget Information\n"]
+        for r in results:
+            project = r.get('project') or 'Unknown Project'
+            budget = r.get('budget')
+            currency = r.get('currency') or ''
+            status = r.get('status') or ''
+            if budget is not None:
+                if isinstance(budget, (int, float)):
+                    budget_str = f"{budget:,.0f} {currency}".strip()
+                else:
+                    budget_str = f"{budget} {currency}".strip()
+            else:
+                budget_str = "Not available"
+            status_str = f" ({status})" if status else ""
+            lines.append(f"- **{project}**{status_str}: {budget_str}")
+        return "\n".join(lines)
+    @staticmethod
+    def format_location(results: List[Dict]) -> str:
+        """Format location results."""
+        if not results:
+            return "I couldn't find any location information in the provided documents."
+        lines = ["## Location Information\n"]
+        for r in results:
+            project = r.get('project') or 'Unknown Project'
+            loc_parts = [
+                r.get('address'),
+                r.get('city'),
+                r.get('state'),
+                r.get('country'),
+            ]
+            loc = ", ".join([p for p in loc_parts if p]) or "Not available"
+            lines.append(f"- **{project}**: {loc}")
+        return "\n".join(lines)
+    @staticmethod
+    def format_budget_location(results: List[Dict]) -> str:
+        """Format combined budget and location results."""
+        if not results:
+            return "I couldn't find any budget or location information in the provided documents."
+        lines = ["## Budget Allocation and Location\n"]
+        for r in results:
+            project = r.get('project') or 'Unknown Project'
+            status = r.get('status') or ''
+            # Format budget
+            budget = r.get('budget')
+            currency = r.get('currency') or ''
+            if budget is not None:
+                if isinstance(budget, (int, float)):
+                    budget_str = f"{budget:,.0f} {currency}".strip()
+                else:
+                    budget_str = f"{budget} {currency}".strip()
+            else:
+                budget_str = "Not available"
+            # Format location
+            loc_parts = [r.get('city'), r.get('state'), r.get('country')]
+            loc = ", ".join([p for p in loc_parts if p]) or "Not available"
+            status_str = f" *({status})*" if status else ""
+            lines.append(f"\n### {project}{status_str}")
+            lines.append(f"- **Budget (TIV)**: {budget_str}")
+            lines.append(f"- **Location**: {loc}")
+            if r.get('address'):
+                lines.append(f"- **Address**: {r['address']}")
+            if r.get('zoneCounty'):
+                lines.append(f"- **Zone/County**: {r['zoneCounty']}")
+        return "\n".join(lines)
+    @staticmethod
+    def format_timeline(results: List[Dict]) -> str:
+        """Format timeline/milestone results."""
+        if not results:
+            return "I couldn't find any timeline information in the provided documents."
+        lines = ["## Project Timelines\n"]
+        for r in results:
+            project = r.get('project') or 'Unknown Project'
+            status = r.get('status') or ''
+            milestones = r.get('milestones') or []
+            status_str = f" *({status})*" if status else ""
+            lines.append(f"\n### {project}{status_str}")
+            # Filter out null milestones
+            valid_milestones = [
+                m for m in milestones
+                if m and (m.get('name') or m.get('date'))
+            ]
+            if not valid_milestones:
+                lines.append("- No milestones recorded")
+            else:
+                for m in valid_milestones[:12]:  # Limit display
+                    name = m.get('name') or 'Milestone'
+                    date = m.get('date') or ''
+                    detail = m.get('detail') or ''
+                    if date:
+                        lines.append(f"- **{name}**: {date}")
+                    elif detail:
+                        lines.append(f"- **{name}**: {detail[:100]}...")
+                    else:
+                        lines.append(f"- {name}")
+        return "\n".join(lines)
+    @staticmethod
+    def format_challenges(results: List[Dict]) -> str:
+        """Format challenges results."""
+        if not results:
+            return "I couldn't find any challenge or risk information in the provided documents."
+        lines = ["## Project Challenges and Constraints\n"]
+        for r in results:
+            project = r.get('project') or 'Unknown Project'
+            status = r.get('status') or ''
+            status_reason = r.get('statusReason') or ''
+            challenges = r.get('challenges') or []
+            lines.append(f"\n### {project}")
+            if status:
+                lines.append(f"**Status**: {status}")
+            if status_reason:
+                lines.append(f"**Status Reason**: {status_reason}")
+            # Filter out None/empty challenges
+            valid_challenges = [c for c in challenges if c]
+            if valid_challenges:
+                lines.append("\n**Identified Challenges:**")
+                for ch in valid_challenges[:10]:
+                    lines.append(f"- {ch}")
+            elif status_reason:
+                lines.append("\n*Challenges inferred from status reason above.*")
+            else:
+                lines.append("- No specific challenges recorded")
+        return "\n".join(lines)
+    @staticmethod
+    def format_contacts(results: List[Dict]) -> str:
+        """Format contact/personnel information results."""
+        if not results:
+            return "I couldn't find any contact or personnel information in the provided documents."
+        lines = ["## Project Contacts and Personnel\n"]
+        for r in results:
+            project = r.get('project') or 'Unknown Project'
+            lines.append(f"\n### {project}")
+            has_any_contact = False
+            # Project Manager
+            pm_name = r.get('projectManager')
+            if pm_name:
+                has_any_contact = True
+                pm_info = pm_name
+                if r.get('projectManagerTitle'):
+                    pm_info += f", {r['projectManagerTitle']}"
+                if r.get('projectManagerCompany'):
+                    pm_info += f" ({r['projectManagerCompany']})"
+                lines.append(f"- **Project Manager**: {pm_info}")
+                if r.get('projectManagerEmail'):
+                    lines.append(f"  - Email: {r['projectManagerEmail']}")
+                if r.get('projectManagerPhone'):
+                    lines.append(f"  - Phone: {r['projectManagerPhone']}")
+            # Owner
+            plant_owner = r.get('plantOwner')
+            if plant_owner:
+                has_any_contact = True
+                owner_info = plant_owner
+                if r.get('plantParent'):
+                    owner_info += f" (Parent: {r['plantParent']})"
+                lines.append(f"- **Owner**: {owner_info}")
+                if r.get('plantName'):
+                    lines.append(f"  - Plant/Facility: {r['plantName']}")
+            # Engineer
+            if r.get('engineerCompany'):
+                has_any_contact = True
+                lines.append(f"- **Engineer**: {r['engineerCompany']}")
+            # E&C Firm
+            if r.get('ecFirm'):
+                has_any_contact = True
+                lines.append(f"- **E&C Firm**: {r['ecFirm']}")
+            # General phone
+            if r.get('phone'):
+                has_any_contact = True
+                lines.append(f"- **Phone**: {r['phone']}")
+            if not has_any_contact:
+                lines.append("- No contact information available")
+        return "\n".join(lines)
+    @staticmethod
+    def format_technical(results: List[Dict]) -> str:
+        """Format technical details and specifications results."""
+        if not results:
+            return "I couldn't find any technical specifications in the provided documents."
+        lines = ["## Technical Details and Specifications\n"]
+        for r in results:
+            project = r.get('project') or 'Unknown Project'
+            lines.append(f"\n### {project}")
+            has_any_technical = False
+            # Classification
+            if r.get('industryCode') or r.get('projectType') or r.get('sector'):
+                has_any_technical = True
+                lines.append("- **Classification**:")
+                if r.get('industryCode'):
+                    lines.append(f"  - Industry: {r['industryCode']}")
+                if r.get('projectType'):
+                    lines.append(f"  - Type: {r['projectType']}")
+                if r.get('sector'):
+                    lines.append(f"  - Sector: {r['sector']}")
+                if r.get('sicCode'):
+                    lines.append(f"  - SIC Code: {r['sicCode']}")
+                if r.get('sicProduct'):
+                    lines.append(f"  - SIC Product: {r['sicProduct']}")
+            # PEC Stage
+            if r.get('pecTiming') or r.get('pecActivity'):
+                has_any_technical = True
+                pec = f"{r.get('pecTiming', '')} - {r.get('pecActivity', '')}".strip(' -')
+                if pec:
+                    lines.append(f"- **PEC Stage**: {pec}")
+            # Capacity
+            if r.get('projectCapacity'):
+                has_any_technical = True
+                lines.append(f"- **Project Capacity**: {r['projectCapacity']}")
+            # Scope
+            if r.get('scopeText'):
+                has_any_technical = True
+                scope = r['scopeText']
+                if len(scope) > 300:
+                    scope = scope[:300] + "..."
+                lines.append(f"- **Scope**: {scope}")
+            # Environmental
+            if r.get('environmental'):
+                has_any_technical = True
+                lines.append(f"- **Environmental**: {r['environmental']}")
+            # Labor
+            if r.get('constructionLabor') or r.get('operationsLabor'):
+                has_any_technical = True
+                labor_parts = []
+                if r.get('constructionLabor'):
+                    labor_parts.append(f"Construction: {r['constructionLabor']}")
+                if r.get('operationsLabor'):
+                    labor_parts.append(f"Operations: {r['operationsLabor']}")
+                lines.append(f"- **Labor**: {', '.join(labor_parts)}")
+            # Fuel type
+            if r.get('fuelType'):
+                has_any_technical = True
+                lines.append(f"- **Fuel Type**: {r['fuelType']}")
+            # Unit
+            if r.get('unitName'):
+                has_any_technical = True
+                lines.append(f"- **Unit**: {r['unitName']}")
+            if not has_any_technical:
+                lines.append("- No technical specifications available")
+        return "\n".join(lines)
+    @staticmethod
+    def format_comparison(results: List[Dict]) -> str:
+        """Format comparison results with comprehensive project details."""
+        if not results:
+            return "I couldn't find any project data for comparison in the provided documents."
+        lines = ["## Project Comparison\n"]
+        for r in results:
+            project = r.get('project') or 'Unknown'
+            lines.append(f"### {project}")
+            # Status section
+            status = r.get('status')
+            if status:
+                lines.append(f"- **Status**: {status}")
+                if r.get('statusReason'):
+                    lines.append(f"  - Reason: {r['statusReason']}")
+                if r.get('projectProbability'):
+                    lines.append(f"  - Probability: {r['projectProbability']}")
+            # Classification
+            if r.get('industryCode') or r.get('projectType') or r.get('sector'):
+                lines.append("- **Classification**:")
+                if r.get('industryCode'):
+                    lines.append(f"  - Industry: {r['industryCode']}")
+                if r.get('projectType'):
+                    lines.append(f"  - Type: {r['projectType']}")
+                if r.get('sector'):
+                    lines.append(f"  - Sector: {r['sector']}")
+                if r.get('sicCode'):
+                    lines.append(f"  - SIC Code: {r['sicCode']}")
+            # Budget
+            budget = r.get('budget')
+            currency = r.get('currency') or ''
+            if budget is not None and isinstance(budget, (int, float)):
+                if budget >= 1_000_000_000:
+                    budget_str = f"{budget/1_000_000_000:.1f}B {currency}".strip()
+                elif budget >= 1_000_000:
+                    budget_str = f"{budget/1_000_000:.0f}M {currency}".strip()
+                else:
+                    budget_str = f"{budget:,.0f} {currency}".strip()
+                lines.append(f"- **Budget (TIV)**: {budget_str}")
+            # Location
+            loc_parts = [r.get('address'), r.get('city'), r.get('state'), r.get('country')]
+            loc_parts = [p for p in loc_parts if p]
+            if loc_parts:
+                lines.append(f"- **Location**: {', '.join(loc_parts)}")
+            # Capacity/Technical
+            if r.get('projectCapacity'):
+                lines.append(f"- **Project Capacity**: {r['projectCapacity']}")
+            if r.get('pecTiming') or r.get('pecActivity'):
+                pec = f"{r.get('pecTiming', '')} - {r.get('pecActivity', '')}".strip(' -')
+                if pec:
+                    lines.append(f"- **PEC Stage**: {pec}")
+            # Contacts section
+            pm_name = r.get('projectManager')
+            pm_company = r.get('projectManagerCompany')
+            pm_title = r.get('projectManagerTitle')
+            plant_owner = r.get('plantOwner')
+            plant_parent = r.get('plantParent')
+            engineer = r.get('engineerCompany')
+            ec_firm = r.get('ecFirm')
+            if any([pm_name, plant_owner, engineer, ec_firm]):
+                lines.append("- **Key Contacts**:")
+                if pm_name:
+                    pm_info = pm_name
+                    if pm_title:
+                        pm_info += f", {pm_title}"
+                    if pm_company:
+                        pm_info += f" ({pm_company})"
+                    lines.append(f"  - Project Manager: {pm_info}")
+                if plant_owner:
+                    owner_info = plant_owner
+                    if plant_parent:
+                        owner_info += f" (Parent: {plant_parent})"
+                    lines.append(f"  - Owner: {owner_info}")
+                if engineer:
+                    lines.append(f"  - Engineer: {engineer}")
+                if ec_firm:
+                    lines.append(f"  - E&C Firm: {ec_firm}")
+            # Plant info
+            if r.get('plantName'):
+                lines.append(f"- **Plant/Facility**: {r['plantName']}")
+            # Milestones and Challenges counts
+            ms = r.get('milestones') or []
+            ch = r.get('challenges') or []
+            if isinstance(ms, list):
+                milestone_count = len([m for m in ms if m and m.get('name')])
+            else:
+                milestone_count = 0
+            if isinstance(ch, list):
+                challenge_count = len([c for c in ch if c])
+            else:
+                challenge_count = 0
+            lines.append(f"- **Milestones**: {milestone_count}")
+            lines.append(f"- **Challenges**: {challenge_count}")
+            lines.append("")
+        return "\n".join(lines)
+    @staticmethod
+    def format_overview(results: List[Dict]) -> str:
+        """Format comprehensive project overview results."""
+        if not results:
+            return "I couldn't find any project data in the provided documents."
+        lines = ["## Project Overview\n"]
+        for r in results:
+            project = r.get('project') or 'Unknown Project'
+            lines.append(f"\n### {project}")
+            # Basic identification
+            if r.get('projectId'):
+                lines.append(f"- **Project ID**: {r['projectId']}")
+            # Status section
+            if r.get('status'):
+                lines.append(f"- **Status**: {r['status']}")
+                if r.get('statusReason'):
+                    lines.append(f"  - Reason: {r['statusReason']}")
+                if r.get('projectProbability'):
+                    lines.append(f"  - Probability: {r['projectProbability']}")
+            # Classification section
+            has_classification = any([r.get('industryCode'), r.get('projectType'),
+                                     r.get('sector'), r.get('sicCode')])
+            if has_classification:
+                lines.append("- **Classification**:")
+                if r.get('industryCode'):
+                    lines.append(f"  - Industry: {r['industryCode']}")
+                if r.get('projectType'):
+                    lines.append(f"  - Type: {r['projectType']}")
+                if r.get('sector'):
+                    lines.append(f"  - Sector: {r['sector']}")
+                if r.get('sicCode'):
+                    lines.append(f"  - SIC Code: {r['sicCode']}")
+            # Budget
+            if r.get('budget') is not None:
+                budget = r['budget']
+                currency = r.get('currency') or ''
+                if isinstance(budget, (int, float)):
+                    if budget >= 1_000_000_000:
+                        budget_str = f"{budget/1_000_000_000:.1f}B {currency}".strip()
+                    elif budget >= 1_000_000:
+                        budget_str = f"{budget/1_000_000:.0f}M {currency}".strip()
+                    else:
+                        budget_str = f"{budget:,.0f} {currency}".strip()
+                else:
+                    budget_str = f"{budget} {currency}".strip()
+                lines.append(f"- **Budget (TIV)**: {budget_str}")
+            # Location
+            loc_parts = [r.get('address'), r.get('city'), r.get('state'), r.get('country')]
+            loc_parts = [p for p in loc_parts if p]
+            if loc_parts:
+                lines.append(f"- **Location**: {', '.join(loc_parts)}")
+            # Technical details
+            if r.get('projectCapacity'):
+                lines.append(f"- **Project Capacity**: {r['projectCapacity']}")
+            if r.get('pecTiming') or r.get('pecActivity'):
+                pec = f"{r.get('pecTiming', '')} - {r.get('pecActivity', '')}".strip(' -')
+                if pec:
+                    lines.append(f"- **PEC Stage**: {pec}")
+            if r.get('fuelType'):
+                lines.append(f"- **Fuel Type**: {r['fuelType']}")
+            if r.get('unitName'):
+                lines.append(f"- **Unit**: {r['unitName']}")
+            # Labor information
+            if r.get('constructionLabor') or r.get('operationsLabor'):
+                labor_info = []
+                if r.get('constructionLabor'):
+                    labor_info.append(f"Construction: {r['constructionLabor']}")
+                if r.get('operationsLabor'):
+                    labor_info.append(f"Operations: {r['operationsLabor']}")
+                lines.append(f"- **Labor**: {', '.join(labor_info)}")
+            # Contacts section
+            pm_name = r.get('projectManager')
+            pm_company = r.get('projectManagerCompany')
+            pm_title = r.get('projectManagerTitle')
+            plant_owner = r.get('plantOwner')
+            plant_parent = r.get('plantParent')
+            plant_name = r.get('plantName')
+            engineer = r.get('engineerCompany')
+            ec_firm = r.get('ecFirm')
+            if any([pm_name, plant_owner, engineer, ec_firm]):
+                lines.append("- **Key Contacts**:")
+                if pm_name:
+                    pm_info = pm_name
+                    if pm_title:
+                        pm_info += f", {pm_title}"
+                    if pm_company:
+                        pm_info += f" ({pm_company})"
+                    lines.append(f"  - Project Manager: {pm_info}")
+                if plant_owner:
+                    owner_info = plant_owner
+                    if plant_parent:
+                        owner_info += f" (Parent: {plant_parent})"
+                    lines.append(f"  - Owner: {owner_info}")
+                if engineer:
+                    lines.append(f"  - Engineer: {engineer}")
+                if ec_firm:
+                    lines.append(f"  - E&C Firm: {ec_firm}")
+            # Plant/Facility info
+            if plant_name:
+                lines.append(f"- **Plant/Facility**: {plant_name}")
+            # Report dates
+            if r.get('lastUpdate') or r.get('initialRelease'):
+                lines.append("- **Report Info**:")
+                if r.get('lastUpdate'):
+                    lines.append(f"  - Last Updated: {r['lastUpdate']}")
+                if r.get('initialRelease'):
+                    lines.append(f"  - Initial Release: {r['initialRelease']}")
+        return "\n".join(lines)
+    @staticmethod
+    def format_status(results: List[Dict]) -> str:
+        """Format status results."""
+        if not results:
+            return "I couldn't find any project status information in the provided documents."
+        lines = ["## Project Status\n"]
+        for r in results:
+            project = r.get('project') or 'Unknown Project'
+            status = r.get('status') or 'Unknown'
+            reason = r.get('statusReason') or ''
+            last_update = r.get('lastUpdate') or ''
+            lines.append(f"\n### {project}")
+            lines.append(f"- **Status**: {status}")
+            if reason:
+                lines.append(f"- **Reason**: {reason}")
+            if last_update:
+                lines.append(f"- **Last Updated**: {last_update}")
+        return "\n".join(lines)
+    @classmethod
+    def format(cls, results: List[Dict], intent: QueryIntent) -> str:
+        """Format results based on intent.
+        Args:
+            results: Query results
+            intent: Detected intent
+        Returns:
+            Formatted markdown string
+        """
+        formatters = {
+            QueryIntent.BUDGET: cls.format_budget,
+            QueryIntent.LOCATION: cls.format_location,
+            QueryIntent.BUDGET_LOCATION: cls.format_budget_location,
+            QueryIntent.TIMELINE: cls.format_timeline,
+            QueryIntent.TIMELINE_LOCATION: cls.format_timeline,  # Use timeline formatter
+            QueryIntent.TIMELINE_BUDGET: cls.format_timeline,    # Use timeline formatter
+            QueryIntent.CHALLENGES: cls.format_challenges,
+            QueryIntent.CONTACTS: cls.format_contacts,
+            QueryIntent.TECHNICAL: cls.format_technical,
+            QueryIntent.COMPARISON: cls.format_comparison,
+            QueryIntent.PROJECT_OVERVIEW: cls.format_overview,
+            QueryIntent.PROJECT_STATUS: cls.format_status,
+        }
+        formatter = formatters.get(intent)
+        if formatter:
+            return formatter(results)
+        # Generic fallback
+        if not results:
+            return "I couldn't find this information in the provided documents."
+        lines = ["## Query Results\n"]
+        for r in results:
+            items = [f"**{k}**: {v}" for k, v in r.items() if v is not None]
+            lines.append("- " + " | ".join(items))
+        return "\n".join(lines)

src/services/neo4j_service.py ADDED Viewed

	@@ -0,0 +1,588 @@

+"""
+Neo4j database access layer.
+Provides centralized Neo4j connectivity and data management
+with Aura/hosted instance best practices.
+"""
+from __future__ import annotations
+from typing import Any, Dict, List, Optional
+from neo4j import GraphDatabase, Driver
+from neo4j.exceptions import ServiceUnavailable, AuthError
+# LangChain Neo4j integration
+try:
+    from langchain_community.graphs import Neo4jGraph
+except ImportError:
+    from langchain.graphs import Neo4jGraph
+from src.config import get_logger, log_step
+from src.models.project import ProjectRecord, GeoComponents, Milestone
+from src.parsers.project_parser import ProjectReportParser
+# Module logger
+logger = get_logger(__name__)
+class Neo4jConnectionError(Exception):
+    """Raised when Neo4j connection fails."""
+    pass
+class Neo4jService:
+    """Neo4j access layer with Aura/hosted best practices.
+    This class centralizes:
+        - Driver construction and connectivity validation
+        - LangChain Neo4jGraph wrapper configuration
+        - Constraints, structured writes, and database cleanup
+    Attributes:
+        uri: Neo4j connection URI.
+        user: Database username.
+        password: Database password.
+        database: Database name.
+        driver: Low-level Neo4j driver.
+        graph: LangChain Neo4jGraph wrapper.
+    Raises:
+        Neo4jConnectionError: If connection fails.
+    Example:
+        >>> service = Neo4jService(
+        ...     uri="neo4j+s://xxx.databases.neo4j.io",
+        ...     user="neo4j",
+        ...     password="password"
+        ... )
+        >>> service.ensure_constraints()
+        >>> service.close()
+    """
+    # Constraint definitions for structured layer
+    CONSTRAINTS = [
+        "CREATE CONSTRAINT project_id IF NOT EXISTS FOR (p:Project) REQUIRE p.projectId IS UNIQUE",
+        "CREATE CONSTRAINT project_name IF NOT EXISTS FOR (p:Project) REQUIRE p.name IS UNIQUE",
+        "CREATE CONSTRAINT budget_key IF NOT EXISTS FOR (b:Budget) REQUIRE b.key IS UNIQUE",
+        "CREATE CONSTRAINT location_key IF NOT EXISTS FOR (l:Location) REQUIRE l.key IS UNIQUE",
+        "CREATE CONSTRAINT milestone_key IF NOT EXISTS FOR (m:Milestone) REQUIRE m.key IS UNIQUE",
+        "CREATE CONSTRAINT report_key IF NOT EXISTS FOR (r:Report) REQUIRE r.key IS UNIQUE",
+    ]
+    # Performance indexes for faster queries
+    INDEXES = [
+        "CREATE INDEX project_name_idx IF NOT EXISTS FOR (p:Project) ON (p.name)",
+        "CREATE INDEX project_source_idx IF NOT EXISTS FOR (p:Project) ON (p.source)",
+        "CREATE INDEX chunk_source_idx IF NOT EXISTS FOR (c:Chunk) ON (c.source)",
+        "CREATE INDEX milestone_date_idx IF NOT EXISTS FOR (m:Milestone) ON (m.dateText)",
+        "CREATE INDEX location_city_idx IF NOT EXISTS FOR (l:Location) ON (l.city)",
+        "CREATE INDEX location_country_idx IF NOT EXISTS FOR (l:Location) ON (l.country)",
+        "CREATE INDEX challenge_source_idx IF NOT EXISTS FOR (c:Challenge) ON (c.source)",
+    ]
+    # Full-text index for semantic search within graph
+    FULLTEXT_INDEX = """
+    CREATE FULLTEXT INDEX entity_fulltext IF NOT EXISTS
+    FOR (n:Project|Organization|Location|Milestone|Challenge)
+    ON EACH [n.name, n.text, n.description]
+    """
+    # Cypher template with APOC support
+    # Uses CALL subqueries to handle empty lists properly
+    CYPHER_UPSERT_WITH_APOC = """
+    MERGE (p:Project {projectId: $project_id})
+      ON CREATE SET p.name = $project_name
+      ON MATCH SET p.name = coalesce(p.name, $project_name)
+    SET p.source = $source,
+        p.status = $status,
+        p.statusReason = $status_reason,
+        p.lastUpdate = $last_update,
+        p.initialRelease = $initial_release
+    WITH p
+    MERGE (b:Budget {key: $bud_key})
+    SET b.amount = $tiv_amount,
+        b.currency = $tiv_currency,
+        b.kind = 'TIV',
+        b.source = $source
+    MERGE (p)-[:HAS_BUDGET]->(b)
+    WITH p
+    MERGE (l:Location {key: $loc_key})
+    SET l.address = $address,
+        l.city = $city,
+        l.state = $state,
+        l.postal = $postal,
+        l.country = $country,
+        l.zoneCounty = $zone_county,
+        l.source = $source
+    MERGE (p)-[:LOCATED_IN]->(l)
+    WITH p
+    MERGE (r:Report {key: $rep_key})
+    SET r.source = $source,
+        r.lastUpdate = $last_update,
+        r.initialRelease = $initial_release
+    MERGE (p)-[:HAS_REPORT]->(r)
+    WITH p
+    CALL {
+        WITH p
+        UNWIND CASE WHEN size($challenges) > 0 THEN $challenges ELSE [null] END AS ch
+        WITH p, ch WHERE ch IS NOT NULL
+        MERGE (c:Challenge {key: p.projectId + '::ch::' + toString(apoc.util.md5(ch))})
+        SET c.text = ch, c.source = $source
+        MERGE (p)-[:HAS_CHALLENGE]->(c)
+        RETURN count(*) AS chCount
+    }
+    WITH p
+    CALL {
+        WITH p
+        UNWIND CASE WHEN size($milestones) > 0 THEN $milestones ELSE [null] END AS ms
+        WITH p, ms WHERE ms IS NOT NULL
+        MERGE (m:Milestone {key: p.projectId + '::ms::' + toString(apoc.util.md5(ms.sentence))})
+        SET m.name = ms.name, m.dateText = ms.dateText, m.sentence = ms.sentence, m.source = $source
+        MERGE (p)-[:HAS_MILESTONE]->(m)
+        RETURN count(*) AS msCount
+    }
+    RETURN p.projectId AS projectId, p.name AS name
+    """
+    # Cypher template without APOC (fallback)
+    # Uses CALL subqueries to handle empty lists properly
+    CYPHER_UPSERT_NO_APOC = """
+    MERGE (p:Project {projectId: $project_id})
+      ON CREATE SET p.name = $project_name
+      ON MATCH SET p.name = coalesce(p.name, $project_name)
+    SET p.source = $source,
+        p.status = $status,
+        p.statusReason = $status_reason,
+        p.lastUpdate = $last_update,
+        p.initialRelease = $initial_release
+    WITH p
+    MERGE (b:Budget {key: $bud_key})
+    SET b.amount = $tiv_amount,
+        b.currency = $tiv_currency,
+        b.kind = 'TIV',
+        b.source = $source
+    MERGE (p)-[:HAS_BUDGET]->(b)
+    WITH p
+    MERGE (l:Location {key: $loc_key})
+    SET l.address = $address,
+        l.city = $city,
+        l.state = $state,
+        l.postal = $postal,
+        l.country = $country,
+        l.zoneCounty = $zone_county,
+        l.source = $source
+    MERGE (p)-[:LOCATED_IN]->(l)
+    WITH p
+    MERGE (r:Report {key: $rep_key})
+    SET r.source = $source,
+        r.lastUpdate = $last_update,
+        r.initialRelease = $initial_release
+    MERGE (p)-[:HAS_REPORT]->(r)
+    WITH p
+    CALL {
+        WITH p
+        UNWIND CASE WHEN size($challenges) > 0 THEN range(0, size($challenges)-1) ELSE [null] END AS i
+        WITH p, i WHERE i IS NOT NULL
+        MERGE (c:Challenge {key: p.projectId + '::ch::' + toString(i)})
+        SET c.text = $challenges[i], c.source = $source
+        MERGE (p)-[:HAS_CHALLENGE]->(c)
+        RETURN count(*) AS chCount
+    }
+    WITH p
+    CALL {
+        WITH p
+        UNWIND CASE WHEN size($milestones) > 0 THEN range(0, size($milestones)-1) ELSE [null] END AS j
+        WITH p, j WHERE j IS NOT NULL
+        MERGE (m:Milestone {key: p.projectId + '::ms::' + toString(j)})
+        SET m.name = $milestones[j].name, m.dateText = $milestones[j].dateText,
+            m.sentence = $milestones[j].sentence, m.source = $source
+        MERGE (p)-[:HAS_MILESTONE]->(m)
+        RETURN count(*) AS msCount
+    }
+    RETURN p.projectId AS projectId, p.name AS name
+    """
+    def __init__(
+        self,
+        uri: str,
+        user: str,
+        password: str,
+        database: str = "neo4j"
+    ) -> None:
+        """Initialize Neo4j service.
+        Args:
+            uri: Neo4j URI (typically neo4j+s://... for Aura).
+            user: Neo4j username.
+            password: Neo4j password.
+            database: Neo4j database name (Aura commonly uses "neo4j").
+        Raises:
+            Neo4jConnectionError: If connection or authentication fails.
+        """
+        self.uri = uri
+        self.user = user
+        self.password = password
+        self.database = database or "neo4j"
+        logger.info(f"Connecting to Neo4j: {uri}")
+        try:
+            # Low-level driver for constraint management and transactional writes
+            logger.substep("Creating driver")
+            self.driver: Driver = GraphDatabase.driver(uri, auth=(user, password))
+            self.driver.verify_connectivity()
+            logger.substep("Driver connectivity verified")
+            # LangChain wrapper for GraphCypherQAChain and graph operations
+            logger.substep("Initializing Neo4jGraph wrapper")
+            self.graph: Neo4jGraph = Neo4jGraph(
+                url=uri,
+                username=user,
+                password=password,
+                database=self.database
+            )
+            logger.info(f"Connected to Neo4j database: {self.database}")
+        except ServiceUnavailable as e:
+            logger.error(f"Service unavailable: {e}")
+            raise Neo4jConnectionError(
+                f"Could not connect to Neo4j at {uri}. "
+                f"Ensure the URI is correct and the database is running. "
+                f"Error: {e}"
+            ) from e
+        except AuthError as e:
+            logger.error(f"Authentication failed: {e}")
+            raise Neo4jConnectionError(
+                f"Authentication failed for Neo4j. "
+                f"Check username and password. Error: {e}"
+            ) from e
+        except Exception as e:
+            logger.error(f"Connection failed: {e}")
+            raise Neo4jConnectionError(
+                f"Failed to connect to Neo4j: {e}"
+            ) from e
+        self._parser = ProjectReportParser()
+    def close(self) -> None:
+        """Close the underlying Neo4j driver."""
+        logger.debug("Closing Neo4j driver")
+        try:
+            self.driver.close()
+            logger.debug("Neo4j driver closed")
+        except Exception as e:
+            logger.warning(f"Error closing driver: {e}")
+    def ensure_constraints(self) -> None:
+        """Create constraints for the structured layer.
+        Notes:
+            Some Aura tiers or policies may restrict certain DDL operations.
+            Failures are logged but swallowed to keep ingestion operational.
+        """
+        with log_step(logger, "Create database constraints"):
+            success_count = 0
+            with self.driver.session(database=self.database) as session:
+                for stmt in self.CONSTRAINTS:
+                    try:
+                        session.run(stmt)
+                        success_count += 1
+                    except Exception as e:
+                        logger.debug(f"Constraint skipped: {e}")
+            logger.info(f"Constraints created: {success_count}/{len(self.CONSTRAINTS)}")
+        # Also create performance indexes
+        self.ensure_indexes()
+    def ensure_indexes(self) -> None:
+        """Create performance indexes for faster queries.
+        Creates indexes on frequently queried properties and
+        optionally a full-text index for semantic search.
+        """
+        with log_step(logger, "Create performance indexes"):
+            success_count = 0
+            with self.driver.session(database=self.database) as session:
+                for stmt in self.INDEXES:
+                    try:
+                        session.run(stmt)
+                        success_count += 1
+                    except Exception as e:
+                        logger.debug(f"Index skipped: {e}")
+                # Try to create full-text index (may not be available on all tiers)
+                try:
+                    session.run(self.FULLTEXT_INDEX)
+                    logger.substep("Full-text index created")
+                except Exception as e:
+                    logger.debug(f"Full-text index skipped: {e}")
+            logger.info(f"Indexes created: {success_count}/{len(self.INDEXES)}")
+    def get_statistics(self) -> Dict[str, Any]:
+        """Get database statistics for monitoring.
+        Returns:
+            Dictionary with node/relationship counts and other stats.
+        """
+        stats: Dict[str, Any] = {}
+        queries = {
+            "node_count": "MATCH (n) RETURN count(n) AS count",
+            "relationship_count": "MATCH ()-[r]->() RETURN count(r) AS count",
+            "project_count": "MATCH (p:Project) RETURN count(p) AS count",
+            "chunk_count": "MATCH (c:Chunk) RETURN count(c) AS count",
+            "entity_count": "MATCH (e) WHERE NOT e:Chunk AND NOT e:Project RETURN count(e) AS count",
+        }
+        for name, query in queries.items():
+            try:
+                result = self.graph.query(query)
+                stats[name] = result[0]["count"] if result else 0
+            except Exception:
+                stats[name] = -1
+        return stats
+    def clear(self) -> None:
+        """Delete all nodes and relationships from the database."""
+        logger.info("Clearing all nodes and relationships from database")
+        self.graph.query("MATCH (n) DETACH DELETE n")
+        logger.info("Database cleared")
+    def upsert_structured_project(
+        self,
+        record: ProjectRecord
+    ) -> Dict[str, Any]:
+        """Upsert structured nodes/relationships for a single project record.
+        This function is the reliability backbone for:
+            - Budget allocation & location questions
+            - Timeline comparison questions
+            - Challenges questions (derived from reason/details/schedule heuristics)
+        Args:
+            record: Parsed ProjectRecord.
+        Returns:
+            Dictionary with {"projectId": ..., "name": ...}.
+        """
+        project_name = record.project_name or record.source
+        logger.debug(f"Upserting project: {project_name}")
+        project_key = record.get_unique_key()
+        loc_key = f"{project_key}::loc"
+        bud_key = f"{project_key}::tiv"
+        rep_key = f"{project_key}::report::{record.last_update or ''}"
+        # Parse geographic components
+        geo = self._parser.parse_city_state_country(record.city_state_line)
+        # Derive challenges and milestones
+        challenges = self._parser.derive_challenges(record)
+        milestones = self._parser.extract_milestones(record.schedule_text)
+        milestone_dicts = [m.to_dict() for m in milestones]
+        logger.substep(f"Extracted {len(challenges)} challenges, {len(milestones)} milestones")
+        if milestones:
+            for ms in milestones:
+                logger.substep(f"  Milestone: {ms.name} -> {ms.date_text}")
+        else:
+            logger.warning(f"No milestones extracted from schedule_text: {record.schedule_text[:100] if record.schedule_text else 'None'}...")
+        params = {
+            # Identification
+            "source": record.source,
+            "project_id": record.project_id or record.project_name or record.source,
+            "project_name": record.project_name or record.source,
+            # Classification
+            "industry_code": record.industry_code,
+            "project_type": record.project_type,
+            "sector": record.sector,
+            "sic_code": record.sic_code,
+            # Financial
+            "bud_key": bud_key,
+            "tiv_amount": record.tiv_amount,
+            "tiv_currency": record.tiv_currency,
+            # Status
+            "status": record.status,
+            "status_reason": record.status_reason,
+            "project_probability": record.project_probability,
+            # Timeline
+            "last_update": record.last_update,
+            "initial_release": record.initial_release,
+            "pec_timing": record.pec_timing,
+            "pec_activity": record.pec_activity,
+            # Location
+            "loc_key": loc_key,
+            "address": record.address,
+            "city": geo.city,
+            "state": geo.state,
+            "postal": geo.postal,
+            "country": geo.country,
+            "zone_county": record.zone_county,
+            "phone": record.phone,
+            # Plant Info
+            "plant_owner": record.plant_owner,
+            "plant_parent": record.plant_parent,
+            "plant_name": record.plant_name,
+            "plant_id": record.plant_id,
+            "unit_name": record.unit_name,
+            # Contacts
+            "project_manager": record.project_manager,
+            "project_manager_company": record.project_manager_company,
+            "project_manager_email": record.project_manager_email,
+            "engineer_company": record.engineer_company,
+            "ec_firm": record.ec_firm,
+            # Technical
+            "scope_text": record.scope_text,
+            "project_capacity": record.project_capacity,
+            "environmental": record.environmental,
+            "construction_labor": record.construction_labor,
+            "fuel_type": record.fuel_type,
+            # Report
+            "rep_key": rep_key,
+            # Derived
+            "challenges": challenges,
+            "milestones": milestone_dicts,
+        }
+        with self.driver.session(database=self.database) as session:
+            # Step 1: Upsert base project with all fields
+            base_query = """
+            MERGE (p:Project {projectId: $project_id})
+              ON CREATE SET p.name = $project_name
+              ON MATCH SET p.name = coalesce(p.name, $project_name)
+            SET p.source = $source,
+                // Classification
+                p.industryCode = $industry_code,
+                p.projectType = $project_type,
+                p.sector = $sector,
+                p.sicCode = $sic_code,
+                // Status
+                p.status = $status,
+                p.statusReason = $status_reason,
+                p.projectProbability = $project_probability,
+                // Timeline
+                p.lastUpdate = $last_update,
+                p.initialRelease = $initial_release,
+                p.pecTiming = $pec_timing,
+                p.pecActivity = $pec_activity,
+                // Plant Info
+                p.plantOwner = $plant_owner,
+                p.plantParent = $plant_parent,
+                p.plantName = $plant_name,
+                p.plantId = $plant_id,
+                p.unitName = $unit_name,
+                p.phone = $phone,
+                // Contacts
+                p.projectManager = $project_manager,
+                p.projectManagerCompany = $project_manager_company,
+                p.projectManagerEmail = $project_manager_email,
+                p.engineerCompany = $engineer_company,
+                p.ecFirm = $ec_firm,
+                // Technical
+                p.scopeText = $scope_text,
+                p.projectCapacity = $project_capacity,
+                p.environmental = $environmental,
+                p.constructionLabor = $construction_labor,
+                p.fuelType = $fuel_type
+            WITH p
+            MERGE (b:Budget {key: $bud_key})
+            SET b.amount = $tiv_amount, b.currency = $tiv_currency, b.kind = 'TIV', b.source = $source
+            MERGE (p)-[:HAS_BUDGET]->(b)
+            WITH p
+            MERGE (l:Location {key: $loc_key})
+            SET l.address = $address, l.city = $city, l.state = $state,
+                l.postal = $postal, l.country = $country, l.zoneCounty = $zone_county, l.source = $source
+            MERGE (p)-[:LOCATED_IN]->(l)
+            WITH p
+            MERGE (r:Report {key: $rep_key})
+            SET r.source = $source, r.lastUpdate = $last_update, r.initialRelease = $initial_release
+            MERGE (p)-[:HAS_REPORT]->(r)
+            RETURN p.projectId AS projectId, p.name AS name
+            """
+            logger.substep("Executing base project upsert")
+            row = session.run(base_query, params).single()
+            if row is None:
+                logger.warning("Base project upsert returned no result")
+                return {"projectId": params["project_id"], "name": params["project_name"]}
+            project_id = row["projectId"]
+            project_name = row["name"]
+            logger.substep(f"Project created: {project_name}")
+            # Step 2: Add challenges (separate query)
+            if challenges:
+                for i, ch in enumerate(challenges):
+                    ch_query = """
+                    MATCH (p:Project {projectId: $project_id})
+                    MERGE (c:Challenge {key: $ch_key})
+                    SET c.text = $ch_text, c.source = $source
+                    MERGE (p)-[:HAS_CHALLENGE]->(c)
+                    """
+                    session.run(ch_query, {
+                        "project_id": project_id,
+                        "ch_key": f"{project_id}::ch::{i}",
+                        "ch_text": ch,
+                        "source": record.source
+                    })
+                logger.substep(f"Added {len(challenges)} challenges")
+            # Step 3: Add milestones (separate query)
+            if milestone_dicts:
+                for i, ms in enumerate(milestone_dicts):
+                    ms_query = """
+                    MATCH (p:Project {projectId: $project_id})
+                    MERGE (m:Milestone {key: $ms_key})
+                    SET m.name = $ms_name, m.dateText = $ms_date, m.sentence = $ms_sentence, m.source = $source
+                    MERGE (p)-[:HAS_MILESTONE]->(m)
+                    """
+                    session.run(ms_query, {
+                        "project_id": project_id,
+                        "ms_key": f"{project_id}::ms::{i}",
+                        "ms_name": ms.get("name", ""),
+                        "ms_date": ms.get("dateText", ""),
+                        "ms_sentence": ms.get("sentence", ""),
+                        "source": record.source
+                    })
+                logger.substep(f"Added {len(milestone_dicts)} milestones")
+            return {"projectId": project_id, "name": project_name}
+    def query(self, cypher: str, params: Optional[Dict[str, Any]] = None) -> List[Dict[str, Any]]:
+        """Execute a Cypher query and return results.
+        Args:
+            cypher: Cypher query string.
+            params: Optional query parameters.
+        Returns:
+            List of result dictionaries.
+        """
+        return self.graph.query(cypher, params or {})
+    def __enter__(self) -> "Neo4jService":
+        """Context manager entry."""
+        return self
+    def __exit__(self, exc_type, exc_val, exc_tb) -> None:
+        """Context manager exit with cleanup."""
+        self.close()

src/services/reranker.py ADDED Viewed

	@@ -0,0 +1,254 @@

+"""Cross-encoder reranker for document retrieval."""
+from __future__ import annotations
+from typing import Any, Dict, List, Optional, Tuple
+import logging
+from langchain.schema import Document
+logger = logging.getLogger(__name__)
+# Lazy import to avoid loading model at import time
+_cross_encoder = None
+_cross_encoder_model_name = None
+def _get_cross_encoder(model_name: str = "cross-encoder/ms-marco-MiniLM-L-6-v2"):
+    """Lazy load the cross-encoder model.
+    Args:
+        model_name: HuggingFace model identifier
+    Returns:
+        CrossEncoder instance
+    """
+    global _cross_encoder, _cross_encoder_model_name
+    if _cross_encoder is None or _cross_encoder_model_name != model_name:
+        try:
+            from sentence_transformers import CrossEncoder
+            logger.info(f"Loading cross-encoder model: {model_name}")
+            _cross_encoder = CrossEncoder(model_name, max_length=512)
+            _cross_encoder_model_name = model_name
+        except ImportError:
+            logger.warning(
+                "sentence-transformers not installed. "
+                "Run: pip install sentence-transformers"
+            )
+            return None
+        except Exception as e:
+            logger.warning(f"Failed to load cross-encoder: {e}")
+            return None
+    return _cross_encoder
+class FastCrossEncoderReranker:
+    """Cross-encoder reranker using sentence-transformers.
+    Runs locally and is faster than LLM-based reranking.
+    """
+    MODEL_OPTIONS = {
+        "fast": "cross-encoder/ms-marco-MiniLM-L-6-v2",
+        "balanced": "cross-encoder/ms-marco-MiniLM-L-12-v2",
+        "tiny": "cross-encoder/ms-marco-TinyBERT-L-2-v2",
+    }
+    def __init__(
+        self,
+        model_name: str = "fast",
+        max_length: int = 512,
+        batch_size: int = 16,
+    ) -> None:
+        """Initialize cross-encoder reranker.
+        Args:
+            model_name: One of "fast", "balanced", "tiny", or a HuggingFace model ID
+            max_length: Maximum sequence length for encoding
+            batch_size: Batch size for scoring (higher = faster but more memory)
+        """
+        # Resolve model name alias
+        self.model_name = self.MODEL_OPTIONS.get(model_name, model_name)
+        self.max_length = max_length
+        self.batch_size = batch_size
+        self._model = None
+    def _ensure_model(self) -> bool:
+        """Ensure model is loaded.
+        Returns:
+            True if model is available, False otherwise
+        """
+        if self._model is None:
+            self._model = _get_cross_encoder(self.model_name)
+        return self._model is not None
+    def rerank(
+        self,
+        query: str,
+        documents: List[Document],
+        top_k: int = 6,
+    ) -> List[Document]:
+        """Rerank documents by relevance to query.
+        Args:
+            query: User query
+            documents: Documents to rerank
+            top_k: Number of top documents to return
+        Returns:
+            Reranked documents (most relevant first)
+        """
+        if not documents:
+            return []
+        if len(documents) <= 1:
+            return documents
+        if not self._ensure_model():
+            logger.warning("Cross-encoder not available, returning original order")
+            return documents[:top_k]
+        try:
+            # Prepare query-document pairs
+            pairs = [
+                (query, self._get_text(doc)[:self.max_length])
+                for doc in documents
+            ]
+            # Score all pairs (batched for efficiency)
+            scores = self._model.predict(
+                pairs,
+                batch_size=self.batch_size,
+                show_progress_bar=False,
+            )
+            # Sort by score descending
+            scored_docs = sorted(
+                zip(documents, scores),
+                key=lambda x: x[1],
+                reverse=True,
+            )
+            return [doc for doc, _ in scored_docs[:top_k]]
+        except Exception as e:
+            logger.warning(f"Reranking failed: {e}, returning original order")
+            return documents[:top_k]
+    def rerank_with_scores(
+        self,
+        query: str,
+        documents: List[Document],
+        top_k: int = 6,
+    ) -> List[Tuple[Document, float]]:
+        """Rerank documents and return with scores.
+        Args:
+            query: User query
+            documents: Documents to rerank
+            top_k: Number of top documents to return
+        Returns:
+            List of (document, score) tuples, sorted by score descending
+        """
+        if not documents:
+            return []
+        if len(documents) <= 1:
+            return [(doc, 1.0) for doc in documents]
+        if not self._ensure_model():
+            return [(doc, 1.0 - i * 0.1) for i, doc in enumerate(documents[:top_k])]
+        try:
+            pairs = [
+                (query, self._get_text(doc)[:self.max_length])
+                for doc in documents
+            ]
+            scores = self._model.predict(
+                pairs,
+                batch_size=self.batch_size,
+                show_progress_bar=False,
+            )
+            scored_docs = sorted(
+                zip(documents, scores),
+                key=lambda x: x[1],
+                reverse=True,
+            )
+            return scored_docs[:top_k]
+        except Exception as e:
+            logger.warning(f"Reranking failed: {e}")
+            return [(doc, 1.0 - i * 0.1) for i, doc in enumerate(documents[:top_k])]
+    def _get_text(self, doc: Document) -> str:
+        """Extract text content from document.
+        Args:
+            doc: LangChain Document
+        Returns:
+            Text content
+        """
+        if hasattr(doc, 'page_content'):
+            return doc.page_content
+        return str(doc)
+class NoOpReranker:
+    """No-op reranker that returns documents in original order.
+    Use this as a fallback when cross-encoder is not available.
+    """
+    def rerank(
+        self,
+        query: str,
+        documents: List[Document],
+        top_k: int = 6,
+    ) -> List[Document]:
+        """Return documents without reranking."""
+        return documents[:top_k]
+    def rerank_with_scores(
+        self,
+        query: str,
+        documents: List[Document],
+        top_k: int = 6,
+    ) -> List[Tuple[Document, float]]:
+        """Return documents with dummy scores."""
+        return [(doc, 1.0 - i * 0.05) for i, doc in enumerate(documents[:top_k])]
+def get_reranker(
+    model_name: str = "fast",
+    fallback_to_noop: bool = True,
+) -> FastCrossEncoderReranker:
+    """Factory function to get a reranker instance.
+    Args:
+        model_name: Model name or alias
+        fallback_to_noop: If True, return NoOpReranker when cross-encoder fails
+    Returns:
+        Reranker instance
+    """
+    try:
+        reranker = FastCrossEncoderReranker(model_name)
+        # Test model loading
+        if reranker._ensure_model():
+            return reranker
+    except Exception as e:
+        logger.warning(f"Failed to create cross-encoder reranker: {e}")
+    if fallback_to_noop:
+        logger.info("Using no-op reranker as fallback")
+        return NoOpReranker()
+    raise RuntimeError("Cross-encoder reranker not available")

src/services/retriever.py ADDED Viewed

	@@ -0,0 +1,177 @@

+"""Optimized retriever with pattern-based expansion and cross-encoder reranking."""
+from __future__ import annotations
+import hashlib
+import re
+from typing import Any, Dict, List, Optional, Tuple
+from langchain.schema import Document
+from src.config import get_logger, log_step
+logger = get_logger(__name__)
+class OptimizedRetriever:
+    """Fast retriever without LLM calls for expansion/reranking.
+    Uses pattern-based query expansion and cross-encoder reranking
+    instead of LLM calls for faster retrieval.
+    """
+    EXPANSION_PATTERNS = {
+        "budget": ["cost", "investment", "TIV", "capex", "funding", "allocation", "financial"],
+        "location": ["site", "address", "city", "country", "region", "plant", "facility"],
+        "timeline": ["schedule", "milestone", "deadline", "completion", "duration", "phase"],
+        "challenge": ["risk", "issue", "constraint", "problem", "delay", "obstacle", "barrier"],
+        "project": ["plant", "facility", "refinery", "station", "development"],
+        "status": ["progress", "state", "condition", "update"],
+    }
+    def __init__(
+        self,
+        vector_store: Any,
+        reranker: Optional[Any] = None,
+        k_initial: int = 12,
+        k_final: int = 6,
+        use_expansion: bool = True,
+        use_reranking: bool = True,
+        use_cache: bool = True,
+    ) -> None:
+        self.vector_store = vector_store
+        self.k_initial = k_initial
+        self.k_final = k_final
+        self.use_expansion = use_expansion
+        self.use_reranking = use_reranking
+        self.use_cache = use_cache
+        self._cache: Dict[str, List[Document]] = {}
+        self._reranker = reranker
+        self._reranker_loaded = reranker is not None
+    def _get_reranker(self) -> Optional[Any]:
+        if self._reranker_loaded:
+            return self._reranker
+        try:
+            from src.services.reranker import get_reranker
+            self._reranker = get_reranker("fast")
+            self._reranker_loaded = True
+            logger.info("Loaded cross-encoder reranker")
+        except Exception as e:
+            logger.warning(f"Could not load reranker: {e}")
+            self._reranker = None
+            self._reranker_loaded = True
+        return self._reranker
+    def _cache_key(self, query: str) -> str:
+        return hashlib.md5(query.lower().strip().encode()).hexdigest()
+    def _expand_query_fast(self, query: str) -> List[str]:
+        queries = [query]
+        query_lower = query.lower()
+        for keyword, expansions in self.EXPANSION_PATTERNS.items():
+            if keyword in query_lower:
+                for exp in expansions[:2]:
+                    if exp.lower() not in query_lower:
+                        variation = re.sub(
+                            rf'\b{keyword}\b',
+                            exp,
+                            query,
+                            flags=re.IGNORECASE
+                        )
+                        if variation != query and variation not in queries:
+                            queries.append(variation)
+                break
+        return queries[:3]
+    def _reciprocal_rank_fusion(
+        self,
+        result_lists: List[List[Tuple[Document, float]]],
+        k: int = 60,
+    ) -> List[Document]:
+        doc_scores: Dict[str, Dict[str, Any]] = {}
+        for results in result_lists:
+            for rank, (doc, _) in enumerate(results):
+                doc_id = hashlib.md5(doc.page_content[:200].encode()).hexdigest()
+                if doc_id not in doc_scores:
+                    doc_scores[doc_id] = {"doc": doc, "score": 0}
+                doc_scores[doc_id]["score"] += 1.0 / (k + rank + 1)
+        sorted_items = sorted(
+            doc_scores.values(),
+            key=lambda x: x["score"],
+            reverse=True,
+        )
+        return [item["doc"] for item in sorted_items]
+    def retrieve(self, question: str) -> List[Document]:
+        with log_step(logger, "Optimized retrieval"):
+            if self.use_cache:
+                cache_key = self._cache_key(question)
+                if cache_key in self._cache:
+                    logger.info("Cache hit - returning cached results")
+                    return self._cache[cache_key]
+            if self.use_expansion:
+                queries = self._expand_query_fast(question)
+                logger.substep(f"Expanded to {len(queries)} queries")
+            else:
+                queries = [question]
+            all_results: List[List[Tuple[Document, float]]] = []
+            for i, query in enumerate(queries):
+                try:
+                    if hasattr(self.vector_store, 'similarity_search_with_score'):
+                        results = self.vector_store.similarity_search_with_score(
+                            query, k=self.k_initial
+                        )
+                    else:
+                        docs = self.vector_store.similarity_search(
+                            query, k=self.k_initial
+                        )
+                        results = [(doc, 1.0 - j * 0.01) for j, doc in enumerate(docs)]
+                    all_results.append(results)
+                except Exception as e:
+                    logger.warning(f"Query {i+1} failed: {e}")
+            if not all_results:
+                logger.warning("No results from any query")
+                return []
+            if len(all_results) > 1:
+                fused_docs = self._reciprocal_rank_fusion(all_results)
+            else:
+                fused_docs = [doc for doc, _ in all_results[0]]
+            fused_docs = fused_docs[:self.k_initial]
+            logger.substep(f"Fused to {len(fused_docs)} documents")
+            if self.use_reranking and len(fused_docs) > self.k_final:
+                reranker = self._get_reranker()
+                if reranker:
+                    with log_step(logger, "Cross-encoder reranking"):
+                        fused_docs = reranker.rerank(question, fused_docs, self.k_final)
+            final_docs = fused_docs[:self.k_final]
+            if self.use_cache:
+                self._cache[cache_key] = final_docs
+            logger.info(f"Returning {len(final_docs)} documents")
+            return final_docs
+    def clear_cache(self) -> None:
+        self._cache.clear()
+    def get_cache_stats(self) -> Dict[str, int]:
+        return {"cached_queries": len(self._cache)}

src/ui/__init__.py ADDED Viewed

	@@ -0,0 +1,5 @@

+"""User interface components."""
+from src.ui.gradio_app import GradioApp
+__all__ = ["GradioApp"]

src/ui/gradio_app.py ADDED Viewed

	@@ -0,0 +1,301 @@

+"""Gradio web interface for Project Intelligence Hub."""
+from __future__ import annotations
+from typing import Any, List
+import gradio as gr
+from src.config.settings import Settings, Neo4jConfig, TogetherAIConfig
+from src.models.state import AppState
+from src.services.builder import GraphRAGBuilder
+from src.services.answerer import QueryAnswerer
+from src.services.neo4j_service import Neo4jService, Neo4jConnectionError
+class GradioApp:
+    """Gradio controller for ingestion and query-time interactions."""
+    TITLE = "Project Intelligence Hub"
+    DESCRIPTION = """
+# Project Intelligence Hub
+Transform unstructured PDF reports into a queryable knowledge graph.
+1. **Ingest** — Upload documents to extract entities and relationships
+2. **Index** — Build vector embeddings and graph structure
+3. **Query** — Retrieve answers via hybrid graph + semantic search
+"""
+    GRAPH_EXPLORER_QUERIES = {
+        "node_labels": """
+            CALL db.labels() YIELD label
+            CALL { WITH label MATCH (n) WHERE label IN labels(n) RETURN count(n) AS cnt }
+            RETURN label, cnt ORDER BY cnt DESC
+        """,
+        "relationship_types": """
+            CALL db.relationshipTypes() YIELD relationshipType
+            CALL { WITH relationshipType MATCH ()-[r]->() WHERE type(r) = relationshipType RETURN count(r) AS cnt }
+            RETURN relationshipType, cnt ORDER BY cnt DESC
+        """,
+        "sample_projects": """
+            MATCH (p:Project)
+            OPTIONAL MATCH (p)-[:HAS_BUDGET]->(b:Budget)
+            OPTIONAL MATCH (p)-[:LOCATED_IN]->(l:Location)
+            RETURN p.name AS project, b.amount AS budget, b.currency AS currency,
+                   l.city AS city, l.country AS country
+            LIMIT 10
+        """,
+    }
+    def __init__(self, settings: Settings | None = None) -> None:
+        self.settings = settings or Settings.from_env()
+        self.answerer = QueryAnswerer()
+        self._validate_settings()
+    def _validate_settings(self) -> None:
+        issues = []
+        if not self.settings.together_ai.api_key:
+            issues.append("TOGETHER_API_KEY not set in .env")
+        if not self.settings.neo4j.uri:
+            issues.append("NEO4J_URI not set in .env")
+        if not self.settings.neo4j.password:
+            issues.append("NEO4J_PASSWORD not set in .env")
+        if issues:
+            print("Configuration warnings:")
+            for issue in issues:
+                print(f"  - {issue}")
+    def _ingest_action(self, pdf_files: List[Any], clear_db: str):
+        clear_db_bool = clear_db == "Yes"
+        if not pdf_files:
+            yield "No documents provided. Upload at least one PDF.", gr.update(value=0, visible=True), None
+            return
+        if not self.settings.together_ai.api_key:
+            yield "Missing API credentials: TOGETHER_API_KEY", gr.update(value=0, visible=True), None
+            return
+        if not self.settings.neo4j.uri or not self.settings.neo4j.password:
+            yield "Missing database credentials: NEO4J_URI or NEO4J_PASSWORD", gr.update(value=0, visible=True), None
+            return
+        together_config = TogetherAIConfig(
+            api_key=self.settings.together_ai.api_key,
+            chat_model=self.settings.together_ai.chat_model,
+            embedding_model=self.settings.together_ai.embedding_model,
+        )
+        neo4j_config = Neo4jConfig(
+            uri=self.settings.neo4j.uri,
+            username=self.settings.neo4j.username,
+            password=self.settings.neo4j.password,
+            database=self.settings.neo4j.database,
+        )
+        try:
+            builder = GraphRAGBuilder(together_config=together_config)
+            final_state = None
+            for status, progress, state in builder.ingest_with_progress(
+                pdf_files=pdf_files,
+                neo4j_config=neo4j_config,
+                clear_db=clear_db_bool,
+                skip_llm_extraction=True,
+            ):
+                yield status, gr.update(value=progress, visible=True), state
+                if state is not None:
+                    final_state = state
+            if final_state:
+                yield "Pipeline complete. Ready for queries.", gr.update(value=1.0, visible=False), final_state
+        except ValueError as e:
+            yield f"Configuration error: {e}", gr.update(value=0, visible=True), None
+        except Exception as e:
+            import traceback
+            traceback.print_exc()
+            yield f"Pipeline failed: {e}", gr.update(value=0, visible=True), None
+    def _clear_action(self) -> str:
+        if not self.settings.neo4j.uri or not self.settings.neo4j.password:
+            return "Database credentials not configured."
+        try:
+            with Neo4jService(
+                uri=self.settings.neo4j.uri,
+                user=self.settings.neo4j.username,
+                password=self.settings.neo4j.password,
+                database=self.settings.neo4j.database,
+            ) as neo4j:
+                neo4j.clear()
+                return "Graph database cleared. All nodes and relationships removed."
+        except Neo4jConnectionError as e:
+            return f"Connection error: {e}"
+        except Exception as e:
+            return f"Operation failed: {e}"
+    def _ask_action(self, question: str, state: AppState) -> str:
+        return self.answerer.answer(question, state)
+    def _explore_graph_action(self) -> str:
+        if not self.settings.neo4j.uri or not self.settings.neo4j.password:
+            return "Database credentials not configured."
+        try:
+            with Neo4jService(
+                uri=self.settings.neo4j.uri,
+                user=self.settings.neo4j.username,
+                password=self.settings.neo4j.password,
+                database=self.settings.neo4j.database,
+            ) as neo4j:
+                output = []
+                # Node counts by label
+                output.append("### Node Distribution\n")
+                output.append("| Label | Count |")
+                output.append("|-------|-------|")
+                try:
+                    results = neo4j.query(self.GRAPH_EXPLORER_QUERIES["node_labels"])
+                    for row in results:
+                        output.append(f"| {row['label']} | {row['cnt']:,} |")
+                except Exception:
+                    output.append("| (unable to fetch) | - |")
+                # Relationship counts
+                output.append("\n### Relationship Distribution\n")
+                output.append("| Type | Count |")
+                output.append("|------|-------|")
+                try:
+                    results = neo4j.query(self.GRAPH_EXPLORER_QUERIES["relationship_types"])
+                    for row in results:
+                        output.append(f"| {row['relationshipType']} | {row['cnt']:,} |")
+                except Exception:
+                    output.append("| (unable to fetch) | - |")
+                # Sample projects
+                output.append("\n### Sample Projects\n")
+                output.append("| Project | Budget | Location |")
+                output.append("|---------|--------|----------|")
+                try:
+                    results = neo4j.query(self.GRAPH_EXPLORER_QUERIES["sample_projects"])
+                    if not results:
+                        output.append("| (no projects found) | - | - |")
+                    for row in results:
+                        name = row.get('project') or '-'
+                        budget = f"{row.get('budget') or '-'} {row.get('currency') or ''}".strip()
+                        location = f"{row.get('city') or ''}, {row.get('country') or ''}".strip(", ")
+                        output.append(f"| {name} | {budget} | {location or '-'} |")
+                except Exception:
+                    output.append("| (unable to fetch) | - | - |")
+                return "\n".join(output)
+        except Neo4jConnectionError as e:
+            return f"Connection error: {e}"
+        except Exception as e:
+            return f"Failed to fetch graph data: {e}"
+    def build(self) -> gr.Blocks:
+        with gr.Blocks(title=self.TITLE) as demo:
+            gr.Markdown(self.DESCRIPTION)
+            state = gr.State(value=None)
+            with gr.Group():
+                pdfs = gr.File(
+                    label="Document Source",
+                    file_types=[".pdf"],
+                    file_count="multiple",
+                )
+                with gr.Row():
+                    clear_toggle = gr.Radio(
+                        label="Reset graph before ingestion",
+                        choices=["Yes", "No"],
+                        value="Yes",
+                        scale=1,
+                    )
+                with gr.Row():
+                    ingest_btn = gr.Button("Run Ingestion Pipeline", variant="primary", scale=2)
+                    clear_btn = gr.Button("Reset Graph", variant="secondary", scale=1)
+                progress_bar = gr.Slider(
+                    label="Progress",
+                    minimum=0,
+                    maximum=1,
+                    value=0,
+                    interactive=False,
+                    visible=False,
+                )
+                ingest_status = gr.Markdown()
+            gr.Markdown("---")
+            with gr.Group():
+                gr.Markdown("### Query Interface")
+                question = gr.Textbox(
+                    label="Natural Language Query",
+                    placeholder="e.g., Compare budget allocations and milestone timelines across projects",
+                    lines=2,
+                )
+                ask_btn = gr.Button("Execute Query", variant="primary")
+                answer = gr.Markdown(label="Response")
+            with gr.Accordion("Graph Explorer", open=False):
+                gr.Markdown("View database contents without direct access to credentials.")
+                explore_btn = gr.Button("Load Graph Statistics", variant="secondary")
+                graph_stats = gr.Markdown()
+            with gr.Accordion("System Configuration", open=False):
+                gr.Markdown(self._get_config_status())
+            ingest_btn.click(
+                fn=self._ingest_action,
+                inputs=[pdfs, clear_toggle],
+                outputs=[ingest_status, progress_bar, state],
+            )
+            clear_btn.click(
+                fn=self._clear_action,
+                inputs=[],
+                outputs=[ingest_status],
+            )
+            ask_btn.click(
+                fn=self._ask_action,
+                inputs=[question, state],
+                outputs=[answer],
+            )
+            explore_btn.click(
+                fn=self._explore_graph_action,
+                inputs=[],
+                outputs=[graph_stats],
+            )
+        return demo
+    def _get_config_status(self) -> str:
+        def status(value: str) -> str:
+            return "Connected" if value else "Not configured"
+        return f"""
+| Component | Status |
+|-----------|--------|
+| LLM Provider (Together AI) | {status(self.settings.together_ai.api_key)} |
+| Graph Database (Neo4j) | {status(self.settings.neo4j.uri)} |
+"""
+    def launch(self, **kwargs) -> None:
+        demo = self.build()
+        demo.launch(
+            server_name=kwargs.get("server_name", self.settings.app.host),
+            server_port=kwargs.get("server_port", self.settings.app.port),
+            theme=gr.themes.Soft(),
+            **{k: v for k, v in kwargs.items() if k not in ("server_name", "server_port")},
+        )