Spaces:

khagu
/

setu

Running

File size: 5,774 Bytes
"""
Main document processing pipeline
Orchestrates extraction, cleaning, and chunking of legal documents
"""

import logging
import time
from pathlib import Path
from typing import List

from .config import LAW_DIR, CHUNKS_OUTPUT_FILE, LOG_LEVEL, LOG_FORMAT
from .extractors import PDFExtractor
from .cleaners import TextCleaner
from .chunkers import LegalDocumentChunker
from .storage import ChunkStorage
from .models import DocumentChunk, ProcessingStats

# Configure logging
logging.basicConfig(level=LOG_LEVEL, format=LOG_FORMAT)
logger = logging.getLogger(__name__)


class DocumentProcessor:
    """Main pipeline for processing legal documents"""
    
    def __init__(self):
        """Initialize processor with all components"""
        self.extractor = PDFExtractor()
        self.cleaner = TextCleaner()
        self.chunker = LegalDocumentChunker()
        self.storage = ChunkStorage(CHUNKS_OUTPUT_FILE)
    
    def process_all_documents(self) -> ProcessingStats:
        """
        Process all PDF documents in the law directory
        
        Returns:
            Processing statistics
        """
        logger.info("=" * 80)
        logger.info("Starting document processing pipeline")
        logger.info("=" * 80)
        
        start_time = time.time()
        
        # Get all PDF files
        pdf_files = list(LAW_DIR.glob("*.pdf"))
        logger.info(f"Found {len(pdf_files)} PDF files to process")
        
        if not pdf_files:
            raise FileNotFoundError(f"No PDF files found in {LAW_DIR}")
        
        # Process each document
        all_chunks: List[DocumentChunk] = []
        total_words = 0
        
        for pdf_file in pdf_files:
            logger.info(f"\n{'=' * 80}")
            logger.info(f"Processing: {pdf_file.name}")
            logger.info(f"{'=' * 80}")
            
            try:
                chunks = self.process_single_document(pdf_file)
                all_chunks.extend(chunks)
                
                # Calculate words
                doc_words = sum(chunk.metadata.word_count for chunk in chunks)
                total_words += doc_words
                
                logger.info(f"✓ Created {len(chunks)} chunks ({doc_words} words) from {pdf_file.name}")
                
            except Exception as e:
                logger.error(f"✗ Failed to process {pdf_file.name}: {e}")
                continue
        
        # Calculate statistics
        processing_time = time.time() - start_time
        avg_chunk_size = total_words / len(all_chunks) if all_chunks else 0
        
        stats = ProcessingStats(
            total_documents=len(pdf_files),
            total_chunks=len(all_chunks),
            total_words=total_words,
            avg_chunk_size=avg_chunk_size,
            processing_time_seconds=processing_time,
            documents_processed=[f.name for f in pdf_files]
        )
        
        # Validate and save chunks
        logger.info(f"\n{'=' * 80}")
        logger.info("Validating and saving chunks...")
        logger.info(f"{'=' * 80}")
        
        self.storage.validate_chunks(all_chunks)
        self.storage.save_chunks(all_chunks, stats)
        
        # Print summary
        self._print_summary(stats)
        
        return stats
    
    def process_single_document(self, pdf_path: Path) -> List[DocumentChunk]:
        """
        Process a single PDF document
        
        Args:
            pdf_path: Path to PDF file
            
        Returns:
            List of chunks from this document
        """
        # Step 1: Extract text from PDF
        logger.info("Step 1: Extracting text from PDF...")
        pages_data = self.extractor.extract_from_file(pdf_path)
        
        if not pages_data:
            raise ValueError(f"No text extracted from {pdf_path.name}")
        
        # Step 2: Clean the text
        logger.info("Step 2: Cleaning extracted text...")
        cleaned_text = self.cleaner.clean_pages(pages_data)
        
        if not cleaned_text:
            raise ValueError(f"No text remaining after cleaning {pdf_path.name}")
        
        # Step 3: Chunk the text
        logger.info("Step 3: Chunking text into meaningful pieces...")
        chunks = self.chunker.chunk_document(
            text=cleaned_text,
            source_file=pdf_path.name,
            pages_data=pages_data
        )
        
        return chunks
    
    def _print_summary(self, stats: ProcessingStats):
        """Print processing summary"""
        logger.info(f"\n{'=' * 80}")
        logger.info("PROCESSING COMPLETE!")
        logger.info(f"{'=' * 80}")
        logger.info(f"Documents Processed: {stats.total_documents}")
        logger.info(f"Total Chunks Created: {stats.total_chunks}")
        logger.info(f"Total Words: {stats.total_words:,}")
        logger.info(f"Average Chunk Size: {stats.avg_chunk_size:.1f} words")
        logger.info(f"Processing Time: {stats.processing_time_seconds:.2f} seconds")
        logger.info(f"\nOutput saved to: {CHUNKS_OUTPUT_FILE}")
        logger.info(f"Summary saved to: {CHUNKS_OUTPUT_FILE.parent / 'chunks_summary.txt'}")
        logger.info(f"{'=' * 80}\n")


def main():
    """Main entry point"""
    try:
        processor = DocumentProcessor()
        stats = processor.process_all_documents()
        
        print("\n✓ Processing completed successfully!")
        print(f"✓ Created {stats.total_chunks} chunks from {stats.total_documents} documents")
        print(f"✓ Output: {CHUNKS_OUTPUT_FILE}")
        
    except Exception as e:
        logger.error(f"Processing failed: {e}", exc_info=True)
        print(f"\n✗ Processing failed: {e}")
        return 1
    
    return 0


if __name__ == "__main__":
    exit(main())