Spaces:

khagu
/

setu

Running

File size: 5,021 Bytes
"""
Storage module for saving and loading processed chunks
"""

import json
import logging
from pathlib import Path
from typing import List, Dict, Any

from .models import DocumentChunk, ProcessingStats

logger = logging.getLogger(__name__)


class ChunkStorage:
    """Handles saving and loading of document chunks"""
    
    def __init__(self, output_file: Path):
        """
        Initialize storage
        
        Args:
            output_file: Path to output JSON file
        """
        self.output_file = output_file
        self.output_file.parent.mkdir(parents=True, exist_ok=True)
    
    def save_chunks(
        self,
        chunks: List[DocumentChunk],
        stats: ProcessingStats = None
    ) -> None:
        """
        Save chunks to JSON file
        
        Args:
            chunks: List of DocumentChunk objects
            stats: Optional processing statistics
        """
        logger.info(f"Saving {len(chunks)} chunks to {self.output_file}")
        
        # Convert chunks to dictionaries
        chunks_data = [chunk.to_dict() for chunk in chunks]
        
        # Prepare output structure
        output = {
            'metadata': {
                'total_chunks': len(chunks),
                'version': '1.0',
            },
            'chunks': chunks_data
        }
        
        # Add stats if provided
        if stats:
            output['metadata']['processing_stats'] = stats.to_dict()
        
        # Save to file with pretty formatting
        with open(self.output_file, 'w', encoding='utf-8') as f:
            json.dump(output, f, indent=2, ensure_ascii=False)
        
        logger.info(f"Successfully saved chunks to {self.output_file}")
        
        # Also save a summary file
        self._save_summary(chunks, stats)
    
    def _save_summary(
        self,
        chunks: List[DocumentChunk],
        stats: ProcessingStats = None
    ) -> None:
        """Save a human-readable summary"""
        summary_file = self.output_file.parent / "chunks_summary.txt"
        
        with open(summary_file, 'w', encoding='utf-8') as f:
            f.write("=" * 80 + "\n")
            f.write("DOCUMENT CHUNKS SUMMARY\n")
            f.write("=" * 80 + "\n\n")
            
            if stats:
                f.write(f"Total Documents Processed: {stats.total_documents}\n")
                f.write(f"Total Chunks Created: {stats.total_chunks}\n")
                f.write(f"Total Words: {stats.total_words}\n")
                f.write(f"Average Chunk Size: {stats.avg_chunk_size:.1f} words\n")
                f.write(f"Processing Time: {stats.processing_time_seconds:.2f} seconds\n")
                f.write(f"\nDocuments:\n")
                for doc in stats.documents_processed:
                    f.write(f"  - {doc}\n")
                f.write("\n")
            
            f.write("-" * 80 + "\n")
            f.write("SAMPLE CHUNKS (First 5)\n")
            f.write("-" * 80 + "\n\n")
            
            for i, chunk in enumerate(chunks[:5], 1):
                f.write(f"Chunk {i}: {chunk.chunk_id}\n")
                f.write(f"Source: {chunk.metadata.source_file}\n")
                f.write(f"Section: {chunk.metadata.article_section or 'N/A'}\n")
                f.write(f"Words: {chunk.metadata.word_count}\n")
                f.write(f"Preview: {chunk.text[:200]}...\n")
                f.write("\n" + "-" * 80 + "\n\n")
        
        logger.info(f"Summary saved to {summary_file}")
    
    def load_chunks(self) -> List[DocumentChunk]:
        """
        Load chunks from JSON file
        
        Returns:
            List of DocumentChunk objects
        """
        logger.info(f"Loading chunks from {self.output_file}")
        
        if not self.output_file.exists():
            raise FileNotFoundError(f"Chunks file not found: {self.output_file}")
        
        with open(self.output_file, 'r', encoding='utf-8') as f:
            data = json.load(f)
        
        chunks = [DocumentChunk.from_dict(chunk_data) for chunk_data in data['chunks']]
        
        logger.info(f"Loaded {len(chunks)} chunks")
        
        return chunks
    
    def validate_chunks(self, chunks: List[DocumentChunk]) -> bool:
        """
        Validate chunks before saving
        
        Args:
            chunks: List of chunks to validate
            
        Returns:
            True if valid, raises exception otherwise
        """
        if not chunks:
            raise ValueError("No chunks to save")
        
        for i, chunk in enumerate(chunks):
            if not chunk.text or not chunk.text.strip():
                raise ValueError(f"Chunk {i} has empty text")
            
            if not chunk.chunk_id:
                raise ValueError(f"Chunk {i} has no ID")
            
            if chunk.metadata.word_count == 0:
                raise ValueError(f"Chunk {i} has zero word count")
        
        logger.info(f"Validated {len(chunks)} chunks successfully")
        return True