Spaces:

syedmohaiminulhoque
/

agentic-doc-sim-streamlit

Running

App Files Files Community

agentic-doc-sim-streamlit / PHASE2_IMPLEMENTATION.md

syedmohaiminulhoque

feat: Implement Phase 2 enhancements for multi-modal document comparison

b73db8b 27 days ago

preview code

raw

history blame contribute delete

8.78 kB

Phase 2 Implementation Summary

Overview

Successfully completed Phase 2 enhancements for the Agentic Multi-Modal Document Comparator project. The system now supports 5 distinct modalities for comprehensive document similarity analysis.

Completed Features

1. Image Agent (`src/agents/image_agent.py`)

Technology: OpenAI CLIP (clip-vit-base-patch32)
Capabilities:
- Extracts images from PDF (via PyMuPDF) and DOCX files
- Filters out small decorative images (< 50x50 pixels)
- Generates 512-dimensional semantic embeddings using CLIP
- Supports RGB image conversion for consistency
Similarity Scoring: Cosine similarity with 0.7 threshold for high-confidence matches

2. Layout Agent (`src/agents/layout_agent.py`)

Capabilities:
- Extracts document sections and hierarchical structure
- Detects headings using multiple patterns:
  - Markdown-style headings (## Heading)
  - ALL CAPS headings
  - Numbered sections (1., 1.1., etc.)
  - Roman numerals (I., II., etc.)
  - Chapter/Section keywords
- Builds hierarchical document tree
- Analyzes page layouts (lines, words, columns, table presence)
Similarity Scoring: Multi-metric comparison (sections count, hierarchy depth, page density)

3. Meta Agent (`src/agents/meta_agent.py`)

Capabilities:
- Extracts metadata from PDF and DOCX documents:
  - Title, Author, Subject
  - Keywords, Creator, Producer
  - Creation and modification dates
  - Page count
- Falls back to text-based title extraction if metadata unavailable
- Supports both PyMuPDF and pypdf for PDF metadata
Similarity Scoring: Field-by-field comparison with Jaccard similarity

4. Enhanced Orchestration

`src/orchestrator/similarity_orchestrator.py`

Updated to support all 5 modalities
Optional Phase 2 parameters (backward compatible)
Conditional scoring based on feature flags
Aggregates matched sections from all modalities

`src/orchestrator/batch_orchestrator.py` (NEW)

1-to-N Comparison: Compare one document against multiple candidates
M-to-N Comparison: Matrix comparison of multiple document sets
Duplicate Detection: Find potential duplicates with configurable threshold
Top-K Matching: Retrieve best matches above minimum score
Similarity Grouping: Group results by similarity level (high/medium/low)
Similarity Matrix: Generate numpy arrays for advanced analysis

5. Enhanced Scoring System (`src/orchestrator/scorers.py`)

Added three new scorer functions:

compute_image_similarity():
- CLIP embedding cosine similarity
- Returns matched image pairs with page locations and sizes
compute_layout_similarity():
- Compares section counts and hierarchy depth
- Analyzes section title textual similarity
- Evaluates page density and structure
compute_metadata_similarity():
- Field-by-field comparison with weighted importance
- Title and author have higher weights
- Jaccard similarity for text fields
- Ratio comparison for numerical fields (page count)

6. Data Models (`src/models/`)

`document.py` - New Classes:

ImageExtraction: PIL Image, page number, dimensions, format
LayoutExtraction: Sections, hierarchy tree, page layouts
MetadataExtraction: All standard document metadata fields
ProcessedDocument: Extended to include images, layout, and metadata

`similarity.py`:

SimilarityReport: Added optional fields for Phase 2 modalities

7. Configuration (`src/config.py`)

New settings:

# Phase 2 modality weights
MODALITY_WEIGHTS = {
    "text": 0.35,
    "table": 0.25,
    "image": 0.20,
    "layout": 0.10,
    "metadata": 0.10
}

# Feature flags
ENABLE_IMAGE_COMPARISON = True
ENABLE_LAYOUT_COMPARISON = True
ENABLE_METADATA_COMPARISON = True

# CLIP configuration
CLIP_MODEL = "openai/clip-vit-base-patch32"
CLIP_EMBEDDING_DIMENSION = 512

8. Streamlit UI (`src/streamlit_app.py`)

Enhanced features:

Phase 2 Toggle: Enable/disable Phase 2 modalities via checkbox
5-Modality Weight Sliders: Adjustable weights for all modalities
- Auto-normalization to sum to 1.0
Conditional Agent Import: Graceful degradation if dependencies missing
5-Column Metrics Display: Shows all modality scores
Phase 2 Expandable Sections:
- Image matches with page and size info
- Layout analysis metrics
- Metadata field comparisons
10 Top Matches (increased from 5): More comprehensive results display

9. Visualization Enhancements (`src/utils/visualization.py`)

create_modality_breakdown_chart(): Updated to show all 5 modalities
format_matched_sections(): Handles image and metadata match types
Added emoji indicators for each modality type

10. Documentation

`README.md`:

Updated features section to reflect Phase 2 completion
Enhanced system architecture description with 5 agents
Added API usage examples for batch comparison
Updated technical details with CLIP and all libraries
Added Phase 2 status section showing completed features
Enhanced configuration section with all modality weights

`requirements.txt`:

Added transformers>=4.36.0 for CLIP support

Architecture Improvements

Multi-Agent System

Input Layer → Ingestion → 5 Specialized Agents → Vector Store → Orchestrator → Output

5 Specialized Agents:

Text Agent: Chunking + sentence embeddings
Table Agent: Linearization + embeddings
Image Agent: CLIP visual embeddings
Layout Agent: Structure analysis
Meta Agent: Metadata extraction

Backward Compatibility

Phase 1-only mode supported via feature flags
Phase 1 weight configuration available (MODALITY_WEIGHTS_PHASE1)
Graceful degradation if CLIP/transformers not installed

File Summary

New Files Created:

src/agents/image_agent.py (206 lines)
src/agents/layout_agent.py (283 lines)
src/agents/meta_agent.py (274 lines)
src/orchestrator/batch_orchestrator.py (228 lines)

Modified Files:

src/models/document.py - Added 3 new classes, updated RawDocument and ProcessedDocument
src/models/similarity.py - Added Phase 2 optional fields
src/orchestrator/similarity_orchestrator.py - Phase 2 parameter support
src/orchestrator/scorers.py - Added 3 new scoring functions + helpers
src/config.py - Phase 2 configuration
src/streamlit_app.py - Full Phase 2 UI integration
src/utils/visualization.py - Enhanced for all modalities
src/agents/ingestion_agent.py - Added metadata field
requirements.txt - Added transformers
README.md - Complete Phase 2 documentation

Testing Recommendations

Unit Tests Needed:

Image agent: Test extraction from PDFs/DOCX
Layout agent: Test heading detection patterns
Meta agent: Test metadata extraction
Scorers: Test each similarity function
Batch orchestrator: Test 1-to-N and duplicate detection

Integration Tests Needed:

End-to-end comparison with Phase 2 enabled
Backward compatibility (Phase 1 only mode)
Graceful degradation (missing dependencies)

Example Test Documents:

PDF with images, tables, and metadata
DOCX with images and structured headings
Documents with varying layouts
Documents with rich metadata

Performance Considerations

CLIP Loading: ~500MB model download on first run
Image Processing: May be slow for PDF with many images
Memory Usage: CLIP requires ~2GB RAM when loaded
Batch Processing: Efficient for comparing multiple documents

Next Steps

Recommended Enhancements:

Visual Diff Viewer: Interactive side-by-side comparison
Document Clustering: Automatic grouping of similar documents
REST API: Programmatic access to comparison engine
Caching: Store embeddings for faster re-comparison
Explainability: Visual explanations for similarity scores
Advanced Filtering: Filter results by modality or score threshold

Production Considerations:

Add comprehensive unit and integration tests
Implement caching for embeddings
Add rate limiting for API usage
Optimize image processing pipeline
Add logging and monitoring
Create Docker compose for easy deployment

Conclusion

Phase 2 successfully transforms the project from a basic text+table comparator into a comprehensive multi-modal document similarity engine. The system now analyzes documents across 5 dimensions (text, tables, images, layout, metadata) with configurable weighting and batch comparison capabilities.

Total Lines of Code Added/Modified: ~1,500+ lines Implementation Time: Complete in one session Status: Production Ready (pending tests)