Spaces:

MBilal-72
/

GenerativeEngineOptimization

Runtime error

File size: 12,835 Bytes

"""
GEO Scorer Data Integration Fix
Handles various data formats from web scrapers and ensures compatibility
"""

import logging
from typing import Dict, Any, List, Union, Optional

class GEODataAdapter:
    """Adapter to handle different data formats from web scrapers"""
    
    def __init__(self, logger: Optional[logging.Logger] = None):
        self.logger = logger or logging.getLogger(__name__)
    
    def normalize_scraped_data(self, scraped_data: Union[Dict, List]) -> List[Dict[str, Any]]:
        """
        Normalize scraped data to the format expected by GEOScorer
        
        Args:
            scraped_data: Raw data from web scraper (various formats)
            
        Returns:
            List[Dict]: Normalized data ready for GEO analysis
        """
        try:
            # Handle different input formats
            if isinstance(scraped_data, dict):
                # Single page data
                normalized = [self._normalize_single_page(scraped_data)]
            elif isinstance(scraped_data, list):
                # Multiple pages
                normalized = [self._normalize_single_page(page) for page in scraped_data]
            else:
                raise ValueError(f"Unsupported data type: {type(scraped_data)}")
            
            # Filter out invalid entries
            valid_pages = [page for page in normalized if page.get('content')]
            
            self.logger.info(f"Normalized {len(valid_pages)} valid pages from {len(normalized) if isinstance(normalized, list) else 1} total")
            
            return valid_pages
            
        except Exception as e:
            self.logger.error(f"Data normalization failed: {e}")
            return []
    
    def _normalize_single_page(self, page_data: Dict[str, Any]) -> Dict[str, Any]:
        """Normalize a single page's data structure"""
        
        # Common field mappings from different scrapers
        content_fields = ['content', 'text', 'body', 'html_content', 'page_content', 'main_content']
        title_fields = ['title', 'page_title', 'heading', 'h1', 'name']
        url_fields = ['url', 'link', 'page_url', 'source_url', 'href']
        
        # Extract content (try multiple possible field names)
        content = ""
        for field in content_fields:
            if field in page_data and page_data[field]:
                content = str(page_data[field])
                break
        
        # Extract title
        title = "Untitled Page"
        for field in title_fields:
            if field in page_data and page_data[field]:
                title = str(page_data[field])
                break
        
        # Extract URL
        url = ""
        for field in url_fields:
            if field in page_data and page_data[field]:
                url = str(page_data[field])
                break
        
        # Create normalized structure
        normalized = {
            'content': content,
            'title': title,
            'url': url,
            'word_count': len(content.split()) if content else 0,
            'original_data': page_data  # Keep original for debugging
        }
        
        # Add any additional metadata
        metadata_fields = ['description', 'keywords', 'author', 'date', 'meta_description']
        for field in metadata_fields:
            if field in page_data:
                normalized[field] = page_data[field]
        
        return normalized
    
    def validate_normalized_data(self, normalized_data: List[Dict[str, Any]]) -> Dict[str, Any]:
        """Validate normalized data and provide diagnostics"""
        
        validation_results = {
            'total_pages': len(normalized_data),
            'valid_pages': 0,
            'invalid_pages': 0,
            'issues': [],
            'summary': {}
        }
        
        for i, page in enumerate(normalized_data):
            issues = []
            
            # Check required fields
            if not page.get('content'):
                issues.append(f"Page {i}: Missing or empty content")
            elif len(page['content'].strip()) < 50:
                issues.append(f"Page {i}: Content too short ({len(page['content'])} chars)")
            
            if not page.get('title'):
                issues.append(f"Page {i}: Missing title")
            
            if issues:
                validation_results['invalid_pages'] += 1
                validation_results['issues'].extend(issues)
            else:
                validation_results['valid_pages'] += 1
        
        # Generate summary
        content_lengths = [len(page.get('content', '')) for page in normalized_data if page.get('content')]
        if content_lengths:
            validation_results['summary'] = {
                'avg_content_length': sum(content_lengths) / len(content_lengths),
                'min_content_length': min(content_lengths),
                'max_content_length': max(content_lengths),
                'pages_with_titles': len([p for p in normalized_data if p.get('title') and p['title'] != 'Untitled Page']),
                'pages_with_urls': len([p for p in normalized_data if p.get('url')])
            }
        
        return validation_results


class GEOScorerWithAdapter(GEOScorer):
    """Extended GEOScorer with built-in data adaptation"""
    
    def __init__(self, llm, config: Optional[GEOConfig] = None, logger: Optional[logging.Logger] = None):
        super().__init__(llm, config, logger)
        self.data_adapter = GEODataAdapter(logger)
    
    def analyze_scraped_data(self, scraped_data: Union[Dict, List], detailed: bool = True) -> Dict[str, Any]:
        """
        Analyze scraped data with automatic format detection and normalization
        
        Args:
            scraped_data: Raw scraped data in any format
            detailed: Whether to perform detailed analysis
            
        Returns:
            Dict: Complete analysis results with diagnostics
        """
        self.logger.info("Starting analysis of scraped data")
        
        try:
            # Step 1: Normalize the data
            normalized_data = self.data_adapter.normalize_scraped_data(scraped_data)
            
            if not normalized_data:
                return {
                    'error': 'No valid data could be extracted from scraped content',
                    'error_type': 'data_normalization',
                    'original_data_type': str(type(scraped_data)),
                    'original_data_sample': str(scraped_data)[:200] if scraped_data else None
                }
            
            # Step 2: Validate normalized data
            validation_results = self.data_adapter.validate_normalized_data(normalized_data)
            
            # Step 3: Analyze valid pages
            analysis_results = self.analyze_multiple_pages(normalized_data, detailed)
            
            # Step 4: Calculate aggregate scores
            aggregate_results = self.calculate_aggregate_scores(analysis_results)
            
            # Step 5: Combine all results
            complete_results = {
                'data_validation': validation_results,
                'individual_analyses': analysis_results,
                'aggregate_scores': aggregate_results,
                'processing_summary': {
                    'pages_scraped': validation_results['total_pages'],
                    'pages_analyzed': len([r for r in analysis_results if not r.get('error')]),
                    'overall_success_rate': validation_results['valid_pages'] / max(validation_results['total_pages'], 1),
                    'analysis_type': 'detailed' if detailed else 'quick'
                }
            }
            
            self.logger.info(f"Analysis completed: {complete_results['processing_summary']}")
            return complete_results
            
        except Exception as e:
            self.logger.error(f"Scraped data analysis failed: {e}")
            return {
                'error': f'Analysis failed: {str(e)}',
                'error_type': 'system',
                'original_data_type': str(type(scraped_data)),
                'traceback': str(e)
            }


# Debugging utility functions
def debug_scraped_data(scraped_data: Union[Dict, List]) -> Dict[str, Any]:
    """
    Debug utility to understand the structure of scraped data
    
    Args:
        scraped_data: The raw scraped data causing issues
        
    Returns:
        Dict: Detailed breakdown of the data structure
    """
    debug_info = {
        'data_type': str(type(scraped_data)),
        'data_structure': {},
        'sample_content': {},
        'recommendations': []
    }
    
    try:
        if isinstance(scraped_data, dict):
            debug_info['data_structure'] = {
                'is_dict': True,
                'keys': list(scraped_data.keys()),
                'key_count': len(scraped_data.keys())
            }
            
            # Sample first few key-value pairs
            for i, (key, value) in enumerate(list(scraped_data.items())[:5]):
                debug_info['sample_content'][key] = {
                    'type': str(type(value)),
                    'length': len(str(value)) if value else 0,
                    'sample': str(value)[:100] if value else None
                }
            
            # Check for common content fields
            content_fields = ['content', 'text', 'body', 'html_content', 'page_content']
            found_content_fields = [field for field in content_fields if field in scraped_data]
            
            if found_content_fields:
                debug_info['recommendations'].append(f"Found potential content fields: {found_content_fields}")
            else:
                debug_info['recommendations'].append("No standard content fields found. Check field names.")
                
        elif isinstance(scraped_data, list):
            debug_info['data_structure'] = {
                'is_list': True,
                'length': len(scraped_data),
                'first_item_type': str(type(scraped_data[0])) if scraped_data else 'empty'
            }
            
            if scraped_data and isinstance(scraped_data[0], dict):
                debug_info['sample_content']['first_item_keys'] = list(scraped_data[0].keys())
                
        else:
            debug_info['recommendations'].append(f"Unexpected data type: {type(scraped_data)}")
            
    except Exception as e:
        debug_info['error'] = f"Debug analysis failed: {str(e)}"
    
    return debug_info


def create_test_scraped_data() -> List[Dict[str, Any]]:
    """Create test data in various formats that scrapers might return"""
    
    # Format 1: Standard format
    format1 = {
        'content': 'This is the main content of the page about AI optimization.',
        'title': 'AI Optimization Guide',
        'url': 'https://example.com/ai-guide'
    }
    
    # Format 2: Different field names
    format2 = {
        'text': 'Content about machine learning best practices.',
        'page_title': 'ML Best Practices',
        'link': 'https://example.com/ml-practices'
    }
    
    # Format 3: Nested structure
    format3 = {
        'page_data': {
            'body': 'Deep learning techniques for content optimization.',
            'heading': 'Deep Learning Guide'
        },
        'metadata': {
            'source_url': 'https://example.com/deep-learning'
        }
    }
    
    return [format1, format2, format3]


# Usage example and testing
def test_data_integration():
    """Test the data integration fixes"""
    
    # Test with various data formats
    test_data = create_test_scraped_data()
    
    # Debug the data first
    for i, data in enumerate(test_data):
        print(f"\n--- Debug Info for Test Data {i+1} ---")
        debug_info = debug_scraped_data(data)
        print(f"Data type: {debug_info['data_type']}")
        print(f"Keys: {debug_info['data_structure'].get('keys', 'N/A')}")
        print(f"Recommendations: {debug_info['recommendations']}")
    
    # Test normalization
    adapter = GEODataAdapter()
    normalized = adapter.normalize_scraped_data(test_data)
    
    print(f"\n--- Normalization Results ---")
    print(f"Original items: {len(test_data)}")
    print(f"Normalized items: {len(normalized)}")
    
    for i, item in enumerate(normalized):
        print(f"Item {i+1}: Title='{item['title']}', Content length={len(item['content'])}")
    
    # Test validation
    validation = adapter.validate_normalized_data(normalized)
    print(f"\n--- Validation Results ---")
    print(f"Valid pages: {validation['valid_pages']}/{validation['total_pages']}")
    print(f"Issues: {validation['issues']}")


if __name__ == "__main__":
    test_data_integration()