Spaces:

ranilmukesh
/

sirus

Running

File size: 25,244 Bytes

783a952

# ml_module/tools/data_preprocessing_tools.py
import json
import re
from datetime import datetime
from typing import Any, Dict, List, Optional

import pandas as pd
from agno.tools import Toolkit, tool

from ml_module.services.storage_service import MLStorageService
from ml_module.services.project_service import ProjectService
from ml_module.core.exceptions import FileOperationException
from ml_module.core.constants import ArtifactTypes, DEFAULT_SAMPLE_ROWS, StoragePaths
from ml_module.core.response_formatter import (
    FormattedResponse,
    Severity,
    make_text_response,
    metric_block,
    simple_table,
    simple_table_with_types,
    visualization_block,
    text_block,
)

class DataPreprocessingToolkit(Toolkit):
    """A toolkit for safe, pre-built data cleaning and preprocessing operations."""
    def __init__(self, storage_service: MLStorageService, user_id: str, project_id: str, project_service: ProjectService = None):
        super().__init__(name="data_preprocessing_tools")
        self.storage = storage_service
        self.project_service = project_service
        self.user_id = user_id
        self.project_id = project_id

    def _get_base_path(self, subfolder: str = "") -> str:
        if subfolder:
            return f"{self.user_id}/{self.project_id}/{subfolder}"
        return f"{self.user_id}/{self.project_id}"

    def _extract_version_from_path(self, artifact_path: str) -> Optional[int]:
        match = re.search(r"_v(\d+)", artifact_path)
        if match:
            try:
                return int(match.group(1))
            except ValueError:
                return None
        return None

    @tool
    def handle_missing_values(
        self,
        input_path: str,
        output_filename: str,
        strategy: str,
        columns: Optional[List[str]] = None
    ) -> FormattedResponse:
        """
        Handles missing values in a dataset using a specified strategy.

        Args:
            input_path (str): The path to the source dataset (e.g., 'raw/dataset.csv').
            output_filename (str): The name for the processed file (e.g., 'cleaned_data.csv').
            strategy (str): The method to use. Must be one of: 'mean', 'median', 'mode', 'drop_row'.
            columns (Optional[List[str]]): A list of specific column names to apply the strategy to.
                                           If None, applies to all possible columns.

        Returns:
            FormattedResponse: Structured confirmation with cleaning metrics and artifact reference.
        """
        valid_strategies = ['mean', 'median', 'mode', 'drop_row']
        if strategy not in valid_strategies:
            response = make_text_response(
                f"Invalid strategy '{strategy}'. Must be one of {valid_strategies}.",
                severity=Severity.ERROR,
            )
            response.summary = "Invalid preprocessing strategy"
            response.done = True
            return response

        try:
            source_path = f"{self._get_base_path()}/{input_path}"
            df = self.storage.load_dataframe(source_path)
            
            target_cols = columns
            if not target_cols:
                target_cols = df.columns

            if strategy == 'drop_row':
                df.dropna(subset=target_cols, inplace=True)
            else:
                for col in target_cols:
                    if df[col].isnull().any():
                        if strategy == 'mean':
                            fill_value = df[col].mean()
                        elif strategy == 'median':
                            fill_value = df[col].median()
                        elif strategy == 'mode':
                            fill_value = df[col].mode()[0]
                        df[col] = df[col].fillna(fill_value)

            output_path = f"{self._get_base_path('processed')}/{output_filename}"
            info = self.storage.save_dataframe(df, output_path)

            if self.project_service:
                version = self._extract_version_from_path(output_filename)
                if version is not None:
                    columns_list = list(target_cols)
                    extra_metadata = {
                        "strategy": strategy,
                        "columns": columns_list,
                        "rows": len(df),
                    }
                    info.metadata.update(extra_metadata)
                    self.project_service.register_artifact(
                        self.user_id,
                        self.project_id,
                        ArtifactTypes.CLEANED_DATA,
                        version,
                        info,
                        version_scope="processed",
                        extra_metadata=extra_metadata,
                    )
            columns_summary = [
                {"column": col, "strategy": strategy}
                for col in (target_cols or [])
            ]
            blocks = [
                text_block(
                    f"Applied `{strategy}` strategy to {len(target_cols)} columns",
                    severity=Severity.SUCCESS,
                ),
                metric_block("Rows After Cleaning", len(df)),
                simple_table(columns_summary, caption="Columns processed", block_id="columns_processed"),
                text_block(f"Cleaned dataset saved to `{output_path}`"),
            ]

            return FormattedResponse(
                blocks=blocks,
                summary=f"Handled missing values using {strategy}",
                correlation_id=info.path,
                done=True,
            )

        except Exception as e:
            raise FileOperationException("handle missing values", source_path, e)
    
    @tool
    def save_processed_sample_head(
        self,
        processed_csv_path: str,
        version: int,
        limit: int = DEFAULT_SAMPLE_ROWS
    ) -> FormattedResponse:
        """
        Save a sample head of processed data for UI preview.

        Args:
            processed_csv_path (str): Path to the processed CSV file (e.g., 'processed/cleaned_data_v1.csv').
            version (int): Version number for the sample file.
            limit (int): Number of rows to include in sample (default: 20).

        Returns:
            FormattedResponse: Structured preview details and artifact reference for the sample JSON.
        """
        try:
            # Load the processed data
            full_path = f"{self._get_base_path()}/{processed_csv_path}"
            df = self.storage.load_dataframe(full_path)
            
            # Create sample head
            sample_df = df.head(limit)
            
            # Convert to JSON-serializable format
            sample_data = {
                "data": sample_df.to_dict('records'),
                "columns": list(df.columns),
                "dtypes": {col: str(dtype) for col, dtype in df.dtypes.items()},
                "shape": df.shape,
                "sample_rows": len(sample_df),
                "total_rows": len(df),
                "created_at": datetime.now().isoformat(),
                "version": version
            }
            
            # Save to samples folder
            sample_path = StoragePaths.CLEANED_SAMPLE.format(
                user_id=self.user_id,
                project_id=self.project_id,
                version=version
            )
            
            info = self.storage.save_json(sample_data, sample_path)

            if self.project_service:
                extra_metadata = {
                    "sample_rows": sample_data.get("sample_rows"),
                    "total_rows": sample_data.get("total_rows"),
                    "columns": sample_data.get("columns", []),
                }
                info.metadata.update(extra_metadata)
                self.project_service.register_artifact(
                    self.user_id,
                    self.project_id,
                    ArtifactTypes.CLEANED_SAMPLE,
                    version,
                    info,
                    version_scope="processed",
                    extra_metadata=extra_metadata,
                )
            
            preview_rows = sample_data["data"][: min(10, len(sample_data["data"]))]
            blocks = [
                metric_block("Sample Rows", sample_data.get("sample_rows", 0)),
                metric_block("Total Rows", sample_data.get("total_rows", 0)),
                simple_table_with_types(preview_rows, caption="Sample preview", block_id="processed_sample_preview"),
                text_block(f"Sample JSON saved to `{sample_path}`"),
            ]

            return FormattedResponse(
                blocks=blocks,
                summary=f"Created processed sample v{version}",
                correlation_id=info.path,
                done=True,
            )
            
        except Exception as e:
            raise FileOperationException("save processed sample head", processed_csv_path, e)
    
    @tool
    def generate_change_log(
        self,
        version: int,
        operations: List[str],
        before_stats: Dict[str, Any],
        after_stats: Dict[str, Any],
        columns_affected: Optional[List[str]] = None
    ) -> FormattedResponse:
        """
        Generate a human-readable change log for preprocessing operations.

        Args:
            version (int): Version number for the change log.
            operations (List[str]): List of operations performed (e.g., ["handled missing values with median", "removed outliers"]).
            before_stats (Dict[str, Any]): Statistics before processing (shape, nulls, etc.).
            after_stats (Dict[str, Any]): Statistics after processing (shape, nulls, etc.).
            columns_affected (Optional[List[str]]): List of columns that were modified.

        Returns:
            FormattedResponse: Structured change-log summary with artifact reference.
        """
        try:
            # Create change log structure
            change_log = {
                "version": version,
                "timestamp": datetime.now().isoformat(),
                "operations_performed": operations,
                "statistics": {
                    "before": before_stats,
                    "after": after_stats,
                    "changes": {
                        "rows_removed": before_stats.get('row_count', 0) - after_stats.get('row_count', 0),
                        "columns_modified": len(columns_affected) if columns_affected else 0,
                        "null_values_handled": before_stats.get('null_count', 0) - after_stats.get('null_count', 0)
                    }
                },
                "columns_affected": columns_affected or [],
                "human_readable": {
                    "summary": f"Applied {len(operations)} operations to the dataset",
                    "details": operations,
                    "impact": f"Dataset shape changed from {before_stats.get('shape', 'unknown')} to {after_stats.get('shape', 'unknown')}"
                }
            }
            
            # Save change log
            change_log_path = StoragePaths.CHANGE_LOG.format(
                user_id=self.user_id,
                project_id=self.project_id,
                version=version
            )
            
            info = self.storage.save_json(change_log, change_log_path)

            if self.project_service:
                info.metadata.update({
                    "operations": operations,
                    "columns_affected": columns_affected or [],
                })
                self.project_service.register_artifact(
                    self.user_id,
                    self.project_id,
                    ArtifactTypes.CHANGE_LOG,
                    version,
                    info,
                    version_scope="processed",
                    extra_metadata={
                        "operations": operations,
                        "summary": change_log.get("human_readable", {}).get("summary"),
                    },
                )
            
            stats = change_log["statistics"]
            summary_rows = [
                {"metric": "Rows", "before": before_stats.get("row_count"), "after": after_stats.get("row_count")},
                {"metric": "Null values", "before": before_stats.get("null_count"), "after": after_stats.get("null_count")},
            ]
            blocks = [
                text_block(f"Recorded {len(operations)} preprocessing operations", severity=Severity.INFO),
                simple_table(summary_rows, caption="Dataset stats delta", block_id="stats_delta"),
                text_block(f"Change log saved to `{change_log_path}`"),
            ]

            return FormattedResponse(
                blocks=blocks,
                summary=f"Captured preprocessing change log v{version}",
                correlation_id=info.path,
                done=True,
            )
            
        except Exception as e:
            raise FileOperationException("generate change log", f"version_{version}", e)
    
    @tool
    def compare_preprocessing_versions(
        self,
        version_a: int,
        version_b: int,
        comparison_type: str = "full"
    ) -> FormattedResponse:
        """
        Compare two preprocessing versions and generate a detailed diff summary.

        Args:
            version_a (int): First version number for comparison (typically older).
            version_b (int): Second version number for comparison (typically newer).
            comparison_type (str): Type of comparison - "full", "summary", or "stats_only".

        Returns:
            FormattedResponse: Structured comparison summary with artifact reference.
        """
        try:
            # Load the two versions' data
            sample_path_a = StoragePaths.CLEANED_SAMPLE.format(
                user_id=self.user_id,
                project_id=self.project_id,
                version=version_a
            )
            sample_path_b = StoragePaths.CLEANED_SAMPLE.format(
                user_id=self.user_id,
                project_id=self.project_id,
                version=version_b
            )
            
            sample_a = self.storage.load_json(sample_path_a)
            sample_b = self.storage.load_json(sample_path_b)
            
            # Load change logs if available
            changelog_path_a = StoragePaths.CHANGE_LOG.format(
                user_id=self.user_id,
                project_id=self.project_id,
                version=version_a
            )
            changelog_path_b = StoragePaths.CHANGE_LOG.format(
                user_id=self.user_id,
                project_id=self.project_id,
                version=version_b
            )
            
            try:
                changelog_a = self.storage.load_json(changelog_path_a)
                changelog_b = self.storage.load_json(changelog_path_b)
            except:
                changelog_a = {"operations_performed": ["Unknown operations"]}
                changelog_b = {"operations_performed": ["Unknown operations"]}
            
            # Generate comparison data
            comparison = {
                "versions_compared": {"from": version_a, "to": version_b},
                "timestamp": datetime.now().isoformat(),
                "data_changes": {
                    "shape_change": {
                        "from": sample_a.get("shape", [0, 0]),
                        "to": sample_b.get("shape", [0, 0])
                    },
                    "row_count_change": {
                        "from": sample_a.get("total_rows", 0),
                        "to": sample_b.get("total_rows", 0),
                        "difference": sample_b.get("total_rows", 0) - sample_a.get("total_rows", 0)
                    },
                    "columns_change": {
                        "from": sample_a.get("columns", []),
                        "to": sample_b.get("columns", []),
                        "added": list(set(sample_b.get("columns", [])) - set(sample_a.get("columns", []))),
                        "removed": list(set(sample_a.get("columns", [])) - set(sample_b.get("columns", [])))
                    },
                    "dtypes_changes": self._compare_dtypes(
                        sample_a.get("dtypes", {}),
                        sample_b.get("dtypes", {})
                    )
                },
                "operations": {
                    "version_a_operations": changelog_a.get("operations_performed", []),
                    "version_b_operations": changelog_b.get("operations_performed", []),
                    "new_operations": list(set(changelog_b.get("operations_performed", [])) - 
                                         set(changelog_a.get("operations_performed", [])))
                },
                "human_readable": {
                    "summary": f"Comparison between v{version_a} and v{version_b}",
                    "key_differences": self._generate_key_differences(sample_a, sample_b, changelog_a, changelog_b)
                }
            }
            
            # Include sample data comparison if full comparison requested
            if comparison_type == "full":
                comparison["sample_data"] = {
                    "version_a_sample": sample_a.get("data", [])[:5],  # First 5 rows
                    "version_b_sample": sample_b.get("data", [])[:5]   # First 5 rows
                }
            
            # Save comparison result
            comparison_path = f"{self.user_id}/{self.project_id}/processed/version_comparison_v{version_a}_v{version_b}.json"
            info = self.storage.save_json(comparison, comparison_path)

            diff = comparison["data_changes"]
            metric_rows = [
                {
                    "metric": "Row count",
                    "from": diff["row_count_change"]["from"],
                    "to": diff["row_count_change"]["to"],
                    "delta": diff["row_count_change"]["difference"],
                },
                {
                    "metric": "Columns",
                    "from": len(diff["columns_change"]["from"]),
                    "to": len(diff["columns_change"]["to"]),
                    "delta": len(diff["columns_change"]["added"]) - len(diff["columns_change"]["removed"]),
                },
            ]
            column_changes = diff["columns_change"]
            blocks = [
                text_block(
                    f"Compared preprocessing versions v{version_a} → v{version_b}",
                    severity=Severity.INFO,
                ),
                simple_table(metric_rows, caption="Key dataset deltas", block_id="dataset_deltas"),
                text_block(
                    f"Columns added: {', '.join(column_changes['added']) or 'None'}\nColumns removed: {', '.join(column_changes['removed']) or 'None'}",
                ),
                text_block(f"Comparison saved to `{comparison_path}`"),
            ]

            return FormattedResponse(
                blocks=blocks,
                summary=f"Generated comparison v{version_a} vs v{version_b}",
                correlation_id=info.path,
                done=True,
            )
            
        except Exception as e:
            raise FileOperationException("compare preprocessing versions", f"v{version_a}_v{version_b}", e)
    
    def _compare_dtypes(self, dtypes_a: Dict[str, str], dtypes_b: Dict[str, str]) -> Dict[str, Any]:
        """Helper method to compare data types between versions."""
        changes = {}
        all_columns = set(dtypes_a.keys()) | set(dtypes_b.keys())
        
        for col in all_columns:
            dtype_a = dtypes_a.get(col)
            dtype_b = dtypes_b.get(col)
            
            if dtype_a != dtype_b:
                changes[col] = {"from": dtype_a, "to": dtype_b}
        
        return changes
    
    def _generate_key_differences(self, sample_a: Dict, sample_b: Dict, changelog_a: Dict, changelog_b: Dict) -> List[str]:
        """Generate human-readable key differences between versions."""
        differences = []
        
        # Row count changes
        rows_a = sample_a.get("total_rows", 0)
        rows_b = sample_b.get("total_rows", 0)
        if rows_a != rows_b:
            if rows_b > rows_a:
                differences.append(f"Added {rows_b - rows_a} rows")
            else:
                differences.append(f"Removed {rows_a - rows_b} rows")
        
        # Column changes
        cols_a = set(sample_a.get("columns", []))
        cols_b = set(sample_b.get("columns", []))
        
        added_cols = cols_b - cols_a
        removed_cols = cols_a - cols_b
        
        if added_cols:
            differences.append(f"Added columns: {', '.join(added_cols)}")
        if removed_cols:
            differences.append(f"Removed columns: {', '.join(removed_cols)}")
        
        # New operations
        ops_a = set(changelog_a.get("operations_performed", []))
        ops_b = set(changelog_b.get("operations_performed", []))
        new_ops = ops_b - ops_a
        
        if new_ops:
            differences.append(f"New operations: {'; '.join(new_ops)}")
        
        if not differences:
            differences.append("No significant differences detected")
        
        return differences
    
    @tool
    def get_preprocessing_history(self) -> FormattedResponse:
        """
        Get the complete preprocessing history for this project.

        Returns:
            FormattedResponse: Structured history overview with artifact reference.
        """
        try:
            # Find all processed versions by checking for sample files
            history = {
                "project_id": self.project_id,
                "user_id": self.user_id,
                "timestamp": datetime.now().isoformat(),
                "versions": [],
                "summary": {
                    "total_versions": 0,
                    "latest_version": 0
                }
            }
            
            # Check for versions (up to 20 versions)
            for version in range(1, 21):
                try:
                    sample_path = StoragePaths.CLEANED_SAMPLE.format(
                        user_id=self.user_id,
                        project_id=self.project_id,
                        version=version
                    )
                    sample_data = self.storage.load_json(sample_path)
                    
                    # Try to load change log
                    try:
                        changelog_path = StoragePaths.CHANGE_LOG.format(
                            user_id=self.user_id,
                            project_id=self.project_id,
                            version=version
                        )
                        changelog = self.storage.load_json(changelog_path)
                    except:
                        changelog = {"operations_performed": ["Operations not recorded"]}
                    
                    version_info = {
                        "version": version,
                        "created_at": sample_data.get("created_at", "Unknown"),
                        "shape": sample_data.get("shape", [0, 0]),
                        "total_rows": sample_data.get("total_rows", 0),
                        "operations": changelog.get("operations_performed", []),
                        "human_readable_summary": changelog.get("human_readable", {}).get("summary", "No summary available")
                    }
                    
                    history["versions"].append(version_info)
                    history["summary"]["latest_version"] = version
                    
                except:
                    # Version doesn't exist, stop checking
                    break
            
            history["summary"]["total_versions"] = len(history["versions"])
            
            # Save history
            history_path = f"{self.user_id}/{self.project_id}/processed/preprocessing_history.json"
            info = self.storage.save_json(history, history_path)

            rows = [
                {
                    "version": item.get("version"),
                    "rows": item.get("total_rows"),
                    "summary": item.get("human_readable_summary"),
                }
                for item in history["versions"]
            ][:10]
            blocks = [
                text_block(
                    f"Indexed {len(history['versions'])} preprocessing versions",
                    severity=Severity.INFO,
                ),
                simple_table(rows, caption="Recent preprocessing runs", block_id="preprocessing_history"),
                text_block(f"History saved to `{history_path}`"),
            ]

            return FormattedResponse(
                blocks=blocks,
                summary="Compiled preprocessing history",
                correlation_id=info.path,
                done=True,
            )
            
        except Exception as e:
            raise FileOperationException("get preprocessing history", "all_versions", e)