Spaces:

adsurkasur
/

arina-agripredict-analysis

Sleeping

App Files Files Community

arina-agripredict-analysis / models /data_processor.py

adsurkasur

update again

ba68272 verified 6 months ago

raw

history blame contribute delete

7.67 kB

	"""
	Data processing utilities for AgriPredict Analysis Service
	"""

	import pandas as pd
	import numpy as np
	from datetime import datetime
	from typing import List, Dict, Any
	from utils.logger import setup_logger
	from utils.config import settings

	logger = setup_logger(__name__)

	class DataProcessor:
	"""Handles data processing and validation for forecasting"""

	def __init__(self):
	self.logger = logger

	def process_historical_data(self, historical_data: List[Dict[str, Any]]) -> pd.DataFrame:
	"""
	Process and validate historical demand data

	Args:
	historical_data: List of demand data points

	Returns:
	Processed pandas DataFrame
	"""
	try:
	self.logger.info(f"Processing {len(historical_data)} historical data points")

	# Handle Pydantic model instances - convert to dict if needed
	processed_data = []
	for i, item in enumerate(historical_data):
	if hasattr(item, 'model_dump'): # Pydantic v2
	processed_data.append(item.model_dump())
	self.logger.info(f"Item {i}: Converted Pydantic v2 model")
	elif hasattr(item, 'dict'): # Pydantic v1
	processed_data.append(item.dict())
	self.logger.info(f"Item {i}: Converted Pydantic v1 model")
	else:
	processed_data.append(item)
	self.logger.info(f"Item {i}: Already dict - {type(item)}")

	self.logger.info(f"Processed data sample: {processed_data[0] if processed_data else 'None'}")

	# Convert to DataFrame
	df = pd.DataFrame(processed_data)

	self.logger.info(f"DataFrame columns: {list(df.columns)}")
	self.logger.info(f"DataFrame shape: {df.shape}")

	# Validate required columns
	required_columns = ['date', 'quantity', 'price']
	missing_columns = [col for col in required_columns if col not in df.columns]
	if missing_columns:
	self.logger.error(f"Missing columns: {missing_columns}")
	raise ValueError(f"Missing required columns: {missing_columns}")

	# Convert date column
	df['date'] = pd.to_datetime(df['date'])

	# Validate data types and ranges
	df['quantity'] = pd.to_numeric(df['quantity'], errors='coerce')
	df['price'] = pd.to_numeric(df['price'], errors='coerce')

	# Remove invalid data
	df = df.dropna(subset=['quantity', 'price'])
	df = df[df['quantity'] > 0]
	df = df[df['price'] > 0]

	# Sort by date
	df = df.sort_values('date').reset_index(drop=True)

	# Remove duplicates based on date
	df = df.drop_duplicates(subset=['date'], keep='last')

	# Limit data points if too many
	if len(df) > settings.MAX_DATA_POINTS:
	self.logger.warning(f"Limiting data from {len(df)} to {settings.MAX_DATA_POINTS} points")
	df = df.tail(settings.MAX_DATA_POINTS)

	self.logger.info(f"Successfully processed {len(df)} data points")
	return df

	except Exception as e:
	self.logger.error(f"Data processing failed: {str(e)}")
	raise

	def validate_data_quality(self, df: pd.DataFrame) -> Dict[str, Any]:
	"""
	Validate data quality and return metrics

	Args:
	df: Processed DataFrame

	Returns:
	Dictionary with quality metrics
	"""
	try:
	quality_metrics = {
	'total_points': len(df),
	'date_range': {
	'start': df['date'].min().isoformat() if len(df) > 0 else None,
	'end': df['date'].max().isoformat() if len(df) > 0 else None
	},
	'missing_values': {
	'quantity': df['quantity'].isnull().sum(),
	'price': df['price'].isnull().sum()
	},
	'outliers': {
	'quantity': self._detect_outliers(df['quantity']),
	'price': self._detect_outliers(df['price'])
	},
	'data_completeness': self._calculate_completeness(df)
	}

	return quality_metrics

	except Exception as e:
	self.logger.error(f"Quality validation failed: {str(e)}")
	return {}

	def _detect_outliers(self, series: pd.Series) -> int:
	"""Detect outliers using IQR method"""
	try:
	Q1 = series.quantile(0.25)
	Q3 = series.quantile(0.75)
	IQR = Q3 - Q1
	lower_bound = Q1 - 1.5 * IQR
	upper_bound = Q3 + 1.5 * IQR

	outliers = ((series < lower_bound) \| (series > upper_bound)).sum()
	return int(outliers)
	except:
	return 0

	def _calculate_completeness(self, df: pd.DataFrame) -> float:
	"""Calculate data completeness percentage"""
	try:
	total_cells = len(df) * 2 # quantity and price columns
	missing_cells = df[['quantity', 'price']].isnull().sum().sum()
	completeness = ((total_cells - missing_cells) / total_cells) * 100
	return round(completeness, 2)
	except:
	return 0.0

	def prepare_features_for_ml(self, df: pd.DataFrame) -> pd.DataFrame:
	"""
	Prepare features for machine learning models

	Args:
	df: Processed DataFrame

	Returns:
	DataFrame with engineered features
	"""
	try:
	# Create feature engineering
	feature_df = df.copy()

	# Date-based features
	feature_df['day_of_week'] = feature_df['date'].dt.dayofweek
	feature_df['month'] = feature_df['date'].dt.month
	feature_df['day_of_month'] = feature_df['date'].dt.day
	feature_df['quarter'] = feature_df['date'].dt.quarter

	# Lag features
	for lag in [1, 7, 14, 30]:
	if len(feature_df) > lag:
	feature_df[f'price_lag_{lag}'] = feature_df['price'].shift(lag)
	feature_df[f'quantity_lag_{lag}'] = feature_df['quantity'].shift(lag)

	# Rolling statistics
	for window in [7, 14, 30]:
	if len(feature_df) > window:
	feature_df[f'price_rolling_mean_{window}'] = feature_df['price'].rolling(window).mean()
	feature_df[f'price_rolling_std_{window}'] = feature_df['price'].rolling(window).std()
	feature_df[f'quantity_rolling_mean_{window}'] = feature_df['quantity'].rolling(window).mean()

	# Price change features
	feature_df['price_change'] = feature_df['price'].pct_change()
	feature_df['price_change_7d'] = feature_df['price'].pct_change(7)

	# Volume-weighted features
	feature_df['value'] = feature_df['quantity'] * feature_df['price']

	# Drop rows with NaN values created by lag features
	feature_df = feature_df.dropna()

	self.logger.info(f"Created {len(feature_df.columns) - len(df.columns)} additional features")
	return feature_df

	except Exception as e:
	self.logger.error(f"Feature engineering failed: {str(e)}")
	return df