Spaces:

ymlin105
/

Rossmann-Store-Sales

Build error

App Files Files Community

Rossmann-Store-Sales / src /data.py

ymlin105

Refactor: Upgrade to V2 Architecture (FastAPI + Config + Docker)

3635bbe 12 days ago

raw

history blame contribute delete

3.62 kB

	"""
	Data ingestion and processing modules for Rossmann Store Sales.
	"""

	import os
	from abc import ABC, abstractmethod
	import pandas as pd
	import numpy as np
	from sklearn.model_selection import train_test_split
	from src.core import setup_logger

	logger = setup_logger(__name__)

	# --- INGESTION ---

	class DataIngestor(ABC):
	@abstractmethod
	def ingest(self, file_path: str) -> pd.DataFrame:
	pass

	class RossmannDataIngestor(DataIngestor):
	def ingest(self, file_path: str) -> pd.DataFrame:
	from src.config import global_config
	logger.info(f"Ingesting Rossmann sales data from {file_path}")
	df = pd.read_csv(file_path, low_memory=False)

	# Use config for store path, fallback to sibling 'store.csv'
	store_path = global_config.data.store_path
	if not store_path:
	data_dir = os.path.dirname(file_path)
	store_path = os.path.join(data_dir, "store.csv")

	if os.path.exists(store_path):
	logger.info(f"Merging with store metadata from {store_path}")
	store_df = pd.read_csv(store_path)
	# Ensure Date is datetime for merging logic if needed, though usually merge is on Store
	if 'Date' in df.columns:
	df['Date'] = pd.to_datetime(df['Date'])

	df = pd.merge(df, store_df, on='Store', how='left')
	else:
	logger.warning(f"Store metadata not found at {store_path}. Proceeding with sales data only.")
	return df

	class DataIngestorFactory:
	@staticmethod
	def get_data_ingestor(dataset_name: str) -> DataIngestor:
	if "rossmann" in dataset_name.lower():
	return RossmannDataIngestor()
	raise ValueError(f"No ingestor available for dataset: {dataset_name}")

	# --- PROCESSING / CLEANING ---

	class MissingValueHandlingStrategy(ABC):
	@abstractmethod
	def handle(self, df: pd.DataFrame) -> pd.DataFrame:
	pass

	class FillMissingValuesStrategy(MissingValueHandlingStrategy):
	def __init__(self, method: str = "mean", fill_value: any = None):
	self.method = method
	self.fill_value = fill_value

	def handle(self, df: pd.DataFrame) -> pd.DataFrame:
	df_cleaned = df.copy()
	if self.method == "mean":
	numeric_columns = df_cleaned.select_dtypes(include="number").columns
	df_cleaned[numeric_columns] = df_cleaned[numeric_columns].fillna(df[numeric_columns].mean())
	elif self.method == "constant":
	df_cleaned = df_cleaned.fillna(self.fill_value)
	return df_cleaned

	# --- OUTLIER DETECTION ---

	class OutlierDetectionStrategy(ABC):
	@abstractmethod
	def detect_outliers(self, df: pd.DataFrame) -> pd.DataFrame:
	pass

	class IQROutlierDetection(OutlierDetectionStrategy):
	def detect_outliers(self, df: pd.DataFrame) -> pd.DataFrame:
	Q1 = df.quantile(0.25)
	Q3 = df.quantile(0.75)
	IQR = Q3 - Q1
	return (df < (Q1 - 1.5 * IQR)) \| (df > (Q3 + 1.5 * IQR))

	# --- SPLITTING ---

	class DataSplittingStrategy(ABC):
	@abstractmethod
	def split_data(self, df: pd.DataFrame, target_column: str):
	pass

	class SimpleTrainTestSplitStrategy(DataSplittingStrategy):
	def __init__(self, test_size: float = 0.2, random_state: int = 42):
	self.test_size = test_size
	self.random_state = random_state

	def split_data(self, df: pd.DataFrame, target_column: str):
	X = df.drop(columns=[target_column])
	y = df[target_column]
	return train_test_split(X, y, test_size=self.test_size, random_state=self.random_state)