Spaces:

minato1718
/

Corp_AI

Sleeping

Arpit Deep

feat: initial AuditEnv submission

a617acd about 2 months ago

1.51 kB

	from __future__ import annotations

	from pathlib import Path
	from typing import Any, Dict, Optional


	def load_kaggle_procurement_tables(base_path: str \| Path) -> Dict[str, Any]:
	try:
	import pandas as pd # type: ignore[import-not-found]
	except ImportError as exc:
	raise RuntimeError("pandas is required for Kaggle dataset ingestion") from exc

	base = Path(base_path)
	if not base.exists():
	raise FileNotFoundError(f"Kaggle dataset path not found: {base}")

	tables: Dict[str, Any] = {}
	for table_name in ["invoices", "suppliers", "departments", "labels"]:
	parquet_path = base / f"{table_name}.parquet"
	csv_path = base / f"{table_name}.csv"
	if parquet_path.exists():
	tables[table_name] = pd.read_parquet(parquet_path)
	elif csv_path.exists():
	tables[table_name] = pd.read_csv(csv_path)

	if "invoices" not in tables:
	raise RuntimeError("Expected invoices table in Kaggle dataset folder")

	return tables


	def load_hf_financial_rows(split: str = "train", max_rows: Optional[int] = None) -> list[dict[str, Any]]:
	try:
	from datasets import load_dataset
	except ImportError as exc:
	raise RuntimeError("datasets library is required for Hugging Face dataset ingestion") from exc

	ds = load_dataset("amitkedia/Financial-Fraud-Dataset", split=split)
	if max_rows is not None:
	ds = ds.select(range(min(max_rows, len(ds))))
	return [dict(row) for row in ds]