Spaces:

Bromeo777
/

RM

Build error

App Files Files Community

Bromeo777 commited on Mar 21

Commit

644b58f

verified ·

1 Parent(s): 36272bd

Add app\models\data.py

Browse files

Files changed (1) hide show

app//models//data.py +76 -0

app//models//data.py ADDED Viewed

	@@ -0,0 +1,76 @@

+# app/models/data.py
+from sqlalchemy import String, Integer, DateTime, Float, ForeignKey, JSON, Enum
+from sqlalchemy.orm import Mapped, mapped_column, relationship
+from datetime import datetime
+from typing import Optional, Dict, Any
+from app.models.base import Base
+import enum
+# -----------------------------
+# Job Status Enum
+# -----------------------------
+class DataJobStatus(str, enum.Enum):
+    PENDING = "pending"
+    PROFILING = "profiling"
+    CLEANING = "cleaning"
+    COMPLETED = "completed"
+    FAILED = "failed"
+# -----------------------------
+# Dataset Model
+# -----------------------------
+class Dataset(Base):
+    __tablename__ = "datasets"
+    id: Mapped[str] = mapped_column(String(64), primary_key=True)
+    user_id: Mapped[int] = mapped_column(Integer, ForeignKey("users.id"))
+    filename: Mapped[str] = mapped_column(String(255))
+    storage_path: Mapped[str] = mapped_column(String(500))
+    institution_id: Mapped[Optional[str]] = mapped_column(String(100))
+    row_count: Mapped[Optional[int]] = mapped_column(Integer)
+    column_metadata: Mapped[Optional[Dict[str, Any]]] = mapped_column(JSON)
+    is_public_domain: Mapped[bool] = mapped_column(default=False)
+    created_at: Mapped[datetime] = mapped_column(DateTime(timezone=True), default=datetime.utcnow)
+    cleaning_jobs: Mapped[list["DataCleaningJob"]] = relationship(
+        "DataCleaningJob", back_populates="dataset", cascade="all, delete-orphan"
+    )
+# -----------------------------
+# Data Cleaning Job Model
+# -----------------------------
+class DataCleaningJob(Base):
+    __tablename__ = "data_cleaning_jobs"
+    id: Mapped[str] = mapped_column(String(64), primary_key=True)
+    dataset_id: Mapped[str] = mapped_column(String(64), ForeignKey("datasets.id"))
+    status: Mapped[DataJobStatus] = mapped_column(Enum(DataJobStatus), default=DataJobStatus.PENDING)
+    study_design: Mapped[Optional[str]] = mapped_column(String(50))
+    privacy_score: Mapped[Optional[float]] = mapped_column(Float)
+    bias_metrics: Mapped[Optional[Dict[str, Any]]] = mapped_column(JSON)
+    cleaned_file_path: Mapped[Optional[str]] = mapped_column(String(500))
+    reproducibility_script_path: Mapped[Optional[str]] = mapped_column(String(500))
+    started_at: Mapped[Optional[datetime]] = mapped_column(DateTime(timezone=True))
+    completed_at: Mapped[Optional[datetime]] = mapped_column(DateTime(timezone=True))
+    dataset: Mapped["Dataset"] = relationship("Dataset", back_populates="cleaning_jobs")
+    decisions: Mapped[list["CleaningDecision"]] = relationship(
+        "CleaningDecision", back_populates="job", cascade="all, delete-orphan"
+    )
+# -----------------------------
+# Cleaning Decision Model
+# -----------------------------
+class CleaningDecision(Base):
+    __tablename__ = "cleaning_decisions"
+    id: Mapped[int] = mapped_column(Integer, primary_key=True, index=True)
+    job_id: Mapped[str] = mapped_column(String(64), ForeignKey("data_cleaning_jobs.id"))
+    target_column: Mapped[str] = mapped_column(String(255), nullable=False)
+    action_type: Mapped[str] = mapped_column(String(255), nullable=False)
+    reasoning: Mapped[str] = mapped_column(String(1000), nullable=False)
+    is_reversed: Mapped[bool] = mapped_column(default=False)
+    timestamp: Mapped[datetime] = mapped_column(DateTime(timezone=True), default=datetime.utcnow)
+    job: Mapped["DataCleaningJob"] = relationship("DataCleaningJob", back_populates="decisions")