Spaces:

Marintosti
/

deploy-machine-learning

Sleeping

App Files Files Community

marintosti12 commited on Sep 26, 2025

Commit

5b51a2a

1 Parent(s): d61744e

feat(seeder/dataset) : add model / migration dataset

Browse files

Files changed (4) hide show

alembic/versions/b48f06bd8fd6_create_employee_dataset.py +68 -0
src/models/employee_dataset.py +62 -0
src/seeds/employee_dataset_seed.py +63 -0
src/seeds/ml_models_seed.py +1 -1

alembic/versions/b48f06bd8fd6_create_employee_dataset.py ADDED Viewed

	@@ -0,0 +1,68 @@

+"""create employee_dataset
+Revision ID: b48f06bd8fd6
+Revises: 24251a13df00
+Create Date: 2025-09-26 17:49:21.505347
+"""
+from typing import Sequence, Union
+from alembic import op
+import sqlalchemy as sa
+# revision identifiers, used by Alembic.
+revision: str = 'b48f06bd8fd6'
+down_revision: Union[str, Sequence[str], None] = '24251a13df00'
+branch_labels: Union[str, Sequence[str], None] = None
+depends_on: Union[str, Sequence[str], None] = None
+def upgrade() -> None:
+    op.create_table(
+        "employee_dataset",
+        sa.Column("id", sa.BigInteger, primary_key=True, autoincrement=True),
+        sa.Column("id_employee", sa.Integer, nullable=False, index=True),
+        sa.Column("age", sa.Integer),
+        sa.Column("genre", sa.String(16)),
+        sa.Column("revenu_mensuel", sa.Integer),
+        sa.Column("statut_marital", sa.Text),
+        sa.Column("departement", sa.Text),
+        sa.Column("poste", sa.Text),
+        sa.Column("nombre_experiences_precedentes", sa.Integer),
+        sa.Column("nombre_heures_travailless", sa.Integer),
+        sa.Column("annee_experience_totale", sa.Integer),
+        sa.Column("annees_dans_l_entreprise", sa.Integer),
+        sa.Column("annees_dans_le_poste_actuel", sa.Integer),
+        sa.Column("a_quitte_l_entreprise", sa.Integer),
+        sa.Column("nombre_participation_pee", sa.Integer),
+        sa.Column("nb_formations_suivies", sa.Integer),
+        sa.Column("nombre_employee_sous_responsabilite", sa.Integer),
+        sa.Column("code_sondage", sa.Text),
+        sa.Column("distance_domicile_travail", sa.Integer),
+        sa.Column("niveau_education", sa.Text),
+        sa.Column("domaine_etude", sa.Text),
+        sa.Column("ayant_enfants", sa.Text),
+        sa.Column("frequence_deplacement", sa.Text),
+        sa.Column("annees_depuis_la_derniere_promotion", sa.Integer),
+        sa.Column("annes_sous_responsable_actuel", sa.Integer),
+        sa.Column("satisfaction_employee_environnement", sa.Integer),
+        sa.Column("note_evaluation_precedente", sa.Integer),
+        sa.Column("niveau_hierarchique_poste", sa.Integer),
+        sa.Column("satisfaction_employee_nature_travail", sa.Integer),
+        sa.Column("satisfaction_employee_equipe", sa.Integer),
+        sa.Column("satisfaction_employee_equilibre_pro_perso", sa.Integer),
+        sa.Column("eval_number", sa.Text),
+        sa.Column("note_evaluation_actuelle", sa.Integer),
+        sa.Column("heure_supplementaires", sa.Text),
+        sa.Column("augementation_salaire_precedente", sa.Text),
+        sa.Column("source_file", sa.Text, nullable=True),
+        sa.Column("created_at", sa.DateTime(timezone=True), server_default=sa.text("timezone('utc', now())"), nullable=False),
+    )
+def downgrade() -> None:
+    op.drop_index("ix_employee_dataset_code_sondage", table_name="employee_dataset")
+    op.drop_index("ix_employee_dataset_eval_number", table_name="employee_dataset")
+    op.drop_index("ix_employee_dataset_id_employee", table_name="employee_dataset")
+    op.drop_table("employee_dataset")

src/models/employee_dataset.py ADDED Viewed

	@@ -0,0 +1,62 @@

+import sqlalchemy as sa
+from datetime import datetime, timezone
+from sqlalchemy.orm import Mapped, mapped_column
+from sqlalchemy import BigInteger, Integer, String, DateTime
+from .base import Base
+class EmployeeDataset(Base):
+    __tablename__ = "employee_dataset"
+    id: Mapped[int] = mapped_column(BigInteger, primary_key=True, autoincrement=True)
+    created_at: Mapped[datetime] = mapped_column(
+        DateTime(timezone=True),
+        server_default=sa.text("timezone('utc', now())"),
+        nullable=False,
+    )
+    id_employee: Mapped[int] = mapped_column(Integer, index=True, nullable=False)
+    age: Mapped[int] = mapped_column(Integer)
+    genre: Mapped[str] = mapped_column(String(20))
+    revenu_mensuel: Mapped[int] = mapped_column(Integer)
+    statut_marital: Mapped[str] = mapped_column(String(50))
+    departement: Mapped[str] = mapped_column(String(100), index=True)
+    poste: Mapped[str] = mapped_column(String(100))
+    nombre_experiences_precedentes: Mapped[int] = mapped_column(Integer)
+    nombre_heures_travailless: Mapped[int] = mapped_column(Integer)
+    annee_experience_totale: Mapped[int] = mapped_column(Integer)
+    annees_dans_l_entreprise: Mapped[int] = mapped_column(Integer)
+    annees_dans_le_poste_actuel: Mapped[int] = mapped_column(Integer)
+    a_quitte_l_entreprise: Mapped[int] = mapped_column(Integer)
+    nombre_participation_pee: Mapped[int] = mapped_column(Integer)
+    nb_formations_suivies: Mapped[int] = mapped_column(Integer)
+    nombre_employee_sous_responsabilite: Mapped[int] = mapped_column(Integer)
+    code_sondage: Mapped[int] = mapped_column(Integer)
+    distance_domicile_travail: Mapped[int] = mapped_column(Integer)
+    niveau_education: Mapped[int] = mapped_column(Integer)
+    domaine_etude: Mapped[str] = mapped_column(String(100))
+    ayant_enfants: Mapped[str] = mapped_column(String(10))
+    frequence_deplacement: Mapped[str] = mapped_column(String(50))
+    annees_depuis_la_derniere_promotion: Mapped[int] = mapped_column(Integer)
+    annes_sous_responsable_actuel: Mapped[int] = mapped_column(Integer)
+    satisfaction_employee_environnement: Mapped[int] = mapped_column(Integer)
+    note_evaluation_precedente: Mapped[int] = mapped_column(Integer)
+    niveau_hierarchique_poste: Mapped[int] = mapped_column(Integer)
+    satisfaction_employee_nature_travail: Mapped[int] = mapped_column(Integer)
+    satisfaction_employee_equipe: Mapped[int] = mapped_column(Integer)
+    satisfaction_employee_equilibre_pro_perso: Mapped[int] = mapped_column(Integer)
+    eval_number: Mapped[str] = mapped_column(String(50), index=True)
+    note_evaluation_actuelle: Mapped[int] = mapped_column(Integer)
+    heure_supplementaires: Mapped[str] = mapped_column(String(10))
+    augementation_salaire_precedente: Mapped[int] = mapped_column(Integer)
+    source_file: Mapped[str | None] = mapped_column(String(255), nullable=True)

src/seeds/employee_dataset_seed.py ADDED Viewed

	@@ -0,0 +1,63 @@

+import os, csv, re
+from sqlalchemy import create_engine, text
+from sqlalchemy.orm import Session
+try:
+    from dotenv import load_dotenv
+    load_dotenv()
+except Exception:
+    pass
+RAW_URL = os.environ["DATABASE_URL"]
+CSV_PATH  = os.getenv("CSV_PATH", "artifacts/df_merged.csv")
+CSV_DELIM = os.getenv("CSV_DELIM", ";")
+engine = create_engine(RAW_URL, future=True)
+YES = {"oui", "y", "true", "1"}
+NO  = {"non", "n", "false", "0"}
+def map_bool_to_int(v: str | None):
+    if v is None: return None
+    s = str(v).strip().lower()
+    if s in YES: return 1
+    if s in NO:  return 0
+    return None
+def map_percent_to_int(v: str | None):
+    if not v: return None
+    m = re.search(r"-?\d+", str(v))
+    return int(m.group(0)) if m else None
+def seed_employee_dataset(session: Session):
+    with open(CSV_PATH, "r", encoding="utf-8", newline="") as f:
+        reader = csv.DictReader(f, delimiter=CSV_DELIM)
+        cols = reader.fieldnames or []
+        if not cols:
+            raise RuntimeError("CSV sans en-tête.")
+        rows = []
+        for r in reader:
+            r["a_quitte_l_entreprise"] = map_bool_to_int(r.get("a_quitte_l_entreprise"))
+            r["augementation_salaire_precedente"] = map_percent_to_int(
+                r.get("augementation_salaire_precedente")
+            )
+            rows.append(r)
+        if not rows:
+            return
+        sql = text(
+            f"INSERT INTO employee_dataset ({', '.join(cols)}) "
+            f"VALUES ({', '.join(':'+c for c in cols)})"
+        )
+        session.execute(sql, rows)
+def main():
+    with Session(engine) as s:
+        seed_employee_dataset(s)
+        s.commit()
+if __name__ == "__main__":
+    main()

src/seeds/ml_models_seed.py CHANGED Viewed

@@ -23,7 +23,7 @@ UPSERT = text("""
 def seed_ml_models(session: Session):
     rows = [
         {"id": "5b1c7b3a-0000-4000-8000-000000000001", "name": "baseline",   "description": "Baseline model", "is_active": True},
-        {"id": "5b1c7b3a-0000-4000-8000-000000000002", "name": "xgboost_v1", "description": "XGB v1",        "is_active": False},
     ]
     now = datetime.now(timezone.utc)
     for r in rows:

 def seed_ml_models(session: Session):
     rows = [
         {"id": "5b1c7b3a-0000-4000-8000-000000000001", "name": "baseline",   "description": "Baseline model", "is_active": True},
+        {"id": "5b1c7b3a-0000-4000-8000-000000000002", "name": "best_model", "description": "Best model",        "is_active": False},
     ]
     now = datetime.now(timezone.utc)
     for r in rows: