Spaces:

anas83alrajeh
/

fraud_detection_project

Sleeping

App Files Files Community

anas83alrajeh commited on Oct 6, 2025

Commit

ba08136

verified ·

1 Parent(s): 310d1ba

Update datenbereinigung.py

Browse files

Files changed (1) hide show

datenbereinigung.py +39 -21

datenbereinigung.py CHANGED Viewed

@@ -1,28 +1,46 @@
-# -*- coding: utf-8 -*-
-"""
-Datenbereinigung für neue Transaktionen
-"""
 import pandas as pd
-from sklearn.preprocessing import OneHotEncoder, StandardScaler
-def clean_data(df):
-    # Fehlende Werte entfernen
-    df = df.dropna()
-    # Beispiel: Negative Beträge entfernen
-    df = df[df['amt'] > 0]
-    # Kategoriale Merkmale One-Hot encodieren
-    categorical_cols = ['gender', 'category', 'state', 'job']
-    encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')
-    encoded = encoder.fit_transform(df[categorical_cols])
-    encoded_df = pd.DataFrame(encoded, columns=encoder.get_feature_names_out(categorical_cols))
-    df = df.drop(categorical_cols, axis=1)
-    df = pd.concat([df.reset_index(drop=True), encoded_df.reset_index(drop=True)], axis=1)
-    # Standardisierung für Modell
-    scaler = StandardScaler()
-    df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
-    return df_scaled

 import pandas as pd
+import numpy as np
+def daten_vorbereiten(df: pd.DataFrame) -> pd.DataFrame:
+    """
+    Führt grundlegende Datenbereinigung und Feature-Vorbereitung durch.
+    Diese Funktion wird automatisch vor der Modellvorhersage aufgerufen.
+    """
+    # 1️⃣ Leere Spalten entfernen
+    df = df.dropna(axis=1, how="all")
+    # 2️⃣ Fehlende Werte mit sinnvollen Standardwerten ersetzen
+    df = df.fillna({
+        "gender": "Unknown",
+        "state": "Unknown",
+        "job": "Unbekannt",
+        "category": "Sonstiges",
+        "amt": 0
+    })
+    # 3️⃣ Datumsformat bereinigen (falls vorhanden)
+    if "trans_date_trans_time" in df.columns:
+        df["trans_date_trans_time"] = pd.to_datetime(
+            df["trans_date_trans_time"], errors="coerce"
+        )
+        df["trans_hour"] = df["trans_date_trans_time"].dt.hour
+        df["trans_day"] = df["trans_date_trans_time"].dt.day
+        df["trans_month"] = df["trans_date_trans_time"].dt.month
+    # 4️⃣ Kategorische Spalten in Kleinbuchstaben umwandeln
+    for col in ["gender", "state", "job", "category"]:
+        if col in df.columns:
+            df[col] = df[col].astype(str).str.lower()
+    # 5️⃣ Nur numerische und sinnvolle Merkmale behalten
+    erlaubte_spalten = [
+        "amt", "trans_hour", "trans_day", "trans_month", "gender",
+        "state", "job", "category"
+    ]
+    df = df[[c for c in erlaubte_spalten if c in df.columns]]
+    # 6️⃣ One-Hot-Encoding für Kategorien
+    df_encoded = pd.get_dummies(df, columns=["gender", "state", "job", "category"], drop_first=True)
+    return df_encoded