Spaces:

ArthurGamaJorge
/

Unfraud-api

Sleeping

App Files Files Community

ArthurGamaJorge commited on Oct 20, 2025

Commit

936b704

1 Parent(s): 48facb6

Adicionar arquivos

Browse files

Files changed (3) hide show

Dockerfile +18 -0
api/app.py +243 -0
requirements.txt +7 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,18 @@

+FROM python:3.9
+RUN useradd -m -u 1000 user
+ENV PATH="/home/user/.local/bin:$PATH"
+WORKDIR /app
+COPY ./requirements.txt /app/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /app/requirements.txt
+COPY . /app
+RUN chown -R user:user /app
+USER user
+EXPOSE 8000
+CMD ["uvicorn", "api.app:app", "--host", "0.0.0.0", "--port", "8000"]

api/app.py ADDED Viewed

	@@ -0,0 +1,243 @@

+# python -m uvicorn app:app --reload
+from __future__ import annotations
+from typing import Any, Dict, List, Optional
+import os
+import traceback
+import joblib
+import numpy as np
+import pandas as pd
+from fastapi import FastAPI, HTTPException, Request
+from fastapi.middleware.cors import CORSMiddleware
+from pydantic import BaseModel, Field
+APP_DIR = os.path.dirname(os.path.abspath(__file__))
+ROOT_DIR = os.path.dirname(APP_DIR)
+MODEL_PATH = os.path.join(ROOT_DIR, "ai", "models", "stacking_fraude_model_4.pkl")
+FEATHER_DATASET = os.path.join(ROOT_DIR, "data", "final_dataset.feather")
+PARQUET_DATASET = os.path.join(ROOT_DIR, "data", "final_dataset.parquet")
+DROP_COLS = {
+	"tx_year",
+	"tx_month",
+	"periodo",
+	"terminal_soft_descriptor",
+	"card_hash",
+	"card_bin",
+	"is_transactional_fraud",
+	"is_fraud",
+	"cluster",
+	"fraude_tipo_extendido",
+}
+class TransactionBody(BaseModel):
+	features: Dict[str, Any] = Field(default_factory=dict)
+class BatchBody(BaseModel):
+	items: List[Dict[str, Any]]
+_MODEL = None
+_FEATURES: Optional[List[str]] = None
+_CARD_MEDIANS: Dict[str, Dict[str, float]] = {}
+_TERM_MEDIANS: Dict[str, Dict[str, float]] = {}
+FRAUD_TYPE_MAP = {
+	0: ("c0", "não é fraude"),
+	1: ("c1", "fraude em cartão"),
+	2: ("c2", "desacordo comercial"),
+	3: ("c3", "fraude no terminal"),
+	4: ("c4", "conluio"),
+}
+CARD_FEATURES = {
+	"dias_desde_primeira_transacao_do_cartao",
+	"qtas_transacoes_cartao_dia",
+	"qtas_fraudes_cartao",
+	"valor_medio_cartao",
+	"valor_medio_cartao_3_transacoes",
+	"desvio_padrao_valor_cartao",
+	"entropia_geografica_cartao",
+	"frequencia_transacoes_24h",
+	"media_tempo_entre_transacoes",
+	"fraude_ratio_cartao",
+	"tempo_medio_denuncia_cartao",
+}
+TERMINAL_FEATURES = {
+	"dias_desde_inicio_terminal",
+	"qtas_transacoes_terminal_dia",
+	"qtas_fraudes_terminal",
+	"valor_medio_terminal",
+	"media_valor_terminal_semana",
+	"fraude_ratio_terminal",
+	"tempo_medio_denuncia_terminal",
+}
+def _predict(ensemble, X: pd.DataFrame) -> Dict[str, Any]:
+	y_pred = ensemble.predict(X)
+	y_prob = ensemble.predict_proba(X) if hasattr(ensemble, "predict_proba") else None
+	items: List[Dict[str, Any]] = []
+	for i in range(len(X)):
+		pred_class = int(y_pred[i])
+		is_fraud = bool(pred_class != 0)
+		probs = None
+		if y_prob is not None:
+			pp = y_prob[i]
+			probs = [float(p) for p in pp]
+		code_name = FRAUD_TYPE_MAP.get(pred_class)
+		fraud_code = code_name[0] if code_name else None
+		fraud_label = code_name[1] if code_name else None
+		row = X.iloc[i]
+		debug = {c: (float(row[c]) if pd.notna(row[c]) else None) for c in X.columns}
+		items.append({
+			"predicted_class": pred_class,
+			"is_fraud": bool(is_fraud),
+			"fraud_type": fraud_code if is_fraud else None,
+			"fraud_type_name": fraud_label if is_fraud else None,
+			"class_probabilities": probs,
+			"_debug_processed_features": debug,
+		})
+	return {"items": items}
+app = FastAPI(title="Unfraud API", version="1.0.0")
+app.add_middleware(
+	CORSMiddleware,
+	allow_origins=["http://localhost:5173", "http://127.0.0.1:5173", "*"],
+	allow_credentials=True,
+	allow_methods=["*"],
+	allow_headers=["*"],
+)
+def _load_model_and_features():
+	global _MODEL, _FEATURES
+	if _MODEL is None:
+		if not os.path.exists(MODEL_PATH):
+			raise FileNotFoundError(f"Modelo não encontrado: {MODEL_PATH}")
+		_MODEL = joblib.load(MODEL_PATH)
+	if _FEATURES is None:
+		feat_from_model = getattr(_MODEL, "feature_names_in_", None)
+		if feat_from_model is not None:
+			_FEATURES = [c for c in list(feat_from_model) if c not in DROP_COLS]
+		else:
+			if os.path.exists(PARQUET_DATASET):
+				df_cols = list(pd.read_parquet(PARQUET_DATASET).columns)
+				_FEATURES = [c for c in df_cols if c not in DROP_COLS]
+			elif os.path.exists(FEATHER_DATASET):
+				df_cols = list(pd.read_feather(FEATHER_DATASET).columns)
+				_FEATURES = [c for c in df_cols if c not in DROP_COLS]
+			else:
+				raise FileNotFoundError("Dataset não encontrado para inferir features")
+def _load_dataset(columns: List[str]) -> pd.DataFrame:
+	if os.path.exists(PARQUET_DATASET):
+		df = pd.read_parquet(PARQUET_DATASET)
+		use = [c for c in columns if c in df.columns] if columns else df.columns
+		return df[use]
+	elif os.path.exists(FEATHER_DATASET):
+		df = pd.read_feather(FEATHER_DATASET)
+		use = [c for c in columns if c in df.columns] if columns else df.columns
+		return df[use]
+	else:
+		raise FileNotFoundError("Nenhum arquivo de dataset encontrado (.parquet ou .feather)")
+def _compute_group_medians():
+	global _CARD_MEDIANS, _TERM_MEDIANS
+	if _CARD_MEDIANS or _TERM_MEDIANS:
+		return
+	if _FEATURES is None:
+		raise RuntimeError("Features não carregadas")
+	df = _load_dataset(list(set(_FEATURES + ["card_hash", "terminal_id"])))
+	num_feats = [c for c in _FEATURES if c in df.columns and pd.api.types.is_numeric_dtype(df[c])]
+	if "card_hash" in df.columns and num_feats:
+		g = df.groupby("card_hash")[num_feats].median(numeric_only=True)
+		_CARD_MEDIANS = {k: {kk: float(vv) for kk, vv in row.dropna().to_dict().items()} for k, row in g.iterrows()}
+	if "terminal_id" in df.columns and num_feats:
+		g2 = df.groupby("terminal_id")[num_feats].median(numeric_only=True)
+		_TERM_MEDIANS = {k: {kk: float(vv) for kk, vv in row.dropna().to_dict().items()} for k, row in g2.iterrows()}
+def _enrich_with_id_medians(items: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
+	if not items:
+		return items
+	enriched: List[Dict[str, Any]] = []
+	for rec in items:
+		r = dict(rec)
+		ck_raw = rec.get("card_hash")
+		tk_raw = rec.get("terminal_id")
+		ck = str(ck_raw) if ck_raw is not None else None
+		tk = str(tk_raw) if tk_raw is not None else None
+		cm = _CARD_MEDIANS.get(ck) if ck is not None else None
+		tm = _TERM_MEDIANS.get(tk) if tk is not None else None
+		if cm:
+			for k, v in cm.items():
+				if k in CARD_FEATURES and (k not in r or r[k] in (None, "", "NaN")):
+					r[k] = v
+		if tm:
+			for k, v in tm.items():
+				if k in TERMINAL_FEATURES and (k not in r or r[k] in (None, "", "NaN")):
+					r[k] = v
+		enriched.append(r)
+	return enriched
+def _ensure_dataframe(records: List[Dict[str, Any]], feature_order: List[str]) -> pd.DataFrame:
+	df = pd.DataFrame(records)
+	for col in df.columns:
+		df[col] = pd.to_numeric(df[col], errors="coerce")
+	df = df.reindex(columns=feature_order)
+	df = df.fillna(0)
+	return df
+@app.get("/health")
+def health():
+	return {"status": "ok"}
+@app.post("/predict")
+def predict_one(body: TransactionBody, request: Request):
+	try:
+		_load_model_and_features()
+		_compute_group_medians()
+		assert _FEATURES is not None
+		enriched = _enrich_with_id_medians([body.features])
+		X = _ensure_dataframe(enriched, _FEATURES)
+		output = _predict(_MODEL, X)
+		return output["items"][0]
+	except Exception as e:
+		traceback.print_exc()
+		raise HTTPException(status_code=500, detail=str(e))
+@app.post("/predict/batch")
+def predict_batch(body: BatchBody, request: Request):
+	try:
+		if len(body.items) == 0:
+			return {"items": []}
+		_load_model_and_features()
+		_compute_group_medians()
+		assert _FEATURES is not None
+		enriched = _enrich_with_id_medians(body.items)
+		X = _ensure_dataframe(enriched, _FEATURES)
+		output = _predict(_MODEL, X)
+		return output
+	except Exception as e:
+		traceback.print_exc()
+		raise HTTPException(status_code=500, detail=str(e))
+if __name__ == "__main__":
+	# When running this module directly, start uvicorn with the `app` object defined in this file.
+	# Use reload=True for development; in production it's better to remove reload.
+	import uvicorn
+	uvicorn.run("api.app:app", host="0.0.0.0", port=8000, reload=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+fastapi
+uvicorn[standard]
+pandas
+numpy
+joblib
+scikit-learn
+pyarrow