🏦 Credit Risk Scoring Model (TFM)
📋 Ficha Técnica del Proyecto
| Campo | Descripción |
|---|---|
| Autor | Izan Moya Romero |
| Tipo de Modelo | Clasificación Binaria Supervisada (Riesgo de Impago) |
| Algoritmo | Random Forest / XGBoost (En desarrollo) |
| Dataset Original | Home Credit Default Risk |
| Entorno | Banca / Fintech / Análisis de Riesgos |
| Input | Datos tabulares (Ingresos, Edad, Historial, Ratios Financieros) |
| Output | Probabilidad de Default (0 - 1) |
| Estado | 🚧 MVP (Fase de Validación y Limpieza) |
📖 Descripción del Proyecto
Este modelo es parte del Trabajo de Fin de Máster (TFM) en Big Data e Inteligencia Artificial.
El objetivo es desarrollar una herramienta de soporte a la decisión para entidades bancarias que permita estimar la probabilidad de que un cliente no pueda cumplir con sus obligaciones de pago (Default). El proyecto pone énfasis no solo en la precisión predictiva, sino en la explicabilidad (XAI) para cumplir con normativas financieras (Basilea III/IV).
⚙️ Metodología y Pipeline
El flujo de trabajo sigue los estándares de la industria bancaria:
- Ingeniería de Datos:
- Tratamiento de Thin Files (clientes con poco historial) mediante imputación semántica (Flag + Mediana).
- Corrección de anomalías de dominio (ej. errores en antigüedad laboral).
- Codificación híbrida:
LabelEncodingpara binarias yOne-Hot Encodingpara categóricas complejas.
- Feature Engineering:
- Creación de ratios financieros clave (Ratio Deuda/Ingresos, Capacidad de Anualidad).
- Manejo de Desbalanceo:
- Aplicación de técnicas de sobremuestreo sintético (SMOTE) para mejorar la detección de la clase minoritaria (Morosos).
📊 Métricas Preliminares
Se actualizará tras el entrenamiento final.
- Target: 1 (Impago) / 0 (Pago)
- AUC-ROC Esperado: > 0.75
⚠️ Limitaciones y Descargo de Responsabilidad
Este modelo ha sido entrenado con datos históricos anonimizados para fines académicos. No debe utilizarse para la concesión real de créditos sin una validación adicional y auditoría de sesgos (Fairness).
Proyecto desarrollado con Python, Scikit-Learn y Pandas.