SignalMod / docs /PIPELINE.es.md
Mirae Kang
feat: implement new models and improve UI, #23
46cc63a
|
raw
history blame
1.59 kB

Pipeline de entrenamiento

Punto de entrada: src/pipeline/run_pipeline.py

Comando

python -m src.pipeline.run_pipeline --model lr
Flag Valores Por defecto
--model lr, rf, xgboost lr

Ejecutar desde la raíz del repositorio.

Fases

  1. Carga — CSV en data/raw/youtoxic_english_1000.csv
  2. Split — train/test estratificado
  3. PreprocesadoTextPreprocessor (spaCy + NLTK)
  4. Entrenamientobuild_model()
  5. Validación cruzada — 5 folds
  6. EvaluaciónEvaluator.evaluate_and_report() en test
  7. Guardadomodels/experiments/{model}/
  8. MLflowmlruns/
  9. Informesreports/summary.csv y reports/pipeline/{model}/

Configuración

Archivo Uso
configs/pipeline.yaml Rutas, IsToxic, split, CV
configs/features.yaml TF-IDF y preprocesado
configs/models.yaml Hiperparámetros de clasificadores
configs/best_params.yaml Ganador Optuna (LR)

Salidas

Ruta Contenido
reports/summary.csv Tabla comparativa de modelos
reports/pipeline/lr/cm_lr.png Matriz de confusión
reports/pipeline/lr/roc_lr.png Curva ROC
reports/pipeline/lr/errors_lr.csv FP / FN

Inferencia del demo

Catálogo en configs/model_catalog.yaml: Meta-Feature Stacking (producción), LR + TF-IDF y Frozen Toxic-BERT (baselines en models/baseline/manifest.json).