Update README.md
Browse files
README.md
CHANGED
|
@@ -1,12 +1,38 @@
|
|
| 1 |
---
|
| 2 |
title: ML Implementing Challenge
|
| 3 |
-
emoji:
|
| 4 |
colorFrom: purple
|
| 5 |
-
colorTo:
|
| 6 |
sdk: gradio
|
| 7 |
sdk_version: 5.31.0
|
| 8 |
app_file: app.py
|
| 9 |
pinned: false
|
| 10 |
---
|
| 11 |
|
| 12 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
---
|
| 2 |
title: ML Implementing Challenge
|
| 3 |
+
emoji: 🚀
|
| 4 |
colorFrom: purple
|
| 5 |
+
colorTo: blue
|
| 6 |
sdk: gradio
|
| 7 |
sdk_version: 5.31.0
|
| 8 |
app_file: app.py
|
| 9 |
pinned: false
|
| 10 |
---
|
| 11 |
|
| 12 |
+
# Descripcion
|
| 13 |
+
Este proyecto se desarrolló para abordar un problema de regresión multivariante y una prueba a ciegas.
|
| 14 |
+
En este reto se entreno un modelo para predecir una variable objetivo (target) del archivo training_data.
|
| 15 |
+
|
| 16 |
+
Particularmente, en el despliegue de esta solucion permite realizar estas operaciones masivas con regularidad.
|
| 17 |
+
De esta manera, el usuario puede predecir el valor objetivo para muestras utilizando el modelo que se ha creado con los datos de entrenamiento.
|
| 18 |
+
|
| 19 |
+
# Descripción de los datos
|
| 20 |
+
En el archivo training_data.csv, se encontrará el conjunto de datos de entrenamiento de 800 muestras.
|
| 21 |
+
Cada muestra tiene 20 características, denominadas [feature_0, feature_1, … , feature_19].
|
| 22 |
+
|
| 23 |
+
# ¿Cómo funciona la APP?
|
| 24 |
+
La interfaz es simple e intuitiva:
|
| 25 |
+
- Sube tu archivo CSV mediante el botón de carga.
|
| 26 |
+
- Se mostrará una vista previa con las primeras filas del contenido.
|
| 27 |
+
- Es posible descarga el resultado procesado (en este caso, un archivo CSV).
|
| 28 |
+
|
| 29 |
+
# Tareas Realizadas
|
| 30 |
+
Utilizando Python, junto con las librerías [numpy, pandas, seaborn, matplotlib, scipy, sklearn, statsmodels], se realizaron las tareas siguientes:
|
| 31 |
+
|
| 32 |
+
1. Se entreno un modelo de regresion lineal utilizando el conjunto de datos de entrenamiento.
|
| 33 |
+
2. Se Creo un proyecto que pueda ser desplegado fácilmente. Listo para la PoC, donde se puede proporcionar nuevas predicciones (se utilizo el conjunto de datos de prueba, blind_test_data).
|
| 34 |
+
|
| 35 |
+
# cómo puede se puede evolucionar la solución?
|
| 36 |
+
1. Tener acceso al significa y naturaleza de las caracteristicas utilizadas, lo cual es especialmente util en entornos con datos escasos o conocimiento experto relevante.
|
| 37 |
+
2. Complementar con técnicas de ingeniería de características como la Selección automática de caracteristicas (Lasso, RFECV, Permutaciones) o utilizando regresión regularizada (Ridge, Lasso, Elastic Net).
|
| 38 |
+
3. Una de las posibles maneras de mejorar la solucion es utlizando otros modelos mas robustos como por ejemplo Redes neuronales (MLP). Estos modelos son extremadamente flexibles y escalables, aunque con regularidad requieren más recursos y cuidado en su entrenamiento.
|