Spaces:

VicGerardoPR
/

EDA_App

Sleeping

App Files Files Community

VicGerardoPR commited on Mar 13, 2025

Commit

6fb53ca

1 Parent(s): a4f27d8

App2

Browse files

Files changed (2) hide show

.DS_Store +0 -0
app.py +64 -2

.DS_Store CHANGED Viewed

Binary files a/.DS_Store and b/.DS_Store differ

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import matplotlib.pyplot as plt
 import seaborn as sns
 import io
 import base64
 from pandas.api.types import is_numeric_dtype
 st.set_page_config(page_title="EDA y Limpieza de Datos", layout="wide")
@@ -292,13 +293,74 @@ def main():
     st.header("📁 Carga tu archivo")
     uploaded_file = st.file_uploader("Selecciona un archivo CSV o Excel", type=['csv', 'xlsx', 'xls'])
     if uploaded_file is not None:
         try:
             # Determinar tipo de archivo y leerlo
             if uploaded_file.name.endswith('.csv'):
-                df = pd.read_csv(uploaded_file)
             else:
-                df = pd.read_excel(uploaded_file)
             # Crear pestañas para organizar el análisis
             tab1, tab2, tab3, tab4 = st.tabs(["📊 Resumen de datos", "📈 Visualizaciones", "🔄 Correlaciones", "🧹 Limpieza"])

 import seaborn as sns
 import io
 import base64
+import chardet
 from pandas.api.types import is_numeric_dtype
 st.set_page_config(page_title="EDA y Limpieza de Datos", layout="wide")
     st.header("📁 Carga tu archivo")
     uploaded_file = st.file_uploader("Selecciona un archivo CSV o Excel", type=['csv', 'xlsx', 'xls'])
+    # Opciones avanzadas de importación
+    with st.expander("Opciones avanzadas de importación"):
+        custom_encoding = st.text_input("Especificar codificación personalizada (opcional)", placeholder="Ejemplo: latin1, utf-8-sig, cp1252")
+        csv_separator = st.text_input("Separador CSV personalizado (opcional)", placeholder="Por defecto: ," )
+        skip_rows = st.number_input("Saltar filas iniciales", min_value=0, value=0)
+        detect_encoding = st.checkbox("Detectar automáticamente la codificación (puede ser lento para archivos grandes)")
+        decimal_separator = st.radio("Separador decimal", options=[".", ","], index=0)
     if uploaded_file is not None:
         try:
             # Determinar tipo de archivo y leerlo
             if uploaded_file.name.endswith('.csv'):
+                try:
+                    # Preparar opciones para read_csv
+                    csv_options = {
+                        'skiprows': skip_rows,
+                        'decimal': decimal_separator
+                    }
+                    # Agregar separador personalizado si se proporciona
+                    if csv_separator:
+                        csv_options['sep'] = csv_separator
+                    # Detectar codificación si está marcada la opción
+                    if detect_encoding:
+                        uploaded_file.seek(0)
+                        result = chardet.detect(uploaded_file.read())
+                        detected_encoding = result['encoding']
+                        confidence = result['confidence']
+                        uploaded_file.seek(0)
+                        st.info(f"Codificación detectada: {detected_encoding} (confianza: {confidence:.2f})")
+                        csv_options['encoding'] = detected_encoding
+                    # Usar codificación personalizada si se proporciona
+                    elif custom_encoding:
+                        csv_options['encoding'] = custom_encoding
+                    else:
+                        # Intentar con diferentes codificaciones
+                        encodings = ['utf-8', 'latin1', 'ISO-8859-1', 'cp1252']
+                        for encoding in encodings:
+                            try:
+                                # Reiniciar la posición del archivo para cada intento
+                                uploaded_file.seek(0)
+                                df = pd.read_csv(uploaded_file, encoding=encoding, **csv_options)
+                                st.success(f"Archivo leído correctamente usando codificación: {encoding}")
+                                break
+                            except UnicodeDecodeError:
+                                continue
+                        else:  # Este bloque se ejecuta si el bucle termina sin un break
+                            raise Exception("No se pudo decodificar el archivo con ninguna de las codificaciones intentadas.")
+                    # Si llegamos aquí con una codificación personalizada o detectada
+                    if custom_encoding or detect_encoding:
+                        uploaded_file.seek(0)
+                        df = pd.read_csv(uploaded_file, **csv_options)
+                except Exception as e:
+                    # Si todas las opciones fallan, intentar con reemplazo de caracteres
+                    uploaded_file.seek(0)
+                    # Agregamos low_memory=False para evitar problemas con archivos grandes
+                    df = pd.read_csv(uploaded_file, encoding_errors='replace', low_memory=False, **csv_options)
+                    st.warning(f"Se usó reemplazo de caracteres desconocidos. Algunos caracteres pueden no verse correctamente.")
             else:
+                # Opciones para archivos Excel
+                excel_options = {'skiprows': skip_rows}
+                df = pd.read_excel(uploaded_file, **excel_options)
             # Crear pestañas para organizar el análisis
             tab1, tab2, tab3, tab4 = st.tabs(["📊 Resumen de datos", "📈 Visualizaciones", "🔄 Correlaciones", "🧹 Limpieza"])