Spaces:

emanoelopes
/

clareia

Sleeping

App Files Files

emanoelopes commited on Dec 13, 2025

Commit

8b2e2e4

1 Parent(s): e59a820

Fix: Use pickles from Git LFS instead of CSV files for Hugging Face Space

Browse files

Files changed (3) hide show

webapp/pages/1_UCI.py +44 -25
webapp/pages/2_OULAD.py +56 -23
webapp/src/carregar_dados.py +31 -4

webapp/pages/1_UCI.py CHANGED Viewed

@@ -22,35 +22,54 @@ st.divider()
 O UCI Machine Learning Repository é uma fonte valiosa de conjuntos de dados para a comunidade de aprendizado de máquina, promovendo a pesquisa e o avanço na área de ciência de dados.
 """
-datasets_uci_path = Path(__file__).parent.parents[1] / 'datasets' / 'uci_data'
-#st.write(f"Path dos datasets: {datasets_uci_path}")
-# Português
-por_path = os.path.join(datasets_uci_path, 'student-por.csv')
-por = pd.read_csv(por_path, sep=';')
-# Matemática
-mat_path = os.path.join(datasets_uci_path, 'student-mat.csv')
-mat = pd.read_csv(mat_path, sep=';')
-# Adicionando coluna com o conjunto de dados de origem
-mat['origem'] = 'mat'
-por['origem'] = 'por'
-# Concatenando os dataframes
 @st.cache_data(ttl=3600)  # Cache por 1 hora
-def concat():
-    df = pd.concat([mat, por])
-    return df
-df = concat()
 st.session_state['df_uci'] = df
-# Transformando valores e tipos de dados
-df['traveltime'] = df['traveltime'].map({1: '<15m', 2: '15-30m', 3: '30-1h', 4: '>1h'}).astype(str)
-df['studytime'] = df['studytime'].map({1: '<2h', 2: '2-5h', 3: '5-10h', 4: '>10h'}).astype(str)
-df[['Medu','Fedu','famrel','goout','Dalc','Walc','health']] = \
-df[['Medu','Fedu','famrel','goout','Dalc','Walc','health']].astype('object')
 st.markdown("## Explorando os valores numéricos")
 numeric_df = df.select_dtypes('number')

 O UCI Machine Learning Repository é uma fonte valiosa de conjuntos de dados para a comunidade de aprendizado de máquina, promovendo a pesquisa e o avanço na área de ciência de dados.
 """
+# Tentar carregar dos pickles primeiro (já estão no Git LFS)
 @st.cache_data(ttl=3600)  # Cache por 1 hora
+def carregar_dados_uci():
+    """Carrega dados UCI, tentando primeiro dos pickles, depois dos CSVs"""
+    from src.carregar_dados import carregar_uci_dados, carregar_dados_uci_raw
+    # Tentar carregar do pickle primeiro
+    try:
+        df = carregar_uci_dados()
+        if df is not None and not df.empty:
+            return df
+    except Exception as e:
+        st.warning(f"Não foi possível carregar do pickle: {e}")
+    # Fallback: tentar carregar dos CSVs
+    try:
+        df = carregar_dados_uci_raw()
+        return df
+    except FileNotFoundError as e:
+        st.error(f"""
+        **Erro ao carregar dados UCI:**
+        Os arquivos de dados não foram encontrados. Verifique se:
+        1. Os arquivos pickle (`uci_dataframe.pkl`) estão no repositório
+        2. Os arquivos CSV estão em `datasets/uci_data/`
+        Erro: {e}
+        """)
+        st.stop()
+    except Exception as e:
+        st.error(f"Erro inesperado ao carregar dados: {e}")
+        st.stop()
+df = carregar_dados_uci()
 st.session_state['df_uci'] = df
+# Transformando valores e tipos de dados (apenas se ainda não foram transformados)
+# O pickle já vem processado, mas os CSVs precisam ser transformados
+if 'traveltime' in df.columns and df['traveltime'].dtype in ['int64', 'int32']:
+    df['traveltime'] = df['traveltime'].map({1: '<15m', 2: '15-30m', 3: '30-1h', 4: '>1h'}).astype(str)
+if 'studytime' in df.columns and df['studytime'].dtype in ['int64', 'int32']:
+    df['studytime'] = df['studytime'].map({1: '<2h', 2: '2-5h', 3: '5-10h', 4: '>10h'}).astype(str)
+if all(col in df.columns for col in ['Medu','Fedu','famrel','goout','Dalc','Walc','health']):
+    # Aplicar apenas se ainda não são object
+    for col in ['Medu','Fedu','famrel','goout','Dalc','Walc','health']:
+        if df[col].dtype not in ['object', 'string']:
+            df[col] = df[col].astype('object')
 st.markdown("## Explorando os valores numéricos")
 numeric_df = df.select_dtypes('number')

webapp/pages/2_OULAD.py CHANGED Viewed

@@ -20,29 +20,62 @@ st.set_page_config(
 #st.markdown('# Informações Básicas dos Dados do OULAD')
 #st.divider()
-datasets_oulad_path = Path(__file__).parent.parents[1] / 'datasets' / 'oulad_data'
-#st.write(f"Path dos datasets: {datasets_oulad_path}")
-dataframes_oulad = {}
-for filename in os.listdir(datasets_oulad_path):
-    if filename.endswith('.csv'):
-        file_path = os.path.join(datasets_oulad_path, filename)
-        df_name = os.path.splitext(filename)[0] # Nome do dataframe será o nome do arquivo sem a extensão
-        try:
-            dataframes_oulad[df_name] = pd.read_csv(file_path, sep=',', encoding='ISO-8859-1')
-            print(f"Arquivo '{filename}' carregado com sucesso como dataframe '{df_name}'.")
-        except Exception as e:
-            print(f"Erro ao carregar o arquivo '{filename}': {e}")
-df_assessments = dataframes_oulad['assessments'].head(10_000)
-df_courses = dataframes_oulad['courses'].head(10_000)
-df_vle = dataframes_oulad['vle'].head(10_000)
-df_studentinfo = dataframes_oulad['studentInfo'].head(10_000)
-df_studentregistration = dataframes_oulad['studentRegistration'].head(10_000)
-df_studentassessment = dataframes_oulad['studentAssessment'].head(10_000)
-df_studentvle = dataframes_oulad['studentVle'].head(10_000)
 #function to display basic info for a given dataframe
 def show_basic_info(df):

 #st.markdown('# Informações Básicas dos Dados do OULAD')
 #st.divider()
+# Tentar carregar dos pickles primeiro (já estão no Git LFS)
+@st.cache_data(ttl=3600)  # Cache por 1 hora
+def carregar_dados_oulad():
+    """Carrega dados OULAD, tentando primeiro dos pickles, depois dos CSVs"""
+    from src.carregar_dados import carregar_oulad_dados, carregar_dados_oulad_raw
+    # Tentar carregar do pickle primeiro
+    try:
+        df = carregar_oulad_dados()
+        if df is not None and not df.empty:
+            # Se carregou do pickle, retornar como dict para compatibilidade
+            return {'oulad_processed': df}
+    except Exception as e:
+        st.warning(f"Não foi possível carregar do pickle: {e}")
+    # Fallback: tentar carregar dos CSVs
+    try:
+        dataframes_oulad = carregar_dados_oulad_raw()
+        return dataframes_oulad
+    except FileNotFoundError as e:
+        st.error(f"""
+        **Erro ao carregar dados OULAD:**
+        Os arquivos de dados não foram encontrados. Verifique se:
+        1. Os arquivos pickle (`oulad_data.pkl` ou `oulad_dataframe.pkl`) estão no repositório
+        2. Os arquivos CSV estão em `datasets/oulad_data/`
+        Erro: {e}
+        """)
+        st.stop()
+    except Exception as e:
+        st.error(f"Erro inesperado ao carregar dados: {e}")
+        st.stop()
+dataframes_oulad = carregar_dados_oulad()
+# Se carregou do pickle processado, criar dataframes simulados para compatibilidade
+if 'oulad_processed' in dataframes_oulad:
+    df_processed = dataframes_oulad['oulad_processed']
+    # Criar dataframes vazios ou usar o processado conforme necessário
+    df_assessments = df_processed.head(10_000) if 'assessments' in df_processed.columns else pd.DataFrame()
+    df_courses = df_processed.head(10_000) if 'courses' in df_processed.columns else pd.DataFrame()
+    df_vle = df_processed.head(10_000) if 'vle' in df_processed.columns else pd.DataFrame()
+    df_studentinfo = df_processed.head(10_000) if 'studentInfo' in df_processed.columns else pd.DataFrame()
+    df_studentregistration = df_processed.head(10_000) if 'studentRegistration' in df_processed.columns else pd.DataFrame()
+    df_studentassessment = df_processed.head(10_000) if 'studentAssessment' in df_processed.columns else pd.DataFrame()
+    df_studentvle = df_processed.head(10_000) if 'studentVle' in df_processed.columns else pd.DataFrame()
+else:
+    # Carregou dos CSVs originais
+    df_assessments = dataframes_oulad.get('assessments', pd.DataFrame()).head(10_000)
+    df_courses = dataframes_oulad.get('courses', pd.DataFrame()).head(10_000)
+    df_vle = dataframes_oulad.get('vle', pd.DataFrame()).head(10_000)
+    df_studentinfo = dataframes_oulad.get('studentInfo', pd.DataFrame()).head(10_000)
+    df_studentregistration = dataframes_oulad.get('studentRegistration', pd.DataFrame()).head(10_000)
+    df_studentassessment = dataframes_oulad.get('studentAssessment', pd.DataFrame()).head(10_000)
+    df_studentvle = dataframes_oulad.get('studentVle', pd.DataFrame()).head(10_000)
 #function to display basic info for a given dataframe
 def show_basic_info(df):

webapp/src/carregar_dados.py CHANGED Viewed

@@ -7,11 +7,17 @@ import os
 def carregar_uci_dados(pickle_path: str = "../uci_dataframe.pkl") -> pd.DataFrame:
     """Carrega dados UCI processados do arquivo pickle"""
     # Tentar diferentes caminhos para o arquivo pickle
     possible_paths = [
         pickle_path,
         f"../{pickle_path}",
         f"../../{pickle_path}",
-        Path(__file__).parent.parents[1] / "uci_dataframe.pkl"
     ]
     df = None
@@ -77,14 +83,35 @@ def carregar_oulad_dados(pickle_path: str = "../oulad_data.pkl") -> pd.DataFrame
 def carregar_dados_uci_raw():
     """Carrega dados UCI brutos dos arquivos CSV"""
-    datasets_path = Path(__file__).parent.parents[1] / 'datasets' / 'uci_data'
     # Português
-    por_path = os.path.join(datasets_path, 'student-por.csv')
     por = pd.read_csv(por_path, sep=';')
     # Matemática
-    mat_path = os.path.join(datasets_path, 'student-mat.csv')
     mat = pd.read_csv(mat_path, sep=';')
     # Adicionando coluna com o conjunto de dados de origem

 def carregar_uci_dados(pickle_path: str = "../uci_dataframe.pkl") -> pd.DataFrame:
     """Carrega dados UCI processados do arquivo pickle"""
     # Tentar diferentes caminhos para o arquivo pickle
+    base_path = Path(__file__).parent.parents[1]
     possible_paths = [
         pickle_path,
         f"../{pickle_path}",
         f"../../{pickle_path}",
+        base_path / "uci_dataframe.pkl",
+        base_path / "uci.pkl",  # Nome alternativo
+        Path("/app/uci_dataframe.pkl"),  # Hugging Face Space
+        Path("/app/uci.pkl"),  # Hugging Face Space - nome alternativo
+        Path.cwd() / "uci_dataframe.pkl",
+        Path.cwd() / "uci.pkl",
     ]
     df = None
 def carregar_dados_uci_raw():
     """Carrega dados UCI brutos dos arquivos CSV"""
+    base_path = Path(__file__).parent.parents[1]
+    possible_paths = [
+        base_path / 'datasets' / 'uci_data',
+        Path.cwd() / 'datasets' / 'uci_data',
+        Path('/app/datasets/uci_data'),  # Hugging Face Space
+    ]
+    datasets_path = None
+    for path in possible_paths:
+        if path.exists() and (path / 'student-por.csv').exists():
+            datasets_path = path
+            break
+    if datasets_path is None:
+        raise FileNotFoundError(
+            f"Diretório de datasets UCI não encontrado. Procurado em: {possible_paths}\n"
+            "Os arquivos CSV não estão disponíveis. Use os arquivos pickle em vez disso."
+        )
     # Português
+    por_path = datasets_path / 'student-por.csv'
+    if not por_path.exists():
+        raise FileNotFoundError(f"Arquivo não encontrado: {por_path}")
     por = pd.read_csv(por_path, sep=';')
     # Matemática
+    mat_path = datasets_path / 'student-mat.csv'
+    if not mat_path.exists():
+        raise FileNotFoundError(f"Arquivo não encontrado: {mat_path}")
     mat = pd.read_csv(mat_path, sep=';')
     # Adicionando coluna com o conjunto de dados de origem