Spaces:

emanoelopes
/

clareia

Running

emanoelopes commited on Oct 20, 2025

Commit

07ff35b

1 Parent(s): d050a15

Update README and code to reflect unique student metrics in UCI dataset

- Enhanced `README_PICKLES.md` to clarify the unique student count and processing details for the UCI DataFrame.
- Modified `1_uci.py` to display the number of unique students alongside total records.
- Updated utility functions in `utilidades.py` to calculate unique student counts based on demographic characteristics, improving accuracy in metrics calculations.

Files changed (3) hide show

README_PICKLES.md +5 -2
webapp/pages/1_uci.py +6 -1
webapp/src/utilidades.py +9 -3

README_PICKLES.md CHANGED Viewed

@@ -8,10 +8,13 @@ Os arquivos pickle contêm DataFrames pandas processados para eliminar a necessi
 ### `uci_dataframe.pkl`
 - **Conteúdo**: DataFrame UCI processado e concatenado
 - **Tamanho**: ~0.12 MB
-- **Registros**: 1,044 estudantes
 - **Colunas**: 34 (incluindo transformações aplicadas)
 - **Processamento**:
-  - Concatenação de student-mat.csv + student-por.csv
   - Transformação de valores categóricos
   - Mapeamento de códigos para labels legíveis

 ### `uci_dataframe.pkl`
 - **Conteúdo**: DataFrame UCI processado e concatenado
 - **Tamanho**: ~0.12 MB
+- **Registros**: 1,044 registros (661 estudantes únicos)
 - **Colunas**: 34 (incluindo transformações aplicadas)
 - **Processamento**:
+  - Concatenação de student-mat.csv (395 registros) + student-por.csv (649 registros)
+  - 366 estudantes aparecem em ambas as matérias (matemática e português)
+  - 25 estudantes apenas em matemática, 270 apenas em português
+  - Total: 661 estudantes únicos
   - Transformação de valores categóricos
   - Mapeamento de códigos para labels legíveis

webapp/pages/1_uci.py CHANGED Viewed

@@ -70,7 +70,12 @@ with st.sidebar:
     )
     st.markdown("---")
     st.markdown("## Informações")
-    st.write(f"**Número de Instâncias:** {df.shape[0]}")
     st.write(f"**Número de Atributos:** {df.shape[1]}")
     st.write(f"**Número de Atributos Numéricos:** {numeric_df.shape[1]}")
     st.write(f"**Número de Atributos Categóricos:** {df.select_dtypes('object').shape[1]}")

     )
     st.markdown("---")
     st.markdown("## Informações")
+    # Calcular estudantes únicos baseado em características demográficas
+    colunas_id = ['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu', 'Mjob', 'Fjob', 'reason', 'guardian']
+    estudantes_unicos = df[colunas_id].drop_duplicates().shape[0]
+    st.write(f"**Número de Registros:** {df.shape[0]} (inclui estudantes em múltiplas matérias)")
+    st.write(f"**Número de Estudantes Únicos:** {estudantes_unicos}")
     st.write(f"**Número de Atributos:** {df.shape[1]}")
     st.write(f"**Número de Atributos Numéricos:** {numeric_df.shape[1]}")
     st.write(f"**Número de Atributos Categóricos:** {df.select_dtypes('object').shape[1]}")

webapp/src/utilidades.py CHANGED Viewed

@@ -67,8 +67,10 @@ def obter_metricas_principais_uci():
                 'estudantes_alcool_alto': 0
             }
-        # Calcular métricas reais
-        total_estudantes = len(df_uci)
         media_nota_final = df_uci['G3'].mean() if 'G3' in df_uci.columns else 0
         taxa_aprovacao = (df_uci['G3'] >= 10).mean() * 100 if 'G3' in df_uci.columns else 0
         media_faltas = df_uci['absences'].mean() if 'absences' in df_uci.columns else 0
@@ -230,8 +232,12 @@ def calcular_metricas_uci(df_uci):
     if df_uci.empty:
         return {}
     metricas = {
-        'total_alunos': len(df_uci),
         'media_nota_final': df_uci['G3'].mean() if 'G3' in df_uci.columns else 0,
         'taxa_aprovacao': (df_uci['G3'] >= 10).mean() * 100 if 'G3' in df_uci.columns else 0,
         'media_faltas': df_uci['absences'].mean() if 'absences' in df_uci.columns else 0,

                 'estudantes_alcool_alto': 0
             }
+        # Calcular métricas reais - contar estudantes únicos baseado em características demográficas
+        # Usar combinação de colunas que identificam unicamente cada estudante
+        colunas_id = ['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu', 'Mjob', 'Fjob', 'reason', 'guardian']
+        total_estudantes = df_uci[colunas_id].drop_duplicates().shape[0]
         media_nota_final = df_uci['G3'].mean() if 'G3' in df_uci.columns else 0
         taxa_aprovacao = (df_uci['G3'] >= 10).mean() * 100 if 'G3' in df_uci.columns else 0
         media_faltas = df_uci['absences'].mean() if 'absences' in df_uci.columns else 0
     if df_uci.empty:
         return {}
+    # Contar estudantes únicos baseado em características demográficas
+    colunas_id = ['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu', 'Mjob', 'Fjob', 'reason', 'guardian']
+    total_estudantes_unicos = df_uci[colunas_id].drop_duplicates().shape[0]
     metricas = {
+        'total_alunos': total_estudantes_unicos,
         'media_nota_final': df_uci['G3'].mean() if 'G3' in df_uci.columns else 0,
         'taxa_aprovacao': (df_uci['G3'] >= 10).mean() * 100 if 'G3' in df_uci.columns else 0,
         'media_faltas': df_uci['absences'].mean() if 'absences' in df_uci.columns else 0,