Spaces:

ricardoadriano
/

atividade1

Sleeping

App Files Files Community

ricardoadriano commited on Nov 6, 2025

Commit

00a2070

verified ·

1 Parent(s): 18661d8

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +44 -92

src/streamlit_app.py CHANGED Viewed

@@ -3,12 +3,11 @@ import numpy as np
 import pandas as pd
 import altair as alt
 import streamlit as st
-from io import BytesIO
 from pathlib import Path
 st.set_page_config(page_title="Simulação Monte Carlo (Dirichlet–Multinomial)", layout="wide")
-# -------------------------- UI: Sidebar --------------------------
 st.sidebar.title("Parâmetros da Simulação")
 N_SIM = st.sidebar.number_input("Número de simulações", min_value=1000, max_value=200_000, value=10_000, step=1000)
 META_APROV = st.sidebar.slider("Meta de aprovação (≥)", 0.50, 0.95, 0.80, 0.01)
@@ -17,11 +16,7 @@ ADD_K = st.sidebar.select_slider("Suavização add-k", options=[0.5, 1.0, 2.0],
 N_MULT = st.sidebar.select_slider("Cenário do tamanho da turma (n ×)", options=[0.9, 1.0, 1.1], value=1.0)
 SEED = st.sidebar.number_input("Semente aleatória", min_value=0, value=42, step=1)
-st.sidebar.markdown("---")
-uploaded = st.sidebar.file_uploader("Carregar CSV (opcional)", type=["csv"])
-st.sidebar.caption("Se não enviar, o app lê automaticamente **Dados/levantamentoTurmas.csv** do repositório.")
-# --------------------- Funções de limpeza/modelo ---------------------
 def _norm_cols(cols):
     return [re.sub(r"\s+", " ", str(c)).strip().replace("%", "pct") for c in cols]
@@ -37,78 +32,54 @@ def _to_num(s):
         errors="coerce"
     )
-def _try_read_csv(path_or_bytes, *, try_seps=(",", ";", "\t"), try_encodings=("utf-8-sig", "utf-8", "latin1")):
     last_err = None
-    for enc in try_encodings:
-        for sep in (None,) + try_seps:  # None = autodetect
             try:
-                if isinstance(path_or_bytes, (str, Path)):
-                    df = pd.read_csv(path_or_bytes, sep=sep, engine="python", encoding=enc)
-                else:
-                    path_or_bytes.seek(0)
-                    df = pd.read_csv(path_or_bytes, sep=sep, engine="python", encoding=enc)
                 if df.shape[1] == 1 and sep is None:
-                    # força ';' se veio uma coluna gigante
-                    if isinstance(path_or_bytes, (str, Path)):
-                        df = pd.read_csv(path_or_bytes, sep=";", engine="python", encoding=enc)
-                    else:
-                        path_or_bytes.seek(0)
-                        df = pd.read_csv(path_or_bytes, sep=";", engine="python", encoding=enc)
-                return df, {"sep": sep if sep is not None else "auto", "encoding": enc}
             except Exception as e:
                 last_err = e
                 continue
-    return None, last_err
 @st.cache_data(show_spinner=False)
-def load_dataframe(file_obj):
-    """
-    Prioriza: 'Dados/levantamentoTurmas.csv' no repositório.
-    Se não houver, tenta upload (se fornecido) e depois 'levantamentoTurmas.csv' na raiz.
-    """
-    # 1) Upload (se houver)
-    if file_obj is not None:
-        raw = file_obj.read()
-        bio = BytesIO(raw)
-        df, meta = _try_read_csv(bio)
-        if df is None:
-            return None, f"Erro ao ler o CSV enviado: {meta}"
-        source = "upload"
-    else:
-        # 2) Caminho oficial no Space
-        primary = Path("Dados/levantamentoTurmas.csv")
-        if primary.exists():
-            df, meta = _try_read_csv(str(primary))
-            if df is None:
-                return None, f"Falha ao ler {primary} ({meta})."
-            source = str(primary)
-        else:
-            # 3) Fallback raiz
-            fallback = Path("levantamentoTurmas.csv")
-            if fallback.exists():
-                df, meta = _try_read_csv(str(fallback))
-                if df is None:
-                    return None, f"Falha ao ler {fallback} ({meta})."
-                source = str(fallback)
-            else:
-                return None, "Arquivo não encontrado. Coloque o CSV em **Dados/levantamentoTurmas.csv** ou faça upload."
-    # ---------------- Normalização ----------------
     df.columns = _norm_cols(df.columns)
     ren = {}
     for c in df.columns:
         lc = c.lower()
-        if _pick(c, [r"^turma"]): ren[c] = "Turma"
-        elif _pick(c, [r"matriculado"]): ren[c] = "Matriculados"
-        elif _pick(c, [r"\baprov"]): ren[c] = "Aprovados" if "pct" not in lc else "pct_Aprov"
-        elif _pick(c, [r"reprov"]): ren[c] = "Reprovados" if "pct" not in lc else "pct_Reprov"
-        elif _pick(c, [r"desistent|evas"]): ren[c] = "Desistentes" if "pct" not in lc else "pct_Desist"
     df = df.rename(columns=ren)
     for c in ["Matriculados","Aprovados","Reprovados","Desistentes","pct_Aprov","pct_Reprov","pct_Desist"]:
-        if c in df.columns: df[c] = _to_num(df[c])
-    # Reconstrói contagens se vier só em %
     if "Aprovados" not in df.columns and "pct_Aprov" in df.columns:
         df["Aprovados"] = (df["pct_Aprov"]/100 * df["Matriculados"]).round()
     if "Reprovados" not in df.columns and "pct_Reprov" in df.columns:
@@ -119,7 +90,7 @@ def load_dataframe(file_obj):
     need = ["Turma","Matriculados","Aprovados","Reprovados","Desistentes"]
     miss = [c for c in need if c not in df.columns]
     if miss:
-        return None, f"Colunas ausentes no CSV ({source}): {miss}"
     base = df[need].copy()
     for c in need[1:]:
@@ -136,7 +107,7 @@ def load_dataframe(file_obj):
     ).clip(lower=0)
     if len(base) == 0:
-        return None, f"Após limpeza, não restaram turmas válidas. Origem: {source}"
     return base.reset_index(drop=True), None
@@ -151,8 +122,8 @@ def simulate_dirichlet_multinomial(base: pd.DataFrame, n_sim: int, meta_aprov: f
         a, rp, dz = int(r["Aprovados"]), int(r["Reprovados"]), int(r["Desistentes"])
         alpha = np.array([a + add_k, rp + add_k, dz + add_k], dtype=float)
-        P = rng.dirichlet(alpha, size=n_sim)           # (n_sim, 3)
-        counts = np.vstack([rng.multinomial(n, p) for p in P])  # (n_sim, 3)
         t_ap = counts[:, 0] / n
         t_dz = counts[:, 2] / n
@@ -169,8 +140,7 @@ def simulate_dirichlet_multinomial(base: pd.DataFrame, n_sim: int, meta_aprov: f
             "P95_Desist": np.percentile(t_dz, 95),
             "Prob_Meta": ((t_ap >= meta_aprov) & (t_dz <= max_evasao)).mean()
         })
-    out = pd.DataFrame(rows).sort_values("Prob_Meta", ascending=False).reset_index(drop=True)
-    return out
 @st.cache_data(show_spinner=False)
 def sample_turma(base: pd.DataFrame, turma_label: str, n_sim: int, add_k: float, n_mult: float, seed: int):
@@ -194,13 +164,11 @@ def sample_turma(base: pd.DataFrame, turma_label: str, n_sim: int, add_k: float,
     C = np.vstack([rng.multinomial(n, p) for p in P])
     return C[:, 0] / n, C[:, 2] / n
-# -------------------------- Carrega dados --------------------------
-file_obj = uploaded if uploaded is not None else None
-base, err = load_dataframe(file_obj)
 st.title("Simulação de Monte Carlo — Dirichlet–Multinomial")
-st.caption("Aprovação, Reprovação e Desistência por turma. Ajuste os parâmetros na lateral e simule.")
 if err:
     st.error(err)
     st.stop()
@@ -208,7 +176,6 @@ if err:
 with st.expander("Ver dados utilizados (base limpa)", expanded=False):
     st.dataframe(base)
-# -------------------------- Rodar simulação --------------------------
 sim_df = simulate_dirichlet_multinomial(
     base=base,
     n_sim=int(N_SIM),
@@ -226,7 +193,6 @@ st.dataframe(sim_df.style.format({
     "Prob_Meta": "{:.3f}"
 }))
-# Download CSV
 st.download_button(
     label="Baixar resultados (CSV)",
     data=sim_df.to_csv(index=False).encode("utf-8"),
@@ -234,7 +200,6 @@ st.download_button(
     mime="text/csv"
 )
-# -------------------------- Gráfico: Prob_Meta por turma --------------------------
 st.subheader("Probabilidade de bater a meta (ordenado)")
 chart_prob = (
     alt.Chart(sim_df.sort_values("Prob_Meta", ascending=True))
@@ -248,12 +213,10 @@ chart_prob = (
             alt.Tooltip("Média_Aprov:Q", format=".3f"),
             alt.Tooltip("Média_Desist:Q", format=".3f"),
         ],
-    )
-    .properties(height=400)
 )
 st.altair_chart(chart_prob, use_container_width=True)
-# -------------------------- Detalhe: Histogramas de turmas --------------------------
 st.subheader("Distribuições simuladas (detalhe por turma)")
 col1, col2 = st.columns(2)
 with col1:
@@ -266,7 +229,6 @@ t_ap, t_dz = sample_turma(base, turma_sel, int(N_SIM), float(ADD_K), float(N_MUL
 if t_ap is None:
     st.warning("Turma não encontrada após normalização.")
 else:
-    # Histograma aprovação
     h_ap = (
         alt.Chart(pd.DataFrame({"taxa_aprov": t_ap}))
         .mark_bar()
@@ -277,7 +239,6 @@ else:
     linha_meta = alt.Chart(pd.DataFrame({"x": [META_APROV]})).mark_rule(strokeDash=[6,4]).encode(x="x:Q")
     st.altair_chart(h_ap + linha_meta, use_container_width=True)
-    # Histograma evasão
     h_dz = (
         alt.Chart(pd.DataFrame({"taxa_evasao": t_dz}))
         .mark_bar()
@@ -286,13 +247,4 @@ else:
         .properties(height=300)
     )
     linha_lim = alt.Chart(pd.DataFrame({"x": [MAX_EVASAO]})).mark_rule(strokeDash=[6,4]).encode(x="x:Q")
-    st.altair_chart(h_dz + linha_lim, use_container_width=True)
-st.markdown(
-    f"""
-**Notas metodológicas**
-- Modelo: \\(\\boldsymbol{{\\pi}}\\sim\\mathrm{{Dirichlet}}(A+k, R+k, D+k)\\), \\(\\mathbf{{X}}\\mid\\boldsymbol{{\\pi}}\\sim\\mathrm{{Multinomial}}(n,\\boldsymbol{{\\pi}})\\).
-- Parâmetros atuais: add-\\(k={ADD_K}\\), \\(n\\) escalado por \\({N_MULT}\\).
-- A **Prob_Meta** é a fração de simulações com aprovação ≥ {META_APROV:.0%} e evasão ≤ {MAX_EVASAO:.0%}.
-"""
-)

 import pandas as pd
 import altair as alt
 import streamlit as st
 from pathlib import Path
 st.set_page_config(page_title="Simulação Monte Carlo (Dirichlet–Multinomial)", layout="wide")
+# ===================== Sidebar: parâmetros =====================
 st.sidebar.title("Parâmetros da Simulação")
 N_SIM = st.sidebar.number_input("Número de simulações", min_value=1000, max_value=200_000, value=10_000, step=1000)
 META_APROV = st.sidebar.slider("Meta de aprovação (≥)", 0.50, 0.95, 0.80, 0.01)
 N_MULT = st.sidebar.select_slider("Cenário do tamanho da turma (n ×)", options=[0.9, 1.0, 1.1], value=1.0)
 SEED = st.sidebar.number_input("Semente aleatória", min_value=0, value=42, step=1)
+# ===================== Helpers =====================
 def _norm_cols(cols):
     return [re.sub(r"\s+", " ", str(c)).strip().replace("%", "pct") for c in cols]
         errors="coerce"
     )
+def _try_read_csv_only_root(path="levantamentoTurmas.csv"):
+    """
+    Lê exclusivamente ./levantamentoTurmas.csv na raiz do Space.
+    Tenta múltiplos separadores e encodings. Não faz upload, nem busca em outras pastas.
+    """
+    p = Path(path)
+    if not p.exists():
+        return None, f"Arquivo esperado não encontrado: {path} (coloque na raiz do Space)."
     last_err = None
+    for enc in ("utf-8-sig", "utf-8", "latin1"):
+        for sep in (None, ",", ";", "\t"):  # None = autodetect
             try:
+                df = pd.read_csv(p, sep=sep, engine="python", encoding=enc)
                 if df.shape[1] == 1 and sep is None:
+                    df = pd.read_csv(p, sep=";", engine="python", encoding=enc)
+                return df, {"source": str(p), "sep": sep if sep is not None else "auto", "encoding": enc}
             except Exception as e:
                 last_err = e
                 continue
+    return None, f"Falha ao ler {path}: {last_err}"
 @st.cache_data(show_spinner=False)
+def load_dataframe_root():
+    df, meta = _try_read_csv_only_root("levantamentoTurmas.csv")
+    if df is None:
+        return None, meta  # mensagem de erro
+    # Normalização de cabeçalhos
     df.columns = _norm_cols(df.columns)
+    # Renomeio inteligente
     ren = {}
     for c in df.columns:
         lc = c.lower()
+        if _pick(c, [r"^turma"]):                 ren[c] = "Turma"
+        elif _pick(c, [r"matriculado"]):          ren[c] = "Matriculados"
+        elif _pick(c, [r"\baprov"]):              ren[c] = "Aprovados" if "pct" not in lc else "pct_Aprov"
+        elif _pick(c, [r"reprov"]):               ren[c] = "Reprovados" if "pct" not in lc else "pct_Reprov"
+        elif _pick(c, [r"desistent|evas"]):       ren[c] = "Desistentes" if "pct" not in lc else "pct_Desist"
     df = df.rename(columns=ren)
+    # Converte números/percentuais
     for c in ["Matriculados","Aprovados","Reprovados","Desistentes","pct_Aprov","pct_Reprov","pct_Desist"]:
+        if c in df.columns:
+            df[c] = _to_num(df[c])
+    # Reconstrói contagens se vierem em %
     if "Aprovados" not in df.columns and "pct_Aprov" in df.columns:
         df["Aprovados"] = (df["pct_Aprov"]/100 * df["Matriculados"]).round()
     if "Reprovados" not in df.columns and "pct_Reprov" in df.columns:
     need = ["Turma","Matriculados","Aprovados","Reprovados","Desistentes"]
     miss = [c for c in need if c not in df.columns]
     if miss:
+        return None, f"Colunas ausentes no CSV raiz: {miss}"
     base = df[need].copy()
     for c in need[1:]:
     ).clip(lower=0)
     if len(base) == 0:
+        return None, "Após limpeza, não restaram turmas válidas."
     return base.reset_index(drop=True), None
         a, rp, dz = int(r["Aprovados"]), int(r["Reprovados"]), int(r["Desistentes"])
         alpha = np.array([a + add_k, rp + add_k, dz + add_k], dtype=float)
+        P = rng.dirichlet(alpha, size=n_sim)
+        counts = np.vstack([rng.multinomial(n, p) for p in P])
         t_ap = counts[:, 0] / n
         t_dz = counts[:, 2] / n
             "P95_Desist": np.percentile(t_dz, 95),
             "Prob_Meta": ((t_ap >= meta_aprov) & (t_dz <= max_evasao)).mean()
         })
+    return pd.DataFrame(rows).sort_values("Prob_Meta", ascending=False).reset_index(drop=True)
 @st.cache_data(show_spinner=False)
 def sample_turma(base: pd.DataFrame, turma_label: str, n_sim: int, add_k: float, n_mult: float, seed: int):
     C = np.vstack([rng.multinomial(n, p) for p in P])
     return C[:, 0] / n, C[:, 2] / n
+# ===================== App =====================
 st.title("Simulação de Monte Carlo — Dirichlet–Multinomial")
+st.caption("O app lê **./levantamentoTurmas.csv** (raiz do Space). Ajuste os parâmetros na lateral e simule.")
+base, err = load_dataframe_root()
 if err:
     st.error(err)
     st.stop()
 with st.expander("Ver dados utilizados (base limpa)", expanded=False):
     st.dataframe(base)
 sim_df = simulate_dirichlet_multinomial(
     base=base,
     n_sim=int(N_SIM),
     "Prob_Meta": "{:.3f}"
 }))
 st.download_button(
     label="Baixar resultados (CSV)",
     data=sim_df.to_csv(index=False).encode("utf-8"),
     mime="text/csv"
 )
 st.subheader("Probabilidade de bater a meta (ordenado)")
 chart_prob = (
     alt.Chart(sim_df.sort_values("Prob_Meta", ascending=True))
             alt.Tooltip("Média_Aprov:Q", format=".3f"),
             alt.Tooltip("Média_Desist:Q", format=".3f"),
         ],
+    ).properties(height=400)
 )
 st.altair_chart(chart_prob, use_container_width=True)
 st.subheader("Distribuições simuladas (detalhe por turma)")
 col1, col2 = st.columns(2)
 with col1:
 if t_ap is None:
     st.warning("Turma não encontrada após normalização.")
 else:
     h_ap = (
         alt.Chart(pd.DataFrame({"taxa_aprov": t_ap}))
         .mark_bar()
     linha_meta = alt.Chart(pd.DataFrame({"x": [META_APROV]})).mark_rule(strokeDash=[6,4]).encode(x="x:Q")
     st.altair_chart(h_ap + linha_meta, use_container_width=True)
     h_dz = (
         alt.Chart(pd.DataFrame({"taxa_evasao": t_dz}))
         .mark_bar()
         .properties(height=300)
     )
     linha_lim = alt.Chart(pd.DataFrame({"x": [MAX_EVASAO]})).mark_rule(strokeDash=[6,4]).encode(x="x:Q")
+    st.altair_chart(h_dz + linha_lim, use_container_width=True)