Spaces:

Pikeras
/

Equitia-evaluation-tool

Sleeping

App Files Files Community

Pikeras commited on Mar 10

Commit

274ba7a

verified ·

1 Parent(s): 5c0c688

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +100 -96

src/streamlit_app.py CHANGED Viewed

@@ -244,6 +244,9 @@ st.title("EQUITIA · Evaluación de sesgos LLM")
 st.caption("Despliegue público en Hugging Face Spaces")
 _init_state()
 if st.session_state.get("eval_error"):
     st.error(st.session_state["eval_error"])
@@ -255,16 +258,19 @@ modo = st.radio(
     disabled=st.session_state["eval_running"],
 )
-# Unico parametro editable en UI para ambos modos.
-timeout_segundos = st.slider(
-    "Timeout por llamada (segundos)",
-    min_value=10,
-    max_value=300,
-    value=120,
-    disabled=st.session_state["eval_running"],
-)
-if modo == ModoEvaluacion.PERSONALIZADA.value:
     st.info("La evaluación personalizada se implementará después. Aquí solo preseleccionas modelos por ahora.")
     plantilla_json = st.file_uploader(
@@ -324,106 +330,104 @@ if modo == ModoEvaluacion.PERSONALIZADA.value:
     st.stop()
-# Flujo: Evaluación por defecto
-modelo_eval_option = st.selectbox(
-    "Modelo a evaluar",
-    MODELOS_PREDEFINIDOS,
-    key="modelo_eval_option",
-    disabled=st.session_state["eval_running"],
-)
-modelo_eval_input = ""
-if modelo_eval_option == "Other Model":
-    modelo_eval_input = st.text_input(
-        "Escribe otro modelo para evaluar",
-        key="modelo_eval_otro",
         disabled=st.session_state["eval_running"],
     )
-modelo_eval_actual = modelo_eval_input.strip() if modelo_eval_option == "Other Model" else modelo_eval_option
-if (
-    st.session_state["modelo_eval_validado"]
-    and st.session_state["modelo_eval_confirmado"] != modelo_eval_actual
-):
-    st.session_state["modelo_eval_validado"] = False
-    st.session_state["modelo_eval_confirmado"] = ""
-if st.button("Validar modelo a evaluar", key="validar_modelo_eval", disabled=st.session_state["eval_running"]):
-    modelo_eval = modelo_eval_input.strip() if modelo_eval_option == "Other Model" else modelo_eval_option
-    if not modelo_eval:
-        st.error("Debes indicar un modelo para evaluar.")
-    else:
-        ok, msg = validar_modelo_existe(modelo_eval)
-        if ok:
-            st.session_state["modelo_eval_validado"] = True
-            st.session_state["modelo_eval_confirmado"] = modelo_eval
-            st.success(msg)
         else:
-            st.session_state["modelo_eval_validado"] = False
-            st.error(msg)
-if not st.session_state["modelo_eval_validado"]:
-    st.warning("Primero valida un modelo para evaluar.")
-    st.stop()
-st.success(f"Modelo evaluador confirmado: {st.session_state['modelo_eval_confirmado']}")
-tamanyo_estimado_b = _estimar_tamanyo_modelo_b(st.session_state["modelo_eval_confirmado"])
-if not torch.cuda.is_available() and tamanyo_estimado_b is not None and tamanyo_estimado_b > 4:
-    st.error(
-        "Modelo potencialmente demasiado grande para Space CPU de 16 GiB. "
-        "Usa preferiblemente <= 4B para evitar OOM."
-    )
-    permitir_modelo_grande = st.checkbox(
-        "Entiendo el riesgo de memoria y quiero continuar igualmente",
-        value=False,
-        key="confirmar_modelo_grande_cpu",
     )
-    if not permitir_modelo_grande:
-        st.stop()
-selected_eval_types = st.multiselect(
-    "Tipos de evaluación a ejecutar",
-    options=TIPOS_EVALUACION_DISPONIBLES,
-    default=["preguntas_cerradas_esperadas"],
-    format_func=lambda x: LABELS_TIPOS_EVALUACION.get(x, x),
-    key="selected_eval_types",
-    disabled=st.session_state["eval_running"],
-)
-if not selected_eval_types:
-    st.warning("Debes seleccionar al menos un tipo de evaluación.")
-    st.stop()
-if "preguntas_cerradas_esperadas" not in selected_eval_types:
-    st.error("Por ahora solo está implementada 'preguntas_cerradas_esperadas'.")
-    st.stop()
-tipos_no_disponibles = [
-    t for t in selected_eval_types if t != "preguntas_cerradas_esperadas"
-]
-if tipos_no_disponibles:
-    st.info(
-        "Estos tipos quedan reservados para próximas iteraciones y no se ejecutarán ahora: "
-        + ", ".join(LABELS_TIPOS_EVALUACION.get(t, t) for t in tipos_no_disponibles)
-    )
-mostrar_boton_comenzar = not (
-    st.session_state.get("eval_success") and st.session_state.get("last_result")
-)
-if mostrar_boton_comenzar and st.button("Comenzar evaluación", key="comenzar_eval", disabled=st.session_state["eval_running"]):
-    st.session_state["eval_running"] = True
-    st.session_state["eval_requested"] = True
-    st.session_state["eval_success"] = False
-    st.session_state["last_result"] = None
-    st.session_state["eval_error"] = None
-    st.session_state["pending_eval"] = {
-        "modelo_hf": st.session_state["modelo_eval_confirmado"],
-        "timeout_segundos": timeout_segundos,
-        "selected_eval_types": selected_eval_types,
-    }
-    _liberar_memoria(liberar_modelo_cache=True)
-    st.rerun()
 if st.session_state.get("eval_running"):
     st.warning("Proceso en ejecución. Cancelar detiene la evaluación y descarta resultados parciales.")

 st.caption("Despliegue público en Hugging Face Spaces")
 _init_state()
+mostrar_solo_resultados = bool(
+    st.session_state.get("eval_success") and st.session_state.get("last_result")
+)
 if st.session_state.get("eval_error"):
     st.error(st.session_state["eval_error"])
     disabled=st.session_state["eval_running"],
 )
+if not mostrar_solo_resultados:
+    # Unico parametro editable en UI para ambos modos.
+    timeout_segundos = st.slider(
+        "Timeout por llamada (segundos)",
+        min_value=10,
+        max_value=300,
+        value=120,
+        disabled=st.session_state["eval_running"],
+    )
+else:
+    timeout_segundos = 120
+if not mostrar_solo_resultados and modo == ModoEvaluacion.PERSONALIZADA.value:
     st.info("La evaluación personalizada se implementará después. Aquí solo preseleccionas modelos por ahora.")
     plantilla_json = st.file_uploader(
     st.stop()
+if not mostrar_solo_resultados:
+    # Flujo: Evaluación por defecto
+    modelo_eval_option = st.selectbox(
+        "Modelo a evaluar",
+        MODELOS_PREDEFINIDOS,
+        key="modelo_eval_option",
         disabled=st.session_state["eval_running"],
     )
+    modelo_eval_input = ""
+    if modelo_eval_option == "Other Model":
+        modelo_eval_input = st.text_input(
+            "Escribe otro modelo para evaluar",
+            key="modelo_eval_otro",
+            disabled=st.session_state["eval_running"],
+        )
+    modelo_eval_actual = modelo_eval_input.strip() if modelo_eval_option == "Other Model" else modelo_eval_option
+    if (
+        st.session_state["modelo_eval_validado"]
+        and st.session_state["modelo_eval_confirmado"] != modelo_eval_actual
+    ):
+        st.session_state["modelo_eval_validado"] = False
+        st.session_state["modelo_eval_confirmado"] = ""
+    if st.button("Validar modelo a evaluar", key="validar_modelo_eval", disabled=st.session_state["eval_running"]):
+        modelo_eval = modelo_eval_input.strip() if modelo_eval_option == "Other Model" else modelo_eval_option
+        if not modelo_eval:
+            st.error("Debes indicar un modelo para evaluar.")
         else:
+            ok, msg = validar_modelo_existe(modelo_eval)
+            if ok:
+                st.session_state["modelo_eval_validado"] = True
+                st.session_state["modelo_eval_confirmado"] = modelo_eval
+                st.success(msg)
+            else:
+                st.session_state["modelo_eval_validado"] = False
+                st.error(msg)
+    if not st.session_state["modelo_eval_validado"]:
+        st.warning("Primero valida un modelo para evaluar.")
+        st.stop()
+    st.success(f"Modelo evaluador confirmado: {st.session_state['modelo_eval_confirmado']}")
+    tamanyo_estimado_b = _estimar_tamanyo_modelo_b(st.session_state["modelo_eval_confirmado"])
+    if not torch.cuda.is_available() and tamanyo_estimado_b is not None and tamanyo_estimado_b > 4:
+        st.error(
+            "Modelo potencialmente demasiado grande para Space CPU de 16 GiB. "
+            "Usa preferiblemente <= 4B para evitar OOM."
+        )
+        permitir_modelo_grande = st.checkbox(
+            "Entiendo el riesgo de memoria y quiero continuar igualmente",
+            value=False,
+            key="confirmar_modelo_grande_cpu",
+        )
+        if not permitir_modelo_grande:
+            st.stop()
+    selected_eval_types = st.multiselect(
+        "Tipos de evaluación a ejecutar",
+        options=TIPOS_EVALUACION_DISPONIBLES,
+        default=["preguntas_cerradas_esperadas"],
+        format_func=lambda x: LABELS_TIPOS_EVALUACION.get(x, x),
+        key="selected_eval_types",
+        disabled=st.session_state["eval_running"],
     )
+    if not selected_eval_types:
+        st.warning("Debes seleccionar al menos un tipo de evaluación.")
+        st.stop()
+    if "preguntas_cerradas_esperadas" not in selected_eval_types:
+        st.error("Por ahora solo está implementada 'preguntas_cerradas_esperadas'.")
+        st.stop()
+    tipos_no_disponibles = [
+        t for t in selected_eval_types if t != "preguntas_cerradas_esperadas"
+    ]
+    if tipos_no_disponibles:
+        st.info(
+            "Estos tipos quedan reservados para próximas iteraciones y no se ejecutarán ahora: "
+            + ", ".join(LABELS_TIPOS_EVALUACION.get(t, t) for t in tipos_no_disponibles)
+        )
+    if st.button("Comenzar evaluación", key="comenzar_eval", disabled=st.session_state["eval_running"]):
+        st.session_state["eval_running"] = True
+        st.session_state["eval_requested"] = True
+        st.session_state["eval_success"] = False
+        st.session_state["last_result"] = None
+        st.session_state["eval_error"] = None
+        st.session_state["pending_eval"] = {
+            "modelo_hf": st.session_state["modelo_eval_confirmado"],
+            "timeout_segundos": timeout_segundos,
+            "selected_eval_types": selected_eval_types,
+        }
+        _liberar_memoria(liberar_modelo_cache=True)
+        st.rerun()
 if st.session_state.get("eval_running"):
     st.warning("Proceso en ejecución. Cancelar detiene la evaluación y descarta resultados parciales.")