Spaces:

Pikeras
/

Equitia-evaluation-tool

Sleeping

App Files Files Community

Pikeras commited on Mar 9

Commit

e4aa409

verified ·

1 Parent(s): 3546e59

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +40 -37

src/streamlit_app.py CHANGED Viewed

@@ -52,8 +52,11 @@ def _init_state() -> None:
         "modelo_gen_validado": False,
         "modelo_gen_confirmado": "",
         "eval_running": False,
         "eval_success": False,
         "last_result": None,
     }
     for key, value in defaults.items():
         if key not in st.session_state:
@@ -83,7 +86,8 @@ def _liberar_memoria() -> None:
         torch.cuda.empty_cache()
-def _render_reloj_tiempo_real(inicio_epoch: int) -> None:
         components.html(
                 f"""
                 <div style='padding:0.35rem 0; font-size:0.95rem; color:#374151;'>
@@ -207,6 +211,9 @@ st.caption("Despliegue público en Hugging Face Spaces")
 _init_state()
 modo = st.radio(
     "Selecciona el modo",
     options=[ModoEvaluacion.POR_DEFECTO.value, ModoEvaluacion.PERSONALIZADA.value],
@@ -214,27 +221,6 @@ modo = st.radio(
     disabled=st.session_state["eval_running"],
 )
-if st.session_state["eval_running"] and not st.session_state.get("eval_success"):
-    st.warning("Hay una evaluación en curso o interrumpida por una interacción.")
-    st.caption("No cambies parámetros ahora. Puedes cancelarla de forma segura.")
-    confirmar_cancelacion = st.checkbox(
-        "Confirmo que quiero cancelar la evaluación actual",
-        key="confirmar_cancelacion_eval",
-        value=False,
-    )
-    if st.button("Cancelar evaluación", key="cancelar_eval_btn"):
-        if confirmar_cancelacion:
-            st.session_state["eval_running"] = False
-            st.session_state["eval_success"] = False
-            st.session_state["last_result"] = None
-            st.session_state["modelo_eval_validado"] = False
-            st.session_state["modelo_eval_confirmado"] = ""
-            _liberar_memoria()
-            st.rerun()
-        else:
-            st.error("Debes confirmar la cancelación antes de continuar.")
-    st.stop()
 # Unico parametro editable en UI para ambos modos.
 timeout_segundos = st.slider(
     "Timeout por llamada (segundos)",
@@ -367,6 +353,7 @@ selected_eval_types = st.multiselect(
     options=TIPOS_EVALUACION_DISPONIBLES,
     default=["preguntas_cerradas_esperadas"],
     format_func=lambda x: LABELS_TIPOS_EVALUACION.get(x, x),
     disabled=st.session_state["eval_running"],
 )
@@ -389,16 +376,29 @@ if tipos_no_disponibles:
 if st.button("Comenzar evaluación", key="comenzar_eval", disabled=st.session_state["eval_running"]):
     st.session_state["eval_running"] = True
     st.session_state["eval_success"] = False
     st.session_state["last_result"] = None
     _liberar_memoria()
     request = JobRequest(
         modo_evaluacion=ModoEvaluacion.POR_DEFECTO.value,
         tipo_evaluacion=TipoEvaluacion.PREGUNTAS_CERRADAS_ESPERADAS.value,
-        modelo_hf=st.session_state["modelo_eval_confirmado"],
-        timeout_segundos=timeout_segundos,
     )
     temp_dir = Path(tempfile.mkdtemp(prefix="equitia_space_"))
@@ -408,33 +408,33 @@ if st.button("Comenzar evaluación", key="comenzar_eval", disabled=st.session_st
     progress = st.progress(0.0)
     progress_label = st.empty()
-    estado_fase = st.empty()
-    _render_reloj_tiempo_real(start_epoch)
     def on_progress(done: int, total: int, current_file: str) -> None:
         ratio = (done / total) if total else 0.0
         elapsed = _formatear_duracion(time.perf_counter() - start_ts)
         progress.progress(ratio)
         progress_label.info(
-            f"Progreso: {done}/{total} prompts evaluados ({ratio * 100:.1f}%). Archivo actual: {current_file}. Tiempo: {elapsed}"
         )
     def invocar_prompt(prompt: str, instruccion_sistema: str | None = None) -> str:
         return invocar_modelo_transformers(
-            st.session_state["modelo_eval_confirmado"],
             prompt,
             instruccion_sistema=instruccion_sistema,
         )
-    try:
         with st.spinner("Obteniendo modelo a evaluar..."):
-            cargar_modelo_transformers(st.session_state["modelo_eval_confirmado"])
         with st.spinner("Ejecutando proceso de evaluación..."):
             result = ejecutar_job(
                 request,
                 job_dir,
-                selected_eval_types=selected_eval_types,
                 invocar_modelo_fn=invocar_prompt,
                 progress_callback=on_progress,
             )
@@ -442,7 +442,7 @@ if st.button("Comenzar evaluación", key="comenzar_eval", disabled=st.session_st
         progress.progress(1.0)
         elapsed_total = _formatear_duracion(time.perf_counter() - start_ts)
         progress_label.success(f"Evaluación completada. Tiempo total: {elapsed_total}")
-        estado_fase.success("Proceso finalizado correctamente")
         resumen_path = result.job_dir / "resumen.json"
         resultados_csv = result.graficos_dir / "resultados.csv"
@@ -453,7 +453,7 @@ if st.button("Comenzar evaluación", key="comenzar_eval", disabled=st.session_st
                 resumen = json.load(f)
         zip_id = int(time.time())
-        modelo_slug = _slug_modelo(st.session_state["modelo_eval_confirmado"])
         zip_filename = f"resultados_equitia_{modelo_slug}_{zip_id}.zip"
         zip_base = temp_dir / f"resultados_equitia_{zip_id}"
         zip_path = Path(shutil.make_archive(str(zip_base), "zip", str(result.job_dir)))
@@ -481,17 +481,20 @@ if st.button("Comenzar evaluación", key="comenzar_eval", disabled=st.session_st
             "zip_bytes": zip_path.read_bytes(),
             "zip_filename": zip_filename,
             "elapsed_total": elapsed_total,
-            "modelo": st.session_state["modelo_eval_confirmado"],
         }
         st.session_state["eval_success"] = True
     except Exception as exc:
-        st.error(f"Error durante la evaluación: {exc}")
-        estado_fase.error("Proceso finalizado con error")
     finally:
         st.session_state["eval_running"] = False
         _liberar_memoria()
         shutil.rmtree(temp_dir, ignore_errors=True)
 if st.session_state.get("eval_success") and st.session_state.get("last_result"):
     resultado = st.session_state["last_result"]

         "modelo_gen_validado": False,
         "modelo_gen_confirmado": "",
         "eval_running": False,
+        "eval_requested": False,
         "eval_success": False,
         "last_result": None,
+        "pending_eval": None,
+        "eval_error": None,
     }
     for key, value in defaults.items():
         if key not in st.session_state:
         torch.cuda.empty_cache()
+def _render_reloj_tiempo_real(inicio_epoch: int, placeholder) -> None:
+    with placeholder:
         components.html(
                 f"""
                 <div style='padding:0.35rem 0; font-size:0.95rem; color:#374151;'>
 _init_state()
+if st.session_state.get("eval_error"):
+    st.error(st.session_state["eval_error"])
 modo = st.radio(
     "Selecciona el modo",
     options=[ModoEvaluacion.POR_DEFECTO.value, ModoEvaluacion.PERSONALIZADA.value],
     disabled=st.session_state["eval_running"],
 )
 # Unico parametro editable en UI para ambos modos.
 timeout_segundos = st.slider(
     "Timeout por llamada (segundos)",
     options=TIPOS_EVALUACION_DISPONIBLES,
     default=["preguntas_cerradas_esperadas"],
     format_func=lambda x: LABELS_TIPOS_EVALUACION.get(x, x),
+    key="selected_eval_types",
     disabled=st.session_state["eval_running"],
 )
 if st.button("Comenzar evaluación", key="comenzar_eval", disabled=st.session_state["eval_running"]):
     st.session_state["eval_running"] = True
+    st.session_state["eval_requested"] = True
     st.session_state["eval_success"] = False
     st.session_state["last_result"] = None
+    st.session_state["eval_error"] = None
+    st.session_state["pending_eval"] = {
+        "modelo_hf": st.session_state["modelo_eval_confirmado"],
+        "timeout_segundos": timeout_segundos,
+        "selected_eval_types": selected_eval_types,
+    }
     _liberar_memoria()
+    st.rerun()
+if st.session_state.get("eval_running") and st.session_state.get("eval_requested"):
+    pending = st.session_state.get("pending_eval") or {}
+    modelo_hf = str(pending.get("modelo_hf", st.session_state.get("modelo_eval_confirmado", ""))).strip()
+    timeout_pendiente = int(pending.get("timeout_segundos", timeout_segundos))
+    tipos_pendientes = pending.get("selected_eval_types") or ["preguntas_cerradas_esperadas"]
     request = JobRequest(
         modo_evaluacion=ModoEvaluacion.POR_DEFECTO.value,
         tipo_evaluacion=TipoEvaluacion.PREGUNTAS_CERRADAS_ESPERADAS.value,
+        modelo_hf=modelo_hf,
+        timeout_segundos=timeout_pendiente,
     )
     temp_dir = Path(tempfile.mkdtemp(prefix="equitia_space_"))
     progress = st.progress(0.0)
     progress_label = st.empty()
+    timer_placeholder = st.empty()
+    _render_reloj_tiempo_real(start_epoch, timer_placeholder)
     def on_progress(done: int, total: int, current_file: str) -> None:
         ratio = (done / total) if total else 0.0
         elapsed = _formatear_duracion(time.perf_counter() - start_ts)
         progress.progress(ratio)
         progress_label.info(
+            f"Progreso: {done}/{total} prompts evaluados ({ratio * 100:.1f}%). Tiempo último prompt evaluado: {elapsed}. Archivo actual: {current_file}"
         )
     def invocar_prompt(prompt: str, instruccion_sistema: str | None = None) -> str:
         return invocar_modelo_transformers(
+            modelo_hf,
             prompt,
             instruccion_sistema=instruccion_sistema,
         )
+    try:
         with st.spinner("Obteniendo modelo a evaluar..."):
+            cargar_modelo_transformers(modelo_hf)
         with st.spinner("Ejecutando proceso de evaluación..."):
             result = ejecutar_job(
                 request,
                 job_dir,
+                selected_eval_types=tipos_pendientes,
                 invocar_modelo_fn=invocar_prompt,
                 progress_callback=on_progress,
             )
         progress.progress(1.0)
         elapsed_total = _formatear_duracion(time.perf_counter() - start_ts)
         progress_label.success(f"Evaluación completada. Tiempo total: {elapsed_total}")
+        timer_placeholder.empty()
         resumen_path = result.job_dir / "resumen.json"
         resultados_csv = result.graficos_dir / "resultados.csv"
                 resumen = json.load(f)
         zip_id = int(time.time())
+        modelo_slug = _slug_modelo(modelo_hf)
         zip_filename = f"resultados_equitia_{modelo_slug}_{zip_id}.zip"
         zip_base = temp_dir / f"resultados_equitia_{zip_id}"
         zip_path = Path(shutil.make_archive(str(zip_base), "zip", str(result.job_dir)))
             "zip_bytes": zip_path.read_bytes(),
             "zip_filename": zip_filename,
             "elapsed_total": elapsed_total,
+            "modelo": modelo_hf,
         }
         st.session_state["eval_success"] = True
     except Exception as exc:
+        st.session_state["eval_error"] = f"Error durante la evaluación: {exc}"
+        timer_placeholder.empty()
     finally:
         st.session_state["eval_running"] = False
+        st.session_state["eval_requested"] = False
+        st.session_state["pending_eval"] = None
         _liberar_memoria()
         shutil.rmtree(temp_dir, ignore_errors=True)
+        st.rerun()
 if st.session_state.get("eval_success") and st.session_state.get("last_result"):
     resultado = st.session_state["last_result"]