APISAvant2

Running

App Files Files Community

antonypamo commited on Dec 11, 2025

Commit

1e175ca

verified ·

1 Parent(s): 1aacddb

Update app.py

Browse files

Files changed (1) hide show

app.py +75 -53

app.py CHANGED Viewed

@@ -18,8 +18,6 @@ import joblib
 import torch
 import torch.nn as nn
-from datasets import load_dataset
 # ============================
 # Configuración general
@@ -34,7 +32,6 @@ META_LOGIT_FILENAME  = "logreg_rrf_savant_15.joblib"  # versión 15 features
 # Dataset central con TODOS los artefactos RRF/Savant
 RRF_DATASET_REPO      = "antonypamo/savant_rrf1_curated"
-RRF_TUTOR_DATASET_ID  = RRF_DATASET_REPO  # mismo repo para Tutor
 def hf_data_path(filename: str) -> str:
@@ -533,66 +530,77 @@ def apply_role_profile(scores: Dict[str, float], role_name: Optional[str]) -> Di
 # ============================
-# RRF Tutor: carga de dataset savant_rrf1_curated
 # ============================
-print(f"🔄 [Startup] Cargando dataset para RRF Tutor: {RRF_TUTOR_DATASET_ID}...", flush=True)
-ds_rrf = None
 rrf_corpus_texts: List[str] = []
 rrf_corpus_prompts: List[str] = []
 rrf_corpus_completions: List[str] = []
 rrf_corpus_embeds = None
 rrf_tutor_ready = False
-try:
-    # Cargamos todos los splits y elegimos 'train' o el primero disponible
-    ds_dict = load_dataset(RRF_TUTOR_DATASET_ID)
-    if "train" in ds_dict:
-        ds_rrf = ds_dict["train"]
-        split_name = "train"
-    else:
-        split_name = list(ds_dict.keys())[0]
-        ds_rrf = ds_dict[split_name]
-    print(f"✅ Dataset RRF Tutor cargado desde split '{split_name}'. Ejemplos totales: {len(ds_rrf)}", flush=True)
-    # Nos quedamos solo con ejemplos que tengan prompt y completion
-    ds_rrf = ds_rrf.filter(
-        lambda ex: ex.get("prompt") is not None and ex.get("completion") is not None
-    )
-    print(f"✅ Dataset filtrado a ejemplos con 'prompt' y 'completion': {len(ds_rrf)}", flush=True)
-    if len(ds_rrf) == 0:
-        raise ValueError("Dataset filtrado quedó vacío (sin columnas 'prompt' y 'completion').")
-    print("🔄 [RRF Tutor] Construyendo textos y embeddings...", flush=True)
-    for ex in ds_rrf:
-        p = ex["prompt"]
-        c = ex["completion"]
-        rrf_corpus_prompts.append(p)
-        rrf_corpus_completions.append(c)
-        rrf_corpus_texts.append(p + "\n\n" + c)
-    rrf_corpus_embeds = encoder.encode(
-        rrf_corpus_texts,
-        convert_to_numpy=True,
-        show_progress_bar=True,
-        normalize_embeddings=True,
-    )
-    print("✅ [RRF Tutor] Embeddings construidos.", flush=True)
-    rrf_tutor_ready = True
-except Exception as e:
-    print(f"❌ Error cargando dataset/embeddings de RRF Tutor: {e}", flush=True)
-    ds_rrf = None
-    rrf_corpus_embeds = None
-    rrf_tutor_ready = False
-    print("⚠️ [RRF Tutor] Endpoint /v1/rrf_tutor devolverá error 503 si se usa.", flush=True)
 def rrf_tutor_retrieve_examples(query: str, top_k: int = 3):
     """
-    Recupera los ejemplos más similares desde savant_rrf1_curated
     usando embeddings del encoder RRF.
     """
     if (not rrf_tutor_ready) or rrf_corpus_embeds is None or len(rrf_corpus_embeds) == 0:
@@ -624,7 +632,7 @@ def rrf_tutor_build_answer(query: str, retrieved_examples):
     if not retrieved_examples:
         return (
             "No encontré ejemplos relevantes en el dataset RRF Tutor para tu consulta. "
-            "Verifica que antonypamo/savant_rrf1_curated contenga 'prompt' y 'completion'."
         )
     best = retrieved_examples[0]
@@ -634,7 +642,7 @@ def rrf_tutor_build_answer(query: str, retrieved_examples):
         "🔎 Respuesta basada en el ejemplo más cercano del corpus RRF:\n\n"
         f"{base_completion}\n\n"
         "💡 Nota: Esta es una versión mínima que reutiliza directamente la 'completion' "
-        "del ejemplo más similar en savant_rrf1_curated. En una versión extendida, aquí "
         "se conectaría un LLM pequeño que combine varios ejemplos como contexto."
     )
     return answer
@@ -793,14 +801,28 @@ def root():
 @app.get("/health")
 def health():
     return {
         "status": "ok",
         "encoder_model_id": ENCODER_MODEL_ID,
         "meta_logit_filename": META_LOGIT_FILENAME,
         "N_sites": N,
-        "rrf_tutor_examples": len(rrf_corpus_texts),
         "cnn_loaded": savant_cnn is not None,
         "rrf_nodes_loaded": rrf_nodes is not None,
     }
@@ -836,7 +858,7 @@ def evaluate_endpoint(req: EvaluateRequest):
             "entropy_initial": float(sim["entropy"][0]),
             "entropy_final": float(sim["entropy"][-1]),
             "chirality_initial": float(sim["chirality"][0]),
-            "chirality_final": float(sim["chirality"][-1]),
             "energy_mean": float(np.mean(sim["energy"])),
             "energy_std": float(np.std(sim["energy"])),
             "N_sites": int(N),
@@ -902,7 +924,7 @@ def rrf_tutor_endpoint(body: RRFTutorRequest):
             status_code=503,
             detail=(
                 "RRF Tutor no está listo: embeddings no cargados. "
-                "Verifica el dataset antonypamo/savant_rrf1_curated y reinicia el Space."
             ),
         )

 import torch
 import torch.nn as nn
 # ============================
 # Configuración general
 # Dataset central con TODOS los artefactos RRF/Savant
 RRF_DATASET_REPO      = "antonypamo/savant_rrf1_curated"
 def hf_data_path(filename: str) -> str:
 # ============================
+# RRF Tutor desde JSONL curado
 # ============================
 rrf_corpus_texts: List[str] = []
 rrf_corpus_prompts: List[str] = []
 rrf_corpus_completions: List[str] = []
 rrf_corpus_embeds = None
 rrf_tutor_ready = False
+def _load_rrf_tutor_from_jsonl(path: Optional[str]):
+    global rrf_corpus_texts, rrf_corpus_prompts, rrf_corpus_completions, rrf_corpus_embeds, rrf_tutor_ready
+    if path is None:
+        print("⚠️ [RRF Tutor] No se encontró ruta para rrf_tutor_curated.jsonl", flush=True)
+        rrf_tutor_ready = False
+        return
+    print(f"🔄 [RRF Tutor] Cargando ejemplos desde JSONL: {path}", flush=True)
+    try:
+        examples = []
+        with open(path, "r", encoding="utf-8") as f:
+            for line in f:
+                line = line.strip()
+                if not line:
+                    continue
+                try:
+                    ex = json.loads(line)
+                except Exception:
+                    continue
+                if "prompt" in ex and "completion" in ex and ex["prompt"] and ex["completion"]:
+                    examples.append(ex)
+        if not examples:
+            raise ValueError("No se encontraron ejemplos válidos con 'prompt' y 'completion' en el JSONL.")
+        for ex in examples:
+            p = ex["prompt"]
+            c = ex["completion"]
+            rrf_corpus_prompts.append(p)
+            rrf_corpus_completions.append(c)
+            rrf_corpus_texts.append(p + "\n\n" + c)
+        print(f"🔄 [RRF Tutor] Construyendo embeddings para {len(rrf_corpus_texts)} ejemplos...", flush=True)
+        embeds = encoder.encode(
+            rrf_corpus_texts,
+            convert_to_numpy=True,
+            show_progress_bar=True,
+            normalize_embeddings=True,
+        )
+        rrf_corpus_embeds = embeds
+        rrf_tutor_ready = True
+        print("✅ [RRF Tutor] Embeddings construidos y listos.", flush=True)
+    except Exception as e:
+        print(f"❌ [RRF Tutor] Error cargando JSONL: {e}", flush=True)
+        rrf_corpus_texts = []
+        rrf_corpus_prompts = []
+        rrf_corpus_completions = []
+        rrf_corpus_embeds = None
+        rrf_tutor_ready = False
+        print("⚠️ [RRF Tutor] Endpoint /v1/rrf_tutor devolverá 503 si se usa.", flush=True)
+# Cargar RRF Tutor en startup
+_load_rrf_tutor_from_jsonl(RRF_TUTOR_JSONL_PATH)
 def rrf_tutor_retrieve_examples(query: str, top_k: int = 3):
     """
+    Recupera los ejemplos más similares desde el JSONL curado
     usando embeddings del encoder RRF.
     """
     if (not rrf_tutor_ready) or rrf_corpus_embeds is None or len(rrf_corpus_embeds) == 0:
     if not retrieved_examples:
         return (
             "No encontré ejemplos relevantes en el dataset RRF Tutor para tu consulta. "
+            "Verifica que rrf_tutor_curated.jsonl contenga 'prompt' y 'completion'."
         )
     best = retrieved_examples[0]
         "🔎 Respuesta basada en el ejemplo más cercano del corpus RRF:\n\n"
         f"{base_completion}\n\n"
         "💡 Nota: Esta es una versión mínima que reutiliza directamente la 'completion' "
+        "del ejemplo más similar en el corpus curado. En una versión extendida, aquí "
         "se conectaría un LLM pequeño que combine varios ejemplos como contexto."
     )
     return answer
 @app.get("/health")
 def health():
+    """
+    Endpoint de health corporativo: resume el estado de todos los módulos.
+    """
     return {
         "status": "ok",
         "encoder_model_id": ENCODER_MODEL_ID,
         "meta_logit_filename": META_LOGIT_FILENAME,
         "N_sites": N,
+        "rrf_tutor_examples": len(rrf_corpus_prompts),
+        "rrf_tutor_ready": rrf_tutor_ready,
         "cnn_loaded": savant_cnn is not None,
         "rrf_nodes_loaded": rrf_nodes is not None,
+        "physics_artifacts": {
+            "rrf_resonance_matrix": PHYS_RRF_RESONANCE_MATRIX is not None,
+            "rrf_energy_profile": PHYS_RRF_ENERGY_PROFILE is not None,
+            "rrf_eigen_spectrum": PHYS_RRF_EIGEN_SPECTRUM is not None,
+            "resonance_matrix_13": PHYS_RES_MATRIX_13 is not None,
+            "nodes_13": PHYS_NODES_13 is not None,
+            "energy_logphi_13": PHYS_ENERGY_LOGPHI_13 is not None,
+            "degree_13": PHYS_DEGREE_13 is not None,
+            "adjacency_13": PHYS_ADJ_13 is not None,
+        },
     }
             "entropy_initial": float(sim["entropy"][0]),
             "entropy_final": float(sim["entropy"][-1]),
             "chirality_initial": float(sim["chirality"][0]),
+            "chirality_final": float(sim["chirility"][-1]) if "chirility" in sim else float(sim["chirality"][-1]),
             "energy_mean": float(np.mean(sim["energy"])),
             "energy_std": float(np.std(sim["energy"])),
             "N_sites": int(N),
             status_code=503,
             detail=(
                 "RRF Tutor no está listo: embeddings no cargados. "
+                "Verifica rrf_tutor_curated.jsonl en antonypamo/savant_rrf1_curated y reinicia el Space."
             ),
         )