APISAvant2

Running

App Files Files Community

antonypamo commited on Dec 11, 2025

Commit

777913e

verified ·

1 Parent(s): 193cdd8

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -74

app.py CHANGED Viewed

@@ -531,89 +531,63 @@ def apply_role_profile(scores: Dict[str, float], role_name: Optional[str]) -> Di
 # ============================
-# RRF Tutor (curated JSONL)
 # ============================
-print("🔄 [Startup] Cargando dataset RRF Tutor (curated JSONL)...", flush=True)
 rrf_corpus_texts: List[str] = []
 rrf_corpus_prompts: List[str] = []
 rrf_corpus_completions: List[str] = []
-if RRF_TUTOR_JSONL_PATH is not None:
-    try:
-        with open(RRF_TUTOR_JSONL_PATH, "r", encoding="utf-8") as f:
-            for line in f:
-                if not line.strip():
-                    continue
-                ex = json.loads(line)
-                p = ex.get("prompt")
-                c = ex.get("completion")
-                if p and c:
-                    rrf_corpus_prompts.append(p)
-                    rrf_corpus_completions.append(c)
-                    rrf_corpus_texts.append(p + "\n\n" + c)
-        if rrf_corpus_texts:
-            print(f"✅ RRF Tutor: {len(rrf_corpus_texts)} ejemplos cargados.", flush=True)
-            rrf_corpus_embeds = encoder.encode(
-                rrf_corpus_texts,
-                convert_to_numpy=True,
-                show_progress_bar=True,
-                normalize_embeddings=True,
-            )
-            print("✅ [RRF Tutor] Embeddings construidos.", flush=True)
-        else:
-            print("⚠️ RRF Tutor JSONL no tiene ejemplos válidos.", file=sys.stderr, flush=True)
-            rrf_corpus_embeds = np.zeros((0, 384), dtype=np.float32)
-    except Exception as e:
-        print(f"❌ Error cargando/parsing RRF Tutor JSONL: {e}", file=sys.stderr, flush=True)
-        rrf_corpus_embeds = np.zeros((0, 384), dtype=np.float32)
-else:
-    print("⚠️ No se encontró RRF_TUTOR_JSONL_PATH.", file=sys.stderr, flush=True)
-    rrf_corpus_embeds = np.zeros((0, 384), dtype=np.float32)
-def rrf_tutor_retrieve_examples(query: str, top_k: int = 3):
-    if rrf_corpus_embeds is None or len(rrf_corpus_embeds) == 0:
-        raise RuntimeError("Embeddings de RRF Tutor no están disponibles.")
-    q_emb = encoder.encode([query], convert_to_numpy=True, normalize_embeddings=True)[0]
-    sims = np.dot(rrf_corpus_embeds, q_emb)
-    top_k = min(top_k, len(rrf_corpus_embeds))
-    top_idx = np.argsort(-sims)[:top_k]
-    results = []
-    for idx in top_idx:
-        results.append(
-            {
-                "idx": int(idx),
-                "score": float(sims[idx]),
-                "prompt": rrf_corpus_prompts[idx],
-                "completion": rrf_corpus_completions[idx],
-            }
-        )
-    return results
-def rrf_tutor_build_answer(query: str, retrieved_examples):
-    if not retrieved_examples:
-        return (
-            "No encontré ejemplos relevantes en el dataset RRF Tutor para tu consulta. "
-            "Intenta reformular la pregunta o revisar la configuración del dataset."
-        )
-    best = retrieved_examples[0]
-    base_completion = best["completion"]
-    answer = (
-        "🔎 Respuesta basada en el ejemplo más cercano del corpus RRF:\n\n"
-        f"{base_completion}\n\n"
-        "💡 Nota: Esta es una versión mínima que reutiliza directamente la 'completion' "
-        "del ejemplo más similar en savant_rrf1_curated. En una versión extendida, aquí se "
-        "conectaría un LLM pequeño que use varios ejemplos como contexto."
     )
-    return answer
 # ============================

 # ============================
+# RRF Tutor: carga de dataset savant_rrf1_curated
 # ============================
+from datasets import load_dataset
+print(f"🔄 [Startup] Cargando dataset para RRF Tutor: {RRF_TUTOR_DATASET_ID}...", flush=True)
+ds_rrf = None
 rrf_corpus_texts: List[str] = []
 rrf_corpus_prompts: List[str] = []
 rrf_corpus_completions: List[str] = []
+rrf_corpus_embeds = None
+rrf_tutor_ready = False
+try:
+    # Cargamos todos los splits y elegimos 'train' o el primero disponible
+    ds_dict = load_dataset(RRF_TUTOR_DATASET_ID)
+    if "train" in ds_dict:
+        ds_rrf = ds_dict["train"]
+        split_name = "train"
+    else:
+        split_name = list(ds_dict.keys())[0]
+        ds_rrf = ds_dict[split_name]
+    print(f"✅ Dataset RRF Tutor cargado desde split '{split_name}'. Ejemplos totales: {len(ds_rrf)}", flush=True)
+    # Nos quedamos solo con ejemplos que tengan prompt y completion
+    ds_rrf = ds_rrf.filter(
+        lambda ex: ex.get("prompt") is not None and ex.get("completion") is not None
     )
+    print(f"✅ Dataset filtrado a ejemplos con 'prompt' y 'completion': {len(ds_rrf)}", flush=True)
+    if len(ds_rrf) == 0:
+        raise ValueError("Dataset filtrado quedó vacío (sin columnas 'prompt' y 'completion').")
+    print("🔄 [RRF Tutor] Construyendo textos y embeddings...", flush=True)
+    for ex in ds_rrf:
+        p = ex["prompt"]
+        c = ex["completion"]
+        rrf_corpus_prompts.append(p)
+        rrf_corpus_completions.append(c)
+        rrf_corpus_texts.append(p + "\n\n" + c)
+    rrf_corpus_embeds = encoder.encode(
+        rrf_corpus_texts,
+        convert_to_numpy=True,
+        show_progress_bar=True,
+        normalize_embeddings=True,
+    )
+    print("✅ [RRF Tutor] Embeddings construidos.", flush=True)
+    rrf_tutor_ready = True
+except Exception as e:
+    print(f"❌ Error cargando dataset/embeddings de RRF Tutor: {e}", flush=True)
+    ds_rrf = None
+    rrf_corpus_embeds = None
+    rrf_tutor_ready = False
+    print("⚠️ [RRF Tutor] Endpoint /v1/rrf_tutor devolverá error 503 si se usa.", flush=True)
 # ============================