Spaces:

tecuhtli
/

Mori_Bot

Sleeping

App Files Files Community

tecuhtli commited on Oct 27

Commit

afe0be6

verified ·

1 Parent(s): a6f140a

Update app.py

Browse files

Files changed (1) hide show

app.py +210 -12

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 #***************************************************************************
-#Importing Libraries
 #***************************************************************************
 import os, sys, warnings, torch, json, csv, warnings, joblib, uuid, re, unicodedata, faiss
 import numpy as np
@@ -11,11 +11,7 @@ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, AutoModelForSeque
 from unidecode import unidecode
 from datetime import datetime
 from huggingface_hub import hf_hub_download, login
-#***************************************************************************
-#Defining default paths for the model to work
-#***************************************************************************
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 #***************************************************************************
 #Setting up variables
@@ -180,9 +176,20 @@ def sidebar_params():
         # En session_state:
         if "PROMPT_CASES" not in st.session_state:
             st.session_state.PROMPT_CASES = load_prompt_cases()
-        st.subheader("🧾 Vista previa del Prompt")
         if "last_prompt" in st.session_state and st.session_state["last_prompt"]:
             with st.expander("Mostrar prompt generado"):
@@ -818,9 +825,201 @@ def contextual_asnwer(question, label_classes, context_model, cont_tok,
         set_seeds(gen_params["seed"])
     if context == "social":
         return social_asnwer(question, soc_model, soc_tok, device, gen_params=gen_params, block_web=block_web), context
     else:
-        return technical_asnwer(question, context, tec_model, tec_tok, device, gen_params=gen_params), context
 #***************************************************************************
 # MAIN
@@ -900,11 +1099,10 @@ if __name__ == '__main__':
             )
             # 🧠 Guarda historial
-            hora_actual = dt.datetime.now().isoformat()
             st.session_state.historial.append(("Tú", user_question, hora_actual))
-            hora_actual = dt.datetime.now().isoformat()
             st.session_state.historial.append(("Mori", response, hora_actual))
             # 💾 Guarda conversación

 #***************************************************************************
+# Importing Libraries
 #***************************************************************************
 import os, sys, warnings, torch, json, csv, warnings, joblib, uuid, re, unicodedata, faiss
 import numpy as np
 from unidecode import unidecode
 from datetime import datetime
 from huggingface_hub import hf_hub_download, login
+from sentence_transformers import SentenceTransformer  # RAG embeddings
 #***************************************************************************
 #Setting up variables
         # En session_state:
         if "PROMPT_CASES" not in st.session_state:
             st.session_state.PROMPT_CASES = load_prompt_cases()
+        st.markdown("---")
+        st.title("👀 RAG (Modelo Técnico)")
+        ss.setdefault("use_rag", True)
+        ss.setdefault("rag_k", 5)
+        ss.use_rag = st.checkbox("Usar RAG (técnico)", value=ss.use_rag,
+                                 help="Recupera evidencias de ./Vec_DataBase/mori.* y las cita en el prompt.")
+        ss.rag_k = st.slider("k evidencias", 3, 9, int(ss.rag_k),
+                             help="https://huggingface.co/docs/transformers/en/model_doc/rag")
+        st.markdown("---")
+        st.title("🧾 Vista previa del Prompt")
         if "last_prompt" in st.session_state and st.session_state["last_prompt"]:
             with st.expander("Mostrar prompt generado"):
         set_seeds(gen_params["seed"])
     if context == "social":
+        # Nota: por resultados del análisis, RAG social no aporta (dataset muy redundante).
+        # Puedes activarlo en el futuro si amplías la diversidad.
         return social_asnwer(question, soc_model, soc_tok, device, gen_params=gen_params, block_web=block_web), context
     else:
+        # Técnico: si el usuario activó RAG, lo usamos
+        use_rag = st.session_state.get("use_rag", False)
+        if use_rag:
+            # Carga única de E5+FAISS (cache_resource)
+            dev_str = "cuda" if torch.cuda.is_available() else "cpu"
+            e5, index, metas = load_rag_assets(dev_str)
+            if e5 is None:
+                # Fallback si no se encuentra la base RAG
+                return technical_asnwer(question, context, tec_model, tec_tok, device, gen_params=gen_params), context
+            resp = technical_answer_rag(
+                question, tec_model, tec_tok, device, gen_params,
+                e5=e5, index=index, metas=metas,
+                k=st.session_state.get("rag_k", 5), sim_threshold=0.40
+            )
+            return resp, context
+        else:
+            return technical_asnwer(question, context, tec_model, tec_tok, device, gen_params=gen_params), context
+# ============================
+# RAG assets (carga única)
+# ============================
+@st.cache_resource
+def load_rag_assets(device_str: str = "cpu"):
+    """Carga E5 + FAISS + metadatos desde ./Vec_DataBase con nombres mori.*"""
+    vdb_dir = Path("Vec_DataBase")
+    faiss_path = vdb_dir / "mori.faiss"
+    metas_path = vdb_dir / "mori_metas.json"
+    if not faiss_path.exists() or not metas_path.exists():
+        st.warning("⚠️ No se encontró la base RAG en ./Vec_DataBase (mori.faiss / mori_metas.json).")
+        return None, None, None
+    e5 = SentenceTransformer("intfloat/multilingual-e5-base", device=device_str)
+    index = faiss.read_index(str(faiss_path))
+    with open(metas_path, "r", encoding="utf-8") as f:
+        metas = json.load(f)
+    return e5, index, metas
+def rag_retrieve(e5, index, metas, user_text: str, k: int = 5):
+    """Top-k por similitud coseno (IP + embeddings normalizados)."""
+    if e5 is None or index is None or metas is None or index.ntotal == 0:
+        return []
+    qv = e5.encode([f"query: {user_text}"], normalize_embeddings=True,
+                   convert_to_numpy=True).astype("float32")
+    k = max(1, min(int(k), index.ntotal))
+    scores, idxs = index.search(qv, k)
+    out = []
+    for rank, (s, i) in enumerate(zip(scores[0], idxs[0]), 1):
+        if i == -1:
+            continue
+        m = metas[i]
+        out.append({
+            "rank": rank, "score": float(s),
+            "id": m.get("id",""),
+            "canonical_term": m.get("canonical_term",""),
+            "context": m.get("context",""),
+            "input": m.get("input",""),
+            "output": m.get("output",""),
+        })
+    return out
+def _format_evidence(passages):
+    lines = []
+    for p in passages:
+        lines.append(
+            f"[{p['rank']}] term='{p['canonical_term']}' ctx='{p['context']}'\n"
+            f"    Q: {p['input']}\n"
+            f"    A: {p['output']}"
+        )
+    return "\n".join(lines)
+def build_rag_prompt_technical(base_prompt: str, user_text: str, passages):
+    ev_lines = []
+    for p in passages:
+        ev_lines.append(
+            f"[{p['rank']}] term='{p.get('canonical_term','')}' ctx='{p.get('context','')}'\n"
+            f"input: {p.get('input','')}\n"
+            f"output: {p.get('output','')}"
+            )
+    ev_block = "\n".join(ev_lines)
+    rag_rules = (
+        "\n\n[ Modo RAG ]\n"
+        "- Usa EXCLUSIVAMENTE la información relevante de las evidencias.\n"
+        "- Si algo no aparece en las evidencias, dilo explícitamente.\n"
+        "- Cita las evidencias con [n] (ej. [1], [3]).\n"
+    )
+    return f"{base_prompt.strip()}\n{rag_rules}\nEVIDENCIAS:\n{ev_block}\n"
+def get_bad_words_ids(tok):
+    bad = []
+    for sym in ["[", "]"]:
+        ids = tok.encode(sym, add_special_tokens=False)  # p.ej. [784]
+        if ids and all(isinstance(t, int) and t >= 0 for t in ids):
+            bad.append(ids)  # [[784]]
+    return bad
+# --- FUNCIÓN ACTUALIZADA: Prompt Engineering + RAG en capas separadas ---
+def technical_answer_rag(
+    question, tec_model, tec_tok, device, gen_params,
+    e5, index, metas, k=5, sim_threshold=0.40
+):
+    """Orquesta retrieval + (base_prompt de Prompt Engineering) + inyección RAG + generación."""
+    passages = rag_retrieve(e5, index, metas, question, k=k)
+    if not passages:
+        return "No encontré evidencias relevantes para responder con certeza. ¿Puedes dar más contexto?"
+    # 1) Prompt Engineering (ESTILO/ROL/PERSONA) → base_prompt
+    persona_name = (gen_params or {}).get("persona", st.session_state.get("persona", "Mori Normal"))
+    prompt_type  = st.session_state.get("prompt_type", "Zero-shot")
+    base_prompt = build_prompt_from_cases(  # <<-- tu función existente de Prompt Engineering
+        domain="technical",
+        prompt_type="Zero-shot",
+        persona=persona_name,
+        question=question,
+        context="RAG"  # etiqueta informativa
+    )
+    # 2) RAG (CONTENIDO/EVIDENCIAS) → se inyecta SOBRE el base_prompt
+    prompt = build_rag_prompt_technical("", question, passages)
+    # 3) UI: guardar prompt y marcar baja similitud si aplica
+    max_sim = passages[0]["score"]
+    if max_sim < sim_threshold:
+        prompt = "⚠️ Baja similitud con la base; podría faltar contexto.\n\n" + prompt
+    st.session_state["last_prompt"] = prompt
+    st.session_state["just_generated"] = True
+    # 4) Generación
+    enc = tec_tok(prompt, return_tensors="pt", padding=True, truncation=True, max_length=512).to(device)
+    bad_ids = get_bad_words_ids(tec_tok)  # opcional; puedes quitarlo si quieres permitir corchetes libres
+    max_new   = int(gen_params.get("max_new_tokens"))
+    min_new   = int(gen_params.get("min_tokens"))
+    no_repeat = int(gen_params.get("no_repeat_ngram_size"))
+    rep_pen   = float(gen_params.get("repetition_penalty"))
+    mode      = gen_params.get("mode", "beam")
+    # IDs de control (por si el tokenizer no los trae definidos)
+    eos_id = tec_tok.eos_token_id or tec_tok.convert_tokens_to_ids("</s>")
+    pad_id = tec_tok.pad_token_id or eos_id
+    if mode == "sampling":
+        temperature = float(gen_params.get("temperature", 0.7))
+        top_p       = float(gen_params.get("top_p", 0.9))
+        kwargs = dict(
+            do_sample=True, num_beams=1,
+            temperature=max(0.1, temperature),
+            top_p=min(1.0, max(0.5, top_p)),
+            max_new_tokens=max_new,
+            min_new_tokens=max(0, min_new),
+            no_repeat_ngram_size=no_repeat,
+            repetition_penalty=max(1.0, rep_pen),
+            eos_token_id=eos_id,
+            pad_token_id=pad_id,
+        )
+    else:
+        num_beams      = max(2, int(gen_params.get("num_beams", 4)))
+        length_penalty = float(gen_params.get("length_penalty", 1.0))
+        kwargs = dict(
+            do_sample=False, num_beams=num_beams, length_penalty=length_penalty,
+            max_new_tokens=max_new,
+            min_new_tokens=max(0, min_new),
+            no_repeat_ngram_size=no_repeat,
+            repetition_penalty=max(1.0, rep_pen),
+            eos_token_id=eos_id,
+            pad_token_id=pad_id,
+        )
+    if bad_ids:  # solo si existen; evita [[[...]]] y errores de validación
+        kwargs["bad_words_ids"] = bad_ids
+    out_ids = tec_model.generate(**enc, **kwargs)
+    text = tec_tok.decode(out_ids[0], skip_special_tokens=True)
+    if persona_name == "Mori Normal":
+        text = truncate_sentences(text, max_sentences=1)
+    text = polish_spanish(text)
+    st.session_state["last_response"] = text
+    return text
 #***************************************************************************
 # MAIN
             )
             # 🧠 Guarda historial
+            hora_actual = dt.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
             st.session_state.historial.append(("Tú", user_question, hora_actual))
+            hora_actual = dt.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
             st.session_state.historial.append(("Mori", response, hora_actual))
             # 💾 Guarda conversación