Spaces:

UPTC
/

Recomendador_Cod

Sleeping

App Files Files Community

Romanes commited on Oct 28, 2025

Commit

c0d875f

verified ·

1 Parent(s): 6506dd0

Create app.py

Browse files

Files changed (1) hide show

app.py +173 -0

app.py ADDED Viewed

	@@ -0,0 +1,173 @@

+# app.py
+# -*- coding: utf-8 -*-
+import os
+import re
+import unicodedata
+from pathlib import Path
+import gradio as gr
+import joblib
+import pandas as pd
+from scipy import sparse
+from sklearn.metrics.pairwise import cosine_similarity
+# ==========================
+# Ubicación de artefactos
+# ==========================
+ART = Path("artifacts")
+VEC_PATH = ART / "tfidf_vectorizer.joblib"
+MAT_PATH = ART / "tfidf_matrix.npz"
+IDX_PATH = ART / "doc_index.csv"
+# ==========================
+# Utilidades de limpieza
+# ==========================
+import nltk
+from nltk.corpus import stopwords
+def _ensure_nltk():
+    try:
+        nltk.data.find("corpora/stopwords")
+    except LookupError:
+        nltk.download("stopwords")
+_ensure_nltk()
+def strip_accents(s: str) -> str:
+    return "".join(c for c in unicodedata.normalize("NFKD", s) if not unicodedata.combining(c))
+STOPWORDS = {strip_accents(w.lower()) for w in stopwords.words("spanish")} | {"aun"}
+def limpiar_texto(s: str) -> str:
+    if not isinstance(s, str):
+        s = "" if s is None else str(s)
+    s = strip_accents(s.lower())
+    s = re.sub(r"[“”„‟‹›«»—–‐-‒–—―\-]", " ", s)
+    s = re.sub(r"[^\w\s]", " ", s)
+    s = re.sub(r"\s+", " ", s).strip()
+    toks = [t for t in s.split() if t not in STOPWORDS and not t.isdigit()]
+    return " ".join(toks)
+# ==========================
+# Reglas heurísticas (ejemplo OPS)
+# ==========================
+REGLAS = [
+    {
+        "keywords": ["ops", "orden de prestacion de servicios", "contrato ops"],
+        "respuesta": {
+            "CICP":  ("2.1.2.02.02.008", "Servicios prestados a las empresas y servicios de producción"),
+            "CPC":   ("8",               "Servicios prestados a las empresas y servicios de producción"),
+            "UNSPSC":("80111600",        "Servicios de personal temporal"),
+        },
+        "motivo": "Coincidencia con palabra clave OPS",
+    },
+]
+def aplicar_reglas(consulta: str):
+    texto = limpiar_texto(consulta)
+    for regla in REGLAS:
+        if any(k in texto for k in regla["keywords"]):
+            rows = []
+            for cat, (cod, nom) in regla["respuesta"].items():
+                rows.append({"Catálogo": cat, "Código": cod, "Nombre": nom, "Similaridad": 1.0, "Origen": "Regla"})
+            return pd.DataFrame(rows)
+    return None
+def catalog_tag(source_file: str) -> str:
+    s = (source_file or "").lower()
+    if "cicp" in s: return "CICP"
+    if "cpc" in s:  return "CPC"
+    if "unspsc" in s: return "UNSPSC"
+    return "OTRO"
+def parse_code_name(codes_raw: str, text_original: str):
+    codes_raw = str(codes_raw or "")
+    text_original = str(text_original or "")
+    m = re.search(r"CODIGO;NOMBRE:\s*([^;|]+)\s*;\s*([^|]+)", codes_raw, flags=re.I)
+    if not m:
+        m = re.search(r"CODIGO;NOMBRE:\s*([^;|]+)\s*;\s*([^|]+)", text_original, flags=re.I)
+    if m:
+        return m.group(1).strip(), m.group(2).strip()
+    code = None; name = None
+    m1 = re.search(r"CODIGO\s*:\s*([^|]+)", codes_raw, flags=re.I)
+    m2 = re.search(r"NOMBRE\s*:\s*([^|]+)", codes_raw, flags=re.I)
+    if m1: code = m1.group(1).strip()
+    if m2: name = m2.group(1).strip()
+    if code is None or name is None:
+        m1 = re.search(r"CODIGO\s*:\s*([^|]+)", text_original, flags=re.I)
+        m2 = re.search(r"NOMBRE\s*:\s*([^|]+)", text_original, flags=re.I)
+        if m1 and code is None: code = m1.group(1).strip()
+        if m2 and name is None: name = m2.group(1).strip()
+    return (code or "").strip(), (name or "").strip()
+# ==========================
+# Carga en startup
+# ==========================
+VEC = joblib.load(VEC_PATH)
+MAT = sparse.load_npz(MAT_PATH)
+IDX = pd.read_csv(IDX_PATH)
+IDX["catalogo"] = IDX["source_file"].apply(catalog_tag)
+# ==========================
+# Endpoint de predicción
+# ==========================
+def predecir(consulta: str, top_por_catalogo: int = 1):
+    if not consulta or not consulta.strip():
+        return pd.DataFrame([{"Catálogo": "", "Código": "", "Nombre": "", "Similaridad": 0.0, "Origen": "—"}])
+    # 1) Reglas
+    out_regla = aplicar_reglas(consulta)
+    if out_regla is not None:
+        return out_regla.sort_values("Catálogo")
+    # 2) Modelo TF-IDF
+    q = limpiar_texto(consulta)
+    vec_q = VEC.transform([q])
+    sims = cosine_similarity(vec_q, MAT)[0]
+    df = IDX.copy()
+    df["Similaridad"] = sims
+    frames = []
+    for cat in ["CICP", "CPC", "UNSPSC"]:
+        sub = (
+            df[df["catalogo"] == cat]
+            .sort_values("Similaridad", ascending=False)
+            .head(top_por_catalogo)
+            .copy()
+        )
+        parsed = sub.apply(lambda r: parse_code_name(r.get("codes_raw",""), r.get("text_original","")), axis=1)
+        sub["Código"] = [c for c, _ in parsed]
+        sub["Nombre"] = [n for _, n in parsed]
+        sub["Catálogo"] = cat
+        sub["Origen"] = "TF-IDF"
+        frames.append(sub[["Catálogo","Código","Nombre","Similaridad","Origen"]])
+    res = pd.concat(frames, ignore_index=True)
+    res["Similaridad"] = res["Similaridad"].round(4)
+    return res.sort_values("Catálogo")
+# ==========================
+# Gradio UI
+# ==========================
+with gr.Blocks(title="Recomendador CICP / CPC / UNSPSC") as demo:
+    gr.Markdown("## Recomendador por texto (CICP / CPC / UNSPSC)\n*TF-IDF + reglas*")
+    with gr.Row():
+        consulta = gr.Textbox(label="Descripción técnica", lines=3, placeholder="Ej: Vinculación joven investigadora OPS ...")
+        topk = gr.Slider(1, 5, value=1, step=1, label="Top por catálogo")
+    btn = gr.Button("Buscar")
+    salida = gr.Dataframe(headers=["Catálogo","Código","Nombre","Similaridad","Origen"], interactive=False)
+    ejemplos = gr.Examples(
+        examples=[
+            ["Vinculación joven investigadora, OPS gastos de operación y servicios técnicos", 1],
+            ["contrato de personal temporal", 1],
+            ["reactivos de laboratorio para cromatografía hplc", 1],
+        ],
+        inputs=[consulta, topk],
+        label="Ejemplos",
+    )
+    btn.click(predecir, inputs=[consulta, topk], outputs=[salida])
+if __name__ == "__main__":
+    demo.launch()