Spaces:

irhamni
/

IPLM_chatbot

Sleeping

App Files Files Community

irhamni commited on Sep 29, 2025

Commit

193eeb6

verified ·

1 Parent(s): a41fc66

Update app.py

Browse files

Files changed (1) hide show

app.py +65 -68

app.py CHANGED Viewed

@@ -1,37 +1,36 @@
-# app.py — RAG + Local LLM (TinyLlama) for Hugging Face Spaces (CPU)
-import os, re, json, pickle, hashlib, time
 from pathlib import Path
-import requests  # still used for safety, but not calling API now
 import gradio as gr
 import numpy as np
 from sklearn.neighbors import NearestNeighbors
 from sentence_transformers import SentenceTransformer
-# ===== Config =====
-DATA_PATH = Path(os.getenv("DATA_PATH", "IPLM_QnA_Chatbot.jsonl"))
-CACHE_EMB = Path("embeddings.pkl")
 CACHE_META = Path("meta.json")
-EMB_MODEL = os.getenv("EMB_MODEL", "sentence-transformers/all-MiniLM-L6-v2")
-GEN_MODEL = os.getenv("GEN_MODEL", "TinyLlama/TinyLlama-1.1B-Chat-v1.0")  # local small model
 TOP_K_DEFAULT       = int(os.getenv("TOP_K_DEFAULT", "4"))
 TEMPERATURE_DEFAULT = float(os.getenv("TEMPERATURE_DEFAULT", "0.2"))
 MAX_TOKENS          = int(os.getenv("MAX_TOKENS", "256"))
 SYSTEM_PROMPT = (
     "You are an Indonesian librarian assistant. Jawab singkat, akurat, dan sopan. "
-    "Gunakan HANYA informasi dari konteks yang diberikan. "
-    "Jika konteks tidak memuat jawabannya, balas persis: Data tidak tersedia."
 )
-# ===== Utils =====
 def norm(s: str) -> str:
     if s is None: return ""
     return re.sub(r"\s+", " ", str(s).strip())
 def dataset_hash(rows) -> str:
-    import hashlib
     m = hashlib.md5()
     for r in rows:
         m.update((norm(r.get("question","")) + "|" + norm(r.get("answer",""))).encode("utf-8"))
@@ -43,7 +42,8 @@ def load_jsonl(path: Path):
     rows = []
     with path.open("r", encoding="utf-8") as f:
         for line in f:
-            if not line.strip(): continue
             obj = json.loads(line)
             q = obj.get("question") or obj.get("pertanyaan") or obj.get("q")
             a = obj.get("answer")   or obj.get("jawaban")    or obj.get("a")
@@ -57,7 +57,7 @@ def load_jsonl(path: Path):
         seen.add(r["question"]); uniq.append(r)
     return uniq
-# ===== Index (retriever) =====
 class FAQIndex:
     def __init__(self):
         self.rows=None; self.model=None; self.emb=None; self.nn=None
@@ -75,13 +75,13 @@ class FAQIndex:
             except Exception:
                 pass
         self.model = SentenceTransformer(EMB_MODEL)
-        qs = [r["question"] for r in rows]
         self.emb = self.model.encode(qs, normalize_embeddings=True, convert_to_numpy=True, show_progress_bar=False)
         self.nn  = NearestNeighbors(n_neighbors=min(10, len(qs)), metric="cosine").fit(self.emb)
         CACHE_EMB.write_bytes(pickle.dumps({"emb": self.emb, "nn": self.nn}))
         CACHE_META.write_text(json.dumps({"hash": dataset_hash(rows), "emb_model": EMB_MODEL}, ensure_ascii=False))
-    def retrieve(self, query: str, top_k: int = TOP_K_DEFAULT):
         if not query.strip(): return []
         qv = self.model.encode([query], normalize_embeddings=True, convert_to_numpy=True, show_progress_bar=False)
         dists, idxs = self.nn.kneighbors(qv, n_neighbors=min(top_k, len(self.rows)))
@@ -92,31 +92,23 @@ class FAQIndex:
             out.append({"question": r["question"], "answer": r["answer"], "score": float(sim)})
         return out
-# ===== Local LLM (transformers pipeline) =====
 _local_pipe = None
-def get_local_pipe():
     global _local_pipe
-    if _local_pipe is not None:
-        return _local_pipe
-    import torch
-    from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
-    # CPU-only for free Spaces; dtype=float32 for stability on CPU
-    tok = AutoTokenizer.from_pretrained(GEN_MODEL)
-    model = AutoModelForCausalLM.from_pretrained(GEN_MODEL, torch_dtype=torch.float32)
-    _local_pipe = pipeline(
-        "text-generation",
-        model=model,
-        tokenizer=tok,
-        device=-1,                # CPU
-        # no explicit framework args; transformers picks PyTorch
-    )
-    return _local_pipe
-def call_local_llm(prompt: str, temperature=TEMPERATURE_DEFAULT, max_tokens=MAX_TOKENS):
     try:
-        pipe = get_local_pipe()
-        outs = pipe(
             prompt,
             do_sample=True,
             temperature=float(temperature),
@@ -129,31 +121,35 @@ def call_local_llm(prompt: str, temperature=TEMPERATURE_DEFAULT, max_tokens=MAX_
     except Exception as e:
         return f"❌ Gagal menjalankan model lokal: {e}"
-# ===== RAG Orchestrator =====
-def build_context(retrieved):
-    # kirim HANYA jawaban ke LLM sebagai konteks
-    return "\n\n".join([f"[DOC {i}] {r['answer']}" for i, r in enumerate(retrieved, 1)])
-def rag_answer(user_msg, top_k=TOP_K_DEFAULT, temperature=TEMPERATURE_DEFAULT):
-    try:
-        hits = faq.retrieve(user_msg, top_k=int(top_k))
-        if not hits:
-            return "Maaf, saya tidak menemukan referensi di basis pengetahuan Anda."
-        context = build_context(hits)
-        prompt = (
-            f"SISTEM: {SYSTEM_PROMPT}\n\n"
-            f"KONTEKS:\n{context}\n\n"
-            f"PERTANYAAN:\n{user_msg}\n\n"
-            "Instruksi: Jawab singkat, akurat, dan HANYA berdasarkan KONTEKS. "
-            "Jika tidak ada jawabannya, balas persis: Data tidak tersedia."
-        )
-        out = call_local_llm(prompt, temperature=float(temperature), max_tokens=MAX_TOKENS)
         bullets = "\n".join([f"- ({h['score']:.2f}) {h['question']}" for h in hits])
-        return f"{out}\n\n**Sumber terdekat:**\n{bullets}"
-    except Exception as e:
-        return f"❌ Terjadi error tak terduga: {e}"
-# ===== Load & Upload =====
 faq = FAQIndex()
 rows = load_jsonl(DATA_PATH)
 faq.build(rows, force=False)
@@ -168,23 +164,24 @@ def upload_jsonl(file_obj):
     faq = FAQIndex(); faq.build(rows, force=True)
     return f"✅ Basis pengetahuan diperbarui. Total Q&A: {len(rows)}."
-# ===== UI =====
-with gr.Blocks(title="RAG + LLM (Local, JSONL)") as demo:
-    gr.Markdown("# 📚 RAG + LLM — Local Model\nMasukkan pertanyaan → retrieve Q&A → model lokal menjawab berdasar konteks.")
     with gr.Row():
         with gr.Column(scale=2):
             gr.ChatInterface(
-                fn=lambda msg, hist, k, t: rag_answer(msg, top_k=int(k), temperature=float(t)),
                 additional_inputs=[
                     gr.Slider(1, 10, value=TOP_K_DEFAULT, step=1, label="Top-K dokumen"),
                     gr.Slider(0.0, 1.0, value=TEMPERATURE_DEFAULT, step=0.05, label="Temperatur"),
                 ],
                 title="Asisten Perpustakaan (RAG)",
                 description="Jawab *berdasarkan konteks* dari dokumen JSONL Anda.",
                 examples=[
-                    ["Apa itu IPLM?", TOP_K_DEFAULT, TEMPERATURE_DEFAULT],
-                    ["Apa saja dimensi IPLM?", TOP_K_DEFAULT, TEMPERATURE_DEFAULT],
-                    ["Apa manfaat IPLM bagi daerah?", TOP_K_DEFAULT, TEMPERATURE_DEFAULT],
                 ],
                 cache_examples=False,
             )
@@ -193,7 +190,7 @@ with gr.Blocks(title="RAG + LLM (Local, JSONL)") as demo:
             uploader = gr.File(label="Upload JSONL Q&A (keys: question, answer)")
             status = gr.Textbox(label="Status", interactive=False)
             uploader.change(fn=upload_jsonl, inputs=uploader, outputs=status)
-            gr.Markdown("_Model berjalan lokal; tidak membutuhkan HF_TOKEN._")
 if __name__ == "__main__":
     demo.launch()

+# app.py — RAG + Deterministic QA + Local LLM (CPU-friendly)
+import os, re, json, pickle, hashlib
 from pathlib import Path
 import gradio as gr
 import numpy as np
 from sklearn.neighbors import NearestNeighbors
 from sentence_transformers import SentenceTransformer
+# =================== Konfigurasi ===================
+DATA_PATH  = Path(os.getenv("DATA_PATH", "IPLM_QnA_Chatbot.jsonl"))
+CACHE_EMB  = Path("embeddings.pkl")
 CACHE_META = Path("meta.json")
+EMB_MODEL   = os.getenv("EMB_MODEL", "sentence-transformers/all-MiniLM-L6-v2")
+LOCAL_MODEL = os.getenv("LOCAL_MODEL", "microsoft/phi-2")  # jalan di CPU
 TOP_K_DEFAULT       = int(os.getenv("TOP_K_DEFAULT", "4"))
 TEMPERATURE_DEFAULT = float(os.getenv("TEMPERATURE_DEFAULT", "0.2"))
 MAX_TOKENS          = int(os.getenv("MAX_TOKENS", "256"))
+SCORE_THRESHOLD     = float(os.getenv("SCORE_THRESHOLD", "0.60"))  # 0..1
 SYSTEM_PROMPT = (
     "You are an Indonesian librarian assistant. Jawab singkat, akurat, dan sopan. "
+    "Jawab HANYA berdasarkan konteks yang diberikan. "
+    "Jika tidak ada jawabannya di konteks, balas persis: Data tidak tersedia."
 )
+# =================== Utilitas ===================
 def norm(s: str) -> str:
     if s is None: return ""
     return re.sub(r"\s+", " ", str(s).strip())
 def dataset_hash(rows) -> str:
     m = hashlib.md5()
     for r in rows:
         m.update((norm(r.get("question","")) + "|" + norm(r.get("answer",""))).encode("utf-8"))
     rows = []
     with path.open("r", encoding="utf-8") as f:
         for line in f:
+            line = line.strip()
+            if not line: continue
             obj = json.loads(line)
             q = obj.get("question") or obj.get("pertanyaan") or obj.get("q")
             a = obj.get("answer")   or obj.get("jawaban")    or obj.get("a")
         seen.add(r["question"]); uniq.append(r)
     return uniq
+# =================== Retriever (k-NN atas embedding pertanyaan) ===================
 class FAQIndex:
     def __init__(self):
         self.rows=None; self.model=None; self.emb=None; self.nn=None
             except Exception:
                 pass
         self.model = SentenceTransformer(EMB_MODEL)
+        qs = [r["question"] for r in rows]  # embed pertanyaan saja
         self.emb = self.model.encode(qs, normalize_embeddings=True, convert_to_numpy=True, show_progress_bar=False)
         self.nn  = NearestNeighbors(n_neighbors=min(10, len(qs)), metric="cosine").fit(self.emb)
         CACHE_EMB.write_bytes(pickle.dumps({"emb": self.emb, "nn": self.nn}))
         CACHE_META.write_text(json.dumps({"hash": dataset_hash(rows), "emb_model": EMB_MODEL}, ensure_ascii=False))
+    def retrieve(self, query: str, top_k: int):
         if not query.strip(): return []
         qv = self.model.encode([query], normalize_embeddings=True, convert_to_numpy=True, show_progress_bar=False)
         dists, idxs = self.nn.kneighbors(qv, n_neighbors=min(top_k, len(self.rows)))
             out.append({"question": r["question"], "answer": r["answer"], "score": float(sim)})
         return out
+# =================== Local LLM (transformers pipeline di CPU) ===================
 _local_pipe = None
+def call_local(prompt: str, temperature=TEMPERATURE_DEFAULT, max_tokens=MAX_TOKENS):
     global _local_pipe
     try:
+        if _local_pipe is None:
+            import torch
+            from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+            tok   = AutoTokenizer.from_pretrained(LOCAL_MODEL)
+            model = AutoModelForCausalLM.from_pretrained(LOCAL_MODEL, torch_dtype=torch.float32)
+            _local_pipe = pipeline(
+                "text-generation",
+                model=model,
+                tokenizer=tok,
+                device=-1,  # CPU
+            )
+        outs = _local_pipe(
             prompt,
             do_sample=True,
             temperature=float(temperature),
     except Exception as e:
         return f"❌ Gagal menjalankan model lokal: {e}"
+# =================== RAG Orchestrator (dengan deterministic QA) ===================
+def build_context(hits):
+    return "\n\n".join([f"[DOC {i} | {h['score']:.2f}] {h['answer']}" for i, h in enumerate(hits, 1)])
+def rag_answer(user_msg, top_k=TOP_K_DEFAULT, temperature=TEMPERATURE_DEFAULT, threshold=SCORE_THRESHOLD):
+    hits = faq.retrieve(user_msg, top_k=int(top_k))
+    if not hits:
+        return "Maaf, saya tidak menemukan referensi di basis pengetahuan Anda."
+    top = hits[0]
+    # 1) Jika yakin → langsung pakai jawaban sumber (tanpa LLM)
+    if top["score"] >= float(threshold):
         bullets = "\n".join([f"- ({h['score']:.2f}) {h['question']}" for h in hits])
+        return f"{top['answer']}\n\n**Sumber terdekat (deterministik):**\n{bullets}"
+    # 2) Kurang yakin → minta LLM merangkum beberapa jawaban
+    context = build_context(hits)
+    prompt = (
+        f"SISTEM: {SYSTEM_PROMPT}\n\n"
+        f"KONTEKS:\n{context}\n\n"
+        f"PERTANYAAN:\n{user_msg}\n\n"
+        "Instruksi: Jawab singkat dan HANYA berdasarkan KONTEKS di atas. "
+        "Jika tidak ada jawabannya, balas persis: Data tidak tersedia."
+    )
+    llm_out = call_local(prompt, temperature=float(temperature), max_tokens=MAX_TOKENS)
+    bullets = "\n".join([f"- ({h['score']:.2f}) {h['question']}" for h in hits])
+    return f"{llm_out}\n\n**Sumber terdekat (lokal):**\n{bullets}"
+# =================== Load & Upload ===================
 faq = FAQIndex()
 rows = load_jsonl(DATA_PATH)
 faq.build(rows, force=False)
     faq = FAQIndex(); faq.build(rows, force=True)
     return f"✅ Basis pengetahuan diperbarui. Total Q&A: {len(rows)}."
+# =================== UI ===================
+with gr.Blocks(title="RAG + LLM — Local Model") as demo:
+    gr.Markdown("## 📚 RAG + LLM — Local Model\nMasukkan pertanyaan → retrieve Q&A → model lokal merangkum bila perlu.")
     with gr.Row():
         with gr.Column(scale=2):
             gr.ChatInterface(
+                fn=lambda msg, hist, k, t, th: rag_answer(msg, top_k=int(k), temperature=float(t), threshold=float(th)),
                 additional_inputs=[
                     gr.Slider(1, 10, value=TOP_K_DEFAULT, step=1, label="Top-K dokumen"),
                     gr.Slider(0.0, 1.0, value=TEMPERATURE_DEFAULT, step=0.05, label="Temperatur"),
+                    gr.Slider(0.0, 1.0, value=SCORE_THRESHOLD, step=0.01, label="Ambil langsung jika skor ≥"),
                 ],
                 title="Asisten Perpustakaan (RAG)",
                 description="Jawab *berdasarkan konteks* dari dokumen JSONL Anda.",
                 examples=[
+                    ["Apa itu IPLM?", TOP_K_DEFAULT, TEMPERATURE_DEFAULT, SCORE_THRESHOLD],
+                    ["Bagaimana menghitung IPLM?", TOP_K_DEFAULT, TEMPERATURE_DEFAULT, SCORE_THRESHOLD],
+                    ["Apa saja dimensi IPLM?", TOP_K_DEFAULT, TEMPERATURE_DEFAULT, SCORE_THRESHOLD],
                 ],
                 cache_examples=False,
             )
             uploader = gr.File(label="Upload JSONL Q&A (keys: question, answer)")
             status = gr.Textbox(label="Status", interactive=False)
             uploader.change(fn=upload_jsonl, inputs=uploader, outputs=status)
+            gr.Markdown("_Model berjalan lokal (CPU). Anda dapat mengganti `LOCAL_MODEL` via Settings → Variables._")
 if __name__ == "__main__":
     demo.launch()