Spaces:

irhamni
/

IPLM_chatbot

Sleeping

App Files Files Community

irhamni commited on Sep 29, 2025

Commit

9a43d06

verified ·

1 Parent(s): 1314618

Update app.py

Browse files

Files changed (1) hide show

app.py +53 -51

app.py CHANGED Viewed

@@ -1,23 +1,19 @@
-# app.py — RAG + LLM (HF Inference API - TinyLlama, gratis & ringan)
-import os, re, json, pickle, hashlib, requests
 from pathlib import Path
 import gradio as gr
 import numpy as np
 from sklearn.neighbors import NearestNeighbors
 from sentence_transformers import SentenceTransformer
-# =================== Config ===================
 DATA_PATH = Path(os.getenv("DATA_PATH", "IPLM_QnA_Chatbot.jsonl"))
 CACHE_EMB = Path("embeddings.pkl")
 CACHE_META = Path("meta.json")
-# Embedding model untuk retrieval (kecil & cepat)
 EMB_MODEL = os.getenv("EMB_MODEL", "sentence-transformers/all-MiniLM-L6-v2")
-# LLM kecil & kompatibel via HF Inference API (gratis)
-HF_TOKEN  = os.getenv("HF_TOKEN", "")
-LLM_MODEL = os.getenv("LLM_MODEL", "TinyLlama/TinyLlama-1.1B-Chat-v1.0")
 TOP_K_DEFAULT       = int(os.getenv("TOP_K_DEFAULT", "4"))
 TEMPERATURE_DEFAULT = float(os.getenv("TEMPERATURE_DEFAULT", "0.2"))
@@ -29,12 +25,13 @@ SYSTEM_PROMPT = (
     "Jika konteks tidak memuat jawabannya, balas persis: Data tidak tersedia."
 )
-# =================== Utils ===================
 def norm(s: str) -> str:
     if s is None: return ""
     return re.sub(r"\s+", " ", str(s).strip())
 def dataset_hash(rows) -> str:
     m = hashlib.md5()
     for r in rows:
         m.update((norm(r.get("question","")) + "|" + norm(r.get("answer",""))).encode("utf-8"))
@@ -50,8 +47,7 @@ def load_jsonl(path: Path):
             obj = json.loads(line)
             q = obj.get("question") or obj.get("pertanyaan") or obj.get("q")
             a = obj.get("answer")   or obj.get("jawaban")    or obj.get("a")
-            if q and a:
-                rows.append({"question": norm(q), "answer": norm(a)})
     if not rows:
         raise ValueError("JSONL kosong atau tidak ada pasangan 'question'/'answer'.")
     # dedup by question
@@ -61,7 +57,7 @@ def load_jsonl(path: Path):
         seen.add(r["question"]); uniq.append(r)
     return uniq
-# =================== Index ===================
 class FAQIndex:
     def __init__(self):
         self.rows=None; self.model=None; self.emb=None; self.nn=None
@@ -79,7 +75,6 @@ class FAQIndex:
             except Exception:
                 pass
         self.model = SentenceTransformer(EMB_MODEL)
-        # Embed HANYA pertanyaan agar retrieval fokus
         qs = [r["question"] for r in rows]
         self.emb = self.model.encode(qs, normalize_embeddings=True, convert_to_numpy=True, show_progress_bar=False)
         self.nn  = NearestNeighbors(n_neighbors=min(10, len(qs)), metric="cosine").fit(self.emb)
@@ -97,38 +92,46 @@ class FAQIndex:
             out.append({"question": r["question"], "answer": r["answer"], "score": float(sim)})
         return out
-# =================== LLM Caller (HF Inference API /models/<model>) ===================
-def call_hf_chat(prompt: str, temperature=TEMPERATURE_DEFAULT, max_tokens=MAX_TOKENS):
-    if not HF_TOKEN:
-        return "⚠️ HF_TOKEN belum diatur di Settings → Secrets."
-    url = f"https://api-inference.huggingface.co/models/{LLM_MODEL}"
-    headers = {"Authorization": f"Bearer {HF_TOKEN}"}
-    payload = {
-        "inputs": prompt,
-        "parameters": {
-            "temperature": float(temperature),
-            "max_new_tokens": int(max_tokens),
-            "return_full_text": False
-        }
-    }
     try:
-        r = requests.post(url, headers=headers, json=payload, timeout=90)
-        # Jika model baru bangun, HF mengembalikan 503 "loading". Tunjukkan info ramah.
-        if r.status_code == 503:
-            return "⏳ Model sedang loading di Inference API. Coba lagi sebentar."
-        r.raise_for_status()
-        data = r.json()
-        if isinstance(data, list) and data and "generated_text" in data[0]:
-            return data[0]["generated_text"]
-        if isinstance(data, dict) and "generated_text" in data:
-            return data["generated_text"]
-        return str(data)
     except Exception as e:
-        return f"❌ Error API: {e}\n{r.text[:400] if 'r' in locals() else ''}"
-# =================== RAG Orchestrator ===================
 def build_context(retrieved):
-    # Kirim HANYA jawaban ke LLM sebagai konteks
     return "\n\n".join([f"[DOC {i}] {r['answer']}" for i, r in enumerate(retrieved, 1)])
 def rag_answer(user_msg, top_k=TOP_K_DEFAULT, temperature=TEMPERATURE_DEFAULT):
@@ -144,21 +147,19 @@ def rag_answer(user_msg, top_k=TOP_K_DEFAULT, temperature=TEMPERATURE_DEFAULT):
             "Instruksi: Jawab singkat, akurat, dan HANYA berdasarkan KONTEKS. "
             "Jika tidak ada jawabannya, balas persis: Data tidak tersedia."
         )
-        out = call_hf_chat(prompt, temperature=float(temperature), max_tokens=MAX_TOKENS)
         bullets = "\n".join([f"- ({h['score']:.2f}) {h['question']}" for h in hits])
         return f"{out}\n\n**Sumber terdekat:**\n{bullets}"
     except Exception as e:
-        # Pastikan tidak melempar exception ke UI (biar tak muncul bubble "Error")
         return f"❌ Terjadi error tak terduga: {e}"
-# =================== Load & Upload ===================
 faq = FAQIndex()
 rows = load_jsonl(DATA_PATH)
 faq.build(rows, force=False)
 def upload_jsonl(file_obj):
-    if file_obj is None:
-        return gr.update(value="Tidak ada file.")
     Path(file_obj.name).replace(DATA_PATH)
     if CACHE_EMB.exists(): CACHE_EMB.unlink()
     if CACHE_META.exists(): CACHE_META.unlink()
@@ -167,9 +168,9 @@ def upload_jsonl(file_obj):
     faq = FAQIndex(); faq.build(rows, force=True)
     return f"✅ Basis pengetahuan diperbarui. Total Q&A: {len(rows)}."
-# =================== UI ===================
-with gr.Blocks(title="RAG + LLM (JSONL)") as demo:
-    gr.Markdown("# 📚 RAG + LLM — dari JSONL Q&A\nMasukkan pertanyaan → retrieve Q&A → LLM menjawab berdasar konteks.")
     with gr.Row():
         with gr.Column(scale=2):
             gr.ChatInterface(
@@ -192,6 +193,7 @@ with gr.Blocks(title="RAG + LLM (JSONL)") as demo:
             uploader = gr.File(label="Upload JSONL Q&A (keys: question, answer)")
             status = gr.Textbox(label="Status", interactive=False)
             uploader.change(fn=upload_jsonl, inputs=uploader, outputs=status)
-            gr.Markdown("Set **HF_TOKEN** di Settings → Secrets. Model default: TinyLlama-1.1B-Chat.")
 if __name__ == "__main__":
     demo.launch()

+# app.py — RAG + Local LLM (TinyLlama) for Hugging Face Spaces (CPU)
+import os, re, json, pickle, hashlib, time
 from pathlib import Path
+import requests  # still used for safety, but not calling API now
 import gradio as gr
 import numpy as np
 from sklearn.neighbors import NearestNeighbors
 from sentence_transformers import SentenceTransformer
+# ===== Config =====
 DATA_PATH = Path(os.getenv("DATA_PATH", "IPLM_QnA_Chatbot.jsonl"))
 CACHE_EMB = Path("embeddings.pkl")
 CACHE_META = Path("meta.json")
 EMB_MODEL = os.getenv("EMB_MODEL", "sentence-transformers/all-MiniLM-L6-v2")
+GEN_MODEL = os.getenv("GEN_MODEL", "TinyLlama/TinyLlama-1.1B-Chat-v1.0")  # local small model
 TOP_K_DEFAULT       = int(os.getenv("TOP_K_DEFAULT", "4"))
 TEMPERATURE_DEFAULT = float(os.getenv("TEMPERATURE_DEFAULT", "0.2"))
     "Jika konteks tidak memuat jawabannya, balas persis: Data tidak tersedia."
 )
+# ===== Utils =====
 def norm(s: str) -> str:
     if s is None: return ""
     return re.sub(r"\s+", " ", str(s).strip())
 def dataset_hash(rows) -> str:
+    import hashlib
     m = hashlib.md5()
     for r in rows:
         m.update((norm(r.get("question","")) + "|" + norm(r.get("answer",""))).encode("utf-8"))
             obj = json.loads(line)
             q = obj.get("question") or obj.get("pertanyaan") or obj.get("q")
             a = obj.get("answer")   or obj.get("jawaban")    or obj.get("a")
+            if q and a: rows.append({"question": norm(q), "answer": norm(a)})
     if not rows:
         raise ValueError("JSONL kosong atau tidak ada pasangan 'question'/'answer'.")
     # dedup by question
         seen.add(r["question"]); uniq.append(r)
     return uniq
+# ===== Index (retriever) =====
 class FAQIndex:
     def __init__(self):
         self.rows=None; self.model=None; self.emb=None; self.nn=None
             except Exception:
                 pass
         self.model = SentenceTransformer(EMB_MODEL)
         qs = [r["question"] for r in rows]
         self.emb = self.model.encode(qs, normalize_embeddings=True, convert_to_numpy=True, show_progress_bar=False)
         self.nn  = NearestNeighbors(n_neighbors=min(10, len(qs)), metric="cosine").fit(self.emb)
             out.append({"question": r["question"], "answer": r["answer"], "score": float(sim)})
         return out
+# ===== Local LLM (transformers pipeline) =====
+_local_pipe = None
+def get_local_pipe():
+    global _local_pipe
+    if _local_pipe is not None:
+        return _local_pipe
+    import torch
+    from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+    # CPU-only for free Spaces; dtype=float32 for stability on CPU
+    tok = AutoTokenizer.from_pretrained(GEN_MODEL)
+    model = AutoModelForCausalLM.from_pretrained(GEN_MODEL, torch_dtype=torch.float32)
+    _local_pipe = pipeline(
+        "text-generation",
+        model=model,
+        tokenizer=tok,
+        device=-1,                # CPU
+        # no explicit framework args; transformers picks PyTorch
+    )
+    return _local_pipe
+def call_local_llm(prompt: str, temperature=TEMPERATURE_DEFAULT, max_tokens=MAX_TOKENS):
     try:
+        pipe = get_local_pipe()
+        outs = pipe(
+            prompt,
+            do_sample=True,
+            temperature=float(temperature),
+            max_new_tokens=int(max_tokens),
+            return_full_text=False,
+        )
+        if isinstance(outs, list) and outs and "generated_text" in outs[0]:
+            return outs[0]["generated_text"]
+        return str(outs)
     except Exception as e:
+        return f"❌ Gagal menjalankan model lokal: {e}"
+# ===== RAG Orchestrator =====
 def build_context(retrieved):
+    # kirim HANYA jawaban ke LLM sebagai konteks
     return "\n\n".join([f"[DOC {i}] {r['answer']}" for i, r in enumerate(retrieved, 1)])
 def rag_answer(user_msg, top_k=TOP_K_DEFAULT, temperature=TEMPERATURE_DEFAULT):
             "Instruksi: Jawab singkat, akurat, dan HANYA berdasarkan KONTEKS. "
             "Jika tidak ada jawabannya, balas persis: Data tidak tersedia."
         )
+        out = call_local_llm(prompt, temperature=float(temperature), max_tokens=MAX_TOKENS)
         bullets = "\n".join([f"- ({h['score']:.2f}) {h['question']}" for h in hits])
         return f"{out}\n\n**Sumber terdekat:**\n{bullets}"
     except Exception as e:
         return f"❌ Terjadi error tak terduga: {e}"
+# ===== Load & Upload =====
 faq = FAQIndex()
 rows = load_jsonl(DATA_PATH)
 faq.build(rows, force=False)
 def upload_jsonl(file_obj):
+    if file_obj is None: return gr.update(value="Tidak ada file.")
     Path(file_obj.name).replace(DATA_PATH)
     if CACHE_EMB.exists(): CACHE_EMB.unlink()
     if CACHE_META.exists(): CACHE_META.unlink()
     faq = FAQIndex(); faq.build(rows, force=True)
     return f"✅ Basis pengetahuan diperbarui. Total Q&A: {len(rows)}."
+# ===== UI =====
+with gr.Blocks(title="RAG + LLM (Local, JSONL)") as demo:
+    gr.Markdown("# 📚 RAG + LLM — Local Model\nMasukkan pertanyaan → retrieve Q&A → model lokal menjawab berdasar konteks.")
     with gr.Row():
         with gr.Column(scale=2):
             gr.ChatInterface(
             uploader = gr.File(label="Upload JSONL Q&A (keys: question, answer)")
             status = gr.Textbox(label="Status", interactive=False)
             uploader.change(fn=upload_jsonl, inputs=uploader, outputs=status)
+            gr.Markdown("_Model berjalan lokal; tidak membutuhkan HF_TOKEN._")
 if __name__ == "__main__":
     demo.launch()