Spaces:

irhamni
/

IPLM_chatbot

Sleeping

App Files Files Community

irhamni commited on Sep 29, 2025

Commit

50c7bda

verified ·

1 Parent(s): 3e41cc8

Upload 4 files

Browse files

Files changed (4) hide show

IPLM_QnA_Chatbot.jsonl +29 -0
README.md +37 -14
app.py +199 -0
requirements.txt +6 -0

IPLM_QnA_Chatbot.jsonl ADDED Viewed

	@@ -0,0 +1,29 @@

+{"id": "iplm-001", "question": "Apa itu IPLM dan mengapa penting?", "answer": "IPLM (Indeks Pembangunan Literasi Masyarakat) adalah instrumen resmi untuk mengukur capaian literasi masyarakat berbasis kontribusi perpustakaan. Penting karena menjadi Indikator Kinerja Kunci (IKK) urusan perpustakaan sesuai Permendagri 18/2020, sekaligus dasar perumusan kebijakan literasi nasional menuju Indonesia Emas 2045.", "alt_phrases": ["Bisakah jelaskan: Apa itu IPLM dan mengapa penting?", "Saya ingin tahu, apa itu iplm dan mengapa penting?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "iplm, mengapa, penting?"}
+{"id": "iplm-002", "question": "Siapa saja yang menjadi sasaran IPLM?", "answer": "Sasaran utama adalah: Perpusnas (koordinasi nasional), Perpustakaan Provinsi & Kabupaten/Kota (pelaksana teknis), semua jenis perpustakaan (umum, sekolah, perguruan tinggi, khusus, TBM/komunitas), dan pemangku kepentingan pendidikan, kebudayaan, pembangunan daerah.", "alt_phrases": ["Bisakah jelaskan: Siapa saja yang menjadi sasaran IPLM?", "Saya ingin tahu, siapa saja yang menjadi sasaran iplm?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "iplm?, menjadi, saja, sasaran, siapa, yang"}
+{"id": "iplm-003", "question": "Bagaimana metode pengumpulan datanya?", "answer": "Sensus penuh untuk perpustakaan jumlah terbatas (umum, perguruan tinggi, khusus OPD/KL). Sampling representatif untuk perpustakaan jumlah besar (SD, SMP, TBM). Semua berbasis daring di platform Perpusnas.", "alt_phrases": ["Bisakah jelaskan: Bagaimana metode pengumpulan datanya?", "Saya ingin tahu, bagaimana metode pengumpulan datanya?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "bagaimana, datanya?, metode, pengumpulan"}
+{"id": "iplm-004", "question": "Bagaimana data diproses sebelum menghasilkan skor?", "answer": "Tahapan: verifikasi → validasi → transformasi (fungsi Yeo-Johnson) → normalisasi (min-max 0–1) → pembobotan dimensi (kepatuhan 30%, kinerja 70%) → agregasi skor → standardisasi (Z-score) → klasifikasi kategori (sangat tinggi, tinggi, sedang, rendah).", "alt_phrases": ["Bisakah jelaskan: Bagaimana data diproses sebelum menghasilkan skor?", "Saya ingin tahu, bagaimana data diproses sebelum menghasilkan skor?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "bagaimana, data, diproses, menghasilkan, sebelum, skor?"}
+{"id": "iplm-005", "question": "Mengapa diperlukan transformasi dan normalisasi data?", "answer": "Transformasi: memastikan distribusi data lebih normal, mengurangi pencilan. Normalisasi: menyetarakan skala indikator agar bisa dibandingkan adil.", "alt_phrases": ["Bisakah jelaskan: Mengapa diperlukan transformasi dan normalisasi data?", "Saya ingin tahu, mengapa diperlukan transformasi dan normalisasi data?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "data?, diperlukan, mengapa, normalisasi, transformasi"}
+{"id": "iplm-006", "question": "Apa saja dimensi IPLM?", "answer": "Kepatuhan (30%): koleksi, tenaga, anggaran. Kinerja (70%): pelayanan, penyelenggaraan/pengelolaan, kerja sama, kegiatan literasi, jumlah pemustaka, inovasi layanan.", "alt_phrases": ["Bisakah jelaskan: Apa saja dimensi IPLM?", "Saya ingin tahu, apa saja dimensi iplm?"], "source_doc": "Peraturan Perpusnas 2025 (Pedoman IPLM)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "dimensi, iplm?, saja"}
+{"id": "iplm-007", "question": "Mengapa bobot kinerja lebih besar daripada kepatuhan?", "answer": "Karena kinerja mencerminkan dampak nyata layanan perpustakaan terhadap literasi masyarakat. Kepatuhan hanya fondasi administratif, sedangkan kinerja adalah hasil dan manfaat langsung.", "alt_phrases": ["Bisakah jelaskan: Mengapa bobot kinerja lebih besar daripada kepatuhan?", "Saya ingin tahu, mengapa bobot kinerja lebih besar daripada kepatuhan?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "besar, bobot, daripada, kepatuhan?, kinerja, lebih, mengapa"}
+{"id": "iplm-008", "question": "Bagaimana peran tiap level perpustakaan?", "answer": "Perpusnas: metodologi, validasi, analisis nasional, publikasi, bimbingan teknis. Provinsi: kumpulkan & verifikasi data SMA/SMK, SLB, perpustakaan khusus provinsi. Kabupaten/Kota: kumpulkan & verifikasi data perpustakaan umum, SD/SMP, TBM, perpustakaan khusus daerah.", "alt_phrases": ["Bisakah jelaskan: Bagaimana peran tiap level perpustakaan?", "Saya ingin tahu, bagaimana peran tiap level perpustakaan?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "bagaimana, level, peran, perpustakaan?, tiap"}
+{"id": "iplm-009", "question": "Bagaimana menjamin kualitas data IPLM?", "answer": "Melalui pelatihan operator, supervisi lapangan, validasi silang antar level, berita acara verifikasi & validasi sebelum analisis.", "alt_phrases": ["Bisakah jelaskan: Bagaimana menjamin kualitas data IPLM?", "Saya ingin tahu, bagaimana menjamin kualitas data iplm?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "bagaimana, data, iplm?, kualitas, menjamin"}
+{"id": "iplm-010", "question": "Apa manfaat IPLM bagi daerah?", "answer": "Menjadi dasar laporan LPPD, menyediakan data objektif untuk kebijakan literasi, mendapatkan rekomendasi program peningkatan literasi, dasar penghargaan/insentif bagi daerah dengan peningkatan signifikan.", "alt_phrases": ["Bisakah jelaskan: Apa manfaat IPLM bagi daerah?", "Saya ingin tahu, apa manfaat iplm bagi daerah?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "bagi, daerah?, iplm, manfaat"}
+{"id": "iplm-011", "question": "Apakah semua perpustakaan di wilayah kami wajib mengisi instrumen IPLM?", "answer": "Ya, semua unit wajib berpartisipasi. Sensus untuk perpustakaan terbatas, sampling untuk jumlah besar.", "alt_phrases": ["Bisakah jelaskan: Apakah semua perpustakaan di wilayah kami wajib mengisi instrumen IPLM?", "Saya ingin tahu, apakah semua perpustakaan di wilayah kami wajib mengisi instrumen iplm?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "apakah, instrumen, iplm?, kami, mengisi, perpustakaan, semua, wajib, wilayah"}
+{"id": "iplm-012", "question": "Bagaimana mekanisme jika ada perpustakaan yang tidak mengisi atau terlambat mengirim data?", "answer": "Data dianggap tidak lengkap dan memengaruhi skor daerah. Ketepatan waktu menjadi faktor penting.", "alt_phrases": ["Bisakah jelaskan: Bagaimana mekanisme jika ada perpustakaan yang tidak mengisi atau terlambat mengirim data?", "Saya ingin tahu, bagaimana mekanisme jika ada perpustakaan yang tidak mengisi atau terlambat mengirim data?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "atau, bagaimana, data?, jika, mekanisme, mengirim, mengisi, perpustakaan, terlambat, tidak, yang"}
+{"id": "iplm-013", "question": "Apakah ada sanksi jika daerah tidak mengirimkan data IPLM?", "answer": "Tidak ada sanksi administratif langsung, tetapi skor daerah rendah dan berdampak pada evaluasi LPPD.", "alt_phrases": ["Bisakah jelaskan: Apakah ada sanksi jika daerah tidak mengirimkan data IPLM?", "Saya ingin tahu, apakah ada sanksi jika daerah tidak mengirimkan data iplm?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "apakah, daerah, data, iplm?, jika, mengirimkan, sanksi, tidak"}
+{"id": "iplm-014", "question": "Apakah dinas bisa melihat hasil sementara sebelum publikasi nasional?", "answer": "Ya, hasil rekap bisa diakses daerah untuk keperluan internal. Publikasi resmi tetap melalui Perpusnas.", "alt_phrases": ["Bisakah jelaskan: Apakah dinas bisa melihat hasil sementara sebelum publikasi nasional?", "Saya ingin tahu, apakah dinas bisa melihat hasil sementara sebelum publikasi nasional?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "apakah, bisa, dinas, hasil, melihat, nasional?, publikasi, sebelum, sementara"}
+{"id": "iplm-015", "question": "Apakah ada bimbingan teknis bagi operator di daerah?", "answer": "Ada, Perpusnas menyiapkan pelatihan berjenjang (nasional → provinsi → kabupaten/kota).", "alt_phrases": ["Bisakah jelaskan: Apakah ada bimbingan teknis bagi operator di daerah?", "Saya ingin tahu, apakah ada bimbingan teknis bagi operator di daerah?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "apakah, bagi, bimbingan, daerah?, operator, teknis"}
+{"id": "iplm-016", "question": "Bagaimana cara menangani perbedaan data antara laporan daerah dan hasil validasi pusat?", "answer": "Dilakukan masa sanggah/rekonsiliasi. Daerah diberi kesempatan klarifikasi/perbaikan sebelum finalisasi skor.", "alt_phrases": ["Bisakah jelaskan: Bagaimana cara menangani perbedaan data antara laporan daerah dan hasil validasi pusat?", "Saya ingin tahu, bagaimana cara menangani perbedaan data antara laporan daerah dan hasil validasi pusat?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "antara, bagaimana, cara, daerah, data, hasil, laporan, menangani, perbedaan, pusat?, validasi"}
+{"id": "iplm-017", "question": "Apakah hasil IPLM bisa digunakan untuk mengusulkan anggaran daerah?", "answer": "Bisa, IPLM memberikan evidence-based data yang sahih untuk Renstra atau RKPD.", "alt_phrases": ["Bisakah jelaskan: Apakah hasil IPLM bisa digunakan untuk mengusulkan anggaran daerah?", "Saya ingin tahu, apakah hasil iplm bisa digunakan untuk mengusulkan anggaran daerah?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "anggaran, apakah, bisa, daerah?, digunakan, hasil, iplm, mengusulkan, untuk"}
+{"id": "iplm-018", "question": "Apakah IPLM juga mengukur kontribusi TBM atau perpustakaan komunitas?", "answer": "Ya, TBM dan rumah baca masuk dalam populasi/sampel IPLM untuk mencerminkan ekosistem literasi luas.", "alt_phrases": ["Bisakah jelaskan: Apakah IPLM juga mengukur kontribusi TBM atau perpustakaan komunitas?", "Saya ingin tahu, apakah iplm juga mengukur kontribusi tbm atau perpustakaan komunitas?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "apakah, atau, iplm, juga, komunitas?, kontribusi, mengukur, perpustakaan"}
+{"id": "iplm-019", "question": "Bagaimana jika data perpustakaan sekolah sulit diperoleh karena kewenangan ada di Dinas Pendidikan?", "answer": "Dinas Perpustakaan perlu koordinasi formal dengan Dinas Pendidikan agar data sekolah bisa dihimpun.", "alt_phrases": ["Bisakah jelaskan: Bagaimana jika data perpustakaan sekolah sulit diperoleh karena kewenangan ada di Dinas Pendidikan?", "Saya ingin tahu, bagaimana jika data perpustakaan sekolah sulit diperoleh karena kewenangan ada di dinas pendidikan?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "bagaimana, data, dinas, diperoleh, jika, karena, kewenangan, pendidikan?, perpustakaan, sekolah, sulit"}
+{"id": "iplm-020", "question": "Apakah ada insentif bagi daerah yang skornya tinggi?", "answer": "Ya, Perpusnas mempertimbangkan penghargaan/insentif bagi daerah yang datanya lengkap dan kinerjanya meningkat.", "alt_phrases": ["Bisakah jelaskan: Apakah ada insentif bagi daerah yang skornya tinggi?", "Saya ingin tahu, apakah ada insentif bagi daerah yang skornya tinggi?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "apakah, bagi, daerah, insentif, skornya, tinggi?, yang"}
+{"id": "iplm-021", "question": "Apa dasar hukum terbaru pelaksanaan IPLM?", "answer": "Peraturan Perpusnas Nomor 7 Tahun 2025 tentang Pedoman IPLM, sebagai acuan resmi nasional.", "alt_phrases": ["Bisakah jelaskan: Apa dasar hukum terbaru pelaksanaan IPLM?", "Saya ingin tahu, apa dasar hukum terbaru pelaksanaan iplm?"], "source_doc": "Peraturan Perpusnas 2025 (Pedoman IPLM)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "dasar, hukum, iplm?, pelaksanaan, terbaru"}
+{"id": "iplm-022", "question": "Siapa penyelenggara resmi IPLM?", "answer": "Penyelenggara adalah Perpusnas, dibantu Perpustakaan Provinsi dan Kabupaten/Kota.", "alt_phrases": ["Bisakah jelaskan: Siapa penyelenggara resmi IPLM?", "Saya ingin tahu, siapa penyelenggara resmi iplm?"], "source_doc": "Peraturan Perpusnas 2025 (Pedoman IPLM)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "iplm?, penyelenggara, resmi, siapa"}
+{"id": "iplm-023", "question": "Apa saja tahapan resmi IPLM menurut Peraturan Perpusnas?", "answer": "1) pengumpulan data, 2) verifikasi & validasi, 3) penghitungan (transformasi, normalisasi, bobot), 4) penetapan hasil, 5) pemantauan & evaluasi.", "alt_phrases": ["Bisakah jelaskan: Apa saja tahapan resmi IPLM menurut Peraturan Perpusnas?", "Saya ingin tahu, apa saja tahapan resmi iplm menurut peraturan perpusnas?"], "source_doc": "Peraturan Perpusnas 2025 (Pedoman IPLM)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "iplm, menurut, peraturan, perpusnas?, resmi, saja, tahapan"}
+{"id": "iplm-024", "question": "Bagaimana jika daerah tidak sepakat dengan hasil penghitungan IPLM?", "answer": "Daerah dapat mengajukan keberatan dalam 14 hari setelah menerima hasil awal. Perpusnas akan melakukan penghitungan ulang bersama daerah.", "alt_phrases": ["Bisakah jelaskan: Bagaimana jika daerah tidak sepakat dengan hasil penghitungan IPLM?", "Saya ingin tahu, bagaimana jika daerah tidak sepakat dengan hasil penghitungan iplm?"], "source_doc": "Peraturan Perpusnas 2025 (Pedoman IPLM)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "bagaimana, daerah, dengan, hasil, iplm?, jika, penghitungan, sepakat, tidak"}
+{"id": "iplm-025", "question": "Siapa yang bertanggung jawab mengumpulkan data sekolah dan TBM?", "answer": "Kabupaten/Kota: SD, SMP, desa/kelurahan, kecamatan, TBM, perpustakaan khusus daerah. Provinsi: SMA/SMK, SLB, perpustakaan khusus provinsi. Pusat: perguruan tinggi, perpustakaan khusus K/L, sekolah di bawah Kemenag.", "alt_phrases": ["Bisakah jelaskan: Siapa yang bertanggung jawab mengumpulkan data sekolah dan TBM?", "Saya ingin tahu, siapa yang bertanggung jawab mengumpulkan data sekolah dan tbm?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "bertanggung, data, jawab, mengumpulkan, sekolah, siapa, tbm?, yang"}
+{"id": "iplm-026", "question": "Apakah ada ketentuan tentang pendanaan IPLM?", "answer": "Ya, pendanaan IPLM bersumber dari APBN. Daerah tetap perlu dukungan administratif/teknis.", "alt_phrases": ["Bisakah jelaskan: Apakah ada ketentuan tentang pendanaan IPLM?", "Saya ingin tahu, apakah ada ketentuan tentang pendanaan iplm?"], "source_doc": "Peraturan Perpusnas 2025 (Pedoman IPLM)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "apakah, iplm?, ketentuan, pendanaan, tentang"}
+{"id": "iplm-027", "question": "Apakah indikator IPLM sama dengan Juknis?", "answer": "Ya, dimensi kepatuhan (koleksi, tenaga) dan kinerja (pelayanan, penyelenggaraan) tetap sama, dengan indikator resmi nasional.", "alt_phrases": ["Bisakah jelaskan: Apakah indikator IPLM sama dengan Juknis?", "Saya ingin tahu, apakah indikator iplm sama dengan juknis?"], "source_doc": "Peraturan Perpusnas 2025 (Pedoman IPLM)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "apakah, dengan, indikator, iplm, juknis?, sama"}
+{"id": "iplm-028", "question": "Bagaimana hasil IPLM digunakan di daerah?", "answer": "Hasil IPLM bisa diakses daerah sebagai bahan evaluasi internal dan perencanaan literasi, serta laporan LPPD.", "alt_phrases": ["Bisakah jelaskan: Bagaimana hasil IPLM digunakan di daerah?", "Saya ingin tahu, bagaimana hasil iplm digunakan di daerah?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "bagaimana, daerah?, digunakan, hasil, iplm"}
+{"id": "iplm-029", "question": "Apakah ada evaluasi berkala IPLM?", "answer": "Ya, evaluasi dilakukan setiap tahun atau sewaktu-waktu bila diperlukan.", "alt_phrases": ["Bisakah jelaskan: Apakah ada evaluasi berkala IPLM?", "Saya ingin tahu, apakah ada evaluasi berkala iplm?"], "source_doc": "Juknis IPLM 2025 (Pelaksanaan)", "source_locator": "", "last_updated": "2025-09-29", "language": "id", "keywords": "apakah, berkala, evaluasi, iplm?"}

README.md CHANGED Viewed

@@ -1,14 +1,37 @@
----
-title: IPLM Chatbot
-emoji: 🚀
-colorFrom: green
-colorTo: green
-sdk: gradio
-sdk_version: 5.47.2
-app_file: app.py
-pinned: false
-license: cc-by-nc-4.0
-short_description: Prototype chatbot iplm
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# 📚 RAG + LLM Chatbot (Hugging Face Spaces)
+Chatbot berbasis **RAG (Retrieval-Augmented Generation)** yang membaca **JSONL Q&A** dan menjawab menggunakan **LLM** via **Hugging Face Inference API**.
+## Struktur Repo
+```
+/
+├─ app.py
+├─ requirements.txt
+└─ IPLM_QnA_Chatbot.jsonl  # file JSONL Anda (tiap baris: {"question": "...", "answer": "..."})
+```
+## Cara Deploy di Hugging Face Spaces
+1. Buat Space baru → pilih **Gradio**.
+2. Unggah `app.py`, `requirements.txt`, dan `IPLM_QnA_Chatbot.jsonl`.
+3. Buka **Settings → Secrets** dan tambahkan:
+   - `HF_TOKEN` = User Access Token Anda (scopes default).
+   - (Opsional) `LLM_MODEL` (default: `meta-llama/Meta-Llama-3.1-8B-Instruct`)
+   - (Opsional) `EMB_MODEL` (default: `sentence-transformers/all-MiniLM-L6-v2`)
+   - (Opsional) `HF_CHAT_URL` jika memakai endpoint TGI sendiri.
+4. Jalankan Space. UI siap dipakai.
+## Format JSONL
+Setiap baris adalah objek JSON:
+```json
+{"question": "Apa itu IPLM?", "answer": "IPLM adalah ... "}
+```
+Alias yang didukung: `pertanyaan/jawaban`, `q/a`.
+## Catatan
+- Jika `HF_TOKEN` belum diisi, aplikasi tetap berjalan dan retrieval akan muncul, namun LLM akan memberi peringatan (non-generatif).
+- Cache embedding disimpan sebagai `embeddings.pkl` agar startup berikutnya cepat.
+- Anda bisa **upload JSONL** baru dari panel kanan untuk memperbarui basis pengetahuan.
+## Lisensi
+MIT

app.py ADDED Viewed

	@@ -0,0 +1,199 @@

+import os, re, json, pickle, hashlib, requests
+from pathlib import Path
+import gradio as gr
+import pandas as pd
+import numpy as np
+from sklearn.neighbors import NearestNeighbors
+from sentence_transformers import SentenceTransformer
+# =================== Config ===================
+DATA_PATH = Path(os.getenv("DATA_PATH", "IPLM_QnA_Chatbot.jsonl"))  # default filename
+CACHE_EMB = Path("embeddings.pkl")
+CACHE_META = Path("meta.json")
+# Embedding model for retrieval
+EMB_MODEL = os.getenv("EMB_MODEL", "sentence-transformers/all-MiniLM-L6-v2")
+# LLM endpoint (HF Inference API / TGI-compatible / OpenAI-compatible route)
+HF_CHAT_URL = os.getenv("HF_CHAT_URL", "https://api-inference.huggingface.co/v1/chat/completions")
+HF_TOKEN    = os.getenv("HF_TOKEN", "")
+LLM_MODEL   = os.getenv("LLM_MODEL", "meta-llama/Meta-Llama-3.1-8B-Instruct")
+TOP_K_DEFAULT = int(os.getenv("TOP_K_DEFAULT", "4"))
+TEMPERATURE_DEFAULT = float(os.getenv("TEMPERATURE_DEFAULT", "0.3"))
+MAX_TOKENS = int(os.getenv("MAX_TOKENS", "512"))
+SYSTEM_PROMPT = os.getenv("SYSTEM_PROMPT",
+    "You are an Indonesian librarian assistant. Jawab ringkas, akurat, dan sopan. "
+    "Gunakan HANYA informasi dari konteks yang diberikan. Jika konteks tidak memuat jawabannya, "
+    "katakan bahwa data tidak tersedia di basis pengetahuan."
+)
+# =================== Utils ===================
+def norm(s: str) -> str:
+    if s is None: return ""
+    s = str(s).strip()
+    s = re.sub(r"\s+", " ", s)
+    return s
+def dataset_hash(rows: list) -> str:
+    m = hashlib.md5()
+    for r in rows:
+        m.update((norm(r.get("question", "")) + "|" + norm(r.get("answer", ""))).encode("utf-8"))
+    return m.hexdigest()
+def load_jsonl(path: Path) -> list:
+    if not path.exists():
+        raise FileNotFoundError(f"JSONL tidak ditemukan: {path.resolve()}")
+    rows = []
+    with path.open("r", encoding="utf-8") as f:
+        for line in f:
+            line = line.strip()
+            if not line: continue
+            obj = json.loads(line)
+            # support various key names
+            q = obj.get("question") or obj.get("pertanyaan") or obj.get("q")
+            a = obj.get("answer")   or obj.get("jawaban")    or obj.get("a")
+            if q and a:
+                rows.append({"question": norm(q), "answer": norm(a)})
+    if not rows:
+        raise ValueError("JSONL kosong atau tidak mengandung pasangan 'question'/'answer'.")
+    # drop dup by question
+    seen = set()
+    uniq = []
+    for r in rows:
+        if r["question"] in seen:
+            continue
+        seen.add(r["question"])
+        uniq.append(r)
+    return uniq
+# =================== Index ===================
+class FAQIndex:
+    def __init__(self):
+        self.rows = None
+        self.model = None
+        self.emb = None
+        self.nn = None
+    def build(self, rows: list, force=False):
+        self.rows = rows
+        # try load cache
+        if not force and CACHE_EMB.exists() and CACHE_META.exists():
+            try:
+                meta = json.loads(CACHE_META.read_text(encoding="utf-8"))
+                if meta.get("hash") == dataset_hash(rows) and meta.get("emb_model") == EMB_MODEL:
+                    cached = pickle.loads(CACHE_EMB.read_bytes())
+                    self.emb = cached["emb"]
+                    self.nn  = cached["nn"]
+                    if self.model is None:
+                        self.model = SentenceTransformer(EMB_MODEL)
+                    return
+            except Exception:
+                pass
+        # build fresh
+        self.model = SentenceTransformer(EMB_MODEL)
+        # encode "Q: ...\nA: ..." for better grounding
+        qas = [f"Q: {r['question']}\nA: {r['answer']}" for r in rows]
+        self.emb = self.model.encode(qas, normalize_embeddings=True, convert_to_numpy=True, show_progress_bar=False)
+        self.nn  = NearestNeighbors(n_neighbors=min(10, len(qas)), metric="cosine").fit(self.emb)
+        CACHE_EMB.write_bytes(pickle.dumps({"emb": self.emb, "nn": self.nn}))
+        CACHE_META.write_text(json.dumps({"hash": dataset_hash(rows), "emb_model": EMB_MODEL}, ensure_ascii=False))
+    def retrieve(self, query: str, top_k: int = TOP_K_DEFAULT):
+        if not query.strip():
+            return []
+        q_vec = self.model.encode([query], normalize_embeddings=True, convert_to_numpy=True, show_progress_bar=False)
+        dists, idxs = self.nn.kneighbors(q_vec, n_neighbors=min(top_k, len(self.rows)))
+        sims = 1.0 - dists[0]
+        out = []
+        for i, sim in zip(idxs[0], sims):
+            r = self.rows[int(i)]
+            out.append({"question": r["question"], "answer": r["answer"], "score": float(sim)})
+        return out
+# =================== LLM Caller ===================
+def call_hf_chat(messages, temperature=TEMPERATURE_DEFAULT, max_tokens=MAX_TOKENS):
+    if not HF_TOKEN:
+        # allow non-LLM fallback with a clear message
+        return "⚠️ HF_TOKEN belum diatur. Buka Settings → Secrets dan tambahkan HF_TOKEN agar LLM aktif."
+    headers = {"Authorization": f"Bearer {HF_TOKEN}"}
+    payload = {
+        "model": LLM_MODEL,
+        "messages": messages,
+        "temperature": float(temperature),
+        "max_tokens": int(max_tokens),
+        "stream": False
+    }
+    r = requests.post(HF_CHAT_URL, headers=headers, json=payload, timeout=90)
+    try:
+        r.raise_for_status()
+        j = r.json()
+        return j["choices"][0]["message"]["content"]
+    except Exception as e:
+        return f"❌ Gagal memanggil LLM: {e}\nResp: {r.text[:500]}"
+# =================== RAG Orchestrator ===================
+def build_context(retrieved):
+    blocks = []
+    for i, r in enumerate(retrieved, 1):
+        blocks.append(f"[DOC {i} | score={r['score']:.2f}]\nQ: {r['question']}\nA: {r['answer']}")
+    return "\n\n".join(blocks)
+def rag_answer(user_msg, top_k=TOP_K_DEFAULT, temperature=TEMPERATURE_DEFAULT):
+    hits = faq.retrieve(user_msg, top_k=int(top_k))
+    if not hits:
+        return "Maaf, saya tidak menemukan referensi di basis pengetahuan Anda."
+    context = build_context(hits)
+    messages = [
+        {"role": "system", "content": SYSTEM_PROMPT},
+        {"role": "user", "content": f"KONTEKS:\n{context}\n\nPERTANYAAN:\n{user_msg}\n\nInstruksi: Jawab berbasis KONTEKS. Jika tidak ada di konteks, jawab 'Data tidak tersedia.' "}
+    ]
+    out = call_hf_chat(messages, temperature=float(temperature), max_tokens=MAX_TOKENS)
+    bullets = "\n".join([f"- ({h['score']:.2f}) {h['question']}" for h in hits])
+    return f"{out}\n\n**Sumber terdekat:**\n{bullets}"
+# =================== Data load on start ===================
+faq = FAQIndex()
+rows = load_jsonl(DATA_PATH)
+faq.build(rows, force=False)
+# =================== Upload new JSONL ===================
+def upload_jsonl(file_obj):
+    if file_obj is None:
+        return gr.update(value="Tidak ada file.")
+    tmp = Path(file_obj.name)
+    tmp.replace(DATA_PATH)
+    if CACHE_EMB.exists(): CACHE_EMB.unlink()
+    if CACHE_META.exists(): CACHE_META.unlink()
+    global rows, faq
+    rows = load_jsonl(DATA_PATH)
+    faq = FAQIndex()
+    faq.build(rows, force=True)
+    return f"✅ Basis pengetahuan diperbarui. Total Q&A: {len(rows)}."
+# =================== UI ===================
+with gr.Blocks(title="RAG + LLM (JSONL)") as demo:
+    gr.Markdown("# 📚 RAG + LLM — dari JSONL Q&A\n"
+                "Masukkan pertanyaan → sistem mengambil Q&A paling relevan → LLM merangkum/menjawab berdasarkan konteks.")
+    with gr.Row():
+        with gr.Column(scale=2):
+            chat = gr.ChatInterface(
+                fn=lambda msg, hist, k, t: rag_answer(msg, top_k=int(k), temperature=float(t)),
+                additional_inputs=[
+                    gr.Slider(1, 10, value=TOP_K_DEFAULT, step=1, label="Top-K dokumen"),
+                    gr.Slider(0.0, 1.0, value=TEMPERATURE_DEFAULT, step=0.05, label="Temperatur")
+                ],
+                title="Asisten Perpustakaan (RAG)",
+                description="Jawab *berdasarkan konteks* dari dokumen JSONL Anda.",
+                examples=["Apa itu IPLM?", "Bagaimana perhitungan TGM?", "Apa saja tahap pengolahan data?"]
+            )
+        with gr.Column(scale=1):
+            gr.Markdown("### 🔄 Perbarui Basis Data")
+            uploader = gr.File(label="Upload JSONL Q&A (keys: question, answer)")
+            out = gr.Textbox(label="Status", interactive=False)
+            uploader.change(fn=upload_jsonl, inputs=uploader, outputs=out)
+            gr.Markdown("Set **HF_TOKEN** di Settings → Secrets untuk mengaktifkan LLM.")
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+gradio==4.44.1
+pandas
+sentence-transformers==2.2.2
+scikit-learn
+requests