Dataset Card: Knowledge Base Kebijakan Kemiskinan Jawa Timur

Dataset Summary

Dataset ini berisi kumpulan dokumen kebijakan, pedoman teknis, dan laporan kajian terkait program penanggulangan kemiskinan di Provinsi Jawa Timur dan cakupan Nasional. Dataset ini dirancang secara khusus untuk sistem Retrieval-Augmented Generation (RAG).

Setiap entri dalam dataset merupakan potongan teks (chunk) yang telah diekstrak secara otomatis dari dokumen PDF sumber (menggunakan PyMuPDF dan Tesseract OCR) dan dilengkapi dengan metadata kustom seperti jenis dokumen, tahun, wilayah, serta kategori program.

Dataset ini dibangun dalam "Fase 1 - MKN Tim 3" untuk keperluan ekstraksi informasi dan sistem QA (Question Answering) berbasis AI mengenai regulasi kemiskinan, PKH, stunting, Rutilahu, hingga RPJMD Jawa Timur.

Dataset Structure

Data Instances

Setiap instance merepresentasikan satu chunk teks (potongan bab/pasal/paragraf) dari dokumen legal atau laporan.

Contoh data point:

{
  "kb_id": "md5_hash_of_chunk",
  "source_filename": "Pergub Jawa Timur Nomor 7 Tahun 2024...",
  "chunk_index": 12,
  "teks": "Pasal 5\n(1) Bantuan Sosial sebagaimana dimaksud dalam Pasal 4 huruf a...",
  "bab": "BAB III",
  "pasal": "Pasal 5",
  "jenis_dokumen": "Pergub",
  "tahun": "2024",
  "cakupan_wilayah": "Provinsi Jawa Timur",
  "kategori_program": "Kemiskinan Umum",
  "label_jenis": "peraturan_hukum",
  "label_topik": "kemiskinan_umum",
  "label_wilayah": "provinsi_jawa_timur",
  "qa_status": "VALID",
  "qa_notes": ""
}

Data Fields

  • kb_id (string): Unique identifier untuk setiap teks chunk.
  • source_filename (string): Nama file PDF/DOCX asli.
  • chunk_index (int): Indeks urutan chunk dalam dokumen sumber.
  • teks (string): Konten teks mentah dari chunk.
  • bab (string): Ekstraksi Bab (jika dokumen regulasi hukum).
  • pasal (string): Ekstraksi Pasal atau sub-judul (jika ada).
  • jenis_dokumen (string): UU, Perda, Pergub, Juknis/Pedoman, dll.
  • tahun (string): Tahun dokumen dikeluarkan.
  • cakupan_wilayah (string): Skala regulasi (Nasional, Provinsi Jawa Timur, Kota Malang).
  • kategori_program (string): Fokus program (PKH, BPNT, Stunting, BLT, dll).
  • qa_status (string): Status verifikasi otomatis (VALID, TOO_SHORT, LOW_QUALITY).
  • label_* (string): Mapping dari metadata untuk kepentingan supervised classification (opsional).

Data Splits

Saat ini seluruh dataset (777 entri tervalidasi dari total 931 ekstraksi kasar) disediakan dalam bentuk satu split (train atau corpus untuk vector database embedding).

Dataset Creation

Source Data

Total dokumen awal adalah 18 dokumen kebijakan. Dokumen bersumber dari publikasi legal pemerintah, Peraturan Presiden, Peraturan Menteri Sosial (Permensos), Peraturan/Keputusan Gubernur Jawa Timur (Pergub/Kepgub), hingga Juknis tingkat daerah tentang penyaluran bansos kemiskinan.

Beberapa contoh dokumen:

  • buku_rpjmd_provinsi_jawa_timur_2025_2029.pdf
  • Pedoman Pelaksanaan Program Keluarga Harapan Tahun 2021.pdf
  • Percepatan Penurunan Stunting_Perpres Nomor 72 Tahun 2021.pdf
  • REHABILITASI SOSIAL RUTILAHU DAN SARANA PRASARANA LINGKUNGAN-PERMENSOS NOMOR 20 TAHUN 2017.pdf

Data Processing & Pipeline

  1. Ekstraksi: Teks ditarik dari PDF berteks langsung lewat PyMuPDF dan PDF hasil scan lewat OCR (Tesseract).
  2. Cleaning & Metadata: Regex membersihkan nomor halaman dan mendeteksi tahun, jenis regulasi, dll.
  3. Adaptive Chunking: Dokumen regulasi dipisah berdasarkan struktur hirarki (Bab & Pasal), sedangkan laporan dipisah per bagian logis/paragraf.
  4. Quality Assurance: Memfilter chunk yang terdeteksi bising (high noise characters) atau terlalu pendek.

Bias, Risks, and Limitations

  • Keterbatasan OCR: Beberapa PDF bersumber dari hasil pindaian kualitas rendah, sehingga memungkinkan minor typo/noise teks walaupun telah di-filter.
  • Kontekstualitas: Karena ini diproyeksikan untuk semantic search (RAG), pemisahan teks (chunking) kadang secara tidak sengaja memotong referensi penting dari pasal sebelumnya yang tidak ditulis eksplisit di dalam chunk tersebut.
  • Cakupan Wilayah: Meskipun ada kebijakan Nasional, data sangat terbias/terfokus pada implementasi di Kota Malang dan Provinsi Jawa Timur (RKPD, RPJMD, SK lokal).

Integrasi RAG (Recommended Usage)

Rekomendasi model embedding untuk menggunakan corpus ini:

  • LazarusNLP/all-indo-e5-small-v4 (Indonesian Optimized)
  • cross-encoder/mmarco-mMiniLMv2-L12-H384-v1 (Untuk tahap Re-ranking kandidat)

Rekomendasi RAG Generator:

  • llama3.2 / qwen2.5 / gemma2 local via Ollama.

Author: Tim 3 MKN (Fase 1) Date: March 2026

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support