Spaces:

irhamni
/

IPLM_DM

Running

App Files Files Community

irhamni commited on 22 days ago

Commit

968d291

verified ·

1 Parent(s): d271b9f

Update app.py

Browse files

Files changed (1) hide show

app.py +108 -104

app.py CHANGED Viewed

@@ -1,27 +1,19 @@
 # -*- coding: utf-8 -*-
 """
-app.py — Dashboard Kekurangan Sampel IPLM (TANPA HITUNG INDEKS) + Grafik GAP (Bukan Persen)
-Fokus:
-- Target pengumpulan = 68% dari populasi unit (meta), BUKAN 100%
-- Output utama: "Kekurangan sampel" = berapa unit lagi yang harus dikumpulkan
-Pembanding:
 - KAB/KOTA:
   * Sekolah: target = 68% dari (SD + SMP)
   * Umum:   target = 68% dari (Kecamatan + Desa/Kelurahan)
 - PROVINSI:
   * SMA:    target = 68% dari (Total SMA)
-Fitur:
-- Filter: Provinsi, Kab/Kota, Kewenangan
-- Tabel Verifikasi (target 68% + kekurangan)
-- Detail subset DM (ringkas)
-- Grafik GAP (kekurangan unit) per wilayah
 - Download:
   1) Rekap (Verifikasi + Detail ringkas) .xlsx
   2) Data mentah subset DM sesuai filter .xlsx
-  3) Laporan Word (.docx) + narasi LLM soal kekurangan sampel
 """
 import os
@@ -37,7 +29,6 @@ from huggingface_hub import InferenceClient
 # Word report
 from docx import Document
-from docx.shared import Inches
 # Pie opsional (butuh kaleido)
 import plotly.express as px
@@ -51,18 +42,18 @@ except Exception:
 # ============================================================
 # 1) KONFIGURASI FILE
 # ============================================================
-DATA_FILE       = "IPLM_clean_Manual.xlsx"                 # data sampel masuk (multi-sheet)
 META_KAB_FILE   = "jumlahdesa_fixed (1).xlsx"   # kecamatan & desa/kel per kab/kota
 META_SDSMP_FILE = "SD-SMP-kab.xlsx"             # jumlah SD & SMP per kab/kota
 META_SMA_FILE   = "SMA.xlsx"                    # jumlah SMA per provinsi
 # ============================================================
-# 1a) TARGET CAKUPAN SAMPEL (KEBIJAKAN)
 # ============================================================
-TARGET_COVERAGE = 0.68  # 68% dari populasi
 # ============================================================
-# 1b) KONFIGURASI LLM (Hugging Face Inference)
 # ============================================================
 USE_LLM = True
 LLM_MODEL_NAME = "meta-llama/Meta-Llama-3-8B-Instruct"
@@ -166,20 +157,33 @@ def norm_kab_label(s):
     t = " ".join(t.split())
     return re.sub(r"[^A-Z0-9]+", "", t)
-def _infer_jenjang_sd_smp(x):
-    if pd.isna(x):
-        return "OTHER"
-    t = str(x).upper()
-    if " SD " in f" {t} " or " SD/" in t or " MI " in f" {t} ":
-        return "SD"
-    if " SMP " in f" {t} " or " SMP/" in t or " MTS " in f" {t} ":
-        return "SMP"
-    return "OTHER"
 def make_pie_plotly(num, den, title):
     if not HAS_KALEIDO:
         return None
     if den is None or pd.isna(den) or den <= 0:
         values = [0, 1]
         labels = ["Terjangkau", "Belum Terjangkau"]
@@ -188,7 +192,6 @@ def make_pie_plotly(num, den, title):
         den = float(den)
         values = [max(num, 0), max(den - num, 0)]
         labels = ["Terjangkau", "Belum Terjangkau"]
     fig = px.pie(values=values, names=labels, title=title, hole=0.35)
     tmp = tempfile.mktemp(suffix=".png")
     try:
@@ -214,6 +217,8 @@ jenis_col_glob = None
 subjenis_col_glob = None
 nama_col_glob = None
 # ---- Load DM ----
 try:
     fp = Path(DATA_FILE)
@@ -231,11 +236,13 @@ try:
     subjenis_col_glob = pick_col(df_all_raw, ["sub_jenis_perpus", "Sub Jenis", "SubJenis", "subjenis", "jenjang"])
     nama_col_glob  = pick_col(df_all_raw, ["nama_perpustakaan", "nm_perpustakaan", "nm_instansi_lembaga", "Nama Perpustakaan"])
     if kew_col_glob:
         df_all_raw["KEW_NORM"] = df_all_raw[kew_col_glob].apply(norm_kew)
     else:
         df_all_raw["KEW_NORM"] = None
     val_map_jenis = {
         "PERPUSTAKAAN SEKOLAH": "sekolah",
         "SEKOLAH": "sekolah",
@@ -250,13 +257,22 @@ try:
     else:
         df_all_raw["_dataset"] = None
     DATA_INFO = f"Data terbaca dari: **{DATA_FILE}** | Jumlah baris: **{len(df_all_raw)}**"
 except Exception as e:
     df_all_raw = None
     DATA_INFO = f"⚠️ Gagal memuat `{DATA_FILE}` | Error: `{e}`"
-extra_info = []
 # ---- Meta Kab (Kec/Desa) ----
 try:
     meta_kab_raw = pd.read_excel(META_KAB_FILE)
@@ -354,21 +370,21 @@ if extra_info:
 # 4) DROPDOWN
 # ============================================================
 def all_prov_choices():
-    if df_all_raw is None or prov_col_glob is None:
         return ["(Semua)"]
-    s = df_all_raw[prov_col_glob].dropna().astype(str).str.strip()
-    vals = sorted([o for o in s.unique() if o != ""])
     return ["(Semua)"] + vals
 def get_kab_choices_for_prov(prov_value):
-    if df_all_raw is None or kab_col_glob is None:
         return ["(Semua)"]
-    if prov_value is None or prov_value == "(Semua)" or prov_col_glob is None:
-        s = df_all_raw[kab_col_glob].dropna().astype(str).str.strip()
     else:
-        m = df_all_raw[prov_col_glob].astype(str).str.strip() == prov_value
-        s = df_all_raw.loc[m, kab_col_glob].dropna().astype(str).str.strip()
-    vals = sorted([x for x in s.unique() if x != ""])
     return ["(Semua)"] + vals
 def all_kew_choices():
@@ -385,7 +401,7 @@ default_kew  = "KAB/KOTA" if "KAB/KOTA" in kew_choices else (kew_choices[0] if k
 # ============================================================
-# 5) VERIFIKASI GAP (TARGET 68%)
 # ============================================================
 def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.DataFrame:
     if df_filtered is None or len(df_filtered) == 0:
@@ -393,31 +409,23 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
     kew_norm = str(kew_value or "").upper()
-    # ================ KAB/KOTA ================
     if ("KAB" in kew_norm or "KOTA" in kew_norm):
-        if kab_col_glob is None or meta_kab_df is None:
-            return pd.DataFrame({"Info": ["Kolom kab/kota atau meta kab tidak tersedia."]})
         tmp = df_filtered.copy()
-        tmp = tmp[pd.notna(tmp[kab_col_glob])]
         if tmp.empty:
             return pd.DataFrame()
-        tmp["kab_key"] = tmp[kab_col_glob].apply(norm_kab_label)
-        # total sampel per kab
         g_total = tmp.groupby("kab_key").size().rename("Sampel Total").reset_index()
-        # sekolah & jenjang (opsional)
-        if subjenis_col_glob and subjenis_col_glob in tmp.columns:
-            tmp["jenjang"] = tmp[subjenis_col_glob].apply(_infer_jenjang_sd_smp)
-        else:
-            tmp["jenjang"] = "OTHER"
         tmp_sek = tmp[tmp["_dataset"] == "sekolah"].copy() if "_dataset" in tmp.columns else tmp.copy()
         g_sek_total = tmp_sek.groupby("kab_key").size().rename("Sampel Sekolah").reset_index()
-        # umum
         tmp_umum = tmp[tmp["_dataset"] == "umum"].copy() if "_dataset" in tmp.columns else tmp.copy()
         g_umum = tmp_umum.groupby("kab_key").size().rename("Sampel Umum").reset_index()
@@ -438,11 +446,9 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
         merged["Populasi Sekolah (SD+SMP)"] = merged[["Jml_SD", "Jml_SMP"]].sum(axis=1, skipna=True)
         merged["Populasi Admin (Kec+Desa/Kel)"] = merged.get("Jml_Kecamatan", np.nan) + merged.get("Jml_DesaKel", np.nan)
-        # TARGET 68%
         merged["Target Sekolah (68%)"] = np.ceil(merged["Populasi Sekolah (SD+SMP)"] * TARGET_COVERAGE)
         merged["Target Umum (68%)"] = np.ceil(merged["Populasi Admin (Kec+Desa/Kel)"] * TARGET_COVERAGE)
-        # GAP: berapa yang harus dikumpulkan lagi
         merged["Kekurangan Sampel Sekolah"] = merged.apply(
             lambda r: max(int(r["Target Sekolah (68%)"] - r["Sampel Sekolah"]) if pd.notna(r["Target Sekolah (68%)"]) else 0, 0),
             axis=1
@@ -469,21 +475,19 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
         return out.sort_values("Kab/Kota").reset_index(drop=True).round(0)
-    # ================ PROVINSI ================
     if ("PROV" in kew_norm):
-        if meta_sma_df is None:
-            return pd.DataFrame({"Info": ["Meta SMA tidak tersedia."]})
-        if prov_col_glob is None:
-            return pd.DataFrame({"Info": ["Kolom provinsi tidak ditemukan di DM."]})
         tmp = df_filtered.copy()
-        tmp = tmp[pd.notna(tmp[prov_col_glob])]
         if tmp.empty:
             return pd.DataFrame({"Info": ["Tidak ada data sampel kewenangan provinsi."]})
-        tmp["prov_key"] = tmp[prov_col_glob].apply(norm_prov_label)
-        # start dari sampel (biar tidak bocor prov lain)
         g_total = tmp.groupby("prov_key").size().rename("Sampel Total (Prov)").reset_index()
         tmp_sek = tmp[tmp["_dataset"] == "sekolah"].copy() if "_dataset" in tmp.columns else tmp.copy()
@@ -496,7 +500,6 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
         )
         merged["Sampel SMA (DM)"] = merged["Sampel SMA (DM)"].fillna(0).astype(int)
         merged["Populasi SMA (Meta)"] = merged["Jml_SMA"]
         merged["Target SMA (68%)"] = np.ceil(merged["Populasi SMA (Meta)"] * TARGET_COVERAGE)
@@ -521,7 +524,7 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
 # ============================================================
-# 6) GRAFIK GAP (KURANGAN YANG HARUS DIKUMPULIN)
 # ============================================================
 def make_gap_figure(verif_df: pd.DataFrame, kew_value: str) -> go.Figure:
     fig = go.Figure()
@@ -539,7 +542,6 @@ def make_gap_figure(verif_df: pd.DataFrame, kew_value: str) -> go.Figure:
     def _num(s):
         return pd.to_numeric(s, errors="coerce").fillna(0).astype(int)
-    # sort by total gap biar enak dilihat
     if ("KAB" in kew_norm or "KOTA" in kew_norm) and ("Kab/Kota" in verif_df.columns):
         dfp = verif_df.copy()
         dfp["gap_total"] = _num(dfp.get("Kekurangan Sampel Sekolah", 0)) + _num(dfp.get("Kekurangan Sampel Umum", 0))
@@ -561,7 +563,7 @@ def make_gap_figure(verif_df: pd.DataFrame, kew_value: str) -> go.Figure:
         ))
         fig.update_layout(
-            title="Kekurangan Sampel yang Harus Dikumpulkan (KAB/KOTA) — Target 68%",
             barmode="group",
             xaxis_title="Kab/Kota",
             yaxis_title="Kekurangan (unit)",
@@ -585,7 +587,7 @@ def make_gap_figure(verif_df: pd.DataFrame, kew_value: str) -> go.Figure:
         ))
         fig.update_layout(
-            title="Kekurangan Sampel yang Harus Dikumpulkan (PROVINSI) — SMA Target 68%",
             xaxis_title="Provinsi",
             yaxis_title="Kekurangan (unit)",
             margin=dict(l=40, r=20, t=60, b=140),
@@ -602,7 +604,7 @@ def make_gap_figure(verif_df: pd.DataFrame, kew_value: str) -> go.Figure:
 # ============================================================
-# 7) LLM REPORT (GAP)
 # ============================================================
 def build_context_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: str) -> str:
     wilayah = kab if kab and kab != "(Semua)" else (prov if prov and prov != "(Semua)" else "NASIONAL")
@@ -623,7 +625,6 @@ def build_context_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: str) ->
         t[gc] = pd.to_numeric(t[gc], errors="coerce").fillna(0)
         keycol = "Kab/Kota" if "Kab/Kota" in t.columns else ("Provinsi" if "Provinsi" in t.columns else t.columns[0])
         top = t.sort_values(gc, ascending=False).head(10)
         lines.append("\nTop prioritas (gap terbesar):")
         for _, r in top.iterrows():
             lines.append(f"- {r[keycol]}: {gc}={int(r[gc])}")
@@ -649,11 +650,11 @@ def rule_based_gap_report(verif_df: pd.DataFrame, prov: str, kab: str, kew: str)
     for gc in gap_cols:
         total_gap = int(pd.to_numeric(verif_df[gc], errors="coerce").fillna(0).sum())
-        lines.append(f"- Total {gc}: **{total_gap}** unit yang perlu dilengkapi untuk mencapai target 68%.")
     lines.append(
-        "\nRekomendasi operasional: prioritaskan pengumpulan data pada wilayah dengan gap terbesar, "
-        "dan pastikan konsistensi penamaan provinsi/kab-kota agar pencocokan dengan meta tidak gagal."
     )
     return "\n".join(lines)
@@ -666,8 +667,7 @@ def generate_llm_gap_report(verif_df: pd.DataFrame, prov: str, kab: str, kew: st
     system_prompt = (
         "Anda adalah analis kebijakan dan manajer program IPLM. "
-        "Tugas Anda menyusun narasi singkat dan tegas tentang kekurangan sampel data IPLM "
-        "serta strategi pengumpulan data untuk menutup gap menuju target."
     )
     user_prompt = f"""
@@ -677,13 +677,13 @@ DATA RINGKAS GAP SAMPEL IPLM:
 TULIS LAPORAN (BAHASA INDONESIA FORMAL) DENGAN STRUKTUR:
 1) Ringkasan kondisi pengumpulan data (1 paragraf).
-2) Angka total kekurangan sampel yang masih perlu dikumpulkan untuk mencapai target 68% (1 paragraf).
-3) Prioritas wilayah (top gap) dan alasan operasionalnya (1 paragraf).
-4) Rencana aksi 30–60 hari (paragraf naratif, bukan bullet).
 BATASAN:
-- Jangan bahas indeks / skor IPLM sama sekali.
-- Fokus murni pada target 68%, kekurangan sampel, dan strategi pelengkapannya.
 """
     try:
@@ -721,7 +721,8 @@ def generate_word_report_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: s
     doc.add_paragraph(f"Target pengumpulan: {int(TARGET_COVERAGE*100)}% dari populasi unit (meta).")
     doc.add_paragraph(f"Jumlah unit analisis: {len(verif_df)}")
-    doc.add_heading("Tabel Verifikasi (Target 68% & Kekurangan Sampel)", level=2)
     view = verif_df.copy()
     if len(view) > 200:
         doc.add_paragraph("Catatan: tabel dipotong (200 baris pertama) untuk menjaga ukuran dokumen.")
@@ -741,30 +742,33 @@ def generate_word_report_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: s
     if not HAS_KALEIDO:
         doc.add_paragraph("Grafik pie tidak dibuat karena 'kaleido' tidak tersedia di server.")
     else:
         pie_made = False
         if "Sampel Sekolah" in verif_df.columns and "Target Sekolah (68%)" in verif_df.columns:
             samp = pd.to_numeric(verif_df["Sampel Sekolah"], errors="coerce").fillna(0).sum()
             tgt  = pd.to_numeric(verif_df["Target Sekolah (68%)"], errors="coerce").fillna(0).sum()
-            img = make_pie_plotly(samp, tgt, "Capaian Sekolah (Total) terhadap Target 68%")
             if img:
-                doc.add_picture(img, width=Inches(5))
                 pie_made = True
         if (not pie_made) and ("Sampel Umum" in verif_df.columns and "Target Umum (68%)" in verif_df.columns):
             samp = pd.to_numeric(verif_df["Sampel Umum"], errors="coerce").fillna(0).sum()
             tgt  = pd.to_numeric(verif_df["Target Umum (68%)"], errors="coerce").fillna(0).sum()
-            img = make_pie_plotly(samp, tgt, "Capaian Umum (Total) terhadap Target 68%")
             if img:
-                doc.add_picture(img, width=Inches(5))
                 pie_made = True
         if (not pie_made) and ("Sampel SMA (DM)" in verif_df.columns and "Target SMA (68%)" in verif_df.columns):
             samp = pd.to_numeric(verif_df["Sampel SMA (DM)"], errors="coerce").fillna(0).sum()
             tgt  = pd.to_numeric(verif_df["Target SMA (68%)"], errors="coerce").fillna(0).sum()
-            img = make_pie_plotly(samp, tgt, "Capaian SMA (Total) terhadap Target 68%")
             if img:
-                doc.add_picture(img, width=Inches(5))
                 pie_made = True
         if not pie_made:
@@ -795,15 +799,15 @@ def run_core(prov_value, kab_value, kew_value):
     df = df_all_raw.copy()
-    # filter prov
-    if prov_col_glob and prov_value and prov_value != "(Semua)":
-        df = df[df[prov_col_glob].astype(str).str.strip() == prov_value]
-    # filter kab
-    if kab_col_glob and kab_value and kab_value != "(Semua)":
-        df = df[df[kab_col_glob].astype(str).str.strip() == kab_value]
-    # filter kew
     if kew_value and kew_value != "(Semua)":
         df = df[df["KEW_NORM"] == kew_value]
@@ -820,7 +824,7 @@ def run_core(prov_value, kab_value, kew_value):
     # detail subset DM untuk UI (ringkas)
     cols = []
-    for c in [prov_col_glob, kab_col_glob, nama_col_glob, kew_col_glob, jenis_col_glob, subjenis_col_glob, "_dataset", "KEW_NORM"]:
         if c and c in df.columns and c not in cols:
             cols.append(c)
     detail_df = df[cols].copy() if cols else df.copy()
@@ -830,11 +834,11 @@ def run_core(prov_value, kab_value, kew_value):
     # simpan file download
     tmpdir = tempfile.mkdtemp()
-    rekap_excel_path = os.path.join(tmpdir, "Rekap_Kekurangan_Sampel_IPLM_Target68.xlsx")
     raw_dm_path      = os.path.join(tmpdir, "DM_Subset_Raw.xlsx")
     with pd.ExcelWriter(rekap_excel_path, engine="openpyxl") as w:
-        verif_df.to_excel(w, sheet_name="Verifikasi_Gap_Target68", index=False)
         detail_df.to_excel(w, sheet_name="Detail_Subset_DM", index=False)
     df.to_excel(raw_dm_path, index=False)
@@ -863,14 +867,14 @@ def on_prov_change(prov_value):
 # ============================================================
-# 10) UI GRADIO
 # ============================================================
 with gr.Blocks() as demo:
     gr.Markdown(
         f"""
-# Dashboard Kekurangan Sampel IPLM (Tanpa Hitung Indeks) — Target {int(TARGET_COVERAGE*100)}%
-Aplikasi ini mengecek **berapa unit lagi yang harus dikumpulkan** agar memenuhi target minimal representasi.
 **File:**
 - `{DATA_FILE}` (DM)
@@ -892,7 +896,7 @@ Aplikasi ini mengecek **berapa unit lagi yang harus dikumpulkan** agar memenuhi
     run_btn = gr.Button("Hitung Kekurangan Sampel")
     msg_out = gr.Markdown()
-    gr.Markdown("### Verifikasi (Target 68% & Kekurangan Sampel)")
     verif_out = gr.DataFrame(interactive=False)
     gr.Markdown("### Grafik Kekurangan Sampel (berapa unit lagi yang harus dikumpulkan)")

 # -*- coding: utf-8 -*-
 """
+app.py — Dashboard Kekurangan Sampel IPLM (TANPA HITUNG INDEKS)
+- Target pengumpulan = 68% (bisa diubah TARGET_COVERAGE)
 - KAB/KOTA:
   * Sekolah: target = 68% dari (SD + SMP)
   * Umum:   target = 68% dari (Kecamatan + Desa/Kelurahan)
 - PROVINSI:
   * SMA:    target = 68% dari (Total SMA)
+Output utama:
+- Tabel verifikasi: target & kekurangan (berapa unit lagi)
+- Grafik GAP: kekurangan unit (bukan persen)
 - Download:
   1) Rekap (Verifikasi + Detail ringkas) .xlsx
   2) Data mentah subset DM sesuai filter .xlsx
+  3) Laporan Word (.docx) + narasi LLM (kekurangan sampel & rencana aksi)
 """
 import os
 # Word report
 from docx import Document
 # Pie opsional (butuh kaleido)
 import plotly.express as px
 # ============================================================
 # 1) KONFIGURASI FILE
 # ============================================================
+DATA_FILE       = "IPLM_clean_Manual.xlsx"                 # DM sampel masuk (multi-sheet)
 META_KAB_FILE   = "jumlahdesa_fixed (1).xlsx"   # kecamatan & desa/kel per kab/kota
 META_SDSMP_FILE = "SD-SMP-kab.xlsx"             # jumlah SD & SMP per kab/kota
 META_SMA_FILE   = "SMA.xlsx"                    # jumlah SMA per provinsi
 # ============================================================
+# 1a) TARGET CAKUPAN (KEBIJAKAN)
 # ============================================================
+TARGET_COVERAGE = 0.68
 # ============================================================
+# 1b) KONFIGURASI LLM (HF Inference)
 # ============================================================
 USE_LLM = True
 LLM_MODEL_NAME = "meta-llama/Meta-Llama-3-8B-Instruct"
     t = " ".join(t.split())
     return re.sub(r"[^A-Z0-9]+", "", t)
+# === FIX UTAMA: bersihin display prov/kab biar gak dobel "PROVINSI PROVINSI" ===
+def clean_prov_display(s):
+    if pd.isna(s):
+        return None
+    t = str(s).upper().strip()
+    t = " ".join(t.split())
+    # hilangkan prefix PROVINSI berulang
+    while t.startswith("PROVINSI PROVINSI "):
+        t = t.replace("PROVINSI PROVINSI ", "PROVINSI ", 1)
+    t = t.replace("PROVINSI PROVINSI ", "PROVINSI ")
+    return t
+def clean_kab_display(s):
+    if pd.isna(s):
+        return None
+    t = str(s).upper().strip()
+    t = " ".join(t.split())
+    # rapihin kab/kota
+    t = t.replace("KABUPATEN", "KAB.")
+    t = t.replace("KAB  ", "KAB. ")
+    t = t.replace("KAB.", "KAB.")
+    t = t.replace("KOTA ADMINISTRASI", "KOTA")
+    return t
 def make_pie_plotly(num, den, title):
     if not HAS_KALEIDO:
         return None
     if den is None or pd.isna(den) or den <= 0:
         values = [0, 1]
         labels = ["Terjangkau", "Belum Terjangkau"]
         den = float(den)
         values = [max(num, 0), max(den - num, 0)]
         labels = ["Terjangkau", "Belum Terjangkau"]
     fig = px.pie(values=values, names=labels, title=title, hole=0.35)
     tmp = tempfile.mktemp(suffix=".png")
     try:
 subjenis_col_glob = None
 nama_col_glob = None
+extra_info = []
 # ---- Load DM ----
 try:
     fp = Path(DATA_FILE)
     subjenis_col_glob = pick_col(df_all_raw, ["sub_jenis_perpus", "Sub Jenis", "SubJenis", "subjenis", "jenjang"])
     nama_col_glob  = pick_col(df_all_raw, ["nama_perpustakaan", "nm_perpustakaan", "nm_instansi_lembaga", "Nama Perpustakaan"])
+    # kewenangan normal
     if kew_col_glob:
         df_all_raw["KEW_NORM"] = df_all_raw[kew_col_glob].apply(norm_kew)
     else:
         df_all_raw["KEW_NORM"] = None
+    # mapping jenis perpustakaan -> dataset (sekolah/umum/khusus)
     val_map_jenis = {
         "PERPUSTAKAAN SEKOLAH": "sekolah",
         "SEKOLAH": "sekolah",
     else:
         df_all_raw["_dataset"] = None
+    # === kolom clean untuk dropdown & filter ===
+    if prov_col_glob and prov_col_glob in df_all_raw.columns:
+        df_all_raw["prov_clean"] = df_all_raw[prov_col_glob].apply(clean_prov_display)
+    else:
+        df_all_raw["prov_clean"] = None
+    if kab_col_glob and kab_col_glob in df_all_raw.columns:
+        df_all_raw["kab_clean"] = df_all_raw[kab_col_glob].apply(clean_kab_display)
+    else:
+        df_all_raw["kab_clean"] = None
     DATA_INFO = f"Data terbaca dari: **{DATA_FILE}** | Jumlah baris: **{len(df_all_raw)}**"
 except Exception as e:
     df_all_raw = None
     DATA_INFO = f"⚠️ Gagal memuat `{DATA_FILE}` | Error: `{e}`"
 # ---- Meta Kab (Kec/Desa) ----
 try:
     meta_kab_raw = pd.read_excel(META_KAB_FILE)
 # 4) DROPDOWN
 # ============================================================
 def all_prov_choices():
+    if df_all_raw is None or "prov_clean" not in df_all_raw.columns:
         return ["(Semua)"]
+    s = df_all_raw["prov_clean"].dropna().astype(str).str.strip()
+    vals = sorted([o for o in s.unique() if o and o != ""])
     return ["(Semua)"] + vals
 def get_kab_choices_for_prov(prov_value):
+    if df_all_raw is None or "kab_clean" not in df_all_raw.columns:
         return ["(Semua)"]
+    if prov_value is None or prov_value == "(Semua)":
+        s = df_all_raw["kab_clean"].dropna().astype(str).str.strip()
     else:
+        m = df_all_raw["prov_clean"].astype(str).str.strip() == str(prov_value).strip()
+        s = df_all_raw.loc[m, "kab_clean"].dropna().astype(str).str.strip()
+    vals = sorted([x for x in s.unique() if x and x != ""])
     return ["(Semua)"] + vals
 def all_kew_choices():
 # ============================================================
+# 5) VERIFIKASI GAP (TARGET 68%) — OUTPUT: KEKURANGAN UNIT
 # ============================================================
 def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.DataFrame:
     if df_filtered is None or len(df_filtered) == 0:
     kew_norm = str(kew_value or "").upper()
+    # =================== KAB/KOTA ===================
     if ("KAB" in kew_norm or "KOTA" in kew_norm):
+        if "kab_clean" not in df_filtered.columns or meta_kab_df is None:
+            return pd.DataFrame({"Info": ["Kolom kab_clean atau meta kab tidak tersedia."]})
         tmp = df_filtered.copy()
+        tmp = tmp[pd.notna(tmp["kab_clean"])]
         if tmp.empty:
             return pd.DataFrame()
+        tmp["kab_key"] = tmp["kab_clean"].apply(norm_kab_label)
         g_total = tmp.groupby("kab_key").size().rename("Sampel Total").reset_index()
         tmp_sek = tmp[tmp["_dataset"] == "sekolah"].copy() if "_dataset" in tmp.columns else tmp.copy()
         g_sek_total = tmp_sek.groupby("kab_key").size().rename("Sampel Sekolah").reset_index()
         tmp_umum = tmp[tmp["_dataset"] == "umum"].copy() if "_dataset" in tmp.columns else tmp.copy()
         g_umum = tmp_umum.groupby("kab_key").size().rename("Sampel Umum").reset_index()
         merged["Populasi Sekolah (SD+SMP)"] = merged[["Jml_SD", "Jml_SMP"]].sum(axis=1, skipna=True)
         merged["Populasi Admin (Kec+Desa/Kel)"] = merged.get("Jml_Kecamatan", np.nan) + merged.get("Jml_DesaKel", np.nan)
         merged["Target Sekolah (68%)"] = np.ceil(merged["Populasi Sekolah (SD+SMP)"] * TARGET_COVERAGE)
         merged["Target Umum (68%)"] = np.ceil(merged["Populasi Admin (Kec+Desa/Kel)"] * TARGET_COVERAGE)
         merged["Kekurangan Sampel Sekolah"] = merged.apply(
             lambda r: max(int(r["Target Sekolah (68%)"] - r["Sampel Sekolah"]) if pd.notna(r["Target Sekolah (68%)"]) else 0, 0),
             axis=1
         return out.sort_values("Kab/Kota").reset_index(drop=True).round(0)
+    # =================== PROVINSI ===================
     if ("PROV" in kew_norm):
+        if meta_sma_df is None or "prov_clean" not in df_filtered.columns:
+            return pd.DataFrame({"Info": ["Meta SMA atau kolom prov_clean tidak tersedia."]})
         tmp = df_filtered.copy()
+        tmp = tmp[pd.notna(tmp["prov_clean"])]
         if tmp.empty:
             return pd.DataFrame({"Info": ["Tidak ada data sampel kewenangan provinsi."]})
+        tmp["prov_key"] = tmp["prov_clean"].apply(norm_prov_label)
+        # start dari sampel (tidak bocor prov lain)
         g_total = tmp.groupby("prov_key").size().rename("Sampel Total (Prov)").reset_index()
         tmp_sek = tmp[tmp["_dataset"] == "sekolah"].copy() if "_dataset" in tmp.columns else tmp.copy()
         )
         merged["Sampel SMA (DM)"] = merged["Sampel SMA (DM)"].fillna(0).astype(int)
         merged["Populasi SMA (Meta)"] = merged["Jml_SMA"]
         merged["Target SMA (68%)"] = np.ceil(merged["Populasi SMA (Meta)"] * TARGET_COVERAGE)
 # ============================================================
+# 6) GRAFIK GAP (KEKURANGAN UNIT) — BUKAN PERSEN
 # ============================================================
 def make_gap_figure(verif_df: pd.DataFrame, kew_value: str) -> go.Figure:
     fig = go.Figure()
     def _num(s):
         return pd.to_numeric(s, errors="coerce").fillna(0).astype(int)
     if ("KAB" in kew_norm or "KOTA" in kew_norm) and ("Kab/Kota" in verif_df.columns):
         dfp = verif_df.copy()
         dfp["gap_total"] = _num(dfp.get("Kekurangan Sampel Sekolah", 0)) + _num(dfp.get("Kekurangan Sampel Umum", 0))
         ))
         fig.update_layout(
+            title=f"Kekurangan Sampel yang Harus Dikumpulkan (KAB/KOTA) — Target {int(TARGET_COVERAGE*100)}%",
             barmode="group",
             xaxis_title="Kab/Kota",
             yaxis_title="Kekurangan (unit)",
         ))
         fig.update_layout(
+            title=f"Kekurangan Sampel yang Harus Dikumpulkan (PROVINSI) — Target {int(TARGET_COVERAGE*100)}%",
             xaxis_title="Provinsi",
             yaxis_title="Kekurangan (unit)",
             margin=dict(l=40, r=20, t=60, b=140),
 # ============================================================
+# 7) LLM NARASI (GAP)
 # ============================================================
 def build_context_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: str) -> str:
     wilayah = kab if kab and kab != "(Semua)" else (prov if prov and prov != "(Semua)" else "NASIONAL")
         t[gc] = pd.to_numeric(t[gc], errors="coerce").fillna(0)
         keycol = "Kab/Kota" if "Kab/Kota" in t.columns else ("Provinsi" if "Provinsi" in t.columns else t.columns[0])
         top = t.sort_values(gc, ascending=False).head(10)
         lines.append("\nTop prioritas (gap terbesar):")
         for _, r in top.iterrows():
             lines.append(f"- {r[keycol]}: {gc}={int(r[gc])}")
     for gc in gap_cols:
         total_gap = int(pd.to_numeric(verif_df[gc], errors="coerce").fillna(0).sum())
+        lines.append(f"- Total {gc}: **{total_gap}** unit yang perlu dilengkapi untuk mencapai target.")
     lines.append(
+        "\nArah tindak lanjut: fokuskan mobilisasi pengumpulan data pada unit dengan gap terbesar, "
+        "pastikan daftar target unit tersedia, dan lakukan monitoring harian hingga gap menurun."
     )
     return "\n".join(lines)
     system_prompt = (
         "Anda adalah analis kebijakan dan manajer program IPLM. "
+        "Fokus Anda hanya pada gap sampel (kekurangan unit) dan strategi menutup kekurangan tersebut."
     )
     user_prompt = f"""
 TULIS LAPORAN (BAHASA INDONESIA FORMAL) DENGAN STRUKTUR:
 1) Ringkasan kondisi pengumpulan data (1 paragraf).
+2) Total kekurangan sampel yang masih perlu dikumpulkan menuju target {int(TARGET_COVERAGE*100)}% (1 paragraf).
+3) Prioritas wilayah (gap terbesar) dan alasan operasional (1 paragraf).
+4) Rencana aksi 30–60 hari (naratif, bukan bullet).
 BATASAN:
+- Jangan membahas indeks/skor IPLM.
+- Fokus hanya pada kekurangan sampel, target 68%, dan strategi pelengkapannya.
 """
     try:
     doc.add_paragraph(f"Target pengumpulan: {int(TARGET_COVERAGE*100)}% dari populasi unit (meta).")
     doc.add_paragraph(f"Jumlah unit analisis: {len(verif_df)}")
+    doc.add_heading("Tabel Verifikasi (Target & Kekurangan Sampel)", level=2)
     view = verif_df.copy()
     if len(view) > 200:
         doc.add_paragraph("Catatan: tabel dipotong (200 baris pertama) untuk menjaga ukuran dokumen.")
     if not HAS_KALEIDO:
         doc.add_paragraph("Grafik pie tidak dibuat karena 'kaleido' tidak tersedia di server.")
     else:
+        # buat pie total capai vs target kalau ada pasangan kolom sampel-target
         pie_made = False
         if "Sampel Sekolah" in verif_df.columns and "Target Sekolah (68%)" in verif_df.columns:
             samp = pd.to_numeric(verif_df["Sampel Sekolah"], errors="coerce").fillna(0).sum()
             tgt  = pd.to_numeric(verif_df["Target Sekolah (68%)"], errors="coerce").fillna(0).sum()
+            img = make_pie_plotly(samp, tgt, "Capaian Sekolah (Total) terhadap Target")
             if img:
+                doc.add_paragraph("Capaian Sekolah (Total) terhadap Target")
+                doc.add_picture(img)
                 pie_made = True
         if (not pie_made) and ("Sampel Umum" in verif_df.columns and "Target Umum (68%)" in verif_df.columns):
             samp = pd.to_numeric(verif_df["Sampel Umum"], errors="coerce").fillna(0).sum()
             tgt  = pd.to_numeric(verif_df["Target Umum (68%)"], errors="coerce").fillna(0).sum()
+            img = make_pie_plotly(samp, tgt, "Capaian Umum (Total) terhadap Target")
             if img:
+                doc.add_paragraph("Capaian Umum (Total) terhadap Target")
+                doc.add_picture(img)
                 pie_made = True
         if (not pie_made) and ("Sampel SMA (DM)" in verif_df.columns and "Target SMA (68%)" in verif_df.columns):
             samp = pd.to_numeric(verif_df["Sampel SMA (DM)"], errors="coerce").fillna(0).sum()
             tgt  = pd.to_numeric(verif_df["Target SMA (68%)"], errors="coerce").fillna(0).sum()
+            img = make_pie_plotly(samp, tgt, "Capaian SMA (Total) terhadap Target")
             if img:
+                doc.add_paragraph("Capaian SMA (Total) terhadap Target")
+                doc.add_picture(img)
                 pie_made = True
         if not pie_made:
     df = df_all_raw.copy()
+    # filter prov (pakai prov_clean)
+    if prov_value and prov_value != "(Semua)" and "prov_clean" in df.columns:
+        df = df[df["prov_clean"].astype(str).str.strip() == str(prov_value).strip()]
+    # filter kab/kota (pakai kab_clean)
+    if kab_value and kab_value != "(Semua)" and "kab_clean" in df.columns:
+        df = df[df["kab_clean"].astype(str).str.strip() == str(kab_value).strip()]
+    # filter kewenangan
     if kew_value and kew_value != "(Semua)":
         df = df[df["KEW_NORM"] == kew_value]
     # detail subset DM untuk UI (ringkas)
     cols = []
+    for c in ["prov_clean", "kab_clean", nama_col_glob, kew_col_glob, jenis_col_glob, subjenis_col_glob, "_dataset", "KEW_NORM"]:
         if c and c in df.columns and c not in cols:
             cols.append(c)
     detail_df = df[cols].copy() if cols else df.copy()
     # simpan file download
     tmpdir = tempfile.mkdtemp()
+    rekap_excel_path = os.path.join(tmpdir, "Rekap_Kekurangan_Sampel_IPLM_Target.xlsx")
     raw_dm_path      = os.path.join(tmpdir, "DM_Subset_Raw.xlsx")
     with pd.ExcelWriter(rekap_excel_path, engine="openpyxl") as w:
+        verif_df.to_excel(w, sheet_name="Verifikasi_Gap_Target", index=False)
         detail_df.to_excel(w, sheet_name="Detail_Subset_DM", index=False)
     df.to_excel(raw_dm_path, index=False)
 # ============================================================
+# 10) BUILD UI
 # ============================================================
 with gr.Blocks() as demo:
     gr.Markdown(
         f"""
+# Dashboard Kekurangan Sampel IPLM — Target {int(TARGET_COVERAGE*100)}% (Tanpa Hitung Indeks)
+Aplikasi ini menghitung **berapa unit lagi yang harus dikumpulkan** agar memenuhi target minimal representasi.
 **File:**
 - `{DATA_FILE}` (DM)
     run_btn = gr.Button("Hitung Kekurangan Sampel")
     msg_out = gr.Markdown()
+    gr.Markdown("### Verifikasi (Target & Kekurangan Sampel)")
     verif_out = gr.DataFrame(interactive=False)
     gr.Markdown("### Grafik Kekurangan Sampel (berapa unit lagi yang harus dikumpulkan)")