Spaces:

irhamni
/

IPLM_DM

Running

App Files Files Community

irhamni commited on 22 days ago

Commit

cbf7209

verified ·

1 Parent(s): 5bc4401

Update app.py

Browse files

Files changed (1) hide show

app.py +203 -77

app.py CHANGED Viewed

@@ -1,24 +1,26 @@
 # -*- coding: utf-8 -*-
 """
-app.py — Dashboard Kekurangan Sampel IPLM (TANPA HITUNG INDEKS)
 Fokus:
-- Mengecek "kekurangan sampel" pengumpulan data IPLM per wilayah
-- Bandingkan sampel yang sudah masuk (DM) vs populasi target (META):
-  - Kab/Kota: SD+SMP (meta SD/SMP) dan Kec+Desa/Kel (meta jumlah desa)
-  - Provinsi: SMA (meta SMA provinsi)
 Fitur:
 - Filter: Provinsi, Kab/Kota, Kewenangan
 - Tabel Verifikasi Coverage & Kekurangan Sampel
 - Tabel Detail Subset DM (ringkas)
 - Download:
   1) Rekap Excel (verifikasi + detail ringkas)
   2) Data mentah subset DM (RAW) sesuai filter user
   3) Laporan Word (narasi LLM + tabel verifikasi + pie ringkasan opsional)
-Catatan:
-- Tidak ada perhitungan Indeks IPLM sama sekali.
 """
 import os
@@ -32,6 +34,9 @@ import numpy as np
 import pandas as pd
 from huggingface_hub import InferenceClient
 # Word report
 from docx import Document
 from docx.shared import Inches
@@ -53,6 +58,10 @@ META_KAB_FILE   = "jumlahdesa_fixed (1).xlsx"   # kecamatan & desa/kel per kab/k
 META_SDSMP_FILE = "SD-SMP-kab.xlsx"             # jumlah SD & SMP per kab/kota
 META_SMA_FILE   = "SMA.xlsx"                    # jumlah SMA per provinsi
 # ============================================================
 # 1b) KONFIGURASI LLM (Hugging Face Inference)
@@ -61,7 +70,7 @@ USE_LLM = True
 LLM_MODEL_NAME = "meta-llama/Meta-Llama-3-8B-Instruct"
 HF_TOKEN = (
-    os.getenv("HF_SECRET")
     or os.getenv("HUGGINGFACEHUB_API_TOKEN")
     or os.getenv("HF_API_TOKEN")
 )
@@ -189,7 +198,7 @@ def make_pie_plotly(num, den, title):
         values = [max(num, 0), max(den - num, 0)]
         labels = ["Terjangkau", "Belum Terjangkau"]
-    fig = px.pie(values=values, names=labels, title=title, hole=0.3)
     tmp = tempfile.mktemp(suffix=".png")
     try:
         fig.write_image(tmp, scale=2)
@@ -205,7 +214,7 @@ DATA_INFO = ""
 df_all_raw = None
 meta_kab_df = None   # kab_key -> (Jml_Kecamatan, Jml_DesaKel, Jml_SD, Jml_SMP)
-meta_sma_df = None   # prov_key -> Jml_SMA
 prov_col_glob = None
 kab_col_glob = None
@@ -230,7 +239,6 @@ try:
     subjenis_col_glob = pick_col(df_all_raw, ["sub_jenis_perpus", "Sub Jenis", "SubJenis", "subjenis", "jenjang"])
     nama_col_glob  = pick_col(df_all_raw, ["nama_perpustakaan", "nm_perpustakaan", "nm_instansi_lembaga", "Nama Perpustakaan"])
-    # kewenangan norm
     if kew_col_glob:
         df_all_raw["KEW_NORM"] = df_all_raw[kew_col_glob].apply(norm_kew)
     else:
@@ -386,7 +394,7 @@ default_kew  = "KAB/KOTA" if "KAB/KOTA" in kew_choices else (kew_choices[0] if k
 # ============================================================
-# 5) INTI: HITUNG COVERAGE & GAP
 # ============================================================
 def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.DataFrame:
     if df_filtered is None or len(df_filtered) == 0:
@@ -416,7 +424,7 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
             tmp["jenjang"] = "OTHER"
         tmp_sek = tmp[tmp["_dataset"] == "sekolah"].copy() if "_dataset" in tmp.columns else tmp.copy()
-        g_sek_total = tmp_sek.groupby("kab_key").size().rename("Sampel_Sekolah_Total").reset_index()
         g_sd  = tmp_sek[tmp_sek["jenjang"] == "SD"].groupby("kab_key").size().rename("Sampel_SD").reset_index()
         g_smp = tmp_sek[tmp_sek["jenjang"] == "SMP"].groupby("kab_key").size().rename("Sampel_SMP").reset_index()
@@ -436,43 +444,50 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
             .merge(meta_kab_df[use_cols], on="kab_key", how="left")
         )
-        for c in ["Sampel_Total", "Sampel_Sekolah_Total", "Sampel_SD", "Sampel_SMP", "Sampel_Umum"]:
             if c in merged.columns:
                 merged[c] = merged[c].fillna(0).astype(int)
         merged["Pop_SD_SMP"] = merged[["Jml_SD", "Jml_SMP"]].sum(axis=1, skipna=True)
         merged["Pop_Kec_DesaKel"] = merged.get("Jml_Kecamatan", np.nan) + merged.get("Jml_DesaKel", np.nan)
-        merged["Coverage_Sekolah_%"] = merged.apply(
-            lambda r: safe_pct(r["Sampel_Sekolah_Total"], r.get("Pop_SD_SMP", np.nan)), axis=1
         )
-        merged["Coverage_Umum_%"] = merged.apply(
-            lambda r: safe_pct(r["Sampel_Umum"], r.get("Pop_Kec_DesaKel", np.nan)), axis=1
         )
-        # GAP (kekurangan sampel) -> asumsi target = 100% populasi
-        merged["Gap_Sekolah"] = merged.apply(
-            lambda r: max(int(math.ceil(r["Pop_SD_SMP"] - r["Sampel_Sekolah_Total"]))
-                          if pd.notna(r["Pop_SD_SMP"]) else 0, 0),
             axis=1
         )
-        merged["Gap_Umum"] = merged.apply(
-            lambda r: max(int(math.ceil(r["Pop_Kec_DesaKel"] - r["Sampel_Umum"]))
-                          if pd.notna(r["Pop_Kec_DesaKel"]) else 0, 0),
             axis=1
         )
         out = pd.DataFrame({
             "Kab/Kota": merged.get("Kab_Kota_Label", merged["kab_key"]),
             "Sampel Total": merged["Sampel_Total"],
-            "Sampel Sekolah (Total)": merged["Sampel_Sekolah_Total"],
             "Populasi Sekolah (SD+SMP)": merged["Pop_SD_SMP"],
-            "Coverage Sekolah (%)": merged["Coverage_Sekolah_%"],
-            "Kekurangan Sampel Sekolah": merged["Gap_Sekolah"],
             "Sampel Umum": merged["Sampel_Umum"],
             "Populasi Admin (Kec+Desa/Kel)": merged["Pop_Kec_DesaKel"],
-            "Coverage Umum (%)": merged["Coverage_Umum_%"],
-            "Kekurangan Sampel Umum": merged["Gap_Umum"],
         })
         return out.sort_values("Kab/Kota").reset_index(drop=True).round(3)
@@ -491,7 +506,7 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
         tmp["prov_key"] = tmp[prov_col_glob].apply(norm_prov_label)
-        # IMPORTANT: start dari sampel (biar tidak munculin provinsi lain dari meta)
         g_total = tmp.groupby("prov_key").size().rename("Sampel_Total").reset_index()
         tmp_sek = tmp[tmp["_dataset"] == "sekolah"].copy() if "_dataset" in tmp.columns else tmp.copy()
@@ -505,22 +520,27 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
         merged["Sampel_SMA"] = merged["Sampel_SMA"].fillna(0).astype(int)
-        merged["Coverage_SMA_%"] = merged.apply(
-            lambda r: safe_pct(r["Sampel_SMA"], r.get("Jml_SMA", np.nan)), axis=1
         )
-        merged["Kekurangan Sampel SMA"] = merged.apply(
-            lambda r: max(int(math.ceil(r["Jml_SMA"] - r["Sampel_SMA"]))
-                          if pd.notna(r["Jml_SMA"]) else 0, 0),
             axis=1
         )
         out = pd.DataFrame({
             "Provinsi": merged["Provinsi_Label"].fillna(merged["prov_key"]),
             "Sampel Total (Prov)": merged["Sampel_Total"].fillna(0).astype(int),
-            "Sampel SMA (di DM)": merged["Sampel_SMA"],
             "Populasi SMA (Meta)": merged["Jml_SMA"],
-            "Coverage SMA (%)": merged["Coverage_SMA_%"],
-            "Kekurangan Sampel SMA": merged["Kekurangan Sampel SMA"],
         })
         return out.sort_values("Provinsi").reset_index(drop=True).round(3)
@@ -529,21 +549,101 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
 # ============================================================
-# 6) LLM REPORT (GAP)
 # ============================================================
 def build_context_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: str) -> str:
     wilayah = kab if kab and kab != "(Semua)" else (prov if prov and prov != "(Semua)" else "NASIONAL")
     lines = []
     lines.append(f"Wilayah filter: {wilayah}")
     lines.append(f"Kewenangan: {kew}")
     lines.append(f"Jumlah baris verifikasi: {len(verif_df)}")
-    gap_cols = [c for c in verif_df.columns if "Kekurangan" in c]
     for gc in gap_cols:
         total_gap = int(pd.to_numeric(verif_df[gc], errors="coerce").fillna(0).sum())
         lines.append(f"Total {gc}: {total_gap}")
-    # top prioritas (ambil kolom gap pertama)
     if gap_cols:
         gc = gap_cols[0]
         t = verif_df.copy()
@@ -566,16 +666,17 @@ def rule_based_gap_report(verif_df: pd.DataFrame, prov: str, kab: str, kew: str)
     lines.append("## Ringkasan Kekurangan Sampel IPLM (Rule-based)\n")
     lines.append(f"Wilayah: {wilayah}")
     lines.append(f"Kewenangan: {kew}")
     lines.append(f"Jumlah unit analisis: {len(verif_df)}\n")
-    gap_cols = [c for c in verif_df.columns if "Kekurangan" in c]
     if not gap_cols:
         lines.append("Kolom kekurangan sampel tidak ditemukan.")
         return "\n".join(lines)
     for gc in gap_cols:
         total_gap = int(pd.to_numeric(verif_df[gc], errors="coerce").fillna(0).sum())
-        lines.append(f"- Total {gc}: **{total_gap}** unit yang perlu dilengkapi.")
     lines.append(
         "\nRekomendasi operasional: prioritaskan pengumpulan data pada wilayah dengan gap terbesar, "
@@ -593,7 +694,7 @@ def generate_llm_gap_report(verif_df: pd.DataFrame, prov: str, kab: str, kew: st
     system_prompt = (
         "Anda adalah analis kebijakan dan manajer program IPLM. "
         "Tugas Anda menyusun narasi singkat dan tegas tentang kekurangan sampel data IPLM "
-        "serta strategi pengumpulan data untuk menutup gap."
     )
     user_prompt = f"""
@@ -603,13 +704,13 @@ DATA RINGKAS GAP SAMPEL IPLM:
 TULIS LAPORAN (BAHASA INDONESIA FORMAL) DENGAN STRUKTUR:
 1) Ringkasan kondisi pengumpulan data (1 paragraf).
-2) Angka total kekurangan sampel yang masih perlu dikumpulkan (1 paragraf).
 3) Prioritas wilayah (top gap) dan alasan operasionalnya (1 paragraf).
 4) Rencana aksi 30–60 hari (paragraf naratif, bukan bullet).
 BATASAN:
 - Jangan bahas indeks / skor IPLM sama sekali.
-- Fokus murni pada coverage, kekurangan sampel, dan strategi pelengkapannya.
 """
     try:
@@ -636,7 +737,7 @@ BATASAN:
 # ============================================================
-# 7) WORD REPORT
 # ============================================================
 def generate_word_report_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: str, analysis_text: str):
     wilayah = kab if kab and kab != "(Semua)" else (prov if prov and prov != "(Semua)" else "NASIONAL")
@@ -644,6 +745,7 @@ def generate_word_report_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: s
     doc = Document()
     doc.add_heading(f"Laporan Kekurangan Sampel IPLM – {wilayah}", level=1)
     doc.add_paragraph(f"Kewenangan: {kew}")
     doc.add_paragraph(f"Jumlah unit analisis: {len(verif_df)}")
     doc.add_heading("Tabel Verifikasi Coverage & Kekurangan Sampel", level=2)
@@ -667,26 +769,36 @@ def generate_word_report_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: s
         doc.add_paragraph("Grafik pie tidak dibuat karena 'kaleido' tidak tersedia di server.")
     else:
         pie_made = False
-        # Ringkas sekolah kab/kota
-        if "Sampel Sekolah (Total)" in verif_df.columns and "Populasi Sekolah (SD+SMP)" in verif_df.columns:
-            samp = pd.to_numeric(verif_df["Sampel Sekolah (Total)"], errors="coerce").fillna(0).sum()
-            pop  = pd.to_numeric(verif_df["Populasi Sekolah (SD+SMP)"], errors="coerce").fillna(0).sum()
-            img = make_pie_plotly(samp, pop, "Coverage Perpustakaan Sekolah (Total)")
             if img:
                 doc.add_picture(img, width=Inches(5))
                 pie_made = True
-        # Ringkas SMA provinsi
-        if (not pie_made) and ("Sampel SMA (di DM)" in verif_df.columns and "Populasi SMA (Meta)" in verif_df.columns):
-            samp = pd.to_numeric(verif_df["Sampel SMA (di DM)"], errors="coerce").fillna(0).sum()
-            pop  = pd.to_numeric(verif_df["Populasi SMA (Meta)"], errors="coerce").fillna(0).sum()
-            img = make_pie_plotly(samp, pop, "Coverage Perpustakaan SMA (Total)")
             if img:
                 doc.add_picture(img, width=Inches(5))
                 pie_made = True
         if not pie_made:
-            doc.add_paragraph("Tidak ada pasangan kolom sampel-populasi yang valid untuk dibuat pie chart.")
     doc.add_heading("Analisis Naratif (LLM)", level=2)
     for p in analysis_text.split("\n"):
@@ -699,13 +811,13 @@ def generate_word_report_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: s
 # ============================================================
-# 8) CORE RUN (FILTER + EXPORT)
 # ============================================================
 def run_core(prov_value, kab_value, kew_value):
     if df_all_raw is None or df_all_raw.empty:
         empty = pd.DataFrame()
         return (
-            empty, empty,
             None, None, None,
             "Data DM tidak terbaca.",
             "Tidak ada analisis."
@@ -728,13 +840,12 @@ def run_core(prov_value, kab_value, kew_value):
     if len(df) == 0:
         empty = pd.DataFrame()
         return (
-            empty, empty,
             None, None, None,
             "Tidak ada data untuk kombinasi filter yang dipilih.",
             "Tidak ada analisis."
         )
-    # hitung verifikasi gap
     verif_df = compute_gap_verification(df, kew_value)
     # detail subset untuk UI (ringkas)
@@ -744,29 +855,32 @@ def run_core(prov_value, kab_value, kew_value):
             cols.append(c)
     detail_df = df[cols].copy() if cols else df.copy()
     # simpan file download
     tmpdir = tempfile.mkdtemp()
-    rekap_excel_path = os.path.join(tmpdir, "Rekap_Kekurangan_Sampel_IPLM.xlsx")
     raw_dm_path      = os.path.join(tmpdir, "DM_Subset_Raw.xlsx")
-    # 1) rekap excel (verif + detail ringkas)
     with pd.ExcelWriter(rekap_excel_path, engine="openpyxl") as w:
-        verif_df.to_excel(w, sheet_name="Verifikasi_Gap", index=False)
         detail_df.to_excel(w, sheet_name="Detail_Subset_DM", index=False)
-    # 2) raw dm subset (SEMUA kolom DM hasil filter user)
     df.to_excel(raw_dm_path, index=False)
-    # 3) analisis LLM
     analysis_text = generate_llm_gap_report(verif_df, prov_value, kab_value, kew_value)
-    # 4) word report
     word_path = generate_word_report_gap(verif_df, prov_value, kab_value, kew_value, analysis_text)
-    msg = f"OK. Subset DM: {len(df)} baris | Verifikasi: {len(verif_df)} baris."
     return (
         verif_df,
         detail_df,
         rekap_excel_path,
         raw_dm_path,
         word_path,
@@ -779,15 +893,15 @@ def on_prov_change(prov_value):
 # ============================================================
-# 9) UI GRADIO
 # ============================================================
 with gr.Blocks() as demo:
     gr.Markdown(
         f"""
-# Dashboard Kekurangan Sampel IPLM (Tanpa Hitung Indeks)
 Aplikasi ini hanya mengecek **kekurangan sampel** berdasarkan:
-- **DM (sampel masuk)** vs **Meta populasi (SD/SMP, SMA, Kec/DesaKel)**
 **File:**
 - `{DATA_FILE}` (DM)
@@ -809,9 +923,12 @@ Aplikasi ini hanya mengecek **kekurangan sampel** berdasarkan:
     run_btn = gr.Button("Hitung Kekurangan Sampel")
     msg_out = gr.Markdown()
-    gr.Markdown("### Verifikasi Coverage & Kekurangan Sampel")
     verif_out = gr.DataFrame(interactive=False)
     gr.Markdown("### Detail Subset DM (yang terfilter)")
     detail_out = gr.DataFrame(interactive=False)
@@ -826,7 +943,16 @@ Aplikasi ini hanya mengecek **kekurangan sampel** berdasarkan:
     run_btn.click(
         fn=run_core,
         inputs=[dd_prov, dd_kab, dd_kew],
-        outputs=[verif_out, detail_out, rekap_excel_out, raw_dm_out, word_out, msg_out, analysis_out],
     )
 demo.launch()

 # -*- coding: utf-8 -*-
 """
+app.py — Dashboard Kekurangan Sampel IPLM (TANPA HITUNG INDEKS) + Grafik Progress
 Fokus:
+- Cek "kekurangan sampel" pengumpulan data IPLM per wilayah
+- Target pengumpulan BUKAN 100% populasi, tetapi 68% dari populasi (TARGET_COVERAGE=0.68)
+- Bandingkan sampel (DM) vs target 68% populasi (META):
+  - KAB/KOTA:
+      * Sekolah: target = 68% dari (SD+SMP)
+      * Umum:   target = 68% dari (Kecamatan + Desa/Kelurahan)
+  - PROVINSI:
+      * SMA:    target = 68% dari (Total SMA)
 Fitur:
 - Filter: Provinsi, Kab/Kota, Kewenangan
 - Tabel Verifikasi Coverage & Kekurangan Sampel
 - Tabel Detail Subset DM (ringkas)
+- Grafik progress (coverage terhadap target 68%) per unit wilayah
 - Download:
   1) Rekap Excel (verifikasi + detail ringkas)
   2) Data mentah subset DM (RAW) sesuai filter user
   3) Laporan Word (narasi LLM + tabel verifikasi + pie ringkasan opsional)
 """
 import os
 import pandas as pd
 from huggingface_hub import InferenceClient
+# Plot
+import plotly.graph_objects as go
 # Word report
 from docx import Document
 from docx.shared import Inches
 META_SDSMP_FILE = "SD-SMP-kab.xlsx"             # jumlah SD & SMP per kab/kota
 META_SMA_FILE   = "SMA.xlsx"                    # jumlah SMA per provinsi
+# ============================================================
+# 1a) TARGET CAKUPAN SAMPEL (KEBIJAKAN)
+# ============================================================
+TARGET_COVERAGE = 0.68   # 68% dari populasi
 # ============================================================
 # 1b) KONFIGURASI LLM (Hugging Face Inference)
 LLM_MODEL_NAME = "meta-llama/Meta-Llama-3-8B-Instruct"
 HF_TOKEN = (
+    os.getenv("HF_TOKEN")
     or os.getenv("HUGGINGFACEHUB_API_TOKEN")
     or os.getenv("HF_API_TOKEN")
 )
         values = [max(num, 0), max(den - num, 0)]
         labels = ["Terjangkau", "Belum Terjangkau"]
+    fig = px.pie(values=values, names=labels, title=title, hole=0.35)
     tmp = tempfile.mktemp(suffix=".png")
     try:
         fig.write_image(tmp, scale=2)
 df_all_raw = None
 meta_kab_df = None   # kab_key -> (Jml_Kecamatan, Jml_DesaKel, Jml_SD, Jml_SMP)
+meta_sma_df = None   # prov_key -> (Jml_SMA)
 prov_col_glob = None
 kab_col_glob = None
     subjenis_col_glob = pick_col(df_all_raw, ["sub_jenis_perpus", "Sub Jenis", "SubJenis", "subjenis", "jenjang"])
     nama_col_glob  = pick_col(df_all_raw, ["nama_perpustakaan", "nm_perpustakaan", "nm_instansi_lembaga", "Nama Perpustakaan"])
     if kew_col_glob:
         df_all_raw["KEW_NORM"] = df_all_raw[kew_col_glob].apply(norm_kew)
     else:
 # ============================================================
+# 5) INTI: HITUNG COVERAGE & GAP (TARGET 68%)
 # ============================================================
 def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.DataFrame:
     if df_filtered is None or len(df_filtered) == 0:
             tmp["jenjang"] = "OTHER"
         tmp_sek = tmp[tmp["_dataset"] == "sekolah"].copy() if "_dataset" in tmp.columns else tmp.copy()
+        g_sek_total = tmp_sek.groupby("kab_key").size().rename("Sampel_Sekolah").reset_index()
         g_sd  = tmp_sek[tmp_sek["jenjang"] == "SD"].groupby("kab_key").size().rename("Sampel_SD").reset_index()
         g_smp = tmp_sek[tmp_sek["jenjang"] == "SMP"].groupby("kab_key").size().rename("Sampel_SMP").reset_index()
             .merge(meta_kab_df[use_cols], on="kab_key", how="left")
         )
+        for c in ["Sampel_Total", "Sampel_Sekolah", "Sampel_SD", "Sampel_SMP", "Sampel_Umum"]:
             if c in merged.columns:
                 merged[c] = merged[c].fillna(0).astype(int)
         merged["Pop_SD_SMP"] = merged[["Jml_SD", "Jml_SMP"]].sum(axis=1, skipna=True)
         merged["Pop_Kec_DesaKel"] = merged.get("Jml_Kecamatan", np.nan) + merged.get("Jml_DesaKel", np.nan)
+        # TARGET 68%
+        merged["Target_Sekolah_68"] = np.ceil(merged["Pop_SD_SMP"] * TARGET_COVERAGE)
+        merged["Target_Umum_68"] = np.ceil(merged["Pop_Kec_DesaKel"] * TARGET_COVERAGE)
+        # Coverage terhadap target (100% = target terpenuhi)
+        merged["Progress_Sekolah_%"] = merged.apply(
+            lambda r: safe_pct(r["Sampel_Sekolah"], r.get("Target_Sekolah_68", np.nan)), axis=1
         )
+        merged["Progress_Umum_%"] = merged.apply(
+            lambda r: safe_pct(r["Sampel_Umum"], r.get("Target_Umum_68", np.nan)), axis=1
         )
+        # Kekurangan terhadap target 68%
+        merged["Kekurangan_Sekolah"] = merged.apply(
+            lambda r: max(int(r["Target_Sekolah_68"] - r["Sampel_Sekolah"]) if pd.notna(r["Target_Sekolah_68"]) else 0, 0),
             axis=1
         )
+        merged["Kekurangan_Umum"] = merged.apply(
+            lambda r: max(int(r["Target_Umum_68"] - r["Sampel_Umum"]) if pd.notna(r["Target_Umum_68"]) else 0, 0),
             axis=1
         )
         out = pd.DataFrame({
             "Kab/Kota": merged.get("Kab_Kota_Label", merged["kab_key"]),
             "Sampel Total": merged["Sampel_Total"],
+            "Sampel Sekolah": merged["Sampel_Sekolah"],
             "Populasi Sekolah (SD+SMP)": merged["Pop_SD_SMP"],
+            "Target Sekolah (68%)": merged["Target_Sekolah_68"],
+            "Progress Sekolah (% dari target)": merged["Progress_Sekolah_%"],
+            "Kekurangan Sampel Sekolah": merged["Kekurangan_Sekolah"],
             "Sampel Umum": merged["Sampel_Umum"],
             "Populasi Admin (Kec+Desa/Kel)": merged["Pop_Kec_DesaKel"],
+            "Target Umum (68%)": merged["Target_Umum_68"],
+            "Progress Umum (% dari target)": merged["Progress_Umum_%"],
+            "Kekurangan Sampel Umum": merged["Kekurangan_Umum"],
         })
         return out.sort_values("Kab/Kota").reset_index(drop=True).round(3)
         tmp["prov_key"] = tmp[prov_col_glob].apply(norm_prov_label)
+        # START dari sampel (biar tidak munculin provinsi lain)
         g_total = tmp.groupby("prov_key").size().rename("Sampel_Total").reset_index()
         tmp_sek = tmp[tmp["_dataset"] == "sekolah"].copy() if "_dataset" in tmp.columns else tmp.copy()
         merged["Sampel_SMA"] = merged["Sampel_SMA"].fillna(0).astype(int)
+        # TARGET 68%
+        merged["Target_SMA_68"] = np.ceil(merged["Jml_SMA"] * TARGET_COVERAGE)
+        merged["Progress_SMA_%"] = merged.apply(
+            lambda r: safe_pct(r["Sampel_SMA"], r.get("Target_SMA_68", np.nan)), axis=1
         )
+        merged["Kekurangan_SMA"] = merged.apply(
+            lambda r: max(int(r["Target_SMA_68"] - r["Sampel_SMA"]) if pd.notna(r["Target_SMA_68"]) else 0, 0),
             axis=1
         )
         out = pd.DataFrame({
             "Provinsi": merged["Provinsi_Label"].fillna(merged["prov_key"]),
             "Sampel Total (Prov)": merged["Sampel_Total"].fillna(0).astype(int),
+            "Sampel SMA (DM)": merged["Sampel_SMA"],
             "Populasi SMA (Meta)": merged["Jml_SMA"],
+            "Target SMA (68%)": merged["Target_SMA_68"],
+            "Progress SMA (% dari target)": merged["Progress_SMA_%"],
+            "Kekurangan Sampel SMA": merged["Kekurangan_SMA"],
         })
         return out.sort_values("Provinsi").reset_index(drop=True).round(3)
 # ============================================================
+# 6) GRAFIK PROGRESS (Plotly)
+# ============================================================
+def make_progress_figure(verif_df: pd.DataFrame, kew_value: str) -> go.Figure:
+    fig = go.Figure()
+    if verif_df is None or verif_df.empty:
+        fig.update_layout(
+            title="Progress Pengumpulan (tidak ada data)",
+            xaxis_title="Unit",
+            yaxis_title="% dari target 68%",
+        )
+        return fig
+    kew_norm = str(kew_value or "").upper()
+    # helper: cap 0..120 untuk tampilan (biar gak liar kalau >100)
+    def _cap(s):
+        x = pd.to_numeric(s, errors="coerce")
+        x = x.clip(lower=0, upper=120)
+        return x
+    if ("KAB" in kew_norm or "KOTA" in kew_norm) and ("Kab/Kota" in verif_df.columns):
+        x = verif_df["Kab/Kota"].astype(str).tolist()
+        p_sek = _cap(verif_df.get("Progress Sekolah (% dari target)", pd.Series([np.nan]*len(verif_df))))
+        p_umum = _cap(verif_df.get("Progress Umum (% dari target)", pd.Series([np.nan]*len(verif_df))))
+        fig.add_trace(go.Bar(
+            x=x, y=p_sek, name="Sekolah (SD+SMP) — % dari target",
+            hovertemplate="%{x}<br>%{y:.1f}%<extra></extra>"
+        ))
+        fig.add_trace(go.Bar(
+            x=x, y=p_umum, name="Umum (Kec+Desa/Kel) — % dari target",
+            hovertemplate="%{x}<br>%{y:.1f}%<extra></extra>"
+        ))
+        fig.add_hline(y=100, line_dash="dash")
+        fig.update_layout(
+            title="Progress Pengumpulan Data (KAB/KOTA) — terhadap Target 68%",
+            barmode="group",
+            xaxis_title="Kab/Kota",
+            yaxis_title="% dari target (100% = target tercapai)",
+            margin=dict(l=40, r=20, t=60, b=120),
+        )
+        fig.update_xaxes(tickangle=-35)
+        return fig
+    if ("PROV" in kew_norm) and ("Provinsi" in verif_df.columns):
+        x = verif_df["Provinsi"].astype(str).tolist()
+        p_sma = _cap(verif_df.get("Progress SMA (% dari target)", pd.Series([np.nan]*len(verif_df))))
+        fig.add_trace(go.Bar(
+            x=x, y=p_sma, name="SMA — % dari target",
+            hovertemplate="%{x}<br>%{y:.1f}%<extra></extra>"
+        ))
+        fig.add_hline(y=100, line_dash="dash")
+        fig.update_layout(
+            title="Progress Pengumpulan Data (PROVINSI) — SMA terhadap Target 68%",
+            xaxis_title="Provinsi",
+            yaxis_title="% dari target (100% = target tercapai)",
+            margin=dict(l=40, r=20, t=60, b=120),
+        )
+        fig.update_xaxes(tickangle=-35)
+        return fig
+    fig.update_layout(
+        title="Progress Pengumpulan — format data tidak dikenali",
+        xaxis_title="Unit",
+        yaxis_title="% dari target 68%",
+    )
+    return fig
+# ============================================================
+# 7) LLM REPORT (GAP)
 # ============================================================
 def build_context_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: str) -> str:
     wilayah = kab if kab and kab != "(Semua)" else (prov if prov and prov != "(Semua)" else "NASIONAL")
     lines = []
     lines.append(f"Wilayah filter: {wilayah}")
     lines.append(f"Kewenangan: {kew}")
+    lines.append(f"Target pengumpulan: {int(TARGET_COVERAGE*100)}% dari populasi unit (meta).")
     lines.append(f"Jumlah baris verifikasi: {len(verif_df)}")
+    gap_cols = [c for c in verif_df.columns if "Kekurangan Sampel" in c]
     for gc in gap_cols:
         total_gap = int(pd.to_numeric(verif_df[gc], errors="coerce").fillna(0).sum())
         lines.append(f"Total {gc}: {total_gap}")
+    # top prioritas
     if gap_cols:
         gc = gap_cols[0]
         t = verif_df.copy()
     lines.append("## Ringkasan Kekurangan Sampel IPLM (Rule-based)\n")
     lines.append(f"Wilayah: {wilayah}")
     lines.append(f"Kewenangan: {kew}")
+    lines.append(f"Target pengumpulan: {int(TARGET_COVERAGE*100)}% dari populasi unit (meta).")
     lines.append(f"Jumlah unit analisis: {len(verif_df)}\n")
+    gap_cols = [c for c in verif_df.columns if "Kekurangan Sampel" in c]
     if not gap_cols:
         lines.append("Kolom kekurangan sampel tidak ditemukan.")
         return "\n".join(lines)
     for gc in gap_cols:
         total_gap = int(pd.to_numeric(verif_df[gc], errors="coerce").fillna(0).sum())
+        lines.append(f"- Total {gc}: **{total_gap}** unit yang perlu dilengkapi untuk mencapai target 68%.")
     lines.append(
         "\nRekomendasi operasional: prioritaskan pengumpulan data pada wilayah dengan gap terbesar, "
     system_prompt = (
         "Anda adalah analis kebijakan dan manajer program IPLM. "
         "Tugas Anda menyusun narasi singkat dan tegas tentang kekurangan sampel data IPLM "
+        "serta strategi pengumpulan data untuk menutup gap menuju target."
     )
     user_prompt = f"""
 TULIS LAPORAN (BAHASA INDONESIA FORMAL) DENGAN STRUKTUR:
 1) Ringkasan kondisi pengumpulan data (1 paragraf).
+2) Angka total kekurangan sampel yang masih perlu dikumpulkan untuk mencapai target 68% (1 paragraf).
 3) Prioritas wilayah (top gap) dan alasan operasionalnya (1 paragraf).
 4) Rencana aksi 30–60 hari (paragraf naratif, bukan bullet).
 BATASAN:
 - Jangan bahas indeks / skor IPLM sama sekali.
+- Fokus murni pada progress terhadap target 68%, kekurangan sampel, dan strategi pelengkapannya.
 """
     try:
 # ============================================================
+# 8) WORD REPORT
 # ============================================================
 def generate_word_report_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: str, analysis_text: str):
     wilayah = kab if kab and kab != "(Semua)" else (prov if prov and prov != "(Semua)" else "NASIONAL")
     doc = Document()
     doc.add_heading(f"Laporan Kekurangan Sampel IPLM – {wilayah}", level=1)
     doc.add_paragraph(f"Kewenangan: {kew}")
+    doc.add_paragraph(f"Target pengumpulan: {int(TARGET_COVERAGE*100)}% dari populasi unit (meta).")
     doc.add_paragraph(f"Jumlah unit analisis: {len(verif_df)}")
     doc.add_heading("Tabel Verifikasi Coverage & Kekurangan Sampel", level=2)
         doc.add_paragraph("Grafik pie tidak dibuat karena 'kaleido' tidak tersedia di server.")
     else:
         pie_made = False
+        # KAB/KOTA: sekolah
+        if "Sampel Sekolah" in verif_df.columns and "Target Sekolah (68%)" in verif_df.columns:
+            samp = pd.to_numeric(verif_df["Sampel Sekolah"], errors="coerce").fillna(0).sum()
+            tgt  = pd.to_numeric(verif_df["Target Sekolah (68%)"], errors="coerce").fillna(0).sum()
+            img = make_pie_plotly(samp, tgt, "Progress Sekolah (Total) terhadap Target 68%")
+            if img:
+                doc.add_picture(img, width=Inches(5))
+                pie_made = True
+        # KAB/KOTA: umum
+        if (not pie_made) and ("Sampel Umum" in verif_df.columns and "Target Umum (68%)" in verif_df.columns):
+            samp = pd.to_numeric(verif_df["Sampel Umum"], errors="coerce").fillna(0).sum()
+            tgt  = pd.to_numeric(verif_df["Target Umum (68%)"], errors="coerce").fillna(0).sum()
+            img = make_pie_plotly(samp, tgt, "Progress Umum (Total) terhadap Target 68%")
             if img:
                 doc.add_picture(img, width=Inches(5))
                 pie_made = True
+        # PROVINSI: SMA
+        if (not pie_made) and ("Sampel SMA (DM)" in verif_df.columns and "Target SMA (68%)" in verif_df.columns):
+            samp = pd.to_numeric(verif_df["Sampel SMA (DM)"], errors="coerce").fillna(0).sum()
+            tgt  = pd.to_numeric(verif_df["Target SMA (68%)"], errors="coerce").fillna(0).sum()
+            img = make_pie_plotly(samp, tgt, "Progress SMA (Total) terhadap Target 68%")
             if img:
                 doc.add_picture(img, width=Inches(5))
                 pie_made = True
         if not pie_made:
+            doc.add_paragraph("Tidak ada pasangan kolom sampel-target yang valid untuk dibuat pie chart.")
     doc.add_heading("Analisis Naratif (LLM)", level=2)
     for p in analysis_text.split("\n"):
 # ============================================================
+# 9) CORE RUN (FILTER + EXPORT)
 # ============================================================
 def run_core(prov_value, kab_value, kew_value):
     if df_all_raw is None or df_all_raw.empty:
         empty = pd.DataFrame()
         return (
+            empty, empty, None,
             None, None, None,
             "Data DM tidak terbaca.",
             "Tidak ada analisis."
     if len(df) == 0:
         empty = pd.DataFrame()
         return (
+            empty, empty, None,
             None, None, None,
             "Tidak ada data untuk kombinasi filter yang dipilih.",
             "Tidak ada analisis."
         )
     verif_df = compute_gap_verification(df, kew_value)
     # detail subset untuk UI (ringkas)
             cols.append(c)
     detail_df = df[cols].copy() if cols else df.copy()
+    # grafik progress
+    fig_progress = make_progress_figure(verif_df, kew_value)
     # simpan file download
     tmpdir = tempfile.mkdtemp()
+    rekap_excel_path = os.path.join(tmpdir, "Rekap_Kekurangan_Sampel_IPLM_Target68.xlsx")
     raw_dm_path      = os.path.join(tmpdir, "DM_Subset_Raw.xlsx")
     with pd.ExcelWriter(rekap_excel_path, engine="openpyxl") as w:
+        verif_df.to_excel(w, sheet_name="Verifikasi_Gap_Target68", index=False)
         detail_df.to_excel(w, sheet_name="Detail_Subset_DM", index=False)
     df.to_excel(raw_dm_path, index=False)
     analysis_text = generate_llm_gap_report(verif_df, prov_value, kab_value, kew_value)
     word_path = generate_word_report_gap(verif_df, prov_value, kab_value, kew_value, analysis_text)
+    msg = (
+        f"OK. Subset DM: {len(df)} baris | Verifikasi: {len(verif_df)} baris | "
+        f"Target: {int(TARGET_COVERAGE*100)}%."
+    )
     return (
         verif_df,
         detail_df,
+        fig_progress,
         rekap_excel_path,
         raw_dm_path,
         word_path,
 # ============================================================
+# 10) UI GRADIO
 # ============================================================
 with gr.Blocks() as demo:
     gr.Markdown(
         f"""
+# Dashboard Kekurangan Sampel IPLM (Tanpa Hitung Indeks) — Target {int(TARGET_COVERAGE*100)}%
 Aplikasi ini hanya mengecek **kekurangan sampel** berdasarkan:
+- **DM (sampel masuk)** vs **Target 68% dari populasi unit (META)**
 **File:**
 - `{DATA_FILE}` (DM)
     run_btn = gr.Button("Hitung Kekurangan Sampel")
     msg_out = gr.Markdown()
+    gr.Markdown("### Verifikasi Coverage & Kekurangan Sampel (Target 68%)")
     verif_out = gr.DataFrame(interactive=False)
+    gr.Markdown("### Grafik Progress (% dari target — 100% = target tercapai)")
+    progress_out = gr.Plot()
     gr.Markdown("### Detail Subset DM (yang terfilter)")
     detail_out = gr.DataFrame(interactive=False)
     run_btn.click(
         fn=run_core,
         inputs=[dd_prov, dd_kab, dd_kew],
+        outputs=[
+            verif_out,
+            detail_out,
+            progress_out,
+            rekap_excel_out,
+            raw_dm_out,
+            word_out,
+            msg_out,
+            analysis_out
+        ],
     )
 demo.launch()