Spaces:

irhamni
/

IPLM_DM

Running

App Files Files Community

irhamni commited on 29 days ago

Commit

1c38b9f

verified ·

1 Parent(s): effb700

Update app.py

Browse files

Files changed (1) hide show

app.py +120 -151

app.py CHANGED Viewed

@@ -1,47 +1,45 @@
 # -*- coding: utf-8 -*-
 """
-app.py — Dashboard Kekurangan Sampel IPLM (TANPA HITUNG INDEKS) + Grafik Progress
 Fokus:
-- Cek "kekurangan sampel" pengumpulan data IPLM per wilayah
-- Target pengumpulan BUKAN 100% populasi, tetapi 68% dari populasi (TARGET_COVERAGE=0.68)
-- Bandingkan sampel (DM) vs target 68% populasi (META):
-  - KAB/KOTA:
-      * Sekolah: target = 68% dari (SD+SMP)
-      * Umum:   target = 68% dari (Kecamatan + Desa/Kelurahan)
-  - PROVINSI:
-      * SMA:    target = 68% dari (Total SMA)
 Fitur:
 - Filter: Provinsi, Kab/Kota, Kewenangan
-- Tabel Verifikasi Coverage & Kekurangan Sampel
-- Tabel Detail Subset DM (ringkas)
-- Grafik progress (coverage terhadap target 68%) per unit wilayah
 - Download:
-  1) Rekap Excel (verifikasi + detail ringkas)
-  2) Data mentah subset DM (RAW) sesuai filter user
-  3) Laporan Word (narasi LLM + tabel verifikasi + pie ringkasan opsional)
 """
 import os
 import re
-import math
 import tempfile
 from pathlib import Path
 import gradio as gr
 import numpy as np
 import pandas as pd
-from huggingface_hub import InferenceClient
-# Plot
 import plotly.graph_objects as go
 # Word report
 from docx import Document
 from docx.shared import Inches
-# Pie chart opsional (butuh kaleido)
 import plotly.express as px
 try:
     import kaleido  # noqa: F401
@@ -53,7 +51,7 @@ except Exception:
 # ============================================================
 # 1) KONFIGURASI FILE
 # ============================================================
-DATA_FILE       = "DM_001.xlsx"                 # data sampel masuk (multi-sheet)
 META_KAB_FILE   = "jumlahdesa_fixed (1).xlsx"   # kecamatan & desa/kel per kab/kota
 META_SDSMP_FILE = "SD-SMP-kab.xlsx"             # jumlah SD & SMP per kab/kota
 META_SMA_FILE   = "SMA.xlsx"                    # jumlah SMA per provinsi
@@ -61,7 +59,7 @@ META_SMA_FILE   = "SMA.xlsx"                    # jumlah SMA per provinsi
 # ============================================================
 # 1a) TARGET CAKUPAN SAMPEL (KEBIJAKAN)
 # ============================================================
-TARGET_COVERAGE = 0.68   # 68% dari populasi
 # ============================================================
 # 1b) KONFIGURASI LLM (Hugging Face Inference)
@@ -70,7 +68,7 @@ USE_LLM = True
 LLM_MODEL_NAME = "meta-llama/Meta-Llama-3-8B-Instruct"
 HF_TOKEN = (
-    os.getenv("HF_TOKEN")
     or os.getenv("HUGGINGFACEHUB_API_TOKEN")
     or os.getenv("HF_API_TOKEN")
 )
@@ -168,13 +166,6 @@ def norm_kab_label(s):
     t = " ".join(t.split())
     return re.sub(r"[^A-Z0-9]+", "", t)
-def safe_pct(num, den):
-    if den is None or pd.isna(den) or den <= 0:
-        return np.nan
-    if num is None or pd.isna(num):
-        num = 0
-    return 100.0 * float(num) / float(den)
 def _infer_jenjang_sd_smp(x):
     if pd.isna(x):
         return "OTHER"
@@ -223,6 +214,7 @@ jenis_col_glob = None
 subjenis_col_glob = None
 nama_col_glob = None
 try:
     fp = Path(DATA_FILE)
     if not fp.exists():
@@ -244,7 +236,6 @@ try:
     else:
         df_all_raw["KEW_NORM"] = None
-    # jenis perpustakaan -> dataset {sekolah/umum/khusus}
     val_map_jenis = {
         "PERPUSTAKAAN SEKOLAH": "sekolah",
         "SEKOLAH": "sekolah",
@@ -266,7 +257,7 @@ except Exception as e:
 extra_info = []
-# --- META kab: kec + desa/kel ---
 try:
     meta_kab_raw = pd.read_excel(META_KAB_FILE)
     col_kab = pick_col(meta_kab_raw, ["Kab/Kota", "Kab_Kota", "kab/kota", "kabupaten_kota"])
@@ -288,7 +279,7 @@ except Exception as e:
     meta_kab_df = None
     extra_info.append(f"⚠️ Gagal memuat `{META_KAB_FILE}` ({e})")
-# --- META SD/SMP per kab/kota ---
 try:
     sd_smp_raw = pd.read_excel(META_SDSMP_FILE)
     col_kab2 = pick_col(sd_smp_raw, [
@@ -323,7 +314,7 @@ try:
 except Exception as e:
     extra_info.append(f"⚠️ Gagal memuat `{META_SDSMP_FILE}` ({e})")
-# --- META SMA per provinsi ---
 try:
     meta_sma_raw = pd.read_excel(META_SMA_FILE)
     col_prov_sma = pick_col(meta_sma_raw, [
@@ -360,7 +351,7 @@ if extra_info:
 # ============================================================
-# 4) PILIHAN DROPDOWN
 # ============================================================
 def all_prov_choices():
     if df_all_raw is None or prov_col_glob is None:
@@ -394,7 +385,7 @@ default_kew  = "KAB/KOTA" if "KAB/KOTA" in kew_choices else (kew_choices[0] if k
 # ============================================================
-# 5) INTI: HITUNG COVERAGE & GAP (TARGET 68%)
 # ============================================================
 def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.DataFrame:
     if df_filtered is None or len(df_filtered) == 0:
@@ -402,7 +393,7 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
     kew_norm = str(kew_value or "").upper()
-    # ================= KAB/KOTA =================
     if ("KAB" in kew_norm or "KOTA" in kew_norm):
         if kab_col_glob is None or meta_kab_df is None:
             return pd.DataFrame({"Info": ["Kolom kab/kota atau meta kab tidak tersedia."]})
@@ -415,22 +406,20 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
         tmp["kab_key"] = tmp[kab_col_glob].apply(norm_kab_label)
         # total sampel per kab
-        g_total = tmp.groupby("kab_key").size().rename("Sampel_Total").reset_index()
-        # sekolah & jenjang
         if subjenis_col_glob and subjenis_col_glob in tmp.columns:
             tmp["jenjang"] = tmp[subjenis_col_glob].apply(_infer_jenjang_sd_smp)
         else:
             tmp["jenjang"] = "OTHER"
         tmp_sek = tmp[tmp["_dataset"] == "sekolah"].copy() if "_dataset" in tmp.columns else tmp.copy()
-        g_sek_total = tmp_sek.groupby("kab_key").size().rename("Sampel_Sekolah").reset_index()
-        g_sd  = tmp_sek[tmp_sek["jenjang"] == "SD"].groupby("kab_key").size().rename("Sampel_SD").reset_index()
-        g_smp = tmp_sek[tmp_sek["jenjang"] == "SMP"].groupby("kab_key").size().rename("Sampel_SMP").reset_index()
         # umum
         tmp_umum = tmp[tmp["_dataset"] == "umum"].copy() if "_dataset" in tmp.columns else tmp.copy()
-        g_umum = tmp_umum.groupby("kab_key").size().rename("Sampel_Umum").reset_index()
         use_cols = ["kab_key", "Kab_Kota_Label", "Jml_Kecamatan", "Jml_DesaKel", "Jml_SD", "Jml_SMP"]
         use_cols = [c for c in use_cols if c in meta_kab_df.columns]
@@ -438,61 +427,49 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
         merged = (
             g_total
             .merge(g_sek_total, on="kab_key", how="left")
-            .merge(g_sd, on="kab_key", how="left")
-            .merge(g_smp, on="kab_key", how="left")
             .merge(g_umum, on="kab_key", how="left")
             .merge(meta_kab_df[use_cols], on="kab_key", how="left")
         )
-        for c in ["Sampel_Total", "Sampel_Sekolah", "Sampel_SD", "Sampel_SMP", "Sampel_Umum"]:
             if c in merged.columns:
                 merged[c] = merged[c].fillna(0).astype(int)
-        merged["Pop_SD_SMP"] = merged[["Jml_SD", "Jml_SMP"]].sum(axis=1, skipna=True)
-        merged["Pop_Kec_DesaKel"] = merged.get("Jml_Kecamatan", np.nan) + merged.get("Jml_DesaKel", np.nan)
         # TARGET 68%
-        merged["Target_Sekolah_68"] = np.ceil(merged["Pop_SD_SMP"] * TARGET_COVERAGE)
-        merged["Target_Umum_68"] = np.ceil(merged["Pop_Kec_DesaKel"] * TARGET_COVERAGE)
-        # Coverage terhadap target (100% = target terpenuhi)
-        merged["Progress_Sekolah_%"] = merged.apply(
-            lambda r: safe_pct(r["Sampel_Sekolah"], r.get("Target_Sekolah_68", np.nan)), axis=1
-        )
-        merged["Progress_Umum_%"] = merged.apply(
-            lambda r: safe_pct(r["Sampel_Umum"], r.get("Target_Umum_68", np.nan)), axis=1
-        )
-        # Kekurangan terhadap target 68%
-        merged["Kekurangan_Sekolah"] = merged.apply(
-            lambda r: max(int(r["Target_Sekolah_68"] - r["Sampel_Sekolah"]) if pd.notna(r["Target_Sekolah_68"]) else 0, 0),
             axis=1
         )
-        merged["Kekurangan_Umum"] = merged.apply(
-            lambda r: max(int(r["Target_Umum_68"] - r["Sampel_Umum"]) if pd.notna(r["Target_Umum_68"]) else 0, 0),
             axis=1
         )
         out = pd.DataFrame({
             "Kab/Kota": merged.get("Kab_Kota_Label", merged["kab_key"]),
-            "Sampel Total": merged["Sampel_Total"],
-            "Sampel Sekolah": merged["Sampel_Sekolah"],
-            "Populasi Sekolah (SD+SMP)": merged["Pop_SD_SMP"],
-            "Target Sekolah (68%)": merged["Target_Sekolah_68"],
-            "Progress Sekolah (% dari target)": merged["Progress_Sekolah_%"],
-            "Kekurangan Sampel Sekolah": merged["Kekurangan_Sekolah"],
-            "Sampel Umum": merged["Sampel_Umum"],
-            "Populasi Admin (Kec+Desa/Kel)": merged["Pop_Kec_DesaKel"],
-            "Target Umum (68%)": merged["Target_Umum_68"],
-            "Progress Umum (% dari target)": merged["Progress_Umum_%"],
-            "Kekurangan Sampel Umum": merged["Kekurangan_Umum"],
         })
-        return out.sort_values("Kab/Kota").reset_index(drop=True).round(3)
-    # ================= PROVINSI =================
     if ("PROV" in kew_norm):
         if meta_sma_df is None:
             return pd.DataFrame({"Info": ["Meta SMA tidak tersedia."]})
@@ -506,11 +483,11 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
         tmp["prov_key"] = tmp[prov_col_glob].apply(norm_prov_label)
-        # START dari sampel (biar tidak munculin provinsi lain)
-        g_total = tmp.groupby("prov_key").size().rename("Sampel_Total").reset_index()
         tmp_sek = tmp[tmp["_dataset"] == "sekolah"].copy() if "_dataset" in tmp.columns else tmp.copy()
-        g_sma = tmp_sek.groupby("prov_key").size().rename("Sampel_SMA").reset_index()
         merged = (
             g_total
@@ -518,111 +495,108 @@ def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.Da
             .merge(meta_sma_df[["prov_key", "Provinsi_Label", "Jml_SMA"]], on="prov_key", how="left")
         )
-        merged["Sampel_SMA"] = merged["Sampel_SMA"].fillna(0).astype(int)
-        # TARGET 68%
-        merged["Target_SMA_68"] = np.ceil(merged["Jml_SMA"] * TARGET_COVERAGE)
-        merged["Progress_SMA_%"] = merged.apply(
-            lambda r: safe_pct(r["Sampel_SMA"], r.get("Target_SMA_68", np.nan)), axis=1
-        )
-        merged["Kekurangan_SMA"] = merged.apply(
-            lambda r: max(int(r["Target_SMA_68"] - r["Sampel_SMA"]) if pd.notna(r["Target_SMA_68"]) else 0, 0),
             axis=1
         )
         out = pd.DataFrame({
             "Provinsi": merged["Provinsi_Label"].fillna(merged["prov_key"]),
-            "Sampel Total (Prov)": merged["Sampel_Total"].fillna(0).astype(int),
-            "Sampel SMA (DM)": merged["Sampel_SMA"],
-            "Populasi SMA (Meta)": merged["Jml_SMA"],
-            "Target SMA (68%)": merged["Target_SMA_68"],
-            "Progress SMA (% dari target)": merged["Progress_SMA_%"],
-            "Kekurangan Sampel SMA": merged["Kekurangan_SMA"],
         })
-        return out.sort_values("Provinsi").reset_index(drop=True).round(3)
     return pd.DataFrame({"Info": ["Kewenangan tidak dikenali / tidak didukung."]})
 # ============================================================
-# 6) GRAFIK PROGRESS (Plotly)
 # ============================================================
-def make_progress_figure(verif_df: pd.DataFrame, kew_value: str) -> go.Figure:
     fig = go.Figure()
     if verif_df is None or verif_df.empty:
         fig.update_layout(
-            title="Progress Pengumpulan (tidak ada data)",
             xaxis_title="Unit",
-            yaxis_title="% dari target 68%",
         )
         return fig
     kew_norm = str(kew_value or "").upper()
-    # helper: cap 0..120 untuk tampilan (biar gak liar kalau >100)
-    def _cap(s):
-        x = pd.to_numeric(s, errors="coerce")
-        x = x.clip(lower=0, upper=120)
-        return x
     if ("KAB" in kew_norm or "KOTA" in kew_norm) and ("Kab/Kota" in verif_df.columns):
-        x = verif_df["Kab/Kota"].astype(str).tolist()
-        p_sek = _cap(verif_df.get("Progress Sekolah (% dari target)", pd.Series([np.nan]*len(verif_df))))
-        p_umum = _cap(verif_df.get("Progress Umum (% dari target)", pd.Series([np.nan]*len(verif_df))))
         fig.add_trace(go.Bar(
-            x=x, y=p_sek, name="Sekolah (SD+SMP) — % dari target",
-            hovertemplate="%{x}<br>%{y:.1f}%<extra></extra>"
         ))
         fig.add_trace(go.Bar(
-            x=x, y=p_umum, name="Umum (Kec+Desa/Kel) — % dari target",
-            hovertemplate="%{x}<br>%{y:.1f}%<extra></extra>"
         ))
-        fig.add_hline(y=100, line_dash="dash")
         fig.update_layout(
-            title="Progress Pengumpulan Data (KAB/KOTA) — terhadap Target 68%",
             barmode="group",
             xaxis_title="Kab/Kota",
-            yaxis_title="% dari target (100% = target tercapai)",
-            margin=dict(l=40, r=20, t=60, b=120),
         )
         fig.update_xaxes(tickangle=-35)
         return fig
     if ("PROV" in kew_norm) and ("Provinsi" in verif_df.columns):
-        x = verif_df["Provinsi"].astype(str).tolist()
-        p_sma = _cap(verif_df.get("Progress SMA (% dari target)", pd.Series([np.nan]*len(verif_df))))
         fig.add_trace(go.Bar(
-            x=x, y=p_sma, name="SMA — % dari target",
-            hovertemplate="%{x}<br>%{y:.1f}%<extra></extra>"
         ))
-        fig.add_hline(y=100, line_dash="dash")
         fig.update_layout(
-            title="Progress Pengumpulan Data (PROVINSI) — SMA terhadap Target 68%",
             xaxis_title="Provinsi",
-            yaxis_title="% dari target (100% = target tercapai)",
-            margin=dict(l=40, r=20, t=60, b=120),
         )
         fig.update_xaxes(tickangle=-35)
         return fig
     fig.update_layout(
-        title="Progress Pengumpulan — format data tidak dikenali",
         xaxis_title="Unit",
-        yaxis_title="% dari target 68%",
     )
     return fig
@@ -636,14 +610,13 @@ def build_context_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: str) ->
     lines.append(f"Wilayah filter: {wilayah}")
     lines.append(f"Kewenangan: {kew}")
     lines.append(f"Target pengumpulan: {int(TARGET_COVERAGE*100)}% dari populasi unit (meta).")
-    lines.append(f"Jumlah baris verifikasi: {len(verif_df)}")
     gap_cols = [c for c in verif_df.columns if "Kekurangan Sampel" in c]
     for gc in gap_cols:
         total_gap = int(pd.to_numeric(verif_df[gc], errors="coerce").fillna(0).sum())
         lines.append(f"Total {gc}: {total_gap}")
-    # top prioritas
     if gap_cols:
         gc = gap_cols[0]
         t = verif_df.copy()
@@ -710,7 +683,7 @@ TULIS LAPORAN (BAHASA INDONESIA FORMAL) DENGAN STRUKTUR:
 BATASAN:
 - Jangan bahas indeks / skor IPLM sama sekali.
-- Fokus murni pada progress terhadap target 68%, kekurangan sampel, dan strategi pelengkapannya.
 """
     try:
@@ -748,7 +721,7 @@ def generate_word_report_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: s
     doc.add_paragraph(f"Target pengumpulan: {int(TARGET_COVERAGE*100)}% dari populasi unit (meta).")
     doc.add_paragraph(f"Jumlah unit analisis: {len(verif_df)}")
-    doc.add_heading("Tabel Verifikasi Coverage & Kekurangan Sampel", level=2)
     view = verif_df.copy()
     if len(view) > 200:
         doc.add_paragraph("Catatan: tabel dipotong (200 baris pertama) untuk menjaga ukuran dokumen.")
@@ -770,29 +743,26 @@ def generate_word_report_gap(verif_df: pd.DataFrame, prov: str, kab: str, kew: s
     else:
         pie_made = False
-        # KAB/KOTA: sekolah
         if "Sampel Sekolah" in verif_df.columns and "Target Sekolah (68%)" in verif_df.columns:
             samp = pd.to_numeric(verif_df["Sampel Sekolah"], errors="coerce").fillna(0).sum()
             tgt  = pd.to_numeric(verif_df["Target Sekolah (68%)"], errors="coerce").fillna(0).sum()
-            img = make_pie_plotly(samp, tgt, "Progress Sekolah (Total) terhadap Target 68%")
             if img:
                 doc.add_picture(img, width=Inches(5))
                 pie_made = True
-        # KAB/KOTA: umum
         if (not pie_made) and ("Sampel Umum" in verif_df.columns and "Target Umum (68%)" in verif_df.columns):
             samp = pd.to_numeric(verif_df["Sampel Umum"], errors="coerce").fillna(0).sum()
             tgt  = pd.to_numeric(verif_df["Target Umum (68%)"], errors="coerce").fillna(0).sum()
-            img = make_pie_plotly(samp, tgt, "Progress Umum (Total) terhadap Target 68%")
             if img:
                 doc.add_picture(img, width=Inches(5))
                 pie_made = True
-        # PROVINSI: SMA
         if (not pie_made) and ("Sampel SMA (DM)" in verif_df.columns and "Target SMA (68%)" in verif_df.columns):
             samp = pd.to_numeric(verif_df["Sampel SMA (DM)"], errors="coerce").fillna(0).sum()
             tgt  = pd.to_numeric(verif_df["Target SMA (68%)"], errors="coerce").fillna(0).sum()
-            img = make_pie_plotly(samp, tgt, "Progress SMA (Total) terhadap Target 68%")
             if img:
                 doc.add_picture(img, width=Inches(5))
                 pie_made = True
@@ -848,15 +818,15 @@ def run_core(prov_value, kab_value, kew_value):
     verif_df = compute_gap_verification(df, kew_value)
-    # detail subset untuk UI (ringkas)
     cols = []
     for c in [prov_col_glob, kab_col_glob, nama_col_glob, kew_col_glob, jenis_col_glob, subjenis_col_glob, "_dataset", "KEW_NORM"]:
         if c and c in df.columns and c not in cols:
             cols.append(c)
     detail_df = df[cols].copy() if cols else df.copy()
-    # grafik progress
-    fig_progress = make_progress_figure(verif_df, kew_value)
     # simpan file download
     tmpdir = tempfile.mkdtemp()
@@ -880,7 +850,7 @@ def run_core(prov_value, kab_value, kew_value):
     return (
         verif_df,
         detail_df,
-        fig_progress,
         rekap_excel_path,
         raw_dm_path,
         word_path,
@@ -900,8 +870,7 @@ with gr.Blocks() as demo:
         f"""
 # Dashboard Kekurangan Sampel IPLM (Tanpa Hitung Indeks) — Target {int(TARGET_COVERAGE*100)}%
-Aplikasi ini hanya mengecek **kekurangan sampel** berdasarkan:
-- **DM (sampel masuk)** vs **Target 68% dari populasi unit (META)**
 **File:**
 - `{DATA_FILE}` (DM)
@@ -923,11 +892,11 @@ Aplikasi ini hanya mengecek **kekurangan sampel** berdasarkan:
     run_btn = gr.Button("Hitung Kekurangan Sampel")
     msg_out = gr.Markdown()
-    gr.Markdown("### Verifikasi Coverage & Kekurangan Sampel (Target 68%)")
     verif_out = gr.DataFrame(interactive=False)
-    gr.Markdown("### Grafik Progress (% dari target — 100% = target tercapai)")
-    progress_out = gr.Plot()
     gr.Markdown("### Detail Subset DM (yang terfilter)")
     detail_out = gr.DataFrame(interactive=False)
@@ -946,7 +915,7 @@ Aplikasi ini hanya mengecek **kekurangan sampel** berdasarkan:
         outputs=[
             verif_out,
             detail_out,
-            progress_out,
             rekap_excel_out,
             raw_dm_out,
             word_out,

 # -*- coding: utf-8 -*-
 """
+app.py — Dashboard Kekurangan Sampel IPLM (TANPA HITUNG INDEKS) + Grafik GAP (Bukan Persen)
 Fokus:
+- Target pengumpulan = 68% dari populasi unit (meta), BUKAN 100%
+- Output utama: "Kekurangan sampel" = berapa unit lagi yang harus dikumpulkan
+Pembanding:
+- KAB/KOTA:
+  * Sekolah: target = 68% dari (SD + SMP)
+  * Umum:   target = 68% dari (Kecamatan + Desa/Kelurahan)
+- PROVINSI:
+  * SMA:    target = 68% dari (Total SMA)
 Fitur:
 - Filter: Provinsi, Kab/Kota, Kewenangan
+- Tabel Verifikasi (target 68% + kekurangan)
+- Detail subset DM (ringkas)
+- Grafik GAP (kekurangan unit) per wilayah
 - Download:
+  1) Rekap (Verifikasi + Detail ringkas) .xlsx
+  2) Data mentah subset DM sesuai filter .xlsx
+  3) Laporan Word (.docx) + narasi LLM soal kekurangan sampel
 """
 import os
 import re
 import tempfile
 from pathlib import Path
 import gradio as gr
 import numpy as np
 import pandas as pd
 import plotly.graph_objects as go
+from huggingface_hub import InferenceClient
 # Word report
 from docx import Document
 from docx.shared import Inches
+# Pie opsional (butuh kaleido)
 import plotly.express as px
 try:
     import kaleido  # noqa: F401
 # ============================================================
 # 1) KONFIGURASI FILE
 # ============================================================
+DATA_FILE       = "IPLM_clean_Manual.xlsx"                 # data sampel masuk (multi-sheet)
 META_KAB_FILE   = "jumlahdesa_fixed (1).xlsx"   # kecamatan & desa/kel per kab/kota
 META_SDSMP_FILE = "SD-SMP-kab.xlsx"             # jumlah SD & SMP per kab/kota
 META_SMA_FILE   = "SMA.xlsx"                    # jumlah SMA per provinsi
 # ============================================================
 # 1a) TARGET CAKUPAN SAMPEL (KEBIJAKAN)
 # ============================================================
+TARGET_COVERAGE = 0.68  # 68% dari populasi
 # ============================================================
 # 1b) KONFIGURASI LLM (Hugging Face Inference)
 LLM_MODEL_NAME = "meta-llama/Meta-Llama-3-8B-Instruct"
 HF_TOKEN = (
+    os.getenv("HF_SECRET")
     or os.getenv("HUGGINGFACEHUB_API_TOKEN")
     or os.getenv("HF_API_TOKEN")
 )
     t = " ".join(t.split())
     return re.sub(r"[^A-Z0-9]+", "", t)
 def _infer_jenjang_sd_smp(x):
     if pd.isna(x):
         return "OTHER"
 subjenis_col_glob = None
 nama_col_glob = None
+# ---- Load DM ----
 try:
     fp = Path(DATA_FILE)
     if not fp.exists():
     else:
         df_all_raw["KEW_NORM"] = None
     val_map_jenis = {
         "PERPUSTAKAAN SEKOLAH": "sekolah",
         "SEKOLAH": "sekolah",
 extra_info = []
+# ---- Meta Kab (Kec/Desa) ----
 try:
     meta_kab_raw = pd.read_excel(META_KAB_FILE)
     col_kab = pick_col(meta_kab_raw, ["Kab/Kota", "Kab_Kota", "kab/kota", "kabupaten_kota"])
     meta_kab_df = None
     extra_info.append(f"⚠️ Gagal memuat `{META_KAB_FILE}` ({e})")
+# ---- Meta SD/SMP ----
 try:
     sd_smp_raw = pd.read_excel(META_SDSMP_FILE)
     col_kab2 = pick_col(sd_smp_raw, [
 except Exception as e:
     extra_info.append(f"⚠️ Gagal memuat `{META_SDSMP_FILE}` ({e})")
+# ---- Meta SMA ----
 try:
     meta_sma_raw = pd.read_excel(META_SMA_FILE)
     col_prov_sma = pick_col(meta_sma_raw, [
 # ============================================================
+# 4) DROPDOWN
 # ============================================================
 def all_prov_choices():
     if df_all_raw is None or prov_col_glob is None:
 # ============================================================
+# 5) VERIFIKASI GAP (TARGET 68%)
 # ============================================================
 def compute_gap_verification(df_filtered: pd.DataFrame, kew_value: str) -> pd.DataFrame:
     if df_filtered is None or len(df_filtered) == 0:
     kew_norm = str(kew_value or "").upper()
+    # ================ KAB/KOTA ================
     if ("KAB" in kew_norm or "KOTA" in kew_norm):
         if kab_col_glob is None or meta_kab_df is None:
             return pd.DataFrame({"Info": ["Kolom kab/kota atau meta kab tidak tersedia."]})
         tmp["kab_key"] = tmp[kab_col_glob].apply(norm_kab_label)
         # total sampel per kab
+        g_total = tmp.groupby("kab_key").size().rename("Sampel Total").reset_index()
+        # sekolah & jenjang (opsional)
         if subjenis_col_glob and subjenis_col_glob in tmp.columns:
             tmp["jenjang"] = tmp[subjenis_col_glob].apply(_infer_jenjang_sd_smp)
         else:
             tmp["jenjang"] = "OTHER"
         tmp_sek = tmp[tmp["_dataset"] == "sekolah"].copy() if "_dataset" in tmp.columns else tmp.copy()
+        g_sek_total = tmp_sek.groupby("kab_key").size().rename("Sampel Sekolah").reset_index()
         # umum
         tmp_umum = tmp[tmp["_dataset"] == "umum"].copy() if "_dataset" in tmp.columns else tmp.copy()
+        g_umum = tmp_umum.groupby("kab_key").size().rename("Sampel Umum").reset_index()
         use_cols = ["kab_key", "Kab_Kota_Label", "Jml_Kecamatan", "Jml_DesaKel", "Jml_SD", "Jml_SMP"]
         use_cols = [c for c in use_cols if c in meta_kab_df.columns]
         merged = (
             g_total
             .merge(g_sek_total, on="kab_key", how="left")
             .merge(g_umum, on="kab_key", how="left")
             .merge(meta_kab_df[use_cols], on="kab_key", how="left")
         )
+        for c in ["Sampel Total", "Sampel Sekolah", "Sampel Umum"]:
             if c in merged.columns:
                 merged[c] = merged[c].fillna(0).astype(int)
+        merged["Populasi Sekolah (SD+SMP)"] = merged[["Jml_SD", "Jml_SMP"]].sum(axis=1, skipna=True)
+        merged["Populasi Admin (Kec+Desa/Kel)"] = merged.get("Jml_Kecamatan", np.nan) + merged.get("Jml_DesaKel", np.nan)
         # TARGET 68%
+        merged["Target Sekolah (68%)"] = np.ceil(merged["Populasi Sekolah (SD+SMP)"] * TARGET_COVERAGE)
+        merged["Target Umum (68%)"] = np.ceil(merged["Populasi Admin (Kec+Desa/Kel)"] * TARGET_COVERAGE)
+        # GAP: berapa yang harus dikumpulkan lagi
+        merged["Kekurangan Sampel Sekolah"] = merged.apply(
+            lambda r: max(int(r["Target Sekolah (68%)"] - r["Sampel Sekolah"]) if pd.notna(r["Target Sekolah (68%)"]) else 0, 0),
             axis=1
         )
+        merged["Kekurangan Sampel Umum"] = merged.apply(
+            lambda r: max(int(r["Target Umum (68%)"] - r["Sampel Umum"]) if pd.notna(r["Target Umum (68%)"]) else 0, 0),
             axis=1
         )
         out = pd.DataFrame({
             "Kab/Kota": merged.get("Kab_Kota_Label", merged["kab_key"]),
+            "Sampel Total": merged["Sampel Total"],
+            "Sampel Sekolah": merged["Sampel Sekolah"],
+            "Populasi Sekolah (SD+SMP)": merged["Populasi Sekolah (SD+SMP)"],
+            "Target Sekolah (68%)": merged["Target Sekolah (68%)"],
+            "Kekurangan Sampel Sekolah": merged["Kekurangan Sampel Sekolah"],
+            "Sampel Umum": merged["Sampel Umum"],
+            "Populasi Admin (Kec+Desa/Kel)": merged["Populasi Admin (Kec+Desa/Kel)"],
+            "Target Umum (68%)": merged["Target Umum (68%)"],
+            "Kekurangan Sampel Umum": merged["Kekurangan Sampel Umum"],
         })
+        return out.sort_values("Kab/Kota").reset_index(drop=True).round(0)
+    # ================ PROVINSI ================
     if ("PROV" in kew_norm):
         if meta_sma_df is None:
             return pd.DataFrame({"Info": ["Meta SMA tidak tersedia."]})
         tmp["prov_key"] = tmp[prov_col_glob].apply(norm_prov_label)
+        # start dari sampel (biar tidak bocor prov lain)
+        g_total = tmp.groupby("prov_key").size().rename("Sampel Total (Prov)").reset_index()
         tmp_sek = tmp[tmp["_dataset"] == "sekolah"].copy() if "_dataset" in tmp.columns else tmp.copy()
+        g_sma = tmp_sek.groupby("prov_key").size().rename("Sampel SMA (DM)").reset_index()
         merged = (
             g_total
             .merge(meta_sma_df[["prov_key", "Provinsi_Label", "Jml_SMA"]], on="prov_key", how="left")
         )
+        merged["Sampel SMA (DM)"] = merged["Sampel SMA (DM)"].fillna(0).astype(int)
+        merged["Populasi SMA (Meta)"] = merged["Jml_SMA"]
+        merged["Target SMA (68%)"] = np.ceil(merged["Populasi SMA (Meta)"] * TARGET_COVERAGE)
+        merged["Kekurangan Sampel SMA"] = merged.apply(
+            lambda r: max(int(r["Target SMA (68%)"] - r["Sampel SMA (DM)"]) if pd.notna(r["Target SMA (68%)"]) else 0, 0),
             axis=1
         )
         out = pd.DataFrame({
             "Provinsi": merged["Provinsi_Label"].fillna(merged["prov_key"]),
+            "Sampel Total (Prov)": merged["Sampel Total (Prov)"].fillna(0).astype(int),
+            "Sampel SMA (DM)": merged["Sampel SMA (DM)"],
+            "Populasi SMA (Meta)": merged["Populasi SMA (Meta)"],
+            "Target SMA (68%)": merged["Target SMA (68%)"],
+            "Kekurangan Sampel SMA": merged["Kekurangan Sampel SMA"],
         })
+        return out.sort_values("Provinsi").reset_index(drop=True).round(0)
     return pd.DataFrame({"Info": ["Kewenangan tidak dikenali / tidak didukung."]})
 # ============================================================
+# 6) GRAFIK GAP (KURANGAN YANG HARUS DIKUMPULIN)
 # ============================================================
+def make_gap_figure(verif_df: pd.DataFrame, kew_value: str) -> go.Figure:
     fig = go.Figure()
     if verif_df is None or verif_df.empty:
         fig.update_layout(
+            title="Kekurangan Sampel (tidak ada data)",
             xaxis_title="Unit",
+            yaxis_title="Kekurangan (unit)",
         )
         return fig
     kew_norm = str(kew_value or "").upper()
+    def _num(s):
+        return pd.to_numeric(s, errors="coerce").fillna(0).astype(int)
+    # sort by total gap biar enak dilihat
     if ("KAB" in kew_norm or "KOTA" in kew_norm) and ("Kab/Kota" in verif_df.columns):
+        dfp = verif_df.copy()
+        dfp["gap_total"] = _num(dfp.get("Kekurangan Sampel Sekolah", 0)) + _num(dfp.get("Kekurangan Sampel Umum", 0))
+        dfp = dfp.sort_values("gap_total", ascending=False)
+        x = dfp["Kab/Kota"].astype(str).tolist()
+        gap_sek  = _num(dfp.get("Kekurangan Sampel Sekolah", 0))
+        gap_umum = _num(dfp.get("Kekurangan Sampel Umum", 0))
         fig.add_trace(go.Bar(
+            x=x, y=gap_sek, name="Kekurangan Sekolah (SD+SMP)",
+            text=gap_sek, textposition="outside",
+            hovertemplate="%{x}<br>Kekurangan sekolah: %{y} unit<extra></extra>"
         ))
         fig.add_trace(go.Bar(
+            x=x, y=gap_umum, name="Kekurangan Umum (Kec+Desa/Kel)",
+            text=gap_umum, textposition="outside",
+            hovertemplate="%{x}<br>Kekurangan umum: %{y} unit<extra></extra>"
         ))
         fig.update_layout(
+            title="Kekurangan Sampel yang Harus Dikumpulkan (KAB/KOTA) — Target 68%",
             barmode="group",
             xaxis_title="Kab/Kota",
+            yaxis_title="Kekurangan (unit)",
+            margin=dict(l=40, r=20, t=60, b=140),
         )
         fig.update_xaxes(tickangle=-35)
         return fig
     if ("PROV" in kew_norm) and ("Provinsi" in verif_df.columns):
+        dfp = verif_df.copy()
+        dfp["gap_total"] = _num(dfp.get("Kekurangan Sampel SMA", 0))
+        dfp = dfp.sort_values("gap_total", ascending=False)
+        x = dfp["Provinsi"].astype(str).tolist()
+        gap_sma = _num(dfp.get("Kekurangan Sampel SMA", 0))
         fig.add_trace(go.Bar(
+            x=x, y=gap_sma, name="Kekurangan SMA",
+            text=gap_sma, textposition="outside",
+            hovertemplate="%{x}<br>Kekurangan SMA: %{y} unit<extra></extra>"
         ))
         fig.update_layout(
+            title="Kekurangan Sampel yang Harus Dikumpulkan (PROVINSI) — SMA Target 68%",
             xaxis_title="Provinsi",
+            yaxis_title="Kekurangan (unit)",
+            margin=dict(l=40, r=20, t=60, b=140),
         )
         fig.update_xaxes(tickangle=-35)
         return fig
     fig.update_layout(
+        title="Kekurangan Sampel — format data tidak dikenali",
         xaxis_title="Unit",
+        yaxis_title="Kekurangan (unit)",
     )
     return fig
     lines.append(f"Wilayah filter: {wilayah}")
     lines.append(f"Kewenangan: {kew}")
     lines.append(f"Target pengumpulan: {int(TARGET_COVERAGE*100)}% dari populasi unit (meta).")
+    lines.append(f"Jumlah unit analisis: {len(verif_df)}")
     gap_cols = [c for c in verif_df.columns if "Kekurangan Sampel" in c]
     for gc in gap_cols:
         total_gap = int(pd.to_numeric(verif_df[gc], errors="coerce").fillna(0).sum())
         lines.append(f"Total {gc}: {total_gap}")
     if gap_cols:
         gc = gap_cols[0]
         t = verif_df.copy()
 BATASAN:
 - Jangan bahas indeks / skor IPLM sama sekali.
+- Fokus murni pada target 68%, kekurangan sampel, dan strategi pelengkapannya.
 """
     try:
     doc.add_paragraph(f"Target pengumpulan: {int(TARGET_COVERAGE*100)}% dari populasi unit (meta).")
     doc.add_paragraph(f"Jumlah unit analisis: {len(verif_df)}")
+    doc.add_heading("Tabel Verifikasi (Target 68% & Kekurangan Sampel)", level=2)
     view = verif_df.copy()
     if len(view) > 200:
         doc.add_paragraph("Catatan: tabel dipotong (200 baris pertama) untuk menjaga ukuran dokumen.")
     else:
         pie_made = False
         if "Sampel Sekolah" in verif_df.columns and "Target Sekolah (68%)" in verif_df.columns:
             samp = pd.to_numeric(verif_df["Sampel Sekolah"], errors="coerce").fillna(0).sum()
             tgt  = pd.to_numeric(verif_df["Target Sekolah (68%)"], errors="coerce").fillna(0).sum()
+            img = make_pie_plotly(samp, tgt, "Capaian Sekolah (Total) terhadap Target 68%")
             if img:
                 doc.add_picture(img, width=Inches(5))
                 pie_made = True
         if (not pie_made) and ("Sampel Umum" in verif_df.columns and "Target Umum (68%)" in verif_df.columns):
             samp = pd.to_numeric(verif_df["Sampel Umum"], errors="coerce").fillna(0).sum()
             tgt  = pd.to_numeric(verif_df["Target Umum (68%)"], errors="coerce").fillna(0).sum()
+            img = make_pie_plotly(samp, tgt, "Capaian Umum (Total) terhadap Target 68%")
             if img:
                 doc.add_picture(img, width=Inches(5))
                 pie_made = True
         if (not pie_made) and ("Sampel SMA (DM)" in verif_df.columns and "Target SMA (68%)" in verif_df.columns):
             samp = pd.to_numeric(verif_df["Sampel SMA (DM)"], errors="coerce").fillna(0).sum()
             tgt  = pd.to_numeric(verif_df["Target SMA (68%)"], errors="coerce").fillna(0).sum()
+            img = make_pie_plotly(samp, tgt, "Capaian SMA (Total) terhadap Target 68%")
             if img:
                 doc.add_picture(img, width=Inches(5))
                 pie_made = True
     verif_df = compute_gap_verification(df, kew_value)
+    # detail subset DM untuk UI (ringkas)
     cols = []
     for c in [prov_col_glob, kab_col_glob, nama_col_glob, kew_col_glob, jenis_col_glob, subjenis_col_glob, "_dataset", "KEW_NORM"]:
         if c and c in df.columns and c not in cols:
             cols.append(c)
     detail_df = df[cols].copy() if cols else df.copy()
+    # grafik GAP
+    fig_gap = make_gap_figure(verif_df, kew_value)
     # simpan file download
     tmpdir = tempfile.mkdtemp()
     return (
         verif_df,
         detail_df,
+        fig_gap,
         rekap_excel_path,
         raw_dm_path,
         word_path,
         f"""
 # Dashboard Kekurangan Sampel IPLM (Tanpa Hitung Indeks) — Target {int(TARGET_COVERAGE*100)}%
+Aplikasi ini mengecek **berapa unit lagi yang harus dikumpulkan** agar memenuhi target minimal representasi.
 **File:**
 - `{DATA_FILE}` (DM)
     run_btn = gr.Button("Hitung Kekurangan Sampel")
     msg_out = gr.Markdown()
+    gr.Markdown("### Verifikasi (Target 68% & Kekurangan Sampel)")
     verif_out = gr.DataFrame(interactive=False)
+    gr.Markdown("### Grafik Kekurangan Sampel (berapa unit lagi yang harus dikumpulkan)")
+    gap_plot_out = gr.Plot()
     gr.Markdown("### Detail Subset DM (yang terfilter)")
     detail_out = gr.DataFrame(interactive=False)
         outputs=[
             verif_out,
             detail_out,
+            gap_plot_out,
             rekap_excel_out,
             raw_dm_out,
             word_out,