Spaces:

irhamni
/

predict

Sleeping

App Files Files Community

irhamni commited on Dec 15, 2025

Commit

dfcd67d

verified ·

1 Parent(s): f3ee6d5

Update app.py

Browse files

Files changed (1) hide show

app.py +166 -131

app.py CHANGED Viewed

@@ -1,19 +1,37 @@
 # -*- coding: utf-8 -*-
 """
 app.py — IPLM 2025 (STABLE, COPY-PASTE, HF Spaces)
-✅ IPLM Real: Yeo-Johnson per indikator + MinMax nasional (sekali)
-✅ FINAL: Indeks_Final_0_100 = Indeks_Real_0_100 × SamplingFactor_Total (Target 68%)
-✅ Dropdown prov/kab/kew jalan & label rapi (tidak jadi PROVINSIACEH)
-✅ Dedup provinsi by key (hilang dualisme)
-✅ Output lengkap:
-   1) Indeks Agregat (FINAL)
-   2) Agregat (FINAL) per Jenis
-   3) Detail (FINAL) per Unit
-   4) Agregat (RealScore) per Jenis (Subindeks & Dimensi)
-   5) Detail (RealScore) per Unit (Subindeks & Dimensi + indikator raw)
-   6) Coverage Populasi vs Sampel (Target 68%) + BAR chart
-   7) Bell curve per Jenis (RealScore) — seperti contoh kamu
-   8) Analisis LLM (opsional) + Word report (tabel+grafik embedded)
 """
 import os
@@ -32,7 +50,7 @@ import plotly.express as px
 from sklearn.preprocessing import PowerTransformer
 # =========================
-# 0) FILES (SESUIKAN)
 # =========================
 DATA_FILE       = "IPLM_clean_manual_131225.xlsx"
 META_KAB_FILE   = "Data_populasi_Kab_kota.xlsx"
@@ -44,8 +62,9 @@ TARGET_FRAC = 0.68
 W_KEPATUHAN = 0.30
 W_KINERJA   = 0.70
 # =========================
-# 1) UTIL: sanitasi kolom & teks
 # =========================
 def make_unique_columns(cols):
     """Hindari kolom duplikat agar df['X'] tidak menjadi DataFrame."""
@@ -69,59 +88,65 @@ def clean_spaces(s: str) -> str:
 def pretty_admin_name(s: str, kind: str = "prov") -> str:
     """
-    Buat label dropdown rapi tapi tetap manusiawi:
     - PROVINSI JAWA BARAT
     - KOTA SURABAYA / KAB. BANDUNG
     """
     t = clean_spaces(str(s)).upper()
-    # rapikan beberapa variasi umum
     t = t.replace("PROPINSI", "PROVINSI")
     t = re.sub(r"\bKABUPATEN\b", "KAB.", t)
-    t = re.sub(r"\bKOTA\s+ADM\.\b", "KOTA ADM.", t)
     if kind == "prov":
         if not t.startswith("PROVINSI "):
-            # beberapa data sudah "DKI JAKARTA" tanpa prefiks
             t = "PROVINSI " + t
     return t
 def norm_key(x) -> str:
     """
-    Key join prov/kab yang STABIL & KONSISTEN
-    Tujuan:
-    - Menghilangkan dualisme penamaan
-    - Menyamakan Kepulauan Seribu
-    - Aman untuk join DM ↔ meta populasi
     """
     if pd.isna(x):
         return ""
     t = clean_spaces(str(x)).upper()
-    # =========================
-    # NORMALISASI UMUM
-    # =========================
     t = t.replace("PROPINSI", "PROVINSI")
-    t = t.replace("KABUPATEN", "KAB.")
-    t = t.replace("KOTA ADMINISTRASI", "KOTA ADM.")
-    t = t.replace("KABUPATEN ADMINISTRASI", "KAB. ADM.")
     t = t.replace("ADMINISTRASI", "ADM.")
-    # variasi KEPULAUAN
     t = t.replace("KEP.", "KEPULAUAN")
-    t = t.replace("KEP ", "KEPULAUAN ")
-    # =========================
-    # KHUSUS: KEPULAUAN SERIBU
-    # =========================
     if "SERIBU" in t:
         t = "KAB. ADM. KEPULAUAN SERIBU"
-    # =========================
-    # FINAL KEY (JOIN ONLY)
-    # =========================
     return re.sub(r"[^A-Z0-9]", "", t)
 # =========================
 # 2) NUM COERCION (AMAN)
@@ -183,17 +208,6 @@ def sampling_factor(sample, target):
     except Exception:
         return 1.0
-def norm_kew(v):
-    if pd.isna(v):
-        return ""
-    t = clean_spaces(v).upper()
-    if any(x in t for x in ["KAB", "KOTA", "KABUPATEN", "KAB/KOTA"]):
-        return "KAB/KOTA"
-    if any(x in t for x in ["PROV", "PROP", "PROVINSI", "PROPINSI"]):
-        return "PROVINSI"
-    if "PUSAT" in t or "NASIONAL" in t:
-        return "PUSAT"
-    return t
 # =========================
 # 3) LOAD MULTISHEET DM
@@ -211,6 +225,7 @@ def load_multisheet_excel(path: str) -> tuple[pd.DataFrame, list]:
     out = pd.concat(frames, ignore_index=True, sort=False)
     return out, list(xls.sheet_names)
 # =========================
 # 4) AUTO DETECT COLUMNS (DM & META)
 # =========================
@@ -237,44 +252,42 @@ def detect_dm_cols(df: pd.DataFrame) -> dict:
     subjenis = pick_col(df, ["sub_jenis_perpus", "subjenis", "sub_jenis", "sub jenis", "sub jenis perpus"])
     nama = pick_col(df, ["nm_perpustakaan", "nama_perpustakaan", "nama perpus", "nama"])
-    # wajib minimal
-    missing = [k for k,v in {
-        "prov":prov, "kab":kab, "kew":kew, "jenis":jenis, "nama":nama
-    }.items() if v is None]
     if missing:
         raise KeyError(f"Kolom DM wajib tidak ketemu: {missing}. Cek header Excel DM kamu.")
     return {"prov":prov, "kab":kab, "kew":kew, "jenis":jenis, "subjenis":subjenis, "nama":nama}
 def detect_meta_kab(df: pd.DataFrame) -> dict:
     prov = pick_col(df, ["PROVINSI", "provinsi", "Provinsi"])
-    kab  = pick_col(df, ["KABUPATEN_KOTA", "kabupaten_kota", "KAB/KOTA", "kab/kota", "Kab/Kota"])
-    # Pop sekolah (SD+SMP) bisa beda nama
-    pop_sd_smp = pick_col(df, ["TOTAL_SD_SMP", "total_sd_smp", "JUMLAH_SD_SMP", "SD_SMP", "TOTAL_SDSMP"])
-    # Pop umum (Kec+Desa/Kel) bisa disusun dari 2 kolom juga
-    pop_kec_desa = pick_col(df, ["TOTAL_KEC_DESA", "total_kec_desa", "KEC_DESA", "TOTAL_KECAMATAN_DESA"])
-    col_kec = pick_col(df, ["JUMLAH_KECAMATAN", "jumlah_kecamatan", "KECAMATAN", "JML_KEC"])
-    col_desa = pick_col(df, ["JUMLAH_DESA_KEL", "jumlah_desa_kel", "DESA_KEL", "JML_DESA", "JUMLAH_DESA", "JUMLAH_KELURAHAN"])
     if prov is None or kab is None:
         raise KeyError("Meta Kab/Kota minimal harus punya kolom provinsi & kab/kota.")
-    return {
-        "prov": prov,
-        "kab": kab,
-        "pop_sd_smp": pop_sd_smp,
-        "pop_kec_desa": pop_kec_desa,
-        "col_kec": col_kec,
-        "col_desa": col_desa
-    }
 def detect_meta_prov(df: pd.DataFrame) -> dict:
     prov = pick_col(df, ["PROVINSI", "provinsi", "Provinsi"])
-    pop_sma = pick_col(df, ["TOTAL_SMA_SMK_SLB", "total_sma_smk_slb", "SMA_SMK_SLB", "TOTAL_SMA_SMK", "TOTAL_SMA"])
     if prov is None or pop_sma is None:
         raise KeyError("Meta Provinsi minimal harus punya kolom PROVINSI & TOTAL_SMA_SMK_SLB (atau padanan).")
     return {"prov": prov, "pop_sma": pop_sma}
 # =========================
 # 5) INDIKATOR IPLM (KANONIK) + ALIAS
 # =========================
@@ -353,8 +366,9 @@ def rename_indicators(df: pd.DataFrame) -> pd.DataFrame:
         df = df.rename(columns=rename_map)
     return df
 # =========================
-# 6) BUILD DATA (DM + META)
 # =========================
 DATA_INFO = ""
 WARNINGS = []
@@ -365,19 +379,18 @@ dm_sheets = []
 meta_kab = None
 meta_prov = None
-meta_kab_cols = None
-meta_prov_cols = None
 try:
     df_dm_raw, dm_sheets = load_multisheet_excel(DATA_FILE)
     dm_cols = detect_dm_cols(df_dm_raw)
-    # bersihkan label display
     df_dm_raw[dm_cols["prov"]] = df_dm_raw[dm_cols["prov"]].astype(str).map(lambda x: pretty_admin_name(x, "prov"))
     df_dm_raw[dm_cols["kab"]]  = df_dm_raw[dm_cols["kab"]].astype(str).map(lambda x: pretty_admin_name(x, "kab"))
     df_dm_raw["KEW_NORM"] = df_dm_raw[dm_cols["kew"]].map(norm_kew)
     df_dm_raw["prov_key"] = df_dm_raw[dm_cols["prov"]].map(norm_key)
     df_dm_raw["kab_key"]  = df_dm_raw[dm_cols["kab"]].map(norm_key)
@@ -396,9 +409,10 @@ try:
     df_dm_raw["_dataset"] = df_dm_raw[dm_cols["jenis"]].map(map_dataset)
     DATA_INFO = (
-        f"DM: **{DATA_FILE}** | Baris: **{len(df_dm_raw)}** | Kolom: **{len(df_dm_raw.columns)}** | Sheets: **{len(dm_sheets)}**<br>"
-        f"Deteksi kolom: prov=`{dm_cols['prov']}`, kab=`{dm_cols['kab']}`, kew=`{dm_cols['kew']}`, jenis=`{dm_cols['jenis']}`, "
-        f"nama=`{dm_cols['nama']}`" + (f", subjenis=`{dm_cols['subjenis']}`" if dm_cols.get("subjenis") else "")
     )
 except Exception as e:
     WARNINGS.append(f"⚠️ Gagal memuat DM: {repr(e)}")
@@ -419,23 +433,27 @@ try:
         mk["prov_key"] = mk[prov_c].map(norm_key)
         mk["kab_key"]  = mk[kab_c].map(norm_key)
-        # populasi sekolah sd+smp
         if meta_kab_cols["pop_sd_smp"]:
             mk["POP_SD_SMP"] = mk[meta_kab_cols["pop_sd_smp"]].map(coerce_num).fillna(0)
         else:
             mk["POP_SD_SMP"] = 0
-        # populasi umum kec+desa
         if meta_kab_cols["pop_kec_desa"]:
             mk["POP_KEC_DESA"] = mk[meta_kab_cols["pop_kec_desa"]].map(coerce_num).fillna(0)
         else:
-            kec = mk[meta_kab_cols["col_kec"]].map(coerce_num).fillna(0) if meta_kab_cols["col_kec"] else 0
-            desa = mk[meta_kab_cols["col_desa"]].map(coerce_num).fillna(0) if meta_kab_cols["col_desa"] else 0
-            mk["POP_KEC_DESA"] = (kec + desa) if not isinstance(kec, int) else 0
         meta_kab = (mk.groupby(["prov_key","kab_key"], as_index=False)
                       .agg({prov_c:"first", kab_c:"first", "POP_SD_SMP":"sum", "POP_KEC_DESA":"sum"}))
-        DATA_INFO += f"<br>Meta Kab/Kota: **{META_KAB_FILE}** (n={len(meta_kab)})"
     else:
         WARNINGS.append("⚠️ Meta Kab/Kota file tidak ditemukan (skip).")
 except Exception as e:
@@ -458,7 +476,7 @@ try:
         meta_prov = (mp.groupby("prov_key", as_index=False)
                        .agg({prov_c:"first", "POP_SMA_SMK_SLB":"sum"}))
-        DATA_INFO += f"<br>Meta Provinsi: **{META_PROV_FILE}** (n={len(meta_prov)})"
     else:
         WARNINGS.append("⚠️ Meta Provinsi file tidak ditemukan (skip).")
 except Exception as e:
@@ -468,6 +486,7 @@ except Exception as e:
 if WARNINGS:
     DATA_INFO += "<br>" + "<br>".join(WARNINGS)
 # =========================
 # 7) IPLM REAL (NASIONAL)
 # =========================
@@ -476,11 +495,10 @@ def prepare_global_iplm(df_src: pd.DataFrame) -> pd.DataFrame:
     df = rename_indicators(df)
     available = [c for c in all_indicators if c in df.columns]
-    # coerce numeric aman
     for c in available:
         df[c] = df[c].map(coerce_num)
-    # transform + minmax per indikator
     for c in available:
         x = df[c].astype(float).to_numpy()
         mask = ~np.isnan(x)
@@ -506,9 +524,9 @@ def prepare_global_iplm(df_src: pd.DataFrame) -> pd.DataFrame:
     p_cols = [c for c in pelayanan_cols if c in available]
     g_cols = [c for c in pengelolaan_cols if c in available]
-    df["sub_koleksi"] = df.apply(lambda r: mean_norm(r, k_cols), axis=1)
-    df["sub_sdm"] = df.apply(lambda r: mean_norm(r, s_cols), axis=1)
-    df["sub_pelayanan"] = df.apply(lambda r: mean_norm(r, p_cols), axis=1)
     df["sub_pengelolaan"] = df.apply(lambda r: mean_norm(r, g_cols), axis=1)
     df["dim_kepatuhan"] = df[["sub_koleksi","sub_sdm"]].mean(axis=1, skipna=True).fillna(0.0)
@@ -521,11 +539,11 @@ df_iplm = None
 if df_dm_raw is not None and len(df_dm_raw) > 0:
     df_iplm = prepare_global_iplm(df_dm_raw)
 # =========================
 # 8) SAMPLING FACTOR (68%)
 # =========================
 def detect_school_menengah(df: pd.DataFrame) -> pd.Series:
-    # SMA/SMK/SLB dari subjenis atau jenis
     if dm_cols.get("subjenis") and dm_cols["subjenis"] in df.columns:
         t = df[dm_cols["subjenis"]].astype(str).str.upper()
     else:
@@ -536,7 +554,7 @@ def apply_sampling_factor(df: pd.DataFrame) -> pd.DataFrame:
     out = df.copy()
     out["SamplingFactor_Total"] = 1.0
-    # KAB/KOTA: sekolah=SD+SMP (POP_SD_SMP); umum=KEC+DESA (POP_KEC_DESA)
     if meta_kab is not None and len(meta_kab) > 0:
         kab_part = out[out["KEW_NORM"] == "KAB/KOTA"].copy()
         if not kab_part.empty:
@@ -548,6 +566,7 @@ def apply_sampling_factor(df: pd.DataFrame) -> pd.DataFrame:
             merged = g.merge(meta_kab[["prov_key","kab_key","POP_SD_SMP","POP_KEC_DESA"]],
                              on=["prov_key","kab_key"], how="left")
             merged["POP_SD_SMP"] = pd.to_numeric(merged["POP_SD_SMP"], errors="coerce").fillna(0)
             merged["POP_KEC_DESA"] = pd.to_numeric(merged["POP_KEC_DESA"], errors="coerce").fillna(0)
@@ -590,11 +609,11 @@ def apply_sampling_factor(df: pd.DataFrame) -> pd.DataFrame:
 if df_iplm is not None and len(df_iplm) > 0:
     df_iplm = apply_sampling_factor(df_iplm)
 # =========================
 # 9) CHOICES (DEDUP RAPi)
 # =========================
 def build_prov_choice_map(df: pd.DataFrame) -> dict:
-    # prov_key -> label yang paling sering muncul (biar stabil)
     tmp = df[[dm_cols["prov"], "prov_key"]].dropna()
     tmp = tmp[tmp["prov_key"] != ""]
     by = tmp.groupby("prov_key")[dm_cols["prov"]].agg(lambda s: Counter(s).most_common(1)[0][0])
@@ -618,7 +637,7 @@ def kew_choices(df: pd.DataFrame):
     vals = [v for v in vals if v]
     return ["(Semua)"] + vals
-PROV_CHOICES, PROV_KEYMAP = (["(Semua)"], {}) if df_dm_raw is None else prov_choices(df_dm_raw)
 KEW_CHOICES = ["(Semua)"] if df_dm_raw is None else kew_choices(df_dm_raw)
 DEFAULT_KEW = "KAB/KOTA" if "KAB/KOTA" in KEW_CHOICES else (KEW_CHOICES[0] if KEW_CHOICES else "(Semua)")
 KAB_CHOICES = ["(Semua)"] if df_dm_raw is None else kab_choices_for_prov(df_dm_raw, "(Semua)")
@@ -635,8 +654,9 @@ def on_kew_change(kew_value, prov_value):
     ch = kab_choices_for_prov(df_dm_raw, prov_value)
     return gr.update(choices=ch, value="(Semua)", interactive=True)
 # =========================
-# 10) BUILD TABLES (FINAL & REAL)
 # =========================
 LABEL_DATASET = {"sekolah":"Perpustakaan Sekolah","umum":"Perpustakaan Umum","khusus":"Perpustakaan Khusus"}
@@ -703,19 +723,39 @@ def agg_real_by_jenis(df):
     return pd.DataFrame(rows).round(3)
 def detail_real(df):
-    # tampilkan dimensi + subindeks + indikator raw yang tersedia (tanpa norm_ biar tidak kebanyakan)
     base = [dm_cols["prov"], dm_cols["kab"], dm_cols["nama"], dm_cols["jenis"]]
     if dm_cols.get("subjenis") and dm_cols["subjenis"] in df.columns:
         base.append(dm_cols["subjenis"])
     base += ["KEW_NORM","_dataset","sub_koleksi","sub_sdm","sub_pelayanan","sub_pengelolaan","dim_kepatuhan","dim_kinerja","Indeks_Real_0_100"]
     available_ind = [c for c in all_indicators if c in df.columns]
-    cols = base + available_ind
-    cols = [c for c in cols if c in df.columns]
     return df[cols].copy().round(3)
 # =========================
-# 11) COVERAGE + BAR (pop vs sampel)
 # =========================
 def coverage_table_and_bar(df_subset, kew_value):
     kew = str(kew_value).upper()
     tbl = pd.DataFrame()
@@ -732,6 +772,7 @@ def coverage_table_and_bar(df_subset, kew_value):
         keys = df_subset[["prov_key","kab_key"]].dropna().drop_duplicates()
         merged = keys.merge(meta_kab[["prov_key","kab_key","POP_SD_SMP","POP_KEC_DESA"]],
                             on=["prov_key","kab_key"], how="left")
         pop_sek = int(pd.to_numeric(merged["POP_SD_SMP"], errors="coerce").fillna(0).sum())
         pop_um  = int(pd.to_numeric(merged["POP_KEC_DESA"], errors="coerce").fillna(0).sum())
@@ -772,6 +813,7 @@ def coverage_table_and_bar(df_subset, kew_value):
     return tbl, fig
 # =========================
 # 12) BELL CURVE (per jenis)
 # =========================
@@ -796,23 +838,20 @@ def bell_curve_fig(df, score_col: str, title: str, name_col: str | None = None):
     q2 = float(x.quantile(0.50))
     q3 = float(x.quantile(0.75))
-    # bell curve line
     fig.add_trace(go.Scatter(x=xs, y=pdf, mode="lines", name="Bell curve"))
-    # rug points
     y0 = np.zeros(len(x))
     hover = None
     if name_col and name_col in df.columns:
-        dd = df.loc[x.index, name_col].astype(str).tolist()
-        hover = dd
     fig.add_trace(go.Scatter(
         x=x, y=y0, mode="markers", name="Perpustakaan",
         marker=dict(size=6),
-        text=hover, hovertemplate="%{text}<br>Indeks: %{x:.2f}<extra></extra>" if hover else "Indeks: %{x:.2f}<extra></extra>"
     ))
-    # quantile lines
     fig.add_vline(x=q1, line_width=2, line_dash="solid", annotation_text=f"Q1<br>{q1:.1f}", annotation_position="top")
     fig.add_vline(x=q2, line_width=2, line_dash="solid", annotation_text=f"Q2 (Median)<br>{q2:.1f}", annotation_position="top")
     fig.add_vline(x=q3, line_width=2, line_dash="solid", annotation_text=f"Q3<br>{q3:.1f}", annotation_position="top")
@@ -826,12 +865,12 @@ def bell_curve_fig(df, score_col: str, title: str, name_col: str | None = None):
     )
     return fig
 # =========================
-# 13) LLM ANALYSIS (opsional) + fallback template
 # =========================
 def llm_analysis_text(df_subset: pd.DataFrame, cov_tbl: pd.DataFrame, scope_label: str, kew: str,
                       use_llm: bool, hf_model: str):
-    # fallback narrative (selalu ada)
     mean_final = float(df_subset["Indeks_Final_0_100"].mean(skipna=True)) if len(df_subset) else 0.0
     mean_real  = float(df_subset["Indeks_Real_0_100"].mean(skipna=True)) if len(df_subset) else 0.0
     mean_sf    = float(df_subset["SamplingFactor_Total"].mean(skipna=True)) if len(df_subset) else 1.0
@@ -843,7 +882,6 @@ def llm_analysis_text(df_subset: pd.DataFrame, cov_tbl: pd.DataFrame, scope_labe
     lines.append(f"- Rata-rata **SamplingFactor (target 68%)**: {mean_sf:.3f}")
     if cov_tbl is not None and not cov_tbl.empty:
-        # cari gap terbesar
         cov_tbl2 = cov_tbl.copy()
         cov_tbl2["Gap_ke_68%"] = pd.to_numeric(cov_tbl2["Gap_ke_68%"], errors="coerce").fillna(0)
         top = cov_tbl2.sort_values("Gap_ke_68%", ascending=False).head(1)
@@ -851,7 +889,6 @@ def llm_analysis_text(df_subset: pd.DataFrame, cov_tbl: pd.DataFrame, scope_labe
             r = top.iloc[0].to_dict()
             lines.append(f"- Kesenjangan keterwakilan terbesar: **{r.get('Jenis')}** (Gap ke 68% = **{int(r.get('Gap_ke_68%',0))}** unit).")
-    # kalau user ingin pakai HF Inference (optional)
     if use_llm:
         try:
             from huggingface_hub import InferenceClient
@@ -880,14 +917,14 @@ def llm_analysis_text(df_subset: pd.DataFrame, cov_tbl: pd.DataFrame, scope_labe
             lines.append(f"\n⚠️ LLM call gagal ({repr(e)}). Pakai analisis template.")
             return "\n".join(lines)
-    # template rekomendasi singkat
     lines.append("\n**Implikasi kebijakan (template cepat):**")
-    lines.append("- SamplingFactor < 1 menandakan keterwakilan belum mencapai target 68% → interpretasi indeks perlu disertai catatan kualitas/coverage data.")
     lines.append("- Prioritaskan percepatan pengisian pada jenis dengan gap terbesar, dan lakukan validasi minimal (kelengkapan indikator kunci) sebelum agregasi.")
     return "\n".join(lines)
 # =========================
-# 14) WORD REPORT (docx)
 # =========================
 HAS_DOCX = True
 try:
@@ -934,13 +971,11 @@ def generate_word_report(scope_label, kew, agg_overall, agg_final, agg_real, cov
     doc.add_heading("5) Grafik", level=2)
     tmpdir = tempfile.mkdtemp()
-    # bar
     p = os.path.join(tmpdir, "bar.png")
     if bar_fig is not None and try_plotly_png(bar_fig, p) and Path(p).exists():
         doc.add_paragraph("Grafik BAR — Populasi vs Sampel")
         doc.add_picture(p, width=Inches(6.5))
-    # bell curves
     for title, fig in [
         ("Sebaran Indeks (RealScore) — Semua", bell_all),
         ("Sebaran Indeks (RealScore) — Perpustakaan Sekolah", bell_sek),
@@ -959,6 +994,7 @@ def generate_word_report(scope_label, kew, agg_overall, agg_final, agg_real, cov
     doc.save(outpath)
     return outpath
 # =========================
 # 15) RUN CORE (FILTER + OUTPUT)
 # =========================
@@ -967,7 +1003,7 @@ def run_app(prov_value, kab_value, kew_value, use_llm, hf_model):
     empty_fig = go.Figure()
     if df_iplm is None or df_iplm.empty:
-        return (empty, empty, empty, empty, empty, empty, empty_fig, empty_fig, empty_fig, empty_fig, empty,
                 None, None, None, "⚠️ Data belum siap (DM gagal dimuat / kosong).")
     prov_value = prov_value or "(Semua)"
@@ -975,7 +1011,6 @@ def run_app(prov_value, kab_value, kew_value, use_llm, hf_model):
     kew_value  = kew_value or "(Semua)"
     kew_norm   = str(kew_value).upper()
-    # PROVINSI: kab disabled
     if kew_norm == "PROVINSI":
         kab_value = "(Semua)"
@@ -989,10 +1024,10 @@ def run_app(prov_value, kab_value, kew_value, use_llm, hf_model):
         df = df[df["KEW_NORM"] == kew_norm]
     if df.empty:
-        return (empty, empty, empty, empty, empty, empty, empty_fig, empty_fig, empty_fig, empty_fig, empty,
                 None, None, None, "Tidak ada data untuk filter ini.")
-    # OUTPUT TABLES
     t1 = agg_final_overall(df)
     t2 = agg_final_by_jenis(df)
     t3 = detail_final(df)
@@ -1001,14 +1036,15 @@ def run_app(prov_value, kab_value, kew_value, use_llm, hf_model):
     # COVERAGE + BAR
     cov_tbl, bar_fig = coverage_table_and_bar(df, kew_norm)
-    # BELL CURVE (RealScore) per jenis
     bell_all = bell_curve_fig(df, "Indeks_Real_0_100", "Sebaran Indeks RealScore — Semua", dm_cols["nama"])
     bell_sek = bell_curve_fig(df[df["_dataset"]=="sekolah"], "Indeks_Real_0_100", "Sebaran Indeks RealScore — Perpustakaan Sekolah", dm_cols["nama"])
     bell_um  = bell_curve_fig(df[df["_dataset"]=="umum"], "Indeks_Real_0_100", "Sebaran Indeks RealScore — Perpustakaan Umum", dm_cols["nama"])
     bell_kh  = bell_curve_fig(df[df["_dataset"]=="khusus"], "Indeks_Real_0_100", "Sebaran Indeks RealScore — Perpustakaan Khusus", dm_cols["nama"])
-    # NARASI (LLM optional)
     scope_label = kab_value if (kab_value != "(Semua)" and kew_norm != "PROVINSI") else prov_value
     if scope_label == "(Semua)":
         scope_label = "NASIONAL"
@@ -1016,8 +1052,6 @@ def run_app(prov_value, kab_value, kew_value, use_llm, hf_model):
     # SAVE FILES
     tmpdir = tempfile.mkdtemp()
-    # excel outputs
     f_final_agg = os.path.join(tmpdir, "IPLM2025_Agregat_FINAL.xlsx")
     f_final_det = os.path.join(tmpdir, "IPLM2025_Detail_FINAL.xlsx")
     f_real_agg  = os.path.join(tmpdir, "IPLM2025_Agregat_Real_SubindeksDimensi.xlsx")
@@ -1028,7 +1062,6 @@ def run_app(prov_value, kab_value, kew_value, use_llm, hf_model):
     t4.to_excel(f_real_agg, index=False)
     t5.to_excel(f_real_det, index=False)
-    # word report
     word_path = generate_word_report(
         scope_label, kew_norm, t1, t2, t4, cov_tbl, bar_fig,
         bell_all, bell_sek, bell_um, bell_kh,
@@ -1036,8 +1069,9 @@ def run_app(prov_value, kab_value, kew_value, use_llm, hf_model):
     )
     msg = f"✅ OK | n={len(df)} | Mean Final={float(df['Indeks_Final_0_100'].mean()):.2f} | Mean SamplingFactor={float(df['SamplingFactor_Total'].mean()):.3f}"
-    return (t1, t2, t3, t4, t5, cov_tbl, bar_fig, bell_all, bell_sek, bell_um, bell_kh,
-            f_final_agg, f_final_det, word_path, msg)
 # =========================
 # 16) UI
@@ -1046,8 +1080,7 @@ with gr.Blocks() as demo:
     gr.Markdown(f"""
 # IPLM 2025 — Real × SamplingFactor 68% (FINAL)
-**Final**: `Indeks_Final_0_100 = Indeks_Real_0_100 × SamplingFactor_Total`
 {DATA_INFO}
 """)
@@ -1082,7 +1115,7 @@ with gr.Blocks() as demo:
     out_det_real = gr.DataFrame(interactive=False)
     gr.Markdown("## 6) Coverage Populasi vs Sampel (Target 68%)")
-    out_cov_tbl = gr.DataFrame(interactive=False)
     gr.Markdown("## Grafik BAR — Populasi vs Sampel")
     out_bar = gr.Plot()
@@ -1105,16 +1138,18 @@ with gr.Blocks() as demo:
     with gr.Row():
         f1 = gr.File(label="Download Agregat FINAL (.xlsx)")
         f2 = gr.File(label="Download Detail FINAL (.xlsx)")
-        f3 = gr.File(label="Download Laporan Word (.docx)")
     run_btn.click(
         fn=run_app,
         inputs=[dd_prov, dd_kab, dd_kew, use_llm, hf_model],
         outputs=[
             out_agg_overall, out_agg_final, out_det_final,
-            out_agg_real, out_det_real, out_cov_tbl,
             out_bar, out_bell_all, out_bell_sek, out_bell_um, out_bell_kh,
             f1, f2, f3,
             msg_out
         ],
     )

 # -*- coding: utf-8 -*-
 """
 app.py — IPLM 2025 (STABLE, COPY-PASTE, HF Spaces)
+✅ IPLM Real:
+   - Rename indikator (alias -> kanonik)
+   - Yeo-Johnson per indikator + MinMax nasional (sekali)
+   - Subindeks (koleksi/sdm/pelayanan/pengelolaan)
+   - Dimensi (kepatuhan/kinerja)
+   - Indeks_Real_0_100
+✅ FINAL:
+   Indeks_Final_0_100 = Indeks_Real_0_100 × SamplingFactor_Total (Target 68%)
+✅ UI:
+   - Dropdown Provinsi / Kab-Kota / Kewenangan (Kab/Kota disable kalau PROVINSI)
+   - Label rapi (tidak jadi PROVINSIACEH)
+   - Provinsi/Kab key join stabil (Kep Seribu beres)
+   - Output lengkap:
+     1) Indeks Agregat (FINAL)
+     2) Agregat (FINAL) per Jenis
+     3) Detail (FINAL) per Unit
+     4) Agregat (RealScore) per Jenis (Subindeks & Dimensi)
+     5) Detail (RealScore) per Unit (Subindeks & Dimensi + Indikator raw)
+     6) Coverage Populasi vs Sampel (Target 68%) + BAR chart (dibuat TERBACA via HTML)
+     7) Bell curve per Jenis (RealScore) — seperti contoh kamu
+     8) Analisis (LLM opsional) + Word report opsional
+Catatan penting untuk kasus Kep. Seribu:
+- Coverage sekolah (SD+SMP) = 0 biasanya karena:
+  (a) kolom SD+SMP di meta kab/kota tidak terdeteksi, ATAU
+  (b) baris Kep Seribu tidak ada di meta, ATAU
+  (c) key join kab/kota tidak match.
+Kode ini memperkeras normalisasi & deteksi kolom meta.
 """
 import os
 from sklearn.preprocessing import PowerTransformer
 # =========================
+# 0) FILES (SESUAIKAN)
 # =========================
 DATA_FILE       = "IPLM_clean_manual_131225.xlsx"
 META_KAB_FILE   = "Data_populasi_Kab_kota.xlsx"
 W_KEPATUHAN = 0.30
 W_KINERJA   = 0.70
 # =========================
+# 1) UTIL — string & kolom
 # =========================
 def make_unique_columns(cols):
     """Hindari kolom duplikat agar df['X'] tidak menjadi DataFrame."""
 def pretty_admin_name(s: str, kind: str = "prov") -> str:
     """
+    Display label manusiawi untuk dropdown.
     - PROVINSI JAWA BARAT
     - KOTA SURABAYA / KAB. BANDUNG
+    - KAB. ADM. KEPULAUAN SERIBU (tetap kebaca)
     """
     t = clean_spaces(str(s)).upper()
     t = t.replace("PROPINSI", "PROVINSI")
     t = re.sub(r"\bKABUPATEN\b", "KAB.", t)
+    t = re.sub(r"\bKOTA\s+ADMINISTRASI\b", "KOTA ADM.", t)
+    t = re.sub(r"\bKABUPATEN\s+ADMINISTRASI\b", "KAB. ADM.", t)
+    t = t.replace("ADMINISTRASI", "ADM.")
+    # rapikan spasi titik
+    t = re.sub(r"\s+\.", ".", t)
+    t = re.sub(r"\.\s+", ". ", t)
     if kind == "prov":
+        # jika belum ada prefiks PROVINSI, tambahkan
         if not t.startswith("PROVINSI "):
             t = "PROVINSI " + t
     return t
 def norm_key(x) -> str:
     """
+    Key join prov/kab:
+    distabilkan supaya:
+    KEP. SERIBU == KEPULAUAN SERIBU == KAB. ADM. KEPULAUAN SERIBU
     """
     if pd.isna(x):
         return ""
     t = clean_spaces(str(x)).upper()
+    # normalisasi umum
     t = t.replace("PROPINSI", "PROVINSI")
+    t = re.sub(r"\bKABUPATEN\b", "KAB.", t)
+    t = re.sub(r"\bKOTA\s+ADMINISTRASI\b", "KOTA ADM.", t)
+    t = re.sub(r"\bKABUPATEN\s+ADMINISTRASI\b", "KAB. ADM.", t)
     t = t.replace("ADMINISTRASI", "ADM.")
     t = t.replace("KEP.", "KEPULAUAN")
+    t = re.sub(r"\bKEP\b", "KEPULAUAN", t)
+    # khusus Kepulauan Seribu
     if "SERIBU" in t:
         t = "KAB. ADM. KEPULAUAN SERIBU"
+    # buang non alnum utk key
     return re.sub(r"[^A-Z0-9]", "", t)
+def norm_kew(v):
+    if pd.isna(v):
+        return ""
+    t = clean_spaces(v).upper()
+    if any(x in t for x in ["KAB", "KOTA", "KABUPATEN", "KAB/KOTA"]):
+        return "KAB/KOTA"
+    if any(x in t for x in ["PROV", "PROP", "PROVINSI", "PROPINSI"]):
+        return "PROVINSI"
+    if "PUSAT" in t or "NASIONAL" in t:
+        return "PUSAT"
+    return t
 # =========================
 # 2) NUM COERCION (AMAN)
     except Exception:
         return 1.0
 # =========================
 # 3) LOAD MULTISHEET DM
     out = pd.concat(frames, ignore_index=True, sort=False)
     return out, list(xls.sheet_names)
 # =========================
 # 4) AUTO DETECT COLUMNS (DM & META)
 # =========================
     subjenis = pick_col(df, ["sub_jenis_perpus", "subjenis", "sub_jenis", "sub jenis", "sub jenis perpus"])
     nama = pick_col(df, ["nm_perpustakaan", "nama_perpustakaan", "nama perpus", "nama"])
+    missing = [k for k,v in {"prov":prov, "kab":kab, "kew":kew, "jenis":jenis, "nama":nama}.items() if v is None]
     if missing:
         raise KeyError(f"Kolom DM wajib tidak ketemu: {missing}. Cek header Excel DM kamu.")
     return {"prov":prov, "kab":kab, "kew":kew, "jenis":jenis, "subjenis":subjenis, "nama":nama}
 def detect_meta_kab(df: pd.DataFrame) -> dict:
     prov = pick_col(df, ["PROVINSI", "provinsi", "Provinsi"])
+    kab  = pick_col(df, ["KABUPATEN_KOTA", "kabupaten_kota", "KAB/KOTA", "kab/kota", "Kab/Kota", "KABKOTA", "KAB_KOTA"])
+    # 🔥 kandidat lebih luas (biar SD+SMP ketemu)
+    pop_sd_smp = pick_col(df, [
+        "TOTAL_SD_SMP", "total_sd_smp", "JUMLAH_SD_SMP", "SD_SMP", "TOTAL_SDSMP",
+        "SD+SMP", "SD SMP", "TOTAL SD SMP", "JML SD SMP", "JUMLAH SD SMP"
+    ])
+    pop_kec_desa = pick_col(df, [
+        "TOTAL_KEC_DESA", "total_kec_desa", "KEC_DESA", "TOTAL_KECAMATAN_DESA",
+        "KECAMATAN+DESA", "KEC+DESA", "KEC DESA", "TOTAL KEC DESA"
+    ])
+    col_kec  = pick_col(df, ["JUMLAH_KECAMATAN", "jumlah_kecamatan", "KECAMATAN", "JML_KEC", "JML KEC"])
+    col_desa = pick_col(df, ["JUMLAH_DESA_KEL", "jumlah_desa_kel", "DESA_KEL", "JML_DESA", "JUMLAH_DESA", "JUMLAH_KELURAHAN", "JML DESA", "JML KEL"])
     if prov is None or kab is None:
         raise KeyError("Meta Kab/Kota minimal harus punya kolom provinsi & kab/kota.")
+    return {"prov": prov, "kab": kab, "pop_sd_smp": pop_sd_smp, "pop_kec_desa": pop_kec_desa, "col_kec": col_kec, "col_desa": col_desa}
 def detect_meta_prov(df: pd.DataFrame) -> dict:
     prov = pick_col(df, ["PROVINSI", "provinsi", "Provinsi"])
+    pop_sma = pick_col(df, ["TOTAL_SMA_SMK_SLB", "total_sma_smk_slb", "SMA_SMK_SLB", "TOTAL_SMA_SMK", "TOTAL_SMA", "SMA+SMK+SLB"])
     if prov is None or pop_sma is None:
         raise KeyError("Meta Provinsi minimal harus punya kolom PROVINSI & TOTAL_SMA_SMK_SLB (atau padanan).")
     return {"prov": prov, "pop_sma": pop_sma}
 # =========================
 # 5) INDIKATOR IPLM (KANONIK) + ALIAS
 # =========================
         df = df.rename(columns=rename_map)
     return df
 # =========================
+# 6) LOAD DATA (DM + META)
 # =========================
 DATA_INFO = ""
 WARNINGS = []
 meta_kab = None
 meta_prov = None
 try:
     df_dm_raw, dm_sheets = load_multisheet_excel(DATA_FILE)
     dm_cols = detect_dm_cols(df_dm_raw)
+    # display label rapi
     df_dm_raw[dm_cols["prov"]] = df_dm_raw[dm_cols["prov"]].astype(str).map(lambda x: pretty_admin_name(x, "prov"))
     df_dm_raw[dm_cols["kab"]]  = df_dm_raw[dm_cols["kab"]].astype(str).map(lambda x: pretty_admin_name(x, "kab"))
     df_dm_raw["KEW_NORM"] = df_dm_raw[dm_cols["kew"]].map(norm_kew)
+    # key join stabil
     df_dm_raw["prov_key"] = df_dm_raw[dm_cols["prov"]].map(norm_key)
     df_dm_raw["kab_key"]  = df_dm_raw[dm_cols["kab"]].map(norm_key)
     df_dm_raw["_dataset"] = df_dm_raw[dm_cols["jenis"]].map(map_dataset)
     DATA_INFO = (
+        f"DM: <b>{DATA_FILE}</b> | Baris: <b>{len(df_dm_raw)}</b> | Kolom: <b>{len(df_dm_raw.columns)}</b> | Sheets: <b>{len(dm_sheets)}</b><br>"
+        f"Deteksi kolom: prov=<code>{dm_cols['prov']}</code>, kab=<code>{dm_cols['kab']}</code>, kew=<code>{dm_cols['kew']}</code>, "
+        f"jenis=<code>{dm_cols['jenis']}</code>, nama=<code>{dm_cols['nama']}</code>"
+        + (f", subjenis=<code>{dm_cols['subjenis']}</code>" if dm_cols.get("subjenis") else "")
     )
 except Exception as e:
     WARNINGS.append(f"⚠️ Gagal memuat DM: {repr(e)}")
         mk["prov_key"] = mk[prov_c].map(norm_key)
         mk["kab_key"]  = mk[kab_c].map(norm_key)
+        # POP_SD_SMP
         if meta_kab_cols["pop_sd_smp"]:
             mk["POP_SD_SMP"] = mk[meta_kab_cols["pop_sd_smp"]].map(coerce_num).fillna(0)
         else:
             mk["POP_SD_SMP"] = 0
+        # POP_KEC_DESA
         if meta_kab_cols["pop_kec_desa"]:
             mk["POP_KEC_DESA"] = mk[meta_kab_cols["pop_kec_desa"]].map(coerce_num).fillna(0)
         else:
+            kec = mk[meta_kab_cols["col_kec"]].map(coerce_num).fillna(0) if meta_kab_cols["col_kec"] else pd.Series(0, index=mk.index)
+            desa = mk[meta_kab_cols["col_desa"]].map(coerce_num).fillna(0) if meta_kab_cols["col_desa"] else pd.Series(0, index=mk.index)
+            mk["POP_KEC_DESA"] = (kec + desa).fillna(0)
         meta_kab = (mk.groupby(["prov_key","kab_key"], as_index=False)
                       .agg({prov_c:"first", kab_c:"first", "POP_SD_SMP":"sum", "POP_KEC_DESA":"sum"}))
+        # DEBUG SERIBU (biar kamu langsung lihat ada/tidak)
+        ser = meta_kab[meta_kab["kab_key"].str.contains("SERIBU", na=False)]
+        DATA_INFO += f"<br>Meta Kab/Kota: <b>{META_KAB_FILE}</b> (n={len(meta_kab)})"
+        DATA_INFO += f"<br><b>DEBUG Kep Seribu meta rows:</b> {len(ser)}"
     else:
         WARNINGS.append("⚠️ Meta Kab/Kota file tidak ditemukan (skip).")
 except Exception as e:
         meta_prov = (mp.groupby("prov_key", as_index=False)
                        .agg({prov_c:"first", "POP_SMA_SMK_SLB":"sum"}))
+        DATA_INFO += f"<br>Meta Provinsi: <b>{META_PROV_FILE}</b> (n={len(meta_prov)})"
     else:
         WARNINGS.append("⚠️ Meta Provinsi file tidak ditemukan (skip).")
 except Exception as e:
 if WARNINGS:
     DATA_INFO += "<br>" + "<br>".join(WARNINGS)
 # =========================
 # 7) IPLM REAL (NASIONAL)
 # =========================
     df = rename_indicators(df)
     available = [c for c in all_indicators if c in df.columns]
     for c in available:
         df[c] = df[c].map(coerce_num)
+    # YJ + minmax
     for c in available:
         x = df[c].astype(float).to_numpy()
         mask = ~np.isnan(x)
     p_cols = [c for c in pelayanan_cols if c in available]
     g_cols = [c for c in pengelolaan_cols if c in available]
+    df["sub_koleksi"]     = df.apply(lambda r: mean_norm(r, k_cols), axis=1)
+    df["sub_sdm"]         = df.apply(lambda r: mean_norm(r, s_cols), axis=1)
+    df["sub_pelayanan"]   = df.apply(lambda r: mean_norm(r, p_cols), axis=1)
     df["sub_pengelolaan"] = df.apply(lambda r: mean_norm(r, g_cols), axis=1)
     df["dim_kepatuhan"] = df[["sub_koleksi","sub_sdm"]].mean(axis=1, skipna=True).fillna(0.0)
 if df_dm_raw is not None and len(df_dm_raw) > 0:
     df_iplm = prepare_global_iplm(df_dm_raw)
 # =========================
 # 8) SAMPLING FACTOR (68%)
 # =========================
 def detect_school_menengah(df: pd.DataFrame) -> pd.Series:
     if dm_cols.get("subjenis") and dm_cols["subjenis"] in df.columns:
         t = df[dm_cols["subjenis"]].astype(str).str.upper()
     else:
     out = df.copy()
     out["SamplingFactor_Total"] = 1.0
+    # KAB/KOTA: sekolah=SD+SMP; umum=KEC+DESA
     if meta_kab is not None and len(meta_kab) > 0:
         kab_part = out[out["KEW_NORM"] == "KAB/KOTA"].copy()
         if not kab_part.empty:
             merged = g.merge(meta_kab[["prov_key","kab_key","POP_SD_SMP","POP_KEC_DESA"]],
                              on=["prov_key","kab_key"], how="left")
             merged["POP_SD_SMP"] = pd.to_numeric(merged["POP_SD_SMP"], errors="coerce").fillna(0)
             merged["POP_KEC_DESA"] = pd.to_numeric(merged["POP_KEC_DESA"], errors="coerce").fillna(0)
 if df_iplm is not None and len(df_iplm) > 0:
     df_iplm = apply_sampling_factor(df_iplm)
 # =========================
 # 9) CHOICES (DEDUP RAPi)
 # =========================
 def build_prov_choice_map(df: pd.DataFrame) -> dict:
     tmp = df[[dm_cols["prov"], "prov_key"]].dropna()
     tmp = tmp[tmp["prov_key"] != ""]
     by = tmp.groupby("prov_key")[dm_cols["prov"]].agg(lambda s: Counter(s).most_common(1)[0][0])
     vals = [v for v in vals if v]
     return ["(Semua)"] + vals
+PROV_CHOICES, _ = (["(Semua)"], {}) if df_dm_raw is None else prov_choices(df_dm_raw)
 KEW_CHOICES = ["(Semua)"] if df_dm_raw is None else kew_choices(df_dm_raw)
 DEFAULT_KEW = "KAB/KOTA" if "KAB/KOTA" in KEW_CHOICES else (KEW_CHOICES[0] if KEW_CHOICES else "(Semua)")
 KAB_CHOICES = ["(Semua)"] if df_dm_raw is None else kab_choices_for_prov(df_dm_raw, "(Semua)")
     ch = kab_choices_for_prov(df_dm_raw, prov_value)
     return gr.update(choices=ch, value="(Semua)", interactive=True)
 # =========================
+# 10) TABLE BUILDERS (FINAL & REAL)
 # =========================
 LABEL_DATASET = {"sekolah":"Perpustakaan Sekolah","umum":"Perpustakaan Umum","khusus":"Perpustakaan Khusus"}
     return pd.DataFrame(rows).round(3)
 def detail_real(df):
     base = [dm_cols["prov"], dm_cols["kab"], dm_cols["nama"], dm_cols["jenis"]]
     if dm_cols.get("subjenis") and dm_cols["subjenis"] in df.columns:
         base.append(dm_cols["subjenis"])
     base += ["KEW_NORM","_dataset","sub_koleksi","sub_sdm","sub_pelayanan","sub_pengelolaan","dim_kepatuhan","dim_kinerja","Indeks_Real_0_100"]
     available_ind = [c for c in all_indicators if c in df.columns]
+    cols = [c for c in (base + available_ind) if c in df.columns]
     return df[cols].copy().round(3)
 # =========================
+# 11) COVERAGE (TERBACA) + BAR
 # =========================
+def df_to_html_big(df: pd.DataFrame, title: str = "") -> str:
+    if df is None or df.empty:
+        return f"<div style='font-size:16px;'><b>{title}</b><br>(Tidak ada data)</div>"
+    d = df.copy()
+    for c in d.columns:
+        if c == "Jenis":
+            continue
+        d[c] = pd.to_numeric(d[c], errors="coerce")
+        if pd.api.types.is_numeric_dtype(d[c]):
+            d[c] = d[c].fillna(0).map(lambda x: f"{int(x):,}".replace(",", "."))
+    html = d.to_html(index=False, escape=False)
+    return f"""
+    <div style="font-size:16px; line-height:1.35;">
+      <div style="font-size:18px; font-weight:700; margin-bottom:8px;">{title}</div>
+      <div style="overflow-x:auto; border:1px solid #333; border-radius:10px; padding:8px;">
+        {html}
+      </div>
+    </div>
+    """
 def coverage_table_and_bar(df_subset, kew_value):
     kew = str(kew_value).upper()
     tbl = pd.DataFrame()
         keys = df_subset[["prov_key","kab_key"]].dropna().drop_duplicates()
         merged = keys.merge(meta_kab[["prov_key","kab_key","POP_SD_SMP","POP_KEC_DESA"]],
                             on=["prov_key","kab_key"], how="left")
         pop_sek = int(pd.to_numeric(merged["POP_SD_SMP"], errors="coerce").fillna(0).sum())
         pop_um  = int(pd.to_numeric(merged["POP_KEC_DESA"], errors="coerce").fillna(0).sum())
     return tbl, fig
 # =========================
 # 12) BELL CURVE (per jenis)
 # =========================
     q2 = float(x.quantile(0.50))
     q3 = float(x.quantile(0.75))
     fig.add_trace(go.Scatter(x=xs, y=pdf, mode="lines", name="Bell curve"))
     y0 = np.zeros(len(x))
     hover = None
     if name_col and name_col in df.columns:
+        hover = df.loc[x.index, name_col].astype(str).tolist()
     fig.add_trace(go.Scatter(
         x=x, y=y0, mode="markers", name="Perpustakaan",
         marker=dict(size=6),
+        text=hover,
+        hovertemplate="%{text}<br>Indeks: %{x:.2f}<extra></extra>" if hover else "Indeks: %{x:.2f}<extra></extra>"
     ))
     fig.add_vline(x=q1, line_width=2, line_dash="solid", annotation_text=f"Q1<br>{q1:.1f}", annotation_position="top")
     fig.add_vline(x=q2, line_width=2, line_dash="solid", annotation_text=f"Q2 (Median)<br>{q2:.1f}", annotation_position="top")
     fig.add_vline(x=q3, line_width=2, line_dash="solid", annotation_text=f"Q3<br>{q3:.1f}", annotation_position="top")
     )
     return fig
 # =========================
+# 13) ANALISIS (LLM opsional)
 # =========================
 def llm_analysis_text(df_subset: pd.DataFrame, cov_tbl: pd.DataFrame, scope_label: str, kew: str,
                       use_llm: bool, hf_model: str):
     mean_final = float(df_subset["Indeks_Final_0_100"].mean(skipna=True)) if len(df_subset) else 0.0
     mean_real  = float(df_subset["Indeks_Real_0_100"].mean(skipna=True)) if len(df_subset) else 0.0
     mean_sf    = float(df_subset["SamplingFactor_Total"].mean(skipna=True)) if len(df_subset) else 1.0
     lines.append(f"- Rata-rata **SamplingFactor (target 68%)**: {mean_sf:.3f}")
     if cov_tbl is not None and not cov_tbl.empty:
         cov_tbl2 = cov_tbl.copy()
         cov_tbl2["Gap_ke_68%"] = pd.to_numeric(cov_tbl2["Gap_ke_68%"], errors="coerce").fillna(0)
         top = cov_tbl2.sort_values("Gap_ke_68%", ascending=False).head(1)
             r = top.iloc[0].to_dict()
             lines.append(f"- Kesenjangan keterwakilan terbesar: **{r.get('Jenis')}** (Gap ke 68% = **{int(r.get('Gap_ke_68%',0))}** unit).")
     if use_llm:
         try:
             from huggingface_hub import InferenceClient
             lines.append(f"\n⚠️ LLM call gagal ({repr(e)}). Pakai analisis template.")
             return "\n".join(lines)
     lines.append("\n**Implikasi kebijakan (template cepat):**")
+    lines.append("- SamplingFactor < 1 menandakan keterwakilan belum mencapai target 68% → interpretasi indeks perlu disertai catatan coverage/kualitas data.")
     lines.append("- Prioritaskan percepatan pengisian pada jenis dengan gap terbesar, dan lakukan validasi minimal (kelengkapan indikator kunci) sebelum agregasi.")
     return "\n".join(lines)
 # =========================
+# 14) WORD REPORT (opsional)
 # =========================
 HAS_DOCX = True
 try:
     doc.add_heading("5) Grafik", level=2)
     tmpdir = tempfile.mkdtemp()
     p = os.path.join(tmpdir, "bar.png")
     if bar_fig is not None and try_plotly_png(bar_fig, p) and Path(p).exists():
         doc.add_paragraph("Grafik BAR — Populasi vs Sampel")
         doc.add_picture(p, width=Inches(6.5))
     for title, fig in [
         ("Sebaran Indeks (RealScore) — Semua", bell_all),
         ("Sebaran Indeks (RealScore) — Perpustakaan Sekolah", bell_sek),
     doc.save(outpath)
     return outpath
 # =========================
 # 15) RUN CORE (FILTER + OUTPUT)
 # =========================
     empty_fig = go.Figure()
     if df_iplm is None or df_iplm.empty:
+        return (empty, empty, empty, empty, empty, "", empty_fig, empty_fig, empty_fig, empty_fig, empty_fig,
                 None, None, None, "⚠️ Data belum siap (DM gagal dimuat / kosong).")
     prov_value = prov_value or "(Semua)"
     kew_value  = kew_value or "(Semua)"
     kew_norm   = str(kew_value).upper()
     if kew_norm == "PROVINSI":
         kab_value = "(Semua)"
         df = df[df["KEW_NORM"] == kew_norm]
     if df.empty:
+        return (empty, empty, empty, empty, empty, "", empty_fig, empty_fig, empty_fig, empty_fig, empty_fig,
                 None, None, None, "Tidak ada data untuk filter ini.")
+    # TABLES
     t1 = agg_final_overall(df)
     t2 = agg_final_by_jenis(df)
     t3 = detail_final(df)
     # COVERAGE + BAR
     cov_tbl, bar_fig = coverage_table_and_bar(df, kew_norm)
+    cov_html = df_to_html_big(cov_tbl, "Coverage Populasi vs Sampel (Target 68%)")
+    # BELL CURVES
     bell_all = bell_curve_fig(df, "Indeks_Real_0_100", "Sebaran Indeks RealScore — Semua", dm_cols["nama"])
     bell_sek = bell_curve_fig(df[df["_dataset"]=="sekolah"], "Indeks_Real_0_100", "Sebaran Indeks RealScore — Perpustakaan Sekolah", dm_cols["nama"])
     bell_um  = bell_curve_fig(df[df["_dataset"]=="umum"], "Indeks_Real_0_100", "Sebaran Indeks RealScore — Perpustakaan Umum", dm_cols["nama"])
     bell_kh  = bell_curve_fig(df[df["_dataset"]=="khusus"], "Indeks_Real_0_100", "Sebaran Indeks RealScore — Perpustakaan Khusus", dm_cols["nama"])
+    # NARASI
     scope_label = kab_value if (kab_value != "(Semua)" and kew_norm != "PROVINSI") else prov_value
     if scope_label == "(Semua)":
         scope_label = "NASIONAL"
     # SAVE FILES
     tmpdir = tempfile.mkdtemp()
     f_final_agg = os.path.join(tmpdir, "IPLM2025_Agregat_FINAL.xlsx")
     f_final_det = os.path.join(tmpdir, "IPLM2025_Detail_FINAL.xlsx")
     f_real_agg  = os.path.join(tmpdir, "IPLM2025_Agregat_Real_SubindeksDimensi.xlsx")
     t4.to_excel(f_real_agg, index=False)
     t5.to_excel(f_real_det, index=False)
     word_path = generate_word_report(
         scope_label, kew_norm, t1, t2, t4, cov_tbl, bar_fig,
         bell_all, bell_sek, bell_um, bell_kh,
     )
     msg = f"✅ OK | n={len(df)} | Mean Final={float(df['Indeks_Final_0_100'].mean()):.2f} | Mean SamplingFactor={float(df['SamplingFactor_Total'].mean()):.3f}"
+    return (t1, t2, t3, t4, t5, cov_html, bar_fig, bell_all, bell_sek, bell_um, bell_kh,
+            f_final_agg, f_final_det, word_path, narrative, msg)
 # =========================
 # 16) UI
     gr.Markdown(f"""
 # IPLM 2025 — Real × SamplingFactor 68% (FINAL)
+<b>Final</b>: <code>Indeks_Final_0_100 = Indeks_Real_0_100 × SamplingFactor_Total</code><br><br>
 {DATA_INFO}
 """)
     out_det_real = gr.DataFrame(interactive=False)
     gr.Markdown("## 6) Coverage Populasi vs Sampel (Target 68%)")
+    out_cov_html = gr.HTML()  # ✅ biar kebaca
     gr.Markdown("## Grafik BAR — Populasi vs Sampel")
     out_bar = gr.Plot()
     with gr.Row():
         f1 = gr.File(label="Download Agregat FINAL (.xlsx)")
         f2 = gr.File(label="Download Detail FINAL (.xlsx)")
+        f3 = gr.File(label="Download Laporan Word (.docx) (opsional)")
     run_btn.click(
         fn=run_app,
         inputs=[dd_prov, dd_kab, dd_kew, use_llm, hf_model],
         outputs=[
             out_agg_overall, out_agg_final, out_det_final,
+            out_agg_real, out_det_real,
+            out_cov_html,
             out_bar, out_bell_all, out_bell_sek, out_bell_um, out_bell_kh,
             f1, f2, f3,
+            out_analysis,
             msg_out
         ],
     )