Spaces:

irhamni
/

predict

Running

App Files Files Community

irhamni commited on Dec 16, 2025

Commit

b6e2cae

verified ·

1 Parent(s): 63f5584

Update app.py

Browse files

Files changed (1) hide show

app.py +342 -0

app.py CHANGED Viewed

@@ -567,6 +567,241 @@ def make_bell_figure(df_in: pd.DataFrame, title: str, index_col="Indeks_Final_0_
     )
     return fig
 # ============================================================
 # 8) OUTPUT TABEL: AGREGAT RINGKAS + DETAIL RINGKAS
 # ============================================================
@@ -666,6 +901,113 @@ def run_pipeline_filtered(prov_value, kab_value, kew_value):
     msg = f"✅ Selesai. Unit (dedup): {len(df2)} | Wilayah: {wilayah} | Kew: {kew_value} | Mean Final: {df2['Indeks_Final_0_100'].mean():.2f}"
     return agg_df, detail_df, verif_df, agg_path, detail_path, verif_path, fig_all, fig_sek, fig_um, fig_kh, msg
 # ============================================================
 # 10) DROPDOWN (NO DUPLICATE)
 # ============================================================

     )
     return fig
+    # ============================================================
+# 7c. LLM DATA ANALYTICS (NARASI LEBIH DATA-DRIVEN) + WORD DOCX
+# (TAMBAHAN SAJA — TIDAK MENGUBAH PIPELINE YANG ADA)
+# ============================================================
+def _safe_table_text(df: pd.DataFrame, max_rows: int = 12) -> str:
+    if df is None or df.empty:
+        return "(kosong)"
+    tmp = df.copy()
+    # batasi kolom & baris biar prompt tidak meledak
+    tmp = tmp.head(max_rows)
+    return tmp.to_string(index=False)
+def summarize_distribution(detail_df: pd.DataFrame):
+    """
+    Ringkas distribusi indeks final untuk LLM:
+    - pakai Indeks_Final_0_100 kalau ada, kalau tidak fallback ke Indeks_Real_0_100
+    """
+    idx_col = "Indeks_Final_0_100" if (detail_df is not None and "Indeks_Final_0_100" in detail_df.columns) else "Indeks_Real_0_100"
+    if detail_df is None or detail_df.empty or idx_col not in detail_df.columns:
+        return {"idx_col": idx_col, "all": {}, "by_type": {}}
+    out = {"idx_col": idx_col, "all": {}, "by_type": {}}
+    def stats_for(s: pd.Series):
+        s = pd.to_numeric(s, errors="coerce").dropna()
+        if len(s) == 0:
+            return {}
+        q1, q2, q3 = np.quantile(s.values, [0.25, 0.5, 0.75])
+        return {
+            "n": int(len(s)),
+            "mean": float(s.mean()),
+            "std": float(s.std(ddof=1)) if len(s) > 1 else 0.0,
+            "min": float(s.min()),
+            "q1": float(q1),
+            "median": float(q2),
+            "q3": float(q3),
+            "max": float(s.max()),
+        }
+    out["all"] = stats_for(detail_df[idx_col])
+    if "_dataset" in detail_df.columns:
+        for ds in ["sekolah", "umum", "khusus"]:
+            dsub = detail_df[detail_df["_dataset"] == ds]
+            out["by_type"][ds] = stats_for(dsub[idx_col])
+    return out
+def generate_llm_data_analytics(detail_df: pd.DataFrame,
+                                agg_df: pd.DataFrame,
+                                verif_df: pd.DataFrame,
+                                kab_name: str,
+                                kew_value: str) -> str:
+    """
+    Narasi LLM yang fokus ke:
+    - indeks FINAL (sudah penalti 68% kalau ada)
+    - distribusi (mean, Q1/median/Q3)
+    - gap coverage (kalau ada)
+    """
+    wilayah = kab_name
+    if kew_value and kew_value != "(Semua)":
+        wilayah = f"{kab_name} (kewenangan {kew_value})"
+    dist = summarize_distribution(detail_df)
+    idx_col = dist.get("idx_col", "Indeks_Final_0_100")
+    # ringkas angka utama biar prompt padat
+    all_stats = dist.get("all", {})
+    by_type = dist.get("by_type", {})
+    def fmt_stats(d):
+        if not d:
+            return "(tidak tersedia)"
+        return (
+            f"n={d['n']}, mean={d['mean']:.2f}, sd={d['std']:.2f}, "
+            f"min={d['min']:.2f}, Q1={d['q1']:.2f}, median={d['median']:.2f}, Q3={d['q3']:.2f}, max={d['max']:.2f}"
+        )
+    lines = []
+    lines.append(f"Wilayah: {wilayah}")
+    lines.append(f"Indeks yang dianalisis: {idx_col} (0–100)")
+    lines.append(f"Distribusi keseluruhan: {fmt_stats(all_stats)}")
+    if by_type:
+        for ds, st in by_type.items():
+            lines.append(f"Distribusi {ds}: {fmt_stats(st)}")
+    agg_txt = _safe_table_text(agg_df, max_rows=8)
+    ver_txt = _safe_table_text(verif_df, max_rows=12)
+    client = get_llm_client()
+    if client is None or not USE_LLM:
+        # fallback: pakai yang sudah ada (rule-based)
+        rb = generate_rule_based_analysis(detail_df, agg_df, kab_name, kew_value)
+        return (
+            "⚠️ LLM tidak tersedia, analisis menggunakan rule-based.\n\n" + rb
+        )
+    system_prompt = (
+        "Anda adalah analis data & kebijakan perpustakaan. "
+        "Anda menulis analisis resmi untuk pemangku kepentingan pemerintah daerah. "
+        "Anda harus menggunakan pendekatan berbasis data, jelas, dan ringkas."
+    )
+    user_prompt = f"""
+DATA RINGKAS IPLM (FINAL) UNTUK ANALISIS:
+RINGKASAN STATISTIK (indeks final & distribusi):
+{chr(10).join(lines)}
+TABEL AGREGAT (ringkas):
+{agg_txt}
+TABEL VERIFIKASI COVERAGE & GAP (ringkas):
+{ver_txt}
+TUGAS:
+Tulis analisis dalam Bahasa Indonesia formal, struktur:
+A. Ringkasan eksekutif (1 paragraf) — fokus pada indeks FINAL setelah penalti 68%.
+B. Diagnostik berbasis data (2–3 paragraf):
+   - Jelaskan distribusi (Q1/Median/Q3), variasi antar jenis perpustakaan.
+   - Jelaskan implikasi kualitas/representasi data bila coverage belum 68%.
+C. Prioritas intervensi 12–18 bulan (1–2 paragraf) — fokus pada program pembinaan yang realistis.
+D. Rekomendasi kebijakan 3–5 tahun (1–2 paragraf) — penataan tata kelola data, pembinaan, standardisasi.
+GAYA:
+- Jangan menyebut "rendah/sedang/tinggi". Gunakan frasa netral: "ruang penguatan", "belum konsisten", dll.
+- Hindari kalimat terlalu panjang.
+- Jangan membuat data baru di luar yang tersedia.
+"""
+    try:
+        resp = client.chat_completion(
+            model=LLM_MODEL_NAME,
+            messages=[
+                {"role": "system", "content": system_prompt},
+                {"role": "user", "content": user_prompt},
+            ],
+            max_tokens=1200,
+            temperature=0.25,
+            top_p=0.9,
+        )
+        text = resp.choices[0].message.content.strip()
+        if not text:
+            raise ValueError("Respon LLM kosong.")
+        return text
+    except Exception as e:
+        rb = generate_rule_based_analysis(detail_df, agg_df, kab_name, kew_value)
+        return (
+            "⚠️ Gagal memanggil LLM untuk data analytics, fallback rule-based.\n\n"
+            f"(Detail teknis: {repr(e)})\n\n{rb}"
+        )
+def generate_word_report_llm_analytics(detail_df, agg_df, verif_df, prov, kab, kew, analytics_text):
+    """
+    Word report yang menaruh:
+    - Ringkasan indeks FINAL (statistik & kuartil)
+    - Tabel agregat ringkas
+    - Tabel verifikasi coverage (dibulatkan TANPA koma)
+    - Narasi LLM data analytics
+    """
+    if kew == "PUSAT":
+        return None
+    wilayah = kab if kab != "(Semua)" else prov
+    dist = summarize_distribution(detail_df)
+    idx_col = dist.get("idx_col", "Indeks_Final_0_100")
+    all_stats = dist.get("all", {})
+    doc = Document()
+    doc.add_heading(f"Laporan Analisis IPLM (FINAL) – {wilayah}", level=1)
+    doc.add_paragraph(
+        "Laporan ini menyajikan analisis Indeks IPLM FINAL (0–100) setelah penerapan penalti "
+        "kecukupan sampel 68% (untuk perpustakaan sekolah dan umum, sesuai konfigurasi aplikasi)."
+    )
+    doc.add_heading("1. Ringkasan Statistik Indeks FINAL", level=2)
+    if all_stats:
+        doc.add_paragraph(f"- Indeks yang digunakan: {idx_col}")
+        doc.add_paragraph(f"- Jumlah perpustakaan: {int(all_stats.get('n', 0))}")
+        doc.add_paragraph(f"- Rata-rata: {all_stats.get('mean', 0.0):.2f}")
+        doc.add_paragraph(f"- Q1: {all_stats.get('q1', 0.0):.2f}")
+        doc.add_paragraph(f"- Median: {all_stats.get('median', 0.0):.2f}")
+        doc.add_paragraph(f"- Q3: {all_stats.get('q3', 0.0):.2f}")
+        doc.add_paragraph(f"- Minimum–Maksimum: {all_stats.get('min', 0.0):.2f} – {all_stats.get('max', 0.0):.2f}")
+    else:
+        doc.add_paragraph("Statistik distribusi tidak tersedia (data indeks tidak ditemukan).")
+    doc.add_heading("2. Ringkasan Agregat per Jenis Perpustakaan", level=2)
+    if agg_df is not None and not agg_df.empty:
+        table = doc.add_table(rows=1, cols=len(agg_df.columns))
+        hdr = table.rows[0].cells
+        for i, c in enumerate(agg_df.columns):
+            hdr[i].text = str(c)
+        for _, row in agg_df.iterrows():
+            r = table.add_row().cells
+            for i, c in enumerate(agg_df.columns):
+                r[i].text = str(row[c])
+    else:
+        doc.add_paragraph("Tabel agregat tidak tersedia.")
+    doc.add_heading("3. Verifikasi Coverage & GAP menuju 68% (Kontrol Mutu)", level=2)
+    if verif_df is not None and not verif_df.empty:
+        v = verif_df.copy()
+        # BULATKAN TANPA KOMa: semua numerik -> integer
+        for c in v.columns:
+            if pd.api.types.is_numeric_dtype(v[c]):
+                v[c] = pd.to_numeric(v[c], errors="coerce").fillna(0).round(0).astype(int)
+        table = doc.add_table(rows=1, cols=len(v.columns))
+        hdr = table.rows[0].cells
+        for i, c in enumerate(v.columns):
+            hdr[i].text = str(c)
+        for _, row in v.iterrows():
+            r = table.add_row().cells
+            for i, c in enumerate(v.columns):
+                r[i].text = str(row[c])
+    else:
+        doc.add_paragraph("Tidak ada tabel verifikasi coverage untuk wilayah ini.")
+    doc.add_heading("4. Analisis Naratif Otomatis (LLM Data Analytics)", level=2)
+    for paragraph in str(analytics_text).split("\n"):
+        if paragraph.strip():
+            doc.add_paragraph(paragraph.strip())
+    outpath = tempfile.mktemp(suffix=".docx")
+    doc.save(outpath)
+    return outpath
 # ============================================================
 # 8) OUTPUT TABEL: AGREGAT RINGKAS + DETAIL RINGKAS
 # ============================================================
     msg = f"✅ Selesai. Unit (dedup): {len(df2)} | Wilayah: {wilayah} | Kew: {kew_value} | Mean Final: {df2['Indeks_Final_0_100'].mean():.2f}"
     return agg_df, detail_df, verif_df, agg_path, detail_path, verif_path, fig_all, fig_sek, fig_um, fig_kh, msg
+# ============================================================
+# 9b. WRAPPER: PAKAI LLM DATA ANALYTICS + WORD (tanpa ubah run_app lama)
+# ============================================================
+_run_app_base = run_app  # simpan fungsi asli
+def run_app(prov_value, kab_value, kew_value):
+    # jalankan versi asli dulu
+    (
+        agg_df,
+        detail_df_view,
+        verif_df,
+        agg_path,
+        detail_path,
+        raw_path,
+        word_path,
+        fig_all,
+        fig_sekolah,
+        fig_umum,
+        fig_khusus,
+        msg,
+        analysis_text,
+    ) = _run_app_base(prov_value, kab_value, kew_value)
+    # kalau kosong, langsung return
+    if detail_df_view is None or (hasattr(detail_df_view, "empty") and detail_df_view.empty):
+        return (
+            agg_df, detail_df_view, verif_df,
+            agg_path, detail_path, raw_path,
+            word_path,
+            fig_all, fig_sekolah, fig_umum, fig_khusus,
+            msg,
+            analysis_text
+        )
+    # BUTUH detail_df LENGKAP (bukan view) agar punya _dataset + indeks final kalau ada
+    # Ambil ulang subset yang sama dari df_all_ipml (supaya lengkap) dengan filter yang sama
+    df = df_all_ipml.copy() if df_all_ipml is not None else None
+    if df is None or df.empty:
+        return (
+            agg_df, detail_df_view, verif_df,
+            agg_path, detail_path, raw_path,
+            word_path,
+            fig_all, fig_sekolah, fig_umum, fig_khusus,
+            msg,
+            analysis_text
+        )
+    if prov_col_glob and prov_value and prov_value != "(Semua)":
+        df = df[df[prov_col_glob].astype(str).str.strip() == prov_value]
+    if kab_col_glob and kab_value and kab_value != "(Semua)":
+        df = df[df[kab_col_glob].astype(str).str.strip() == kab_value]
+    if kew_value and kew_value != "(Semua)":
+        df = df[df["KEW_NORM"] == kew_value]
+    if df is None or df.empty:
+        return (
+            agg_df, detail_df_view, verif_df,
+            agg_path, detail_path, raw_path,
+            word_path,
+            fig_all, fig_sekolah, fig_umum, fig_khusus,
+            msg,
+            analysis_text
+        )
+    kab_name = kab_value if kab_value and kab_value != "(Semua)" else "SEMUA KAB/KOTA"
+    kew_name = kew_value if kew_value and kew_value != "(Semua)" else "SEMUA KEWENANGAN"
+    # Bikin ulang detail_df LENGKAP memakai run_pipeline_core supaya konsisten
+    (agg_df2, detail_df_full, *_rest) = run_pipeline_core(df, kab_name=kab_name, kew_name=kew_name)
+    # LLM data analytics text (lebih data-driven)
+    analytics_text = generate_llm_data_analytics(
+        detail_df=detail_df_full,
+        agg_df=agg_df2 if (agg_df2 is not None and not agg_df2.empty) else agg_df,
+        verif_df=verif_df,
+        kab_name=kab_name,
+        kew_value=kew_value,
+    )
+    # Word report pakai analytics_text (LLM)
+    word_path2 = generate_word_report_llm_analytics(
+        detail_df_full,
+        (agg_df2 if (agg_df2 is not None and not agg_df2.empty) else agg_df),
+        verif_df,
+        prov_value, kab_value, kew_value,
+        analytics_text
+    )
+    # Kembalikan output yang sama seperti run_app asli
+    return (
+        agg_df,
+        detail_df_view,
+        verif_df,
+        agg_path,
+        detail_path,
+        raw_path,
+        (word_path2 or word_path),
+        fig_all,
+        fig_sekolah,
+        fig_umum,
+        fig_khusus,
+        msg,
+        analytics_text  # replace analysis_out dengan versi data analytics
+    )
 # ============================================================
 # 10) DROPDOWN (NO DUPLICATE)
 # ============================================================