Spaces:

irhamni
/

DQ_analytics

Sleeping

App Files Files Community

irhamni commited on Jan 7

Commit

ee60c68

verified ·

1 Parent(s): ddfd629

Update app.py

Browse files

Files changed (1) hide show

app.py +60 -28

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 # ============================================================
-# IPLM Audit — HF Spaces (Gradio) — + LLM Analysis (Gemini Only)
-# - Scorecard + Benford + Similarity + Scatter
-# - LLM narasi teknokratis untuk Scorecard (opsional)
 # ============================================================
 import os
@@ -21,6 +21,7 @@ import pandas as pd
 import gradio as gr
 from PIL import Image
 from scipy.stats import chisquare
 from sklearn.preprocessing import StandardScaler
 from sklearn.metrics.pairwise import cosine_similarity
@@ -29,18 +30,20 @@ import matplotlib
 matplotlib.use("Agg")
 import matplotlib.pyplot as plt
-import google.generativeai as genai
 # ============================================================
 # CONFIG
 # ============================================================
 DATA_PATH = os.getenv("IPLM_DATA_PATH", "IPLM_clean_manual_131225.xlsx")
-# Gemini only: API key kamu
 GEMINI_API_KEY = os.getenv("HF_TOKEN_DQ", "").strip()
 GEMINI_MODEL = os.getenv("GEMINI_MODEL", "gemini-1.5-flash")
 EXCLUDE_COLS_EXACT = {"kontak_wa", "npp", "tanggal_kirim", "updated_at", "created_at"}
 BENFORD_P = np.array([math.log10(1 + 1/d) for d in range(1, 10)])
@@ -204,6 +207,51 @@ def scatter_plot(peer_agg, x_col, y_col):
     return fig_to_pil(fig)
 # ============================================================
 # LOAD DATA (GLOBAL)
 # ============================================================
@@ -237,7 +285,7 @@ PROVS = clean_str_list(df["_prov_str"].unique().tolist())
 if not PROVS:
     raise ValueError("Tidak ada nilai provinsi yang valid setelah cleaning.")
-prov_cache_peer = {}  # cache peer per prov
 def kabs_for_prov(pv):
@@ -373,20 +421,12 @@ def audit(pv, kv, kw):
 # ============================================================
-# LLM (GEMINI ONLY)
 # ============================================================
-def gemini_analyze_scorecard(pv, kv, kw, scorecard_df, ben_tbl, sim_tbl):
     if scorecard_df is None or len(scorecard_df) == 0:
         return "❌ Scorecard kosong. Jalankan audit dulu."
-    if not GEMINI_API_KEY:
-        return (
-            "⚠️ **LLM belum aktif** karena `HF_TOKEN_DQ` belum diset.\n\n"
-            "Set di HuggingFace Space → Settings → Variables and secrets:\n"
-            "- `HF_TOKEN_DQ` = API key Gemini kamu\n"
-            "- opsional: `GEMINI_MODEL` (default: gemini-1.5-flash)\n"
-        )
     payload = {
         "provinsi": pv,
         "kab_kota": kv,
@@ -411,14 +451,7 @@ def gemini_analyze_scorecard(pv, kv, kw, scorecard_df, ben_tbl, sim_tbl):
         f"DATA (JSON):\n{json.dumps(payload, ensure_ascii=False)}"
     )
-    try:
-        genai.configure(api_key=GEMINI_API_KEY)
-        model = genai.GenerativeModel(GEMINI_MODEL)
-        resp = model.generate_content(f"{system}\n\n{user}")
-        text = getattr(resp, "text", "")
-        return (text or "").strip() or "❌ Gemini tidak mengembalikan teks."
-    except Exception as e:
-        return f"❌ LLM error (Gemini): {e}"
 # ============================================================
@@ -449,7 +482,7 @@ def run_audit(pv, kv, kw):
     return narasi, scorecard, ben_tbl, ben_img, scat_img, sim_tbl, scorecard, ben_tbl, sim_tbl
 def run_llm(pv, kv, kw, scorecard_df, ben_tbl, sim_tbl):
-    return gemini_analyze_scorecard(pv, kv, kw, scorecard_df, ben_tbl, sim_tbl)
 pv0, kv0, kw0, kabs0, kews0 = ui_init()
@@ -461,7 +494,7 @@ with gr.Blocks(title="IPLM Audit — Kualitas Data & Indikasi Tidak Wajar", them
         f"- EXCLUDE (no analysis): `{', '.join(sorted(EXCLUDE_COLS_EXACT))}`\n"
         f"- prov_col = `{prov_col}` · kab_col = `{kab_col}` · kewenangan_col = `{kew_col if kew_col else 'TIDAK ADA'}`\n"
         "---\n"
-        "**LLM Analysis (Gemini, opsional):** set `HF_TOKEN_DQ` di Space Variables."
     )
     with gr.Row():
@@ -489,7 +522,6 @@ with gr.Blocks(title="IPLM Audit — Kualitas Data & Indikasi Tidak Wajar", them
     gr.Markdown("## Analisis Naratif (LLM — Gemini)")
     out_llm = gr.Markdown()
-    # hidden states: store last tables for llm button
     st_score = gr.State(pd.DataFrame())
     st_ben = gr.State(pd.DataFrame())
     st_sim = gr.State(pd.DataFrame())

 # ============================================================
+# IPLM Audit — HF Spaces (Gradio) — + LLM Analysis (Gemini REST)
+# - NO google SDK (avoid grpc segfault / exit 139)
+# - Gemini API key: HF_TOKEN_DQ
 # ============================================================
 import os
 import gradio as gr
 from PIL import Image
+import requests
 from scipy.stats import chisquare
 from sklearn.preprocessing import StandardScaler
 from sklearn.metrics.pairwise import cosine_similarity
 matplotlib.use("Agg")
 import matplotlib.pyplot as plt
 # ============================================================
 # CONFIG
 # ============================================================
 DATA_PATH = os.getenv("IPLM_DATA_PATH", "IPLM_clean_manual_131225.xlsx")
+# Gemini only (REST)
 GEMINI_API_KEY = os.getenv("HF_TOKEN_DQ", "").strip()
 GEMINI_MODEL = os.getenv("GEMINI_MODEL", "gemini-1.5-flash")
+# Gemini REST endpoint (GenerateContent)
+# v1beta works broadly; if you use "v1" in your org, adjust accordingly.
+GEMINI_BASE = os.getenv("GEMINI_BASE_URL", "https://generativelanguage.googleapis.com/v1beta")
 EXCLUDE_COLS_EXACT = {"kontak_wa", "npp", "tanggal_kirim", "updated_at", "created_at"}
 BENFORD_P = np.array([math.log10(1 + 1/d) for d in range(1, 10)])
     return fig_to_pil(fig)
+# ============================================================
+# GEMINI REST CALL
+# ============================================================
+def gemini_generate(system_text: str, user_text: str, temperature=0.2, max_output_tokens=700) -> str:
+    if not GEMINI_API_KEY:
+        return (
+            "⚠️ **LLM belum aktif** karena `HF_TOKEN_DQ` belum diset.\n\n"
+            "Set di HuggingFace Space → Settings → Variables and secrets:\n"
+            "- `HF_TOKEN_DQ` = API key Gemini kamu\n"
+            "- opsional: `GEMINI_MODEL` (default: gemini-1.5-flash)\n"
+        )
+    url = f"{GEMINI_BASE}/models/{GEMINI_MODEL}:generateContent"
+    params = {"key": GEMINI_API_KEY}
+    # Gemini REST payload
+    body = {
+        "contents": [{
+            "role": "user",
+            "parts": [{"text": f"{system_text}\n\n{user_text}"}]
+        }],
+        "generationConfig": {
+            "temperature": float(temperature),
+            "maxOutputTokens": int(max_output_tokens),
+        }
+    }
+    try:
+        r = requests.post(url, params=params, json=body, timeout=60)
+        if r.status_code != 200:
+            return f"❌ Gemini REST error {r.status_code}: {r.text[:2000]}"
+        data = r.json()
+        # Extract text safely
+        candidates = data.get("candidates", [])
+        if not candidates:
+            return "❌ Gemini tidak mengembalikan candidates."
+        content = candidates[0].get("content", {})
+        parts = content.get("parts", [])
+        text = "".join([p.get("text", "") for p in parts]).strip()
+        return text or "❌ Gemini tidak mengembalikan teks."
+    except Exception as e:
+        return f"❌ Gemini REST exception: {e}"
 # ============================================================
 # LOAD DATA (GLOBAL)
 # ============================================================
 if not PROVS:
     raise ValueError("Tidak ada nilai provinsi yang valid setelah cleaning.")
+prov_cache_peer = {}
 def kabs_for_prov(pv):
 # ============================================================
+# LLM ANALYSIS (GEMINI REST)
 # ============================================================
+def llm_analyze(pv, kv, kw, scorecard_df, ben_tbl, sim_tbl):
     if scorecard_df is None or len(scorecard_df) == 0:
         return "❌ Scorecard kosong. Jalankan audit dulu."
     payload = {
         "provinsi": pv,
         "kab_kota": kv,
         f"DATA (JSON):\n{json.dumps(payload, ensure_ascii=False)}"
     )
+    return gemini_generate(system, user, temperature=0.2, max_output_tokens=800)
 # ============================================================
     return narasi, scorecard, ben_tbl, ben_img, scat_img, sim_tbl, scorecard, ben_tbl, sim_tbl
 def run_llm(pv, kv, kw, scorecard_df, ben_tbl, sim_tbl):
+    return llm_analyze(pv, kv, kw, scorecard_df, ben_tbl, sim_tbl)
 pv0, kv0, kw0, kabs0, kews0 = ui_init()
         f"- EXCLUDE (no analysis): `{', '.join(sorted(EXCLUDE_COLS_EXACT))}`\n"
         f"- prov_col = `{prov_col}` · kab_col = `{kab_col}` · kewenangan_col = `{kew_col if kew_col else 'TIDAK ADA'}`\n"
         "---\n"
+        "**LLM Analysis (Gemini REST):** set `HF_TOKEN_DQ` di Space Variables."
     )
     with gr.Row():
     gr.Markdown("## Analisis Naratif (LLM — Gemini)")
     out_llm = gr.Markdown()
     st_score = gr.State(pd.DataFrame())
     st_ben = gr.State(pd.DataFrame())
     st_sim = gr.State(pd.DataFrame())