Spaces:

akage99
/

article-model-digifeed

Sleeping

App Files Files Community

akage99 commited on Dec 19, 2025

Commit

ae36f5b

verified ·

1 Parent(s): 4ae7a17

create app.py

Browse files

Files changed (1) hide show

app.py +103 -0

app.py ADDED Viewed

	@@ -0,0 +1,103 @@

+import gradio as gr
+import torch
+import json
+import re
+import pandas as pd
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+from sentence_transformers import SentenceTransformer, util
+# --- KONFIGURASI PENTING ---
+# Ini alamat Gudang tempat file 1.11 GB tadi kamu simpan
+ROBERTA_PATH = "akage99/roberta-corporate-backend"
+# Nama file JSON & BGE
+PLAYBOOK_PATH = "competency_keywords.json"
+BGE_MODEL_NAME = "BAAI/bge-m3"
+# --- 1. LOAD MODEL ---
+print("⏳ Sedang menghubungkan ke Gudang Model...")
+try:
+    # Load dari Repo Model (Gudang)
+    tokenizer = AutoTokenizer.from_pretrained(ROBERTA_PATH)
+    model = AutoModelForSequenceClassification.from_pretrained(ROBERTA_PATH)
+    model.eval()
+    print("✅ RoBERTa Berhasil Diload!")
+except Exception as e:
+    print(f"❌ Error Load RoBERTa: {e}")
+# Load BGE (Otomatis download dari internet)
+print("⏳ Loading BGE...")
+bge_model = SentenceTransformer(BGE_MODEL_NAME)
+# Load Playbook
+print("⏳ Loading Playbook...")
+playbook_emb = None
+df_playbook = pd.DataFrame()
+try:
+    with open(PLAYBOOK_PATH, "r") as f:
+        playbook_data = json.load(f)
+    playbook_rows = []
+    for cat, comps in playbook_data.items():
+        for comp, data in comps.items():
+            text = f"{data.get('description','')} {', '.join(data.get('keywords',[]))}"
+            playbook_rows.append({"category": cat, "competency": comp, "text": text})
+    df_playbook = pd.DataFrame(playbook_rows)
+    playbook_emb = bge_model.encode(df_playbook['text'].tolist(), convert_to_tensor=True)
+    print("✅ Playbook Siap!")
+except Exception as e:
+    print(f"⚠️ Warning: {e}. Pastikan file json sudah diupload.")
+# --- 2. LOGIKA PROSES ---
+def process_article(title, content):
+    full_text = f"{title}\n\n{content}"
+    # A. Cek Sampah (Regex)
+    if re.match(r'^[\d\W\s]+$', str(full_text)):
+        return {"Status": "REJECTED", "Reason": "Isi cuma angka/simbol"}
+    if len(full_text) < 50:
+        return {"Status": "REJECTED", "Reason": "Terlalu pendek (<50 huruf)"}
+    # B. Cek Gaya Bahasa (RoBERTa)
+    inputs = tokenizer(full_text, return_tensors="pt", truncation=True, padding=True, max_length=512)
+    with torch.no_grad():
+        outputs = model(**inputs)
+        probs = torch.softmax(outputs.logits, dim=-1)[0]
+    rob_score = float(probs[1]) # 1 = Align
+    # C. Cek Topik (BGE)
+    bge_score = 0.0
+    pred_cat, pred_comp = "-", "-"
+    if playbook_emb is not None:
+        art_vec = bge_model.encode(full_text, convert_to_tensor=True)
+        cos_sim = util.cos_sim(art_vec, playbook_emb)
+        top_val, top_idx = torch.max(cos_sim, dim=1)
+        bge_score = float(top_val)
+        idx = int(top_idx)
+        pred_cat = df_playbook.iloc[idx]['category']
+        pred_comp = df_playbook.iloc[idx]['competency']
+    # D. Keputusan Akhir
+    status = "✅ VALID ALIGN" if (rob_score >= 0.5 and bge_score >= 0.75) else "❌ REJECTED"
+    return {
+        "Status": status,
+        "RoBERTa Score": f"{rob_score:.4f}",
+        "BGE Score": f"{bge_score:.4f}",
+        "Category": pred_cat,
+        "Competency": pred_comp
+    }
+# --- 3. TAMPILAN WEB ---
+with gr.Interface(
+    fn=process_article,
+    inputs=[gr.Textbox(label="Judul"), gr.Textbox(label="Isi Artikel", lines=6)],
+    outputs=gr.JSON(label="Hasil Analisis"),
+    title="Corporate Article Validator",
+    description="Validasi Artikel: Regex -> RoBERTa -> BGE Similarity",
+    allow_flagging="never"
+) as demo:
+    demo.launch()