Spaces:

allbibek
/

semanticsphrase

Running

App Files Files Community

allbibek commited on Mar 5

Commit

c926b76

verified ·

1 Parent(s): 12aaebc

Update app.py

Browse files

Files changed (1) hide show

app.py +110 -0

app.py CHANGED Viewed

@@ -5,6 +5,10 @@ import os
 from dotenv import load_dotenv
 from google import genai
 load_dotenv()
 GOOGLE_API_KEY = os.getenv("GEMINI_API")
@@ -300,6 +304,86 @@ def search_kbli(text: str):
     html += "</div>"
     return html
 with gr.Blocks(css="""
     .title {font-size: 22px; font-weight: 700; color: #111827; margin-bottom: 4px;}
     .desc {font-size: 14px; color: #6b7280; margin-bottom: 16px;}
@@ -390,5 +474,31 @@ with gr.Blocks(css="""
         btn_clear4.click(lambda: ("", None), None, [inp4, out4])
         btn_submit4.click(hybrid_search, inp4, out4, api_name="hybrid_search")
 if __name__ == "__main__":
     demo.queue().launch(show_error=True)

 from dotenv import load_dotenv
 from google import genai
+import pandas as pd
+import time
+import math
 load_dotenv()
 GOOGLE_API_KEY = os.getenv("GEMINI_API")
     html += "</div>"
     return html
+def calculate_mrr(retrieved_kodes, relevant_kodes):
+    for i, kode in enumerate(retrieved_kodes):
+        if kode in relevant_kodes: return 1.0 / (i + 1)
+    return 0.0
+def calculate_recall(retrieved_kodes, relevant_kodes, k=10):
+    retrieved_k_set = set(retrieved_kodes[:k])
+    relevant_set = set(relevant_kodes)
+    if not relevant_set: return 0.0
+    return len(retrieved_k_set.intersection(relevant_set)) / len(relevant_set)
+def calculate_ndcg(retrieved_kodes, relevance_dict, k=10):
+    dcg = sum(relevance_dict.get(k, 0) / math.log2(i + 2) for i, k in enumerate(retrieved_kodes[:k]))
+    ideal_rels = sorted(relevance_dict.values(), reverse=True)[:k]
+    idcg = sum(rel / math.log2(i + 2) for i, rel in enumerate(ideal_rels))
+    return dcg / idcg if idcg > 0 else 0.0
+def run_evaluation(file_obj, scenario):
+    if file_obj is None:
+        return "Peringatan: Silakan unggah file ground_truth.csv terlebih dahulu.", None, None
+    df = pd.read_csv(file_obj.name)
+    queries = df.groupby('query_id').first()['query'].to_dict()
+    ground_truth = {}
+    for q_id, group in df.groupby('query_id'):
+        ground_truth[q_id] = dict(zip(group['kode_kbli'].astype(str), group['relevance']))
+    results_list = []
+    for q_id, query_text in queries.items():
+        start_time = time.perf_counter() # Mulai hitung latensi
+        # Eksekusi fungsi berdasarkan skenario yang dipilih
+        if scenario == "Semantic Only (Baseline)":
+            response = fn_semantic(query_text, match_count=50)
+        else: # "Hybrid + Reranker (Final)"
+            response = hybrid_search(query_text, match_count=50)
+        latency = time.perf_counter() - start_time # Hitung selisih waktu
+        candidates = response.get("results", [])
+        retrieved_kodes = [str(r.get('kode')) for r in candidates]
+        rel_dict = ground_truth.get(q_id, {})
+        relevant_kodes = list(rel_dict.keys())
+        mrr = calculate_mrr(retrieved_kodes, relevant_kodes)
+        recall = calculate_recall(retrieved_kodes, relevant_kodes, k=10)
+        ndcg = calculate_ndcg(retrieved_kodes, rel_dict, k=10)
+        results_list.append({
+            "Query ID": q_id,
+            "Query Text": query_text,
+            "MRR@10": round(mrr, 4),
+            "Recall@10": round(recall, 4),
+            "nDCG@10": round(ndcg, 4),
+            "Latency (sec)": round(latency, 4) # Menyimpan data latensi per kueri
+        })
+        time.sleep(1) # Hindari rate limit Gemini API
+    results_df = pd.DataFrame(results_list)
+    # Hitung rata-rata
+    summary = {
+        "Skenario": scenario,
+        "Total Query": len(queries),
+        "Avg MRR@10": round(results_df["MRR@10"].mean(), 4),
+        "Avg Recall@10": round(results_df["Recall@10"].mean(), 4),
+        "Avg nDCG@10": round(results_df["nDCG@10"].mean(), 4),
+        "Avg Latency (sec)": round(results_df["Latency (sec)"].mean(), 4)
+    }
+    # Export ke Excel
+    output_filename = f"Evaluasi_{scenario.split()[0]}.xlsx"
+    results_df.to_excel(output_filename, index=False)
+    return summary, results_df, output_filename
 with gr.Blocks(css="""
     .title {font-size: 22px; font-weight: 700; color: #111827; margin-bottom: 4px;}
     .desc {font-size: 14px; color: #6b7280; margin-bottom: 16px;}
         btn_clear4.click(lambda: ("", None), None, [inp4, out4])
         btn_submit4.click(hybrid_search, inp4, out4, api_name="hybrid_search")
+    with gr.Tab("Ablation Study"):
+        gr.Markdown("### Metrics & Latency")
+        gr.Markdown("Unggah file `ground_truth.csv` Anda untuk menjalankan *batch testing* dan membandingkan skenario.")
+        with gr.Row():
+            with gr.Column(scale=1):
+                eval_file = gr.File(label="Upload ground_truth.csv", file_types=[".csv"])
+                eval_scenario = gr.Dropdown(
+                    choices=["Semantic Only (Baseline)", "Hybrid + Reranker (Final)"],
+                    value="Hybrid + Reranker (Final)",
+                    label="Pilih Skenario Riset"
+                )
+                btn_run_eval = gr.Button("Jalankan Evaluasi Otomatis", variant="primary")
+            with gr.Column(scale=1):
+                eval_summary = gr.JSON(label="Ringkasan Skor Rata-rata & Latensi")
+                eval_download = gr.File(label="Download Laporan (Excel)")
+        eval_table = gr.Dataframe(label="Detail Per-Kueri")
+        btn_run_eval.click(
+            run_evaluation,
+            inputs=[eval_file, eval_scenario],
+            outputs=[eval_summary, eval_table, eval_download]
+        )
 if __name__ == "__main__":
     demo.queue().launch(show_error=True)