Spaces:

swzwan
/

ANLP_S26_Assignment2

Sleeping

App Files Files Community

zhenwu0831 commited on Feb 11

Commit

85a9e79

1 Parent(s): fd3a49e

v21

Browse files

Files changed (1) hide show

app.py +9 -9

app.py CHANGED Viewed

@@ -174,7 +174,7 @@ def load_gold_map() -> Dict[str, Dict[str, Any]]:
         if not qid:
             continue
         gold[qid] = {
-            "question": str(ex.get("question", ex.get("query", ""))).strip(),  # May be empty
             "gold_answer": str(ex.get("answer", ex.get("gold", ex.get("reference", "")))).strip(),
         }
@@ -475,11 +475,7 @@ def process_submission(file):
             f1 = token_f1(pred, gold)
             rec = answer_recall(pred, gold)
             rouge = compute_rouge(pred, gold)
-            # Only use LLM judge if question is provided
-            judge = None
-            if question:  # Skip judge if question is empty
-                judge = openai_judge(question, pred)
             em_sum += em
             f1_sum += f1
@@ -491,6 +487,7 @@ def process_submission(file):
             if judge is not None:
                 judge_sum += int(judge)
                 judge_n += 1
         denom = attempted if attempted > 0 else 1
@@ -550,7 +547,10 @@ def process_submission(file):
             f"ROUGE(avg):  {avg_rouge:.4f} ({avg_rouge * 100:.2f}%)",
         ]
         if avg_judge is None:
-            lines.append("LLM judge:    NA (set OPENAI_API to enable)")
         else:
             lines.append(f"LLM judge:    {avg_judge:.3f} (1-5)")
@@ -596,11 +596,11 @@ We compute multiple metrics:
     with gr.Tabs():
         with gr.Tab("📤 Submit"):
-            file_input = gr.File(label="Upload submission in json", file_types=[".json"])
             submit_btn = gr.Button("🚀 Submit & Evaluate", variant="primary")
             status = gr.Textbox(label="Result", lines=10, interactive=False)
-            gr.Markdown("### Sample submission")
             sample = gr.Textbox(value=sample_submission_text(), lines=6)
         with gr.Tab("🏅 Leaderboard"):

         if not qid:
             continue
         gold[qid] = {
+            "question": str(ex.get("question", ex.get("query", ""))).strip(),
             "gold_answer": str(ex.get("answer", ex.get("gold", ex.get("reference", "")))).strip(),
         }
             f1 = token_f1(pred, gold)
             rec = answer_recall(pred, gold)
             rouge = compute_rouge(pred, gold)
+            judge = openai_judge(question, pred)
             em_sum += em
             f1_sum += f1
             if judge is not None:
                 judge_sum += int(judge)
                 judge_n += 1
+                judge_n += 1
         denom = attempted if attempted > 0 else 1
             f"ROUGE(avg):  {avg_rouge:.4f} ({avg_rouge * 100:.2f}%)",
         ]
         if avg_judge is None:
+            if not OPENAI_API_KEY:
+                lines.append("LLM judge:    NA (set OPENAI_API to enable)")
+            else:
+                lines.append("LLM judge:    NA (questions not available in gold dataset)")
         else:
             lines.append(f"LLM judge:    {avg_judge:.3f} (1-5)")
     with gr.Tabs():
         with gr.Tab("📤 Submit"):
+            file_input = gr.File(label="Upload submission.json", file_types=[".json"])
             submit_btn = gr.Button("🚀 Submit & Evaluate", variant="primary")
             status = gr.Textbox(label="Result", lines=10, interactive=False)
+            gr.Markdown("### Sample submission.json")
             sample = gr.Textbox(value=sample_submission_text(), lines=6)
         with gr.Tab("🏅 Leaderboard"):