CodeReviewBench

Sleeping

App Files Files Community

Alex commited on Jul 2, 2025

Commit

ea6e048

1 Parent(s): 6ec1619

error

Browse files

Files changed (2) hide show

app.py +42 -33
leaderboard_data.json +10 -10

app.py CHANGED Viewed

@@ -11,16 +11,22 @@ DEFAULT_MODEL_NAME = "example/model"
 # --------------- Data models ---------------
 class Metrics(BaseModel):
-    readability: float
-    relevance: float
-    explanation_clarity: float = Field(alias="explanation_clarity")
-    problem_identification: float
-    actionability: float
-    completeness: float
-    specificity: float
-    contextual_adequacy: float
-    consistency: float
-    brevity: float
 class LeaderboardEntry(BaseModel):
@@ -85,16 +91,16 @@ def submit_model(
     llm_pass_1: float,
     llm_pass_5: float,
     llm_pass_10: float,
-    readability: float,
-    relevance: float,
-    explanation_clarity: float,
-    problem_identification: float,
-    actionability: float,
-    completeness: float,
-    specificity: float,
-    contextual_adequacy: float,
-    consistency: float,
-    brevity: float,
 ):
     """Validate and append a new model entry to the leaderboard."""
     try:
@@ -133,9 +139,12 @@ def submit_model(
 with gr.Blocks(title="Custom LLM Leaderboard") as demo:
     gr.Markdown("""# 🏆 LLM Leaderboard\nSubmit your model results below. Leaderboard is sorted by **Pass@1**. """)
     leaderboard_df = gr.Dataframe(
-        headers=list(_table_data()[0].keys()) if _table_data() else [],
-        value=_table_data(),
         label="Current Leaderboard",
         interactive=False,
     )
@@ -150,18 +159,18 @@ with gr.Blocks(title="Custom LLM Leaderboard") as demo:
             pass5_inp = gr.Number(label="Pass@5", value=0.0, minimum=0.0, maximum=1.0)
             pass10_inp = gr.Number(label="Pass@10", value=0.0, minimum=0.0, maximum=1.0)
-        gr.Markdown("### Multi-metric subjective scores (0.0 – 1.0)")
         with gr.Row():
-            readability_inp = gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.05, label="Readability")
-            relevance_inp = gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.05, label="Relevance")
-            explanation_inp = gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.05, label="Explanation Clarity")
-            problem_inp = gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.05, label="Problem Identification")
-            actionability_inp = gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.05, label="Actionability")
-            completeness_inp = gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.05, label="Completeness")
-            specificity_inp = gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.05, label="Specificity")
-            contextual_inp = gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.05, label="Contextual Adequacy")
-            consistency_inp = gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.05, label="Consistency")
-            brevity_inp = gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.05, label="Brevity")
         submit_btn = gr.Button("Submit")
         status_markdown = gr.Markdown("")

 # --------------- Data models ---------------
 class Metrics(BaseModel):
+    readability: int
+    relevance: int
+    explanation_clarity: int = Field(alias="explanation_clarity")
+    problem_identification: int
+    actionability: int
+    completeness: int
+    specificity: int
+    contextual_adequacy: int
+    consistency: int
+    brevity: int
+    @field_validator("readability", "relevance", "explanation_clarity", "problem_identification", "actionability", "completeness", "specificity", "contextual_adequacy", "consistency", "brevity")
+    def metric_range(cls, v: int):
+        if not 0 <= v <= 10:
+            raise ValueError("Multi-metrics should be between 0 and 10")
+        return v
 class LeaderboardEntry(BaseModel):
     llm_pass_1: float,
     llm_pass_5: float,
     llm_pass_10: float,
+    readability: int,
+    relevance: int,
+    explanation_clarity: int,
+    problem_identification: int,
+    actionability: int,
+    completeness: int,
+    specificity: int,
+    contextual_adequacy: int,
+    consistency: int,
+    brevity: int,
 ):
     """Validate and append a new model entry to the leaderboard."""
     try:
 with gr.Blocks(title="Custom LLM Leaderboard") as demo:
     gr.Markdown("""# 🏆 LLM Leaderboard\nSubmit your model results below. Leaderboard is sorted by **Pass@1**. """)
+    # Initialize table data
+    initial_data = _table_data()
     leaderboard_df = gr.Dataframe(
+        headers=list(initial_data[0].keys()) if initial_data else ["Model", "BLEU", "Pass@1", "Pass@5", "Pass@10", "Readability", "Relevance", "Explanation Clarity", "Problem Identification", "Actionability", "Completeness", "Specificity", "Contextual Adequacy", "Consistency", "Brevity"],
+        value=initial_data,
         label="Current Leaderboard",
         interactive=False,
     )
             pass5_inp = gr.Number(label="Pass@5", value=0.0, minimum=0.0, maximum=1.0)
             pass10_inp = gr.Number(label="Pass@10", value=0.0, minimum=0.0, maximum=1.0)
+        gr.Markdown("### Multi-metric subjective scores (0 – 10)")
         with gr.Row():
+            readability_inp = gr.Slider(minimum=0, maximum=10, value=5, step=1, label="Readability")
+            relevance_inp = gr.Slider(minimum=0, maximum=10, value=5, step=1, label="Relevance")
+            explanation_inp = gr.Slider(minimum=0, maximum=10, value=5, step=1, label="Explanation Clarity")
+            problem_inp = gr.Slider(minimum=0, maximum=10, value=5, step=1, label="Problem Identification")
+            actionability_inp = gr.Slider(minimum=0, maximum=10, value=5, step=1, label="Actionability")
+            completeness_inp = gr.Slider(minimum=0, maximum=10, value=5, step=1, label="Completeness")
+            specificity_inp = gr.Slider(minimum=0, maximum=10, value=5, step=1, label="Specificity")
+            contextual_inp = gr.Slider(minimum=0, maximum=10, value=5, step=1, label="Contextual Adequacy")
+            consistency_inp = gr.Slider(minimum=0, maximum=10, value=5, step=1, label="Consistency")
+            brevity_inp = gr.Slider(minimum=0, maximum=10, value=5, step=1, label="Brevity")
         submit_btn = gr.Button("Submit")
         status_markdown = gr.Markdown("")

leaderboard_data.json CHANGED Viewed

@@ -7,16 +7,16 @@
             "llm_pass_5": 0.5,
             "llm_pass_10": 0.5,
             "metrics": {
-                "readability": 0.5,
-                "relevance": 0.5,
-                "explanation_clarity": 0.5,
-                "problem_identification": 0.5,
-                "actionability": 0.5,
-                "completeness": 0.5,
-                "specificity": 0.5,
-                "contextual_adequacy": 0.5,
-                "consistency": 0.5,
-                "brevity": 0.5
             }
         }
     ]

             "llm_pass_5": 0.5,
             "llm_pass_10": 0.5,
             "metrics": {
+                "readability": 5,
+                "relevance": 5,
+                "explanation_clarity": 5,
+                "problem_identification": 5,
+                "actionability": 5,
+                "completeness": 5,
+                "specificity": 5,
+                "contextual_adequacy": 5,
+                "consistency": 5,
+                "brevity": 5
             }
         }
     ]