Spaces:

Enderchef
/

SuperBench-Eval

Sleeping

Enderchef commited on Jun 24, 2025

Commit

9dcd426

verified ·

1 Parent(s): aed021b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -33,17 +33,15 @@ def evaluate(model_id, sample_count, config_name):
     for item in dataset:
         prompt, answer = format_prompt(item)
         output = gen(prompt, max_new_tokens=10, do_sample=False)[0]["generated_text"]
-        output_letter = next((char for char in output[::-1] if char in "ABCD"), None)
         is_correct = output_letter == answer
         correct += is_correct
         results.append((prompt, output.strip(), answer, output_letter, is_correct))
     accuracy = correct / len(dataset) * 100
-    return f"Accuracy: {accuracy:.2f}%", results
 def run(model_id, sample_count, config_name):
-    if config_name == "coming soon":
-        return "Only MMLU is currently available. MMLU-Pro and HLE coming soon.", ""
     score, details = evaluate(model_id, sample_count, config_name)
     formatted = "\n\n".join([
         f"### Question:\n{q}\n\n**Model Answer:** {o}\n**Expected:** {a}\n**Predicted:** {g}\n**Correct:** {c}"
@@ -95,8 +93,4 @@ with gr.Blocks(css="body {font-family: Inter, sans-serif; padding: 1em; max-widt
     run_button.click(run, inputs=[model_id, sample_count, config_name], outputs=[acc_output, detail_output])
     download_button.click(save_text, inputs=detail_output, outputs=gr.File())
-    gr.Markdown("""
-    MMLU-Pro and HLE support will be added soon.
-    """)
-demo.launch()

     for item in dataset:
         prompt, answer = format_prompt(item)
         output = gen(prompt, max_new_tokens=10, do_sample=False)[0]["generated_text"]
+        output_letter = next((char for char in reversed(output) if char in "ABCD"), None)
         is_correct = output_letter == answer
         correct += is_correct
         results.append((prompt, output.strip(), answer, output_letter, is_correct))
     accuracy = correct / len(dataset) * 100
+    return f"Accuracy: {accuracy:.2f}%, out of {len(dataset)} samples", results
 def run(model_id, sample_count, config_name):
     score, details = evaluate(model_id, sample_count, config_name)
     formatted = "\n\n".join([
         f"### Question:\n{q}\n\n**Model Answer:** {o}\n**Expected:** {a}\n**Predicted:** {g}\n**Correct:** {c}"
     run_button.click(run, inputs=[model_id, sample_count, config_name], outputs=[acc_output, detail_output])
     download_button.click(save_text, inputs=detail_output, outputs=gr.File())
+demo.launch()