Spaces:

osunlp
/

TravelPlannerLeaderboard

Running

App Files Files Community

hsaest commited on Mar 1, 2024

Commit

6a1fa89

verified ·

1 Parent(s): cd6ca15

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -70

app.py CHANGED Viewed

@@ -68,69 +68,24 @@ def load_line_json_data(filename):
 def add_new_eval(
     val_or_test: str,
     eval_mode: str,
-    model: str,
-    tooluse_strategy: str,
-    planning_strategy: str,
-    organization: str,
-    mail: str,
     path_to_file: str,
 ):
-    # Very basic email parsing
-    _, parsed_mail = parseaddr(mail)
-    if not "@" in parsed_mail:
-        return format_warning("Please provide a valid email adress.")
     print("Adding new eval")
     if path_to_file is None:
         return format_warning("Please attach a file.")
-    # Save submitted file
-    api.upload_file(
-        repo_id=RESULTS_DATASET,
-        path_or_fileobj=path_to_file.name,
-        path_in_repo=f"{organization}/{val_or_test}_{eval_mode}_{tooluse_strategy}_{planning_strategy}_raw_{datetime.datetime.today()}.jsonl",
-        repo_type="dataset",
-        token=TOKEN
-    )
     # Compute score
     file_path = path_to_file.name
-    result = eval_score(val_or_test,file_path=file_path,TOKEN=TOKEN)
-    with open(f"scored/{organization}_{val_or_test}_{eval_mode}_{tooluse_strategy}_{planning_strategy}.jsonl", "w") as scored_file:
-        scored_file.write(json.dumps(result) + "\n")
-    # Save scored file
-    api.upload_file(
-        repo_id=RESULTS_DATASET,
-        path_or_fileobj=f"scored/{organization}_{val_or_test}_{eval_mode}_{tooluse_strategy}_{planning_strategy}.jsonl",
-        path_in_repo=f"{organization}/{model}/{val_or_test}_{eval_mode}_{tooluse_strategy}_{planning_strategy}_scored_{datetime.datetime.today()}.jsonl",
-        repo_type="dataset",
-        token=TOKEN
-    )
-    # Actual submission
-    eval_entry = {
-        "Model": model,
-        "Tool-use Strategy": tooluse_strategy,
-        "Planning Strategy": planning_strategy,
-        "Organization": organization,
-        "Mail": mail,
-        "Delivery Rate": result['Delivery Rate'],
-        "Commonsense Constraint Micro Pass Rate":result['Commonsense Constraint Micro Pass Rate'],
-        "Commonsense Constraint Macro Pass Rate":result['Commonsense Constraint Macro Pass Rate'],
-        "Hard Constraint Micro Pass Rate":result['Hard Constraint Micro Pass Rate'],
-        "Hard Constraint Macro Pass Rate":result['Hard Constraint Macro Pass Rate'],
-        "Final Pass Rate":result['Final Pass Rate']
-    }
-    eval_mode = eval_mode.replace('-','')
-    eval_results[f'{val_or_test}_{eval_mode}'] = eval_results[f'{val_or_test}_{eval_mode}'].add_item(eval_entry)
-    print(eval_results)
-    eval_results.push_to_hub(RESULTS_DATASET, config_name = 'scores', token=TOKEN)
-    return format_log(f"Model: {model} | Tool-use Strategy: {tooluse_strategy} |  Planning Strategy: {planning_strategy} | submitted by {organization} successfully. \nPlease refresh the leaderboard, and wait a bit to see the score displayed (Validation ~2mins, Test ~7mins).")
 def refresh():
@@ -141,9 +96,6 @@ def refresh():
     eval_dataframe_test_soleplanning = get_dataframe_from_results(eval_results=eval_results, split="test",mode='soleplanning')
     return eval_dataframe_val_twostage, eval_dataframe_val_soleplanning, eval_dataframe_test_twostage, eval_dataframe_test_soleplanning
-# def upload_file(files):
-#     file_paths = [file.name for file in files]
-#     return file_paths
 demo = gr.Blocks()
@@ -185,14 +137,8 @@ with demo:
             with gr.Column():
                 level_of_test = gr.Radio(["validation", "test"], value="validation", label="Split")
                 eval_mode = gr.Radio(["two-stage", "sole-planning"], value="two-stage", label="Eval Mode")
-                model = gr.Textbox(label="Foundation Model")
-                tooluse_strategy = gr.Textbox(label="Tool-use Strategy")
-                planning_strategy = gr.Textbox(label="Planning Strategy")
-            with gr.Column():
-                organization = gr.Textbox(label="Organization")
-                mail = gr.Textbox(label="Contact email")
-                file_output = gr.File()
         submit_button = gr.Button("Submit Eval")
         submission_result = gr.Markdown()
@@ -201,16 +147,12 @@ with demo:
             [
                 level_of_test,
                 eval_mode,
-                model,
-                tooluse_strategy,
-                planning_strategy,
-                organization,
-                mail,
-                file_output,
             ],
-            submission_result,
         )
 demo.launch(debug=True)

 def add_new_eval(
     val_or_test: str,
     eval_mode: str,
     path_to_file: str,
 ):
     print("Adding new eval")
     if path_to_file is None:
         return format_warning("Please attach a file.")
     # Compute score
     file_path = path_to_file.name
+    result, detail_json = eval_score(val_or_test,file_path=file_path,TOKEN=TOKEN)
+    print(detail_json)
+    print(type(detail_json))
+    outputPath=os.path.join('.',datetime.now().strftime('%Y%m%d%H%M%S') + '.json')
+    with open(outputPath,'w') as w:
+        json.dump(detail_json,w)
+    return format_log(f"{result}"), gr.File(label=f"Download the detailed constraint pass rate reports", value=outputPath, visible=True)
 def refresh():
     eval_dataframe_test_soleplanning = get_dataframe_from_results(eval_results=eval_results, split="test",mode='soleplanning')
     return eval_dataframe_val_twostage, eval_dataframe_val_soleplanning, eval_dataframe_test_twostage, eval_dataframe_test_soleplanning
 demo = gr.Blocks()
             with gr.Column():
                 level_of_test = gr.Radio(["validation", "test"], value="validation", label="Split")
                 eval_mode = gr.Radio(["two-stage", "sole-planning"], value="two-stage", label="Eval Mode")
+                file_input = gr.File(label="Upload file")
+                file_output = gr.File(label="Download the detailed constraint pass rate reports", visible=False)
         submit_button = gr.Button("Submit Eval")
         submission_result = gr.Markdown()
             [
                 level_of_test,
                 eval_mode,
+                file_input,
             ],
+            [submission_result, file_output]
         )
 demo.launch(debug=True)