Spaces:

FSMBench
/

Leaderboard

Sleeping

App Files Files Community

taesiri commited on Apr 19, 2024

Commit

c8b7025

1 Parent(s): 0ec0046

update

Browse files

Files changed (38) hide show

.gitattributes +36 -0
app.py +22 -3
results_qwen/CodeLlama-70b-Instruct-hf.csv +3 -0
results_qwen/CodeLlama-70b-Instruct-hf.jpg +3 -0
results_qwen/CodeLlama-70b-Instruct-hf.pkl +3 -0
results_qwen/CodeLlama-70b-Instruct-hf.png +3 -0
results_qwen/Mixtral-8x7B-Instruct-v0.1.csv +3 -0
results_qwen/Mixtral-8x7B-Instruct-v0.1.jpg +3 -0
results_qwen/Mixtral-8x7B-Instruct-v0.1.pkl +3 -0
results_qwen/Mixtral-8x7B-Instruct-v0.1.png +3 -0
results_qwen/claude-3-haiku-20240307.csv +3 -0
results_qwen/claude-3-haiku-20240307.jpg +3 -0
results_qwen/claude-3-haiku-20240307.pkl +3 -0
results_qwen/claude-3-haiku-20240307.png +3 -0
results_qwen/claude-3-opus-20240229.csv +3 -0
results_qwen/claude-3-opus-20240229.jpg +3 -0
results_qwen/claude-3-opus-20240229.pkl +3 -0
results_qwen/claude-3-opus-20240229.png +3 -0
results_qwen/deepseek-llm-67b-chat.csv +3 -0
results_qwen/deepseek-llm-67b-chat.jpg +3 -0
results_qwen/deepseek-llm-67b-chat.pkl +3 -0
results_qwen/deepseek-llm-67b-chat.png +3 -0
results_qwen/gemma-7b-it.csv +3 -0
results_qwen/gemma-7b-it.jpg +3 -0
results_qwen/gemma-7b-it.pkl +3 -0
results_qwen/gemma-7b-it.png +3 -0
results_qwen/gpt-3.5-turbo-0125.csv +3 -0
results_qwen/gpt-3.5-turbo-0125.jpg +3 -0
results_qwen/gpt-3.5-turbo-0125.pkl +3 -0
results_qwen/gpt-3.5-turbo-0125.png +3 -0
results_qwen/gpt-4-0125-preview.csv +3 -0
results_qwen/gpt-4-0125-preview.jpg +3 -0
results_qwen/gpt-4-0125-preview.pkl +3 -0
results_qwen/gpt-4-0125-preview.png +3 -0
results_qwen/gpt-4-turbo-2024-04-09.csv +3 -0
results_qwen/gpt-4-turbo-2024-04-09.jpg +3 -0
results_qwen/gpt-4-turbo-2024-04-09.pkl +3 -0
results_qwen/gpt-4-turbo-2024-04-09.png +3 -0

.gitattributes CHANGED Viewed

@@ -195,3 +195,39 @@ results/claude-3-sonnet-20240229.jpg filter=lfs diff=lfs merge=lfs -text
 results/claude-3-sonnet-20240229.pkl filter=lfs diff=lfs merge=lfs -text
 results/deepseek-llm-67b-chat.jpg filter=lfs diff=lfs merge=lfs -text
 results-vision/claude-3-opus-20240229.csv filter=lfs diff=lfs merge=lfs -text

 results/claude-3-sonnet-20240229.pkl filter=lfs diff=lfs merge=lfs -text
 results/deepseek-llm-67b-chat.jpg filter=lfs diff=lfs merge=lfs -text
 results-vision/claude-3-opus-20240229.csv filter=lfs diff=lfs merge=lfs -text
+results_qwen/CodeLlama-70b-Instruct-hf.csv filter=lfs diff=lfs merge=lfs -text
+results_qwen/claude-3-opus-20240229.png filter=lfs diff=lfs merge=lfs -text
+results_qwen/gpt-4-0125-preview.png filter=lfs diff=lfs merge=lfs -text
+results_qwen/gpt-4-turbo-2024-04-09.jpg filter=lfs diff=lfs merge=lfs -text
+results_qwen/claude-3-haiku-20240307.csv filter=lfs diff=lfs merge=lfs -text
+results_qwen/gemma-7b-it.pkl filter=lfs diff=lfs merge=lfs -text
+results_qwen/gpt-4-0125-preview.csv filter=lfs diff=lfs merge=lfs -text
+results_qwen/gpt-4-0125-preview.pkl filter=lfs diff=lfs merge=lfs -text
+results_qwen/CodeLlama-70b-Instruct-hf.jpg filter=lfs diff=lfs merge=lfs -text
+results_qwen/Mixtral-8x7B-Instruct-v0.1.jpg filter=lfs diff=lfs merge=lfs -text
+results_qwen/deepseek-llm-67b-chat.pkl filter=lfs diff=lfs merge=lfs -text
+results_qwen/gemma-7b-it.jpg filter=lfs diff=lfs merge=lfs -text
+results_qwen/gemma-7b-it.png filter=lfs diff=lfs merge=lfs -text
+results_qwen/gpt-3.5-turbo-0125.pkl filter=lfs diff=lfs merge=lfs -text
+results_qwen/Mixtral-8x7B-Instruct-v0.1.pkl filter=lfs diff=lfs merge=lfs -text
+results_qwen/gpt-4-0125-preview.jpg filter=lfs diff=lfs merge=lfs -text
+results_qwen/gpt-4-turbo-2024-04-09.csv filter=lfs diff=lfs merge=lfs -text
+results_qwen/gpt-4-turbo-2024-04-09.png filter=lfs diff=lfs merge=lfs -text
+results_qwen/Mixtral-8x7B-Instruct-v0.1.csv filter=lfs diff=lfs merge=lfs -text
+results_qwen/Mixtral-8x7B-Instruct-v0.1.png filter=lfs diff=lfs merge=lfs -text
+results_qwen/claude-3-haiku-20240307.pkl filter=lfs diff=lfs merge=lfs -text
+results_qwen/claude-3-haiku-20240307.png filter=lfs diff=lfs merge=lfs -text
+results_qwen/claude-3-opus-20240229.jpg filter=lfs diff=lfs merge=lfs -text
+results_qwen/deepseek-llm-67b-chat.csv filter=lfs diff=lfs merge=lfs -text
+results_qwen/CodeLlama-70b-Instruct-hf.pkl filter=lfs diff=lfs merge=lfs -text
+results_qwen/deepseek-llm-67b-chat.jpg filter=lfs diff=lfs merge=lfs -text
+results_qwen/gpt-3.5-turbo-0125.csv filter=lfs diff=lfs merge=lfs -text
+results_qwen/claude-3-opus-20240229.csv filter=lfs diff=lfs merge=lfs -text
+results_qwen/claude-3-opus-20240229.pkl filter=lfs diff=lfs merge=lfs -text
+results_qwen/gemma-7b-it.csv filter=lfs diff=lfs merge=lfs -text
+results_qwen/gpt-3.5-turbo-0125.jpg filter=lfs diff=lfs merge=lfs -text
+results_qwen/gpt-3.5-turbo-0125.png filter=lfs diff=lfs merge=lfs -text
+results_qwen/gpt-4-turbo-2024-04-09.pkl filter=lfs diff=lfs merge=lfs -text
+results_qwen/CodeLlama-70b-Instruct-hf.png filter=lfs diff=lfs merge=lfs -text
+results_qwen/claude-3-haiku-20240307.jpg filter=lfs diff=lfs merge=lfs -text
+results_qwen/deepseek-llm-67b-chat.png filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -15,7 +15,8 @@ import pandas as pd
 # Load text benchmark results
-csv_results = glob("results/*.pkl")
 # Load vision benchmark results
 vision_results = glob("results-vision/*.pkl")
 # Load CoT text benchmark results
@@ -36,7 +37,7 @@ def load_data(files, model_type):
 # Load and label all data
-data = load_data(csv_results, "Text Only")
 vision_data = load_data(vision_results, "Vision")
 cot_text_data = load_data(cot_text_results, "CoT Text Only")
 # cot_vision_data = load_data(cot_vision_results, "CoT Vision")
@@ -61,7 +62,7 @@ text_only_filtered_raw_cot = None
 # Load the csv files into a dict with keys being name of the file and values being the data
-data = {file: pd.read_pickle(file) for file in csv_results}
 # Load the vision files into a dict
 vision_data = {file: pd.read_pickle(file) for file in vision_results}
 # Load the CoT text files into a dict
@@ -69,6 +70,8 @@ cot_text_data = {file: pd.read_pickle(file) for file in cot_text_results}
 # Load the CoT vision files into a dict
 # cot_vision_data = {file: pd.read_pickle(file) for file in cot_vision_results}
 intersection_df = pd.read_pickle(
     "./intersection_results/gpt-3.5-judge-by_Qwen_5times_intersection_subset_1.pkl"
@@ -124,12 +127,15 @@ def process_data(data):
 # Process all data
 text_data_for_df = process_data(data)
 vision_data_for_df = process_data(vision_data)
 cot_text_data_for_df = process_data(cot_text_data)
 # cot_vision_data_for_df = process_data(cot_vision_data)
 # Create DataFrames
 accuracy_df = pd.DataFrame(text_data_for_df, columns=column_names)
 vision_accuracy_df = pd.DataFrame(vision_data_for_df, columns=column_names)
 cot_text_accuracy_df = pd.DataFrame(cot_text_data_for_df, columns=column_names)
 # cot_vision_accuracy_df = pd.DataFrame(cot_vision_data_for_df, columns=column_names)
@@ -146,6 +152,7 @@ def finalize_df(df):
 # Finalize all DataFrames
 accuracy_df = finalize_df(accuracy_df)
 vision_accuracy_df = finalize_df(vision_accuracy_df)
 cot_text_accuracy_df = finalize_df(cot_text_accuracy_df)
 # cot_vision_accuracy_df = finalize_df(cot_vision_accuracy_df)
@@ -156,6 +163,11 @@ def load_heatmap(evt: gr.SelectData):
     return heatmap_image
 def load_vision_heatmap(evt: gr.SelectData):
     heatmap_image = gr.Image(f"results-vision/{evt.value}.jpg")
     return heatmap_image
@@ -430,6 +442,13 @@ with gr.Blocks() as demo:
         heatmap_image = gr.Image(label="", show_label=False)
         leader_board.select(fn=load_heatmap, outputs=[heatmap_image])
     with gr.Tab("Vision Benchmark"):
         gr.Markdown("# Vision Benchmark Leaderboard")
         leader_board_vision = gr.Dataframe(

 # Load text benchmark results
+noncot_results = glob("results/*.pkl")
+noncot_results_qwen = glob("results_qwen/*.pkl")
 # Load vision benchmark results
 vision_results = glob("results-vision/*.pkl")
 # Load CoT text benchmark results
 # Load and label all data
+data = load_data(noncot_results, "Text Only")
 vision_data = load_data(vision_results, "Vision")
 cot_text_data = load_data(cot_text_results, "CoT Text Only")
 # cot_vision_data = load_data(cot_vision_results, "CoT Vision")
 # Load the csv files into a dict with keys being name of the file and values being the data
+data = {file: pd.read_pickle(file) for file in noncot_results}
 # Load the vision files into a dict
 vision_data = {file: pd.read_pickle(file) for file in vision_results}
 # Load the CoT text files into a dict
 # Load the CoT vision files into a dict
 # cot_vision_data = {file: pd.read_pickle(file) for file in cot_vision_results}
+data_qwen = {file: pd.read_pickle(file) for file in noncot_results_qwen}
 intersection_df = pd.read_pickle(
     "./intersection_results/gpt-3.5-judge-by_Qwen_5times_intersection_subset_1.pkl"
 # Process all data
 text_data_for_df = process_data(data)
+text_data_for_df_qwen = process_data(data_qwen)
 vision_data_for_df = process_data(vision_data)
 cot_text_data_for_df = process_data(cot_text_data)
 # cot_vision_data_for_df = process_data(cot_vision_data)
 # Create DataFrames
 accuracy_df = pd.DataFrame(text_data_for_df, columns=column_names)
+accuracy_df_qwen = pd.DataFrame(text_data_for_df_qwen, columns=column_names)
 vision_accuracy_df = pd.DataFrame(vision_data_for_df, columns=column_names)
 cot_text_accuracy_df = pd.DataFrame(cot_text_data_for_df, columns=column_names)
 # cot_vision_accuracy_df = pd.DataFrame(cot_vision_data_for_df, columns=column_names)
 # Finalize all DataFrames
 accuracy_df = finalize_df(accuracy_df)
+accuracy_df_qwen = finalize_df(accuracy_df_qwen)
 vision_accuracy_df = finalize_df(vision_accuracy_df)
 cot_text_accuracy_df = finalize_df(cot_text_accuracy_df)
 # cot_vision_accuracy_df = finalize_df(cot_vision_accuracy_df)
     return heatmap_image
+def load_heatmap_qwen(evt: gr.SelectData):
+    heatmap_image = gr.Image(f"results_qwen/{evt.value}.jpg")
+    return heatmap_image
 def load_vision_heatmap(evt: gr.SelectData):
     heatmap_image = gr.Image(f"results-vision/{evt.value}.jpg")
     return heatmap_image
         heatmap_image = gr.Image(label="", show_label=False)
         leader_board.select(fn=load_heatmap, outputs=[heatmap_image])
+    with gr.Tab("Text-only Benchmark (Judged by Qwen)"):
+        gr.Markdown("# Text-only Leaderboard (Judged by Qwen)")
+        leader_board = gr.Dataframe(accuracy_df_qwen, headers=headers_with_icons)
+        gr.Markdown("## Heatmap")
+        heatmap_image_qwen = gr.Image(label="", show_label=False)
+        leader_board.select(fn=load_heatmap_qwen, outputs=[heatmap_image_qwen])
     with gr.Tab("Vision Benchmark"):
         gr.Markdown("# Vision Benchmark Leaderboard")
         leader_board_vision = gr.Dataframe(

results_qwen/CodeLlama-70b-Instruct-hf.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8eb9e387ef5e3ec72c0cf7f9fb69721135481977c3b2277cee5511312b8975cd
+size 14962036

results_qwen/CodeLlama-70b-Instruct-hf.jpg ADDED Viewed

Git LFS Details

SHA256: ec863021f1f34f0dcb94379e600a79f87aff5364f35db4bf18319cfed9ace7cf
Pointer size: 132 Bytes
Size of remote file: 1.31 MB

results_qwen/CodeLlama-70b-Instruct-hf.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:203ab4a96fdca08c9155d6cec16d72eac15e35506e4ef551fa0fe8cf867c96a5
+size 14974843

results_qwen/CodeLlama-70b-Instruct-hf.png ADDED Viewed

Git LFS Details

SHA256: 5fce36a6f9e4eb220a3fcf00c3b81089f53447c16729cba8cdd08eff6aa2796b
Pointer size: 132 Bytes
Size of remote file: 1.01 MB

results_qwen/Mixtral-8x7B-Instruct-v0.1.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b4ad69d274c473073093be7fb46a2d1070a3db35cfdfbb196a927efc2df204f
+size 15659205

results_qwen/Mixtral-8x7B-Instruct-v0.1.jpg ADDED Viewed

Git LFS Details

SHA256: 99f126d1e67029d44ab0978fa8f60bac2a1066c7728074168edf763659b8cbfa
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

results_qwen/Mixtral-8x7B-Instruct-v0.1.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:579a96d609f2bd4650a078944535c7bf2d348f9304bf627248c1a40910815452
+size 15660660

results_qwen/Mixtral-8x7B-Instruct-v0.1.png ADDED Viewed

Git LFS Details

SHA256: 5c3e1b87d8fecd69735bb14a9f50b29e9dad36c134df633e246e65b6946de14a
Pointer size: 132 Bytes
Size of remote file: 1.01 MB

results_qwen/claude-3-haiku-20240307.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb5ca14f6f17cd4c3422e071a6e03dfc5504cb3709f5422a4b44c01daa00f57f
+size 17778799

results_qwen/claude-3-haiku-20240307.jpg ADDED Viewed

Git LFS Details

SHA256: e4ca3f9ae806b5160a7ee69d55d4b1e607a0f2fa8018abfd178a345d4539703d
Pointer size: 132 Bytes
Size of remote file: 1.3 MB

results_qwen/claude-3-haiku-20240307.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4a38e2e7e8f22ec5c7c55561a25cd51cfe1e261f4c171e9995993b9d41bb028
+size 17780948

results_qwen/claude-3-haiku-20240307.png ADDED Viewed

Git LFS Details

SHA256: 279f1efc22c5bf50306b8f675394e72fe763c3e345e8d8ad2b2a5e0faf6a79ac
Pointer size: 132 Bytes
Size of remote file: 1.01 MB

results_qwen/claude-3-opus-20240229.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:413814671b1a00fe6b8fa308ab8fc4e76a046799d2e275c5fe51a1606d0a5062
+size 18235109

results_qwen/claude-3-opus-20240229.jpg ADDED Viewed

Git LFS Details

SHA256: 5a02ca8e953854fbb5538d070597e878a6af5bd202c93ad1c35ce2c6ded363bc
Pointer size: 132 Bytes
Size of remote file: 1.21 MB

results_qwen/claude-3-opus-20240229.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be62c58b6b5e21ae49bdf5ba96ad4628d959b9843a2eba691bddd9c5bd717f1d
+size 18253951

results_qwen/claude-3-opus-20240229.png ADDED Viewed

Git LFS Details

SHA256: c199b8c8e681c485b8972025ed3488464dd166642dcac9ee150989a9c650961c
Pointer size: 132 Bytes
Size of remote file: 1.01 MB

results_qwen/deepseek-llm-67b-chat.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:668c30672d315df2c899df7627039723fc35bba099ae410792729a087a65b9fb
+size 12916783

results_qwen/deepseek-llm-67b-chat.jpg ADDED Viewed

Git LFS Details

SHA256: c31e2ff0f6672617639ed92f33d41b96ea82d3c81590ad8f869555f7d8cbd5b6
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

results_qwen/deepseek-llm-67b-chat.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e26477861326f0784a70903beadad6a4ca7dc61e18e3a76db9cc713d196dab0
+size 12957786

results_qwen/deepseek-llm-67b-chat.png ADDED Viewed

Git LFS Details

SHA256: e7028fadc4c5172a89ff58a8074e0aa3d14eb7c343cb9dcb90a9266a6e090008
Pointer size: 132 Bytes
Size of remote file: 1.01 MB

results_qwen/gemma-7b-it.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abcf0738cde1e241535a90aae98338d1b9505a844c9561877e245b604676e489
+size 11246490

results_qwen/gemma-7b-it.jpg ADDED Viewed

Git LFS Details

SHA256: bc4ca1f65ed04e50e3402823b7812d9f7a8080d1a2b022c2e8204ca82cbd2624
Pointer size: 132 Bytes
Size of remote file: 1.32 MB

results_qwen/gemma-7b-it.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cd2216230dadc2adf5a73a1b64c799f27913cf4033e7333290962c8926b9557
+size 11301306

results_qwen/gemma-7b-it.png ADDED Viewed

Git LFS Details

SHA256: ed89e875f18947cd237e312dc5293e2947a1287bd63dd15197689e0bff2614a7
Pointer size: 132 Bytes
Size of remote file: 1.01 MB

results_qwen/gpt-3.5-turbo-0125.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3da618470a9256a02824d308cab84e80400ded429b9157c20b89ba720f708bb1
+size 8041854

results_qwen/gpt-3.5-turbo-0125.jpg ADDED Viewed

Git LFS Details

SHA256: 707a882b8cdb3da1d75bfc68be6fa0de2f694a75c09e4d752d43da4a5576c6ba
Pointer size: 132 Bytes
Size of remote file: 1.33 MB

results_qwen/gpt-3.5-turbo-0125.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e224821031c0d87b38a113efff8a9100fe770d067d2d94662c81ad6207718963
+size 8069783

results_qwen/gpt-3.5-turbo-0125.png ADDED Viewed

Git LFS Details

SHA256: 445c3dd96c469ec350c63ac2c057eea10b836eb44ae2311b487a10e82ca2ed44
Pointer size: 132 Bytes
Size of remote file: 1.01 MB

results_qwen/gpt-4-0125-preview.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd1c1982308ad0b1f510001f407bf50a9378dc94391993f4116c02beaa55c27f
+size 15996843

results_qwen/gpt-4-0125-preview.jpg ADDED Viewed

Git LFS Details

SHA256: d24927f07dc58a6f8b4d96ba33d3bd5eb608648fbf09310ee6b899b071eb6705
Pointer size: 132 Bytes
Size of remote file: 1.23 MB

results_qwen/gpt-4-0125-preview.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d31b186ce750657cbddcabbf6998069ecf2f6631954a8718c88313564063b30
+size 15985596

results_qwen/gpt-4-0125-preview.png ADDED Viewed

Git LFS Details

SHA256: 5f0eb9f8af0da0eb7cf438ce275255121b5ff4bedd2481ff54b5c340456621e1
Pointer size: 132 Bytes
Size of remote file: 1.01 MB

results_qwen/gpt-4-turbo-2024-04-09.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d50952850b16d84f951949aa629db60375aa2100cf86f1b9a143cdfd83fc1c30
+size 16522373

results_qwen/gpt-4-turbo-2024-04-09.jpg ADDED Viewed

Git LFS Details

SHA256: a7596d4256d2516d20e9962a3600a60b9eeee806af6370a13e6cf05b544744e6
Pointer size: 132 Bytes
Size of remote file: 1.22 MB

results_qwen/gpt-4-turbo-2024-04-09.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:661211c67ac6a0e6168e79df8d616b4abbc7e5d0fda335736cbe22912fade1f4
+size 16542716

results_qwen/gpt-4-turbo-2024-04-09.png ADDED Viewed

Git LFS Details

SHA256: 22fd48ef25affc68411b79985c889b9db8884083ca17688831feca9f78e03d0c
Pointer size: 132 Bytes
Size of remote file: 1.01 MB