Spaces:

THUIR
/

AEOLLM

Sleeping

App Files Files Community

陈俊杰 commited on Sep 6, 2024

Commit

b781bf5

1 Parent(s): f51ed55

table

Browse files

Files changed (1) hide show

app.py +76 -34

app.py CHANGED Viewed

@@ -265,10 +265,13 @@ elif page == "LeaderBoard":
         "Spearman (Non-Factoid QA)": [],
     }
     # teamId 唯一标识码
     DG = {
-        "TeamId": ["baseline1", "baseline2", "baseline3", "baseline4"],
-        "Methods": ["chatglm3-6b", "baichuan2-13b", "chatglm-pro", "gpt-4o"],
         "Accuracy": [0.5806, 0.5483, 0.6001, 0.6472],
         "Kendall's Tau": [0.3243, 0.1739, 0.3042, 0.4167],
         "Spearman": [0.3505, 0.1857, 0.3264, 0.4512]
@@ -276,8 +279,8 @@ elif page == "LeaderBoard":
     df1 = pd.DataFrame(DG)
     TE = {
-        "TeamId": ["baseline1", "baseline2", "baseline3", "baseline4"],
-        "Methods": ["chatglm3-6b", "baichuan2-13b", "chatglm-pro", "gpt-4o"],
         "Accuracy": [0.5107, 0.5050, 0.5461, 0.5581],
         "Kendall's Tau": [0.1281, 0.0635, 0.2716, 0.3864],
         "Spearman": [0.1352, 0.0667, 0.2867, 0.4157]
@@ -285,8 +288,8 @@ elif page == "LeaderBoard":
     df2 = pd.DataFrame(TE)
     SG = {
-        "TeamId": ["baseline1", "baseline2", "baseline3", "baseline4"],
-        "Methods": ["chatglm3-6b", "baichuan2-13b", "chatglm-pro", "gpt-4o"],
         "Accuracy": [0.6504, 0.6014, 0.7162, 0.7441],
         "Kendall's Tau": [0.3957, 0.2688, 0.5092, 0.5001],
         "Spearman": [0.4188, 0.2817, 0.5403, 0.5405],
@@ -294,18 +297,42 @@ elif page == "LeaderBoard":
     df3 = pd.DataFrame(SG)
     NFQA = {
-        "TeamId": ["baseline1", "baseline2", "baseline3", "baseline4"],
-        "Methods": ["chatglm3-6b", "baichuan2-13b", "chatglm-pro", "gpt-4o"],
         "Accuracy": [0.5935, 0.5817, 0.7000, 0.7203],
         "Kendall's Tau": [0.2332, 0.2389, 0.4440, 0.4235],
         "Spearman": [0.2443, 0.2492, 0.4630, 0.4511]
     }
     df4 = pd.DataFrame(NFQA)
-    # df = [df1, df2, df3, df4]
-    # for d in df:
-    #     for col in d.select_dtypes(include=['float64', 'int64']).columns:
-    #         d[col] = d[col].apply(lambda x: f"{x:.4f}")
     # # 创建标签页
     # tab1, tab2, tab3, tab4 = st.tabs(["DG", "TE", "SG", "NFQA"])
@@ -325,30 +352,45 @@ elif page == "LeaderBoard":
     # with tab4:
     #     st.markdown("""<p class='main-text'>Task: Non-Factoid QA; Dataset: NF_CATS</p>""", unsafe_allow_html=True)
     #     st.dataframe(df4, use_container_width=True)
-    data = [DG, NFQA, SG, TE]
-    task = ["Dialogue Generation", "Non-Factoid QA", "Summary Generation", "Text Expansion"]
-    metric = ["Accuracy", "Kendall's Tau", "Spearman"]
-    overall_total = [0] * len(df["TeamId"])
-    for i, d in enumerate(data): # 每种数据集
-        total = [0] * len(df["TeamId"]) # 长度初始化为方法数
-        for j in range(len(metric)): # 每种指标
-            index = f"{metric[j]} ({task[i]})"
-            df[index] = d[metric[j]]
-            for k in range(len(df["TeamId"])):
-                total[k] += d[metric[j]][k]
-        average_index = f"Average ({task[i]})"
-        df[average_index] = [k / len(metric) for k in total]
-        for k in range(len(df["TeamId"])):
-            overall_total[k] += df[average_index][k]
-    df["Average (all 4 datatsets)"] = [k / len(task) for k in overall_total]
-    df = pd.DataFrame(df)
-    for col in df.select_dtypes(include=['float64', 'int64']).columns:
-        df[col] = df[col].apply(lambda x: f"{x:.4f}")
-    st.dataframe(df,use_container_width=True)
     st.markdown("""
 🔗 To register for AEOLLM task, you can visit the following link and choose our AEOLLM task: [https://research.nii.ac.jp/ntcir/ntcir-18/howto.html](https://research.nii.ac.jp/ntcir/ntcir-18/howto.html).

         "Spearman (Non-Factoid QA)": [],
     }
+    TeamId = ["baseline1", "baseline2", "baseline3", "baseline4"]
+    Methods = ["chatglm3-6b", "baichuan2-13b", "chatglm-pro", "gpt-4o"]
     # teamId 唯一标识码
     DG = {
+        "TeamId": TeamId,
+        "Methods": Methods,
         "Accuracy": [0.5806, 0.5483, 0.6001, 0.6472],
         "Kendall's Tau": [0.3243, 0.1739, 0.3042, 0.4167],
         "Spearman": [0.3505, 0.1857, 0.3264, 0.4512]
     df1 = pd.DataFrame(DG)
     TE = {
+        "TeamId": TeamId,
+        "Methods": Methods,
         "Accuracy": [0.5107, 0.5050, 0.5461, 0.5581],
         "Kendall's Tau": [0.1281, 0.0635, 0.2716, 0.3864],
         "Spearman": [0.1352, 0.0667, 0.2867, 0.4157]
     df2 = pd.DataFrame(TE)
     SG = {
+        "TeamId": TeamId,
+        "Methods": Methods,
         "Accuracy": [0.6504, 0.6014, 0.7162, 0.7441],
         "Kendall's Tau": [0.3957, 0.2688, 0.5092, 0.5001],
         "Spearman": [0.4188, 0.2817, 0.5403, 0.5405],
     df3 = pd.DataFrame(SG)
     NFQA = {
+        "TeamId": TeamId,
+        "Methods": Methods,
         "Accuracy": [0.5935, 0.5817, 0.7000, 0.7203],
         "Kendall's Tau": [0.2332, 0.2389, 0.4440, 0.4235],
         "Spearman": [0.2443, 0.2492, 0.4630, 0.4511]
     }
     df4 = pd.DataFrame(NFQA)
+    OverAll = {
+        "TeamId": TeamId,
+        "Methods": Methods,
+        "Accuracy": [],
+        "Kendall's Tau": [],
+        "Spearman": []
+    }
+    data = [DG, NFQA, SG, TE]
+    task = ["Dialogue Generation", "Non-Factoid QA", "Summary Generation", "Text Expansion"]
+    metric = ["Accuracy", "Kendall's Tau", "Spearman"]
+    for m in metric:
+        # 每个指标
+        metric_score = [0] * len(TeamId)
+        for j in range(len(TeamId)):
+            # 每支队伍
+            for d in data:
+                metric_score[j] += d[m][j]
+        metric_score = [k / len(task) for k in metric_score]
+        OverAll[m] = metric_score
+    dfo = pd.DataFrame(OverAll)
+    df = [df1, df2, df3, df4, dfo]
+    for d in df:
+        for col in d.select_dtypes(include=['float64', 'int64']).columns:
+            d[col] = d[col].apply(lambda x: f"{x:.4f}")
     # # 创建标签页
     # tab1, tab2, tab3, tab4 = st.tabs(["DG", "TE", "SG", "NFQA"])
     # with tab4:
     #     st.markdown("""<p class='main-text'>Task: Non-Factoid QA; Dataset: NF_CATS</p>""", unsafe_allow_html=True)
     #     st.dataframe(df4, use_container_width=True)
+    st.markdown("""<p class='main-text'>Overall</p>""", unsafe_allow_html=True)
+    st.dataframe(dfo, use_container_width=True)
+    st.markdown("""<p class='main-text'>Task: Dialogue Generation; Dataset: DialyDialog</p>""", unsafe_allow_html=True)
+    st.dataframe(df1, use_container_width=True)
+    st.markdown("""<p class='main-text'>Task: Text Expansion; Dataset: WritingPrompts</p>""", unsafe_allow_html=True)
+    st.dataframe(df2, use_container_width=True)
+    st.markdown("""<p class='main-text'>Task: Summary Generation; Dataset: Xsum</p>""", unsafe_allow_html=True)
+    st.dataframe(df3, use_container_width=True)
+    st.markdown("""<p class='main-text'>Task: Non-Factoid QA; Dataset: NF_CATS</p>""", unsafe_allow_html=True)
+    st.dataframe(df4, use_container_width=True)
+    # data = [DG, NFQA, SG, TE]
+    # task = ["Dialogue Generation", "Non-Factoid QA", "Summary Generation", "Text Expansion"]
+    # metric = ["Accuracy", "Kendall's Tau", "Spearman"]
+    # overall_total = [0] * len(df["TeamId"])
+    # for i, d in enumerate(data): # 每种数据集
+    #     total = [0] * len(df["TeamId"]) # 长度初始化为方法数
+    #     for j in range(len(metric)): # 每种指标
+    #         index = f"{metric[j]} ({task[i]})"
+    #         df[index] = d[metric[j]]
+    #         for k in range(len(df["TeamId"])):
+    #             total[k] += d[metric[j]][k]
+    #     average_index = f"Average ({task[i]})"
+    #     df[average_index] = [k / len(metric) for k in total]
+    #     for k in range(len(df["TeamId"])):
+    #         overall_total[k] += df[average_index][k]
+    # df["Average (all 4 datatsets)"] = [k / len(task) for k in overall_total]
+    # df = pd.DataFrame(df)
+    # for col in df.select_dtypes(include=['float64', 'int64']).columns:
+    #     df[col] = df[col].apply(lambda x: f"{x:.4f}")
+    # st.dataframe(df,use_container_width=True)
     st.markdown("""
 🔗 To register for AEOLLM task, you can visit the following link and choose our AEOLLM task: [https://research.nii.ac.jp/ntcir/ntcir-18/howto.html](https://research.nii.ac.jp/ntcir/ntcir-18/howto.html).