work

Sleeping

App Files Files Community

hellokawei commited on Jun 28

Commit

4f244aa

verified ·

1 Parent(s): 4d81225

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -52

app.py CHANGED Viewed

@@ -2,7 +2,6 @@ import gradio as gr
 from gradio_leaderboard import Leaderboard, ColumnFilter, SelectColumns
 import pandas as pd
 from apscheduler.schedulers.background import BackgroundScheduler
-from huggingface_hub import snapshot_download
 import os
 import json
 from transformers import AutoModelForCausalLM, AutoTokenizer
@@ -89,43 +88,43 @@ def get_leaderboard_df(eval_results_path: str, eval_requests_path: str, cols: li
     # 这里我们不再尝试从文件读取，直接生成模拟数据
     all_results = [
         {
-            "model": "google/gemma-2b-it", # 示例模型1
-            "model_type": ModelType.LanguageModeling.to_str(),
-            "precision": Precision.float16.value.name,
-            "params": 2.0,
-            "license": "apache-2.0",
-            "still_on_hub": True,
-            "generalization_score": 0.0, # 初始为0，等待用户输入
-            "relevance_score": 0.0,
-            "artistry_score": 0.0,
-            "consistency_score": 0.0,
-            "efficiency_score": 0.0,
         },
         {
-            "model": "microsoft/phi-2", # 示例模型2
-            "model_type": ModelType.LanguageModeling.to_str(),
-            "precision": Precision.float16.value.name,
-            "params": 2.7,
-            "license": "mit",
-            "still_on_hub": True,
-            "generalization_score": 0.0,
-            "relevance_score": 0.0,
-            "artistry_score": 0.0,
-            "consistency_score": 0.0,
-            "efficiency_score": 0.0,
         },
         {
-            "model": "EleutherAI/gpt-neo-125m", # 示例模型3，非常小以确保能加载
-            "model_type": ModelType.LanguageModeling.to_str(),
-            "precision": Precision.float16.value.name,
-            "params": 0.125,
-            "license": "apache-2.0",
-            "still_on_hub": True,
-            "generalization_score": 0.0,
-            "relevance_score": 0.0,
-            "artistry_score": 0.0,
-            "consistency_score": 0.0,
-            "efficiency_score": 0.0,
         }
     ]
     df = pd.DataFrame(all_results)
@@ -144,8 +143,6 @@ def get_evaluation_queue_df(eval_requests_path: str, eval_cols: list):
 # 假设 src.envs 中的 API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, REPO_ID, RESULTS_REPO, TOKEN 可用
 # 如果 TOKEN 未在 src.envs 中定义，您需要在 Hugging Face Space Secrets 中设置 HF_TOKEN。
 # 这里为了能运行，我们直接使用 os.getenv 获取 TOKEN。
-# from src.envs import API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, REPO_ID, RESULTS_REPO, TOKEN
-# 这里需要调整为从环境变量读取，以适应 Hugging Face Space 的最佳实践
 TOKEN = os.getenv("HF_TOKEN") # 确保您的 Space Secrets 中设置了 HF_TOKEN
 # 假设这些路径是可写的，但在此场景下，我们不再依赖它们来存储评估结果
 EVAL_REQUESTS_PATH = "./eval_requests"
@@ -162,6 +159,7 @@ class MockSubmit:
 API = MockAPI()
 add_new_eval = MockSubmit().add_new_eval
 # 预加载模型和分词器
 # 考虑到免费 Space 的资源限制，这里选择较小的模型
@@ -212,11 +210,14 @@ load_models()
 # 模型生成函数
 def generate_text(prompt, max_new_tokens=100):
     outputs = {}
-    for model_id, model_data in loaded_models.items():
         if model_data: # 确保模型已成功加载
             model = model_data["model"]
             tokenizer = model_data["tokenizer"]
-            model_name = model_data["name"]
             try:
                 inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
@@ -237,8 +238,11 @@ def generate_text(prompt, max_new_tokens=100):
             except Exception as e:
                 outputs[model_name] = f"生成失败: {e}"
         else:
-            outputs[model_data["name"]] = "模型未加载或加载失败。"
-    return list(outputs.values()) # 返回一个列表，对应多个输出框
 # 更新排行榜数据函数
 def update_leaderboard(g_score, r_score, a_score, c_score, e_score, model_idx):
@@ -246,9 +250,9 @@ def update_leaderboard(g_score, r_score, a_score, c_score, e_score, model_idx):
     # 假设模型的索引与 MODELS_TO_COMPARE 列表中的顺序一致
     # 在实际应用中，您可能需要更健壮的方式来匹配模型
     if model_idx is not None and 0 <= model_idx < len(MODELS_TO_COMPARE):
-        model_id_to_update = MODELS_TO_COMPARE[model_idx]["id"]
         # 找到 DataFrame 中对应的行
-        row_index = LEADERBOARD_DF[LEADERBOARD_DF['Model'] == MODELS_TO_COMPARE[model_idx]["name"]].index
         if not row_index.empty:
             # 更新 GRACE 分数 (这里假设是从 0.0-1.0 的分数，Gradio 滑块可能输出 0-100)
             # 如果 Gradio 滑块输出 0-100，需要除以 100 转换为 0-1.0
@@ -257,8 +261,8 @@ def update_leaderboard(g_score, r_score, a_score, c_score, e_score, model_idx):
             LEADERBOARD_DF.loc[row_index, 'A: 创新表现力'] = a_score / 100.0
             LEADERBOARD_DF.loc[row_index, 'C: 一致性'] = c_score / 100.0
             LEADERBOARD_DF.loc[row_index, 'E: 效率性'] = e_score / 100.0
-            # 重新排序排行榜 (如果需要根据某个分数排序)
-            LEADERBOARD_DF = LEADERBOARD_DF.sort_values(by=AutoEvalColumn.generalization_score.value.name, ascending=False).reset_index(drop=True)
             return LEADERBOARD_DF
     return LEADERBOARD_DF # 返回更新后的 DataFrame
@@ -284,7 +288,7 @@ def init_leaderboard(dataframe):
             hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
             filter_columns=[],
             bool_checkboxgroup_label="隐藏模型",
-            interactive=False,
         )
     return Leaderboard(
@@ -353,7 +357,7 @@ def init_leaderboard(dataframe):
             ),
         ],
         bool_checkboxgroup_label="隐藏模型",
-        interactive=False,
     )
@@ -388,7 +392,8 @@ with demo:
             model_selector = gr.Dropdown(
                 choices=[(m["name"], idx) for idx, m in enumerate(MODELS_TO_COMPARE)],
                 label="选择要评估的模型",
-                interactive=True
             )
             # GRACE 维度滑块
@@ -401,6 +406,9 @@ with demo:
                 update_grace_button = gr.Button("更新 GRACE 评分到排行榜")
             # 更新排行榜的逻辑
             update_grace_button.click(
                 fn=update_leaderboard,
@@ -417,7 +425,8 @@ with demo:
         with gr.TabItem("🏅 LLM Benchmark", elem_id="llm-benchmark-tab-table", id=1): # 调整 ID
-            leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("📝 关于", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
@@ -425,10 +434,6 @@ with demo:
         with gr.TabItem("🚀 在此提交!", elem_id="llm-benchmark-tab-table", id=3): # 这个标签页保留，但内容将被简化
             gr.Markdown("## 在此演示中，模型已预先加载进行比较，无需提交新模型。", elem_classes="markdown-text")
             gr.Markdown("您可以在 **💬 模型比较与生成** 标签页中输入提示词并评估模型。", elem_classes="markdown-text")
-            # 移除所有提交相关的 UI 元素和逻辑
-            # 但是由于需要保持 add_new_eval 的引用，我们让它返回一个字符串
-            # gr.Textbox(label="模型名称") # 示例：保留一个文本框，但它不会做任何事情
-            # gr.Button("提交评估").click(fn=add_new_eval, inputs=[], outputs=[gr.Markdown()])
             gr.Markdown("（本页面仅用于保留原始结构，实际提交功能已禁用）")

 from gradio_leaderboard import Leaderboard, ColumnFilter, SelectColumns
 import pandas as pd
 from apscheduler.schedulers.background import BackgroundScheduler
 import os
 import json
 from transformers import AutoModelForCausalLM, AutoTokenizer
     # 这里我们不再尝试从文件读取，直接生成模拟数据
     all_results = [
         {
+            "Model": "Gemma 2B Instruct", # 使用友好的名称
+            "Model type": ModelType.LanguageModeling.to_str(),
+            "Precision": Precision.float16.value.name,
+            "Params (B)": 2.0,
+            "License": "apache-2.0",
+            "On Hub": True,
+            "G: 泛化性": 0.0, # 初始为0，等待用户输入
+            "R: 相关性": 0.0,
+            "A: 创新表现力": 0.0,
+            "C: 一致性": 0.0,
+            "E: 效率性": 0.0,
         },
         {
+            "Model": "Phi-2", # 使用友好的名称
+            "Model type": ModelType.LanguageModeling.to_str(),
+            "Precision": Precision.float16.value.name,
+            "Params (B)": 2.7,
+            "License": "mit",
+            "On Hub": True,
+            "G: 泛化性": 0.0,
+            "R: 相关性": 0.0,
+            "A: 创新表现力": 0.0,
+            "C: 一致性": 0.0,
+            "E: 效率性": 0.0,
         },
         {
+            "Model": "GPT-Neo 125M", # 使用友好的名称
+            "Model type": ModelType.LanguageModeling.to_str(),
+            "Precision": Precision.float16.value.name,
+            "Params (B)": 0.125,
+            "License": "apache-2.0",
+            "On Hub": True,
+            "G: 泛化性": 0.0,
+            "R: 相关性": 0.0,
+            "A: 创新表现力": 0.0,
+            "C: 一致性": 0.0,
+            "E: 效率性": 0.0,
         }
     ]
     df = pd.DataFrame(all_results)
 # 假设 src.envs 中的 API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, REPO_ID, RESULTS_REPO, TOKEN 可用
 # 如果 TOKEN 未在 src.envs 中定义，您需要在 Hugging Face Space Secrets 中设置 HF_TOKEN。
 # 这里为了能运行，我们直接使用 os.getenv 获取 TOKEN。
 TOKEN = os.getenv("HF_TOKEN") # 确保您的 Space Secrets 中设置了 HF_TOKEN
 # 假设这些路径是可写的，但在此场景下，我们不再依赖它们来存储评估结果
 EVAL_REQUESTS_PATH = "./eval_requests"
 API = MockAPI()
 add_new_eval = MockSubmit().add_new_eval
+REPO_ID = os.getenv("HF_SPACE_ID", "your-org/your-space-name") # 从环境变量获取 Space ID，或者设置默认值
 # 预加载模型和分词器
 # 考虑到免费 Space 的资源限制，这里选择较小的模型
 # 模型生成函数
 def generate_text(prompt, max_new_tokens=100):
     outputs = {}
+    for model_info in MODELS_TO_COMPARE: # 迭代 MODELS_TO_COMPARE 确保顺序和输出框对应
+        model_id = model_info["id"]
+        model_name = model_info["name"]
+        model_data = loaded_models.get(model_id) # 从 loaded_models 获取数据
         if model_data: # 确保模型已成功加载
             model = model_data["model"]
             tokenizer = model_data["tokenizer"]
             try:
                 inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
             except Exception as e:
                 outputs[model_name] = f"生成失败: {e}"
         else:
+            outputs[model_name] = "模型未加载或加载失败。"
+    # 按照 MODELS_TO_COMPARE 的顺序返回结果
+    ordered_outputs = [outputs.get(m["name"], "模型未加载或加载失败。") for m in MODELS_TO_COMPARE]
+    return ordered_outputs # 返回一个列表，对应多个输出框
 # 更新排行榜数据函数
 def update_leaderboard(g_score, r_score, a_score, c_score, e_score, model_idx):
     # 假设模型的索引与 MODELS_TO_COMPARE 列表中的顺序一致
     # 在实际应用中，您可能需要更健壮的方式来匹配模型
     if model_idx is not None and 0 <= model_idx < len(MODELS_TO_COMPARE):
+        model_name_to_update = MODELS_TO_COMPARE[model_idx]["name"]
         # 找到 DataFrame 中对应的行
+        row_index = LEADERBOARD_DF[LEADERBOARD_DF['Model'] == model_name_to_update].index
         if not row_index.empty:
             # 更新 GRACE 分数 (这里假设是从 0.0-1.0 的分数，Gradio 滑块可能输出 0-100)
             # 如果 Gradio 滑块输出 0-100，需要除以 100 转换为 0-1.0
             LEADERBOARD_DF.loc[row_index, 'A: 创新表现力'] = a_score / 100.0
             LEADERBOARD_DF.loc[row_index, 'C: 一致性'] = c_score / 100.0
             LEADERBOARD_DF.loc[row_index, 'E: 效率性'] = e_score / 100.0
+            # 重新排序排行榜 (如果需要根据某个分数排序，例如泛化性)
+            LEADERBOARD_DF = LEADERBOARD_DF.sort_values(by="G: 泛化性", ascending=False).reset_index(drop=True)
             return LEADERBOARD_DF
     return LEADERBOARD_DF # 返回更新后的 DataFrame
             hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
             filter_columns=[],
             bool_checkboxgroup_label="隐藏模型",
+            interactive=False, # 设置为非交互式
         )
     return Leaderboard(
             ),
         ],
         bool_checkboxgroup_label="隐藏模型",
+        interactive=False, # 设置为非交互式
     )
             model_selector = gr.Dropdown(
                 choices=[(m["name"], idx) for idx, m in enumerate(MODELS_TO_COMPARE)],
                 label="选择要评估的模型",
+                interactive=True,
+                value=MODELS_TO_COMPARE[0]["name"] if MODELS_TO_COMPARE else None # 默认选中第一个模型
             )
             # GRACE 维度滑块
                 update_grace_button = gr.Button("更新 GRACE 评分到排行榜")
+            # Leaderboard 组件需要在被引用的地方先定义
+            leaderboard = init_leaderboard(LEADERBOARD_DF) # 在这里初始化 Leaderboard 组件
             # 更新排行榜的逻辑
             update_grace_button.click(
                 fn=update_leaderboard,
         with gr.TabItem("🏅 LLM Benchmark", elem_id="llm-benchmark-tab-table", id=1): # 调整 ID
+            # Leaderboard 已经在一开始初始化了，这里只是再次引用
+            leaderboard_display = leaderboard # 将初始化后的 Leaderboard 实例赋给一个新的变量以便在这里显示
         with gr.TabItem("📝 关于", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
         with gr.TabItem("🚀 在此提交!", elem_id="llm-benchmark-tab-table", id=3): # 这个标签页保留，但内容将被简化
             gr.Markdown("## 在此演示中，模型已预先加载进行比较，无需提交新模型。", elem_classes="markdown-text")
             gr.Markdown("您可以在 **💬 模型比较与生成** 标签页中输入提示词并评估模型。", elem_classes="markdown-text")
             gr.Markdown("（本页面仅用于保留原始结构，实际提交功能已禁用）")