work

Sleeping

App Files Files Community

sjdnjn commited on Jun 28, 2025

Commit

ba64e27

verified ·

1 Parent(s): 41e010c

Update app.py

Browse files

Files changed (1) hide show

app.py +69 -77

app.py CHANGED Viewed

@@ -1,95 +1,84 @@
 import gradio as gr
 import torch
-from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer
 import pandas as pd
 import plotly.express as px
 import os # 用于检查文件是否存在
 # --- 1. 模型加载 ---
-# 替换为你们实际选择的模型。
-# 记住，每位同学至少负责集成一个模型，以便提交记录均衡。
-# 如果模型很大，加载时间会比较久，或者可能需要更高的 Space 硬件配置。
-# 在免费 Space 上，推荐选择较小的模型进行测试。
-# --- 模型 1: DistilGPT2 (小型通用文本生成模型) ---
-# 负责同学: [牛正武]
 try:
-    model1_name = "distilbert/distilgpt2"
-    # device=0 表示使用第一个GPU，如果没有GPU则使用-1表示CPU
     generator1 = pipeline("text-generation", model=model1_name, device=0 if torch.cuda.is_available() else -1)
-    print(f"✅ 模型 1 ({model1_name}) 加载成功！")
 except Exception as e:
-    print(f"❌ 模型 1 ({model1_name}) 加载失败: {e}")
-    generator1 = None # 如果加载失败，将生成器设为 None
-# --- 模型 2: GPT2 (通用文本生成模型) ---
-# 负责同学: [孙世纪·]
 try:
-    model2_name = "gpt2" # 另一个相对较小的通用文本生成模型
-    generator2 = pipeline("text-generation", model=model2_name, device=0 if torch.cuda.is_available() else -1)
-    print(f"✅ 模型 2 ({model2_name}) 加载成功！")
 except Exception as e:
-    print(f"❌ 模型 2 ({model2_name}) 加载失败: {e}")
-    generator2 = None
-# --- [可选] 模型 3: 你可以根据需要添加第三个模型 ---
-# 例如：一个翻译模型，或者一个专门的对话模型
-# model3_name = "Helsinki-NLP/opus-mt-en-zh" # 这是一个英译中翻译模型
-# try:
-#     translator = pipeline("translation_en_to_zh", model=model3_name, device=0 if torch.cuda.is_available() else -1)
-#     print(f"✅ 模型 3 ({model3_name}) 加载成功！")
-# except Exception as e:
-#     print(f"❌ 模型 3 ({model3_name}) 加载失败: {e}")
-#     translator = None
 # --- 2. 推理函数 ---
-# 这个函数接收统一的用户输入，并调用所有加载成功的模型进行推理。
-def generate_text_outputs(prompt, max_length=100): # 增加 max_length 参数
-    output1 = "模型 1 未加载或生成失败。"
-    output2 = "模型 2 未加载或生成失败。"
-    # output3 = "模型 3 未加载或生成失败。" # 如果有第三个模型
     if generator1:
         try:
-            # 对于文本生成模型，max_new_tokens 控制生成长度
-            gen1_result = generator1(prompt, max_new_tokens=max_length, num_return_sequences=1, truncation=True)
-            output1 = gen1_result[0]['generated_text']
             # 清理：移除输入部分，只保留生成内容
-            if output1.startswith(prompt):
-                output1 = output1[len(prompt):].strip()
         except Exception as e:
-            output1 = f"模型 1 (DistilGPT2) 生成错误: {e}"
-    if generator2:
         try:
-            gen2_result = generator2(prompt, max_new_tokens=max_length, num_return_sequences=1, truncation=True)
-            output2 = gen2_result[0]['generated_text']
-            if output2.startswith(prompt):
-                output2 = output2[len(prompt):].strip()
         except Exception as e:
-            output2 = f"模型 2 (GPT2) 生成错误: {e}"
-    # # 如果有第三个模型
-    # if translator:
-    #     try:
-    #         trans_result = translator(prompt)
-    #         output3 = trans_result[0]['translation_text']
-    #     except Exception as e:
-    #         output3 = f"模型 3 (翻译模型) 生成错误: {e}"
-    return output1, output2 # 如果有第三个模型，这里也需要返回 output3
 # --- 3. GRACE 评估数据（示例数据，请根据你们的实际评估结果修改） ---
-# 这些数据将用于 "LLM Benchmark" 选项卡中的雷达图和表格。
-# 评分范围通常是 1-5 分，分数越高代表表现越好。
 grace_data = {
     "维度": ["Generalization (泛化性)", "Relevance (相关性)", "Artistry (创新表现力)", "Efficiency (效率性)"],
-    # 请替换为你们实际使用的模型名称和评估分数
-    "DistilGPT2": [3.5, 3.0, 2.8, 4.5], # 示例分数
-    "GPT2": [4.0, 3.8, 3.5, 4.0]     # 示例分数
-    # "你的模型3名称": [4.2, 4.5, 4.0, 3.0] # 如果有第三个模型
 }
 grace_df = pd.DataFrame(grace_data)
@@ -116,7 +105,8 @@ def create_benchmark_tab():
     return gr.Column(
         gr.Markdown("## 📊 模型性能对比 (GRACE 评估)"),
-        gr.Markdown("本页展示了我们选用的模型在 GRACE 框架下的评估结果。数据为 1-5 分，分数越高代表表现越好。"),
         gr.Plot(fig, label="GRACE 评估雷达图"),
         gr.Markdown("### GRACE 评估数据"),
         gr.DataFrame(grace_df, label="详细评估数据")
@@ -126,28 +116,30 @@ def create_benchmark_tab():
 def create_arena_tab():
     with gr.Blocks() as arena_block:
         gr.Markdown("## ⚔️ Arena: 模型实时对比")
-        gr.Markdown("在这里，您可以输入一段文本，实时查看不同模型的生成效果，并进行直观对比。")
         with gr.Row():
-            # 统一输入框
-            user_input = gr.Textbox(label="您的输入:", placeholder="请输入您想让模型处理的文本或指令...", lines=3)
-            # 增加生成长度控制
-            gen_length_slider = gr.Slider(minimum=20, maximum=300, value=100, step=10, label="生成文本最大长度")
             generate_btn = gr.Button("🚀 生成并对比")
         with gr.Row():
-            # 模型 1 ���出
-            output_model1 = gr.Textbox(label="模型 1 (DistilGPT2) 输出:", interactive=False, lines=10)
-            # 模型 2 输出
-            output_model2 = gr.Textbox(label="模型 2 (GPT2) 输出:", interactive=False, lines=10)
-            # # 如果有第三个模型
-            # output_model3 = gr.Textbox(label="模型 3 (翻译模型) 输出:", interactive=False, lines=10)
         # 绑定按钮点击事件到推理函数
         generate_btn.click(
-            fn=generate_text_outputs,
-            inputs=[user_input, gen_length_slider],
-            outputs=[output_model1, output_model2] # 如果有第三个模型，这里也需要添加 output_model3
         )
     return arena_block

 import gradio as gr
 import torch
+from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification # 导入AutoTokenizer, AutoModelForSequenceClassification用于问答模型
 import pandas as pd
 import plotly.express as px
 import os # 用于检查文件是否存在
 # --- 1. 模型加载 ---
+# 负责同学: [填写负责这个模型的同学姓名]
+# 注意：QuantFactory/Apollo2-7B-GGUF 模型通常不直接兼容 pipeline("text-generation", ...)
+# 除非有额外的llama.cpp或特定的transformers加载配置。
+# 为了演示和确保运行流畅，这里使用 gpt2-large 作为替代。
 try:
+    model1_name = "gpt2-large" # 替代 QuantFactory/Apollo2-7B-GGUF 以确保兼容性
     generator1 = pipeline("text-generation", model=model1_name, device=0 if torch.cuda.is_available() else -1)
+    print(f"✅ 模型 1 (文本生成: {model1_name}) 加载成功！")
 except Exception as e:
+    print(f"❌ 模型 1 (文本生成: {model1_name}) 加载失败: {e}")
+    generator1 = None
+# 负责同学: [填写负责这个模型的同学姓名]
+# deepset/roberta-base-squad2 是一个问答模型，需要 context
 try:
+    model2_name = "deepset/roberta-base-squad2"
+    qa_model = pipeline("question-answering", model=model2_name, device=0 if torch.cuda.is_available() else -1)
+    print(f"✅ 模型 2 (问答: {model2_name}) 加载成功！")
 except Exception as e:
+    print(f"❌ 模型 2 (问答: {model2_name}) 加载失败: {e}")
+    qa_model = None
 # --- 2. 推理函数 ---
+# 这个函数现在接受一个问题/提示词和一个上下文
+def get_model_outputs(question_or_prompt, context, max_length=100):
+    output_text_gen = "文本生成模型未加载或生成失败。"
+    output_qa = "问答模型未加载或生成失败。"
+    # 模型 1: 文本生成
     if generator1:
         try:
+            # 文本生成模型将问题和上下文作为其prompt的一部分
+            full_prompt_for_gen = f"{question_or_prompt}\nContext: {context}" if context else question_or_prompt
+            gen_result = generator1(full_prompt_for_gen, max_new_tokens=max_length, num_return_sequences=1, truncation=True)
+            output_text_gen = gen_result[0]['generated_text']
             # 清理：移除输入部分，只保留生成内容
+            if output_text_gen.startswith(full_prompt_for_gen):
+                output_text_gen = output_text_gen[len(full_prompt_for_gen):].strip()
         except Exception as e:
+            output_text_gen = f"文本生成模型 ({model1_name}) 错误: {e}"
+    # 模型 2: 问答
+    if qa_model and context: # 问答模型必须有上下文
         try:
+            qa_result = qa_model(question=question_or_prompt, context=context)
+            output_qa = qa_result['answer']
         except Exception as e:
+            output_qa = f"问答模型 ({model2_name}) 错误: {e}"
+    elif qa_model and not context:
+        output_qa = "问答模型需要提供上下文才能回答问题。"
+    return output_text_gen, output_qa
 # --- 3. GRACE 评估数据（示例数据，请根据你们的实际评估结果修改） ---
+# 请根据 gpt2-large 和 deepset/roberta-base-squad2 的实际表现进行评分
 grace_data = {
     "维度": ["Generalization (泛化性)", "Relevance (相关性)", "Artistry (创新表现力)", "Efficiency (效率性)"],
+    # 模型 1: gpt2-large (通用文本生成模型)
+    "GPT2-Large": [
+        4.0, # 泛化性: 能处理多种文本生成任务
+        3.5, # 相关性: 对于特定事实性问题可能不如问答模型精确
+        4.2, # 创新表现力: 生成文本流畅，有一定创造性
+        3.8  # 效率性: 相对 GPT2 较大，但比 Llama-2-7b 小
+    ],
+    # 模型 2: deepset/roberta-base-squad2 (问答模型)
+    "RoBERTa-SQuAD2": [
+        3.0, # 泛化性: 专门用于问答，不能生成开放式文本
+        4.8, # 相关性: 从给定上下文中抽取答案，相关性极高
+        2.0, # 创新表现力: 抽取式问答，无创新表现
+        4.5  # 效率性: 推理速度快，效率高
+    ]
 }
 grace_df = pd.DataFrame(grace_data)
     return gr.Column(
         gr.Markdown("## 📊 模型性能对比 (GRACE 评估)"),
+        gr.Markdown("本页展示了我们选用的模型在 GRACE 框架下的评估结果。数据为 1-5 分，分数越高代表表现越好。\n"
+                    "**注意**: GPT2-Large 主要用于文本生成，RoBERTa-SQuAD2 主要用于问答，它们的评估维度侧重有所不同。"),
         gr.Plot(fig, label="GRACE 评估雷达图"),
         gr.Markdown("### GRACE 评估数据"),
         gr.DataFrame(grace_df, label="详细评估数据")
 def create_arena_tab():
     with gr.Blocks() as arena_block:
         gr.Markdown("## ⚔️ Arena: 模型实时对比")
+        gr.Markdown("在这里，您可以输入一个问题或提示词，并提供一段上下文。文本生成模型将根据问题和上下文生成文本，问答模型将从上下文中抽取答案。")
+        with gr.Row():
+            # 统一输入框 1: 问题/提示词
+            question_input = gr.Textbox(label="问题/提示词:", placeholder="请输入您的问题或想让模型生成的提示词...", lines=3)
+            # 统一输入框 2: 上下文 (主要用于问答模型)
+            context_input = gr.Textbox(label="上下文 (Context):", placeholder="请输入问答模型需要从中抽取答案的上下文...", lines=5)
         with gr.Row():
+            # 增加生成长度控制（主要针对文本生成模型）
+            gen_length_slider = gr.Slider(minimum=20, maximum=300, value=100, step=10, label="文本生成最大长度")
             generate_btn = gr.Button("🚀 生成并对比")
         with gr.Row():
+            # 模型 1 输出 (文本生成)
+            output_text_gen = gr.Textbox(label=f"模型 1 (文本生成: {model1_name}) 输出:", interactive=False, lines=10)
+            # 模型 2 输出 (问答)
+            output_qa = gr.Textbox(label=f"模型 2 (问答: {model2_name}) 输出:", interactive=False, lines=10)
         # 绑定按钮点击事件到推理函数
         generate_btn.click(
+            fn=get_model_outputs,
+            inputs=[question_input, context_input, gen_length_slider],
+            outputs=[output_text_gen, output_qa]
         )
     return arena_block