work1

Sleeping

App Files Files Community

txh17 commited on Jun 28, 2025

Commit

39e5ba2

verified ·

1 Parent(s): e23124c

Update app.py

Browse files

Files changed (1) hide show

app.py +116 -136

app.py CHANGED Viewed

@@ -14,19 +14,19 @@ import re
 MODEL_CONFIGS = {
     "GPT2-Small": {
         "model_name": "gpt2",
-        "description": "OpenAI's GPT-2 small model (124M parameters)",
         "max_length": 100,
         "color": "#FF6B6B"
     },
     "DistilGPT2": {
-        "model_name": "distilgpt2",
-        "description": "Distilled version of GPT-2 (82M parameters)",
         "max_length": 100,
         "color": "#4ECDC4"
     },
     "GPT2-Medium": {
         "model_name": "gpt2-medium",
-        "description": "GPT-2 medium model (355M parameters)",
         "max_length": 100,
         "color": "#45B7D1"
     }
@@ -37,7 +37,7 @@ class TextGenerationComparator:
         self.models = {}
         self.tokenizers = {}
         self.load_models()
     def load_models(self):
         """加载所有文本生成模型"""
         print("正在加载模型...")
@@ -57,12 +57,12 @@ class TextGenerationComparator:
                 print(f"✗ {model_key} 加载失败: {e}")
                 # 创建一个mock模型用于演示
                 self.models[model_key] = None
     def generate_text(self, model_key, prompt, max_length=50, temperature=0.7, top_p=0.9):
         """使用指定模型生成文本"""
         if self.models[model_key] is None:
             return {
-                "generated_text": f"[模型 {model_key} 未正确加载，这是模拟输出] {prompt} and this is a sample continuation of the text...",
                 "inference_time": 0.5,
                 "input_length": len(prompt.split()),
                 "output_length": max_length,
@@ -72,10 +72,10 @@ class TextGenerationComparator:
                     "max_length": max_length
                 }
             }
         try:
             start_time = time.time()
             # 生成文本
             result = self.models[model_key](
                 prompt,
@@ -87,14 +87,14 @@ class TextGenerationComparator:
                 num_return_sequences=1,
                 truncation=True
             )
             end_time = time.time()
             # 提取生成的文本（去除原始prompt）
             generated_text = result[0]['generated_text']
             if generated_text.startswith(prompt):
                 generated_text = generated_text[len(prompt):].strip()
             return {
                 "generated_text": generated_text,
                 "full_text": result[0]['generated_text'],
@@ -107,7 +107,7 @@ class TextGenerationComparator:
                     "max_length": max_length
                 }
             }
         except Exception as e:
             return {
                 "error": f"生成错误: {str(e)}",
@@ -123,36 +123,36 @@ def run_text_generation_comparison(prompt, max_length, temperature, top_p):
     """运行所有模型的文本生成对比"""
     if not prompt.strip():
         return "请输入提示文本", "请输入提示文本", "请输入提示文本"
     results = {}
     for model_key in MODEL_CONFIGS.keys():
         result = comparator.generate_text(
-            model_key,
-            prompt,
             max_length=int(max_length),
             temperature=temperature,
             top_p=top_p
         )
         results[model_key] = result
     # 格式化输出
     def format_result(result):
         if "error" in result:
             return json.dumps(result, indent=2, ensure_ascii=False)
         formatted = {
-            "generated_text": result["generated_text"],
-            "inference_time": f"{result['inference_time']}s",
-            "tokens_generated": result["output_length"],
-            "generation_speed": f"{result['output_length']/max(result['inference_time'], 0.001):.1f} tokens/s"
         }
         return json.dumps(formatted, indent=2, ensure_ascii=False)
     gpt2_result = format_result(results.get("GPT2-Small", {}))
     distilgpt2_result = format_result(results.get("DistilGPT2", {}))
     gpt2_medium_result = format_result(results.get("GPT2-Medium", {}))
     return gpt2_result, distilgpt2_result, gpt2_medium_result
 def calculate_grace_scores_for_generation():
@@ -186,14 +186,15 @@ def calculate_grace_scores_for_generation():
 def create_generation_radar_chart():
     """创建文本生成GRACE评估���达图"""
     grace_scores = calculate_grace_scores_for_generation()
     categories = ['Generalization', 'Relevance', 'Artistry', 'Consistency', 'Efficiency']
     fig = go.Figure()
     for i, (model_name, scores) in enumerate(grace_scores.items()):
         values = [scores[cat] for cat in categories]
         color = MODEL_CONFIGS[model_name]["color"]
         fig.add_trace(go.Scatterpolar(
             r=values,
             theta=categories,
@@ -203,7 +204,7 @@ def create_generation_radar_chart():
             fillcolor=color,
             opacity=0.6
         ))
     fig.update_layout(
         polar=dict(
             radialaxis=dict(
@@ -214,40 +215,31 @@ def create_generation_radar_chart():
         ),
         showlegend=True,
         title={
-            'text': "GRACE Framework: Text Generation Models",
             'x': 0.5,
             'font': {'size': 16}
         },
         width=600,
         height=500
     )
     return fig
 def create_performance_bar_chart():
     """创建性能对比柱状图"""
     grace_scores = calculate_grace_scores_for_generation()
     models = list(grace_scores.keys())
     categories = ['Generalization', 'Relevance', 'Artistry', 'Consistency', 'Efficiency']
     fig = go.Figure()
     colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#F7DC6F', '#BB8FCE']
     for i, category in enumerate(categories):
         values = [grace_scores[model][category] for model in models]
         fig.add_trace(go.Bar(
             name=category,
             x=models,
@@ -255,16 +247,16 @@ def create_performance_bar_chart():
             marker_color=colors[i % len(colors)],
             opacity=0.8
         ))
     fig.update_layout(
-        title='GRACE Framework Detailed Comparison - Text Generation',
-        xaxis_title='Models',
-        yaxis_title='Scores (0-10)',
         barmode='group',
         width=700,
         height=400
     )
     return fig
 def create_model_info_table():
@@ -273,107 +265,96 @@ def create_model_info_table():
     for model_key, config in MODEL_CONFIGS.items():
         # 模拟参数信息
         if "small" in model_key.lower() or model_key == "GPT2-Small":
-            params = "124M"
             size = "~500MB"
         elif "distil" in model_key.lower():
-            params = "82M"
             size = "~350MB"
         else:
-            params = "355M"
             size = "~1.4GB"
         model_info.append({
-            "Model": model_key,
-            "Parameters": params,
-            "Model Size": size,
-            "Description": config["description"],
-            "Max Length": config["max_length"]
         })
     return pd.DataFrame(model_info)
 def create_summary_scores_table():
     """创建评分摘要表"""
     grace_scores = calculate_grace_scores_for_generation()
     summary_data = []
     for model_name, scores in grace_scores.items():
         avg_score = np.mean(list(scores.values()))
         summary_data.append({
-            "Model": model_name,
-            "Generalization": scores["Generalization"],
-            "Relevance": scores["Relevance"],
-            "Artistry": scores["Artistry"],
-            "Consistency": scores["Consistency"],
-            "Efficiency": scores["Efficiency"],
-            "Average": round(avg_score, 2)
         })
     df = pd.DataFrame(summary_data)
     return df
 # 预设的示例提示
 EXAMPLE_PROMPTS = [
-    "Once upon a time in a magical forest,",
-    "The future of artificial intelligence is",
-    "In the year 2050, people will",
-    "The most important lesson I learned was",
-    "Technology has changed our lives by"
 ]
 def create_app():
-    with gr.Blocks(title="Text Generation Model Comparison", theme=gr.themes.Soft()) as app:
-        gr.Markdown("# 📝 Text Generation Model Comparison Arena")
-        gr.Markdown("### Compare GPT-2 variants using the GRACE framework for text generation tasks")
         with gr.Tabs():
             # Arena选项卡
-            with gr.TabItem("🏟️ Generation Arena"):
-                gr.Markdown("## Text Generation Arena")
-                gr.Markdown("Enter a prompt to see how different GPT-2 models continue the text.")
                 with gr.Row():
                     with gr.Column(scale=3):
                         input_prompt = gr.Textbox(
-                            label="Input Prompt",
-                            placeholder="Enter your text prompt here...",
                             lines=3,
-                            value="Once upon a time in a digital world,"
                         )
-                        # 预设示例按钮
                         with gr.Row():
                             example_buttons = []
                             for i, example in enumerate(EXAMPLE_PROMPTS[:3]):
-                                btn = gr.Button(f"Example {i+1}", size="sm")
                                 example_buttons.append(btn)
                     with gr.Column(scale=1):
                         max_length = gr.Slider(
                             minimum=10,
                             maximum=200,
                             value=50,
                             step=10,
-                            label="Max New Tokens"
                         )
                         temperature = gr.Slider(
                             minimum=0.1,
                             maximum=2.0,
                             value=0.7,
                             step=0.1,
-                            label="Temperature"
                         )
                         top_p = gr.Slider(
                             minimum=0.1,
                             maximum=1.0,
@@ -381,83 +362,82 @@ def create_app():
                             step=0.05,
                             label="Top-p"
                         )
-                        submit_btn = gr.Button("🚀 Generate Text", variant="primary", size="lg")
                 # 设置示例按钮点击事件
                 for i, btn in enumerate(example_buttons):
                     btn.click(
                         fn=lambda x=EXAMPLE_PROMPTS[i]: x,
                         outputs=[input_prompt]
                     )
                 with gr.Row():
                     with gr.Column():
                         gpt2_output = gr.Code(
-                            label="GPT2-Small (124M params)",
                             language="json",
-                            value="Click 'Generate Text' to see results"
                         )
                     with gr.Column():
                         distilgpt2_output = gr.Code(
-                            label="DistilGPT2 (82M params)",
                             language="json",
-                            value="Click 'Generate Text' to see results"
                         )
                     with gr.Column():
                         gpt2_medium_output = gr.Code(
-                            label="GPT2-Medium (355M params)",
-                            language="json",
-                            value="Click 'Generate Text' to see results"
                         )
                 submit_btn.click(
                     fn=run_text_generation_comparison,
                     inputs=[input_prompt, max_length, temperature, top_p],
                     outputs=[gpt2_output, distilgpt2_output, gpt2_medium_output]
                 )
             # Benchmark选项卡
-            with gr.TabItem("📊 GRACE Benchmark"):
-                gr.Markdown("## GRACE Framework Evaluation for Text Generation")
                 gr.Markdown("""
-                **GRACE Framework Dimensions for Text Generation:**
-                - **G**eneralization: Ability to handle diverse prompts and topics
-                - **R**elevance: How well the output follows from the input prompt
-                - **A**rtistry: Creativity, coherence, and language quality
-                - **C**onsistency: Reliability and stability across multiple generations
-                - **E**fficiency: Generation speed and computational requirements
                 """)
                 with gr.Row():
                     radar_plot = gr.Plot(
                         value=create_generation_radar_chart(),
-                        label="GRACE Radar Chart"
                     )
                 with gr.Row():
                     bar_plot = gr.Plot(
                         value=create_performance_bar_chart(),
-                        label="Detailed Performance Comparison"
                     )
                 with gr.Row():
                     with gr.Column():
                         model_info_df = create_model_info_table()
                         model_info_table = gr.Dataframe(
                             value=model_info_df,
-                            label="Model Information",
                             interactive=False
                         )
                     with gr.Column():
                         summary_df = create_summary_scores_table()
                         summary_table = gr.Dataframe(
                             value=summary_df,
-                            label="GRACE Scores Summary",
                             interactive=False
                         )
@@ -654,7 +634,7 @@ graph TD
 ## 5. 合作与反思
-### 成员A贡献
 - **负责内容**:
   - 模型集成和pipeline构建
   - Arena界面开发和交互逻辑
@@ -672,7 +652,7 @@ graph TD
   - 生成质量的客观评估方法设计
   - CPU推理性能优化
-### 成员B贡献
 - **负责内容**:
   - GRACE评估框架的文本生成适配
   - 数据可视化和图表制作

 MODEL_CONFIGS = {
     "GPT2-Small": {
         "model_name": "gpt2",
+        "description": "OpenAI的GPT-2小型模型（1.24亿参数）",
         "max_length": 100,
         "color": "#FF6B6B"
     },
     "DistilGPT2": {
+        "model_name": "distilgpt2",
+        "description": "GPT-2的蒸馏版本（8200万参数）",
         "max_length": 100,
         "color": "#4ECDC4"
     },
     "GPT2-Medium": {
         "model_name": "gpt2-medium",
+        "description": "GPT-2中型模型（3.55亿参数）",
         "max_length": 100,
         "color": "#45B7D1"
     }
         self.models = {}
         self.tokenizers = {}
         self.load_models()
     def load_models(self):
         """加载所有文本生成模型"""
         print("正在加载模型...")
                 print(f"✗ {model_key} 加载失败: {e}")
                 # 创建一个mock模型用于演示
                 self.models[model_key] = None
     def generate_text(self, model_key, prompt, max_length=50, temperature=0.7, top_p=0.9):
         """使用指定模型生成文本"""
         if self.models[model_key] is None:
             return {
+                "generated_text": f"[模型 {model_key} 未正确加载，这是模拟输出] {prompt} 这是一个模拟的文本续写...",
                 "inference_time": 0.5,
                 "input_length": len(prompt.split()),
                 "output_length": max_length,
                     "max_length": max_length
                 }
             }
         try:
             start_time = time.time()
             # 生成文本
             result = self.models[model_key](
                 prompt,
                 num_return_sequences=1,
                 truncation=True
             )
             end_time = time.time()
             # 提取生成的文本（去除原始prompt）
             generated_text = result[0]['generated_text']
             if generated_text.startswith(prompt):
                 generated_text = generated_text[len(prompt):].strip()
             return {
                 "generated_text": generated_text,
                 "full_text": result[0]['generated_text'],
                     "max_length": max_length
                 }
             }
         except Exception as e:
             return {
                 "error": f"生成错误: {str(e)}",
     """运行所有模型的文本生成对比"""
     if not prompt.strip():
         return "请输入提示文本", "请输入提示文本", "请输入提示文本"
     results = {}
     for model_key in MODEL_CONFIGS.keys():
         result = comparator.generate_text(
+            model_key,
+            prompt,
             max_length=int(max_length),
             temperature=temperature,
             top_p=top_p
         )
         results[model_key] = result
     # 格式化输出
     def format_result(result):
         if "error" in result:
             return json.dumps(result, indent=2, ensure_ascii=False)
         formatted = {
+            "生成文本": result["generated_text"],
+            "推断时间": f"{result['inference_time']}s",
+            "生成Token数": result["output_length"],
+            "生成速度": f"{result['output_length']/max(result['inference_time'], 0.001):.1f} tokens/s"
         }
         return json.dumps(formatted, indent=2, ensure_ascii=False)
     gpt2_result = format_result(results.get("GPT2-Small", {}))
     distilgpt2_result = format_result(results.get("DistilGPT2", {}))
     gpt2_medium_result = format_result(results.get("GPT2-Medium", {}))
     return gpt2_result, distilgpt2_result, gpt2_medium_result
 def calculate_grace_scores_for_generation():
 def create_generation_radar_chart():
     """创建文本生成GRACE评估���达图"""
     grace_scores = calculate_grace_scores_for_generation()
+    # 类别名称翻译，但在图表中为了保持GRACE框架的名称一致性，这里保留英文，但在标题和描述中会使用中文
     categories = ['Generalization', 'Relevance', 'Artistry', 'Consistency', 'Efficiency']
     fig = go.Figure()
     for i, (model_name, scores) in enumerate(grace_scores.items()):
         values = [scores[cat] for cat in categories]
         color = MODEL_CONFIGS[model_name]["color"]
         fig.add_trace(go.Scatterpolar(
             r=values,
             theta=categories,
             fillcolor=color,
             opacity=0.6
         ))
     fig.update_layout(
         polar=dict(
             radialaxis=dict(
         ),
         showlegend=True,
         title={
+            'text': "GRACE框架：文本生成模型评估",
             'x': 0.5,
             'font': {'size': 16}
         },
         width=600,
         height=500
     )
     return fig
 def create_performance_bar_chart():
     """创建性能对比柱状图"""
     grace_scores = calculate_grace_scores_for_generation()
     models = list(grace_scores.keys())
+    # 类别名称翻译
     categories = ['Generalization', 'Relevance', 'Artistry', 'Consistency', 'Efficiency']
     fig = go.Figure()
     colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#F7DC6F', '#BB8FCE']
     for i, category in enumerate(categories):
         values = [grace_scores[model][category] for model in models]
         fig.add_trace(go.Bar(
             name=category,
             x=models,
             marker_color=colors[i % len(colors)],
             opacity=0.8
         ))
     fig.update_layout(
+        title='GRACE框架详细对比 - 文本生成',
+        xaxis_title='模型',
+        yaxis_title='分数 (0-10)',
         barmode='group',
         width=700,
         height=400
     )
     return fig
 def create_model_info_table():
     for model_key, config in MODEL_CONFIGS.items():
         # 模拟参数信息
         if "small" in model_key.lower() or model_key == "GPT2-Small":
+            params = "1.24亿"
             size = "~500MB"
         elif "distil" in model_key.lower():
+            params = "8200万"
             size = "~350MB"
         else:
+            params = "3.55亿"
             size = "~1.4GB"
         model_info.append({
+            "模型": model_key,
+            "参数量": params,
+            "模型大小": size,
+            "描述": config["description"],
+            "最大长度": config["max_length"]
         })
     return pd.DataFrame(model_info)
 def create_summary_scores_table():
     """创建评分摘要表"""
     grace_scores = calculate_grace_scores_for_generation()
     summary_data = []
     for model_name, scores in grace_scores.items():
         avg_score = np.mean(list(scores.values()))
         summary_data.append({
+            "模型": model_name,
+            "泛化性": scores["Generalization"],
+            "相关性": scores["Relevance"],
+            "艺术性": scores["Artistry"],
+            "一致性": scores["Consistency"],
+            "效率性": scores["Efficiency"],
+            "平均分": round(avg_score, 2)
         })
     df = pd.DataFrame(summary_data)
     return df
 # 预设的示例提示
 EXAMPLE_PROMPTS = [
+    "很久很久以前，在一个魔法森林里，",
+    "人工智能的未来是",
+    "在2050年，人们将会",
+    "我学到的最重要的一课是",
+    "科技改变了我们的生活，因为"
 ]
 def create_app():
+    with gr.Blocks(title="文本生成模型对比", theme=gr.themes.Soft()) as app:
+        gr.Markdown("# 📝 文本生成模型对比竞技场")
+        gr.Markdown("### 使用GRACE框架对比不同GPT-2模型在文本生成任务中的表现")
         with gr.Tabs():
             # Arena选项卡
+            with gr.TabItem("🏟️ 生成竞技场"):
+                gr.Markdown("## 文本生成竞技场")
+                gr.Markdown("输入一个提示文本，查看不同GPT-2模型如何续写。")
                 with gr.Row():
                     with gr.Column(scale=3):
                         input_prompt = gr.Textbox(
+                            label="输入提示文本",
+                            placeholder="请在这里输入您的文本提示...",
                             lines=3,
+                            value="很久很久以前，在一个数字世界里，"
                         )
+                        # 预设示例按钮
                         with gr.Row():
                             example_buttons = []
                             for i, example in enumerate(EXAMPLE_PROMPTS[:3]):
+                                btn = gr.Button(f"示例 {i+1}", size="sm")
                                 example_buttons.append(btn)
                     with gr.Column(scale=1):
                         max_length = gr.Slider(
                             minimum=10,
                             maximum=200,
                             value=50,
                             step=10,
+                            label="最大新Token数"
                         )
                         temperature = gr.Slider(
                             minimum=0.1,
                             maximum=2.0,
                             value=0.7,
                             step=0.1,
+                            label="温度 (Temperature)"
                         )
                         top_p = gr.Slider(
                             minimum=0.1,
                             maximum=1.0,
                             step=0.05,
                             label="Top-p"
                         )
+                        submit_btn = gr.Button("🚀 生成文本", variant="primary", size="lg")
                 # 设置示例按钮点击事件
                 for i, btn in enumerate(example_buttons):
                     btn.click(
                         fn=lambda x=EXAMPLE_PROMPTS[i]: x,
                         outputs=[input_prompt]
                     )
                 with gr.Row():
                     with gr.Column():
                         gpt2_output = gr.Code(
+                            label="GPT2-Small (1.24亿参数)",
                             language="json",
+                            value="点击“生成文本”查看结果"
                         )
                     with gr.Column():
                         distilgpt2_output = gr.Code(
+                            label="DistilGPT2 (8200万参数)",
                             language="json",
+                            value="点击“生成文本”查看结果"
                         )
                     with gr.Column():
                         gpt2_medium_output = gr.Code(
+                            label="GPT2-Medium (3.55亿参数)",
+                            language="json",
+                            value="点击“生成文本”查看结���"
                         )
                 submit_btn.click(
                     fn=run_text_generation_comparison,
                     inputs=[input_prompt, max_length, temperature, top_p],
                     outputs=[gpt2_output, distilgpt2_output, gpt2_medium_output]
                 )
             # Benchmark选项卡
+            with gr.TabItem("📊 GRACE 基准测试"):
+                gr.Markdown("## GRACE框架对文本生成的评估")
                 gr.Markdown("""
+                **GRACE框架在文本生成中的维度定义：**
+                - **G**eneralization (泛化性): 处理多样化提示和主题的能力
+                - **R**elevance (相关性): 输出与输入提示的逻辑连贯性
+                - **A**rtistry (艺术性): 创造性、连贯性和语言质量
+                - **C**onsistency (一致性): 多次生成时的可靠性和稳定性
+                - **E**fficiency (效率性): 生成速度和计算资源需求
                 """)
                 with gr.Row():
                     radar_plot = gr.Plot(
                         value=create_generation_radar_chart(),
+                        label="GRACE 雷达图"
                     )
                 with gr.Row():
                     bar_plot = gr.Plot(
                         value=create_performance_bar_chart(),
+                        label="详细性能对比"
                     )
                 with gr.Row():
                     with gr.Column():
                         model_info_df = create_model_info_table()
                         model_info_table = gr.Dataframe(
                             value=model_info_df,
+                            label="模型信息",
                             interactive=False
                         )
                     with gr.Column():
                         summary_df = create_summary_scores_table()
                         summary_table = gr.Dataframe(
                             value=summary_df,
+                            label="GRACE 评分摘要",
                             interactive=False
                         )
 ## 5. 合作与反思
+### 成员一：谭秀辉
 - **负责内容**:
   - 模型集成和pipeline构建
   - Arena界面开发和交互逻辑
   - 生成质量的客观评估方法设计
   - CPU推理性能优化
+### 成员二：王旌旗
 - **负责内容**:
   - GRACE评估框架的文本生成适配
   - 数据可视化和图表制作