hellokawei commited on
Commit
0402094
·
verified ·
1 Parent(s): 572ddac

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +1 -35
app.py CHANGED
@@ -30,43 +30,9 @@ GRACE 框架是一个多维度评估框架,用于全面衡量 LLM 在特定任
30
  * **GRACE 详细性能对比柱状图**: (下图为报告生成时的示例)
31
 
32
  ## 5. 部署与提交问题
33
- 成员 A:系统设计与前端开发
34
- 负责内容:
35
-
36
- 基于 Gradio 构建前端交互界面,设计 “翻译竞技场” 和 “GRACE 基准测试” 两个功能模块。
37
- 实现用户输入文本处理、模型翻译结果展示及动态交互逻辑。
38
- 整合示例文本功能和参数调节滑块,优化用户体验。
39
-
40
- 学到的内容:
41
-
42
- Gradio 框架的组件布局与事件监听机制,掌握 Blocks、Tab、Row 等容器组件的嵌套使用。
43
- 前端与后端数据传输的格式处理,例如将模型翻译结果格式化为 JSON 并在 Code 组件中展示。
44
- 响应式设计原则,确保界面在不同设备上的兼容性。
45
-
46
- 遇到的困难:
47
-
48
- 多模型并行翻译时前端加载速度优化问题,通过异步处理和模型预加载缓解延迟。
49
- Gradio 组件样式定制限制,部分交互效果需通过 JavaScript 脚本间接实现。
50
- 成员 B:前端开发与评估可视化
51
- 负责内容:
52
-
53
- 基于 Gradio 构建交互式界面,设计 “翻译竞技场” 和 “GRACE 基准测试” 双模块,实现用户输入、模型输出展示及参数调节功能。
54
- 开发 GRACE 评估可视化组件,包括雷达图(create_translation_radar_chart)、柱状图(create_performance_bar_chart)及数据表格。
55
- 整合示例文本功能与动态布局,优化响应式设计以适配不同设备。
56
-
57
- 学到的内容:
58
-
59
- Gradio 框架的组件嵌套逻辑(Blocks/Tab/Row),掌握事件监听(如按钮点击、滑块调节)与数据绑定机制。
60
- Plotly 图表开发技巧,例如雷达图中多模型曲线的颜色编码、分组柱状图的维度映射。
61
- 前端数据格式化处理,将模型翻译结果转换为 JSON 格式并在 Code 组件中高亮展示。
62
-
63
- 遇到的困难:
64
-
65
- 多模型翻译结果同时渲染时的界面卡顿问题,通过分批加载和虚拟滚动技术优化。
66
- 雷达图中评估维度(泛化性、准确性等)的视觉权重平衡,需反复调整坐标轴范围与标签显示策略。
67
  在开发和部署 LLM 基准测试系统时,常遇到“模型未找到”(因私有性或访问权限问题)和 `trust_remote_code=True` 安全警告(平台出于安全考虑拒绝自动提交此类模型) 两类问题。解决方案是选择公开可用的模型,并避免使用需要 `trust_remote_code=True` 的模型进行平台提交。
68
  ## 6. 结论与展望
69
- #本项目成功构建了一个中文到英文翻译模型对比评估系统,并利用 GRACE 框架对 Opus-MT、T5-Small 和 mBART-Large 进行了多维度分析。结果显示,专门和大型模型在质量上表现优异,而小型通用模型在效率上优势明显。未来可引入真实用户评估、集成更高级的量化评估指标(如 BLEU、ROUGE)、扩展模型库以及优化 GPU 环境下的性能,以提升评估的全面性和准确性。
70
  """
71
  import gradio as gr
72
  import pandas as pd
 
30
  * **GRACE 详细性能对比柱状图**: (下图为报告生成时的示例)
31
 
32
  ## 5. 部署与提交问题
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
33
  在开发和部署 LLM 基准测试系统时,常遇到“模型未找到”(因私有性或访问权限问题)和 `trust_remote_code=True` 安全警告(平台出于安全考虑拒绝自动提交此类模型) 两类问题。解决方案是选择公开可用的模型,并避免使用需要 `trust_remote_code=True` 的模型进行平台提交。
34
  ## 6. 结论与展望
35
+ 本项目成功构建了一个中文到英文翻译模型对比评估系统,并利用 GRACE 框架对 Opus-MT、T5-Small 和 mBART-Large 进行了多维度分析。结果显示,专门和大型模型在质量上表现优异,而小型通用模型在效率上优势明显。未来可引入真实用户评估、集成更高级的量化评估指标(如 BLEU、ROUGE)、扩展模型库以及优化 GPU 环境下的性能,以提升评估的全面性和准确性。
36
  """
37
  import gradio as gr
38
  import pandas as pd