ixim commited on
Commit
01c7bb4
·
verified ·
1 Parent(s): 8a5079c

Remove inaccurate summary.

Browse files
Files changed (1) hide show
  1. examples/benchmark_summary.json +0 -446
examples/benchmark_summary.json DELETED
@@ -1,446 +0,0 @@
1
- {
2
- "benchmark_config": {
3
- "prompt_file": "benchmark_formal_prompts.json",
4
- "prompt_count": 7,
5
- "prompt_names": [
6
- "zh_portrait_studio_east_asian",
7
- "zh_poster_dense_text",
8
- "zh_infographic_wide",
9
- "zh_browser_ui_article",
10
- "en_storyboard_dialogue",
11
- "zh_sticker_grid",
12
- "en_backlit_street_photo"
13
- ],
14
- "seed": 42,
15
- "max_prompts": null
16
- },
17
- "variant_configs": {
18
- "int8_pe_bf16_use_pe": {
19
- "steps": 50,
20
- "guidance_scale": 4.0,
21
- "use_pe": true,
22
- "official_preset": "ernie-image",
23
- "quantize_pe": false,
24
- "pe_skip_modules": []
25
- },
26
- "int8_pe_int8_use_pe": {
27
- "steps": 50,
28
- "guidance_scale": 4.0,
29
- "use_pe": true,
30
- "official_preset": "ernie-image",
31
- "quantize_pe": true,
32
- "pe_skip_modules": [
33
- "norm",
34
- "layer_norm",
35
- "ln",
36
- "embed_tokens",
37
- "lm_head",
38
- "proj_out"
39
- ]
40
- },
41
- "int8_no_pe": {
42
- "steps": 50,
43
- "guidance_scale": 4.0,
44
- "use_pe": false,
45
- "official_preset": "ernie-image-no-pe",
46
- "quantize_pe": false,
47
- "pe_skip_modules": []
48
- },
49
- "turbo_reference": {
50
- "steps": 8,
51
- "guidance_scale": 1.0,
52
- "use_pe": true,
53
- "official_preset": "ernie-image-turbo",
54
- "quantize_pe": false,
55
- "pe_skip_modules": []
56
- }
57
- },
58
- "variant_labels": {
59
- "int8_pe_bf16_use_pe": "transformer-int8 + pe-bf16 + use_pe=true",
60
- "int8_pe_int8_use_pe": "transformer-int8 + pe-int8 + use_pe=true",
61
- "int8_no_pe": "transformer-int8 + use_pe=false",
62
- "turbo_reference": "ERNIE-Image-Turbo Reference"
63
- },
64
- "comparison_groups": {
65
- "primary": [
66
- "int8_pe_bf16_use_pe",
67
- "int8_pe_int8_use_pe",
68
- "int8_no_pe"
69
- ],
70
- "supplementary": [
71
- "turbo_reference"
72
- ]
73
- },
74
- "int8_pe_bf16_use_pe": [
75
- {
76
- "name": "zh_poster_dense_text",
77
- "model_dir": "ERNIE-Image-INT8",
78
- "latency_ms": 71753,
79
- "output_path": "examples/int8_pe_bf16_use_pe/zh_poster_dense_text.png",
80
- "revised_prompt": "这是一张面向人工智能产业大会的宣传海报,采用竖版构图,整体呈现现代编辑设计风格。海报顶部以大型衬线字体显示中文主标题'生成式 AI 设计论坛 2026',其下方以较小字号衬线字体呈现英文副标题'GenAI Design Forum 2026'。画面中部偏下位置水平排列着三行议程信息,每行均以英文单引号包裹:第一行为'09:30 Keynote',第二行为'13:30 Product Demo',第三行为'16:00 Panel Discussion',其中日期数字采用无衬线字体,标题采用衬线字体。海报底部中央设有一个圆角矩形按钮,内嵌中文文案'立即报名'。整体色调以中性灰、米白和深灰为主,辅以琥珀色作为视觉点缀,背景带有微妙的光线渐变效果,营造出简洁而专业的视觉层级。文字排版清晰,中英混排,留白充足,呈现出精确的版式设计。",
81
- "vram_allocated_mib_before": 21722,
82
- "vram_reserved_mib_before": 21772,
83
- "peak_vram_allocated_mib": 24236,
84
- "peak_vram_reserved_mib": 27912,
85
- "vram_allocated_mib_after": 21732,
86
- "vram_reserved_mib_after": 27912
87
- },
88
- {
89
- "name": "zh_infographic_wide",
90
- "model_dir": "ERNIE-Image-INT8",
91
- "latency_ms": 72318,
92
- "output_path": "examples/int8_pe_bf16_use_pe/zh_infographic_wide.png",
93
- "revised_prompt": "这是一张宽幅科普信息图,采用深蓝色背景搭配浅蓝色网格纹理,呈现卡片式结构的知识图谱布局。图像顶部中央以粗体白色字体显示主标题'多模态系统评测框架',其下方以较小字号标注副标题'Multimodal Evaluation Stack'。画面主体分为三个垂直区块:左侧区块标题为'输入层',内含四个白色圆角矩形标签,自上而下依次为'文本'、'图像'、'布局'、'知识',各标签间以蓝色箭头连接;中间区块标题为'推理层',同样包含四个白色圆角矩形标签,自上而下依次为'实体对齐'、'长文本渲染'、'关系推理'、'知识图谱',各标签间以蓝色箭头连接;右侧区块标题为'输出层',包含四个白色圆角矩形标签,自上而下依次为'海报'、'网页截图'、'信息图'、'分镜漫画',各标签间以蓝色箭头连接。各区块之间通过蓝色箭头明确指示数据流向,整体构图清晰,视觉层次分明。",
94
- "vram_allocated_mib_before": 21732,
95
- "vram_reserved_mib_before": 27912,
96
- "peak_vram_allocated_mib": 24201,
97
- "peak_vram_reserved_mib": 27914,
98
- "vram_allocated_mib_after": 21732,
99
- "vram_reserved_mib_after": 27914
100
- },
101
- {
102
- "name": "zh_browser_ui_article",
103
- "model_dir": "ERNIE-Image-INT8",
104
- "latency_ms": 74728,
105
- "output_path": "examples/int8_pe_bf16_use_pe/zh_browser_ui_article.png",
106
- "revised_prompt": "这是��张桌面端浏览器网页截图,展示了一个名为'AI Insights'的技术文章网站。页面顶部左侧显示品牌标识'AI Insights',右侧是浏览器地址栏,显示URL'https://www.ai-insights.com/intro-to-llms'。页面主体采用简洁的白色背景设计,顶部导航栏从左至右依次排列四个菜单项'Articles'、'Benchmarks'、'Tutorials'和'About',右上角有一个圆角矩形按钮,内文为'Subscribe'。页面主内容区域顶部是一个大号加粗的主标题'Understanding Large Language Models'。标题下方是一段正文文字:'Large language models (LLMs) are AI systems trained on massive datasets. They understand context and generate text, enabling tasks like chatbots and code generation. LLMs use transformer architecture and attention mechanisms to process information efficiently. This guide explores their architecture, training, and applications.'。正文下方水平排列三个圆角矩形摘要卡片,每个卡片包含黑色标题和灰色说明文字:左侧卡片标题为'Tokenization',说明文字为'Breaking text into units for processing.';中间卡片标题为'Inference',说明文字为'Generating text from the model in real-time.';右侧卡片标题为'Fine-tuning',说明文字为'Adjusting the model for specific tasks.'。页面最上方可见浏览器标签页,显示标题'Introduction to LLMs'。整体布局清晰,文字排版规范,呈现出专业的技术文档风格。",
107
- "vram_allocated_mib_before": 21732,
108
- "vram_reserved_mib_before": 27914,
109
- "peak_vram_allocated_mib": 24237,
110
- "peak_vram_reserved_mib": 27916,
111
- "vram_allocated_mib_after": 21732,
112
- "vram_reserved_mib_after": 27916
113
- },
114
- {
115
- "name": "en_storyboard_dialogue",
116
- "model_dir": "ERNIE-Image-INT8",
117
- "latency_ms": 93052,
118
- "output_path": "examples/int8_pe_bf16_use_pe/en_storyboard_dialogue.png",
119
- "revised_prompt": "这是一张采用四格分镜构图的叙事漫画插画,比例为1200x896,展示了一名工程师调试图像生成服务的全过程。画面由四个等大的矩形面板组成,面板之间有清晰的黑色边框分隔,整体色调随剧情推进从冷色调转为暖色调,最后回归清晰明亮。\n\n第一格(左上):画面标题为 'Cold Start'。一名戴着黑框眼镜、穿着深蓝色连帽衫的年轻男性工程师正坐在凌乱的电脑桌前。他身体前倾,左手撑着额头,右手揉着眼睛,表情显得疲惫且无奈。电脑屏幕上显示着一个名为 'ImageGen' 的界面,界面上方有一个红色的闪烁圆点,下方的状态栏写着 'System Status: Booting...'。在工程师头部的上方有一个白色的小气泡,里面写着文字:'Ugh, it's always so slow on startup...'。\n\n第二格(右上):画面标题为 'Prompt Rewrite'。工程师坐在桌前,眼神变得专注,正在敲击键盘。屏幕上弹出了一个代码编辑器窗口,窗口标题为 'prompt.json'。窗口内清晰可见两行代码:第一行是 '{\"prompt\": \"A cyberpunk city at night, neon lights\", \"negative_prompt\": \"blurry, low quality\"}',第二行是用绿色高亮标出的新写法:'{\"prompt\": \"Cyberpunk city at night, glowing neon signs, high resolution\", \"negative_prompt\": \"blurry, low quality, deformed\"}'。在工程师的头部旁边有一个对话气泡,文字为:'I'll tweak the prompt to make the resolution better.'。\n\n第三格(左下):画面标题为 'Quantized DiT'。工程师神情严肃,正在查看服务器的日志终端。终端窗口背景为深灰色,上面布满了绿色的文字。第一行是 'Loading model weights...',第二行是 'Applying Quantization...',第三行是 'Quantization complete. Model size reduced by 80%.'。在画面的右侧,有一个半透明的技术参数浮窗,上面写着:'Parameters: 8-bit INT4'。工程师头部的对话气泡内容为:'Quantized DiT is the key to saving memory.'。\n\n第四格(右下):画面标题为 'Benchmark Pass'。画面转为明亮的暖色调,工程师面带灿烂的微笑,双臂高举,展现出胜利的姿态。他面前的电脑屏幕是一个巨大的成功界面,中心位置用醒目的粗体字写着 'Benchmark Pass!'。下方有一行小字:'Total Latency: 120ms',右下角有一个绿色的勾选图标。在工程师的头部上方,有一个巨大的对话气泡,里面写着:'Mission Accomplished! The service is finally fast enough!'。整个画面构图工整,人物形象一致,展现了从低效到高效的系统优化过程。",
120
- "vram_allocated_mib_before": 21732,
121
- "vram_reserved_mib_before": 27916,
122
- "peak_vram_allocated_mib": 24253,
123
- "peak_vram_reserved_mib": 28968,
124
- "vram_allocated_mib_after": 21732,
125
- "vram_reserved_mib_after": 28968
126
- },
127
- {
128
- "name": "zh_sticker_grid",
129
- "model_dir": "ERNIE-Image-INT8",
130
- "latency_ms": 92627,
131
- "output_path": "examples/int8_pe_bf16_use_pe/zh_sticker_grid.png",
132
- "revised_prompt": "一张4行6列的Q版(Chibi)风格贴纸合集图,整体呈现为一个整齐的网格布局,背景为纯白色。合集中共有24个独立的圆形或圆角矩形贴纸,每个贴纸内都描绘了同一名短发少女的Q版形象。这名少女拥有整齐的黑色短发,头顶戴着一对白色的猫耳发饰,额头上系着一个醒目的红色大蝴蝶结发带。她穿着一套经典的蓝白配色水手服,领口有白色的条纹装饰。每个贴纸内的少女表情和动作各不相同,线条圆润,色彩明快。贴纸的具体内容如下:第一行从左到右依次为:少女闭眼微笑,脸颊微红,下方配有文字'收到';少女双手握拳举起,表情坚定,下方配有文字'加油';少女睁大圆圆的眼睛,露出灿烂笑容,下方配有文字'太棒了';少女头微微歪向一侧,双手交叠在胸前,神情平静,下方配有文字'开会中';少女一只手托着下巴,眼神略显迷离,下方配有文字'晚点回';少女双手捧着一个小物件,脸上洋溢着惊喜,下方配有文字'马上来'。第二行依次为:少女头顶漂浮着一个黄色的问号,表情困惑,下方配有文字'是什么?';少女正在做一个大幅度的跳跃动作,下方配有文字'跳起来';少女手里拿着一个白色的茶杯,下方配有文字'喝茶';少女正伸出一只手指向前方,下方配有文字'看看';少女双手抱胸,表情严肃,下方配有文字'严肃';少女正在用力拉扯自己的蝴蝶结,下方配有文字'拉拉'。第三行依次为:少女手里拿着一本翻开的书,下方配有文字'学习';少女正在向上挥手,下方配有文字'打招呼';少女正对着镜头竖起大拇指,下方配有文字'赞';少女正在用力推开一扇门,下方配有文字'开门';少女正在向后仰头大笑,下方配有文字'笑了';少女正在向前奔跑,下方配有文字'跑'。第四行依次为:少女正在用力抓挠头部,下方配有文字'头疼';少女正在吹一个粉色的气泡,下方配有文字'吹气';少女正在用手指点着自己的鼻尖,下方配有文字'嗅嗅';少女正在向上伸手抓取,下方配有文字'抓抓';少女正在向后拉扯自己的发带,下方配有文字'拉拉';少女正在用手指点着自己的鼻尖,下方配有文字'嗅嗅'。整张图构图均衡,光影柔和,呈现出一种可爱的日系二次元插画风格。",
133
- "vram_allocated_mib_before": 21732,
134
- "vram_reserved_mib_before": 28968,
135
- "peak_vram_allocated_mib": 24187,
136
- "peak_vram_reserved_mib": 28968,
137
- "vram_allocated_mib_after": 21732,
138
- "vram_reserved_mib_after": 28968
139
- },
140
- {
141
- "name": "en_backlit_street_photo",
142
- "model_dir": "ERNIE-Image-INT8",
143
- "latency_ms": 71049,
144
- "output_path": "examples/int8_pe_bf16_use_pe/en_backlit_street_photo.png",
145
- "revised_prompt": "这是一张具有电影质感的街景摄影照片,呈现黄昏时分户外步行街的场景。画面主体为铺设整齐的灰色方形瓷砖地面,中央有一条醒目的黄色触觉引导带,以斜向角度从左下方向右上方延伸,引导视线。强烈的自然光线从画面右侧斜射入,在地面形成长条状的明亮光斑与深邃阴影,光束呈对角线方向贯穿画面。画面右侧前景处有一名骑自行车的人,背对镜头,身着深色衣物,正向远方骑行。左侧人行道上有数位行人,呈现半剪影状态,姿态自然,有的结伴行走,有的独自前行。背景中可见建筑物的立面、树木以及远处模糊的人群,整体环境呈现出开放式的商业步行街特征。画面色调温暖,以金棕色和深灰色为主,光影对比强烈,构图具有纵深感,展现了城市公共空间在傍晚时分的静谧氛围。",
146
- "vram_allocated_mib_before": 21732,
147
- "vram_reserved_mib_before": 28968,
148
- "peak_vram_allocated_mib": 24236,
149
- "peak_vram_reserved_mib": 28968,
150
- "vram_allocated_mib_after": 21732,
151
- "vram_reserved_mib_after": 28968
152
- },
153
- {
154
- "name": "zh_portrait_studio_east_asian",
155
- "model_dir": "ERNIE-Image-INT8",
156
- "latency_ms": 70842,
157
- "output_path": "examples/int8_pe_bf16_use_pe/zh_portrait_studio_east_asian.png",
158
- "revised_prompt": "这是一张人物肖像摄影照片,主体为一位年轻的东亚女性。她位于画面中央,身体略微向左侧倾斜,脸部正对镜头,目光直视前方,表情平静温婉。她留着黑色的长发,头发整齐地向后梳理并扎起,露出光洁的额头和清晰的五官。她的妆容精致,有着棕色的眉毛、深邃的眼线和自然的红润唇色,皮肤白皙细腻,光影在她的面部形成柔和的立体感。她身穿一件黑色的高领针织衫,领口紧贴颈部,颈部佩戴着一条细银色项链,吊坠小巧精致。背景为纯色的浅灰色墙面,没有任何装饰或杂物,突出了人物主体��光线均匀柔和,从正面略偏上方照射,使人物面部没有明显的阴影,整体色调自然、清新,具有典型的高清人像摄影风格。画面中没有可见的文字、水印或特殊标记。",
159
- "vram_allocated_mib_before": 21732,
160
- "vram_reserved_mib_before": 28968,
161
- "peak_vram_allocated_mib": 24236,
162
- "peak_vram_reserved_mib": 28968,
163
- "vram_allocated_mib_after": 21732,
164
- "vram_reserved_mib_after": 28968
165
- }
166
- ],
167
- "int8_pe_int8_use_pe": [
168
- {
169
- "name": "zh_poster_dense_text",
170
- "model_dir": "ERNIE-Image-INT8",
171
- "latency_ms": 73674,
172
- "output_path": "examples/int8_pe_int8_use_pe/zh_poster_dense_text.png",
173
- "revised_prompt": "这是一张面向人工智能产业大会的竖版宣传海报,采用现代编辑设计风格。画面以纯白色为背景,文字采用清晰可读的无衬线字体,中英混排并配有中英双语对照。海报顶部以大号粗体黑色字体显示中文主标题'生成式 AI 设计论坛 2026',其下方以较小字号标注英文副标题'GenAI Design Forum 2026'。中部区域以三行列表形式呈现活动议程:第一行显示'09:30 Keynote'与'09:30 开幕致辞',第二行显示'13:30 Product Demo'与'13:30 产品演示',第三行显示'16:00 Panel Discussion'与'16:00 论坛讨论'。画面底部中央设有一个圆角矩形按钮,内嵌文字'立即报名'。整体设计强调版式层级与精确留白,画面中可见几处琥珀色的光斑点缀,营造出简洁而专业的视觉效果。",
174
- "vram_allocated_mib_before": 18849,
175
- "vram_reserved_mib_before": 22078,
176
- "peak_vram_allocated_mib": 21353,
177
- "peak_vram_reserved_mib": 28118,
178
- "vram_allocated_mib_after": 18849,
179
- "vram_reserved_mib_after": 28118
180
- },
181
- {
182
- "name": "zh_infographic_wide",
183
- "model_dir": "ERNIE-Image-INT8",
184
- "latency_ms": 80810,
185
- "output_path": "examples/int8_pe_int8_use_pe/zh_infographic_wide.png",
186
- "revised_prompt": "这是一张宽幅的科普信息图,采用卡片式设计和卡通风格,主题为'多模态系统评测框架'。图片顶部中央以粗体大字显示主标题'多模态系统评测框架',其下方是副标题'Multimodal Evaluation Stack'。整体背景为深蓝色,带有浅蓝色网格纹理,营造出科技感。\n\n画面分为三个主要区域,每个区域包含一个标题和三个子项,通过蓝色箭头连接。左侧区域标题为'输入层',包含三个子项:'文本'(下方标注'JSON, Markdown')、'图像'(下方标注'PNG, JPG')、'布局'(下方标注'HTML, SVG'),三个子项均配有对应的卡通图标。中间区域标题为'推理层',包含三个子项:'实体对齐'(下方标注'JSON')、'长文本渲染'(下方标注'JSON')、'关系推理'(下方标注'JSON'),每个子项右侧都有一个蓝色的齿轮图标。右侧区域标题为'输出层',包含三个子项:'海报'(下方标注'PDF, PNG')、'网页截图'(下方标注'HTML, SVG')、'信息图'(下方标注'PDF, PNG')、'分镜漫画'(下方标注'PDF, PNG'),每个子项右侧配有相应的卡通图标。\n\n各层级之间通过蓝色箭头连接,箭头上标注有'JSON'字样,表示数据格式转换关系。整体色调以蓝色为主,搭配白色文字和图标,视觉层次清晰,信息传达明确。",
187
- "vram_allocated_mib_before": 18849,
188
- "vram_reserved_mib_before": 28118,
189
- "peak_vram_allocated_mib": 21319,
190
- "peak_vram_reserved_mib": 28120,
191
- "vram_allocated_mib_after": 18849,
192
- "vram_reserved_mib_after": 28120
193
- },
194
- {
195
- "name": "zh_browser_ui_article",
196
- "model_dir": "ERNIE-Image-INT8",
197
- "latency_ms": 76007,
198
- "output_path": "examples/int8_pe_int8_use_pe/zh_browser_ui_article.png",
199
- "revised_prompt": "这是一张桌面端浏览器网页界面截图,显示名为'AI Insights'的技术博客网站。页面采用简洁的白色背景设计,顶部导航栏左侧显示品牌标识'AI Insights',右侧水平排列四个导航菜单:'Articles'、'Benchmarks'、'Tutorials'和'About',最右侧有一个圆角按钮显示'Subscribe'。浏览器标签页标题为'Introduction to LLMs',地址栏显示URL'https://www.ai-insights.com/intro-to-llms'。页面主体内容区域顶部是主标题'Understanding Large Language Models',下方水平排列三个白色圆角卡片,分别为'Tokenization'(下方小字'Exploring how text is broken into tokens.')、'Inference'(下方小字'Modeling the generation of text sequences.')和'Fine-tuning'(下方小字'Adapting models to specific tasks.')。页面底部为'Latest Insights'区域,包含两张水平排列的卡片:左侧卡片标题为'Advancements in Generative Models',配有灰色人形图标;右侧卡片标题为'Emerging Trends in AI Research',配有灰色柱状图图标。整体设计风格干净现代,信息密度高,文字清晰可读。",
200
- "vram_allocated_mib_before": 18849,
201
- "vram_reserved_mib_before": 28120,
202
- "peak_vram_allocated_mib": 21353,
203
- "peak_vram_reserved_mib": 28120,
204
- "vram_allocated_mib_after": 18849,
205
- "vram_reserved_mib_after": 28120
206
- },
207
- {
208
- "name": "en_storyboard_dialogue",
209
- "model_dir": "ERNIE-Image-INT8",
210
- "latency_ms": 89542,
211
- "output_path": "examples/int8_pe_int8_use_pe/en_storyboard_dialogue.png",
212
- "revised_prompt": "这是一张四格分镜漫画,采用2x2的网格布局,展示了一名工程师调试图像生成服务的过程。画面中的工程师是一位约30岁、戴着黑框眼镜、留着短发、穿着深蓝色连帽衫的男性,他神情专注且略显疲惫。背景是一个充满科技感的现代化办公室,有着整洁的办公桌和显示着代码的电脑屏幕。分镜之间有清晰的白色边框分隔。\n\n第一个分镜(左上):场景是一个昏暗的办公室,工程师正坐在电脑前。屏幕上显示着一个图像生成界面,画面内容是一个模糊的、像素化的山脉。屏幕上方有文字标题 'Cold Start'。在工程师头部旁边有一个白色的小对话框,里面写着:'The prompt is too vague, and the image is blurry.'。\n\n第二个分镜(右上):工程师正在笔记本电脑上快速敲击键盘,屏幕上出现了新的代码窗口,显示着 'Prompt Rewrite'。他的神情显得有些犹豫和困惑。对话框中的文字变为:'I need more specific details. The prompt was too vague.'。\n\n第三个分镜(左下):画面转到工程师的侧脸近景,他正盯着屏幕上的代码,屏幕上显示着复杂的模型架构图,标题为 'Quantized DiT'。他的眼神中透露出对新技术的好奇。对话框中的文字写着:'Quantized DiT seems promising for faster inference.'。\n\n第四个分镜(右下):工程师露出了一个灿烂的笑容,双眼放光。屏幕上显示着一个绿色的勾选图标和文字 'Benchmark Pass'。他的对话框里写着:'It worked! The latency dropped significantly.'。\n\n整个画面的色彩控制严谨,屏幕的冷色调光影映射在工程师的脸上,营造出一种专注且具有科技感的氛围。构图整齐,每一格都有明确的标题文字标注:'Cold Start'、'Prompt Rewrite'、'Quantized DiT' 和 'Benchmark Pass'。",
213
- "vram_allocated_mib_before": 18849,
214
- "vram_reserved_mib_before": 28120,
215
- "peak_vram_allocated_mib": 21365,
216
- "peak_vram_reserved_mib": 29172,
217
- "vram_allocated_mib_after": 18849,
218
- "vram_reserved_mib_after": 29172
219
- },
220
- {
221
- "name": "zh_sticker_grid",
222
- "model_dir": "ERNIE-Image-INT8",
223
- "latency_ms": 99956,
224
- "output_path": "examples/int8_pe_int8_use_pe/zh_sticker_grid.png",
225
- "revised_prompt": "一张Q版风格的贴纸合集图,整体构图为4行6列的24格网格布局。画面背景为纯白色,所有角色均采用统一的Q版造型。主角是一位留着齐耳短发的少女,她头戴一对白色的毛绒猫耳,额前系着一个醒目的红色蝴蝶结发带,身穿蓝白配色的水手服,领口带有白色条纹装饰。24个格子里的少女形象完全一致,但表情、姿态和所持物品各不相同。每个格子的底部或侧面均配有清晰可辨的黑色简体中文短语。具体内容如下:第一行从左至右:'收到'(少女闭眼微笑,右手比心);'加油'(少女双拳紧握,上方有蓝色的'加油'字样气泡);'太棒了'(少女双手合十,脸颊微红);'开会中'(少女双手抱胸,头顶悬浮着一个蓝色的对话框,写着'开会中');'晚点回'(少女单手托腮,表情略显困惑);'马上来'(少女双手合十,神情期待)。第二行从左至右:'收到'(少女侧身站立,手指向右方);'加油'(少女双手举起,像是在欢呼);'太棒了'(少女双臂高举,周围有黄色的小星星);'开会中'(少女坐在虚拟的办公桌前,桌上有笔记本电脑);'晚点回'(少女头顶出现一个红色的'X'符号);'马上来'(少女在虚拟的网络信号旁,信号旁标注着'马上来')。第三行从左至右:'收到'(少女正面站立,双手自然下垂);'加油'(少女在一个巨大的蓝色加油喷壶旁,喷壶上写着'加油');'太棒了'(少女双手抱着一个彩色的礼盒,礼盒上写着'太棒了');'开会中'(少女坐在电脑前,屏幕显示着'开会中'字样);'晚点回'(少女在一个红色的闹钟旁,闹钟指针指向'2点');'马上来'(少女在一个绿色的圆形气泡中,气泡上写着'马上来')。第四行从左至右:'收到'(少女正在打开一个信封,信封上写着'收到');'加油'(少女在一个橙色的火焰背景中);'太棒了'(少女在一个金色的奖杯旁,奖杯上写着'太棒了');'开会中'(少女在一个带有'开会中'字样的会议室场景中);'晚点回'(少女在一个红色的圆形禁止符���旁);'马上来'(少女在一个蓝色的云朵旁,云朵上写着'马上来')。整幅画面线条圆润,色彩明快,呈现出一种温馨、活泼且富有设计感的Q版插画风格。",
226
- "vram_allocated_mib_before": 18849,
227
- "vram_reserved_mib_before": 29172,
228
- "peak_vram_allocated_mib": 21305,
229
- "peak_vram_reserved_mib": 29172,
230
- "vram_allocated_mib_after": 18849,
231
- "vram_reserved_mib_after": 29172
232
- },
233
- {
234
- "name": "en_backlit_street_photo",
235
- "model_dir": "ERNIE-Image-INT8",
236
- "latency_ms": 73374,
237
- "output_path": "examples/int8_pe_int8_use_pe/en_backlit_street_photo.png",
238
- "revised_prompt": "这是一张具有电影质感的街头摄影作品,呈现黄昏时分一条被遮阳篷覆盖的步行街场景。画面采用低角度透视,前景是铺设整齐的砖石路面,中央有一条明显的凸起纹理(触觉导向带),引导视线向远方延伸。右侧建筑墙面上投射出一道锐利的斜向光束,与阴影形成强烈对比,增强了画面的纵深感。中景处,一名骑自行车的人正向画面深处骑行,背对镜头;街道两侧的人行道上有数位行人,呈现为半剪影状态,姿态自然,有的行走有的驻足。背景中,暖色调的天空呈现出日落时分的柔和光线,街道两旁的商铺招牌在暮色中若隐若现,部分可见中文文字。整体色调温暖,以金棕色、琥珀色为主,光影层次丰富,营造出静谧而充满氛围感的都市傍晚景象。",
239
- "vram_allocated_mib_before": 18849,
240
- "vram_reserved_mib_before": 29172,
241
- "peak_vram_allocated_mib": 21353,
242
- "peak_vram_reserved_mib": 29172,
243
- "vram_allocated_mib_after": 18849,
244
- "vram_reserved_mib_after": 29172
245
- },
246
- {
247
- "name": "zh_portrait_studio_east_asian",
248
- "model_dir": "ERNIE-Image-INT8",
249
- "latency_ms": 76522,
250
- "output_path": "examples/int8_pe_int8_use_pe/zh_portrait_studio_east_asian.png",
251
- "revised_prompt": "这是一张高清晰度的人像摄影照片,主体为一位年轻的东亚女性。她位于画面中央,身体略微向左侧倾斜,脸部正对镜头,目光直视前方,眼神清澈明亮。她留着一头乌黑的长发,发丝柔顺,部分头发自然垂落在肩膀和背部,露出光洁的额头。她的面部妆容精致淡雅,皮肤白皙细腻,眉毛修剪整齐,眼妆突出了睫毛的卷翘,唇色为自然的红润色泽,表情平静温婉。\n\n她身穿一件黑色的高领针织衫,领口紧贴颈部,衣物材质看起来柔软且有纹理感。她的颈部佩戴着一条极细的银色项链,吊坠小巧精致,位于锁骨下方。背景是纯色的浅灰色墙面,光线柔和均匀,从正面打亮人物面部,营造出一种简洁、干净的摄影棚拍摄风格。画面构图紧凑,主要聚焦于人物的面部特征和上半身姿态,色彩以黑、白、肤色为主,整体色调柔和自然。图片中未见任何文字、水印或特殊标记。",
252
- "vram_allocated_mib_before": 18849,
253
- "vram_reserved_mib_before": 29172,
254
- "peak_vram_allocated_mib": 21354,
255
- "peak_vram_reserved_mib": 29172,
256
- "vram_allocated_mib_after": 18849,
257
- "vram_reserved_mib_after": 29172
258
- }
259
- ],
260
- "int8_no_pe": [
261
- {
262
- "name": "zh_poster_dense_text",
263
- "model_dir": "ERNIE-Image-INT8",
264
- "latency_ms": 60753,
265
- "output_path": "examples/int8_no_pe/zh_poster_dense_text.png",
266
- "revised_prompt": null,
267
- "vram_allocated_mib_before": 21732,
268
- "vram_reserved_mib_before": 21772,
269
- "peak_vram_allocated_mib": 24234,
270
- "peak_vram_reserved_mib": 27738,
271
- "vram_allocated_mib_after": 21732,
272
- "vram_reserved_mib_after": 27738
273
- },
274
- {
275
- "name": "zh_infographic_wide",
276
- "model_dir": "ERNIE-Image-INT8",
277
- "latency_ms": 60691,
278
- "output_path": "examples/int8_no_pe/zh_infographic_wide.png",
279
- "revised_prompt": null,
280
- "vram_allocated_mib_before": 21732,
281
- "vram_reserved_mib_before": 27738,
282
- "peak_vram_allocated_mib": 24198,
283
- "peak_vram_reserved_mib": 27738,
284
- "vram_allocated_mib_after": 21732,
285
- "vram_reserved_mib_after": 27738
286
- },
287
- {
288
- "name": "zh_browser_ui_article",
289
- "model_dir": "ERNIE-Image-INT8",
290
- "latency_ms": 61152,
291
- "output_path": "examples/int8_no_pe/zh_browser_ui_article.png",
292
- "revised_prompt": null,
293
- "vram_allocated_mib_before": 21732,
294
- "vram_reserved_mib_before": 27738,
295
- "peak_vram_allocated_mib": 24234,
296
- "peak_vram_reserved_mib": 27738,
297
- "vram_allocated_mib_after": 21732,
298
- "vram_reserved_mib_after": 27738
299
- },
300
- {
301
- "name": "en_storyboard_dialogue",
302
- "model_dir": "ERNIE-Image-INT8",
303
- "latency_ms": 59642,
304
- "output_path": "examples/int8_no_pe/en_storyboard_dialogue.png",
305
- "revised_prompt": null,
306
- "vram_allocated_mib_before": 21732,
307
- "vram_reserved_mib_before": 27738,
308
- "peak_vram_allocated_mib": 24240,
309
- "peak_vram_reserved_mib": 28790,
310
- "vram_allocated_mib_after": 21732,
311
- "vram_reserved_mib_after": 28790
312
- },
313
- {
314
- "name": "zh_sticker_grid",
315
- "model_dir": "ERNIE-Image-INT8",
316
- "latency_ms": 59401,
317
- "output_path": "examples/int8_no_pe/zh_sticker_grid.png",
318
- "revised_prompt": null,
319
- "vram_allocated_mib_before": 21732,
320
- "vram_reserved_mib_before": 28790,
321
- "peak_vram_allocated_mib": 24175,
322
- "peak_vram_reserved_mib": 28790,
323
- "vram_allocated_mib_after": 21732,
324
- "vram_reserved_mib_after": 28790
325
- },
326
- {
327
- "name": "en_backlit_street_photo",
328
- "model_dir": "ERNIE-Image-INT8",
329
- "latency_ms": 59643,
330
- "output_path": "examples/int8_no_pe/en_backlit_street_photo.png",
331
- "revised_prompt": null,
332
- "vram_allocated_mib_before": 21732,
333
- "vram_reserved_mib_before": 28790,
334
- "peak_vram_allocated_mib": 24233,
335
- "peak_vram_reserved_mib": 28790,
336
- "vram_allocated_mib_after": 21732,
337
- "vram_reserved_mib_after": 28790
338
- },
339
- {
340
- "name": "zh_portrait_studio_east_asian",
341
- "model_dir": "ERNIE-Image-INT8",
342
- "latency_ms": 60728,
343
- "output_path": "examples/int8_no_pe/zh_portrait_studio_east_asian.png",
344
- "revised_prompt": null,
345
- "vram_allocated_mib_before": 21732,
346
- "vram_reserved_mib_before": 28790,
347
- "peak_vram_allocated_mib": 24234,
348
- "peak_vram_reserved_mib": 28790,
349
- "vram_allocated_mib_after": 21732,
350
- "vram_reserved_mib_after": 28790
351
- }
352
- ],
353
- "turbo_reference": [
354
- {
355
- "name": "zh_poster_dense_text",
356
- "model_dir": "Baidu/ERNIE-Image-Turbo",
357
- "latency_ms": 22736,
358
- "output_path": "examples/turbo_reference/zh_poster_dense_text.png",
359
- "revised_prompt": "这是一张面向人工智能产业大会的竖版宣传海报,采用现代编辑设计风格与清晰的视觉层级。画面以纯净的白色为背景,整体布局规整,文字与图形元素分布均衡。海报顶部中央以粗体无衬线字体呈现主标题'生成式 AI 设计论坛 2026',其下方以较小字号对应显示英文副标题'GenAI Design Forum 2026'。画面中部横向排列三个议程模块,每个模块由圆角矩形边框包围,内部包含日期与会议主题:左侧模块标注'09:30'与'Keynote: The Future of AI';中间模块标注'13:30'与'Product Demo';右侧模块标注'16:00'与'Panel Discussion'。海报底部中央设有一个圆角矩形按钮,内文为'立即报名',按钮上方标注日期'2026年10月24日'。画面左侧有一道呈琥珀色的垂直光带从上至下贯穿,为整体增添微妙的光影层次感。所有文字均采用中英双语混排,字体清晰可读,版式简洁专业,留白处理精确。",
360
- "vram_allocated_mib_before": 29389,
361
- "vram_reserved_mib_before": 29430,
362
- "peak_vram_allocated_mib": 31889,
363
- "peak_vram_reserved_mib": 34654,
364
- "vram_allocated_mib_after": 29389,
365
- "vram_reserved_mib_after": 34654
366
- },
367
- {
368
- "name": "zh_infographic_wide",
369
- "model_dir": "Baidu/ERNIE-Image-Turbo",
370
- "latency_ms": 22987,
371
- "output_path": "examples/turbo_reference/zh_infographic_wide.png",
372
- "revised_prompt": "这是一张宽幅科普信息图,主题为'多模态系统评测框架'。图片顶部中央以粗体黑色大字显示主标题'多模态系统评测框架',其下方以灰色小字标注副标题'Multimodal Evaluation Stack'。画面采用深蓝色背景,覆盖浅蓝色网格纹理,整体呈现技术文档风格。内容分为三个垂直区块,由白色箭头连接形成从左至右的流程:左侧区块标题为'输入层',下方列出四个模态类型——'文本'(配放大镜图标)、'图像'(配相机图标)、'布局'(配网页布局图标)、'知识'(配文档图标);中间区块标题为'推理层',下方列出三个评测任务——'实体对齐'(配双向箭头图标)、'长文本渲染'(配文字与图片组合图标)、'关系推理'(配齿轮与文档图标);右侧区块标题为'输出层',下方列出四种输出形式——'海报'(配画架图标)、'网页截图'(配电脑屏幕图标)、'信息图'(配折叠图表图标)、'分镜漫画'(配分镜格图标)。每个文字项均置于白色圆角矩形卡片内,文字清晰可辨,整体布局规整,箭头指示明确,视觉层次分明。",
373
- "vram_allocated_mib_before": 29389,
374
- "vram_reserved_mib_before": 34654,
375
- "peak_vram_allocated_mib": 31853,
376
- "peak_vram_reserved_mib": 34654,
377
- "vram_allocated_mib_after": 29389,
378
- "vram_reserved_mib_after": 34654
379
- },
380
- {
381
- "name": "zh_browser_ui_article",
382
- "model_dir": "Baidu/ERNIE-Image-Turbo",
383
- "latency_ms": 21412,
384
- "output_path": "examples/turbo_reference/zh_browser_ui_article.png",
385
- "revised_prompt": "这是一张桌面端浏览器网页界面的截图,呈现现代简洁的网页设计风格。画面顶部可见浏览器标签页,标题为'Introduction to LLMs',地址栏显示网址'https://www.ai-insights.com/intro-to-llms'。网页主体采用白色背景,顶部导航栏包含四个菜单项:'Articles'、'Benchmarks'、'Tutorials'和'About',右侧配有一个圆角矩形按钮,内文为'Subscribe'。页面中央以大号粗体黑色字体显示主标题'Understanding Large Language Models'。主标题下方水平排列着三个圆角卡片式摘要模块,每个模块包含黑色标题和灰色说明文字:左侧模块标题为'Tokenization',说明文字为'How text is broken into smaller units for processing.';中间模块标题为'Inference',说明文字为'The process of generating text based on input prompts.';右侧模块标题为'Fine-tuning',说明文字为'Adjusting the model weights for specific tasks.'。整体布局对称均衡,文字清晰,具有典型的科技文章或技术博客网页特征,信息密度适中,视觉风格干净专业。",
386
- "vram_allocated_mib_before": 29389,
387
- "vram_reserved_mib_before": 34654,
388
- "peak_vram_allocated_mib": 31890,
389
- "peak_vram_reserved_mib": 34654,
390
- "vram_allocated_mib_after": 29389,
391
- "vram_reserved_mib_after": 34654
392
- },
393
- {
394
- "name": "en_storyboard_dialogue",
395
- "model_dir": "Baidu/ERNIE-Image-Turbo",
396
- "latency_ms": 55379,
397
- "output_path": "examples/turbo_reference/en_storyboard_dialogue.png",
398
- "revised_prompt": "这是一张包含四个面板的故事板漫画,展示了一位工程师调试图像生成服务的过程。画面采用 2x2 的网格布局,每个面板之间有清晰的边界,整体色彩风格控制在戏剧性但受控的范围内。角色设计保持一致:一位戴着黑框眼镜、穿着深蓝色连帽衫的男性工程师,留着短发,表情专注。第一个面板标题为 'Cold Start',画面中工程师坐在昏暗的办公室里,面对着一台亮着的显示器,屏幕上显示着复杂的服务器架构图,上方有一个小气泡写着 'Too slow...'。第二个面板标题为 'Prompt Rewrite',工程师正在笔记本电脑上修改代码,屏幕上显示着一段 Python 代码,气泡文字为 'Optimizing prompts...'。第三个面板标题为 'Quantized DiT',工程师正在操作一个高科技控制台,屏幕上显示着复杂的神经网络架构图和 'Quantized DiT' 的标识,气泡文字为 'Model compression active...'。第四个面板标题为 'Benchmark Pass',工程师面带微笑,屏幕上显示着一个巨大的绿色对勾,气泡文字为 'Success! Benchmark passed.'。每个面板的顶部都有对应的标题文字,分别为 'Cold Start'、'Prompt Rewrite'、'Quantized DiT' 和 'Benchmark Pass'。",
399
- "vram_allocated_mib_before": 29389,
400
- "vram_reserved_mib_before": 34654,
401
- "peak_vram_allocated_mib": 31898,
402
- "peak_vram_reserved_mib": 35706,
403
- "vram_allocated_mib_after": 29389,
404
- "vram_reserved_mib_after": 35706
405
- },
406
- {
407
- "name": "zh_sticker_grid",
408
- "model_dir": "Baidu/ERNIE-Image-Turbo",
409
- "latency_ms": 62985,
410
- "output_path": "examples/turbo_reference/zh_sticker_grid.png",
411
- "revised_prompt": "一张Q版风格的贴纸合集插画,采用4行6列的网格布局,总共包含24个独立的圆形贴纸。画面背景为纯白色,所有贴纸整齐排列,线条圆润,色彩明快。主角是一位留着齐刘海短发、佩戴白色猫耳发饰和红色大蝴蝶结发带的少女,穿着蓝白相间的水手服校服。每个贴纸中的少女表情和动作各不相同,且每个贴纸中心位置都印有清晰可读的中文字符。第一行从左到右依次为:少女闭眼大笑,下方文字为'收到';少女眯起眼睛露出自信微笑,下方文字为'加油';少女双手合十在胸前,表情欢快,下方文字为'太棒了';少女双手握拳放在脸颊两侧,做出严肃的表情,下方文字为'开会中';少女双手抱着一颗红色爱心,神情温柔,下方文字为'晚点回';少女双手叉腰,表情坚定,下方文字为'马上来'。第二行依次为:少女睁大双眼,嘴巴张开大笑,下方文字为'收到';少女做出吐舌头的调皮表情,下方文字为'加油';少女双手举起做出胜利手势,下方文字为'太棒了';少女双手托腮,显得十分乖巧,下方文字为'开会中';少女双手合十放在脸颊旁,下方文字为'晚点回';少女双手抱胸,表情严肃认真,下方文字为'马上来'。第三行依次为:少女双手捂嘴,表情惊讶,下方文字为'收到';少女眼睛眯成弯月,表情得意,下方文字为'加油';少女双手在脸颊两侧比心,下方文字为'太棒了';少女双手握拳放在胸前,下方文字为'开会中';少女双手抱头,显得有些困惑,下方文字为'晚点回';少女双手叉腰,表情坚定���下方文字为'马上来'。第四行依次为:少女双手捂住耳朵,表情害羞,下方文字为'收到';少女嘴巴大张,表情极其兴奋,下方文字为'加油';少女双手捂脸,表情夸张,下方文字为'太棒了';少女双手抱胸,表情严肃,下方文字为'开会中';少女双手抱着一个小书包,表情认真,下方文字为'晚点回';少女双手叉腰,表情自信,下方文字为'马上来'。所有文字均为黑色或深灰色,笔画清晰,易于辨认。",
412
- "vram_allocated_mib_before": 29389,
413
- "vram_reserved_mib_before": 35706,
414
- "peak_vram_allocated_mib": 31836,
415
- "peak_vram_reserved_mib": 35706,
416
- "vram_allocated_mib_after": 29389,
417
- "vram_reserved_mib_after": 35706
418
- },
419
- {
420
- "name": "en_backlit_street_photo",
421
- "model_dir": "Baidu/ERNIE-Image-Turbo",
422
- "latency_ms": 21852,
423
- "output_path": "examples/turbo_reference/en_backlit_street_photo.png",
424
- "revised_prompt": "黄昏时分的街道摄影作品,呈现一个被遮蔽的步行街或人行通道场景。画面采用纵向构图,展现一条向远方延伸的铺砖人行道,地面由浅色方形瓷砖铺成,中央偏下位置有一条明显的黄色盲道引导线,从前景向远处延伸。画面右侧是一排建筑物的外墙,墙面上装有垂直排列的长条形灯带,发出明亮的白色光芒,光线在空气中形成明显的光束效果,呈对角线方向向画面左上方投射,营造出强烈的纵深感和空间层次。画面左侧是深色的建筑物外墙和玻璃窗,处于阴影中。在画面中景偏右的位置,有一个骑自行车的人背对镜头向远处骑行,身影呈现为半剪影状态。画面中还可以看到几位行人的剪影,分布在通道的不同位置。整体光线以暖色调的金棕色为主,与冷色调的阴影形成对比,营造出黄昏时分的氛围。画面清晰度高,细节丰富,光影效果突出,具有电影般的视觉质感。",
425
- "vram_allocated_mib_before": 29389,
426
- "vram_reserved_mib_before": 35706,
427
- "peak_vram_allocated_mib": 31890,
428
- "peak_vram_reserved_mib": 35706,
429
- "vram_allocated_mib_after": 29389,
430
- "vram_reserved_mib_after": 35706
431
- },
432
- {
433
- "name": "zh_portrait_studio_east_asian",
434
- "model_dir": "Baidu/ERNIE-Image-Turbo",
435
- "latency_ms": 20393,
436
- "output_path": "examples/turbo_reference/zh_portrait_studio_east_asian.png",
437
- "revised_prompt": "这是一张人物肖像照片。画面中心为一位年轻的东亚女性,她正面对镜头,头部略微向左侧倾斜,眼神直视前方,表情平静温婉。她有着黑色的长发,头发整齐地向后梳理并盘起,露出光洁的额头和清晰的五官,几缕碎发自然垂落在耳侧。她的皮肤白皙细腻,妆容淡雅,眉毛修长,眼妆精致,唇色呈自然的红润色泽。她身穿一件黑色的高领针织衫,领口紧贴颈部,衣物材质看起来柔软贴身。颈部佩戴有一条极细的银色项链,项链在锁骨下方隐约可见。背景为纯色的浅灰色墙面,光线柔和均匀,类似影棚布光,使得人物面部没有明显的阴影,整体色调简洁、干净,突出了人物主体。画面清晰度高,无可见的水印、文字或其他标记。",
438
- "vram_allocated_mib_before": 29389,
439
- "vram_reserved_mib_before": 35706,
440
- "peak_vram_allocated_mib": 31889,
441
- "peak_vram_reserved_mib": 35708,
442
- "vram_allocated_mib_after": 29389,
443
- "vram_reserved_mib_after": 35708
444
- }
445
- ]
446
- }