ytaek-oh commited on
Commit
baaf065
·
1 Parent(s): cdadca2
data/250117/all_tasks.csv ADDED
@@ -0,0 +1,42 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ family,model,tag,contr_ent_short,contr_ent_medium,contr_ent_long,contr_bg_short,contr_bg_medium,contr_bg_long,irrel_ent_short,irrel_ent_medium,irrel_ent_long,irrel_bg_short,irrel_bg_medium,irrel_bg_long,Avg
2
+ ALIGN,align-base,coyo700m,63.33333333333334,55.416666666666664,51.25,50.0,50.0,50.0,77.5,57.5,50.0,50.0,50.0,50.0,54.583333333333336
3
+ CLIPS,CLIPS-Large-14-224,recap-datacomp1b,56.66666666666667,62.916666666666664,52.083333333333336,50.0,50.0,50.0,77.08333333333333,62.91666666666667,53.333333333333336,50.0,50.0,50.0,55.41666666666667
4
+ CLIPS,CLIPS-Large-14-336,recap-datacomp1b,58.33333333333333,62.916666666666664,52.916666666666664,50.0,50.0,50.0,77.08333333333333,63.75,54.16666666666667,50.0,50.0,50.0,55.763888888888886
5
+ CLIPS,CLIPS-Huge-14-224,recap-datacomp1b,72.5,62.08333333333333,48.75,50.0,50.0,49.166666666666664,85.41666666666667,62.083333333333336,52.5,50.0,50.0,49.166666666666664,56.80555555555556
6
+ DreamLIP,dreamlip-vitb16,cc3m-long,68.33333333333333,53.75,51.25,50.0,50.0,50.0,67.91666666666666,53.333333333333336,49.166666666666664,50.0,50.0,50.833333333333336,53.71527777777777
7
+ DreamLIP,dreamlip-vitb16,cc12m-long,61.666666666666664,55.41666666666666,47.916666666666664,50.0,50.0,50.0,72.91666666666667,55.833333333333336,53.333333333333336,50.0,50.0,50.0,53.923611111111114
8
+ DreamLIP,dreamlip-vitb16,yfcc15m-long,62.5,50.41666666666667,49.583333333333336,50.0,50.0,50.0,77.91666666666666,59.16666666666667,55.0,50.0,50.0,50.0,54.548611111111114
9
+ DreamLIP,dreamlip-vitb16,cc30m-long,71.66666666666666,55.41666666666666,49.583333333333336,50.0,50.0,50.833333333333336,82.08333333333334,65.83333333333334,52.5,50.0,50.0,50.0,56.49305555555555
10
+ FSC-CLIP,fsc-clip-ViT-B-32,laioncoco-ft,69.16666666666667,50.41666666666667,49.583333333333336,50.0,50.0,50.0,82.91666666666667,64.16666666666667,53.333333333333336,50.0,50.0,49.166666666666664,55.72916666666667
11
+ FSC-CLIP,fsc-clip-ViT-B-16,laioncoco-ft,70.0,52.91666666666667,50.41666666666667,50.0,50.0,50.0,82.91666666666667,70.0,53.333333333333336,50.0,50.0,49.166666666666664,56.5625
12
+ FSC-CLIP,fsc-clip-ViT-L-14,laioncoco-ft,59.16666666666666,52.08333333333333,50.41666666666667,50.0,50.0,50.0,87.91666666666667,70.0,52.5,50.0,50.0,50.0,56.00694444444444
13
+ Jina-CLIP,jina-clip-v1,jinaai,66.66666666666666,70.0,70.0,60.83333333333333,76.66666666666667,69.16666666666667,82.5,80.83333333333333,70.83333333333334,67.5,72.5,70.0,71.45833333333334
14
+ Jina-CLIP,jina-clip-v2,jinaai,76.25,67.5,58.74999999999999,82.08333333333333,79.16666666666667,68.75,80.83333333333334,79.58333333333334,67.08333333333334,77.08333333333334,68.75,63.75,72.46527777777777
15
+ LoTLIP,LoTLIP-ViT-B-32,lotlip100m,54.166666666666664,61.25,61.666666666666664,70.0,52.916666666666664,50.833333333333336,65.83333333333333,60.83333333333333,67.91666666666667,64.16666666666667,54.16666666666667,50.833333333333336,59.548611111111114
16
+ LoTLIP,LoTLIP-ViT-B-16,lotlip100m,55.833333333333336,60.41666666666667,58.333333333333336,66.66666666666666,50.41666666666667,50.0,63.33333333333333,66.66666666666666,64.58333333333334,60.0,50.833333333333336,50.0,58.090277777777786
17
+ LongCLIP,longclip-vitb32,sharegpt4v-1m,72.08333333333334,60.83333333333333,63.33333333333333,81.25,70.0,59.58333333333333,90.0,77.08333333333333,80.83333333333334,86.66666666666667,72.5,59.16666666666667,72.77777777777777
18
+ LongCLIP,longclip-vitb16,sharegpt4v-1m,69.16666666666666,66.66666666666667,60.83333333333333,74.58333333333333,63.333333333333336,43.33333333333333,90.41666666666666,91.25,67.5,82.08333333333334,76.25,54.166666666666664,69.96527777777777
19
+ LongCLIP,longclip-vitl14,sharegpt4v-1m,67.91666666666666,58.75,57.916666666666664,61.25,63.75,50.41666666666667,84.16666666666667,81.25,71.66666666666667,78.75,69.58333333333333,57.5,66.90972222222223
20
+ LongCLIP,longclip-vitl14_336px,sharegpt4v-1m,74.58333333333334,56.66666666666667,52.5,77.08333333333333,63.75,44.16666666666667,89.16666666666667,85.0,64.16666666666666,88.33333333333333,72.5,48.75,68.05555555555556
21
+ OpenCLIP,roberta-ViT-B-32,laion2b_s12b_b32k,67.08333333333334,60.0,51.25,49.583333333333336,50.0,49.166666666666664,76.25,58.75,50.833333333333336,50.0,50.0,50.0,55.24305555555556
22
+ OpenCLIP,coca_ViT-B-32,laion2b_s13b_b90k,67.91666666666666,56.66666666666667,50.41666666666667,50.0,50.0,49.166666666666664,82.91666666666667,63.75,52.083333333333336,50.0,50.0,50.0,56.076388888888886
23
+ OpenCLIP,coca_ViT-L-14,laion2b_s13b_b90k,64.58333333333333,60.0,49.583333333333336,50.0,50.0,49.166666666666664,79.58333333333333,64.58333333333334,52.083333333333336,50.0,50.0,49.166666666666664,55.72916666666667
24
+ OpenCLIP,ViT-H-14,laion2b_s32b_b79k,63.333333333333336,58.75,50.41666666666667,50.0,50.0,49.166666666666664,83.75,65.0,51.66666666666667,50.0,50.0,49.166666666666664,55.9375
25
+ OpenCLIP,ViT-L-14,laion2b_s32b_b82k,58.33333333333333,57.91666666666667,49.583333333333336,50.0,50.0,50.0,82.91666666666667,61.66666666666667,52.5,50.0,50.0,49.166666666666664,55.173611111111114
26
+ OpenCLIP,ViT-B-32,laion2b_s34b_b79k,68.33333333333333,62.08333333333333,47.083333333333336,50.0,50.0,50.0,80.41666666666666,60.833333333333336,55.0,50.0,50.0,50.0,56.145833333333336
27
+ OpenCLIP,ViT-B-16,laion2b_s34b_b88k,62.5,57.08333333333333,49.583333333333336,50.0,50.0,49.166666666666664,72.08333333333334,65.0,54.16666666666667,50.0,50.0,49.166666666666664,54.89583333333333
28
+ OpenCLIP,ViT-g-14,laion2b_s34b_b88k,65.0,55.41666666666666,50.41666666666667,50.0,50.0,49.166666666666664,78.75,65.0,51.66666666666667,50.0,50.0,49.166666666666664,55.38194444444445
29
+ OpenCLIP,ViT-B-16,openai,64.16666666666666,51.25,50.41666666666667,50.0,50.0,49.166666666666664,75.41666666666667,59.16666666666667,51.66666666666667,50.0,50.0,49.166666666666664,54.201388888888886
30
+ OpenCLIP,ViT-B-32,openai,57.5,54.58333333333333,48.75,50.0,50.0,49.166666666666664,67.08333333333333,63.333333333333336,52.5,50.0,50.0,49.166666666666664,53.50694444444444
31
+ OpenCLIP,ViT-L-14,openai,57.5,55.41666666666666,49.583333333333336,50.0,50.0,49.166666666666664,74.58333333333333,62.50000000000001,51.66666666666667,50.0,50.0,49.166666666666664,54.13194444444445
32
+ OpenCLIP,ViT-L-14-336,openai,58.33333333333333,57.08333333333333,47.916666666666664,50.0,50.0,49.166666666666664,75.41666666666667,66.66666666666666,50.0,50.0,50.0,49.166666666666664,54.47916666666667
33
+ OpenCLIP,ViT-B-16-SigLIP,webli,56.25,54.166666666666664,50.41666666666667,50.0,50.0,50.0,67.08333333333333,56.666666666666664,51.666666666666664,50.0,50.0,50.833333333333336,53.09027777777777
34
+ OpenCLIP,ViT-B-16-SigLIP-384,webli,61.25,54.166666666666664,50.41666666666667,50.0,50.0,50.0,70.41666666666667,59.166666666666664,51.666666666666664,50.0,50.0,50.0,53.923611111111114
35
+ OpenCLIP,ViT-L-16-SigLIP-256,webli,62.91666666666666,55.833333333333336,49.58333333333333,50.0,50.0,50.0,77.91666666666667,60.0,50.833333333333336,50.0,50.0,50.0,54.75694444444444
36
+ OpenCLIP,ViT-L-16-SigLIP-384,webli,62.91666666666666,55.0,49.58333333333333,50.0,50.0,50.0,75.41666666666667,58.333333333333336,50.833333333333336,50.0,50.0,50.0,54.34027777777778
37
+ OpenCLIP,ViT-SO400M-14-SigLIP,webli,50.0,50.0,50.416666666666664,50.0,50.0,50.416666666666664,50.0,50.0,50.0,50.0,50.0,50.0,50.06944444444444
38
+ Recap-CLIP,ViT-L-16-HTxt-Recap-CLIP,recap-datacomp1b,56.666666666666664,61.25,56.25,73.33333333333333,50.0,50.833333333333336,77.5,67.91666666666666,55.83333333333333,69.16666666666667,49.16666666666667,50.833333333333336,59.89583333333333
39
+ StructuredCLIP,NegCLIP-ViT-B-32,coco-ft,65.0,54.58333333333333,50.41666666666667,50.0,50.0,50.833333333333336,78.75,67.5,52.5,50.0,50.0,50.0,55.798611111111114
40
+ StructuredCLIP,CE-CLIP-ViT-B-32,coco-ft,65.0,55.41666666666666,50.41666666666667,50.0,50.0,50.0,92.08333333333333,71.66666666666666,56.66666666666667,50.0,50.0,50.833333333333336,57.673611111111114
41
+ StructuredCLIP,DAC-LLM-ViT-B-32,cc3m-ft,65.0,55.41666666666666,49.583333333333336,50.0,50.0,50.0,89.58333333333333,69.16666666666667,55.83333333333333,50.0,50.0,50.0,57.048611111111114
42
+ StructuredCLIP,DAC-SAM-ViT-B-32,cc3m-ft,64.16666666666666,55.41666666666666,47.916666666666664,50.0,50.0,50.0,87.91666666666667,71.66666666666666,56.66666666666667,50.0,50.0,50.0,56.979166666666664
data/250117/decoder_overall.csv ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ family,model,tag,contr_ent_short,contr_ent_medium,contr_ent_long,contr_bg_short,contr_bg_medium,contr_bg_long,irrel_ent_short,irrel_ent_medium,irrel_ent_long,irrel_bg_short,irrel_bg_medium,irrel_bg_long,Avg
2
+ vqascore,instructblip-flant5-xl,none,83.33333333333334,55.416666666666664,52.08333333333333,78.33333333333333,50.83333333333333,46.25,78.33333333333333,50.0,46.25,73.33333333333333,32.5,35.833333333333336,56.874999999999986
3
+ vqascore,clip-flant5-xl,none,85.0,85.83333333333334,77.5,94.16666666666667,96.66666666666667,94.58333333333334,84.16666666666667,86.66666666666667,82.5,85.0,87.91666666666666,82.5,86.875
4
+ vqascore,llava-v1.5-7b,none,83.33333333333334,79.58333333333333,73.33333333333334,91.66666666666666,83.33333333333334,78.75,88.75,83.33333333333333,78.33333333333334,84.16666666666667,79.58333333333333,75.0,81.59722222222223
5
+ vqascore,sharegpt4v-7b,none,88.33333333333333,79.16666666666666,82.08333333333334,92.5,78.75,88.75,82.5,75.0,84.16666666666667,75.41666666666666,58.75,74.58333333333333,80.0
6
+ visualgptscore,instructblip-flant5-xl,none,33.33333333333333,29.166666666666668,46.666666666666664,51.66666666666667,42.5,64.16666666666666,53.333333333333336,46.666666666666664,61.25,47.5,47.5,67.5,49.270833333333336
7
+ visualgptscore,clip-flant5-xl,none,50.83333333333333,47.5,42.5,62.5,55.00000000000001,44.166666666666664,68.33333333333333,71.66666666666667,64.16666666666667,57.49999999999999,60.83333333333333,48.333333333333336,56.11111111111111
8
+ visualgptscore,llava-v1.5-7b,none,50.0,43.333333333333336,44.166666666666664,54.166666666666664,40.0,42.5,60.83333333333333,63.33333333333333,52.5,50.0,40.833333333333336,38.333333333333336,48.33333333333333
9
+ visualgptscore,sharegpt4v-7b,none,48.333333333333336,41.66666666666667,45.0,55.00000000000001,45.0,45.0,55.00000000000001,60.0,52.5,49.166666666666664,49.166666666666664,43.333333333333336,49.097222222222214
data/250117/decoder_summary.csv ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ "('Model', 'family')","('Model', 'model')","('Model', 'tag')","('length_group', 'short')","('length_group', 'medium')","('length_group', 'long')","('neg_target', 'entity')","('neg_target', 'background')","('neg_type', 'contradict')","('neg_type', 'irrelevant')","('Avg', 'Avg')"
2
+ vqascore,instructblip-flant5-xl,none,78.33333333333333,47.1875,45.104166666666664,60.90277777777777,52.84722222222222,61.04166666666666,52.70833333333332,56.874999999999986
3
+ vqascore,clip-flant5-xl,none,87.08333333333334,89.27083333333334,84.27083333333334,83.61111111111111,90.1388888888889,88.95833333333333,84.79166666666667,86.875
4
+ vqascore,llava-v1.5-7b,none,86.97916666666667,81.45833333333333,76.35416666666667,81.1111111111111,82.08333333333333,81.66666666666667,81.52777777777777,81.59722222222223
5
+ vqascore,sharegpt4v-7b,none,84.6875,72.91666666666666,82.39583333333333,81.87500000000001,78.12499999999999,84.93055555555556,75.06944444444444,80.0
6
+ visualgptscore,instructblip-flant5-xl,none,46.458333333333336,41.458333333333336,59.89583333333333,45.069444444444436,53.47222222222222,44.583333333333336,53.958333333333336,49.270833333333336
7
+ visualgptscore,clip-flant5-xl,none,59.791666666666664,58.75,49.791666666666664,57.5,54.72222222222222,50.416666666666664,61.80555555555555,56.11111111111111
8
+ visualgptscore,llava-v1.5-7b,none,53.75,46.87500000000001,44.375,52.36111111111111,44.30555555555555,45.694444444444436,50.97222222222222,48.33333333333333
9
+ visualgptscore,sharegpt4v-7b,none,51.875,48.958333333333336,46.458333333333336,50.416666666666664,47.77777777777777,46.666666666666664,51.52777777777777,49.097222222222214
data/250117/summary.csv ADDED
@@ -0,0 +1,42 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ "('Model', 'family')","('Model', 'model')","('Model', 'tag')","('length_group', 'short')","('length_group', 'medium')","('length_group', 'long')","('neg_target', 'entity')","('neg_target', 'background')","('neg_type', 'contradict')","('neg_type', 'irrelevant')","('Avg', 'Avg')"
2
+ ALIGN,align-base,coyo700m,60.208333333333336,53.229166666666664,50.3125,59.166666666666664,50.0,53.333333333333336,55.833333333333336,54.583333333333336
3
+ CLIPS,CLIPS-Large-14-224,recap-datacomp1b,58.4375,56.45833333333333,51.35416666666667,60.833333333333336,50.0,53.611111111111114,57.22222222222223,55.41666666666667
4
+ CLIPS,CLIPS-Large-14-336,recap-datacomp1b,58.854166666666664,56.666666666666664,51.77083333333333,61.52777777777778,50.0,54.02777777777777,57.5,55.763888888888886
5
+ CLIPS,CLIPS-Huge-14-224,recap-datacomp1b,64.47916666666667,56.041666666666664,49.89583333333333,63.888888888888886,49.72222222222222,55.416666666666664,58.19444444444445,56.80555555555556
6
+ DreamLIP,dreamlip-vitb16,cc3m-long,59.0625,51.770833333333336,50.3125,57.291666666666664,50.138888888888886,53.888888888888886,53.54166666666666,53.71527777777777
7
+ DreamLIP,dreamlip-vitb16,cc12m-long,58.64583333333333,52.8125,50.3125,57.84722222222221,50.0,52.5,55.34722222222223,53.923611111111114
8
+ DreamLIP,dreamlip-vitb16,yfcc15m-long,60.104166666666664,52.395833333333336,51.145833333333336,59.09722222222222,50.0,52.083333333333336,57.013888888888886,54.548611111111114
9
+ DreamLIP,dreamlip-vitb16,cc30m-long,63.4375,55.3125,50.72916666666667,62.84722222222223,50.13888888888889,54.58333333333332,58.40277777777778,56.49305555555555
10
+ FSC-CLIP,fsc-clip-ViT-B-32,laioncoco-ft,63.020833333333336,53.645833333333336,50.520833333333336,61.59722222222223,49.861111111111114,53.19444444444445,58.26388888888889,55.72916666666667
11
+ FSC-CLIP,fsc-clip-ViT-B-16,laioncoco-ft,63.22916666666667,55.72916666666667,50.729166666666664,63.263888888888886,49.861111111111114,53.88888888888889,59.236111111111114,56.5625
12
+ FSC-CLIP,fsc-clip-ViT-L-14,laioncoco-ft,61.77083333333333,55.52083333333333,50.72916666666667,62.013888888888886,50.0,51.944444444444436,60.06944444444445,56.00694444444444
13
+ Jina-CLIP,jina-clip-v1,jinaai,69.375,75.0,70.0,73.47222222222221,69.44444444444444,68.8888888888889,74.02777777777777,71.45833333333334
14
+ Jina-CLIP,jina-clip-v2,jinaai,79.0625,73.75,64.58333333333334,71.66666666666669,73.2638888888889,72.08333333333333,72.84722222222223,72.46527777777777
15
+ LoTLIP,LoTLIP-ViT-B-32,lotlip100m,63.54166666666667,57.29166666666667,57.81250000000001,61.944444444444436,57.15277777777778,58.47222222222222,60.625,59.548611111111114
16
+ LoTLIP,LoTLIP-ViT-B-16,lotlip100m,61.45833333333333,57.083333333333336,55.72916666666667,61.52777777777779,54.65277777777777,56.94444444444445,59.236111111111114,58.090277777777786
17
+ LongCLIP,longclip-vitb32,sharegpt4v-1m,82.5,70.10416666666666,65.72916666666667,74.02777777777777,71.52777777777779,67.84722222222221,77.70833333333333,72.77777777777777
18
+ LongCLIP,longclip-vitb16,sharegpt4v-1m,79.0625,74.375,56.45833333333333,74.30555555555554,65.62500000000001,62.98611111111109,76.94444444444444,69.96527777777777
19
+ LongCLIP,longclip-vitl14,sharegpt4v-1m,73.02083333333333,68.33333333333333,59.375,70.27777777777779,63.541666666666664,60.0,73.81944444444444,66.90972222222223
20
+ LongCLIP,longclip-vitl14_336px,sharegpt4v-1m,82.29166666666667,69.47916666666667,52.39583333333333,70.34722222222223,65.76388888888889,61.458333333333336,74.65277777777779,68.05555555555556
21
+ OpenCLIP,roberta-ViT-B-32,laion2b_s12b_b32k,60.72916666666667,54.6875,50.3125,60.69444444444445,49.791666666666664,54.51388888888889,55.97222222222223,55.24305555555556
22
+ OpenCLIP,coca_ViT-B-32,laion2b_s13b_b90k,62.70833333333333,55.10416666666667,50.41666666666667,62.291666666666664,49.86111111111111,54.02777777777778,58.125,56.076388888888886
23
+ OpenCLIP,coca_ViT-L-14,laion2b_s13b_b90k,61.041666666666664,56.145833333333336,50.0,61.736111111111114,49.72222222222222,53.888888888888886,57.56944444444445,55.72916666666667
24
+ OpenCLIP,ViT-H-14,laion2b_s32b_b79k,61.770833333333336,55.9375,50.104166666666664,62.15277777777778,49.72222222222222,53.611111111111114,58.26388888888889,55.9375
25
+ OpenCLIP,ViT-L-14,laion2b_s32b_b82k,60.3125,54.895833333333336,50.3125,60.486111111111114,49.861111111111114,52.63888888888889,57.70833333333334,55.173611111111114
26
+ OpenCLIP,ViT-B-32,laion2b_s34b_b79k,62.1875,55.729166666666664,50.520833333333336,62.29166666666666,50.0,54.583333333333336,57.708333333333336,56.145833333333336
27
+ OpenCLIP,ViT-B-16,laion2b_s34b_b88k,58.645833333333336,55.52083333333333,50.520833333333336,60.06944444444445,49.72222222222222,53.05555555555555,56.736111111111114,54.89583333333333
28
+ OpenCLIP,ViT-g-14,laion2b_s34b_b88k,60.9375,55.104166666666664,50.104166666666664,61.041666666666664,49.72222222222222,53.333333333333336,57.430555555555564,55.38194444444445
29
+ OpenCLIP,ViT-B-16,openai,59.89583333333333,52.60416666666667,50.104166666666664,58.680555555555564,49.72222222222222,52.5,55.90277777777778,54.201388888888886
30
+ OpenCLIP,ViT-B-32,openai,56.14583333333333,54.479166666666664,49.89583333333333,57.29166666666666,49.72222222222222,51.666666666666664,55.34722222222222,53.50694444444444
31
+ OpenCLIP,ViT-L-14,openai,58.02083333333333,54.479166666666664,49.895833333333336,58.541666666666664,49.72222222222222,51.94444444444445,56.31944444444445,54.13194444444445
32
+ OpenCLIP,ViT-L-14-336,openai,58.4375,55.9375,49.06249999999999,59.23611111111111,49.72222222222222,52.083333333333336,56.875,54.47916666666667
33
+ OpenCLIP,ViT-B-16-SigLIP,webli,55.83333333333333,52.70833333333333,50.72916666666667,56.041666666666664,50.138888888888886,51.80555555555555,54.37499999999999,53.09027777777777
34
+ OpenCLIP,ViT-B-16-SigLIP-384,webli,57.91666666666667,53.33333333333333,50.520833333333336,57.84722222222223,50.0,52.638888888888886,55.208333333333336,53.923611111111114
35
+ OpenCLIP,ViT-L-16-SigLIP-256,webli,60.20833333333333,53.958333333333336,50.104166666666664,59.513888888888886,50.0,53.05555555555555,56.458333333333336,54.75694444444444
36
+ OpenCLIP,ViT-L-16-SigLIP-384,webli,59.58333333333333,53.333333333333336,50.104166666666664,58.68055555555555,50.0,52.916666666666664,55.76388888888889,54.34027777777778
37
+ OpenCLIP,ViT-SO400M-14-SigLIP,webli,50.0,50.0,50.20833333333333,50.069444444444436,50.069444444444436,50.138888888888886,50.0,50.06944444444444
38
+ Recap-CLIP,ViT-L-16-HTxt-Recap-CLIP,recap-datacomp1b,69.16666666666667,57.08333333333333,53.43750000000001,62.569444444444436,57.22222222222222,58.05555555555555,61.736111111111114,59.89583333333333
39
+ StructuredCLIP,NegCLIP-ViT-B-32,coco-ft,60.9375,55.52083333333333,50.9375,61.458333333333336,50.13888888888889,53.47222222222222,58.125,55.798611111111114
40
+ StructuredCLIP,CE-CLIP-ViT-B-32,coco-ft,64.27083333333333,56.77083333333333,51.97916666666667,65.20833333333333,50.138888888888886,53.47222222222222,61.875,57.673611111111114
41
+ StructuredCLIP,DAC-LLM-ViT-B-32,cc3m-ft,63.64583333333333,56.14583333333333,51.35416666666667,64.09722222222221,50.0,53.333333333333336,60.763888888888886,57.048611111111114
42
+ StructuredCLIP,DAC-SAM-ViT-B-32,cc3m-ft,63.02083333333333,56.77083333333333,51.14583333333333,63.95833333333332,50.0,52.916666666666664,61.041666666666664,56.979166666666664
pages/overall_acc_250116.py CHANGED
@@ -25,10 +25,10 @@ LONG_CAPTIONS = [
25
  'Jina-CLIP:jina-clip-v1:jinaai', 'Jina-CLIP:jina-clip-v2:jinaai'
26
  ]
27
  COMPOSITIONALITY = [
28
- 'StructuredCLIP:NegCLIP-ViT-B-32:coco-ft', 'StructuredCLIP:CE-CLIP-ViT-B-32:coco-ft',
29
- 'StructuredCLIP:DAC-LLM-ViT-B-32:cc3m-ft', 'StructuredCLIP:DAC-SAM-ViT-B-32:cc3m-ft',
30
- 'FSC-CLIP:fsc-clip-ViT-B-32:laioncoco-ft', 'FSC-CLIP:fsc-clip-ViT-B-16:laioncoco-ft',
31
- 'FSC-CLIP:fsc-clip-ViT-L-14:laioncoco-ft'
32
  ]
33
 
34
  MODEL_GROUPS = {
 
25
  'Jina-CLIP:jina-clip-v1:jinaai', 'Jina-CLIP:jina-clip-v2:jinaai'
26
  ]
27
  COMPOSITIONALITY = [
28
+ "OpenCLIP:ViT-B-32:openai", 'StructuredCLIP:NegCLIP-ViT-B-32:coco-ft',
29
+ 'StructuredCLIP:CE-CLIP-ViT-B-32:coco-ft', 'StructuredCLIP:DAC-LLM-ViT-B-32:cc3m-ft',
30
+ 'StructuredCLIP:DAC-SAM-ViT-B-32:cc3m-ft', 'FSC-CLIP:fsc-clip-ViT-B-32:laioncoco-ft',
31
+ 'FSC-CLIP:fsc-clip-ViT-B-16:laioncoco-ft', 'FSC-CLIP:fsc-clip-ViT-L-14:laioncoco-ft'
32
  ]
33
 
34
  MODEL_GROUPS = {
pages/overall_acc_250117.py ADDED
@@ -0,0 +1,85 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import pandas as pd
2
+
3
+ import streamlit as st
4
+
5
+ st.set_page_config(layout="wide")
6
+ SHORT_CAPTIONS = [
7
+ 'ALIGN:align-base:coyo700m', 'OpenCLIP:ViT-B-32:openai', 'OpenCLIP:ViT-B-16:openai',
8
+ 'OpenCLIP:ViT-L-14:openai', 'OpenCLIP:ViT-L-14-336:openai',
9
+ 'OpenCLIP:ViT-B-32:laion2b_s34b_b79k', 'OpenCLIP:ViT-B-16:laion2b_s34b_b88k',
10
+ 'OpenCLIP:ViT-L-14:laion2b_s32b_b82k', 'OpenCLIP:ViT-g-14:laion2b_s34b_b88k',
11
+ 'OpenCLIP:ViT-H-14:laion2b_s32b_b79k', 'OpenCLIP:roberta-ViT-B-32:laion2b_s12b_b32k',
12
+ 'OpenCLIP:ViT-B-16-SigLIP:webli', 'OpenCLIP:ViT-B-16-SigLIP-384:webli',
13
+ 'OpenCLIP:ViT-L-16-SigLIP-256:webli', 'OpenCLIP:ViT-L-16-SigLIP-384:webli',
14
+ 'OpenCLIP:ViT-SO400M-14-SigLIP:webli', 'OpenCLIP:coca_ViT-B-32:laion2b_s13b_b90k',
15
+ 'OpenCLIP:coca_ViT-L-14:laion2b_s13b_b90k'
16
+ ]
17
+ LONG_CAPTIONS = [
18
+ 'DreamLIP:dreamlip-vitb16:cc3m-long', 'DreamLIP:dreamlip-vitb16:cc12m-long',
19
+ 'DreamLIP:dreamlip-vitb16:yfcc15m-long', 'DreamLIP:dreamlip-vitb16:cc30m-long',
20
+ 'CLIPS:CLIPS-Large-14-224:recap-datacomp1b', 'CLIPS:CLIPS-Large-14-336:recap-datacomp1b',
21
+ 'CLIPS:CLIPS-Huge-14-224:recap-datacomp1b', 'LoTLIP:LoTLIP-ViT-B-32:lotlip100m',
22
+ 'LoTLIP:LoTLIP-ViT-B-16:lotlip100m', 'Recap-CLIP:ViT-L-16-HTxt-Recap-CLIP:recap-datacomp1b',
23
+ 'LongCLIP:longclip-vitb32:sharegpt4v-1m', 'LongCLIP:longclip-vitb16:sharegpt4v-1m',
24
+ 'LongCLIP:longclip-vitl14:sharegpt4v-1m', 'LongCLIP:longclip-vitl14_336px:sharegpt4v-1m',
25
+ 'Jina-CLIP:jina-clip-v1:jinaai', 'Jina-CLIP:jina-clip-v2:jinaai'
26
+ ]
27
+ COMPOSITIONALITY = [
28
+ "OpenCLIP:ViT-B-32:openai", 'StructuredCLIP:NegCLIP-ViT-B-32:coco-ft',
29
+ 'StructuredCLIP:CE-CLIP-ViT-B-32:coco-ft', 'StructuredCLIP:DAC-LLM-ViT-B-32:cc3m-ft',
30
+ 'StructuredCLIP:DAC-SAM-ViT-B-32:cc3m-ft', 'FSC-CLIP:fsc-clip-ViT-B-32:laioncoco-ft',
31
+ 'FSC-CLIP:fsc-clip-ViT-B-16:laioncoco-ft', 'FSC-CLIP:fsc-clip-ViT-L-14:laioncoco-ft'
32
+ ]
33
+
34
+ DECODERS = [
35
+ 'vqascore:instructblip-flant5-xl:none', 'vqascore:clip-flant5-xl:none',
36
+ 'vqascore:llava-v1.5-7b:none', 'vqascore:sharegpt4v-7b:none',
37
+ 'visualgptscore:instructblip-flant5-xl:none', 'visualgptscore:clip-flant5-xl:none',
38
+ 'visualgptscore:llava-v1.5-7b:none', 'visualgptscore:sharegpt4v-7b:none'
39
+ ]
40
+
41
+ MODEL_GROUPS = {
42
+ "short_captions": SHORT_CAPTIONS,
43
+ "long_captions": LONG_CAPTIONS,
44
+ "compositionality": COMPOSITIONALITY
45
+ }
46
+
47
+
48
+ def format_df(df):
49
+ cols = []
50
+ for col in df.columns:
51
+ if col in ["family", "model", "tag"]:
52
+ continue
53
+ cols.append(col)
54
+ formatted_df = df.style.format({col: "{:.1f}" for col in cols})
55
+ return formatted_df
56
+
57
+
58
+ def get_model_key_from_df(df, model_names):
59
+ named_rows = df[["family", "model", "tag"]].apply(lambda row: ":".join(row), axis=1)
60
+ new_rows = []
61
+ for name in model_names:
62
+ new_rows.append(df[named_rows == name])
63
+ new_rows = format_df(pd.concat(new_rows, axis=0))
64
+ st.table(new_rows)
65
+
66
+
67
+ # Streamlit app
68
+ def main():
69
+ st.title("Interface")
70
+ st.markdown("### All Evaluation Results on Sentence Addition Tasks")
71
+ st.markdown("- random chance 50% 반영")
72
+ st.markdown("- decoder-based model 결과 추가")
73
+
74
+ df = pd.read_csv("data/250117/all_tasks.csv")
75
+ for group, model_names in MODEL_GROUPS.items():
76
+ st.markdown(f"## {group} models")
77
+ get_model_key_from_df(df, model_names)
78
+
79
+ df = pd.read_csv("data/250117/decoder_overall.csv")
80
+ st.markdown("## Decoder-based models")
81
+ get_model_key_from_df(df, DECODERS)
82
+
83
+
84
+ if __name__ == "__main__":
85
+ main()
pages/summary_acc_250117.py ADDED
@@ -0,0 +1,188 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import ast
2
+
3
+ import pandas as pd
4
+
5
+ import streamlit as st
6
+
7
+ st.set_page_config(layout="wide")
8
+ SHORT_CAPTIONS = [
9
+ 'ALIGN:align-base:coyo700m', 'OpenCLIP:ViT-B-32:openai', 'OpenCLIP:ViT-B-16:openai',
10
+ 'OpenCLIP:ViT-L-14:openai', 'OpenCLIP:ViT-L-14-336:openai',
11
+ 'OpenCLIP:ViT-B-32:laion2b_s34b_b79k', 'OpenCLIP:ViT-B-16:laion2b_s34b_b88k',
12
+ 'OpenCLIP:ViT-L-14:laion2b_s32b_b82k', 'OpenCLIP:ViT-g-14:laion2b_s34b_b88k',
13
+ 'OpenCLIP:ViT-H-14:laion2b_s32b_b79k', 'OpenCLIP:roberta-ViT-B-32:laion2b_s12b_b32k',
14
+ 'OpenCLIP:ViT-B-16-SigLIP:webli', 'OpenCLIP:ViT-B-16-SigLIP-384:webli',
15
+ 'OpenCLIP:ViT-L-16-SigLIP-256:webli', 'OpenCLIP:ViT-L-16-SigLIP-384:webli',
16
+ 'OpenCLIP:ViT-SO400M-14-SigLIP:webli', 'OpenCLIP:coca_ViT-B-32:laion2b_s13b_b90k',
17
+ 'OpenCLIP:coca_ViT-L-14:laion2b_s13b_b90k'
18
+ ]
19
+ LONG_CAPTIONS = [
20
+ 'DreamLIP:dreamlip-vitb16:cc3m-long', 'DreamLIP:dreamlip-vitb16:cc12m-long',
21
+ 'DreamLIP:dreamlip-vitb16:yfcc15m-long', 'DreamLIP:dreamlip-vitb16:cc30m-long',
22
+ 'CLIPS:CLIPS-Large-14-224:recap-datacomp1b', 'CLIPS:CLIPS-Large-14-336:recap-datacomp1b',
23
+ 'CLIPS:CLIPS-Huge-14-224:recap-datacomp1b', 'LoTLIP:LoTLIP-ViT-B-32:lotlip100m',
24
+ 'LoTLIP:LoTLIP-ViT-B-16:lotlip100m', 'Recap-CLIP:ViT-L-16-HTxt-Recap-CLIP:recap-datacomp1b',
25
+ 'LongCLIP:longclip-vitb32:sharegpt4v-1m', 'LongCLIP:longclip-vitb16:sharegpt4v-1m',
26
+ 'LongCLIP:longclip-vitl14:sharegpt4v-1m', 'LongCLIP:longclip-vitl14_336px:sharegpt4v-1m',
27
+ 'Jina-CLIP:jina-clip-v1:jinaai', 'Jina-CLIP:jina-clip-v2:jinaai'
28
+ ]
29
+ COMPOSITIONALITY = [
30
+ 'OpenCLIP:ViT-B-32:openai', 'StructuredCLIP:NegCLIP-ViT-B-32:coco-ft',
31
+ 'StructuredCLIP:CE-CLIP-ViT-B-32:coco-ft', 'StructuredCLIP:DAC-LLM-ViT-B-32:cc3m-ft',
32
+ 'StructuredCLIP:DAC-SAM-ViT-B-32:cc3m-ft', 'FSC-CLIP:fsc-clip-ViT-B-32:laioncoco-ft',
33
+ 'FSC-CLIP:fsc-clip-ViT-B-16:laioncoco-ft', 'FSC-CLIP:fsc-clip-ViT-L-14:laioncoco-ft'
34
+ ]
35
+
36
+ DECODERS = [
37
+ 'vqascore:instructblip-flant5-xl:none', 'vqascore:clip-flant5-xl:none',
38
+ 'vqascore:llava-v1.5-7b:none', 'vqascore:sharegpt4v-7b:none',
39
+ 'visualgptscore:instructblip-flant5-xl:none', 'visualgptscore:clip-flant5-xl:none',
40
+ 'visualgptscore:llava-v1.5-7b:none', 'visualgptscore:sharegpt4v-7b:none'
41
+ ]
42
+
43
+ MODEL_GROUPS = {
44
+ "short_captions": SHORT_CAPTIONS,
45
+ "long_captions": LONG_CAPTIONS,
46
+ "compositionality": COMPOSITIONALITY
47
+ }
48
+
49
+
50
+ def render_mi_table(df, level0_cols):
51
+ # HTML 스타일 정의
52
+ table_style = """
53
+ <style>
54
+ table {
55
+ width: 100%;
56
+ border-collapse: collapse;
57
+ }
58
+ th, td {
59
+ border: 1px solid black;
60
+ text-align: center;
61
+ padding: 8px;
62
+ }
63
+ th {
64
+ background-color: #262730;
65
+ }
66
+ </style>
67
+ """
68
+
69
+ # 상위 헤더 (레벨 0)
70
+ header_html = "<tr>"
71
+ for col in level0_cols:
72
+ colspan = len(df.xs(col, axis=1, level=0).columns) if col else 1
73
+ header_html += f'<th colspan="{colspan}" style="text-align: center;">{col if col else ""}</th>'
74
+ header_html += "</tr>"
75
+
76
+ # 하위 헤더 (레벨 1)
77
+ sub_header_html = "<tr>"
78
+ for col in df.columns:
79
+ sub_header_html += f"<th style='text-align: center;'>{col[1] if len(col) > 1 else col[0]}</th>"
80
+ sub_header_html += "</tr>"
81
+
82
+ # 데이터 HTML 생성
83
+ def map_val(value):
84
+ try:
85
+ value = f"{float(value):.1f}"
86
+ except:
87
+ value = value
88
+ return value
89
+
90
+ rows_html = ""
91
+ for _, row in df.iterrows():
92
+
93
+ rows_html += "<tr>" + "".join(f"<td>{map_val(value)}</td>" for value in row) + "</tr>"
94
+
95
+ # 최종 HTML 합치기
96
+ table_html = f"""
97
+ {table_style}
98
+ <table>
99
+ {header_html}
100
+ {sub_header_html}
101
+ {rows_html}
102
+ </table>
103
+ """
104
+ return table_html
105
+
106
+
107
+ def format_df(df):
108
+ cols = []
109
+ for col in df.columns:
110
+ if col in [("Model", "family"), ("Model", "model"), ("Model", "tag")]:
111
+ continue
112
+ cols.append(col)
113
+ formatted_df = df.style.format({col: "{:.1f}" for col in cols})
114
+ return formatted_df
115
+
116
+
117
+ def print_table(df):
118
+ level0_cols = []
119
+ for col in df.columns:
120
+ if col[0] not in level0_cols:
121
+ level0_cols.append(col[0])
122
+ st.markdown(render_mi_table(df, level0_cols), unsafe_allow_html=True)
123
+
124
+
125
+ def get_model_key_from_df(df, model_names):
126
+ columns = [("Model", "family"), ("Model", "model"), ("Model", "tag")]
127
+ named_rows = df[columns].apply(lambda row: ":".join(row), axis=1)
128
+ new_rows = []
129
+ for name in model_names:
130
+ new_rows.append(df[named_rows == name])
131
+ new_rows = pd.concat(new_rows, axis=0)
132
+ new_rows.columns = pd.MultiIndex.from_tuples(new_rows.columns)
133
+ print_table(new_rows)
134
+
135
+
136
+ # Streamlit app
137
+ def main():
138
+ st.title("Interface")
139
+ st.markdown("### Summarized Evaluation Results on Sentence Addition Tasks")
140
+ st.markdown("- random chance 50% 반영")
141
+ st.markdown("- decoder-based model 결과 추가")
142
+
143
+ df = pd.read_csv("data/250117/summary.csv")
144
+ df.columns = [ast.literal_eval(col) for col in df.columns]
145
+ for group, model_names in MODEL_GROUPS.items():
146
+ st.markdown(f"## {group} models")
147
+ if group == "short_captions":
148
+ st.markdown(
149
+ "- **Length group**: 이미 short group부터, 80<(Num_tokens)<120. 중간에 문장 더해졌으면 60-70%정도 맞추고, 끝에 문장 더해졌으면 애초에 added sentence encoding 불가 -> accuracy 는 random chance, 50%."
150
+ )
151
+ st.markdown(
152
+ "- **neg_target**: description의 끝 (=background)에 sentence 더해진 경우 accuracy 50%"
153
+ )
154
+ st.markdown("- **neg_type**: contradictory sentence가 모델 입장에서 맞추기 더 어려움")
155
+
156
+ if group == "long_captions":
157
+ st.markdown(
158
+ "- **Length group**: 모델의 context length에 성능 심하게 dependent함. DreamLIP: 77, CLIPS: 80, LoTLIP: 128, Recap-CLIP: 128, LongCLIP: 248, Jina-CLIP: 512"
159
+ )
160
+ st.markdown("- **neg_target**: 여전히 background level에서 sentence 더해진게 전반적으로 어려움")
161
+ st.markdown("- **neg_type**: contradictory sentence가 모델 입장에서 맞추기 더 어려움")
162
+ if group == "compositionality":
163
+ st.markdown("- context length 77의 한계. Hard Negative Caption으로 Fine-tuning 하면 일부 좋아짐")
164
+ get_model_key_from_df(df, model_names)
165
+
166
+ df = pd.read_csv("data/250117/decoder_summary.csv")
167
+ df.columns = [ast.literal_eval(col) for col in df.columns]
168
+ st.markdown("## Decoder-based models")
169
+ st.markdown(
170
+ "- InstructBLIP은 text input context length가 128 -> medium length group부터 헷갈리기 시작 (vqascore, visualgptscore 모두.)"
171
+ )
172
+ st.markdown(
173
+ "- 나머지 세 모델은 vision+language 토탈 2048 context length (충분함). VQAScore에서 high performance, VisualGPTScore은 거의 random chance."
174
+ )
175
+ st.markdown(
176
+ "- visualgptscore는 given caption의 매 token 위치마다 auto-regressive cross-entropy loss의 avg으로 계산됨 (like image captioning)"
177
+ )
178
+ st.markdown(
179
+ "- vqascore는 given caption을 question에 넣고, yes/no 형식 question으로 물어봄 -> answer token 위치에서 cross entropy loss으로 계산"
180
+ )
181
+ st.markdown(
182
+ "- 즉 long text generative task는 약한데 qa 능력은 좋아서 visualgptscore는 낮고, vqascore가 더 높게 나온다고 추측가능"
183
+ )
184
+ get_model_key_from_df(df, DECODERS)
185
+
186
+
187
+ if __name__ == "__main__":
188
+ main()