update
Browse files- data/250117/all_tasks.csv +42 -0
- data/250117/decoder_overall.csv +9 -0
- data/250117/decoder_summary.csv +9 -0
- data/250117/summary.csv +42 -0
- pages/overall_acc_250116.py +4 -4
- pages/overall_acc_250117.py +85 -0
- pages/summary_acc_250117.py +188 -0
data/250117/all_tasks.csv
ADDED
|
@@ -0,0 +1,42 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
family,model,tag,contr_ent_short,contr_ent_medium,contr_ent_long,contr_bg_short,contr_bg_medium,contr_bg_long,irrel_ent_short,irrel_ent_medium,irrel_ent_long,irrel_bg_short,irrel_bg_medium,irrel_bg_long,Avg
|
| 2 |
+
ALIGN,align-base,coyo700m,63.33333333333334,55.416666666666664,51.25,50.0,50.0,50.0,77.5,57.5,50.0,50.0,50.0,50.0,54.583333333333336
|
| 3 |
+
CLIPS,CLIPS-Large-14-224,recap-datacomp1b,56.66666666666667,62.916666666666664,52.083333333333336,50.0,50.0,50.0,77.08333333333333,62.91666666666667,53.333333333333336,50.0,50.0,50.0,55.41666666666667
|
| 4 |
+
CLIPS,CLIPS-Large-14-336,recap-datacomp1b,58.33333333333333,62.916666666666664,52.916666666666664,50.0,50.0,50.0,77.08333333333333,63.75,54.16666666666667,50.0,50.0,50.0,55.763888888888886
|
| 5 |
+
CLIPS,CLIPS-Huge-14-224,recap-datacomp1b,72.5,62.08333333333333,48.75,50.0,50.0,49.166666666666664,85.41666666666667,62.083333333333336,52.5,50.0,50.0,49.166666666666664,56.80555555555556
|
| 6 |
+
DreamLIP,dreamlip-vitb16,cc3m-long,68.33333333333333,53.75,51.25,50.0,50.0,50.0,67.91666666666666,53.333333333333336,49.166666666666664,50.0,50.0,50.833333333333336,53.71527777777777
|
| 7 |
+
DreamLIP,dreamlip-vitb16,cc12m-long,61.666666666666664,55.41666666666666,47.916666666666664,50.0,50.0,50.0,72.91666666666667,55.833333333333336,53.333333333333336,50.0,50.0,50.0,53.923611111111114
|
| 8 |
+
DreamLIP,dreamlip-vitb16,yfcc15m-long,62.5,50.41666666666667,49.583333333333336,50.0,50.0,50.0,77.91666666666666,59.16666666666667,55.0,50.0,50.0,50.0,54.548611111111114
|
| 9 |
+
DreamLIP,dreamlip-vitb16,cc30m-long,71.66666666666666,55.41666666666666,49.583333333333336,50.0,50.0,50.833333333333336,82.08333333333334,65.83333333333334,52.5,50.0,50.0,50.0,56.49305555555555
|
| 10 |
+
FSC-CLIP,fsc-clip-ViT-B-32,laioncoco-ft,69.16666666666667,50.41666666666667,49.583333333333336,50.0,50.0,50.0,82.91666666666667,64.16666666666667,53.333333333333336,50.0,50.0,49.166666666666664,55.72916666666667
|
| 11 |
+
FSC-CLIP,fsc-clip-ViT-B-16,laioncoco-ft,70.0,52.91666666666667,50.41666666666667,50.0,50.0,50.0,82.91666666666667,70.0,53.333333333333336,50.0,50.0,49.166666666666664,56.5625
|
| 12 |
+
FSC-CLIP,fsc-clip-ViT-L-14,laioncoco-ft,59.16666666666666,52.08333333333333,50.41666666666667,50.0,50.0,50.0,87.91666666666667,70.0,52.5,50.0,50.0,50.0,56.00694444444444
|
| 13 |
+
Jina-CLIP,jina-clip-v1,jinaai,66.66666666666666,70.0,70.0,60.83333333333333,76.66666666666667,69.16666666666667,82.5,80.83333333333333,70.83333333333334,67.5,72.5,70.0,71.45833333333334
|
| 14 |
+
Jina-CLIP,jina-clip-v2,jinaai,76.25,67.5,58.74999999999999,82.08333333333333,79.16666666666667,68.75,80.83333333333334,79.58333333333334,67.08333333333334,77.08333333333334,68.75,63.75,72.46527777777777
|
| 15 |
+
LoTLIP,LoTLIP-ViT-B-32,lotlip100m,54.166666666666664,61.25,61.666666666666664,70.0,52.916666666666664,50.833333333333336,65.83333333333333,60.83333333333333,67.91666666666667,64.16666666666667,54.16666666666667,50.833333333333336,59.548611111111114
|
| 16 |
+
LoTLIP,LoTLIP-ViT-B-16,lotlip100m,55.833333333333336,60.41666666666667,58.333333333333336,66.66666666666666,50.41666666666667,50.0,63.33333333333333,66.66666666666666,64.58333333333334,60.0,50.833333333333336,50.0,58.090277777777786
|
| 17 |
+
LongCLIP,longclip-vitb32,sharegpt4v-1m,72.08333333333334,60.83333333333333,63.33333333333333,81.25,70.0,59.58333333333333,90.0,77.08333333333333,80.83333333333334,86.66666666666667,72.5,59.16666666666667,72.77777777777777
|
| 18 |
+
LongCLIP,longclip-vitb16,sharegpt4v-1m,69.16666666666666,66.66666666666667,60.83333333333333,74.58333333333333,63.333333333333336,43.33333333333333,90.41666666666666,91.25,67.5,82.08333333333334,76.25,54.166666666666664,69.96527777777777
|
| 19 |
+
LongCLIP,longclip-vitl14,sharegpt4v-1m,67.91666666666666,58.75,57.916666666666664,61.25,63.75,50.41666666666667,84.16666666666667,81.25,71.66666666666667,78.75,69.58333333333333,57.5,66.90972222222223
|
| 20 |
+
LongCLIP,longclip-vitl14_336px,sharegpt4v-1m,74.58333333333334,56.66666666666667,52.5,77.08333333333333,63.75,44.16666666666667,89.16666666666667,85.0,64.16666666666666,88.33333333333333,72.5,48.75,68.05555555555556
|
| 21 |
+
OpenCLIP,roberta-ViT-B-32,laion2b_s12b_b32k,67.08333333333334,60.0,51.25,49.583333333333336,50.0,49.166666666666664,76.25,58.75,50.833333333333336,50.0,50.0,50.0,55.24305555555556
|
| 22 |
+
OpenCLIP,coca_ViT-B-32,laion2b_s13b_b90k,67.91666666666666,56.66666666666667,50.41666666666667,50.0,50.0,49.166666666666664,82.91666666666667,63.75,52.083333333333336,50.0,50.0,50.0,56.076388888888886
|
| 23 |
+
OpenCLIP,coca_ViT-L-14,laion2b_s13b_b90k,64.58333333333333,60.0,49.583333333333336,50.0,50.0,49.166666666666664,79.58333333333333,64.58333333333334,52.083333333333336,50.0,50.0,49.166666666666664,55.72916666666667
|
| 24 |
+
OpenCLIP,ViT-H-14,laion2b_s32b_b79k,63.333333333333336,58.75,50.41666666666667,50.0,50.0,49.166666666666664,83.75,65.0,51.66666666666667,50.0,50.0,49.166666666666664,55.9375
|
| 25 |
+
OpenCLIP,ViT-L-14,laion2b_s32b_b82k,58.33333333333333,57.91666666666667,49.583333333333336,50.0,50.0,50.0,82.91666666666667,61.66666666666667,52.5,50.0,50.0,49.166666666666664,55.173611111111114
|
| 26 |
+
OpenCLIP,ViT-B-32,laion2b_s34b_b79k,68.33333333333333,62.08333333333333,47.083333333333336,50.0,50.0,50.0,80.41666666666666,60.833333333333336,55.0,50.0,50.0,50.0,56.145833333333336
|
| 27 |
+
OpenCLIP,ViT-B-16,laion2b_s34b_b88k,62.5,57.08333333333333,49.583333333333336,50.0,50.0,49.166666666666664,72.08333333333334,65.0,54.16666666666667,50.0,50.0,49.166666666666664,54.89583333333333
|
| 28 |
+
OpenCLIP,ViT-g-14,laion2b_s34b_b88k,65.0,55.41666666666666,50.41666666666667,50.0,50.0,49.166666666666664,78.75,65.0,51.66666666666667,50.0,50.0,49.166666666666664,55.38194444444445
|
| 29 |
+
OpenCLIP,ViT-B-16,openai,64.16666666666666,51.25,50.41666666666667,50.0,50.0,49.166666666666664,75.41666666666667,59.16666666666667,51.66666666666667,50.0,50.0,49.166666666666664,54.201388888888886
|
| 30 |
+
OpenCLIP,ViT-B-32,openai,57.5,54.58333333333333,48.75,50.0,50.0,49.166666666666664,67.08333333333333,63.333333333333336,52.5,50.0,50.0,49.166666666666664,53.50694444444444
|
| 31 |
+
OpenCLIP,ViT-L-14,openai,57.5,55.41666666666666,49.583333333333336,50.0,50.0,49.166666666666664,74.58333333333333,62.50000000000001,51.66666666666667,50.0,50.0,49.166666666666664,54.13194444444445
|
| 32 |
+
OpenCLIP,ViT-L-14-336,openai,58.33333333333333,57.08333333333333,47.916666666666664,50.0,50.0,49.166666666666664,75.41666666666667,66.66666666666666,50.0,50.0,50.0,49.166666666666664,54.47916666666667
|
| 33 |
+
OpenCLIP,ViT-B-16-SigLIP,webli,56.25,54.166666666666664,50.41666666666667,50.0,50.0,50.0,67.08333333333333,56.666666666666664,51.666666666666664,50.0,50.0,50.833333333333336,53.09027777777777
|
| 34 |
+
OpenCLIP,ViT-B-16-SigLIP-384,webli,61.25,54.166666666666664,50.41666666666667,50.0,50.0,50.0,70.41666666666667,59.166666666666664,51.666666666666664,50.0,50.0,50.0,53.923611111111114
|
| 35 |
+
OpenCLIP,ViT-L-16-SigLIP-256,webli,62.91666666666666,55.833333333333336,49.58333333333333,50.0,50.0,50.0,77.91666666666667,60.0,50.833333333333336,50.0,50.0,50.0,54.75694444444444
|
| 36 |
+
OpenCLIP,ViT-L-16-SigLIP-384,webli,62.91666666666666,55.0,49.58333333333333,50.0,50.0,50.0,75.41666666666667,58.333333333333336,50.833333333333336,50.0,50.0,50.0,54.34027777777778
|
| 37 |
+
OpenCLIP,ViT-SO400M-14-SigLIP,webli,50.0,50.0,50.416666666666664,50.0,50.0,50.416666666666664,50.0,50.0,50.0,50.0,50.0,50.0,50.06944444444444
|
| 38 |
+
Recap-CLIP,ViT-L-16-HTxt-Recap-CLIP,recap-datacomp1b,56.666666666666664,61.25,56.25,73.33333333333333,50.0,50.833333333333336,77.5,67.91666666666666,55.83333333333333,69.16666666666667,49.16666666666667,50.833333333333336,59.89583333333333
|
| 39 |
+
StructuredCLIP,NegCLIP-ViT-B-32,coco-ft,65.0,54.58333333333333,50.41666666666667,50.0,50.0,50.833333333333336,78.75,67.5,52.5,50.0,50.0,50.0,55.798611111111114
|
| 40 |
+
StructuredCLIP,CE-CLIP-ViT-B-32,coco-ft,65.0,55.41666666666666,50.41666666666667,50.0,50.0,50.0,92.08333333333333,71.66666666666666,56.66666666666667,50.0,50.0,50.833333333333336,57.673611111111114
|
| 41 |
+
StructuredCLIP,DAC-LLM-ViT-B-32,cc3m-ft,65.0,55.41666666666666,49.583333333333336,50.0,50.0,50.0,89.58333333333333,69.16666666666667,55.83333333333333,50.0,50.0,50.0,57.048611111111114
|
| 42 |
+
StructuredCLIP,DAC-SAM-ViT-B-32,cc3m-ft,64.16666666666666,55.41666666666666,47.916666666666664,50.0,50.0,50.0,87.91666666666667,71.66666666666666,56.66666666666667,50.0,50.0,50.0,56.979166666666664
|
data/250117/decoder_overall.csv
ADDED
|
@@ -0,0 +1,9 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
family,model,tag,contr_ent_short,contr_ent_medium,contr_ent_long,contr_bg_short,contr_bg_medium,contr_bg_long,irrel_ent_short,irrel_ent_medium,irrel_ent_long,irrel_bg_short,irrel_bg_medium,irrel_bg_long,Avg
|
| 2 |
+
vqascore,instructblip-flant5-xl,none,83.33333333333334,55.416666666666664,52.08333333333333,78.33333333333333,50.83333333333333,46.25,78.33333333333333,50.0,46.25,73.33333333333333,32.5,35.833333333333336,56.874999999999986
|
| 3 |
+
vqascore,clip-flant5-xl,none,85.0,85.83333333333334,77.5,94.16666666666667,96.66666666666667,94.58333333333334,84.16666666666667,86.66666666666667,82.5,85.0,87.91666666666666,82.5,86.875
|
| 4 |
+
vqascore,llava-v1.5-7b,none,83.33333333333334,79.58333333333333,73.33333333333334,91.66666666666666,83.33333333333334,78.75,88.75,83.33333333333333,78.33333333333334,84.16666666666667,79.58333333333333,75.0,81.59722222222223
|
| 5 |
+
vqascore,sharegpt4v-7b,none,88.33333333333333,79.16666666666666,82.08333333333334,92.5,78.75,88.75,82.5,75.0,84.16666666666667,75.41666666666666,58.75,74.58333333333333,80.0
|
| 6 |
+
visualgptscore,instructblip-flant5-xl,none,33.33333333333333,29.166666666666668,46.666666666666664,51.66666666666667,42.5,64.16666666666666,53.333333333333336,46.666666666666664,61.25,47.5,47.5,67.5,49.270833333333336
|
| 7 |
+
visualgptscore,clip-flant5-xl,none,50.83333333333333,47.5,42.5,62.5,55.00000000000001,44.166666666666664,68.33333333333333,71.66666666666667,64.16666666666667,57.49999999999999,60.83333333333333,48.333333333333336,56.11111111111111
|
| 8 |
+
visualgptscore,llava-v1.5-7b,none,50.0,43.333333333333336,44.166666666666664,54.166666666666664,40.0,42.5,60.83333333333333,63.33333333333333,52.5,50.0,40.833333333333336,38.333333333333336,48.33333333333333
|
| 9 |
+
visualgptscore,sharegpt4v-7b,none,48.333333333333336,41.66666666666667,45.0,55.00000000000001,45.0,45.0,55.00000000000001,60.0,52.5,49.166666666666664,49.166666666666664,43.333333333333336,49.097222222222214
|
data/250117/decoder_summary.csv
ADDED
|
@@ -0,0 +1,9 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
"('Model', 'family')","('Model', 'model')","('Model', 'tag')","('length_group', 'short')","('length_group', 'medium')","('length_group', 'long')","('neg_target', 'entity')","('neg_target', 'background')","('neg_type', 'contradict')","('neg_type', 'irrelevant')","('Avg', 'Avg')"
|
| 2 |
+
vqascore,instructblip-flant5-xl,none,78.33333333333333,47.1875,45.104166666666664,60.90277777777777,52.84722222222222,61.04166666666666,52.70833333333332,56.874999999999986
|
| 3 |
+
vqascore,clip-flant5-xl,none,87.08333333333334,89.27083333333334,84.27083333333334,83.61111111111111,90.1388888888889,88.95833333333333,84.79166666666667,86.875
|
| 4 |
+
vqascore,llava-v1.5-7b,none,86.97916666666667,81.45833333333333,76.35416666666667,81.1111111111111,82.08333333333333,81.66666666666667,81.52777777777777,81.59722222222223
|
| 5 |
+
vqascore,sharegpt4v-7b,none,84.6875,72.91666666666666,82.39583333333333,81.87500000000001,78.12499999999999,84.93055555555556,75.06944444444444,80.0
|
| 6 |
+
visualgptscore,instructblip-flant5-xl,none,46.458333333333336,41.458333333333336,59.89583333333333,45.069444444444436,53.47222222222222,44.583333333333336,53.958333333333336,49.270833333333336
|
| 7 |
+
visualgptscore,clip-flant5-xl,none,59.791666666666664,58.75,49.791666666666664,57.5,54.72222222222222,50.416666666666664,61.80555555555555,56.11111111111111
|
| 8 |
+
visualgptscore,llava-v1.5-7b,none,53.75,46.87500000000001,44.375,52.36111111111111,44.30555555555555,45.694444444444436,50.97222222222222,48.33333333333333
|
| 9 |
+
visualgptscore,sharegpt4v-7b,none,51.875,48.958333333333336,46.458333333333336,50.416666666666664,47.77777777777777,46.666666666666664,51.52777777777777,49.097222222222214
|
data/250117/summary.csv
ADDED
|
@@ -0,0 +1,42 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
"('Model', 'family')","('Model', 'model')","('Model', 'tag')","('length_group', 'short')","('length_group', 'medium')","('length_group', 'long')","('neg_target', 'entity')","('neg_target', 'background')","('neg_type', 'contradict')","('neg_type', 'irrelevant')","('Avg', 'Avg')"
|
| 2 |
+
ALIGN,align-base,coyo700m,60.208333333333336,53.229166666666664,50.3125,59.166666666666664,50.0,53.333333333333336,55.833333333333336,54.583333333333336
|
| 3 |
+
CLIPS,CLIPS-Large-14-224,recap-datacomp1b,58.4375,56.45833333333333,51.35416666666667,60.833333333333336,50.0,53.611111111111114,57.22222222222223,55.41666666666667
|
| 4 |
+
CLIPS,CLIPS-Large-14-336,recap-datacomp1b,58.854166666666664,56.666666666666664,51.77083333333333,61.52777777777778,50.0,54.02777777777777,57.5,55.763888888888886
|
| 5 |
+
CLIPS,CLIPS-Huge-14-224,recap-datacomp1b,64.47916666666667,56.041666666666664,49.89583333333333,63.888888888888886,49.72222222222222,55.416666666666664,58.19444444444445,56.80555555555556
|
| 6 |
+
DreamLIP,dreamlip-vitb16,cc3m-long,59.0625,51.770833333333336,50.3125,57.291666666666664,50.138888888888886,53.888888888888886,53.54166666666666,53.71527777777777
|
| 7 |
+
DreamLIP,dreamlip-vitb16,cc12m-long,58.64583333333333,52.8125,50.3125,57.84722222222221,50.0,52.5,55.34722222222223,53.923611111111114
|
| 8 |
+
DreamLIP,dreamlip-vitb16,yfcc15m-long,60.104166666666664,52.395833333333336,51.145833333333336,59.09722222222222,50.0,52.083333333333336,57.013888888888886,54.548611111111114
|
| 9 |
+
DreamLIP,dreamlip-vitb16,cc30m-long,63.4375,55.3125,50.72916666666667,62.84722222222223,50.13888888888889,54.58333333333332,58.40277777777778,56.49305555555555
|
| 10 |
+
FSC-CLIP,fsc-clip-ViT-B-32,laioncoco-ft,63.020833333333336,53.645833333333336,50.520833333333336,61.59722222222223,49.861111111111114,53.19444444444445,58.26388888888889,55.72916666666667
|
| 11 |
+
FSC-CLIP,fsc-clip-ViT-B-16,laioncoco-ft,63.22916666666667,55.72916666666667,50.729166666666664,63.263888888888886,49.861111111111114,53.88888888888889,59.236111111111114,56.5625
|
| 12 |
+
FSC-CLIP,fsc-clip-ViT-L-14,laioncoco-ft,61.77083333333333,55.52083333333333,50.72916666666667,62.013888888888886,50.0,51.944444444444436,60.06944444444445,56.00694444444444
|
| 13 |
+
Jina-CLIP,jina-clip-v1,jinaai,69.375,75.0,70.0,73.47222222222221,69.44444444444444,68.8888888888889,74.02777777777777,71.45833333333334
|
| 14 |
+
Jina-CLIP,jina-clip-v2,jinaai,79.0625,73.75,64.58333333333334,71.66666666666669,73.2638888888889,72.08333333333333,72.84722222222223,72.46527777777777
|
| 15 |
+
LoTLIP,LoTLIP-ViT-B-32,lotlip100m,63.54166666666667,57.29166666666667,57.81250000000001,61.944444444444436,57.15277777777778,58.47222222222222,60.625,59.548611111111114
|
| 16 |
+
LoTLIP,LoTLIP-ViT-B-16,lotlip100m,61.45833333333333,57.083333333333336,55.72916666666667,61.52777777777779,54.65277777777777,56.94444444444445,59.236111111111114,58.090277777777786
|
| 17 |
+
LongCLIP,longclip-vitb32,sharegpt4v-1m,82.5,70.10416666666666,65.72916666666667,74.02777777777777,71.52777777777779,67.84722222222221,77.70833333333333,72.77777777777777
|
| 18 |
+
LongCLIP,longclip-vitb16,sharegpt4v-1m,79.0625,74.375,56.45833333333333,74.30555555555554,65.62500000000001,62.98611111111109,76.94444444444444,69.96527777777777
|
| 19 |
+
LongCLIP,longclip-vitl14,sharegpt4v-1m,73.02083333333333,68.33333333333333,59.375,70.27777777777779,63.541666666666664,60.0,73.81944444444444,66.90972222222223
|
| 20 |
+
LongCLIP,longclip-vitl14_336px,sharegpt4v-1m,82.29166666666667,69.47916666666667,52.39583333333333,70.34722222222223,65.76388888888889,61.458333333333336,74.65277777777779,68.05555555555556
|
| 21 |
+
OpenCLIP,roberta-ViT-B-32,laion2b_s12b_b32k,60.72916666666667,54.6875,50.3125,60.69444444444445,49.791666666666664,54.51388888888889,55.97222222222223,55.24305555555556
|
| 22 |
+
OpenCLIP,coca_ViT-B-32,laion2b_s13b_b90k,62.70833333333333,55.10416666666667,50.41666666666667,62.291666666666664,49.86111111111111,54.02777777777778,58.125,56.076388888888886
|
| 23 |
+
OpenCLIP,coca_ViT-L-14,laion2b_s13b_b90k,61.041666666666664,56.145833333333336,50.0,61.736111111111114,49.72222222222222,53.888888888888886,57.56944444444445,55.72916666666667
|
| 24 |
+
OpenCLIP,ViT-H-14,laion2b_s32b_b79k,61.770833333333336,55.9375,50.104166666666664,62.15277777777778,49.72222222222222,53.611111111111114,58.26388888888889,55.9375
|
| 25 |
+
OpenCLIP,ViT-L-14,laion2b_s32b_b82k,60.3125,54.895833333333336,50.3125,60.486111111111114,49.861111111111114,52.63888888888889,57.70833333333334,55.173611111111114
|
| 26 |
+
OpenCLIP,ViT-B-32,laion2b_s34b_b79k,62.1875,55.729166666666664,50.520833333333336,62.29166666666666,50.0,54.583333333333336,57.708333333333336,56.145833333333336
|
| 27 |
+
OpenCLIP,ViT-B-16,laion2b_s34b_b88k,58.645833333333336,55.52083333333333,50.520833333333336,60.06944444444445,49.72222222222222,53.05555555555555,56.736111111111114,54.89583333333333
|
| 28 |
+
OpenCLIP,ViT-g-14,laion2b_s34b_b88k,60.9375,55.104166666666664,50.104166666666664,61.041666666666664,49.72222222222222,53.333333333333336,57.430555555555564,55.38194444444445
|
| 29 |
+
OpenCLIP,ViT-B-16,openai,59.89583333333333,52.60416666666667,50.104166666666664,58.680555555555564,49.72222222222222,52.5,55.90277777777778,54.201388888888886
|
| 30 |
+
OpenCLIP,ViT-B-32,openai,56.14583333333333,54.479166666666664,49.89583333333333,57.29166666666666,49.72222222222222,51.666666666666664,55.34722222222222,53.50694444444444
|
| 31 |
+
OpenCLIP,ViT-L-14,openai,58.02083333333333,54.479166666666664,49.895833333333336,58.541666666666664,49.72222222222222,51.94444444444445,56.31944444444445,54.13194444444445
|
| 32 |
+
OpenCLIP,ViT-L-14-336,openai,58.4375,55.9375,49.06249999999999,59.23611111111111,49.72222222222222,52.083333333333336,56.875,54.47916666666667
|
| 33 |
+
OpenCLIP,ViT-B-16-SigLIP,webli,55.83333333333333,52.70833333333333,50.72916666666667,56.041666666666664,50.138888888888886,51.80555555555555,54.37499999999999,53.09027777777777
|
| 34 |
+
OpenCLIP,ViT-B-16-SigLIP-384,webli,57.91666666666667,53.33333333333333,50.520833333333336,57.84722222222223,50.0,52.638888888888886,55.208333333333336,53.923611111111114
|
| 35 |
+
OpenCLIP,ViT-L-16-SigLIP-256,webli,60.20833333333333,53.958333333333336,50.104166666666664,59.513888888888886,50.0,53.05555555555555,56.458333333333336,54.75694444444444
|
| 36 |
+
OpenCLIP,ViT-L-16-SigLIP-384,webli,59.58333333333333,53.333333333333336,50.104166666666664,58.68055555555555,50.0,52.916666666666664,55.76388888888889,54.34027777777778
|
| 37 |
+
OpenCLIP,ViT-SO400M-14-SigLIP,webli,50.0,50.0,50.20833333333333,50.069444444444436,50.069444444444436,50.138888888888886,50.0,50.06944444444444
|
| 38 |
+
Recap-CLIP,ViT-L-16-HTxt-Recap-CLIP,recap-datacomp1b,69.16666666666667,57.08333333333333,53.43750000000001,62.569444444444436,57.22222222222222,58.05555555555555,61.736111111111114,59.89583333333333
|
| 39 |
+
StructuredCLIP,NegCLIP-ViT-B-32,coco-ft,60.9375,55.52083333333333,50.9375,61.458333333333336,50.13888888888889,53.47222222222222,58.125,55.798611111111114
|
| 40 |
+
StructuredCLIP,CE-CLIP-ViT-B-32,coco-ft,64.27083333333333,56.77083333333333,51.97916666666667,65.20833333333333,50.138888888888886,53.47222222222222,61.875,57.673611111111114
|
| 41 |
+
StructuredCLIP,DAC-LLM-ViT-B-32,cc3m-ft,63.64583333333333,56.14583333333333,51.35416666666667,64.09722222222221,50.0,53.333333333333336,60.763888888888886,57.048611111111114
|
| 42 |
+
StructuredCLIP,DAC-SAM-ViT-B-32,cc3m-ft,63.02083333333333,56.77083333333333,51.14583333333333,63.95833333333332,50.0,52.916666666666664,61.041666666666664,56.979166666666664
|
pages/overall_acc_250116.py
CHANGED
|
@@ -25,10 +25,10 @@ LONG_CAPTIONS = [
|
|
| 25 |
'Jina-CLIP:jina-clip-v1:jinaai', 'Jina-CLIP:jina-clip-v2:jinaai'
|
| 26 |
]
|
| 27 |
COMPOSITIONALITY = [
|
| 28 |
-
|
| 29 |
-
'StructuredCLIP:
|
| 30 |
-
'
|
| 31 |
-
'FSC-CLIP:fsc-clip-ViT-L-14:laioncoco-ft'
|
| 32 |
]
|
| 33 |
|
| 34 |
MODEL_GROUPS = {
|
|
|
|
| 25 |
'Jina-CLIP:jina-clip-v1:jinaai', 'Jina-CLIP:jina-clip-v2:jinaai'
|
| 26 |
]
|
| 27 |
COMPOSITIONALITY = [
|
| 28 |
+
"OpenCLIP:ViT-B-32:openai", 'StructuredCLIP:NegCLIP-ViT-B-32:coco-ft',
|
| 29 |
+
'StructuredCLIP:CE-CLIP-ViT-B-32:coco-ft', 'StructuredCLIP:DAC-LLM-ViT-B-32:cc3m-ft',
|
| 30 |
+
'StructuredCLIP:DAC-SAM-ViT-B-32:cc3m-ft', 'FSC-CLIP:fsc-clip-ViT-B-32:laioncoco-ft',
|
| 31 |
+
'FSC-CLIP:fsc-clip-ViT-B-16:laioncoco-ft', 'FSC-CLIP:fsc-clip-ViT-L-14:laioncoco-ft'
|
| 32 |
]
|
| 33 |
|
| 34 |
MODEL_GROUPS = {
|
pages/overall_acc_250117.py
ADDED
|
@@ -0,0 +1,85 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import pandas as pd
|
| 2 |
+
|
| 3 |
+
import streamlit as st
|
| 4 |
+
|
| 5 |
+
st.set_page_config(layout="wide")
|
| 6 |
+
SHORT_CAPTIONS = [
|
| 7 |
+
'ALIGN:align-base:coyo700m', 'OpenCLIP:ViT-B-32:openai', 'OpenCLIP:ViT-B-16:openai',
|
| 8 |
+
'OpenCLIP:ViT-L-14:openai', 'OpenCLIP:ViT-L-14-336:openai',
|
| 9 |
+
'OpenCLIP:ViT-B-32:laion2b_s34b_b79k', 'OpenCLIP:ViT-B-16:laion2b_s34b_b88k',
|
| 10 |
+
'OpenCLIP:ViT-L-14:laion2b_s32b_b82k', 'OpenCLIP:ViT-g-14:laion2b_s34b_b88k',
|
| 11 |
+
'OpenCLIP:ViT-H-14:laion2b_s32b_b79k', 'OpenCLIP:roberta-ViT-B-32:laion2b_s12b_b32k',
|
| 12 |
+
'OpenCLIP:ViT-B-16-SigLIP:webli', 'OpenCLIP:ViT-B-16-SigLIP-384:webli',
|
| 13 |
+
'OpenCLIP:ViT-L-16-SigLIP-256:webli', 'OpenCLIP:ViT-L-16-SigLIP-384:webli',
|
| 14 |
+
'OpenCLIP:ViT-SO400M-14-SigLIP:webli', 'OpenCLIP:coca_ViT-B-32:laion2b_s13b_b90k',
|
| 15 |
+
'OpenCLIP:coca_ViT-L-14:laion2b_s13b_b90k'
|
| 16 |
+
]
|
| 17 |
+
LONG_CAPTIONS = [
|
| 18 |
+
'DreamLIP:dreamlip-vitb16:cc3m-long', 'DreamLIP:dreamlip-vitb16:cc12m-long',
|
| 19 |
+
'DreamLIP:dreamlip-vitb16:yfcc15m-long', 'DreamLIP:dreamlip-vitb16:cc30m-long',
|
| 20 |
+
'CLIPS:CLIPS-Large-14-224:recap-datacomp1b', 'CLIPS:CLIPS-Large-14-336:recap-datacomp1b',
|
| 21 |
+
'CLIPS:CLIPS-Huge-14-224:recap-datacomp1b', 'LoTLIP:LoTLIP-ViT-B-32:lotlip100m',
|
| 22 |
+
'LoTLIP:LoTLIP-ViT-B-16:lotlip100m', 'Recap-CLIP:ViT-L-16-HTxt-Recap-CLIP:recap-datacomp1b',
|
| 23 |
+
'LongCLIP:longclip-vitb32:sharegpt4v-1m', 'LongCLIP:longclip-vitb16:sharegpt4v-1m',
|
| 24 |
+
'LongCLIP:longclip-vitl14:sharegpt4v-1m', 'LongCLIP:longclip-vitl14_336px:sharegpt4v-1m',
|
| 25 |
+
'Jina-CLIP:jina-clip-v1:jinaai', 'Jina-CLIP:jina-clip-v2:jinaai'
|
| 26 |
+
]
|
| 27 |
+
COMPOSITIONALITY = [
|
| 28 |
+
"OpenCLIP:ViT-B-32:openai", 'StructuredCLIP:NegCLIP-ViT-B-32:coco-ft',
|
| 29 |
+
'StructuredCLIP:CE-CLIP-ViT-B-32:coco-ft', 'StructuredCLIP:DAC-LLM-ViT-B-32:cc3m-ft',
|
| 30 |
+
'StructuredCLIP:DAC-SAM-ViT-B-32:cc3m-ft', 'FSC-CLIP:fsc-clip-ViT-B-32:laioncoco-ft',
|
| 31 |
+
'FSC-CLIP:fsc-clip-ViT-B-16:laioncoco-ft', 'FSC-CLIP:fsc-clip-ViT-L-14:laioncoco-ft'
|
| 32 |
+
]
|
| 33 |
+
|
| 34 |
+
DECODERS = [
|
| 35 |
+
'vqascore:instructblip-flant5-xl:none', 'vqascore:clip-flant5-xl:none',
|
| 36 |
+
'vqascore:llava-v1.5-7b:none', 'vqascore:sharegpt4v-7b:none',
|
| 37 |
+
'visualgptscore:instructblip-flant5-xl:none', 'visualgptscore:clip-flant5-xl:none',
|
| 38 |
+
'visualgptscore:llava-v1.5-7b:none', 'visualgptscore:sharegpt4v-7b:none'
|
| 39 |
+
]
|
| 40 |
+
|
| 41 |
+
MODEL_GROUPS = {
|
| 42 |
+
"short_captions": SHORT_CAPTIONS,
|
| 43 |
+
"long_captions": LONG_CAPTIONS,
|
| 44 |
+
"compositionality": COMPOSITIONALITY
|
| 45 |
+
}
|
| 46 |
+
|
| 47 |
+
|
| 48 |
+
def format_df(df):
|
| 49 |
+
cols = []
|
| 50 |
+
for col in df.columns:
|
| 51 |
+
if col in ["family", "model", "tag"]:
|
| 52 |
+
continue
|
| 53 |
+
cols.append(col)
|
| 54 |
+
formatted_df = df.style.format({col: "{:.1f}" for col in cols})
|
| 55 |
+
return formatted_df
|
| 56 |
+
|
| 57 |
+
|
| 58 |
+
def get_model_key_from_df(df, model_names):
|
| 59 |
+
named_rows = df[["family", "model", "tag"]].apply(lambda row: ":".join(row), axis=1)
|
| 60 |
+
new_rows = []
|
| 61 |
+
for name in model_names:
|
| 62 |
+
new_rows.append(df[named_rows == name])
|
| 63 |
+
new_rows = format_df(pd.concat(new_rows, axis=0))
|
| 64 |
+
st.table(new_rows)
|
| 65 |
+
|
| 66 |
+
|
| 67 |
+
# Streamlit app
|
| 68 |
+
def main():
|
| 69 |
+
st.title("Interface")
|
| 70 |
+
st.markdown("### All Evaluation Results on Sentence Addition Tasks")
|
| 71 |
+
st.markdown("- random chance 50% 반영")
|
| 72 |
+
st.markdown("- decoder-based model 결과 추가")
|
| 73 |
+
|
| 74 |
+
df = pd.read_csv("data/250117/all_tasks.csv")
|
| 75 |
+
for group, model_names in MODEL_GROUPS.items():
|
| 76 |
+
st.markdown(f"## {group} models")
|
| 77 |
+
get_model_key_from_df(df, model_names)
|
| 78 |
+
|
| 79 |
+
df = pd.read_csv("data/250117/decoder_overall.csv")
|
| 80 |
+
st.markdown("## Decoder-based models")
|
| 81 |
+
get_model_key_from_df(df, DECODERS)
|
| 82 |
+
|
| 83 |
+
|
| 84 |
+
if __name__ == "__main__":
|
| 85 |
+
main()
|
pages/summary_acc_250117.py
ADDED
|
@@ -0,0 +1,188 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
import ast
|
| 2 |
+
|
| 3 |
+
import pandas as pd
|
| 4 |
+
|
| 5 |
+
import streamlit as st
|
| 6 |
+
|
| 7 |
+
st.set_page_config(layout="wide")
|
| 8 |
+
SHORT_CAPTIONS = [
|
| 9 |
+
'ALIGN:align-base:coyo700m', 'OpenCLIP:ViT-B-32:openai', 'OpenCLIP:ViT-B-16:openai',
|
| 10 |
+
'OpenCLIP:ViT-L-14:openai', 'OpenCLIP:ViT-L-14-336:openai',
|
| 11 |
+
'OpenCLIP:ViT-B-32:laion2b_s34b_b79k', 'OpenCLIP:ViT-B-16:laion2b_s34b_b88k',
|
| 12 |
+
'OpenCLIP:ViT-L-14:laion2b_s32b_b82k', 'OpenCLIP:ViT-g-14:laion2b_s34b_b88k',
|
| 13 |
+
'OpenCLIP:ViT-H-14:laion2b_s32b_b79k', 'OpenCLIP:roberta-ViT-B-32:laion2b_s12b_b32k',
|
| 14 |
+
'OpenCLIP:ViT-B-16-SigLIP:webli', 'OpenCLIP:ViT-B-16-SigLIP-384:webli',
|
| 15 |
+
'OpenCLIP:ViT-L-16-SigLIP-256:webli', 'OpenCLIP:ViT-L-16-SigLIP-384:webli',
|
| 16 |
+
'OpenCLIP:ViT-SO400M-14-SigLIP:webli', 'OpenCLIP:coca_ViT-B-32:laion2b_s13b_b90k',
|
| 17 |
+
'OpenCLIP:coca_ViT-L-14:laion2b_s13b_b90k'
|
| 18 |
+
]
|
| 19 |
+
LONG_CAPTIONS = [
|
| 20 |
+
'DreamLIP:dreamlip-vitb16:cc3m-long', 'DreamLIP:dreamlip-vitb16:cc12m-long',
|
| 21 |
+
'DreamLIP:dreamlip-vitb16:yfcc15m-long', 'DreamLIP:dreamlip-vitb16:cc30m-long',
|
| 22 |
+
'CLIPS:CLIPS-Large-14-224:recap-datacomp1b', 'CLIPS:CLIPS-Large-14-336:recap-datacomp1b',
|
| 23 |
+
'CLIPS:CLIPS-Huge-14-224:recap-datacomp1b', 'LoTLIP:LoTLIP-ViT-B-32:lotlip100m',
|
| 24 |
+
'LoTLIP:LoTLIP-ViT-B-16:lotlip100m', 'Recap-CLIP:ViT-L-16-HTxt-Recap-CLIP:recap-datacomp1b',
|
| 25 |
+
'LongCLIP:longclip-vitb32:sharegpt4v-1m', 'LongCLIP:longclip-vitb16:sharegpt4v-1m',
|
| 26 |
+
'LongCLIP:longclip-vitl14:sharegpt4v-1m', 'LongCLIP:longclip-vitl14_336px:sharegpt4v-1m',
|
| 27 |
+
'Jina-CLIP:jina-clip-v1:jinaai', 'Jina-CLIP:jina-clip-v2:jinaai'
|
| 28 |
+
]
|
| 29 |
+
COMPOSITIONALITY = [
|
| 30 |
+
'OpenCLIP:ViT-B-32:openai', 'StructuredCLIP:NegCLIP-ViT-B-32:coco-ft',
|
| 31 |
+
'StructuredCLIP:CE-CLIP-ViT-B-32:coco-ft', 'StructuredCLIP:DAC-LLM-ViT-B-32:cc3m-ft',
|
| 32 |
+
'StructuredCLIP:DAC-SAM-ViT-B-32:cc3m-ft', 'FSC-CLIP:fsc-clip-ViT-B-32:laioncoco-ft',
|
| 33 |
+
'FSC-CLIP:fsc-clip-ViT-B-16:laioncoco-ft', 'FSC-CLIP:fsc-clip-ViT-L-14:laioncoco-ft'
|
| 34 |
+
]
|
| 35 |
+
|
| 36 |
+
DECODERS = [
|
| 37 |
+
'vqascore:instructblip-flant5-xl:none', 'vqascore:clip-flant5-xl:none',
|
| 38 |
+
'vqascore:llava-v1.5-7b:none', 'vqascore:sharegpt4v-7b:none',
|
| 39 |
+
'visualgptscore:instructblip-flant5-xl:none', 'visualgptscore:clip-flant5-xl:none',
|
| 40 |
+
'visualgptscore:llava-v1.5-7b:none', 'visualgptscore:sharegpt4v-7b:none'
|
| 41 |
+
]
|
| 42 |
+
|
| 43 |
+
MODEL_GROUPS = {
|
| 44 |
+
"short_captions": SHORT_CAPTIONS,
|
| 45 |
+
"long_captions": LONG_CAPTIONS,
|
| 46 |
+
"compositionality": COMPOSITIONALITY
|
| 47 |
+
}
|
| 48 |
+
|
| 49 |
+
|
| 50 |
+
def render_mi_table(df, level0_cols):
|
| 51 |
+
# HTML 스타일 정의
|
| 52 |
+
table_style = """
|
| 53 |
+
<style>
|
| 54 |
+
table {
|
| 55 |
+
width: 100%;
|
| 56 |
+
border-collapse: collapse;
|
| 57 |
+
}
|
| 58 |
+
th, td {
|
| 59 |
+
border: 1px solid black;
|
| 60 |
+
text-align: center;
|
| 61 |
+
padding: 8px;
|
| 62 |
+
}
|
| 63 |
+
th {
|
| 64 |
+
background-color: #262730;
|
| 65 |
+
}
|
| 66 |
+
</style>
|
| 67 |
+
"""
|
| 68 |
+
|
| 69 |
+
# 상위 헤더 (레벨 0)
|
| 70 |
+
header_html = "<tr>"
|
| 71 |
+
for col in level0_cols:
|
| 72 |
+
colspan = len(df.xs(col, axis=1, level=0).columns) if col else 1
|
| 73 |
+
header_html += f'<th colspan="{colspan}" style="text-align: center;">{col if col else ""}</th>'
|
| 74 |
+
header_html += "</tr>"
|
| 75 |
+
|
| 76 |
+
# 하위 헤더 (레벨 1)
|
| 77 |
+
sub_header_html = "<tr>"
|
| 78 |
+
for col in df.columns:
|
| 79 |
+
sub_header_html += f"<th style='text-align: center;'>{col[1] if len(col) > 1 else col[0]}</th>"
|
| 80 |
+
sub_header_html += "</tr>"
|
| 81 |
+
|
| 82 |
+
# 데이터 HTML 생성
|
| 83 |
+
def map_val(value):
|
| 84 |
+
try:
|
| 85 |
+
value = f"{float(value):.1f}"
|
| 86 |
+
except:
|
| 87 |
+
value = value
|
| 88 |
+
return value
|
| 89 |
+
|
| 90 |
+
rows_html = ""
|
| 91 |
+
for _, row in df.iterrows():
|
| 92 |
+
|
| 93 |
+
rows_html += "<tr>" + "".join(f"<td>{map_val(value)}</td>" for value in row) + "</tr>"
|
| 94 |
+
|
| 95 |
+
# 최종 HTML 합치기
|
| 96 |
+
table_html = f"""
|
| 97 |
+
{table_style}
|
| 98 |
+
<table>
|
| 99 |
+
{header_html}
|
| 100 |
+
{sub_header_html}
|
| 101 |
+
{rows_html}
|
| 102 |
+
</table>
|
| 103 |
+
"""
|
| 104 |
+
return table_html
|
| 105 |
+
|
| 106 |
+
|
| 107 |
+
def format_df(df):
|
| 108 |
+
cols = []
|
| 109 |
+
for col in df.columns:
|
| 110 |
+
if col in [("Model", "family"), ("Model", "model"), ("Model", "tag")]:
|
| 111 |
+
continue
|
| 112 |
+
cols.append(col)
|
| 113 |
+
formatted_df = df.style.format({col: "{:.1f}" for col in cols})
|
| 114 |
+
return formatted_df
|
| 115 |
+
|
| 116 |
+
|
| 117 |
+
def print_table(df):
|
| 118 |
+
level0_cols = []
|
| 119 |
+
for col in df.columns:
|
| 120 |
+
if col[0] not in level0_cols:
|
| 121 |
+
level0_cols.append(col[0])
|
| 122 |
+
st.markdown(render_mi_table(df, level0_cols), unsafe_allow_html=True)
|
| 123 |
+
|
| 124 |
+
|
| 125 |
+
def get_model_key_from_df(df, model_names):
|
| 126 |
+
columns = [("Model", "family"), ("Model", "model"), ("Model", "tag")]
|
| 127 |
+
named_rows = df[columns].apply(lambda row: ":".join(row), axis=1)
|
| 128 |
+
new_rows = []
|
| 129 |
+
for name in model_names:
|
| 130 |
+
new_rows.append(df[named_rows == name])
|
| 131 |
+
new_rows = pd.concat(new_rows, axis=0)
|
| 132 |
+
new_rows.columns = pd.MultiIndex.from_tuples(new_rows.columns)
|
| 133 |
+
print_table(new_rows)
|
| 134 |
+
|
| 135 |
+
|
| 136 |
+
# Streamlit app
|
| 137 |
+
def main():
|
| 138 |
+
st.title("Interface")
|
| 139 |
+
st.markdown("### Summarized Evaluation Results on Sentence Addition Tasks")
|
| 140 |
+
st.markdown("- random chance 50% 반영")
|
| 141 |
+
st.markdown("- decoder-based model 결과 추가")
|
| 142 |
+
|
| 143 |
+
df = pd.read_csv("data/250117/summary.csv")
|
| 144 |
+
df.columns = [ast.literal_eval(col) for col in df.columns]
|
| 145 |
+
for group, model_names in MODEL_GROUPS.items():
|
| 146 |
+
st.markdown(f"## {group} models")
|
| 147 |
+
if group == "short_captions":
|
| 148 |
+
st.markdown(
|
| 149 |
+
"- **Length group**: 이미 short group부터, 80<(Num_tokens)<120. 중간에 문장 더해졌으면 60-70%정도 맞추고, 끝에 문장 더해졌으면 애초에 added sentence encoding 불가 -> accuracy 는 random chance, 50%."
|
| 150 |
+
)
|
| 151 |
+
st.markdown(
|
| 152 |
+
"- **neg_target**: description의 끝 (=background)에 sentence 더해진 경우 accuracy 50%"
|
| 153 |
+
)
|
| 154 |
+
st.markdown("- **neg_type**: contradictory sentence가 모델 입장에서 맞추기 더 어려움")
|
| 155 |
+
|
| 156 |
+
if group == "long_captions":
|
| 157 |
+
st.markdown(
|
| 158 |
+
"- **Length group**: 모델의 context length에 성능 심하게 dependent함. DreamLIP: 77, CLIPS: 80, LoTLIP: 128, Recap-CLIP: 128, LongCLIP: 248, Jina-CLIP: 512"
|
| 159 |
+
)
|
| 160 |
+
st.markdown("- **neg_target**: 여전히 background level에서 sentence 더해진게 전반적으로 어려움")
|
| 161 |
+
st.markdown("- **neg_type**: contradictory sentence가 모델 입장에서 맞추기 더 어려움")
|
| 162 |
+
if group == "compositionality":
|
| 163 |
+
st.markdown("- context length 77의 한계. Hard Negative Caption으로 Fine-tuning 하면 일부 좋아짐")
|
| 164 |
+
get_model_key_from_df(df, model_names)
|
| 165 |
+
|
| 166 |
+
df = pd.read_csv("data/250117/decoder_summary.csv")
|
| 167 |
+
df.columns = [ast.literal_eval(col) for col in df.columns]
|
| 168 |
+
st.markdown("## Decoder-based models")
|
| 169 |
+
st.markdown(
|
| 170 |
+
"- InstructBLIP은 text input context length가 128 -> medium length group부터 헷갈리기 시작 (vqascore, visualgptscore 모두.)"
|
| 171 |
+
)
|
| 172 |
+
st.markdown(
|
| 173 |
+
"- 나머지 세 모델은 vision+language 토탈 2048 context length (충분함). VQAScore에서 high performance, VisualGPTScore은 거의 random chance."
|
| 174 |
+
)
|
| 175 |
+
st.markdown(
|
| 176 |
+
"- visualgptscore는 given caption의 매 token 위치마다 auto-regressive cross-entropy loss의 avg으로 계산됨 (like image captioning)"
|
| 177 |
+
)
|
| 178 |
+
st.markdown(
|
| 179 |
+
"- vqascore는 given caption을 question에 넣고, yes/no 형식 question으로 물어봄 -> answer token 위치에서 cross entropy loss으로 계산"
|
| 180 |
+
)
|
| 181 |
+
st.markdown(
|
| 182 |
+
"- 즉 long text generative task는 약한데 qa 능력은 좋아서 visualgptscore는 낮고, vqascore가 더 높게 나온다고 추측가능"
|
| 183 |
+
)
|
| 184 |
+
get_model_key_from_df(df, DECODERS)
|
| 185 |
+
|
| 186 |
+
|
| 187 |
+
if __name__ == "__main__":
|
| 188 |
+
main()
|