Spaces:

InstaDeepAI
/

ntv3_benchmark

Running

App Files Files Community

MidAtBest commited on Dec 11, 2025

Commit

988fb43

1 Parent(s): dea7853

feat: example streamlit app

Browse files

Files changed (4) hide show

data/bed_dataset.csv +13 -0
data/bigwig_dataset.csv +121 -0
requirements.txt +16 -2
src/streamlit_app.py +329 -33

data/bed_dataset.csv ADDED Viewed

	@@ -0,0 +1,13 @@

+species,datasets,MCC
+Human,Intron,"[0.893,0.170,0.006,0.828,0.235,0.114,0.707,0.904,0.829,0.474]"
+Human,Exon,"[0.294,0.007,0.428,0.341,0.757,0.442,0.512,0.860,0.884,0.873]"
+Human,Splice_acceptor,"[0.057,0.279,0.129,0.844,0.272,0.174,0.082,0.603,0.277,0.448]"
+Human,Start_codon,"[0.719,0.304,0.482,0.019,0.302,0.942,0.924,0.982,0.982,0.161]"
+Cattle,Intron,"[0.853,0.969,0.585,0.609,0.127,0.842,0.814,0.147,0.472,0.258]"
+Cattle,Exon,"[0.163,0.118,0.152,0.525,0.179,0.967,0.574,0.897,0.593,0.454]"
+Cattle,Splice_acceptor,"[0.977,0.332,0.505,0.069,0.928,0.780,0.618,0.525,0.787,0.741]"
+Cattle,Start_codon,"[0.499,0.858,0.155,0.246,0.494,0.853,0.439,0.853,0.882,0.295]"
+Tomato,Intron,"[0.171,0.995,0.512,0.446,0.816,0.344,0.637,0.492,0.992,0.526]"
+Tomato,Exon,"[0.751,0.186,0.778,0.341,0.853,0.711,0.161,0.559,0.204,0.153]"
+Tomato,Splice_acceptor,"[0.073,0.688,0.568,0.669,0.910,0.581,0.168,0.687,0.928,0.821]"
+Tomato,Start_codon,"[0.491,0.743,0.172,0.351,0.675,0.845,0.077,0.593,0.552,0.089]"

data/bigwig_dataset.csv ADDED Viewed

	@@ -0,0 +1,121 @@

+species,assay_type,datasets,pearson correlation
+Human,ATAC-seq,ENCSR628PLS,"[0.500,0.673,0.992,0.631,0.890,0.280,0.948,0.018,0.162,0.788]"
+Human,ATAC-seq,ENCSR487QSB,"[0.392,0.579,0.183,0.608,0.356,0.434,0.455,0.654,0.969,0.112]"
+Human,ATAC-seq,ENCSR410DWV,"[0.319,0.624,0.419,0.602,0.592,0.114,0.380,0.635,0.805,0.988]"
+Human,ATAC-seq,ENCSR325NFE,"[0.007,0.204,0.430,0.030,0.239,0.487,0.504,0.286,0.494,0.319]"
+Human,ATAC-seq,ENCSR814RGG,"[0.286,0.247,0.734,0.201,0.020,0.989,0.409,0.159,0.911,1.000]"
+Human,ChIP-seq,ENCSR863PSM,"[0.118,0.198,0.728,0.134,0.653,0.821,0.434,0.642,0.029,0.101]"
+Human,ChIP-seq,ENCSR682BFG,"[0.035,0.880,0.423,0.537,0.104,0.156,0.358,0.540,0.167,0.245]"
+Human,ChIP-seq,ENCSR754DRC,"[0.377,0.171,0.759,0.963,0.278,0.784,0.853,0.123,0.852,0.139]"
+Human,ChIP-seq,ENCSR962OTG,"[0.015,0.616,0.259,0.921,0.468,0.926,0.312,0.214,0.183,0.586]"
+Human,PRO-cap,ENCSR046BCI_M,"[0.268,0.200,0.376,0.365,0.546,0.915,0.755,0.346,0.840,0.842]"
+Human,PRO-cap,ENCSR046BCI_P,"[0.866,0.553,0.464,0.809,0.784,0.137,0.547,0.015,0.155,0.885]"
+Human,PRO-cap,ENCSR100LIJ_M,"[0.989,0.039,0.886,0.411,0.003,0.699,0.816,0.126,0.790,0.204]"
+Human,PRO-cap,ENCSR100LIJ_P,"[0.024,0.270,0.623,0.091,0.040,0.722,0.629,0.364,0.852,0.539]"
+Human,PRO-cap,ENCSR935RNW_M,"[0.300,0.520,0.939,0.683,0.229,0.368,0.501,0.901,0.368,0.351]"
+Human,PRO-cap,ENCSR935RNW_P,"[0.164,0.431,0.981,0.954,0.796,0.993,0.081,0.099,0.133,0.479]"
+Human,PRO-cap,ENCSR114HGS_M,"[0.833,0.079,0.685,0.750,0.107,0.223,0.229,0.887,0.058,0.477]"
+Human,PRO-cap,ENCSR114HGS_P,"[0.986,0.601,0.523,0.976,0.167,0.107,0.475,0.729,0.513,0.656]"
+Human,PRO-cap,ENCSR799DGV_M,"[0.696,0.732,0.735,0.070,0.158,0.806,0.628,0.595,0.743,0.666]"
+Human,PRO-cap,ENCSR799DGV_P,"[0.242,0.036,0.942,0.224,0.797,0.958,0.120,0.132,0.162,0.313]"
+Human,eCLIP,ENCSR154HRN_M,"[0.171,0.081,0.050,0.809,0.600,0.250,0.089,0.804,0.930,0.990]"
+Human,eCLIP,ENCSR154HRN_P,"[0.572,0.883,0.764,0.465,0.257,0.531,0.389,0.078,0.414,0.882]"
+Human,eCLIP,ENCSR249ROI_M,"[0.515,0.715,0.515,0.974,0.235,0.599,0.060,0.014,0.573,0.645]"
+Human,eCLIP,ENCSR249ROI_P,"[0.513,0.539,0.588,0.266,0.888,0.126,0.770,0.048,0.911,0.076]"
+Human,eCLIP,ENCSR321PWZ_M,"[0.593,0.376,0.753,0.990,0.908,0.128,0.994,0.231,0.326,0.488]"
+Human,eCLIP,ENCSR321PWZ_P,"[0.396,0.834,0.536,0.662,0.523,0.260,0.863,0.144,0.682,0.428]"
+Human,eCLIP,ENCSR484LTQ_M,"[0.500,0.297,0.116,0.644,0.593,0.359,0.532,0.290,0.512,0.860]"
+Human,eCLIP,ENCSR484LTQ_P,"[0.066,0.726,0.662,0.471,0.062,0.253,0.785,0.242,0.179,0.792]"
+Human,eCLIP,ENCSR862QCH_M,"[0.177,0.931,0.556,0.253,0.325,0.421,0.107,0.472,0.601,0.270]"
+Human,eCLIP,ENCSR862QCH_P,"[0.567,0.657,0.240,0.844,0.392,0.685,0.376,0.586,0.009,0.874]"
+Human,RNA-seq,ENCSR527JGN_M,"[0.290,0.982,0.241,0.573,0.275,0.819,0.182,0.872,0.358,0.225]"
+Human,RNA-seq,ENCSR527JGN_P,"[0.390,0.131,0.325,0.252,0.376,0.154,0.383,0.796,0.908,0.018]"
+Human,RNA-seq,ENCSR701YIC,"[0.819,0.494,0.866,0.884,0.795,0.625,0.430,0.194,0.942,0.054]"
+Human,RNA-seq,ENCSR619DQO_M,"[0.416,0.079,0.886,0.028,0.310,0.883,0.393,0.946,0.261,0.709]"
+Human,RNA-seq,ENCSR619DQO_P,"[0.712,0.221,0.052,0.699,0.099,0.213,0.167,0.355,0.209,0.401]"
+Chicken,ATAC-seq,ERX9662174,"[0.970,0.682,0.553,0.337,0.432,0.824,0.736,0.245,0.151,0.220]"
+Chicken,ATAC-seq,ERX9662177,"[0.621,0.160,0.453,0.308,0.119,0.981,0.506,0.906,0.307,0.602]"
+Chicken,ATAC-seq,ERX9662178,"[0.544,0.381,0.943,0.517,0.130,0.982,0.330,0.374,0.081,0.249]"
+Chicken,ATAC-seq,ERX9662183,"[0.705,0.672,0.926,0.499,0.985,0.486,0.840,0.058,0.138,0.402]"
+Chicken,ATAC-seq,ERX9662185,"[0.106,0.599,0.743,0.927,0.004,0.540,0.234,0.200,0.490,0.455]"
+Chicken,ATAC-seq,ERX9662186,"[0.367,0.607,0.281,0.163,0.408,0.589,0.855,0.815,0.799,0.590]"
+Chicken,ATAC-seq,ERX9662180,"[0.576,0.006,0.981,0.060,0.578,0.195,0.165,0.634,0.789,0.233]"
+Chicken,RNA-seq,ERX9662188,"[0.236,0.404,0.687,0.930,0.053,0.112,0.635,0.056,0.131,0.109]"
+Chicken,RNA-seq,ERX9662190,"[0.191,0.503,0.917,0.304,0.014,0.583,0.413,0.580,0.219,0.522]"
+Chicken,RNA-seq,ERX9662192,"[0.026,0.091,0.601,0.767,0.560,0.808,0.243,0.179,0.925,0.379]"
+Chicken,RNA-seq,ERX9662194,"[0.116,0.590,0.266,0.674,0.765,0.495,0.089,0.043,0.513,0.244]"
+Chicken,RNA-seq,ERX9662196,"[0.354,0.857,0.923,0.947,0.704,0.888,0.610,0.376,0.282,0.741]"
+Chicken,RNA-seq,ERX9662198,"[0.122,0.997,0.500,0.750,0.170,0.344,0.260,0.195,0.711,0.406]"
+Chicken,RNA-seq,ERX9662200,"[0.884,0.124,0.168,0.388,0.583,0.663,0.496,0.660,0.048,0.844]"
+Rice,Ribo-seq,SRR13808067,"[0.281,0.802,0.011,0.794,0.410,0.959,0.597,0.247,0.036,0.055]"
+Rice,Ribo-seq,SRR13808068,"[0.821,0.082,0.283,0.190,0.673,0.660,0.910,0.589,0.239,0.468]"
+Rice,Ribo-seq,SRR13808069,"[0.874,0.258,0.766,0.217,0.350,0.426,0.776,0.144,0.929,0.210]"
+Rice,Ribo-seq,SRR13808070,"[0.016,0.417,0.724,0.646,0.571,0.076,0.525,0.522,0.983,0.911]"
+Rice,Ribo-seq,SRR13808072,"[0.146,0.401,0.324,0.814,0.479,0.942,0.909,0.960,0.495,0.467]"
+Rice,Ribo-seq,SRR13808073,"[0.040,0.637,0.977,0.892,0.774,0.418,0.061,0.907,0.384,0.551]"
+Rice,Ribo-seq,SRR13808074,"[0.565,0.197,0.363,0.493,0.160,0.332,0.581,0.834,0.850,0.852]"
+Rice,Ribo-seq,SRR13808075,"[0.595,0.306,0.426,0.823,0.851,0.244,0.450,0.012,0.100,0.404]"
+Rice,Ribo-seq,SRR13808076,"[0.704,0.805,0.244,0.887,0.700,0.524,0.576,0.781,0.633,0.821]"
+Rice,Ribo-seq,SRR13808077,"[0.052,0.298,0.045,0.520,0.834,0.372,0.287,0.923,0.193,0.033]"
+Rice,Ribo-seq,SRR13808078,"[0.889,0.934,0.022,0.732,0.651,0.042,0.601,0.366,0.271,0.982]"
+Rice,Ribo-seq,SRR13808064,"[0.678,0.267,0.069,0.205,0.194,0.302,0.493,0.217,0.418,0.570]"
+Rice,Ribo-seq,SRR13808065,"[0.489,0.130,0.499,0.610,0.064,0.004,0.700,0.189,0.424,0.547]"
+Rice,Ribo-seq,SRR13808066,"[0.511,0.092,0.886,0.340,0.030,0.073,0.355,0.021,0.839,0.384]"
+Maize,Ribo-seq,SRR13808051,"[0.620,0.872,0.972,0.392,0.498,0.671,0.303,0.066,0.506,0.327]"
+Maize,Ribo-seq,SRR13808052,"[0.268,0.581,0.455,0.906,0.656,0.776,0.892,0.872,0.232,0.378]"
+Maize,Ribo-seq,SRR13808056,"[0.786,0.499,0.807,0.657,0.853,0.539,0.276,0.593,0.362,0.359]"
+Maize,Ribo-seq,SRR13808058,"[0.293,0.987,0.781,0.717,0.044,0.145,0.617,0.430,0.358,0.573]"
+Maize,Ribo-seq,SRR13808059,"[0.078,0.279,0.384,0.989,0.802,0.375,0.396,0.461,0.066,0.484]"
+Maize,Ribo-seq,SRR13808061,"[0.016,0.372,0.857,0.610,0.178,0.133,0.579,0.200,0.059,0.173]"
+Maize,Ribo-seq,SRR13808062,"[0.953,0.791,0.948,0.761,0.733,0.992,0.239,0.362,0.976,0.112]"
+Maize,Ribo-seq,SRR13808063,"[0.717,0.289,0.606,0.648,0.963,0.046,0.597,0.485,0.601,0.927]"
+Tomato,ATAC-seq,SRX27799703,"[0.158,0.581,0.186,0.230,0.791,0.101,0.014,0.630,0.712,0.165]"
+Tomato,ATAC-seq,SRX27799731,"[0.614,0.980,0.431,0.648,0.283,0.303,0.967,0.275,0.278,0.336]"
+Tomato,ATAC-seq,SRX27799719,"[0.930,0.199,0.335,0.824,0.410,0.866,0.886,0.164,0.935,0.720]"
+Tomato,ATAC-seq,SRX27799727,"[0.642,0.539,0.221,0.035,0.048,0.136,0.687,0.922,0.974,0.821]"
+Tomato,ATAC-seq,SRX27799722,"[0.305,0.463,0.639,0.774,0.851,0.812,0.476,0.443,0.239,0.197]"
+Tomato,ATAC-seq,SRX27799718,"[0.561,0.584,0.014,0.146,0.447,0.366,0.707,0.871,0.469,0.324]"
+Tomato,ATAC-seq,SRX27799733,"[0.260,0.257,0.157,0.078,0.358,0.448,0.395,0.780,0.622,0.748]"
+Tomato,ATAC-seq,SRX29291448,"[0.444,0.970,0.856,0.004,0.539,0.036,0.317,0.532,0.969,0.972]"
+Tomato,ATAC-seq,SRX29291447,"[0.781,0.433,0.134,0.094,0.658,0.878,0.315,0.770,0.052,0.817]"
+Tomato,ATAC-seq,SRX29291446,"[0.759,0.966,0.641,0.731,0.719,0.880,0.277,0.054,0.277,0.294]"
+Tomato,ATAC-seq,SRX29291445,"[0.625,0.970,0.044,0.236,0.403,0.389,0.847,0.558,0.922,0.819]"
+Tomato,ATAC-seq,SRX29291444,"[0.854,0.242,0.517,0.964,0.880,0.467,0.727,0.467,0.628,0.161]"
+Tomato,ATAC-seq,SRX29291443,"[0.437,0.949,0.847,0.303,0.246,0.285,0.937,0.604,0.802,0.806]"
+Tomato,ATAC-seq,SRX29291442,"[0.579,0.635,0.763,0.634,0.287,0.548,0.914,0.167,0.181,0.703]"
+Tomato,ATAC-seq,SRX29291441,"[0.622,0.530,0.081,0.768,0.473,0.617,0.944,0.122,0.979,0.502]"
+Tomato,ATAC-seq,SRX29291440,"[0.985,0.297,0.126,0.540,0.415,0.520,0.139,0.687,0.189,0.274]"
+Tomato,ATAC-seq,SRX29291439,"[0.138,0.458,0.886,0.864,0.646,0.653,0.311,0.651,0.790,0.886]"
+Tomato,ATAC-seq,SRX29291438,"[0.105,0.258,0.901,0.694,0.369,0.208,0.040,0.538,0.711,0.464]"
+Tomato,ATAC-seq,SRX29291431,"[0.240,0.380,0.422,0.485,0.491,0.700,0.192,0.989,0.527,0.435]"
+Tomato,ATAC-seq,SRX29291430,"[0.302,0.618,0.073,0.107,0.287,0.651,0.585,0.092,0.193,0.848]"
+Arabidopsis,,SRX18063718,"[0.967,0.150,0.374,0.382,0.905,0.827,0.972,0.121,0.326,0.431]"
+Arabidopsis,,SRX9629757,"[0.796,0.147,0.719,0.989,0.616,0.399,0.823,0.056,0.258,0.796]"
+Arabidopsis,,SRX14636807,"[0.040,0.357,0.850,0.730,0.254,0.593,0.704,0.170,0.598,0.640]"
+Arabidopsis,,SRX21812610,"[0.447,0.071,0.487,0.403,0.242,0.104,0.565,0.436,0.458,0.913]"
+Arabidopsis,,SRX20209030,"[0.949,0.649,0.518,0.671,0.232,0.907,0.843,0.929,0.314,0.956]"
+Arabidopsis,,SRX27406559,"[0.278,0.701,0.666,0.573,0.871,0.294,0.713,0.590,0.953,0.712]"
+Arabidopsis,,SRX7819350,"[0.681,0.850,0.103,0.974,0.466,0.860,0.310,0.960,0.004,0.393]"
+Arabidopsis,,SRX26731321,"[0.447,0.114,0.530,0.061,0.321,0.055,0.698,0.249,0.793,0.989]"
+Arabidopsis,,SRX13076012,"[0.853,0.824,0.850,0.426,0.984,0.483,0.071,0.824,0.714,0.091]"
+Arabidopsis,,SRX11037822,"[0.877,0.707,0.165,0.350,0.395,0.784,0.729,0.480,0.616,0.227]"
+Arabidopsis,,SRX15435939,"[0.372,0.857,0.601,0.899,0.333,0.671,0.459,0.611,0.519,0.940]"
+Arabidopsis,,ERX5787106,"[0.137,0.246,0.789,0.451,0.626,0.413,0.608,0.745,0.233,0.975]"
+Arabidopsis,,SRX26096490,"[0.420,0.887,0.408,0.749,0.888,0.150,0.660,0.795,0.282,0.280]"
+Arabidopsis,,SRX12144795,"[0.463,0.706,0.722,0.959,0.595,0.019,0.843,0.444,0.373,0.925]"
+Arabidopsis,,SRX27406577,"[0.548,0.636,0.692,0.437,0.646,0.911,0.879,0.234,0.663,0.982]"
+Arabidopsis,,SRX23584554,"[0.745,0.674,0.711,0.209,0.502,0.331,0.289,0.501,0.184,0.038]"
+Arabidopsis,,SRX9514922,"[0.224,0.486,0.254,0.766,0.440,0.329,0.257,0.503,0.323,0.911]"
+Arabidopsis,,ERX11438964,"[0.263,0.561,0.542,0.038,0.487,0.028,0.341,0.358,0.447,0.510]"
+Arabidopsis,,SRX19866208,"[0.133,0.023,0.062,0.035,0.245,0.281,0.117,0.454,0.285,0.345]"
+Arabidopsis,,DRX593284,"[0.741,0.308,0.507,0.118,0.818,0.823,0.517,0.224,0.480,0.971]"
+Arabidopsis,,SRX10135081,"[0.234,0.015,0.219,0.243,0.567,0.446,0.702,0.127,0.244,0.568]"
+Arabidopsis,,SRX3744342,"[0.445,0.018,0.594,0.522,0.599,0.978,0.891,0.427,0.202,0.199]"
+Arabidopsis,,SRX9674213,"[0.294,0.493,0.407,0.817,0.341,0.948,0.814,0.010,0.985,0.796]"
+Arabidopsis,,SRX19866210,"[0.875,0.338,0.644,0.596,0.855,0.824,0.271,0.106,0.695,0.334]"
+Arabidopsis,,SRX6685858,"[0.629,0.081,0.456,0.235,0.527,0.210,0.546,0.437,0.842,0.898]"
+Arabidopsis,,SRX3529727,"[0.101,0.966,0.940,0.374,0.043,0.537,0.771,0.753,0.082,0.295]"
+Arabidopsis,,SRX18888026,"[0.451,0.104,0.831,0.333,0.525,0.173,0.262,0.199,0.977,0.222]"
+Arabidopsis,,SRX689004,"[0.732,0.967,0.289,0.289,0.979,0.288,0.969,0.320,0.785,0.183]"
+Arabidopsis,,SRX18888040,"[0.536,0.036,0.523,0.152,0.950,0.991,0.616,0.724,0.650,0.235]"
+Arabidopsis,,SRX26650235,"[0.450,0.694,0.877,0.342,0.091,0.545,0.969,0.335,0.951,0.614]"

requirements.txt CHANGED Viewed

@@ -1,3 +1,17 @@
-altair
 pandas
-streamlit

+APScheduler
+black
+datasets
+gradio
+gradio[oauth]
+gradio_leaderboard==0.0.9
+gradio_client
+huggingface-hub>=0.18.0
+matplotlib
+numpy
 pandas
+python-dateutil
+tqdm
+transformers
+tokenizers>=0.15.0
+sentencepiece
+plotly

src/streamlit_app.py CHANGED Viewed

@@ -1,40 +1,336 @@
-import altair as alt
-import numpy as np
 import pandas as pd
 import streamlit as st
-"""
-# Welcome to Streamlit!
-Edit `/streamlit_app.py` to customize this app to your heart's desire :heart:.
-If you have any questions, checkout our [documentation](https://docs.streamlit.io) and [community
-forums](https://discuss.streamlit.io).
-In the meantime, below is an example of what you can do with just a few lines of code:
 """
-num_points = st.slider("Number of points in spiral", 1, 10000, 1100)
-num_turns = st.slider("Number of turns in spiral", 1, 300, 31)
-indices = np.linspace(0, 1, num_points)
-theta = 2 * np.pi * num_turns * indices
-radius = indices
-x = radius * np.cos(theta)
-y = radius * np.sin(theta)
-df = pd.DataFrame({
-    "x": x,
-    "y": y,
-    "idx": indices,
-    "rand": np.random.randn(num_points),
-})
-st.altair_chart(alt.Chart(df, height=700, width=700)
-    .mark_point(filled=True)
-    .encode(
-        x=alt.X("x", axis=None),
-        y=alt.Y("y", axis=None),
-        color=alt.Color("idx", legend=None, scale=alt.Scale()),
-        size=alt.Size("rand", legend=None, scale=alt.Scale(range=[1, 150])),
-    ))

+from typing import List
+import ast
+import os
 import pandas as pd
 import streamlit as st
+import plotly.express as px
+# ---------------------------------------------------------------------
+# Configuration
+# ---------------------------------------------------------------------
+MODEL_NAMES = [
+    "NTv2 500M MS",
+    "BPNet 6M",
+    "SpliceAI 44M",
+    "PlantCAD2 - Small 88M",
+    "Evo2 1b BF16",
+    "NTv3 8M",
+    "NTv3 100M",
+    "NTv3 650M",
+    "NTv3 650M - post-trained",
+]
+MODEL_COLORS = {
+    "NTv2 500M MS": "#1f77b4",
+    "BPNet 6M": "#ff7f0e",
+    "SpliceAI 44M": "#2ca02c",
+    "PlantCAD2 - Small 88M": "#d62728",
+    "Evo2 1b BF16": "#9467bd",
+    "NTv3 8M": "#8c564b",
+    "NTv3 100M": "#e377c2",
+    "NTv3 650M": "#7f7f7f",
+    "NTv3 650M - post-trained": "#bcbd22",
+}
+_LAST_UPDATED = "Dec 10, 2025"
+_INTRO = """
+Simple leaderboard over custom benchmarks.
+- **Pearson correlations (multi-assay)**: per-dataset scores across species and models.
+- **MCC (bed tracks)**: per-track MCC values across species and models.
+Each metric cell in the CSVs is a list of scores (one per model).
+We expand this to (Model × Species × Dataset) and aggregate according to your filters.
 """
+DATA_DIR = "./data"
+PEARSON_PATH = os.path.join(DATA_DIR, "bigwig_dataset.csv")
+MCC_PATH = os.path.join(DATA_DIR, "bed_dataset.csv")
+# ---------------------------------------------------------------------
+# Data loading & preprocessing
+# ---------------------------------------------------------------------
+@st.cache_data
+def load_raw_data():
+    pearson_df = pd.read_csv(PEARSON_PATH)
+    mcc_df = pd.read_csv(MCC_PATH)
+    pearson_df.columns = [c.strip() for c in pearson_df.columns]
+    mcc_df.columns = [c.strip() for c in mcc_df.columns]
+    return pearson_df, mcc_df
+def expand_metric_lists(df: pd.DataFrame, metric_col: str) -> pd.DataFrame:
+    """
+    Take a DataFrame where `metric_col` is a stringified list, and expand it
+    into rows per Model, with scalar 'Score' and 'Model' columns.
+    """
+    rows = []
+    for _, row in df.iterrows():
+        raw = row[metric_col]
+        try:
+            values = ast.literal_eval(str(raw))
+        except Exception:
+            # Skip rows that don't parse correctly
+            continue
+        if not isinstance(values, (list, tuple)):
+            continue
+        n_models = min(len(MODEL_NAMES), len(values))
+        for i in range(n_models):
+            new_row = {
+                "species": row["species"],
+                "datasets": row["datasets"],
+                "Model": MODEL_NAMES[i],
+                "Score": float(values[i]),
+            }
+            if "assay_type" in row.index:
+                new_row["assay_type"] = row["assay_type"]
+            rows.append(new_row)
+    return pd.DataFrame(rows)
+@st.cache_data
+def load_expanded_data():
+    raw_pearson, raw_mcc = load_raw_data()
+    pearson_expanded = expand_metric_lists(raw_pearson, "pearson correlation")
+    mcc_expanded = expand_metric_lists(raw_mcc, "MCC")
+    return pearson_expanded, mcc_expanded
+_PEARSON_DF, _MCC_DF = load_expanded_data()
+# Global sets (we'll further filter per-benchmark below)
+_ALL_SPECIES = sorted(
+    set(_PEARSON_DF["species"].unique()).union(_MCC_DF["species"].unique())
+)
+_ALL_ASSAYS = (
+    sorted(_PEARSON_DF["assay_type"].dropna().unique())
+    if "assay_type" in _PEARSON_DF.columns
+    else []
+)
+_ALL_MODELS = MODEL_NAMES[:]
+_BENCHMARKS = {
+    "Pearson correlations (multi-assay)": {
+        "df": _PEARSON_DF,
+        "metric_label": "Pearson correlation",
+        "has_assay_type": True,
+    },
+    "MCC (bed tracks)": {
+        "df": _MCC_DF,
+        "metric_label": "MCC",
+        "has_assay_type": False,
+    },
+}
+# ---------------------------------------------------------------------
+# Computation helpers
+# ---------------------------------------------------------------------
+def filter_base_df(
+    benchmark_name: str,
+    selected_species: List[str],
+    selected_assays: List[str],
+    selected_models: List[str],
+    selected_datasets: List[str],
+) -> pd.DataFrame:
+    cfg = _BENCHMARKS[benchmark_name]
+    df = cfg["df"].copy()
+    # Species filter
+    if selected_species:
+        df = df[df["species"].isin(selected_species)]
+    # Assay type filter (Pearson only)
+    if cfg.get("has_assay_type", False) and selected_assays and "assay_type" in df.columns:
+        df = df[df["assay_type"].isin(selected_assays)]
+    # Dataset / bed track filter (for MCC, but safe to apply generally)
+    if selected_datasets and "datasets" in df.columns:
+        df = df[df["datasets"].isin(selected_datasets)]
+    # Model filter
+    if selected_models:
+        df = df[df["Model"].isin(selected_models)]
+    return df
+def build_leaderboard(
+    benchmark_name: str,
+    selected_species: List[str],
+    selected_assays: List[str],
+    selected_models: List[str],
+    selected_datasets: List[str],
+) -> pd.DataFrame:
+    df = filter_base_df(
+        benchmark_name,
+        selected_species,
+        selected_assays,
+        selected_models,
+        selected_datasets,
+    )
+    if df.empty:
+        return pd.DataFrame(columns=["Model", "Num entries", "Mean score"])
+    agg = (
+        df.groupby("Model")["Score"]
+        .mean()
+        .reset_index()
+        .rename(columns={"Score": "Mean score"})
+    )
+    agg["Mean score"] = agg["Mean score"].round(3)
+    agg["Num entries"] = (
+        df.groupby("Model")["Score"].count().reindex(agg["Model"]).values
+    )
+    agg = agg.sort_values("Mean score", ascending=False).reset_index(drop=True)
+    agg = agg[["Model", "Num entries", "Mean score"]]
+    return agg
+def build_bar_df(
+    benchmark_name: str,
+    selected_species: List[str],
+    selected_assays: List[str],
+    selected_models: List[str],
+    selected_datasets: List[str],
+) -> pd.DataFrame:
+    """For now, just one bar per model (same as leaderboard)."""
+    return build_leaderboard(
+        benchmark_name, selected_species, selected_assays, selected_models, selected_datasets
+    )
+# ---------------------------------------------------------------------
+# Streamlit UI
+# ---------------------------------------------------------------------
+def main():
+    st.set_page_config(
+        page_title="Custom Model Benchmarks",
+        layout="wide",
+    )
+    st.title("🧬 Custom Model Benchmarks")
+    st.markdown(_INTRO)
+    st.markdown(f"_Last updated: **{_LAST_UPDATED}**_")
+    # --- Sidebar filters ---
+    st.sidebar.header("Filters")
+    # Benchmark
+    benchmark_name = st.sidebar.selectbox(
+        "Benchmark",
+        options=list(_BENCHMARKS.keys()),
+        index=0,
+    )
+    cfg = _BENCHMARKS[benchmark_name]
+    df_bench = cfg["df"]
+    # Species toggles, but only for species present in this benchmark
+    st.sidebar.subheader("Species")
+    available_species = sorted(df_bench["species"].unique())
+    selected_species: List[str] = []
+    for sp in available_species:
+        if st.sidebar.toggle(sp, value=True, key=f"species_{benchmark_name}_{sp}"):
+            selected_species.append(sp)
+    # Assay toggles (Pearson only), based on filtered species
+    if cfg.get("has_assay_type", False):
+        st.sidebar.subheader("Assay types (Pearson only)")
+        if selected_species:
+            df_for_assays = df_bench[df_bench["species"].isin(selected_species)]
+        else:
+            df_for_assays = df_bench
+        available_assays = (
+            sorted(df_for_assays["assay_type"].dropna().unique())
+            if "assay_type" in df_for_assays.columns
+            else []
+        )
+        selected_assays: List[str] = []
+        for assay in available_assays:
+            if st.sidebar.toggle(assay, value=True, key=f"assay_{benchmark_name}_{assay}"):
+                selected_assays.append(assay)
+    else:
+        selected_assays = []
+    # Bed track / dataset toggles (MCC only), based on species selection
+    selected_datasets: List[str] = []
+    if benchmark_name == "MCC (bed tracks)":
+        st.sidebar.subheader("Bed tracks (datasets)")
+        if selected_species:
+            df_for_tracks = df_bench[df_bench["species"].isin(selected_species)]
+        else:
+            df_for_tracks = df_bench
+        available_datasets = sorted(df_for_tracks["datasets"].unique())
+        for ds in available_datasets:
+            if st.sidebar.toggle(ds, value=True, key=f"dataset_{benchmark_name}_{ds}"):
+                selected_datasets.append(ds)
+    else:
+        selected_datasets = []
+    # Model toggles (we keep all models, regardless of benchmark; filters will prune)
+    st.sidebar.subheader("Models")
+    selected_models: List[str] = []
+    for model in _ALL_MODELS:
+        if st.sidebar.toggle(model, value=True, key=f"model_{model}"):
+            selected_models.append(model)
+    # --- Main content ---
+    leaderboard_df = build_leaderboard(
+        benchmark_name, selected_species, selected_assays, selected_models, selected_datasets
+    )
+    bar_df = build_bar_df(
+        benchmark_name, selected_species, selected_assays, selected_models, selected_datasets
+    )
+    col1, col2 = st.columns([1, 1])
+    with col1:
+        st.subheader("🏅 Leaderboard (per model)")
+        if leaderboard_df.empty:
+            st.info("No data for the selected filters.")
+        else:
+            st.dataframe(leaderboard_df, use_container_width=True)
+    with col2:
+        st.subheader("📈 Mean score per model")
+        if bar_df.empty:
+            st.info("No data for the selected filters.")
+        else:
+            fig = px.bar(
+                bar_df,
+                x="Model",
+                y="Mean score",
+                color="Model",
+                color_discrete_map=MODEL_COLORS,
+            )
+            fig.update_layout(
+                barmode="group",
+                height=500,
+                xaxis_title="Model",
+                yaxis_title="Mean score",
+                plot_bgcolor="rgba(0,0,0,0)",
+                paper_bgcolor="rgba(0,0,0,0)",
+            )
+            st.plotly_chart(fig, use_container_width=True)
+main()