cross-model-lora-prediction-3b / experiment1_round4.json
CK0607's picture
Round 4 oracle-fix results
574b87a verified
{
"tasks": {
"gsm_hard": {
"domain": "math",
"selected": {
"topk8_global_ridge": [
"math_counting_easy",
"mbpp_sanitized",
"mmlu_high_school_physics",
"humaneval",
"multiarith",
"math_algebra_easy",
"mmlu_elementary_math",
"mmlu_high_school_biology"
],
"topk8_pertensor_ridge": [
"math_counting_easy",
"mbpp_sanitized",
"mmlu_high_school_physics",
"humaneval",
"multiarith",
"math_algebra_easy",
"mmlu_elementary_math",
"mmlu_high_school_biology"
]
},
"metrics": {
"base_Y": 0.06333333333333334,
"oracle": 0.15,
"mean": 0.056666666666666664,
"mean__cos": 0.8538880348205566,
"global_ridge": 0.06,
"global_ridge__cos": 0.9063830375671387,
"pertensor_ridge": 0.06666666666666667,
"pertensor_ridge__cos": 0.904435396194458,
"pertensor_pca": 0.06666666666666667,
"pertensor_pca__cos": 0.9048259854316711,
"pertensor_mlp": 0.07333333333333333,
"pertensor_mlp__cos": 0.90220707654953,
"procrustes": 0.07,
"procrustes__cos": 0.89919513463974,
"topk8_global_ridge": 0.06666666666666667,
"topk8_global_ridge__cos": 0.9051854014396667,
"topk8_pertensor_ridge": 0.06333333333333334,
"topk8_pertensor_ridge__cos": 0.903511106967926
},
"main_row": {
"Domain": "math",
"Task": "gsm_hard",
"base_Y": 0.06333333333333334,
"mean": 0.056666666666666664,
"global_ridge": 0.06,
"pertensor_ridge": 0.06666666666666667,
"topk8_global_ridge": 0.06666666666666667,
"topk8_pertensor_ridge": 0.06333333333333334,
"pertensor_mlp": 0.07333333333333333,
"oracle": 0.15,
"oracle_minus_base_pp": 8.666666666666666,
"usable": true,
"gap_recovered": 0.11538461538461534
}
},
"gsm8k_test_500": {
"domain": "math",
"selected": {
"topk8_global_ridge": [
"math_counting_easy",
"mbpp_sanitized",
"mmlu_high_school_physics",
"humaneval",
"multiarith",
"math_algebra_easy",
"mmlu_elementary_math",
"mmlu_high_school_biology"
],
"topk8_pertensor_ridge": [
"math_counting_easy",
"mbpp_sanitized",
"mmlu_high_school_physics",
"humaneval",
"multiarith",
"math_algebra_easy",
"mmlu_elementary_math",
"mmlu_high_school_biology"
]
},
"metrics": {
"base_Y": 0.08,
"oracle": 0.29333333333333333,
"mean": 0.09333333333333334,
"mean__cos": 0.9122087955474854,
"global_ridge": 0.1,
"global_ridge__cos": 0.9690855145454407,
"pertensor_ridge": 0.1,
"pertensor_ridge__cos": 0.9674875736236572,
"pertensor_pca": 0.1,
"pertensor_pca__cos": 0.9675261974334717,
"pertensor_mlp": 0.1,
"pertensor_mlp__cos": 0.9635453224182129,
"procrustes": 0.09666666666666666,
"procrustes__cos": 0.9608618021011353,
"topk8_global_ridge": 0.09333333333333334,
"topk8_global_ridge__cos": 0.9682586789131165,
"topk8_pertensor_ridge": 0.09666666666666666,
"topk8_pertensor_ridge__cos": 0.9668623805046082
},
"main_row": {
"Domain": "math",
"Task": "gsm8k_test_500",
"base_Y": 0.08,
"mean": 0.09333333333333334,
"global_ridge": 0.1,
"pertensor_ridge": 0.1,
"topk8_global_ridge": 0.09333333333333334,
"topk8_pertensor_ridge": 0.09666666666666666,
"pertensor_mlp": 0.1,
"oracle": 0.29333333333333333,
"oracle_minus_base_pp": 21.333333333333332,
"usable": true,
"gap_recovered": 0.09375000000000003
}
},
"mbpp_test_held": {
"domain": "code",
"selected": {
"topk8_global_ridge": [
"mbpp_sanitized",
"math_counting_easy",
"humaneval",
"mmlu_high_school_physics",
"multiarith",
"mmlu_high_school_biology",
"mmlu_elementary_math",
"math_algebra_easy"
],
"topk8_pertensor_ridge": [
"mbpp_sanitized",
"math_counting_easy",
"humaneval",
"mmlu_high_school_physics",
"multiarith",
"mmlu_high_school_biology",
"mmlu_elementary_math",
"math_algebra_easy"
]
},
"metrics": {
"base_Y": 0.23,
"oracle": 0.32,
"mean": 0.24,
"mean__cos": 0.9324136972427368,
"global_ridge": 0.25,
"global_ridge__cos": 0.9998323917388916,
"pertensor_ridge": 0.25,
"pertensor_ridge__cos": 0.9997650980949402,
"pertensor_pca": 0.25,
"pertensor_pca__cos": 0.9902871251106262,
"pertensor_mlp": 0.24,
"pertensor_mlp__cos": 0.9861795902252197,
"procrustes": 0.24,
"procrustes__cos": 0.9862682819366455,
"topk8_global_ridge": 0.25,
"topk8_global_ridge__cos": 0.9998441338539124,
"topk8_pertensor_ridge": 0.25,
"topk8_pertensor_ridge__cos": 0.9995993375778198
},
"main_row": {
"Domain": "code",
"Task": "mbpp_test_held",
"base_Y": 0.23,
"mean": 0.24,
"global_ridge": 0.25,
"pertensor_ridge": 0.25,
"topk8_global_ridge": 0.25,
"topk8_pertensor_ridge": 0.25,
"pertensor_mlp": 0.24,
"oracle": 0.32,
"oracle_minus_base_pp": 9.0,
"usable": true,
"gap_recovered": 0.22222222222222213
}
},
"mbpp_plus": {
"domain": "code",
"selected": {
"topk8_global_ridge": [
"mbpp_sanitized",
"humaneval",
"math_counting_easy",
"mmlu_high_school_physics",
"multiarith",
"mmlu_high_school_biology",
"mmlu_elementary_math",
"math_algebra_easy"
],
"topk8_pertensor_ridge": [
"mbpp_sanitized",
"humaneval",
"math_counting_easy",
"mmlu_high_school_physics",
"multiarith",
"mmlu_high_school_biology",
"mmlu_elementary_math",
"math_algebra_easy"
]
},
"metrics": {
"base_Y": 0.21666666666666667,
"oracle": 0.45,
"mean": 0.21333333333333335,
"mean__cos": 0.9124462008476257,
"global_ridge": 0.28,
"global_ridge__cos": 0.9848983287811279,
"pertensor_ridge": 0.27,
"pertensor_ridge__cos": 0.9846793413162231,
"pertensor_pca": 0.21,
"pertensor_pca__cos": 0.9684830904006958,
"pertensor_mlp": 0.21,
"pertensor_mlp__cos": 0.9642786383628845,
"procrustes": 0.22666666666666666,
"procrustes__cos": 0.9647142887115479,
"topk8_global_ridge": 0.27,
"topk8_global_ridge__cos": 0.9848766922950745,
"topk8_pertensor_ridge": 0.26666666666666666,
"topk8_pertensor_ridge__cos": 0.9846369624137878
},
"main_row": {
"Domain": "code",
"Task": "mbpp_plus",
"base_Y": 0.21666666666666667,
"mean": 0.21333333333333335,
"global_ridge": 0.28,
"pertensor_ridge": 0.27,
"topk8_global_ridge": 0.27,
"topk8_pertensor_ridge": 0.26666666666666666,
"pertensor_mlp": 0.21,
"oracle": 0.45,
"oracle_minus_base_pp": 23.333333333333332,
"usable": true,
"gap_recovered": 0.2714285714285715
}
},
"arc_challenge": {
"domain": "science",
"selected": {
"topk8_global_ridge": [
"mmlu_high_school_physics",
"mmlu_high_school_biology",
"mmlu_elementary_math",
"math_counting_easy",
"mbpp_sanitized",
"humaneval",
"multiarith",
"math_algebra_easy"
],
"topk8_pertensor_ridge": [
"mmlu_high_school_physics",
"mmlu_high_school_biology",
"mmlu_elementary_math",
"math_counting_easy",
"mbpp_sanitized",
"humaneval",
"multiarith",
"math_algebra_easy"
]
},
"metrics": {
"base_Y": 0.7157190635451505,
"oracle": 0.7224080267558528,
"mean": 0.7324414715719063,
"mean__cos": 0.8707941174507141,
"global_ridge": 0.7357859531772575,
"global_ridge__cos": 0.9247814416885376,
"pertensor_ridge": 0.7290969899665551,
"pertensor_ridge__cos": 0.9244466423988342,
"pertensor_pca": 0.7357859531772575,
"pertensor_pca__cos": 0.9224098920822144,
"pertensor_mlp": 0.7391304347826086,
"pertensor_mlp__cos": 0.920215368270874,
"procrustes": 0.7491638795986622,
"procrustes__cos": 0.9195225238800049,
"topk8_global_ridge": 0.7357859531772575,
"topk8_global_ridge__cos": 0.9233748316764832,
"topk8_pertensor_ridge": 0.7290969899665551,
"topk8_pertensor_ridge__cos": 0.9231237173080444
},
"main_row": {
"Domain": "science",
"Task": "arc_challenge",
"base_Y": 0.7157190635451505,
"mean": 0.7324414715719063,
"global_ridge": 0.7357859531772575,
"pertensor_ridge": 0.7290969899665551,
"topk8_global_ridge": 0.7357859531772575,
"topk8_pertensor_ridge": 0.7290969899665551,
"pertensor_mlp": 0.7391304347826086,
"oracle": 0.7224080267558528,
"oracle_minus_base_pp": 0.6688963210702337,
"usable": false,
"gap_recovered": 5.0
}
},
"openbookqa_test": {
"domain": "science",
"selected": {
"topk8_global_ridge": [
"mmlu_high_school_physics",
"mmlu_high_school_biology",
"mbpp_sanitized",
"math_counting_easy",
"mmlu_elementary_math",
"humaneval",
"multiarith",
"math_algebra_easy"
],
"topk8_pertensor_ridge": [
"mmlu_high_school_physics",
"mmlu_high_school_biology",
"mbpp_sanitized",
"math_counting_easy",
"mmlu_elementary_math",
"humaneval",
"multiarith",
"math_algebra_easy"
]
},
"metrics": {
"base_Y": 0.71,
"oracle": 0.9833333333333333,
"mean": 0.76,
"mean__cos": 0.9152830243110657,
"global_ridge": 0.7466666666666667,
"global_ridge__cos": 0.9711560010910034,
"pertensor_ridge": 0.7433333333333333,
"pertensor_ridge__cos": 0.9709675312042236,
"pertensor_pca": 0.76,
"pertensor_pca__cos": 0.9696671366691589,
"pertensor_mlp": 0.7533333333333333,
"pertensor_mlp__cos": 0.9671377539634705,
"procrustes": 0.7366666666666667,
"procrustes__cos": 0.9668078422546387,
"topk8_global_ridge": 0.7133333333333334,
"topk8_global_ridge__cos": 0.969284176826477,
"topk8_pertensor_ridge": 0.7166666666666667,
"topk8_pertensor_ridge__cos": 0.9690907597541809
},
"main_row": {
"Domain": "science",
"Task": "openbookqa_test",
"base_Y": 0.71,
"mean": 0.76,
"global_ridge": 0.7466666666666667,
"pertensor_ridge": 0.7433333333333333,
"topk8_global_ridge": 0.7133333333333334,
"topk8_pertensor_ridge": 0.7166666666666667,
"pertensor_mlp": 0.7533333333333333,
"oracle": 0.9833333333333333,
"oracle_minus_base_pp": 27.333333333333332,
"usable": true,
"gap_recovered": 0.18292682926829285
}
}
},
"main_table": [
{
"Domain": "math",
"Task": "gsm_hard",
"base_Y": 0.06333333333333334,
"mean": 0.056666666666666664,
"global_ridge": 0.06,
"pertensor_ridge": 0.06666666666666667,
"topk8_global_ridge": 0.06666666666666667,
"topk8_pertensor_ridge": 0.06333333333333334,
"pertensor_mlp": 0.07333333333333333,
"oracle": 0.15,
"oracle_minus_base_pp": 8.666666666666666,
"usable": true,
"gap_recovered": 0.11538461538461534
},
{
"Domain": "math",
"Task": "gsm8k_test_500",
"base_Y": 0.08,
"mean": 0.09333333333333334,
"global_ridge": 0.1,
"pertensor_ridge": 0.1,
"topk8_global_ridge": 0.09333333333333334,
"topk8_pertensor_ridge": 0.09666666666666666,
"pertensor_mlp": 0.1,
"oracle": 0.29333333333333333,
"oracle_minus_base_pp": 21.333333333333332,
"usable": true,
"gap_recovered": 0.09375000000000003
},
{
"Domain": "code",
"Task": "mbpp_test_held",
"base_Y": 0.23,
"mean": 0.24,
"global_ridge": 0.25,
"pertensor_ridge": 0.25,
"topk8_global_ridge": 0.25,
"topk8_pertensor_ridge": 0.25,
"pertensor_mlp": 0.24,
"oracle": 0.32,
"oracle_minus_base_pp": 9.0,
"usable": true,
"gap_recovered": 0.22222222222222213
},
{
"Domain": "code",
"Task": "mbpp_plus",
"base_Y": 0.21666666666666667,
"mean": 0.21333333333333335,
"global_ridge": 0.28,
"pertensor_ridge": 0.27,
"topk8_global_ridge": 0.27,
"topk8_pertensor_ridge": 0.26666666666666666,
"pertensor_mlp": 0.21,
"oracle": 0.45,
"oracle_minus_base_pp": 23.333333333333332,
"usable": true,
"gap_recovered": 0.2714285714285715
},
{
"Domain": "science",
"Task": "arc_challenge",
"base_Y": 0.7157190635451505,
"mean": 0.7324414715719063,
"global_ridge": 0.7357859531772575,
"pertensor_ridge": 0.7290969899665551,
"topk8_global_ridge": 0.7357859531772575,
"topk8_pertensor_ridge": 0.7290969899665551,
"pertensor_mlp": 0.7391304347826086,
"oracle": 0.7224080267558528,
"oracle_minus_base_pp": 0.6688963210702337,
"usable": false,
"gap_recovered": 5.0
},
{
"Domain": "science",
"Task": "openbookqa_test",
"base_Y": 0.71,
"mean": 0.76,
"global_ridge": 0.7466666666666667,
"pertensor_ridge": 0.7433333333333333,
"topk8_global_ridge": 0.7133333333333334,
"topk8_pertensor_ridge": 0.7166666666666667,
"pertensor_mlp": 0.7533333333333333,
"oracle": 0.9833333333333333,
"oracle_minus_base_pp": 27.333333333333332,
"usable": true,
"gap_recovered": 0.18292682926829285
}
],
"anchor_names": [
"gsm8k",
"svamp",
"multiarith",
"aqua_rat",
"math_algebra_easy",
"math_counting_easy",
"mbpp",
"humaneval",
"mbpp_sanitized",
"sciq",
"arc_easy",
"openbookqa",
"medmcqa_easy",
"mmlu_elementary_math",
"mmlu_high_school_biology",
"mmlu_high_school_physics"
],
"heldout_names": [
"gsm_hard",
"gsm8k_test_500",
"mbpp_test_held",
"mbpp_plus",
"arc_challenge",
"openbookqa_test"
]
}