{ "tasks": { "gsm_hard": { "domain": "math", "selected": { "topk8_global_ridge": [ "math_counting_easy", "mbpp_sanitized", "mmlu_high_school_physics", "humaneval", "multiarith", "math_algebra_easy", "mmlu_elementary_math", "mmlu_high_school_biology" ], "topk8_pertensor_ridge": [ "math_counting_easy", "mbpp_sanitized", "mmlu_high_school_physics", "humaneval", "multiarith", "math_algebra_easy", "mmlu_elementary_math", "mmlu_high_school_biology" ] }, "metrics": { "base_Y": 0.06333333333333334, "oracle": 0.15, "mean": 0.056666666666666664, "mean__cos": 0.8538880348205566, "global_ridge": 0.06, "global_ridge__cos": 0.9063830375671387, "pertensor_ridge": 0.06666666666666667, "pertensor_ridge__cos": 0.904435396194458, "pertensor_pca": 0.06666666666666667, "pertensor_pca__cos": 0.9048259854316711, "pertensor_mlp": 0.07333333333333333, "pertensor_mlp__cos": 0.90220707654953, "procrustes": 0.07, "procrustes__cos": 0.89919513463974, "topk8_global_ridge": 0.06666666666666667, "topk8_global_ridge__cos": 0.9051854014396667, "topk8_pertensor_ridge": 0.06333333333333334, "topk8_pertensor_ridge__cos": 0.903511106967926 }, "main_row": { "Domain": "math", "Task": "gsm_hard", "base_Y": 0.06333333333333334, "mean": 0.056666666666666664, "global_ridge": 0.06, "pertensor_ridge": 0.06666666666666667, "topk8_global_ridge": 0.06666666666666667, "topk8_pertensor_ridge": 0.06333333333333334, "pertensor_mlp": 0.07333333333333333, "oracle": 0.15, "oracle_minus_base_pp": 8.666666666666666, "usable": true, "gap_recovered": 0.11538461538461534 } }, "gsm8k_test_500": { "domain": "math", "selected": { "topk8_global_ridge": [ "math_counting_easy", "mbpp_sanitized", "mmlu_high_school_physics", "humaneval", "multiarith", "math_algebra_easy", "mmlu_elementary_math", "mmlu_high_school_biology" ], "topk8_pertensor_ridge": [ "math_counting_easy", "mbpp_sanitized", "mmlu_high_school_physics", "humaneval", "multiarith", "math_algebra_easy", "mmlu_elementary_math", "mmlu_high_school_biology" ] }, "metrics": { "base_Y": 0.08, "oracle": 0.29333333333333333, "mean": 0.09333333333333334, "mean__cos": 0.9122087955474854, "global_ridge": 0.1, "global_ridge__cos": 0.9690855145454407, "pertensor_ridge": 0.1, "pertensor_ridge__cos": 0.9674875736236572, "pertensor_pca": 0.1, "pertensor_pca__cos": 0.9675261974334717, "pertensor_mlp": 0.1, "pertensor_mlp__cos": 0.9635453224182129, "procrustes": 0.09666666666666666, "procrustes__cos": 0.9608618021011353, "topk8_global_ridge": 0.09333333333333334, "topk8_global_ridge__cos": 0.9682586789131165, "topk8_pertensor_ridge": 0.09666666666666666, "topk8_pertensor_ridge__cos": 0.9668623805046082 }, "main_row": { "Domain": "math", "Task": "gsm8k_test_500", "base_Y": 0.08, "mean": 0.09333333333333334, "global_ridge": 0.1, "pertensor_ridge": 0.1, "topk8_global_ridge": 0.09333333333333334, "topk8_pertensor_ridge": 0.09666666666666666, "pertensor_mlp": 0.1, "oracle": 0.29333333333333333, "oracle_minus_base_pp": 21.333333333333332, "usable": true, "gap_recovered": 0.09375000000000003 } }, "mbpp_test_held": { "domain": "code", "selected": { "topk8_global_ridge": [ "mbpp_sanitized", "math_counting_easy", "humaneval", "mmlu_high_school_physics", "multiarith", "mmlu_high_school_biology", "mmlu_elementary_math", "math_algebra_easy" ], "topk8_pertensor_ridge": [ "mbpp_sanitized", "math_counting_easy", "humaneval", "mmlu_high_school_physics", "multiarith", "mmlu_high_school_biology", "mmlu_elementary_math", "math_algebra_easy" ] }, "metrics": { "base_Y": 0.23, "oracle": 0.32, "mean": 0.24, "mean__cos": 0.9324136972427368, "global_ridge": 0.25, "global_ridge__cos": 0.9998323917388916, "pertensor_ridge": 0.25, "pertensor_ridge__cos": 0.9997650980949402, "pertensor_pca": 0.25, "pertensor_pca__cos": 0.9902871251106262, "pertensor_mlp": 0.24, "pertensor_mlp__cos": 0.9861795902252197, "procrustes": 0.24, "procrustes__cos": 0.9862682819366455, "topk8_global_ridge": 0.25, "topk8_global_ridge__cos": 0.9998441338539124, "topk8_pertensor_ridge": 0.25, "topk8_pertensor_ridge__cos": 0.9995993375778198 }, "main_row": { "Domain": "code", "Task": "mbpp_test_held", "base_Y": 0.23, "mean": 0.24, "global_ridge": 0.25, "pertensor_ridge": 0.25, "topk8_global_ridge": 0.25, "topk8_pertensor_ridge": 0.25, "pertensor_mlp": 0.24, "oracle": 0.32, "oracle_minus_base_pp": 9.0, "usable": true, "gap_recovered": 0.22222222222222213 } }, "mbpp_plus": { "domain": "code", "selected": { "topk8_global_ridge": [ "mbpp_sanitized", "humaneval", "math_counting_easy", "mmlu_high_school_physics", "multiarith", "mmlu_high_school_biology", "mmlu_elementary_math", "math_algebra_easy" ], "topk8_pertensor_ridge": [ "mbpp_sanitized", "humaneval", "math_counting_easy", "mmlu_high_school_physics", "multiarith", "mmlu_high_school_biology", "mmlu_elementary_math", "math_algebra_easy" ] }, "metrics": { "base_Y": 0.21666666666666667, "oracle": 0.45, "mean": 0.21333333333333335, "mean__cos": 0.9124462008476257, "global_ridge": 0.28, "global_ridge__cos": 0.9848983287811279, "pertensor_ridge": 0.27, "pertensor_ridge__cos": 0.9846793413162231, "pertensor_pca": 0.21, "pertensor_pca__cos": 0.9684830904006958, "pertensor_mlp": 0.21, "pertensor_mlp__cos": 0.9642786383628845, "procrustes": 0.22666666666666666, "procrustes__cos": 0.9647142887115479, "topk8_global_ridge": 0.27, "topk8_global_ridge__cos": 0.9848766922950745, "topk8_pertensor_ridge": 0.26666666666666666, "topk8_pertensor_ridge__cos": 0.9846369624137878 }, "main_row": { "Domain": "code", "Task": "mbpp_plus", "base_Y": 0.21666666666666667, "mean": 0.21333333333333335, "global_ridge": 0.28, "pertensor_ridge": 0.27, "topk8_global_ridge": 0.27, "topk8_pertensor_ridge": 0.26666666666666666, "pertensor_mlp": 0.21, "oracle": 0.45, "oracle_minus_base_pp": 23.333333333333332, "usable": true, "gap_recovered": 0.2714285714285715 } }, "arc_challenge": { "domain": "science", "selected": { "topk8_global_ridge": [ "mmlu_high_school_physics", "mmlu_high_school_biology", "mmlu_elementary_math", "math_counting_easy", "mbpp_sanitized", "humaneval", "multiarith", "math_algebra_easy" ], "topk8_pertensor_ridge": [ "mmlu_high_school_physics", "mmlu_high_school_biology", "mmlu_elementary_math", "math_counting_easy", "mbpp_sanitized", "humaneval", "multiarith", "math_algebra_easy" ] }, "metrics": { "base_Y": 0.7157190635451505, "oracle": 0.7224080267558528, "mean": 0.7324414715719063, "mean__cos": 0.8707941174507141, "global_ridge": 0.7357859531772575, "global_ridge__cos": 0.9247814416885376, "pertensor_ridge": 0.7290969899665551, "pertensor_ridge__cos": 0.9244466423988342, "pertensor_pca": 0.7357859531772575, "pertensor_pca__cos": 0.9224098920822144, "pertensor_mlp": 0.7391304347826086, "pertensor_mlp__cos": 0.920215368270874, "procrustes": 0.7491638795986622, "procrustes__cos": 0.9195225238800049, "topk8_global_ridge": 0.7357859531772575, "topk8_global_ridge__cos": 0.9233748316764832, "topk8_pertensor_ridge": 0.7290969899665551, "topk8_pertensor_ridge__cos": 0.9231237173080444 }, "main_row": { "Domain": "science", "Task": "arc_challenge", "base_Y": 0.7157190635451505, "mean": 0.7324414715719063, "global_ridge": 0.7357859531772575, "pertensor_ridge": 0.7290969899665551, "topk8_global_ridge": 0.7357859531772575, "topk8_pertensor_ridge": 0.7290969899665551, "pertensor_mlp": 0.7391304347826086, "oracle": 0.7224080267558528, "oracle_minus_base_pp": 0.6688963210702337, "usable": false, "gap_recovered": 5.0 } }, "openbookqa_test": { "domain": "science", "selected": { "topk8_global_ridge": [ "mmlu_high_school_physics", "mmlu_high_school_biology", "mbpp_sanitized", "math_counting_easy", "mmlu_elementary_math", "humaneval", "multiarith", "math_algebra_easy" ], "topk8_pertensor_ridge": [ "mmlu_high_school_physics", "mmlu_high_school_biology", "mbpp_sanitized", "math_counting_easy", "mmlu_elementary_math", "humaneval", "multiarith", "math_algebra_easy" ] }, "metrics": { "base_Y": 0.71, "oracle": 0.9833333333333333, "mean": 0.76, "mean__cos": 0.9152830243110657, "global_ridge": 0.7466666666666667, "global_ridge__cos": 0.9711560010910034, "pertensor_ridge": 0.7433333333333333, "pertensor_ridge__cos": 0.9709675312042236, "pertensor_pca": 0.76, "pertensor_pca__cos": 0.9696671366691589, "pertensor_mlp": 0.7533333333333333, "pertensor_mlp__cos": 0.9671377539634705, "procrustes": 0.7366666666666667, "procrustes__cos": 0.9668078422546387, "topk8_global_ridge": 0.7133333333333334, "topk8_global_ridge__cos": 0.969284176826477, "topk8_pertensor_ridge": 0.7166666666666667, "topk8_pertensor_ridge__cos": 0.9690907597541809 }, "main_row": { "Domain": "science", "Task": "openbookqa_test", "base_Y": 0.71, "mean": 0.76, "global_ridge": 0.7466666666666667, "pertensor_ridge": 0.7433333333333333, "topk8_global_ridge": 0.7133333333333334, "topk8_pertensor_ridge": 0.7166666666666667, "pertensor_mlp": 0.7533333333333333, "oracle": 0.9833333333333333, "oracle_minus_base_pp": 27.333333333333332, "usable": true, "gap_recovered": 0.18292682926829285 } } }, "main_table": [ { "Domain": "math", "Task": "gsm_hard", "base_Y": 0.06333333333333334, "mean": 0.056666666666666664, "global_ridge": 0.06, "pertensor_ridge": 0.06666666666666667, "topk8_global_ridge": 0.06666666666666667, "topk8_pertensor_ridge": 0.06333333333333334, "pertensor_mlp": 0.07333333333333333, "oracle": 0.15, "oracle_minus_base_pp": 8.666666666666666, "usable": true, "gap_recovered": 0.11538461538461534 }, { "Domain": "math", "Task": "gsm8k_test_500", "base_Y": 0.08, "mean": 0.09333333333333334, "global_ridge": 0.1, "pertensor_ridge": 0.1, "topk8_global_ridge": 0.09333333333333334, "topk8_pertensor_ridge": 0.09666666666666666, "pertensor_mlp": 0.1, "oracle": 0.29333333333333333, "oracle_minus_base_pp": 21.333333333333332, "usable": true, "gap_recovered": 0.09375000000000003 }, { "Domain": "code", "Task": "mbpp_test_held", "base_Y": 0.23, "mean": 0.24, "global_ridge": 0.25, "pertensor_ridge": 0.25, "topk8_global_ridge": 0.25, "topk8_pertensor_ridge": 0.25, "pertensor_mlp": 0.24, "oracle": 0.32, "oracle_minus_base_pp": 9.0, "usable": true, "gap_recovered": 0.22222222222222213 }, { "Domain": "code", "Task": "mbpp_plus", "base_Y": 0.21666666666666667, "mean": 0.21333333333333335, "global_ridge": 0.28, "pertensor_ridge": 0.27, "topk8_global_ridge": 0.27, "topk8_pertensor_ridge": 0.26666666666666666, "pertensor_mlp": 0.21, "oracle": 0.45, "oracle_minus_base_pp": 23.333333333333332, "usable": true, "gap_recovered": 0.2714285714285715 }, { "Domain": "science", "Task": "arc_challenge", "base_Y": 0.7157190635451505, "mean": 0.7324414715719063, "global_ridge": 0.7357859531772575, "pertensor_ridge": 0.7290969899665551, "topk8_global_ridge": 0.7357859531772575, "topk8_pertensor_ridge": 0.7290969899665551, "pertensor_mlp": 0.7391304347826086, "oracle": 0.7224080267558528, "oracle_minus_base_pp": 0.6688963210702337, "usable": false, "gap_recovered": 5.0 }, { "Domain": "science", "Task": "openbookqa_test", "base_Y": 0.71, "mean": 0.76, "global_ridge": 0.7466666666666667, "pertensor_ridge": 0.7433333333333333, "topk8_global_ridge": 0.7133333333333334, "topk8_pertensor_ridge": 0.7166666666666667, "pertensor_mlp": 0.7533333333333333, "oracle": 0.9833333333333333, "oracle_minus_base_pp": 27.333333333333332, "usable": true, "gap_recovered": 0.18292682926829285 } ], "anchor_names": [ "gsm8k", "svamp", "multiarith", "aqua_rat", "math_algebra_easy", "math_counting_easy", "mbpp", "humaneval", "mbpp_sanitized", "sciq", "arc_easy", "openbookqa", "medmcqa_easy", "mmlu_elementary_math", "mmlu_high_school_biology", "mmlu_high_school_physics" ], "heldout_names": [ "gsm_hard", "gsm8k_test_500", "mbpp_test_held", "mbpp_plus", "arc_challenge", "openbookqa_test" ] }