cross-model-lora-prediction-3b / experiment1_round3.json
CK0607's picture
Round 3 3B domain expansion results
4838960 verified
{
"tasks": {
"gsm_hard": {
"domain": "math",
"selected": {
"topk8_global_ridge": [
"multiarith",
"math_algebra_easy",
"math_counting_easy",
"mmlu_elementary_math",
"mmlu_high_school_biology",
"humaneval",
"mmlu_high_school_physics",
"mbpp"
],
"topk8_pertensor_ridge": [
"multiarith",
"math_algebra_easy",
"math_counting_easy",
"mmlu_elementary_math",
"mmlu_high_school_biology",
"humaneval",
"mmlu_high_school_physics",
"mbpp"
]
},
"metrics": {
"base_Y": 0.056666666666666664,
"oracle": 0.07333333333333333,
"mean": 0.06333333333333334,
"mean__cos": 0.9403474926948547,
"global_ridge": 0.05333333333333334,
"global_ridge__cos": 0.9845342636108398,
"pertensor_ridge": 0.056666666666666664,
"pertensor_ridge__cos": 0.981560230255127,
"pertensor_pca": 0.05333333333333334,
"pertensor_pca__cos": 0.9814527630805969,
"pertensor_mlp": 0.06666666666666667,
"pertensor_mlp__cos": 0.9654154777526855,
"procrustes": 0.06,
"procrustes__cos": 0.9561138153076172,
"topk8_global_ridge": 0.05,
"topk8_global_ridge__cos": 0.9844202995300293,
"topk8_pertensor_ridge": 0.04666666666666667,
"topk8_pertensor_ridge__cos": 0.9822383522987366
},
"main_row": {
"Domain": "math",
"Task": "gsm_hard",
"base_Y": 0.056666666666666664,
"mean": 0.06333333333333334,
"global_ridge": 0.05333333333333334,
"pertensor_ridge": 0.056666666666666664,
"topk8_global_ridge": 0.05,
"topk8_pertensor_ridge": 0.04666666666666667,
"pertensor_mlp": 0.06666666666666667,
"oracle": 0.07333333333333333,
"gap_recovered": 0.6
}
},
"math_algebra_medium": {
"domain": "math",
"selected": {
"topk8_global_ridge": [
"math_algebra_easy",
"multiarith",
"math_counting_easy",
"mmlu_high_school_biology",
"mmlu_elementary_math",
"humaneval",
"mmlu_high_school_physics",
"mbpp"
],
"topk8_pertensor_ridge": [
"math_algebra_easy",
"multiarith",
"math_counting_easy",
"mmlu_high_school_biology",
"mmlu_elementary_math",
"humaneval",
"mmlu_high_school_physics",
"mbpp"
]
},
"metrics": {
"base_Y": 0.09333333333333334,
"oracle": 0.09666666666666666,
"mean": 0.1,
"mean__cos": 0.9451424479484558,
"global_ridge": 0.09333333333333334,
"global_ridge__cos": 0.994994044303894,
"pertensor_ridge": 0.1,
"pertensor_ridge__cos": 0.9946495294570923,
"pertensor_pca": 0.09333333333333334,
"pertensor_pca__cos": 0.9928159713745117,
"pertensor_mlp": 0.09333333333333334,
"pertensor_mlp__cos": 0.9720228910446167,
"procrustes": 0.06666666666666667,
"procrustes__cos": 0.9579223394393921,
"topk8_global_ridge": 0.10333333333333333,
"topk8_global_ridge__cos": 0.994929313659668,
"topk8_pertensor_ridge": 0.10333333333333333,
"topk8_pertensor_ridge__cos": 0.9947062730789185
},
"main_row": {
"Domain": "math",
"Task": "math_algebra_medium",
"base_Y": 0.09333333333333334,
"mean": 0.1,
"global_ridge": 0.09333333333333334,
"pertensor_ridge": 0.1,
"topk8_global_ridge": 0.10333333333333333,
"topk8_pertensor_ridge": 0.10333333333333333,
"pertensor_mlp": 0.09333333333333334,
"oracle": 0.09666666666666666,
"gap_recovered": 3.000000000000004
}
},
"humaneval_plus": {
"domain": "code",
"selected": {
"topk8_global_ridge": [
"humaneval",
"mbpp_sanitized",
"mbpp",
"math_counting_easy",
"mmlu_high_school_physics",
"mmlu_high_school_biology",
"mmlu_elementary_math",
"multiarith"
],
"topk8_pertensor_ridge": [
"humaneval",
"mbpp_sanitized",
"mbpp",
"math_counting_easy",
"mmlu_high_school_physics",
"mmlu_high_school_biology",
"mmlu_elementary_math",
"multiarith"
]
},
"metrics": {
"base_Y": 0.07926829268292683,
"oracle": 0.06707317073170732,
"mean": 0.08536585365853659,
"mean__cos": 0.9547188878059387,
"global_ridge": 0.06707317073170732,
"global_ridge__cos": 0.9997959136962891,
"pertensor_ridge": 0.06707317073170732,
"pertensor_ridge__cos": 0.9997047781944275,
"pertensor_pca": 0.07926829268292683,
"pertensor_pca__cos": 0.9963724613189697,
"pertensor_mlp": 0.07317073170731707,
"pertensor_mlp__cos": 0.9848037958145142,
"procrustes": 0.07317073170731707,
"procrustes__cos": 0.98451828956604,
"topk8_global_ridge": 0.06707317073170732,
"topk8_global_ridge__cos": 0.9997950196266174,
"topk8_pertensor_ridge": 0.06707317073170732,
"topk8_pertensor_ridge__cos": 0.9997144937515259
},
"main_row": {
"Domain": "code",
"Task": "humaneval_plus",
"base_Y": 0.07926829268292683,
"mean": 0.08536585365853659,
"global_ridge": 0.06707317073170732,
"pertensor_ridge": 0.06707317073170732,
"topk8_global_ridge": 0.06707317073170732,
"topk8_pertensor_ridge": 0.06707317073170732,
"pertensor_mlp": 0.07317073170731707,
"oracle": 0.06707317073170732,
"gap_recovered": -0.5000000000000006
}
},
"mbpp_plus": {
"domain": "code",
"selected": {
"topk8_global_ridge": [
"mbpp_sanitized",
"mbpp",
"humaneval",
"math_counting_easy",
"mmlu_high_school_physics",
"mmlu_high_school_biology",
"multiarith",
"mmlu_elementary_math"
],
"topk8_pertensor_ridge": [
"mbpp_sanitized",
"mbpp",
"humaneval",
"math_counting_easy",
"mmlu_high_school_physics",
"mmlu_high_school_biology",
"multiarith",
"mmlu_elementary_math"
]
},
"metrics": {
"base_Y": 0.21666666666666667,
"oracle": 0.22,
"mean": 0.20666666666666667,
"mean__cos": 0.9514243602752686,
"global_ridge": 0.21666666666666667,
"global_ridge__cos": 0.9871735572814941,
"pertensor_ridge": 0.21,
"pertensor_ridge__cos": 0.9867655038833618,
"pertensor_pca": 0.2,
"pertensor_pca__cos": 0.9821508526802063,
"pertensor_mlp": 0.2,
"pertensor_mlp__cos": 0.9766831994056702,
"procrustes": 0.20666666666666667,
"procrustes__cos": 0.9758116602897644,
"topk8_global_ridge": 0.21333333333333335,
"topk8_global_ridge__cos": 0.9844338893890381,
"topk8_pertensor_ridge": 0.20333333333333334,
"topk8_pertensor_ridge__cos": 0.9844347834587097
},
"main_row": {
"Domain": "code",
"Task": "mbpp_plus",
"base_Y": 0.21666666666666667,
"mean": 0.20666666666666667,
"global_ridge": 0.21666666666666667,
"pertensor_ridge": 0.21,
"topk8_global_ridge": 0.21333333333333335,
"topk8_pertensor_ridge": 0.20333333333333334,
"pertensor_mlp": 0.2,
"oracle": 0.22,
"gap_recovered": 0.0
}
},
"arc_challenge": {
"domain": "science",
"selected": {
"topk8_global_ridge": [
"arc_easy",
"sciq",
"openbookqa",
"medmcqa_easy",
"mmlu_elementary_math",
"mmlu_high_school_biology",
"aqua_rat",
"mmlu_high_school_physics"
],
"topk8_pertensor_ridge": [
"arc_easy",
"sciq",
"openbookqa",
"medmcqa_easy",
"mmlu_elementary_math",
"mmlu_high_school_biology",
"aqua_rat",
"mmlu_high_school_physics"
]
},
"metrics": {
"base_Y": 0.705685618729097,
"oracle": 0.725752508361204,
"mean": 0.7324414715719063,
"mean__cos": 0.9541645050048828,
"global_ridge": 0.705685618729097,
"global_ridge__cos": 0.9965179562568665,
"pertensor_ridge": 0.705685618729097,
"pertensor_ridge__cos": 0.9963470101356506,
"pertensor_pca": 0.7090301003344481,
"pertensor_pca__cos": 0.9951907396316528,
"pertensor_mlp": 0.725752508361204,
"pertensor_mlp__cos": 0.9860411882400513,
"procrustes": 0.7123745819397993,
"procrustes__cos": 0.9873964786529541,
"topk8_global_ridge": 0.705685618729097,
"topk8_global_ridge__cos": 0.99649977684021,
"topk8_pertensor_ridge": 0.705685618729097,
"topk8_pertensor_ridge__cos": 0.9963691234588623
},
"main_row": {
"Domain": "science",
"Task": "arc_challenge",
"base_Y": 0.705685618729097,
"mean": 0.7324414715719063,
"global_ridge": 0.705685618729097,
"pertensor_ridge": 0.705685618729097,
"topk8_global_ridge": 0.705685618729097,
"topk8_pertensor_ridge": 0.705685618729097,
"pertensor_mlp": 0.725752508361204,
"oracle": 0.725752508361204,
"gap_recovered": 1.3333333333333333
}
},
"mmlu_college_chemistry": {
"domain": "science",
"selected": {
"topk8_global_ridge": [
"mmlu_high_school_physics",
"mbpp_sanitized",
"mbpp",
"math_counting_easy",
"humaneval",
"mmlu_high_school_biology",
"mmlu_elementary_math",
"multiarith"
],
"topk8_pertensor_ridge": [
"mmlu_high_school_physics",
"mbpp_sanitized",
"mbpp",
"math_counting_easy",
"humaneval",
"mmlu_high_school_biology",
"mmlu_elementary_math",
"multiarith"
]
},
"metrics": {
"base_Y": 0.375,
"oracle": 0.375,
"mean": 0.375,
"mean__cos": 0.9513781070709229,
"global_ridge": 0.375,
"global_ridge__cos": 0.9985741972923279,
"pertensor_ridge": 0.375,
"pertensor_ridge__cos": 0.9986124634742737,
"pertensor_pca": 0.375,
"pertensor_pca__cos": 0.9976071119308472,
"pertensor_mlp": 0.25,
"pertensor_mlp__cos": 0.981284499168396,
"procrustes": 0.375,
"procrustes__cos": 0.9835162162780762,
"topk8_global_ridge": 0.375,
"topk8_global_ridge__cos": 0.998512327671051,
"topk8_pertensor_ridge": 0.375,
"topk8_pertensor_ridge__cos": 0.9985535144805908
},
"main_row": {
"Domain": "science",
"Task": "mmlu_college_chemistry",
"base_Y": 0.375,
"mean": 0.375,
"global_ridge": 0.375,
"pertensor_ridge": 0.375,
"topk8_global_ridge": 0.375,
"topk8_pertensor_ridge": 0.375,
"pertensor_mlp": 0.25,
"oracle": 0.375,
"gap_recovered": null
}
}
},
"main_table": [
{
"Domain": "math",
"Task": "gsm_hard",
"base_Y": 0.056666666666666664,
"mean": 0.06333333333333334,
"global_ridge": 0.05333333333333334,
"pertensor_ridge": 0.056666666666666664,
"topk8_global_ridge": 0.05,
"topk8_pertensor_ridge": 0.04666666666666667,
"pertensor_mlp": 0.06666666666666667,
"oracle": 0.07333333333333333,
"gap_recovered": 0.6
},
{
"Domain": "math",
"Task": "math_algebra_medium",
"base_Y": 0.09333333333333334,
"mean": 0.1,
"global_ridge": 0.09333333333333334,
"pertensor_ridge": 0.1,
"topk8_global_ridge": 0.10333333333333333,
"topk8_pertensor_ridge": 0.10333333333333333,
"pertensor_mlp": 0.09333333333333334,
"oracle": 0.09666666666666666,
"gap_recovered": 3.000000000000004
},
{
"Domain": "code",
"Task": "humaneval_plus",
"base_Y": 0.07926829268292683,
"mean": 0.08536585365853659,
"global_ridge": 0.06707317073170732,
"pertensor_ridge": 0.06707317073170732,
"topk8_global_ridge": 0.06707317073170732,
"topk8_pertensor_ridge": 0.06707317073170732,
"pertensor_mlp": 0.07317073170731707,
"oracle": 0.06707317073170732,
"gap_recovered": -0.5000000000000006
},
{
"Domain": "code",
"Task": "mbpp_plus",
"base_Y": 0.21666666666666667,
"mean": 0.20666666666666667,
"global_ridge": 0.21666666666666667,
"pertensor_ridge": 0.21,
"topk8_global_ridge": 0.21333333333333335,
"topk8_pertensor_ridge": 0.20333333333333334,
"pertensor_mlp": 0.2,
"oracle": 0.22,
"gap_recovered": 0.0
},
{
"Domain": "science",
"Task": "arc_challenge",
"base_Y": 0.705685618729097,
"mean": 0.7324414715719063,
"global_ridge": 0.705685618729097,
"pertensor_ridge": 0.705685618729097,
"topk8_global_ridge": 0.705685618729097,
"topk8_pertensor_ridge": 0.705685618729097,
"pertensor_mlp": 0.725752508361204,
"oracle": 0.725752508361204,
"gap_recovered": 1.3333333333333333
},
{
"Domain": "science",
"Task": "mmlu_college_chemistry",
"base_Y": 0.375,
"mean": 0.375,
"global_ridge": 0.375,
"pertensor_ridge": 0.375,
"topk8_global_ridge": 0.375,
"topk8_pertensor_ridge": 0.375,
"pertensor_mlp": 0.25,
"oracle": 0.375,
"gap_recovered": null
}
],
"anchor_names": [
"gsm8k",
"svamp",
"asdiv",
"mawps",
"multiarith",
"aqua_rat",
"math_algebra_easy",
"math_counting_easy",
"mbpp",
"humaneval",
"codealpaca_mini",
"mbpp_sanitized",
"conala_curated",
"livecodebench_easy",
"sciq",
"arc_easy",
"openbookqa",
"medmcqa_easy",
"mmlu_elementary_math",
"mmlu_high_school_biology",
"mmlu_high_school_physics",
"pubmedqa_pqal"
]
}