tmp-jetnjksc / eval_results_avg4 /eval_results.csv
bensondccnqwc's picture
Add files using upload-large-folder tool
92f6bbf verified
model,aime24_acc,aime24_pass_acc,aime24_tokens,aime24_keywords,aime24_correct_tokens,aime24_wrong_tokens,aime24_clip_ratio,aime24_stop_tokens,aime24_stop_ratio,aime24_box_ratio,aime24_repeat_ratio,aime25_acc,aime25_pass_acc,aime25_tokens,aime25_keywords,aime25_correct_tokens,aime25_wrong_tokens,aime25_clip_ratio,aime25_stop_tokens,aime25_stop_ratio,aime25_box_ratio,aime25_repeat_ratio,amc23_acc,amc23_pass_acc,amc23_tokens,amc23_keywords,amc23_correct_tokens,amc23_wrong_tokens,amc23_clip_ratio,amc23_stop_tokens,amc23_stop_ratio,amc23_box_ratio,amc23_repeat_ratio,avg_acc,avg_pass_acc,avg_tokens,avg_keywords,avg_correct_tokens,avg_wrong_tokens,avg_clip_ratio,avg_stop_tokens,avg_stop_ratio,avg_box_ratio,avg_repeat_ratio
eval_results_avg4-global_step_0,1.7,6.7,2209.8333333333335,1.3666666666666667,0.0,2209.8333333333335,0.06666666666666667,1224.8214285714287,0.9333333333333333,0.7666666666666667,0.7666666666666667,1.7,6.7,2125.2,2.1333333333333333,0.0,2125.2,0.06666666666666667,1137.7142857142858,0.9333333333333333,0.8666666666666667,0.8,25.6,50.0,1410.475,0.225,2039.3636363636363,1171.9310344827586,0.025,1036.4102564102564,0.975,0.875,0.675,9.666666666666666,21.133333333333333,1915.1694444444445,1.2416666666666667,679.7878787878788,1835.6547892720307,0.05277777777777778,1132.9819902319903,0.9472222222222223,0.8361111111111111,0.7472222222222223
eval_results_avg4-global_step_10,4.2,13.3,2284.633333333333,0.5666666666666667,662.0,2340.5862068965516,0.06666666666666667,1305.2857142857142,0.9333333333333333,0.9333333333333333,0.8333333333333334,3.3,6.7,770.6,0.3,968.0,756.5,0.0,770.6,1.0,1.0,0.6666666666666666,30.6,52.5,785.825,0.325,755.5333333333333,804.0,0.0,785.825,1.0,1.0,0.625,12.700000000000001,24.166666666666668,1280.3527777777779,0.3972222222222222,795.1777777777778,1300.3620689655172,0.022222222222222223,953.9035714285714,0.9777777777777779,0.9777777777777779,0.7083333333333334
eval_results_avg4-global_step_20,7.5,13.3,1233.5333333333333,0.5,822.0,1262.9285714285713,0.0,1233.5333333333333,1.0,0.9666666666666667,0.9,3.3,6.7,2015.0666666666666,2.566666666666667,929.0,2052.5172413793102,0.06666666666666667,1016.4642857142857,0.9333333333333333,0.9,0.7,31.9,57.5,797.075,0.275,634.4166666666666,866.7857142857143,0.0,797.075,1.0,1.0,0.725,14.233333333333334,25.833333333333332,1348.5583333333334,1.113888888888889,795.1388888888888,1394.0771756978654,0.022222222222222223,1015.690873015873,0.9777777777777779,0.9555555555555556,0.775
eval_results_avg4-global_step_30,8.3,16.7,2168.2,0.4666666666666667,3241.0,2003.1538461538462,0.06666666666666667,1180.2142857142858,0.9333333333333333,0.9,0.8,2.5,6.7,1350.2,0.5666666666666667,591.0,1376.3793103448277,0.03333333333333333,845.1379310344828,0.9666666666666667,0.9666666666666667,0.7,35.0,57.5,677.05,0.2,578.5333333333333,736.16,0.0,677.05,1.0,1.0,0.6,15.266666666666666,26.96666666666667,1398.4833333333333,0.41111111111111104,1470.1777777777777,1371.897718832891,0.03333333333333333,900.8007389162561,0.9666666666666667,0.9555555555555556,0.7000000000000001
eval_results_avg4-global_step_40,5.8,13.3,2120.4666666666667,0.7,740.0,2168.0689655172414,0.06666666666666667,1129.2857142857142,0.9333333333333333,0.9333333333333333,0.7333333333333333,4.2,6.7,1429.4,0.4666666666666667,803.0,1451.0,0.03333333333333333,926.9655172413793,0.9666666666666667,0.9333333333333333,0.6333333333333333,33.1,52.5,909.875,0.275,917.2,905.48,0.0,909.875,1.0,1.0,0.75,14.366666666666667,24.166666666666668,1486.5805555555555,0.48055555555555546,820.0666666666666,1508.182988505747,0.03333333333333333,988.7087438423645,0.9666666666666667,0.9555555555555556,0.7055555555555556
eval_results_avg4-global_step_50,8.3,16.7,2539.8,0.4666666666666667,725.0,2602.3793103448274,0.06666666666666667,1578.357142857143,0.9333333333333333,0.8666666666666667,0.7333333333333333,3.3,6.7,806.3666666666667,0.43333333333333335,783.0,807.1724137931035,0.0,806.3666666666667,1.0,1.0,0.6333333333333333,38.1,57.5,793.225,0.15,616.875,910.7916666666666,0.0,793.225,1.0,1.0,0.65,16.566666666666666,26.96666666666667,1379.7972222222224,0.35000000000000003,708.2916666666666,1440.1144636015326,0.022222222222222223,1059.3162698412698,0.9777777777777779,0.9555555555555556,0.6722222222222222
eval_results_avg4-global_step_60,7.5,13.3,1043.9666666666667,0.4,687.0,1069.4642857142858,0.0,1043.9666666666667,1.0,1.0,0.8,2.5,6.7,1303.7666666666667,0.4,938.0,1316.3793103448277,0.03333333333333333,797.0,0.9666666666666667,0.9666666666666667,0.7,36.9,57.5,1134.5,0.225,637.875,1465.5833333333333,0.025,753.3333333333334,0.975,0.975,0.7,15.633333333333333,25.833333333333332,1160.7444444444445,0.34166666666666673,754.2916666666666,1283.8089764641488,0.019444444444444445,864.7666666666668,0.9805555555555556,0.9805555555555556,0.7333333333333334
eval_results_avg4-global_step_70,9.2,16.7,1397.0333333333333,0.43333333333333335,898.0,1432.6785714285713,0.03333333333333333,893.5172413793103,0.9666666666666667,0.9666666666666667,0.7666666666666667,4.2,13.3,777.0333333333333,0.5,1189.0,747.6071428571429,0.0,777.0333333333333,1.0,1.0,0.6666666666666666,38.8,57.5,760.675,0.275,599.7692307692307,838.1481481481482,0.0,760.675,1.0,1.0,0.55,17.4,29.166666666666668,978.2472222222223,0.40277777777777785,895.5897435897435,1006.1446208112875,0.011111111111111112,810.4085249042146,0.9888888888888889,0.9888888888888889,0.6611111111111111
eval_results_avg4-global_step_80,4.2,6.7,2253.866666666667,0.7333333333333333,637.0,2309.6206896551726,0.06666666666666667,1271.9642857142858,0.9333333333333333,0.9333333333333333,0.6,2.5,6.7,835.9333333333333,0.5666666666666667,1276.0,820.7586206896551,0.0,835.9333333333333,1.0,1.0,0.8666666666666667,36.2,60.0,1590.475,0.1,684.2857142857143,2078.423076923077,0.025,1221.025641025641,0.975,0.925,0.65,14.300000000000002,24.46666666666667,1560.0916666666665,0.4666666666666666,865.7619047619047,1736.267462422635,0.030555555555555558,1109.6410866910867,0.9694444444444444,0.9527777777777778,0.7055555555555556
eval_results_avg4-global_step_90,5.8,13.3,1387.6333333333334,0.3333333333333333,854.6666666666666,1446.851851851852,0.03333333333333333,883.7931034482758,0.9666666666666667,0.9666666666666667,0.7333333333333333,2.5,6.7,2357.5,0.7666666666666667,0.0,2357.5,0.1,841.8148148148148,0.9,0.9,0.8666666666666667,34.4,60.0,1204.175,0.3,751.8,1475.6,0.025,824.7948717948718,0.975,0.975,0.625,14.233333333333334,26.666666666666668,1649.7694444444444,0.46666666666666673,535.4888888888889,1759.983950617284,0.05277777777777778,850.1342633526541,0.9472222222222223,0.9472222222222223,0.7416666666666667
eval_results_avg4-global_step_100,8.3,16.7,2330.8,0.6,605.0,2390.310344827586,0.06666666666666667,1354.5,0.9333333333333333,0.9,0.8666666666666667,5.8,10.0,1423.4,0.6,1062.0,1449.2142857142858,0.03333333333333333,920.551724137931,0.9666666666666667,0.9666666666666667,0.7,43.8,60.0,1396.375,0.175,796.1764705882352,1840.0,0.025,1021.9230769230769,0.975,0.95,0.625,19.3,28.900000000000002,1716.8583333333336,0.4583333333333333,821.0588235294117,1893.1748768472905,0.041666666666666664,1098.9916003536694,0.9583333333333334,0.9388888888888888,0.7305555555555555