tmp-jdfnqw21 / eval_results_avg4 /eval_results.csv
bensondccnqwc's picture
Add files using upload-large-folder tool
4041846 verified
model,aime24_acc,aime24_pass_acc,aime24_tokens,aime24_keywords,aime24_correct_tokens,aime24_wrong_tokens,aime24_clip_ratio,aime24_stop_tokens,aime24_stop_ratio,aime24_box_ratio,aime24_repeat_ratio,aime25_acc,aime25_pass_acc,aime25_tokens,aime25_keywords,aime25_correct_tokens,aime25_wrong_tokens,aime25_clip_ratio,aime25_stop_tokens,aime25_stop_ratio,aime25_box_ratio,aime25_repeat_ratio,amc23_acc,amc23_pass_acc,amc23_tokens,amc23_keywords,amc23_correct_tokens,amc23_wrong_tokens,amc23_clip_ratio,amc23_stop_tokens,amc23_stop_ratio,amc23_box_ratio,amc23_repeat_ratio,avg_acc,avg_pass_acc,avg_tokens,avg_keywords,avg_correct_tokens,avg_wrong_tokens,avg_clip_ratio,avg_stop_tokens,avg_stop_ratio,avg_box_ratio,avg_repeat_ratio
eval_results_avg4-global_step_0,0.8,3.3,3814.0,2.1666666666666665,0.0,3814.0,0.16666666666666666,1376.88,0.8333333333333334,0.7666666666666667,0.6333333333333333,1.7,6.7,890.8666666666667,0.36666666666666664,0.0,890.8666666666667,0.0,890.8666666666667,1.0,0.7666666666666667,0.7,24.4,50.0,1589.25,1.725,761.7272727272727,1903.1379310344828,0.025,1024.3333333333333,0.975,0.825,0.575,8.966666666666667,20.0,2098.038888888889,1.4194444444444443,253.9090909090909,2202.6681992337167,0.06388888888888888,1097.36,0.9361111111111112,0.7861111111111111,0.6361111111111111
eval_results_avg4-global_step_10,2.5,10.0,2830.4,0.36666666666666664,659.0,2905.2758620689656,0.1,1367.148148148148,0.9,0.8333333333333334,0.8666666666666667,4.2,10.0,1056.7,0.8666666666666667,940.0,1060.7241379310344,0.0,1056.7,1.0,1.0,0.6666666666666666,26.2,50.0,2043.25,1.3,736.75,2369.875,0.075,911.7567567567568,0.925,0.9,0.65,10.966666666666667,23.333333333333332,1976.7833333333335,0.8444444444444444,778.5833333333334,2111.9583333333335,0.05833333333333333,1111.8683016349682,0.9416666666666668,0.9111111111111111,0.7277777777777777
eval_results_avg4-global_step_20,6.7,10.0,3437.5,1.1,493.0,3539.0344827586205,0.1,2041.7037037037037,0.9,0.8,0.6333333333333333,3.3,10.0,2535.3333333333335,3.8333333333333335,745.0,2597.0689655172414,0.1,1039.3333333333333,0.9,0.8666666666666667,0.7,37.5,60.0,1128.15,0.375,679.5833333333334,1320.392857142857,0.025,746.8205128205128,0.975,0.975,0.575,15.833333333333334,26.666666666666668,2366.9944444444445,1.7694444444444446,639.1944444444445,2485.4987684729062,0.075,1275.9525166191831,0.9249999999999999,0.8805555555555555,0.6361111111111111
eval_results_avg4-global_step_30,5.0,10.0,2376.9,0.26666666666666666,619.0,2502.464285714286,0.06666666666666667,1403.8214285714287,0.9333333333333333,0.8666666666666667,0.7666666666666667,1.7,3.3,1853.3666666666666,0.7333333333333333,0.0,1853.3666666666666,0.06666666666666667,843.0,0.9333333333333333,0.9333333333333333,0.5666666666666667,35.0,60.0,1906.9,0.275,616.7,2336.9666666666667,0.05,1165.157894736842,0.95,0.925,0.625,13.9,24.433333333333334,2045.722222222222,0.425,411.90000000000003,2230.9325396825393,0.061111111111111116,1137.326441102757,0.9388888888888888,0.9083333333333333,0.6527777777777778
eval_results_avg4-global_step_40,8.3,23.3,1319.0333333333333,0.6666666666666666,587.5,1371.2857142857142,0.03333333333333333,812.7931034482758,0.9666666666666667,0.9666666666666667,0.7333333333333333,1.7,3.3,1375.3,0.3333333333333333,0.0,1375.3,0.03333333333333333,870.9655172413793,0.9666666666666667,0.9666666666666667,0.6666666666666666,36.2,62.5,843.55,0.275,618.5333333333333,978.56,0.0,843.55,1.0,0.975,0.625,15.4,29.7,1179.2944444444445,0.425,402.0111111111111,1241.715238095238,0.022222222222222223,842.4362068965517,0.9777777777777779,0.9694444444444444,0.6749999999999999
eval_results_avg4-global_step_50,10.0,23.3,2139.8333333333335,0.43333333333333335,840.5,2232.6428571428573,0.06666666666666667,1149.892857142857,0.9333333333333333,0.9,0.6666666666666666,1.7,3.3,1129.9,1.0333333333333334,902.0,1137.7586206896551,0.0,1129.9,1.0,0.9333333333333333,0.7666666666666667,39.4,62.5,1118.625,0.225,662.5625,1422.6666666666667,0.025,740.2564102564103,0.975,0.975,0.55,17.03333333333333,29.7,1462.7861111111113,0.563888888888889,801.6875,1597.6893814997266,0.030555555555555558,1006.6830891330892,0.9694444444444444,0.9361111111111112,0.6611111111111111
eval_results_avg4-global_step_60,5.0,10.0,3083.9333333333334,0.36666666666666664,546.0,3265.214285714286,0.1,1648.962962962963,0.9,0.8333333333333334,0.7666666666666667,4.2,13.3,1348.8,0.6,931.3333333333334,1395.1851851851852,0.03333333333333333,843.5862068965517,0.9666666666666667,0.9666666666666667,0.8,36.2,62.5,1480.95,0.1,642.6111111111111,2166.8636363636365,0.025,1108.7179487179487,0.975,0.95,0.65,15.133333333333335,28.599999999999998,1971.2277777777779,0.35555555555555557,706.6481481481482,2275.7543690877023,0.05277777777777778,1200.4223728591544,0.9472222222222223,0.9166666666666666,0.7388888888888889
eval_results_avg4-global_step_70,10.0,20.0,2351.4666666666667,0.6,991.25,2560.730769230769,0.06666666666666667,1381.4285714285713,0.9333333333333333,0.8666666666666667,0.7666666666666667,7.5,13.3,875.0666666666667,0.5666666666666667,1075.0,860.7857142857143,0.0,875.0666666666667,1.0,1.0,0.7333333333333333,34.4,57.5,797.175,0.275,814.5384615384615,788.8148148148148,0.0,797.175,1.0,1.0,0.75,17.3,30.266666666666666,1341.236111111111,0.48055555555555546,960.2628205128204,1403.4437661104328,0.022222222222222223,1017.8900793650795,0.9777777777777779,0.9555555555555556,0.75
eval_results_avg4-global_step_80,11.7,23.3,1834.8,0.6333333333333333,971.0,1896.5,0.03333333333333333,1346.3793103448277,0.9666666666666667,0.9,0.6666666666666666,2.5,10.0,883.2666666666667,0.43333333333333335,0.0,883.2666666666667,0.0,883.2666666666667,1.0,1.0,0.6666666666666666,39.4,52.5,1146.3,0.375,668.3529411764706,1499.5652173913043,0.0,1146.3,1.0,0.975,0.675,17.866666666666664,28.599999999999998,1288.1222222222223,0.48055555555555557,546.4509803921569,1426.4439613526567,0.011111111111111112,1125.3153256704982,0.9888888888888889,0.9583333333333334,0.6694444444444444
eval_results_avg4-global_step_90,9.2,20.0,943.8333333333334,0.43333333333333335,1005.0,939.4642857142857,0.0,943.8333333333334,1.0,1.0,0.7333333333333333,3.3,10.0,1389.2666666666667,0.6,1142.0,1397.7931034482758,0.03333333333333333,885.448275862069,0.9666666666666667,0.9666666666666667,0.6666666666666666,36.2,57.5,1879.25,0.1,1613.2941176470588,2075.8260869565215,0.075,734.3513513513514,0.925,0.925,0.625,16.233333333333334,29.166666666666668,1404.1166666666668,0.37777777777777777,1253.4313725490194,1471.0278253730278,0.036111111111111115,854.5443201822512,0.9638888888888889,0.9638888888888889,0.6749999999999999
eval_results_avg4-global_step_100,10.0,16.7,1694.0666666666666,0.23333333333333334,630.5,1770.0357142857142,0.03333333333333333,1200.896551724138,0.9666666666666667,0.9666666666666667,0.7333333333333333,0.8,3.3,1422.2,0.6,1301.0,1426.3793103448277,0.03333333333333333,919.5862068965517,0.9666666666666667,0.9666666666666667,0.6333333333333333,38.1,60.0,1215.8,5.125,661.7857142857143,1514.1153846153845,0.025,836.7435897435897,0.975,0.975,0.525,16.3,26.666666666666668,1444.0222222222221,1.986111111111111,864.4285714285714,1570.1768030819755,0.030555555555555558,985.7421161214265,0.9694444444444444,0.9694444444444444,0.6305555555555555