排名,模型名称,综合得分 1,豆包1.5 Pro(思考模式),93 2,GPT-5(自动模式),91.5 3,GPT-o3,91 4,豆包1.5 Pro,90.5 5,DeepSeek-R1,89.5 5,Gemini 2.5 Pro,89.5 5,通义千问3(思考模式),89.5 8,混元-T1,88.5 8,文心一言 X1-Turbo,88.5 10,Gemini 2.5 flash,88 10,Grok 3(思考模式),88 12,通义千问3,87 13,GPT-4.1,86 14,DeepSeek-V3,85 14,GPT-o4 mini,85 16,GPT-4o,84.5 17,混元-TurboS,83.5 18,Claude 4 Opus (思考模式),83 19,Claude 4 Opus,82.5 19,Grok 3,82.5 19,Grok 4,82.5 22,文心一言4.5-Turbo,80.5 23,MiniMax-01,80 23,日日新 V6 Pro,80 23,日日新 V6推理,80 26,Yi- Lightning,79.5 27,GLM-4-plus,78 28,Kimi,77.5 28,Spark 4.0 Ultra,77.5 30,Step 2,76.5 30,GLM-Z1-Air,76 32,Baichuan4-Turbo,75.5 33,Step R1-V-Mini,71.5 34,360智脑2-o1,70 35,Llama 3.3 70B,69.5 36,Kimi-k1.5,69