Spaces:

CathieDaDa
/

Reasoning_Capability_Leaderboard

Sleeping

App Files Files Community

Reasoning_Capability_Leaderboard / basic.csv

CathieDaDa's picture

Update basic.csv

4aaefb8 verified 5 months ago

history blame contribute delete

796 Bytes

	排名,模型名称,基础逻辑能力加权得分
	1,GPT-o3,97
	2,豆包1.5 Pro,96
	3,豆包1.5 Pro（思考模式）,95
	4,GPT-5（自动模式）,94
	5,DeepSeek-R1,92
	6,通义千问3（思考模式）,90
	7,Gemini 2.5 Pro,88
	7,GPT-o4 mini,88
	7,混元-T1,88
	7,文心一言 X1-Turbo,88
	11,GPT-4.1,87
	11,GPT-4o,87
	11,通义千问3,87
	14,DeepSeek-V3,86
	14,Grok 3（思考模式）,86
	14,日日新 V6推理,86
	17,Claude 4 Opus,85
	17,Claude 4 Opus （思考模式）,85
	19,Gemini 2.5 Flash,84
	20,日日新 V6 Pro,83
	21,混元-TurboS,81
	22,Baichuan4-Turbo,80
	22,Grok 3,80
	22,Grok 4,80
	22,Yi- Lightning,80
	26,MiniMax-01,79
	27,Spark 4.0 Ultra,77
	27,Step R1-V-Mini,77
	29,GLM-4-plus,76
	29,GLM-Z1-Air,76
	29,Kimi,76
	32,文心一言4.5-Turbo,74
	33,Step 2,73
	34,Kimi-k1.5,72
	35,Llama 3.3 70B,64
	36,360智脑2-o1,59