REASONING_START = "" REASONING_END = "" SOLUTION_START = "" SOLUTION_END = "" BASE_MODEL = "Qwen/Qwen2-VL-2B-Instruct" TRAIN_DATASET = "AI4Math/MathVista"