evalplus.evaluate --model "/home/aiscuser/fhw/model_weights/warriordeep224" --dataset humaneval --backend vllm --tp 8 --greedy --trust_remote_code --dtype float16
evalplus.evaluate --model "/home/aiscuser/fhw/model_weights/warriordeep224" --dataset mbpp --backend vllm --tp 8 --greedy --trust_remote_code --dtype float16
python /data/local/zhangdi/DPO/DPO_train.py