# 1. 对比学习预训练
python train_contrastive.py --use_wandb --freeze_protein_model --freeze_text_model

# 2. 监督微调  
python train_protein_qwen.py --model_type protein-llm --text_model_finetune True

# 3. GRPO训练
python protein_reason.py --sft_checkpoint ./checkpoints/best_model