实验一发布包

目录结构

release_for_upload/
├── scripts/                    # 评测脚本与验证集
│   ├── eval_vln_vllm.py        # 主评测脚本 (vLLM)
│   ├── eval_vln_transformers.py
│   ├── patch_qwen35_visual_keys.py
│   ├── patch_gemma_checkpoint.py
│   ├── eval_exp1_base_parallel.sh
│   ├── exp4_strict_offline_analysis.py
│   └── exp1_val_1160.jsonl    # 验证集 1160 样本
├── checkpoints/                # 8 个 SFT 模型（仅推理所需文件）
│   ├── Qwen3.5-0.8B-SFT/
│   ├── Qwen3.5-2B-SFT/
│   ├── Qwen3.5-9B-SFT/
│   ├── Qwen3-VL-2B-SFT/
│   ├── Qwen3-VL-8B-SFT/
│   ├── InternVL3.5-8B-SFT/
│   ├── GLM-4.6V-Flash-SFT/
│   └── Gemma-4-E4B-it-SFT/
└── README.md

每个模型目录已剔除 DeepSpeed 中间 checkpoint（checkpoint-*/ + global_step*/），仅保留推理所需的：

model.safetensors
config.json / generation_config.json / processor_config.json / preprocessor_config.json
chat_template.jinja
tokenizer.json / tokenizer_config.json / vocab.json / merges.txt（如有）
eval_results_*.json（评测结果）

模型大小（8 个总计 ≈ 95 GB）

模型	参数量	大小
Qwen3.5-0.8B-SFT	0.8B	2.1 G
Qwen3.5-2B-SFT	2B	5.1 G
Qwen3.5-9B-SFT	9B	18.0 G
Qwen3-VL-2B-SFT	2B	4.0 G
Qwen3-VL-8B-SFT	8B	16.3 G
InternVL3.5-8B-SFT	8B	15.9 G
GLM-4.6V-Flash-SFT	9B	19.2 G
Gemma-4-E4B-it-SFT	4B	14.9 G

使用方式

# 1) 解压（如果文件后缀是 .zip.txt，先把 .txt 去掉再解压）
unzip Qwen3.5-9B-SFT.zip

# 2) 评测
source /mnt/.../miniconda3/etc/profile.d/conda.sh && conda activate vllm_eval
export VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
CUDA_VISIBLE_DEVICES=0 python3 scripts/eval_vln_vllm.py \
    --model_path checkpoints/Qwen3.5-9B-SFT \
    --val_path scripts/exp1_val_1160.jsonl \
    --output_dir checkpoints/Qwen3.5-9B-SFT \
    --gpu_memory_utilization 0.7 \
    --batch_size 32 \
    --save_raw