File size: 2,155 Bytes
7a1218c | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 | # 实验一发布包
## 目录结构
```
release_for_upload/
├── scripts/ # 评测脚本与验证集
│ ├── eval_vln_vllm.py # 主评测脚本 (vLLM)
│ ├── eval_vln_transformers.py
│ ├── patch_qwen35_visual_keys.py
│ ├── patch_gemma_checkpoint.py
│ ├── eval_exp1_base_parallel.sh
│ ├── exp4_strict_offline_analysis.py
│ └── exp1_val_1160.jsonl # 验证集 1160 样本
├── checkpoints/ # 8 个 SFT 模型(仅推理所需文件)
│ ├── Qwen3.5-0.8B-SFT/
│ ├── Qwen3.5-2B-SFT/
│ ├── Qwen3.5-9B-SFT/
│ ├── Qwen3-VL-2B-SFT/
│ ├── Qwen3-VL-8B-SFT/
│ ├── InternVL3.5-8B-SFT/
│ ├── GLM-4.6V-Flash-SFT/
│ └── Gemma-4-E4B-it-SFT/
└── README.md
```
每个模型目录已剔除 DeepSpeed 中间 checkpoint(`checkpoint-*/` + `global_step*/`),仅保留推理所需的:
- `model.safetensors`
- `config.json` / `generation_config.json` / `processor_config.json` / `preprocessor_config.json`
- `chat_template.jinja`
- `tokenizer.json` / `tokenizer_config.json` / `vocab.json` / `merges.txt`(如有)
- `eval_results_*.json`(评测结果)
## 模型大小(8 个总计 ≈ 95 GB)
| 模型 | 参数量 | 大小 |
|---|---:|---:|
| Qwen3.5-0.8B-SFT | 0.8B | 2.1 G |
| Qwen3.5-2B-SFT | 2B | 5.1 G |
| Qwen3.5-9B-SFT | 9B | 18.0 G |
| Qwen3-VL-2B-SFT | 2B | 4.0 G |
| Qwen3-VL-8B-SFT | 8B | 16.3 G |
| InternVL3.5-8B-SFT | 8B | 15.9 G |
| GLM-4.6V-Flash-SFT | 9B | 19.2 G |
| Gemma-4-E4B-it-SFT | 4B | 14.9 G |
## 使用方式
```bash
# 1) 解压(如果文件后缀是 .zip.txt,先把 .txt 去掉再解压)
unzip Qwen3.5-9B-SFT.zip
# 2) 评测
source /mnt/.../miniconda3/etc/profile.d/conda.sh && conda activate vllm_eval
export VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
CUDA_VISIBLE_DEVICES=0 python3 scripts/eval_vln_vllm.py \
--model_path checkpoints/Qwen3.5-9B-SFT \
--val_path scripts/exp1_val_1160.jsonl \
--output_dir checkpoints/Qwen3.5-9B-SFT \
--gpu_memory_utilization 0.7 \
--batch_size 32 \
--save_raw
```
|