| # 实验一发布包 |
|
|
| ## 目录结构 |
|
|
| ``` |
| release_for_upload/ |
| ├── scripts/ # 评测脚本与验证集 |
| │ ├── eval_vln_vllm.py # 主评测脚本 (vLLM) |
| │ ├── eval_vln_transformers.py |
| │ ├── patch_qwen35_visual_keys.py |
| │ ├── patch_gemma_checkpoint.py |
| │ ├── eval_exp1_base_parallel.sh |
| │ ├── exp4_strict_offline_analysis.py |
| │ └── exp1_val_1160.jsonl # 验证集 1160 样本 |
| ├── checkpoints/ # 8 个 SFT 模型(仅推理所需文件) |
| │ ├── Qwen3.5-0.8B-SFT/ |
| │ ├── Qwen3.5-2B-SFT/ |
| │ ├── Qwen3.5-9B-SFT/ |
| │ ├── Qwen3-VL-2B-SFT/ |
| │ ├── Qwen3-VL-8B-SFT/ |
| │ ├── InternVL3.5-8B-SFT/ |
| │ ├── GLM-4.6V-Flash-SFT/ |
| │ └── Gemma-4-E4B-it-SFT/ |
| └── README.md |
| ``` |
|
|
| 每个模型目录已剔除 DeepSpeed 中间 checkpoint(`checkpoint-*/` + `global_step*/`),仅保留推理所需的: |
| - `model.safetensors` |
| - `config.json` / `generation_config.json` / `processor_config.json` / `preprocessor_config.json` |
| - `chat_template.jinja` |
| - `tokenizer.json` / `tokenizer_config.json` / `vocab.json` / `merges.txt`(如有) |
| - `eval_results_*.json`(评测结果) |
|
|
| ## 模型大小(8 个总计 ≈ 95 GB) |
|
|
| | 模型 | 参数量 | 大小 | |
| |---|---:|---:| |
| | Qwen3.5-0.8B-SFT | 0.8B | 2.1 G | |
| | Qwen3.5-2B-SFT | 2B | 5.1 G | |
| | Qwen3.5-9B-SFT | 9B | 18.0 G | |
| | Qwen3-VL-2B-SFT | 2B | 4.0 G | |
| | Qwen3-VL-8B-SFT | 8B | 16.3 G | |
| | InternVL3.5-8B-SFT | 8B | 15.9 G | |
| | GLM-4.6V-Flash-SFT | 9B | 19.2 G | |
| | Gemma-4-E4B-it-SFT | 4B | 14.9 G | |
|
|
| ## 使用方式 |
|
|
| ```bash |
| # 1) 解压(如果文件后缀是 .zip.txt,先把 .txt 去掉再解压) |
| unzip Qwen3.5-9B-SFT.zip |
| |
| # 2) 评测 |
| source /mnt/.../miniconda3/etc/profile.d/conda.sh && conda activate vllm_eval |
| export VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 |
| CUDA_VISIBLE_DEVICES=0 python3 scripts/eval_vln_vllm.py \ |
| --model_path checkpoints/Qwen3.5-9B-SFT \ |
| --val_path scripts/exp1_val_1160.jsonl \ |
| --output_dir checkpoints/Qwen3.5-9B-SFT \ |
| --gpu_memory_utilization 0.7 \ |
| --batch_size 32 \ |
| --save_raw |
| ``` |
|
|