Add scripts and checkpoints (CosFly-Track release)

265b8a3 verified about 12 hours ago

2.16 kB

	# 实验一发布包

	## 目录结构

	```
	release_for_upload/
	├── scripts/ # 评测脚本与验证集
	│ ├── eval_vln_vllm.py # 主评测脚本 (vLLM)
	│ ├── eval_vln_transformers.py
	│ ├── patch_qwen35_visual_keys.py
	│ ├── patch_gemma_checkpoint.py
	│ ├── eval_exp1_base_parallel.sh
	│ ├── exp4_strict_offline_analysis.py
	│ └── exp1_val_1160.jsonl # 验证集 1160 样本
	├── checkpoints/ # 8 个 SFT 模型（仅推理所需文件）
	│ ├── Qwen3.5-0.8B-SFT/
	│ ├── Qwen3.5-2B-SFT/
	│ ├── Qwen3.5-9B-SFT/
	│ ├── Qwen3-VL-2B-SFT/
	│ ├── Qwen3-VL-8B-SFT/
	│ ├── InternVL3.5-8B-SFT/
	│ ├── GLM-4.6V-Flash-SFT/
	│ └── Gemma-4-E4B-it-SFT/
	└── README.md
	```

	每个模型目录已剔除 DeepSpeed 中间 checkpoint（`checkpoint-/` + `global_step/`），仅保留推理所需的：
	- `model.safetensors`
	- `config.json` / `generation_config.json` / `processor_config.json` / `preprocessor_config.json`
	- `chat_template.jinja`
	- `tokenizer.json` / `tokenizer_config.json` / `vocab.json` / `merges.txt`（如有）
	- `eval_results_*.json`（评测结果）

	## 模型大小（8 个总计 ≈ 95 GB）

	\| 模型 \| 参数量 \| 大小 \|
	\|---\|---:\|---:\|
	\| Qwen3.5-0.8B-SFT \| 0.8B \| 2.1 G \|
	\| Qwen3.5-2B-SFT \| 2B \| 5.1 G \|
	\| Qwen3.5-9B-SFT \| 9B \| 18.0 G \|
	\| Qwen3-VL-2B-SFT \| 2B \| 4.0 G \|
	\| Qwen3-VL-8B-SFT \| 8B \| 16.3 G \|
	\| InternVL3.5-8B-SFT \| 8B \| 15.9 G \|
	\| GLM-4.6V-Flash-SFT \| 9B \| 19.2 G \|
	\| Gemma-4-E4B-it-SFT \| 4B \| 14.9 G \|

	## 使用方式

	```bash
	# 1) 解压（如果文件后缀是 .zip.txt，先把 .txt 去掉再解压）
	unzip Qwen3.5-9B-SFT.zip

	# 2) 评测
	source /mnt/.../miniconda3/etc/profile.d/conda.sh && conda activate vllm_eval
	export VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
	CUDA_VISIBLE_DEVICES=0 python3 scripts/eval_vln_vllm.py \
	--model_path checkpoints/Qwen3.5-9B-SFT \
	--val_path scripts/exp1_val_1160.jsonl \
	--output_dir checkpoints/Qwen3.5-9B-SFT \
	--gpu_memory_utilization 0.7 \
	--batch_size 32 \
	--save_raw
	```