p1k0
/

mti

Model card Files Files and versions

p1k0 commited on Sep 11, 2025

Commit

a33b6ef

·

verified ·

1 Parent(s): 8d10ffb

Upload 2 files

Files changed (2) hide show

qwen2vl_lora_sft.yaml +55 -0
qwen2vl_lora_sft_mit10.yaml +57 -0

qwen2vl_lora_sft.yaml ADDED Viewed

	@@ -0,0 +1,55 @@

+### model
+model_name_or_path: /mnt/data/users/liamding/data/models/Qwen2.5-VL-3B-Instruct
+# image_max_pixels: 262144
+# image_max_pixels: 401408
+# image_max_pixels: 1003520
+image_max_pixels: 802816
+video_max_pixels: 16384
+trust_remote_code: true
+### method
+stage: sft
+do_train: true
+finetuning_type: lora
+# lora_rank: 8
+lora_rank: 16
+lora_alpha: 32
+lora_target: all
+lora_dropout: 0.1
+### dataset
+dataset: ocrmt30k_train_ocr_mt  # video: mllm_video_demo
+eval_dataset: ocrmt30k_val_ocr_mt
+template: qwen2_vl
+cutoff_len: 4096
+# max_samples: 1000
+overwrite_cache: true
+preprocessing_num_workers: 16
+dataloader_num_workers: 4
+### output
+output_dir: saves/qwen2_vl-3b_ocrmt/lora/sft
+logging_steps: 10
+save_steps: 1000
+plot_loss: true
+overwrite_output_dir: true
+save_only_model: false
+report_to: wandb
+### train
+per_device_train_batch_size: 4
+gradient_accumulation_steps: 8
+# learning_rate: 1.0e-4
+learning_rate: 2.0e-5
+num_train_epochs: 3.0
+lr_scheduler_type: cosine
+warmup_ratio: 0.1
+# warmup_ratio: 0.2
+bf16: true
+ddp_timeout: 180000000
+resume_from_checkpoint: null
+### eval
+per_device_eval_batch_size: 1
+eval_strategy: steps
+eval_steps: 125

qwen2vl_lora_sft_mit10.yaml ADDED Viewed

	@@ -0,0 +1,57 @@

+### model
+model_name_or_path: /mnt/data/users/liamding/data/models/Qwen2.5-VL-7B-Instruct
+# image_max_pixels: 262144
+# image_max_pixels: 401408
+# image_max_pixels: 1003520
+image_max_pixels: 802816
+video_max_pixels: 16384
+trust_remote_code: true
+### method
+stage: sft
+do_train: true
+finetuning_type: lora
+# lora_rank: 8
+lora_rank: 16
+lora_alpha: 32
+lora_target: all
+lora_dropout: 0.2
+deepspeed: examples/deepspeed/ds_z2_config.json  # choices: [ds_z0_config.json, ds_z2_config.json, ds_z3_config.json]
+### dataset
+dataset: mit10_train_de, mit10_train_en, mit10_train_es, mit10_train_fr, mit10_train_it, mit10_train_ja, mit10_train_pt, mit10_train_zh
+eval_dataset: mit10_val_de, mit10_val_en, mit10_val_es, mit10_val_fr, mit10_val_it, mit10_val_ja,  mit10_val_pt, mit10_val_zh
+template: qwen2_vl
+cutoff_len: 4096
+# max_samples: 1000
+overwrite_cache: true
+preprocessing_num_workers: 16
+dataloader_num_workers: 4
+### output
+output_dir: dummy
+logging_steps: 10
+save_steps: 1000
+plot_loss: true
+overwrite_output_dir: true
+save_only_model: false
+report_to: none
+### train
+per_device_train_batch_size: 4
+gradient_accumulation_steps: 8 #两张卡8，8张卡2
+# learning_rate: 1.0e-4
+learning_rate: 1.0e-5
+num_train_epochs: 3.0
+lr_scheduler_type: cosine
+# warmup_ratio: 0.1
+warmup_ratio: 0.2
+bf16: true
+ddp_timeout: 180000000
+resume_from_checkpoint: null
+weight_decay: 0.01
+### eval
+per_device_eval_batch_size: 1
+eval_strategy: steps
+eval_steps: 250