luanns
/

gui-shift

luanns commited on 17 days ago

Commit

1844cc1

verified ·

1 Parent(s): 274c457

Upload configs/grpo_config.yaml

Files changed (1) hide show

configs/grpo_config.yaml ADDED Viewed

+# GRPO Training Configuration for GUI-Shift
+# Based on: arXiv:2505.12493 Appendix A
+# Model
+model_name_or_path: Qwen/Qwen2.5-VL-7B-Instruct
+freeze_vision_modules: true
+# Training Hyperparameters
+num_train_epochs: 4
+per_device_train_batch_size: 2
+gradient_accumulation_steps: 8
+learning_rate: 1.0e-6
+lr_scheduler_type: cosine
+warmup_ratio: 0.1
+# GRPO Specific
+num_generations: 8
+temperature: 0.9
+beta: 0.04  # KL divergence coefficient
+epsilon: 0.2  # Clipping parameter
+# Sequence Length
+max_prompt_length: 1024
+max_completion_length: 256
+# Hardware
+bf16: true
+gradient_checkpointing: true
+attn_implementation: flash_attention_2
+# Logging & Saving
+logging_steps: 1
+save_steps: 400
+report_to: wandb
+# Paths
+data_file_paths: ./data/gui_transition/filtered/k1_transition_filtered.jsonl
+image_folders: ./data/gui_transition/images
+output_dir: ./checkpoints/gui-shift-qwen
+# Reward Functions
+reward_funcs:
+  - format
+  - accuracy