Caesarrr commited on 4 days ago

Commit

33ea7f4

verified ·

1 Parent(s): 3de6f06

Upload folder using huggingface_hub

Browse files

Files changed (25) hide show

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/checkpoints/_initialization/StarVLA_Qwen3VL-OFT-Bridge-RT-1/checkpoints/steps_5000_pytorch_model.pt +3 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/checkpoints/steps_3000_state/model.safetensors +3 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/checkpoints/steps_3000_state/optimizer.bin +3 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/checkpoints/steps_3000_state/random_states_0.pkl +3 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/config.full.yaml +224 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/config.yaml +103 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/dataset_statistics.json +127 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/dataset_statistics_eval.json +127 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_1000.json +63 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_1250.json +63 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_1500.json +63 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_1750.json +63 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_2000.json +63 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_2250.json +63 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_250.json +63 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_2500.json +63 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_2750.json +63 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_3000.json +63 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_500.json +63 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_750.json +63 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/hydra/.hydra/config.yaml +222 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/hydra/.hydra/hydra.yaml +341 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/hydra/.hydra/overrides.yaml +181 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/hydra/train_starvla_hydra.log +0 -0
flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/summary.jsonl +6 -0

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/checkpoints/_initialization/StarVLA_Qwen3VL-OFT-Bridge-RT-1/checkpoints/steps_5000_pytorch_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:371cb744227687bb99bcad7f9ff2250cf06da75631359ad3eba4c6bc52570607
+size 9785060316

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/checkpoints/steps_3000_state/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dee60fc99cf35e2e6d5908129093c8c66c2cafb62d3b87a236d45acd86522d59
+size 9138230516

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/checkpoints/steps_3000_state/optimizer.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0bf50374f6a08b664673827a21dec3f972a8770dc56af310e8a6c225af8b023
+size 18276885098

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/checkpoints/steps_3000_state/random_states_0.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb1d26c3be5ce9ab794023e41262ab96e409e1e140d3759482adef7778d779a8
+size 14821

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/config.full.yaml ADDED Viewed

	@@ -0,0 +1,224 @@

+framework:
+  name: QwenOFT
+  qwenvl:
+    base_vlm: /workspace/latency-sensitive-bench/starVLA/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    attn_implementation: flash_attention_2
+    enable_gradient_checkpointing: true
+  action_model:
+    action_model_type: MLP
+    action_dim: 7
+    action_hidden_dim: 2560
+    future_action_window_size: 0
+    past_action_window_size: 0
+    loss_type: discrete_ce
+    state_dim: 7
+    action_horizon: 1
+    action_env_dim: 2
+datasets:
+  vla_data:
+    dataset_py: lerobot_datasets
+    include_state: true
+    data_root_dir: /workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep
+    data_mix: flappy_train__bridge
+    eval_data_mix: flappy_train__bridge__val
+    custom_mixtures_path: null
+    action_type: discrete
+    sequential_step_sampling: false
+    eval_sequential_step_sampling: null
+    num_workers: 8
+    eval_num_workers: 8
+    prefetch_factor: 4
+    persistent_workers: true
+    pin_memory: true
+    shuffle: true
+    action_balance:
+      enabled: false
+      strategy: balanced_epoch
+      action_key: action_id
+      target_flap_fraction: 0.3
+      noop_id: 0
+      flap_id: 1
+    latency_curriculum:
+      enabled: false
+      strategy: exclusive
+      latencies: null
+      phase_steps: null
+    per_device_batch_size: 32
+    load_all_data_for_training: true
+    num_obs_frames: 1
+    image_mode: single
+    stitch_grid:
+    - 2
+    - 2
+    obs_image_size: null
+    video_backend: torchvision_av
+dataset:
+  source_hf: ''
+  config_name: null
+  source_subdir: null
+  converted_name: flappy_train
+  single_source_hf: ''
+  mixed_source_hf: ''
+  single_converted_name: flappy_train
+  mixed_converted_name: flappy_mixed_latency_train
+  single_latency_filter: null
+  mixed_latency_filter: null
+  force_download: false
+  setup_force: false
+  skip_verification: false
+  verify_rows: 200
+  max_episodes: null
+  episodes_per_latency: null
+  latency_filter: null
+  debug_subset:
+    enabled: false
+    max_episodes: 5
+    suffix: debug
+base_model:
+  repo_id: Qwen/Qwen3-VL-4B-Instruct
+initialization:
+  checkpoint_local_dir: playground/Pretrained_models/Qwen3VL-OFT-Bridge-RT-1
+  checkpoint_hf_repo_id: StarVLA/Qwen3VL-OFT-Bridge-RT-1
+  checkpoint_filename: checkpoints/steps_5000_pytorch_model.pt
+trainer:
+  max_train_steps: 3000
+  num_warmup_steps: 100
+  save_interval: 500
+  eval_interval: 250
+  eval_num_batches: 50
+  per_latency_eval_num_batches: null
+  eval_action_classification: true
+  eval_action_classification_interval: null
+  cc_f1_tolerance: 1
+  learning_rate:
+    base: 2.0e-05
+    qwen_vl_interface: 1.0e-05
+    action_model: 0.0001
+  lr_scheduler_type: cosine_with_min_lr
+  scheduler_specific_kwargs:
+    min_lr: 1.0e-06
+  freeze_modules: ''
+  freeze_vit: false
+  freeze_tied_embedding: false
+  freeze_llm_layers: []
+  loss_scale:
+    vla: 1.0
+    vlm: 0.1
+  max_grad_norm: 1.0
+  weight_decay: 0.0
+  logging_frequency: 1
+  profile_timing:
+    enabled: false
+    log_interval: 10
+  gradient_clipping: 1.0
+  gradient_accumulation_steps: 1
+  distributed_backend: none
+  is_resume: false
+  pretrained_checkpoint: null
+  resume_step: 0
+  reload_modules: null
+  optimizer:
+    name: AdamW
+    betas:
+    - 0.9
+    - 0.95
+    eps: 1.0e-08
+    weight_decay: 1.0e-08
+    fused: true
+  save_format: pt
+workspace_dir: WORKSPACE_DIR
+run_root_dir: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints
+seed: 42
+wandb_entity: saberrr-zju
+wandb_project: starVLA_rl_games
+auth:
+  env_file: null
+  hf_token_env: HF_TOKEN
+  wandb_api_key_env: WANDB_API_KEY
+paths:
+  run_root_dir: results/Checkpoints
+  dataset_local_dir: data/flappy_fix_latency_2_200ep
+  dataset_cache_dir: null
+  base_model_dir: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+  accelerate_config: starVLA/config/deepseeds/deepspeed_zero2.yaml
+launch:
+  use_accelerate: true
+  gpus: null
+  num_processes: 1
+  dry_run: false
+conda:
+  enabled: true
+  env_name: null
+rl_games:
+  model_alias: openvla
+  env_eval:
+    image_size: 224
+    frameskip: 1
+    seed: 42
+    fixed_episode_seeds: true
+    latency_seed_stride: 0
+    task_seed_stride: 0
+    task_description: ''
+    enabled: true
+    distributed_mode: none
+    vectorized:
+      enabled: false
+      batch_size: 1
+    latency:
+      prompt_map_path: /workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep/flappy_train__bridge/latency_prompt_map.json
+      mode: single
+      values:
+      - 0
+    mid_train:
+      enabled: true
+      interval_steps: 250
+      latencies:
+      - 2
+      num_episodes: 5
+      max_steps_per_episode: 3600
+    post_train:
+      enabled: false
+      latencies:
+      - 0
+      - 1
+      - 2
+      - 3
+      - 4
+      num_episodes: 5
+      max_steps_per_episode: 3600
+  task: flappy
+  initialization_mode: bridge
+  action_carrier: bridge
+model: openvla
+env: flappy
+init: bridge
+bridge_base_model:
+  repo_id:
+    openvla: Qwen/Qwen3-VL-4B-Instruct
+    pi0: StarVLA/Qwen2.5-VL-3B-Instruct-Action
+    pi05: Qwen/Qwen3-VL-4B-Instruct
+    gr00t: Qwen/Qwen3-VL-4B-Instruct
+  local_dir:
+    openvla: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    pi0: playground/Pretrained_models/Qwen2.5-VL-3B-Instruct-Action
+    pi05: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    gr00t: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+mode: single
+checkpoint:
+  load: none
+  hf_repo_id: null
+  save_best_model: false
+  save_pt_file: false
+  local:
+    keep_last_n: 1
+  sync:
+    enabled: false
+    repo_id: null
+    keep_last_n: 0
+    sync_every_n_checkpoints: 1
+    resume_policy: local_latest
+run_id: flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps
+output_dir: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps
+config_yaml: null
+is_debug: false
+version_id: '0.21'

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/config.yaml ADDED Viewed

	@@ -0,0 +1,103 @@

+checkpoint:
+  local:
+    keep_last_n: 1
+  save_best_model: false
+  save_pt_file: false
+  sync:
+    enabled: false
+    keep_last_n: 0
+    repo_id: null
+datasets:
+  vla_data:
+    data_mix: flappy_train__bridge
+    dataset_py: lerobot_datasets
+    eval_data_mix: flappy_train__bridge__val
+    eval_num_workers: 8
+    include_state: true
+    latency_curriculum:
+      enabled: false
+    obs_image_size: null
+    per_device_batch_size: 32
+    persistent_workers: true
+    pin_memory: true
+    prefetch_factor: 4
+framework:
+  action_model:
+    action_dim: 7
+    action_env_dim: 2
+    action_hidden_dim: 2560
+    action_horizon: 1
+    action_model_type: MLP
+    loss_type: discrete_ce
+    state_dim: 7
+  name: QwenOFT
+  qwenvl:
+    attn_implementation: flash_attention_2
+    base_vlm: /workspace/latency-sensitive-bench/starVLA/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    enable_gradient_checkpointing: true
+output_dir: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps
+rl_games:
+  env_eval:
+    distributed_mode: none
+    enabled: true
+    fixed_episode_seeds: true
+    frameskip: 1
+    image_size: 224
+    latency:
+      prompt_map_path: /workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep/flappy_train__bridge/latency_prompt_map.json
+    latency_seed_stride: 0
+    mid_train:
+      enabled: true
+      interval_steps: 250
+      latencies:
+      - 2
+      max_steps_per_episode: 3600
+      num_episodes: 5
+    seed: 42
+    task_description: ''
+    task_seed_stride: 0
+    vectorized:
+      enabled: false
+  model_alias: openvla
+  task: flappy
+run_id: flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps
+run_root_dir: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints
+seed: 42
+trainer:
+  distributed_backend: none
+  eval_action_classification: true
+  eval_action_classification_interval: null
+  eval_interval: 250
+  eval_num_batches: 50
+  freeze_llm_layers: []
+  freeze_modules: ''
+  freeze_tied_embedding: false
+  freeze_vit: false
+  gradient_accumulation_steps: 1
+  gradient_clipping: 1.0
+  is_resume: false
+  learning_rate:
+    action_model: 0.0001
+    base: 2.0e-05
+    qwen_vl_interface: 1.0e-05
+  logging_frequency: 1
+  lr_scheduler_type: cosine_with_min_lr
+  max_train_steps: 3000
+  num_warmup_steps: 100
+  optimizer:
+    betas:
+    - 0.9
+    - 0.95
+    eps: 1.0e-08
+    fused: true
+    weight_decay: 1.0e-08
+  per_latency_eval_num_batches: null
+  pretrained_checkpoint: null
+  profile_timing:
+    enabled: false
+  reload_modules: null
+  save_interval: 500
+  scheduler_specific_kwargs:
+    min_lr: 1.0e-06
+wandb_entity: saberrr-zju
+wandb_project: starVLA_rl_games

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/dataset_statistics.json ADDED Viewed

	@@ -0,0 +1,127 @@

+{
+  "new_embodiment": {
+    "action": {
+      "mean": [
+        0.6028500199317932,
+        0.3971499800682068,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "std": [
+        0.4890792667865753,
+        0.4890792667865753,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "max": [
+        1.0,
+        1.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "min": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q01": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q99": [
+        1.0,
+        1.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "mask": [
+        true,
+        true,
+        true,
+        true,
+        true,
+        true,
+        true
+      ]
+    },
+    "state": {
+      "mean": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "std": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "max": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "min": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q01": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q99": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ]
+    },
+    "num_transitions": 330734,
+    "num_trajectories": 180
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/dataset_statistics_eval.json ADDED Viewed

	@@ -0,0 +1,127 @@

+{
+  "new_embodiment": {
+    "action": {
+      "mean": [
+        0.7959861159324646,
+        0.2040138840675354,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "std": [
+        0.4030573070049286,
+        0.4030573070049286,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "max": [
+        1.0,
+        1.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "min": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q01": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q99": [
+        1.0,
+        1.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "mask": [
+        true,
+        true,
+        true,
+        true,
+        true,
+        true,
+        true
+      ]
+    },
+    "state": {
+      "mean": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "std": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "max": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "min": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q01": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q99": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ]
+    },
+    "num_transitions": 72000,
+    "num_trajectories": 20
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_1000.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 4.799999999999995,
+      "mean_length": 57.2,
+      "std_reward": 1.7999999999999952,
+      "std_length": 14.4,
+      "episode_rewards": [
+        8.399999999999986,
+        3.8999999999999986,
+        3.8999999999999986,
+        3.8999999999999986,
+        3.8999999999999986
+      ],
+      "episode_lengths": [
+        86,
+        50,
+        50,
+        50,
+        50
+      ],
+      "decoded_action_hist": {
+        "0": 237,
+        "1": 49
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 1000,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 4.799999999999995,
+    "mean_length": 57.2,
+    "std_reward": 1.7999999999999952,
+    "std_length": 14.4,
+    "task_count": 1,
+    "macro_mean_reward": 4.799999999999995,
+    "macro_mean_length": 57.2,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_1250.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 4.799999999999995,
+      "mean_length": 57.2,
+      "std_reward": 1.7999999999999952,
+      "std_length": 14.4,
+      "episode_rewards": [
+        8.399999999999986,
+        3.8999999999999986,
+        3.8999999999999986,
+        3.8999999999999986,
+        3.8999999999999986
+      ],
+      "episode_lengths": [
+        86,
+        50,
+        50,
+        50,
+        50
+      ],
+      "decoded_action_hist": {
+        "0": 235,
+        "1": 51
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 1250,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 4.799999999999995,
+    "mean_length": 57.2,
+    "std_reward": 1.7999999999999952,
+    "std_length": 14.4,
+    "task_count": 1,
+    "macro_mean_reward": 4.799999999999995,
+    "macro_mean_length": 57.2,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_1500.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 153.74000000000365,
+      "mean_length": 1258.2,
+      "std_reward": 160.43479173796118,
+      "std_length": 1292.4083565189449,
+      "episode_rewards": [
+        8.399999999999986,
+        444.60000000002566,
+        171.8999999999956,
+        3.8999999999999986,
+        139.89999999999702
+      ],
+      "episode_lengths": [
+        86,
+        3600,
+        1406,
+        50,
+        1149
+      ],
+      "decoded_action_hist": {
+        "0": 4978,
+        "1": 1313
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 1500,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 153.74000000000365,
+    "mean_length": 1258.2,
+    "std_reward": 160.43479173796118,
+    "std_length": 1292.4083565189449,
+    "task_count": 1,
+    "macro_mean_reward": 153.74000000000365,
+    "macro_mean_length": 1258.2,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_1750.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 217.38000000000935,
+      "mean_length": 1770.0,
+      "std_reward": 195.1522113633477,
+      "std_length": 1572.0778606672125,
+      "episode_rewards": [
+        8.399999999999986,
+        176.3999999999954,
+        12.899999999999974,
+        444.60000000002566,
+        444.60000000002566
+      ],
+      "episode_lengths": [
+        86,
+        1442,
+        122,
+        3600,
+        3600
+      ],
+      "decoded_action_hist": {
+        "0": 7008,
+        "1": 1842
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 1750,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 217.38000000000935,
+    "mean_length": 1770.0,
+    "std_reward": 195.1522113633477,
+    "std_length": 1572.0778606672125,
+    "task_count": 1,
+    "macro_mean_reward": 217.38000000000935,
+    "macro_mean_length": 1770.0,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_2000.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 116.27999999999801,
+      "mean_length": 956.0,
+      "std_reward": 102.48608490912143,
+      "std_length": 827.2419235024298,
+      "episode_rewards": [
+        8.399999999999986,
+        176.3999999999954,
+        12.899999999999974,
+        278.89999999999617,
+        104.79999999999863
+      ],
+      "episode_lengths": [
+        86,
+        1442,
+        122,
+        2269,
+        861
+      ],
+      "decoded_action_hist": {
+        "0": 3842,
+        "1": 938
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 2000,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 116.27999999999801,
+    "mean_length": 956.0,
+    "std_reward": 102.48608490912143,
+    "std_length": 827.2419235024298,
+    "task_count": 1,
+    "macro_mean_reward": 116.27999999999801,
+    "macro_mean_length": 956.0,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_2250.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 243.26000000001076,
+      "mean_length": 1978.4,
+      "std_reward": 199.3218462688027,
+      "std_length": 1605.7832481378052,
+      "episode_rewards": [
+        8.399999999999986,
+        444.60000000002566,
+        444.60000000002566,
+        3.8999999999999986,
+        314.8000000000025
+      ],
+      "episode_lengths": [
+        86,
+        3600,
+        3600,
+        50,
+        2556
+      ],
+      "decoded_action_hist": {
+        "0": 7898,
+        "1": 1994
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 2250,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 243.26000000001076,
+    "mean_length": 1978.4,
+    "std_reward": 199.3218462688027,
+    "std_length": 1605.7832481378052,
+    "task_count": 1,
+    "macro_mean_reward": 243.26000000001076,
+    "macro_mean_length": 1978.4,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_250.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 37.10000000000025,
+      "mean_length": 319.0,
+      "std_reward": 23.528960878033065,
+      "std_length": 189.75668631170814,
+      "episode_rewards": [
+        60.600000000000485,
+        13.69999999999997,
+        4.599999999999996,
+        59.900000000000475,
+        46.70000000000033
+      ],
+      "episode_lengths": [
+        509,
+        130,
+        57,
+        502,
+        397
+      ],
+      "decoded_action_hist": {
+        "0": 1243,
+        "1": 352
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 250,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 37.10000000000025,
+    "mean_length": 319.0,
+    "std_reward": 23.528960878033065,
+    "std_length": 189.75668631170814,
+    "task_count": 1,
+    "macro_mean_reward": 37.10000000000025,
+    "macro_mean_length": 319.0,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_2500.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 283.2200000000154,
+      "mean_length": 2300.2,
+      "std_reward": 198.73168242634333,
+      "std_length": 1600.6886517995933,
+      "episode_rewards": [
+        8.399999999999986,
+        444.60000000002566,
+        444.60000000002566,
+        444.60000000002566,
+        73.89999999999999
+      ],
+      "episode_lengths": [
+        86,
+        3600,
+        3600,
+        3600,
+        615
+      ],
+      "decoded_action_hist": {
+        "0": 9213,
+        "1": 2288
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 2500,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 283.2200000000154,
+    "mean_length": 2300.2,
+    "std_reward": 198.73168242634333,
+    "std_length": 1600.6886517995933,
+    "task_count": 1,
+    "macro_mean_reward": 283.2200000000154,
+    "macro_mean_length": 2300.2,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_2750.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 112.99999999999913,
+      "mean_length": 930.4,
+      "std_reward": 113.37080752998062,
+      "std_length": 914.9803495157696,
+      "episode_rewards": [
+        8.399999999999986,
+        176.3999999999954,
+        73.89999999999999,
+        3.8999999999999986,
+        302.4000000000004
+      ],
+      "episode_lengths": [
+        86,
+        1442,
+        615,
+        50,
+        2459
+      ],
+      "decoded_action_hist": {
+        "0": 3696,
+        "1": 956
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 2750,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 112.99999999999913,
+    "mean_length": 930.4,
+    "std_reward": 113.37080752998062,
+    "std_length": 914.9803495157696,
+    "task_count": 1,
+    "macro_mean_reward": 112.99999999999913,
+    "macro_mean_length": 930.4,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_3000.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 303.72000000001447,
+      "mean_length": 2465.6,
+      "std_reward": 180.53576266215117,
+      "std_length": 1454.0181016754914,
+      "episode_rewards": [
+        8.399999999999986,
+        176.3999999999954,
+        444.60000000002566,
+        444.60000000002566,
+        444.60000000002566
+      ],
+      "episode_lengths": [
+        86,
+        1442,
+        3600,
+        3600,
+        3600
+      ],
+      "decoded_action_hist": {
+        "0": 9797,
+        "1": 2531
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 3000,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 303.72000000001447,
+    "mean_length": 2465.6,
+    "std_reward": 180.53576266215117,
+    "std_length": 1454.0181016754914,
+    "task_count": 1,
+    "macro_mean_reward": 303.72000000001447,
+    "macro_mean_length": 2465.6,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_500.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 73.41999999999845,
+      "mean_length": 612.0,
+      "std_reward": 90.13413116017405,
+      "std_length": 727.8139872247579,
+      "episode_rewards": [
+        247.19999999999223,
+        22.40000000000006,
+        18.800000000000022,
+        3.8999999999999986,
+        74.79999999999994
+      ],
+      "episode_lengths": [
+        2015,
+        199,
+        172,
+        50,
+        624
+      ],
+      "decoded_action_hist": {
+        "0": 2359,
+        "1": 701
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 500,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 73.41999999999845,
+    "mean_length": 612.0,
+    "std_reward": 90.13413116017405,
+    "std_length": 727.8139872247579,
+    "task_count": 1,
+    "macro_mean_reward": 73.41999999999845,
+    "macro_mean_length": 612.0,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/eval/mid_train/step_750.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 72.7599999999988,
+      "mean_length": 607.2,
+      "std_reward": 66.34210126307238,
+      "std_length": 535.8131763964003,
+      "episode_rewards": [
+        186.79999999999492,
+        102.79999999999869,
+        18.900000000000023,
+        3.8999999999999986,
+        51.40000000000038
+      ],
+      "episode_lengths": [
+        1528,
+        850,
+        173,
+        50,
+        435
+      ],
+      "decoded_action_hist": {
+        "0": 2406,
+        "1": 630
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 750,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 72.7599999999988,
+    "mean_length": 607.2,
+    "std_reward": 66.34210126307238,
+    "std_length": 535.8131763964003,
+    "task_count": 1,
+    "macro_mean_reward": 72.7599999999988,
+    "macro_mean_length": 607.2,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/hydra/.hydra/config.yaml ADDED Viewed

	@@ -0,0 +1,222 @@

+framework:
+  qwenvl:
+    base_vlm: /workspace/latency-sensitive-bench/starVLA/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    attn_implementation: flash_attention_2
+    enable_gradient_checkpointing: true
+  action_model:
+    state_dim: 7
+    loss_type: discrete_ce
+    action_horizon: 1
+    future_action_window_size: 0
+    past_action_window_size: 0
+    action_dim: 7
+    action_env_dim: 2
+  name: QwenOFT
+datasets:
+  vla_data:
+    dataset_py: lerobot_datasets
+    include_state: true
+    data_root_dir: /workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep
+    data_mix: flappy_train__bridge
+    eval_data_mix: flappy_train__bridge__val
+    custom_mixtures_path: null
+    action_type: discrete
+    sequential_step_sampling: false
+    eval_sequential_step_sampling: null
+    num_workers: 8
+    eval_num_workers: 8
+    prefetch_factor: 4
+    persistent_workers: true
+    pin_memory: true
+    shuffle: true
+    action_balance:
+      enabled: false
+      strategy: balanced_epoch
+      action_key: action_id
+      target_flap_fraction: 0.3
+      noop_id: 0
+      flap_id: 1
+    latency_curriculum:
+      enabled: false
+      strategy: exclusive
+      latencies: null
+      phase_steps: null
+    per_device_batch_size: 32
+    load_all_data_for_training: true
+    num_obs_frames: 1
+    image_mode: single
+    stitch_grid:
+    - 2
+    - 2
+    obs_image_size: null
+    video_backend: torchvision_av
+dataset:
+  source_hf: ''
+  config_name: null
+  source_subdir: null
+  converted_name: flappy_train
+  single_source_hf: ''
+  mixed_source_hf: ''
+  single_converted_name: flappy_train
+  mixed_converted_name: flappy_mixed_latency_train
+  single_latency_filter: null
+  mixed_latency_filter: null
+  force_download: false
+  setup_force: false
+  skip_verification: false
+  verify_rows: 200
+  max_episodes: null
+  episodes_per_latency: null
+  latency_filter: null
+  debug_subset:
+    enabled: false
+    max_episodes: 5
+    suffix: debug
+base_model:
+  repo_id: Qwen/Qwen3-VL-4B-Instruct
+initialization:
+  checkpoint_local_dir: playground/Pretrained_models/Qwen3VL-OFT-Bridge-RT-1
+  checkpoint_hf_repo_id: StarVLA/Qwen3VL-OFT-Bridge-RT-1
+  checkpoint_filename: checkpoints/steps_5000_pytorch_model.pt
+trainer:
+  max_train_steps: 3000
+  num_warmup_steps: 100
+  save_interval: 500
+  eval_interval: 250
+  eval_num_batches: 50
+  per_latency_eval_num_batches: null
+  eval_action_classification: true
+  eval_action_classification_interval: null
+  cc_f1_tolerance: 1
+  learning_rate:
+    base: 2.0e-05
+    qwen_vl_interface: 1.0e-05
+    action_model: 0.0001
+  lr_scheduler_type: cosine_with_min_lr
+  scheduler_specific_kwargs:
+    min_lr: 1.0e-06
+  freeze_modules: ''
+  freeze_vit: false
+  freeze_tied_embedding: false
+  freeze_llm_layers: []
+  loss_scale:
+    vla: 1.0
+    vlm: 0.1
+  max_grad_norm: 1.0
+  weight_decay: 0.0
+  logging_frequency: 1
+  profile_timing:
+    enabled: false
+    log_interval: 10
+  gradient_clipping: 1.0
+  gradient_accumulation_steps: 1
+  distributed_backend: none
+  is_resume: false
+  pretrained_checkpoint: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/checkpoints/_initialization/StarVLA_Qwen3VL-OFT-Bridge-RT-1/checkpoints/steps_5000_pytorch_model.pt
+  resume_step: 0
+  reload_modules: null
+  optimizer:
+    name: AdamW
+    betas:
+    - 0.9
+    - 0.95
+    eps: 1.0e-08
+    weight_decay: 1.0e-08
+    fused: true
+  save_format: pt
+workspace_dir: WORKSPACE_DIR
+run_root_dir: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints
+seed: 42
+wandb_entity: saberrr-zju
+wandb_project: starVLA_rl_games
+auth:
+  env_file: null
+  hf_token_env: HF_TOKEN
+  wandb_api_key_env: WANDB_API_KEY
+paths:
+  run_root_dir: results/Checkpoints
+  dataset_local_dir: data/flappy_fix_latency_2_200ep
+  dataset_cache_dir: null
+  base_model_dir: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+  accelerate_config: starVLA/config/deepseeds/deepspeed_zero2.yaml
+launch:
+  use_accelerate: true
+  gpus: null
+  num_processes: 1
+  dry_run: false
+conda:
+  enabled: true
+  env_name: null
+rl_games:
+  model_alias: openvla
+  env_eval:
+    image_size: 224
+    frameskip: 1
+    seed: 42
+    fixed_episode_seeds: true
+    latency_seed_stride: 0
+    task_seed_stride: 0
+    task_description: ''
+    enabled: true
+    distributed_mode: none
+    vectorized:
+      enabled: false
+      batch_size: 1
+    latency:
+      prompt_map_path: /workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep/flappy_train__bridge/latency_prompt_map.json
+      mode: single
+      values:
+      - 0
+    mid_train:
+      enabled: true
+      interval_steps: 250
+      latencies:
+      - 2
+      num_episodes: 5
+      max_steps_per_episode: 3600
+    post_train:
+      enabled: false
+      latencies:
+      - 0
+      - 1
+      - 2
+      - 3
+      - 4
+      num_episodes: 5
+      max_steps_per_episode: 3600
+  task: flappy
+  initialization_mode: bridge
+  action_carrier: bridge
+model: openvla
+env: flappy
+init: bridge
+bridge_base_model:
+  repo_id:
+    openvla: Qwen/Qwen3-VL-4B-Instruct
+    pi0: StarVLA/Qwen2.5-VL-3B-Instruct-Action
+    pi05: Qwen/Qwen3-VL-4B-Instruct
+    gr00t: Qwen/Qwen3-VL-4B-Instruct
+  local_dir:
+    openvla: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    pi0: playground/Pretrained_models/Qwen2.5-VL-3B-Instruct-Action
+    pi05: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    gr00t: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+mode: single
+checkpoint:
+  load: none
+  hf_repo_id: null
+  save_best_model: false
+  save_pt_file: false
+  local:
+    keep_last_n: 1
+  sync:
+    enabled: false
+    repo_id: null
+    keep_last_n: 0
+    sync_every_n_checkpoints: 1
+    resume_policy: local_latest
+run_id: flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps
+output_dir: null
+config_yaml: null
+is_debug: false
+version_id: 0.21

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/hydra/.hydra/hydra.yaml ADDED Viewed

	@@ -0,0 +1,341 @@

+hydra:
+  run:
+    dir: ${run_root_dir}/${run_id}/hydra
+  sweep:
+    dir: multirun/${now:%Y-%m-%d}/${now:%H-%M-%S}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+      Use --hydra-help to view Hydra specific help
+      '
+    template: '${hydra.help.header}
+      == Configuration groups ==
+      Compose your configuration from those groups (group=option)
+      $APP_CONFIG_GROUPS
+      == Config ==
+      Override anything in the config (foo.bar=value)
+      $CONFIG
+      ${hydra.help.footer}
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+      See https://hydra.cc for more info.
+      == Flags ==
+      $FLAGS_HELP
+      == Configuration groups ==
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+      $HYDRA_CONFIG_GROUPS
+      Use ''--cfg hydra'' to Show the Hydra config.
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - model=openvla
+    - env=flappy
+    - init=bridge
+    - mode=single
+    - ++framework.qwenvl.base_vlm=playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    - ++framework.qwenvl.attn_implementation=flash_attention_2
+    - ++framework.qwenvl.enable_gradient_checkpointing=true
+    - ++framework.action_model.state_dim=7
+    - ++framework.action_model.loss_type=discrete_ce
+    - ++framework.action_model.action_horizon=1
+    - ++framework.action_model.future_action_window_size=0
+    - ++framework.action_model.past_action_window_size=0
+    - ++framework.action_model.action_dim=7
+    - ++framework.action_model.action_env_dim=2
+    - ++framework.name=QwenOFT
+    - ++datasets.vla_data.dataset_py=lerobot_datasets
+    - ++datasets.vla_data.include_state=true
+    - ++datasets.vla_data.data_root_dir=playground/Datasets/rl_games
+    - ++datasets.vla_data.data_mix=flappy_train
+    - ++datasets.vla_data.eval_data_mix=null
+    - ++datasets.vla_data.custom_mixtures_path=null
+    - ++datasets.vla_data.action_type=discrete
+    - ++datasets.vla_data.sequential_step_sampling=false
+    - ++datasets.vla_data.eval_sequential_step_sampling=null
+    - ++datasets.vla_data.num_workers=8
+    - ++datasets.vla_data.eval_num_workers=8
+    - ++datasets.vla_data.prefetch_factor=4
+    - ++datasets.vla_data.persistent_workers=true
+    - ++datasets.vla_data.pin_memory=true
+    - ++datasets.vla_data.shuffle=true
+    - ++datasets.vla_data.action_balance.enabled=false
+    - ++datasets.vla_data.action_balance.strategy=balanced_epoch
+    - ++datasets.vla_data.action_balance.action_key=action_id
+    - ++datasets.vla_data.action_balance.target_flap_fraction=0.3
+    - ++datasets.vla_data.action_balance.noop_id=0
+    - ++datasets.vla_data.action_balance.flap_id=1
+    - ++datasets.vla_data.latency_curriculum.enabled=false
+    - ++datasets.vla_data.latency_curriculum.strategy=exclusive
+    - ++datasets.vla_data.latency_curriculum.latencies=null
+    - ++datasets.vla_data.latency_curriculum.phase_steps=null
+    - ++datasets.vla_data.per_device_batch_size=32
+    - ++datasets.vla_data.load_all_data_for_training=true
+    - ++datasets.vla_data.num_obs_frames=1
+    - ++datasets.vla_data.image_mode=single
+    - ++datasets.vla_data.stitch_grid=[2,2]
+    - ++datasets.vla_data.obs_image_size=null
+    - ++datasets.vla_data.video_backend=torchvision_av
+    - ++dataset.source_hf=
+    - ++dataset.config_name=null
+    - ++dataset.source_subdir=null
+    - ++dataset.converted_name=flappy_train
+    - ++dataset.single_source_hf=
+    - ++dataset.mixed_source_hf=
+    - ++dataset.single_converted_name=flappy_train
+    - ++dataset.mixed_converted_name=flappy_mixed_latency_train
+    - ++dataset.single_latency_filter=null
+    - ++dataset.mixed_latency_filter=null
+    - ++dataset.force_download=false
+    - ++dataset.setup_force=false
+    - ++dataset.skip_verification=false
+    - ++dataset.verify_rows=200
+    - ++dataset.max_episodes=null
+    - ++dataset.episodes_per_latency=null
+    - ++dataset.latency_filter=null
+    - ++dataset.debug_subset.enabled=false
+    - ++dataset.debug_subset.max_episodes=5
+    - ++dataset.debug_subset.suffix=debug
+    - ++base_model.repo_id=Qwen/Qwen3-VL-4B-Instruct
+    - ++initialization.checkpoint_local_dir=playground/Pretrained_models/Qwen3VL-OFT-Bridge-RT-1
+    - ++initialization.checkpoint_hf_repo_id=StarVLA/Qwen3VL-OFT-Bridge-RT-1
+    - ++initialization.checkpoint_filename=checkpoints/steps_5000_pytorch_model.pt
+    - ++trainer.max_train_steps=3000
+    - ++trainer.num_warmup_steps=100
+    - ++trainer.save_interval=500
+    - ++trainer.eval_interval=250
+    - ++trainer.eval_num_batches=50
+    - ++trainer.per_latency_eval_num_batches=null
+    - ++trainer.eval_action_classification=true
+    - ++trainer.eval_action_classification_interval=null
+    - ++trainer.cc_f1_tolerance=1
+    - ++trainer.learning_rate.base=2e-05
+    - ++trainer.learning_rate.qwen_vl_interface=1e-05
+    - ++trainer.learning_rate.action_model=0.0001
+    - ++trainer.lr_scheduler_type=cosine_with_min_lr
+    - ++trainer.scheduler_specific_kwargs.min_lr=1e-06
+    - ++trainer.freeze_modules=
+    - ++trainer.freeze_vit=false
+    - ++trainer.freeze_tied_embedding=false
+    - ++trainer.freeze_llm_layers=[]
+    - ++trainer.loss_scale.vla=1.0
+    - ++trainer.loss_scale.vlm=0.1
+    - ++trainer.max_grad_norm=1.0
+    - ++trainer.weight_decay=0.0
+    - ++trainer.logging_frequency=1
+    - ++trainer.profile_timing.enabled=false
+    - ++trainer.profile_timing.log_interval=10
+    - ++trainer.gradient_clipping=1.0
+    - ++trainer.gradient_accumulation_steps=1
+    - ++trainer.distributed_backend=none
+    - ++trainer.is_resume=false
+    - ++trainer.pretrained_checkpoint=null
+    - ++trainer.resume_step=0
+    - ++trainer.reload_modules=null
+    - ++trainer.optimizer.name=AdamW
+    - ++trainer.optimizer.betas=[0.9,0.95]
+    - ++trainer.optimizer.eps=1e-08
+    - ++trainer.optimizer.weight_decay=1e-08
+    - ++trainer.optimizer.fused=true
+    - ++trainer.save_format=pt
+    - ++workspace_dir=WORKSPACE_DIR
+    - ++run_root_dir=results/Checkpoints
+    - ++seed=42
+    - ++wandb_entity=saberrr-zju
+    - ++wandb_project=starVLA_rl_games
+    - ++auth.env_file=null
+    - ++auth.hf_token_env=HF_TOKEN
+    - ++auth.wandb_api_key_env=WANDB_API_KEY
+    - ++paths.run_root_dir=results/Checkpoints
+    - ++paths.dataset_local_dir=data/flappy_fix_latency_2_200ep
+    - ++paths.dataset_cache_dir=null
+    - ++paths.base_model_dir=playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    - ++paths.accelerate_config=starVLA/config/deepseeds/deepspeed_zero2.yaml
+    - ++rl_games.model_alias=openvla
+    - ++rl_games.env_eval.image_size=224
+    - ++rl_games.env_eval.frameskip=1
+    - ++rl_games.env_eval.seed=42
+    - ++rl_games.env_eval.fixed_episode_seeds=true
+    - ++rl_games.env_eval.latency_seed_stride=0
+    - ++rl_games.env_eval.task_seed_stride=0
+    - ++rl_games.env_eval.task_description=
+    - ++rl_games.env_eval.enabled=true
+    - ++rl_games.env_eval.distributed_mode=none
+    - ++rl_games.env_eval.vectorized.enabled=false
+    - ++rl_games.env_eval.vectorized.batch_size=1
+    - ++rl_games.env_eval.latency.prompt_map_path=null
+    - ++rl_games.env_eval.latency.mode=single
+    - ++rl_games.env_eval.latency.values=[0]
+    - ++rl_games.env_eval.mid_train.enabled=true
+    - ++rl_games.env_eval.mid_train.interval_steps=250
+    - ++rl_games.env_eval.mid_train.latencies=[2]
+    - ++rl_games.env_eval.mid_train.num_episodes=5
+    - ++rl_games.env_eval.mid_train.max_steps_per_episode=3600
+    - ++rl_games.env_eval.post_train.enabled=false
+    - ++rl_games.env_eval.post_train.latencies=[0,1,2,3,4]
+    - ++rl_games.env_eval.post_train.num_episodes=5
+    - ++rl_games.env_eval.post_train.max_steps_per_episode=3600
+    - ++rl_games.task=flappy
+    - ++rl_games.initialization_mode=bridge
+    - ++rl_games.action_carrier=bridge
+    - ++bridge_base_model.repo_id.openvla=Qwen/Qwen3-VL-4B-Instruct
+    - ++bridge_base_model.repo_id.pi0=StarVLA/Qwen2.5-VL-3B-Instruct-Action
+    - ++bridge_base_model.repo_id.pi05=Qwen/Qwen3-VL-4B-Instruct
+    - ++bridge_base_model.repo_id.gr00t=Qwen/Qwen3-VL-4B-Instruct
+    - ++bridge_base_model.local_dir.openvla=playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    - ++bridge_base_model.local_dir.pi0=playground/Pretrained_models/Qwen2.5-VL-3B-Instruct-Action
+    - ++bridge_base_model.local_dir.pi05=playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    - ++bridge_base_model.local_dir.gr00t=playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    - ++checkpoint.load=none
+    - ++checkpoint.hf_repo_id=null
+    - ++checkpoint.save_best_model=false
+    - ++checkpoint.save_pt_file=false
+    - ++checkpoint.local.keep_last_n=1
+    - ++checkpoint.sync.enabled=false
+    - ++checkpoint.sync.repo_id=null
+    - ++checkpoint.sync.keep_last_n=0
+    - ++checkpoint.sync.sync_every_n_checkpoints=1
+    - ++checkpoint.sync.resume_policy=local_latest
+    - ++run_id=flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps
+    - ++output_dir=null
+    - ++config_yaml=null
+    - ++is_debug=false
+    - ++version_id=0.21
+    - ++run_root_dir=/workspace/latency-sensitive-bench/starVLA/results/Checkpoints
+    - ++trainer.is_resume=false
+    - ++trainer.pretrained_checkpoint=/workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/checkpoints/_initialization/StarVLA_Qwen3VL-OFT-Bridge-RT-1/checkpoints/steps_5000_pytorch_model.pt
+    - ++trainer.resume_step=0
+    - ++datasets.vla_data.data_root_dir=/workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep
+    - ++datasets.vla_data.data_mix=flappy_train__bridge
+    - ++datasets.vla_data.eval_data_mix=flappy_train__bridge__val
+    - ++framework.qwenvl.base_vlm=/workspace/latency-sensitive-bench/starVLA/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    - ++rl_games.env_eval.latency.prompt_map_path=/workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep/flappy_train__bridge/latency_prompt_map.json
+  job:
+    name: train_starvla_hydra
+    chdir: false
+    override_dirname: ++auth.env_file=null,++auth.hf_token_env=HF_TOKEN,++auth.wandb_api_key_env=WANDB_API_KEY,++base_model.repo_id=Qwen/Qwen3-VL-4B-Instruct,++bridge_base_model.local_dir.gr00t=playground/Pretrained_models/Qwen3-VL-4B-Instruct,++bridge_base_model.local_dir.openvla=playground/Pretrained_models/Qwen3-VL-4B-Instruct,++bridge_base_model.local_dir.pi05=playground/Pretrained_models/Qwen3-VL-4B-Instruct,++bridge_base_model.local_dir.pi0=playground/Pretrained_models/Qwen2.5-VL-3B-Instruct-Action,++bridge_base_model.repo_id.gr00t=Qwen/Qwen3-VL-4B-Instruct,++bridge_base_model.repo_id.openvla=Qwen/Qwen3-VL-4B-Instruct,++bridge_base_model.repo_id.pi05=Qwen/Qwen3-VL-4B-Instruct,++bridge_base_model.repo_id.pi0=StarVLA/Qwen2.5-VL-3B-Instruct-Action,++checkpoint.hf_repo_id=null,++checkpoint.load=none,++checkpoint.local.keep_last_n=1,++checkpoint.save_best_model=false,++checkpoint.save_pt_file=false,++checkpoint.sync.enabled=false,++checkpoint.sync.keep_last_n=0,++checkpoint.sync.repo_id=null,++checkpoint.sync.resume_policy=local_latest,++checkpoint.sync.sync_every_n_checkpoints=1,++config_yaml=null,++dataset.config_name=null,++dataset.converted_name=flappy_train,++dataset.debug_subset.enabled=false,++dataset.debug_subset.max_episodes=5,++dataset.debug_subset.suffix=debug,++dataset.episodes_per_latency=null,++dataset.force_download=false,++dataset.latency_filter=null,++dataset.max_episodes=null,++dataset.mixed_converted_name=flappy_mixed_latency_train,++dataset.mixed_latency_filter=null,++dataset.mixed_source_hf=,++dataset.setup_force=false,++dataset.single_converted_name=flappy_train,++dataset.single_latency_filter=null,++dataset.single_source_hf=,++dataset.skip_verification=false,++dataset.source_hf=,++dataset.source_subdir=null,++dataset.verify_rows=200,++datasets.vla_data.action_balance.action_key=action_id,++datasets.vla_data.action_balance.enabled=false,++datasets.vla_data.action_balance.flap_id=1,++datasets.vla_data.action_balance.noop_id=0,++datasets.vla_data.action_balance.strategy=balanced_epoch,++datasets.vla_data.action_balance.target_flap_fraction=0.3,++datasets.vla_data.action_type=discrete,++datasets.vla_data.custom_mixtures_path=null,++datasets.vla_data.data_mix=flappy_train,++datasets.vla_data.data_mix=flappy_train__bridge,++datasets.vla_data.data_root_dir=/workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep,++datasets.vla_data.data_root_dir=playground/Datasets/rl_games,++datasets.vla_data.dataset_py=lerobot_datasets,++datasets.vla_data.eval_data_mix=flappy_train__bridge__val,++datasets.vla_data.eval_data_mix=null,++datasets.vla_data.eval_num_workers=8,++datasets.vla_data.eval_sequential_step_sampling=null,++datasets.vla_data.image_mode=single,++datasets.vla_data.include_state=true,++datasets.vla_data.latency_curriculum.enabled=false,++datasets.vla_data.latency_curriculum.latencies=null,++datasets.vla_data.latency_curriculum.phase_steps=null,++datasets.vla_data.latency_curriculum.strategy=exclusive,++datasets.vla_data.load_all_data_for_training=true,++datasets.vla_data.num_obs_frames=1,++datasets.vla_data.num_workers=8,++datasets.vla_data.obs_image_size=null,++datasets.vla_data.per_device_batch_size=32,++datasets.vla_data.persistent_workers=true,++datasets.vla_data.pin_memory=true,++datasets.vla_data.prefetch_factor=4,++datasets.vla_data.sequential_step_sampling=false,++datasets.vla_data.shuffle=true,++datasets.vla_data.stitch_grid=[2,2],++datasets.vla_data.video_backend=torchvision_av,++framework.action_model.action_dim=7,++framework.action_model.action_env_dim=2,++framework.action_model.action_horizon=1,++framework.action_model.future_action_window_size=0,++framework.action_model.loss_type=discrete_ce,++framework.action_model.past_action_window_size=0,++framework.action_model.state_dim=7,++framework.name=QwenOFT,++framework.qwenvl.attn_implementation=flash_attention_2,++framework.qwenvl.base_vlm=/workspace/latency-sensitive-bench/starVLA/playground/Pretrained_models/Qwen3-VL-4B-Instruct,++framework.qwenvl.base_vlm=playground/Pretrained_models/Qwen3-VL-4B-Instruct,++framework.qwenvl.enable_gradient_checkpointing=true,++initialization.checkpoint_filename=checkpoints/steps_5000_pytorch_model.pt,++initialization.checkpoint_hf_repo_id=StarVLA/Qwen3VL-OFT-Bridge-RT-1,++initialization.checkpoint_local_dir=playground/Pretrained_models/Qwen3VL-OFT-Bridge-RT-1,++is_debug=false,++output_dir=null,++paths.accelerate_config=starVLA/config/deepseeds/deepspeed_zero2.yaml,++paths.base_model_dir=playground/Pretrained_models/Qwen3-VL-4B-Instruct,++paths.dataset_cache_dir=null,++paths.dataset_local_dir=data/flappy_fix_latency_2_200ep,++paths.run_root_dir=results/Checkpoints,++rl_games.action_carrier=bridge,++rl_games.env_eval.distributed_mode=none,++rl_games.env_eval.enabled=true,++rl_games.env_eval.fixed_episode_seeds=true,++rl_games.env_eval.frameskip=1,++rl_games.env_eval.image_size=224,++rl_games.env_eval.latency.mode=single,++rl_games.env_eval.latency.prompt_map_path=/workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep/flappy_train__bridge/latency_prompt_map.json,++rl_games.env_eval.latency.prompt_map_path=null,++rl_games.env_eval.latency.values=[0],++rl_games.env_eval.latency_seed_stride=0,++rl_games.env_eval.mid_train.enabled=true,++rl_games.env_eval.mid_train.interval_steps=250,++rl_games.env_eval.mid_train.latencies=[2],++rl_games.env_eval.mid_train.max_steps_per_episode=3600,++rl_games.env_eval.mid_train.num_episodes=5,++rl_games.env_eval.post_train.enabled=false,++rl_games.env_eval.post_train.latencies=[0,1,2,3,4],++rl_games.env_eval.post_train.max_steps_per_episode=3600,++rl_games.env_eval.post_train.num_episodes=5,++rl_games.env_eval.seed=42,++rl_games.env_eval.task_description=,++rl_games.env_eval.task_seed_stride=0,++rl_games.env_eval.vectorized.batch_size=1,++rl_games.env_eval.vectorized.enabled=false,++rl_games.initialization_mode=bridge,++rl_games.model_alias=openvla,++rl_games.task=flappy,++run_id=flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps,++run_root_dir=/workspace/latency-sensitive-bench/starVLA/results/Checkpoints,++run_root_dir=results/Checkpoints,++seed=42,++trainer.cc_f1_tolerance=1,++trainer.distributed_backend=none,++trainer.eval_action_classification=true,++trainer.eval_action_classification_interval=null,++trainer.eval_interval=250,++trainer.eval_num_batches=50,++trainer.freeze_llm_layers=[],++trainer.freeze_modules=,++trainer.freeze_tied_embedding=false,++trainer.freeze_vit=false,++trainer.gradient_accumulation_steps=1,++trainer.gradient_clipping=1.0,++trainer.is_resume=false,++trainer.is_resume=false,++trainer.learning_rate.action_model=0.0001,++trainer.learning_rate.base=2e-05,++trainer.learning_rate.qwen_vl_interface=1e-05,++trainer.logging_frequency=1,++trainer.loss_scale.vla=1.0,++trainer.loss_scale.vlm=0.1,++trainer.lr_scheduler_type=cosine_with_min_lr,++trainer.max_grad_norm=1.0,++trainer.max_train_steps=3000,++trainer.num_warmup_steps=100,++trainer.optimizer.betas=[0.9,0.95],++trainer.optimizer.eps=1e-08,++trainer.optimizer.fused=true,++trainer.optimizer.name=AdamW,++trainer.optimizer.weight_decay=1e-08,++trainer.per_latency_eval_num_batches=null,++trainer.pretrained_checkpoint=/workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/checkpoints/_initialization/StarVLA_Qwen3VL-OFT-Bridge-RT-1/checkpoints/steps_5000_pytorch_model.pt,++trainer.pretrained_checkpoint=null,++trainer.profile_timing.enabled=false,++trainer.profile_timing.log_interval=10,++trainer.reload_modules=null,++trainer.resume_step=0,++trainer.resume_step=0,++trainer.save_format=pt,++trainer.save_interval=500,++trainer.scheduler_specific_kwargs.min_lr=1e-06,++trainer.weight_decay=0.0,++version_id=0.21,++wandb_entity=saberrr-zju,++wandb_project=starVLA_rl_games,++workspace_dir=WORKSPACE_DIR,env=flappy,init=bridge,mode=single,model=openvla
+    id: ???
+    num: ???
+    config_name: train
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.3.3
+    version_base: '1.1'
+    cwd: /workspace/latency-sensitive-bench/starVLA
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /workspace/latency-sensitive-bench/starVLA/examples/rl_games/config
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/hydra
+    choices:
+      cross_task_setup: null
+      checkpoint: default
+      mode: single
+      init: bridge
+      env: flappy
+      model: openvla
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/hydra/.hydra/overrides.yaml ADDED Viewed

	@@ -0,0 +1,181 @@

+- model=openvla
+- env=flappy
+- init=bridge
+- mode=single
+- ++framework.qwenvl.base_vlm=playground/Pretrained_models/Qwen3-VL-4B-Instruct
+- ++framework.qwenvl.attn_implementation=flash_attention_2
+- ++framework.qwenvl.enable_gradient_checkpointing=true
+- ++framework.action_model.state_dim=7
+- ++framework.action_model.loss_type=discrete_ce
+- ++framework.action_model.action_horizon=1
+- ++framework.action_model.future_action_window_size=0
+- ++framework.action_model.past_action_window_size=0
+- ++framework.action_model.action_dim=7
+- ++framework.action_model.action_env_dim=2
+- ++framework.name=QwenOFT
+- ++datasets.vla_data.dataset_py=lerobot_datasets
+- ++datasets.vla_data.include_state=true
+- ++datasets.vla_data.data_root_dir=playground/Datasets/rl_games
+- ++datasets.vla_data.data_mix=flappy_train
+- ++datasets.vla_data.eval_data_mix=null
+- ++datasets.vla_data.custom_mixtures_path=null
+- ++datasets.vla_data.action_type=discrete
+- ++datasets.vla_data.sequential_step_sampling=false
+- ++datasets.vla_data.eval_sequential_step_sampling=null
+- ++datasets.vla_data.num_workers=8
+- ++datasets.vla_data.eval_num_workers=8
+- ++datasets.vla_data.prefetch_factor=4
+- ++datasets.vla_data.persistent_workers=true
+- ++datasets.vla_data.pin_memory=true
+- ++datasets.vla_data.shuffle=true
+- ++datasets.vla_data.action_balance.enabled=false
+- ++datasets.vla_data.action_balance.strategy=balanced_epoch
+- ++datasets.vla_data.action_balance.action_key=action_id
+- ++datasets.vla_data.action_balance.target_flap_fraction=0.3
+- ++datasets.vla_data.action_balance.noop_id=0
+- ++datasets.vla_data.action_balance.flap_id=1
+- ++datasets.vla_data.latency_curriculum.enabled=false
+- ++datasets.vla_data.latency_curriculum.strategy=exclusive
+- ++datasets.vla_data.latency_curriculum.latencies=null
+- ++datasets.vla_data.latency_curriculum.phase_steps=null
+- ++datasets.vla_data.per_device_batch_size=32
+- ++datasets.vla_data.load_all_data_for_training=true
+- ++datasets.vla_data.num_obs_frames=1
+- ++datasets.vla_data.image_mode=single
+- ++datasets.vla_data.stitch_grid=[2,2]
+- ++datasets.vla_data.obs_image_size=null
+- ++datasets.vla_data.video_backend=torchvision_av
+- ++dataset.source_hf=
+- ++dataset.config_name=null
+- ++dataset.source_subdir=null
+- ++dataset.converted_name=flappy_train
+- ++dataset.single_source_hf=
+- ++dataset.mixed_source_hf=
+- ++dataset.single_converted_name=flappy_train
+- ++dataset.mixed_converted_name=flappy_mixed_latency_train
+- ++dataset.single_latency_filter=null
+- ++dataset.mixed_latency_filter=null
+- ++dataset.force_download=false
+- ++dataset.setup_force=false
+- ++dataset.skip_verification=false
+- ++dataset.verify_rows=200
+- ++dataset.max_episodes=null
+- ++dataset.episodes_per_latency=null
+- ++dataset.latency_filter=null
+- ++dataset.debug_subset.enabled=false
+- ++dataset.debug_subset.max_episodes=5
+- ++dataset.debug_subset.suffix=debug
+- ++base_model.repo_id=Qwen/Qwen3-VL-4B-Instruct
+- ++initialization.checkpoint_local_dir=playground/Pretrained_models/Qwen3VL-OFT-Bridge-RT-1
+- ++initialization.checkpoint_hf_repo_id=StarVLA/Qwen3VL-OFT-Bridge-RT-1
+- ++initialization.checkpoint_filename=checkpoints/steps_5000_pytorch_model.pt
+- ++trainer.max_train_steps=3000
+- ++trainer.num_warmup_steps=100
+- ++trainer.save_interval=500
+- ++trainer.eval_interval=250
+- ++trainer.eval_num_batches=50
+- ++trainer.per_latency_eval_num_batches=null
+- ++trainer.eval_action_classification=true
+- ++trainer.eval_action_classification_interval=null
+- ++trainer.cc_f1_tolerance=1
+- ++trainer.learning_rate.base=2e-05
+- ++trainer.learning_rate.qwen_vl_interface=1e-05
+- ++trainer.learning_rate.action_model=0.0001
+- ++trainer.lr_scheduler_type=cosine_with_min_lr
+- ++trainer.scheduler_specific_kwargs.min_lr=1e-06
+- ++trainer.freeze_modules=
+- ++trainer.freeze_vit=false
+- ++trainer.freeze_tied_embedding=false
+- ++trainer.freeze_llm_layers=[]
+- ++trainer.loss_scale.vla=1.0
+- ++trainer.loss_scale.vlm=0.1
+- ++trainer.max_grad_norm=1.0
+- ++trainer.weight_decay=0.0
+- ++trainer.logging_frequency=1
+- ++trainer.profile_timing.enabled=false
+- ++trainer.profile_timing.log_interval=10
+- ++trainer.gradient_clipping=1.0
+- ++trainer.gradient_accumulation_steps=1
+- ++trainer.distributed_backend=none
+- ++trainer.is_resume=false
+- ++trainer.pretrained_checkpoint=null
+- ++trainer.resume_step=0
+- ++trainer.reload_modules=null
+- ++trainer.optimizer.name=AdamW
+- ++trainer.optimizer.betas=[0.9,0.95]
+- ++trainer.optimizer.eps=1e-08
+- ++trainer.optimizer.weight_decay=1e-08
+- ++trainer.optimizer.fused=true
+- ++trainer.save_format=pt
+- ++workspace_dir=WORKSPACE_DIR
+- ++run_root_dir=results/Checkpoints
+- ++seed=42
+- ++wandb_entity=saberrr-zju
+- ++wandb_project=starVLA_rl_games
+- ++auth.env_file=null
+- ++auth.hf_token_env=HF_TOKEN
+- ++auth.wandb_api_key_env=WANDB_API_KEY
+- ++paths.run_root_dir=results/Checkpoints
+- ++paths.dataset_local_dir=data/flappy_fix_latency_2_200ep
+- ++paths.dataset_cache_dir=null
+- ++paths.base_model_dir=playground/Pretrained_models/Qwen3-VL-4B-Instruct
+- ++paths.accelerate_config=starVLA/config/deepseeds/deepspeed_zero2.yaml
+- ++rl_games.model_alias=openvla
+- ++rl_games.env_eval.image_size=224
+- ++rl_games.env_eval.frameskip=1
+- ++rl_games.env_eval.seed=42
+- ++rl_games.env_eval.fixed_episode_seeds=true
+- ++rl_games.env_eval.latency_seed_stride=0
+- ++rl_games.env_eval.task_seed_stride=0
+- ++rl_games.env_eval.task_description=
+- ++rl_games.env_eval.enabled=true
+- ++rl_games.env_eval.distributed_mode=none
+- ++rl_games.env_eval.vectorized.enabled=false
+- ++rl_games.env_eval.vectorized.batch_size=1
+- ++rl_games.env_eval.latency.prompt_map_path=null
+- ++rl_games.env_eval.latency.mode=single
+- ++rl_games.env_eval.latency.values=[0]
+- ++rl_games.env_eval.mid_train.enabled=true
+- ++rl_games.env_eval.mid_train.interval_steps=250
+- ++rl_games.env_eval.mid_train.latencies=[2]
+- ++rl_games.env_eval.mid_train.num_episodes=5
+- ++rl_games.env_eval.mid_train.max_steps_per_episode=3600
+- ++rl_games.env_eval.post_train.enabled=false
+- ++rl_games.env_eval.post_train.latencies=[0,1,2,3,4]
+- ++rl_games.env_eval.post_train.num_episodes=5
+- ++rl_games.env_eval.post_train.max_steps_per_episode=3600
+- ++rl_games.task=flappy
+- ++rl_games.initialization_mode=bridge
+- ++rl_games.action_carrier=bridge
+- ++bridge_base_model.repo_id.openvla=Qwen/Qwen3-VL-4B-Instruct
+- ++bridge_base_model.repo_id.pi0=StarVLA/Qwen2.5-VL-3B-Instruct-Action
+- ++bridge_base_model.repo_id.pi05=Qwen/Qwen3-VL-4B-Instruct
+- ++bridge_base_model.repo_id.gr00t=Qwen/Qwen3-VL-4B-Instruct
+- ++bridge_base_model.local_dir.openvla=playground/Pretrained_models/Qwen3-VL-4B-Instruct
+- ++bridge_base_model.local_dir.pi0=playground/Pretrained_models/Qwen2.5-VL-3B-Instruct-Action
+- ++bridge_base_model.local_dir.pi05=playground/Pretrained_models/Qwen3-VL-4B-Instruct
+- ++bridge_base_model.local_dir.gr00t=playground/Pretrained_models/Qwen3-VL-4B-Instruct
+- ++checkpoint.load=none
+- ++checkpoint.hf_repo_id=null
+- ++checkpoint.save_best_model=false
+- ++checkpoint.save_pt_file=false
+- ++checkpoint.local.keep_last_n=1
+- ++checkpoint.sync.enabled=false
+- ++checkpoint.sync.repo_id=null
+- ++checkpoint.sync.keep_last_n=0
+- ++checkpoint.sync.sync_every_n_checkpoints=1
+- ++checkpoint.sync.resume_policy=local_latest
+- ++run_id=flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps
+- ++output_dir=null
+- ++config_yaml=null
+- ++is_debug=false
+- ++version_id=0.21
+- ++run_root_dir=/workspace/latency-sensitive-bench/starVLA/results/Checkpoints
+- ++trainer.is_resume=false
+- ++trainer.pretrained_checkpoint=/workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/checkpoints/_initialization/StarVLA_Qwen3VL-OFT-Bridge-RT-1/checkpoints/steps_5000_pytorch_model.pt
+- ++trainer.resume_step=0
+- ++datasets.vla_data.data_root_dir=/workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep
+- ++datasets.vla_data.data_mix=flappy_train__bridge
+- ++datasets.vla_data.eval_data_mix=flappy_train__bridge__val
+- ++framework.qwenvl.base_vlm=/workspace/latency-sensitive-bench/starVLA/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+- ++rl_games.env_eval.latency.prompt_map_path=/workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep/flappy_train__bridge/latency_prompt_map.json

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/hydra/train_starvla_hydra.log ADDED Viewed

The diff for this file is too large to render. See raw diff

flappy_fix_latency_2_200ep_full_tuning_corrected_bs32_3k_steps/summary.jsonl ADDED Viewed

	@@ -0,0 +1,6 @@

+{"steps": 500}
+{"steps": 1000}
+{"steps": 1500}
+{"steps": 2000}
+{"steps": 2500}
+{"steps": 3000}