Caesarrr commited on 10 days ago

Commit

e5ac608

verified ·

1 Parent(s): 75d9c38

Upload folder using huggingface_hub

Browse files

Files changed (33) hide show

flappy_fix_latency_2_200ep_last_8_layers/checkpoints/_initialization/StarVLA_Qwen3VL-OFT-Bridge-RT-1/checkpoints/steps_5000_pytorch_model.pt +3 -0
flappy_fix_latency_2_200ep_last_8_layers/checkpoints/steps_5000_state/model.safetensors +3 -0
flappy_fix_latency_2_200ep_last_8_layers/checkpoints/steps_5000_state/optimizer.bin +3 -0
flappy_fix_latency_2_200ep_last_8_layers/checkpoints/steps_5000_state/random_states_0.pkl +3 -0
flappy_fix_latency_2_200ep_last_8_layers/config.full.yaml +217 -0
flappy_fix_latency_2_200ep_last_8_layers/config.yaml +97 -0
flappy_fix_latency_2_200ep_last_8_layers/dataset_statistics.json +127 -0
flappy_fix_latency_2_200ep_last_8_layers/dataset_statistics_eval.json +127 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_1000.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_1250.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_1500.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_1750.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_2000.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_2250.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_250.json +62 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_2500.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_2750.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_3000.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_3250.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_3500.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_3750.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_4000.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_4250.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_4500.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_4750.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_500.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_5000.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_750.json +63 -0
flappy_fix_latency_2_200ep_last_8_layers/hydra/.hydra/config.yaml +215 -0
flappy_fix_latency_2_200ep_last_8_layers/hydra/.hydra/hydra.yaml +259 -0
flappy_fix_latency_2_200ep_last_8_layers/hydra/.hydra/overrides.yaml +99 -0
flappy_fix_latency_2_200ep_last_8_layers/hydra/train_starvla_hydra.log +0 -0
flappy_fix_latency_2_200ep_last_8_layers/summary.jsonl +10 -0

flappy_fix_latency_2_200ep_last_8_layers/checkpoints/_initialization/StarVLA_Qwen3VL-OFT-Bridge-RT-1/checkpoints/steps_5000_pytorch_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:371cb744227687bb99bcad7f9ff2250cf06da75631359ad3eba4c6bc52570607
+size 9785060316

flappy_fix_latency_2_200ep_last_8_layers/checkpoints/steps_5000_state/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8afaa32fca8bd02a62fd251a0457e809370c64803c90166b0962241a2089519a
+size 9138230516

flappy_fix_latency_2_200ep_last_8_layers/checkpoints/steps_5000_state/optimizer.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c23c8ef7c487ca6e150753812b9d04e3c1d9479b1783685e53e4759b07f7c23
+size 6972351998

flappy_fix_latency_2_200ep_last_8_layers/checkpoints/steps_5000_state/random_states_0.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3592d761ed9b400857ff294022f104313045e8a105e4209ffd44560bd94a7d7f
+size 14821

flappy_fix_latency_2_200ep_last_8_layers/config.full.yaml ADDED Viewed

	@@ -0,0 +1,217 @@

+framework:
+  name: QwenOFT
+  qwenvl:
+    base_vlm: /workspace/latency-sensitive-bench/starVLA/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    attn_implementation: flash_attention_2
+    enable_gradient_checkpointing: true
+  action_model:
+    action_model_type: MLP
+    action_dim: 7
+    action_hidden_dim: 2560
+    future_action_window_size: 0
+    past_action_window_size: 0
+    loss_type: discrete_ce
+    state_dim: 7
+    action_horizon: 1
+    action_env_dim: 2
+datasets:
+  vla_data:
+    dataset_py: lerobot_datasets
+    include_state: true
+    data_root_dir: /workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep
+    data_mix: flappy_train__bridge
+    eval_data_mix: flappy_train__bridge__val
+    custom_mixtures_path: null
+    action_type: discrete
+    sequential_step_sampling: false
+    eval_sequential_step_sampling: null
+    num_workers: 8
+    eval_num_workers: 8
+    prefetch_factor: 4
+    shuffle: true
+    action_balance:
+      enabled: false
+      strategy: balanced_epoch
+      action_key: action_id
+      target_flap_fraction: 0.3
+      noop_id: 0
+      flap_id: 1
+    latency_curriculum:
+      enabled: false
+      strategy: exclusive
+      latencies: null
+      phase_steps: null
+    per_device_batch_size: 64
+    load_all_data_for_training: true
+    num_obs_frames: 1
+    image_mode: single
+    stitch_grid:
+    - 2
+    - 2
+    obs_image_size: null
+    video_backend: torchvision_av
+dataset:
+  source_hf: ''
+  config_name: null
+  source_subdir: null
+  converted_name: flappy_train
+  single_source_hf: ''
+  mixed_source_hf: ''
+  single_converted_name: flappy_train
+  mixed_converted_name: flappy_mixed_latency_train
+  single_latency_filter: null
+  mixed_latency_filter: null
+  force_download: false
+  setup_force: false
+  skip_verification: false
+  verify_rows: 200
+  max_episodes: null
+  episodes_per_latency: null
+  latency_filter: null
+  debug_subset:
+    enabled: false
+    max_episodes: 5
+    suffix: debug
+base_model:
+  repo_id: Qwen/Qwen3-VL-4B-Instruct
+initialization:
+  checkpoint_local_dir: playground/Pretrained_models/Qwen3VL-OFT-Bridge-RT-1
+  checkpoint_hf_repo_id: StarVLA/Qwen3VL-OFT-Bridge-RT-1
+  checkpoint_filename: checkpoints/steps_5000_pytorch_model.pt
+trainer:
+  max_train_steps: 5000
+  num_warmup_steps: 100
+  save_interval: 500
+  eval_interval: 100
+  eval_num_batches: 100
+  per_latency_eval_num_batches: null
+  eval_action_classification: true
+  eval_action_classification_interval: null
+  cc_f1_tolerance: 1
+  learning_rate:
+    base: 2.0e-05
+    qwen_vl_interface: 1.0e-05
+    action_model: 0.0001
+  lr_scheduler_type: cosine_with_min_lr
+  scheduler_specific_kwargs:
+    min_lr: 1.0e-06
+  freeze_modules: ''
+  freeze_llm_bottom_ratio: 0.7778
+  loss_scale:
+    vla: 1.0
+    vlm: 0.1
+  max_grad_norm: 1.0
+  weight_decay: 0.0
+  logging_frequency: 1
+  gradient_clipping: 1.0
+  gradient_accumulation_steps: 2
+  distributed_backend: none
+  is_resume: false
+  pretrained_checkpoint: null
+  resume_step: 0
+  reload_modules: null
+  optimizer:
+    name: AdamW
+    betas:
+    - 0.9
+    - 0.95
+    eps: 1.0e-08
+    weight_decay: 1.0e-08
+    fused: false
+  save_format: pt
+workspace_dir: WORKSPACE_DIR
+run_root_dir: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints
+seed: 42
+wandb_entity: saberrr-zju
+wandb_project: starVLA_rl_games
+auth:
+  env_file: null
+  hf_token_env: HF_TOKEN
+  wandb_api_key_env: WANDB_API_KEY
+paths:
+  run_root_dir: results/Checkpoints
+  dataset_local_dir: playground/Datasets/rl_games
+  dataset_cache_dir: null
+  base_model_dir: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+  accelerate_config: starVLA/config/deepseeds/deepspeed_zero2.yaml
+launch:
+  use_accelerate: true
+  gpus: null
+  num_processes: 1
+  dry_run: false
+conda:
+  enabled: true
+  env_name: null
+rl_games:
+  model_alias: openvla
+  env_eval:
+    image_size: 224
+    frameskip: 1
+    seed: 42
+    fixed_episode_seeds: true
+    latency_seed_stride: 0
+    task_seed_stride: 0
+    task_description: ''
+    enabled: true
+    distributed_mode: none
+    vectorized:
+      enabled: false
+      batch_size: 1
+    latency:
+      prompt_map_path: /workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep/flappy_train__bridge/latency_prompt_map.json
+      mode: single
+      values:
+      - 0
+    mid_train:
+      enabled: true
+      interval_steps: 250
+      latencies:
+      - 2
+      num_episodes: 5
+      max_steps_per_episode: 3600
+    post_train:
+      enabled: false
+      latencies:
+      - 0
+      - 1
+      - 2
+      - 3
+      - 4
+      num_episodes: 5
+      max_steps_per_episode: 3600
+  task: flappy
+  initialization_mode: bridge
+  action_carrier: bridge
+model: openvla
+env: flappy
+init: bridge
+bridge_base_model:
+  repo_id:
+    openvla: Qwen/Qwen3-VL-4B-Instruct
+    pi0: StarVLA/Qwen2.5-VL-3B-Instruct-Action
+    pi05: Qwen/Qwen3-VL-4B-Instruct
+    gr00t: Qwen/Qwen3-VL-4B-Instruct
+  local_dir:
+    openvla: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    pi0: playground/Pretrained_models/Qwen2.5-VL-3B-Instruct-Action
+    pi05: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    gr00t: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+mode: single
+checkpoint:
+  load: auto
+  hf_repo_id: null
+  save_best_model: false
+  save_pt_file: false
+  local:
+    keep_last_n: 1
+  sync:
+    enabled: false
+    repo_id: null
+    keep_last_n: 0
+    sync_every_n_checkpoints: 1
+    resume_policy: local_latest
+run_id: flappy_fix_latency_2_200ep_last_8_layers
+output_dir: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_last_8_layers
+config_yaml: null
+is_debug: false
+version_id: '0.21'

flappy_fix_latency_2_200ep_last_8_layers/config.yaml ADDED Viewed

	@@ -0,0 +1,97 @@

+checkpoint:
+  local:
+    keep_last_n: 1
+  save_best_model: false
+  save_pt_file: false
+  sync:
+    enabled: false
+    keep_last_n: 0
+    repo_id: null
+datasets:
+  vla_data:
+    data_mix: flappy_train__bridge
+    dataset_py: lerobot_datasets
+    eval_data_mix: flappy_train__bridge__val
+    eval_num_workers: 8
+    include_state: true
+    latency_curriculum:
+      enabled: false
+    obs_image_size: null
+    per_device_batch_size: 64
+    prefetch_factor: 4
+framework:
+  action_model:
+    action_dim: 7
+    action_env_dim: 2
+    action_hidden_dim: 2560
+    action_horizon: 1
+    action_model_type: MLP
+    loss_type: discrete_ce
+    state_dim: 7
+  name: QwenOFT
+  qwenvl:
+    attn_implementation: flash_attention_2
+    base_vlm: /workspace/latency-sensitive-bench/starVLA/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    enable_gradient_checkpointing: true
+output_dir: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_last_8_layers
+rl_games:
+  env_eval:
+    distributed_mode: none
+    enabled: true
+    fixed_episode_seeds: true
+    frameskip: 1
+    image_size: 224
+    latency:
+      prompt_map_path: /workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep/flappy_train__bridge/latency_prompt_map.json
+    latency_seed_stride: 0
+    mid_train:
+      enabled: true
+      interval_steps: 250
+      latencies:
+      - 2
+      max_steps_per_episode: 3600
+      num_episodes: 5
+    seed: 42
+    task_description: ''
+    task_seed_stride: 0
+    vectorized:
+      enabled: false
+  model_alias: openvla
+  task: flappy
+run_id: flappy_fix_latency_2_200ep_last_8_layers
+run_root_dir: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints
+seed: 42
+trainer:
+  distributed_backend: none
+  eval_action_classification: true
+  eval_action_classification_interval: null
+  eval_interval: 100
+  eval_num_batches: 100
+  freeze_llm_bottom_ratio: 0.7778
+  freeze_modules: ''
+  gradient_accumulation_steps: 2
+  gradient_clipping: 1.0
+  is_resume: false
+  learning_rate:
+    action_model: 0.0001
+    base: 2.0e-05
+    qwen_vl_interface: 1.0e-05
+  logging_frequency: 1
+  lr_scheduler_type: cosine_with_min_lr
+  max_train_steps: 5000
+  num_warmup_steps: 100
+  optimizer:
+    betas:
+    - 0.9
+    - 0.95
+    eps: 1.0e-08
+    fused: false
+    weight_decay: 1.0e-08
+  per_latency_eval_num_batches: null
+  pretrained_checkpoint: null
+  reload_modules: null
+  save_interval: 500
+  scheduler_specific_kwargs:
+    min_lr: 1.0e-06
+wandb_entity: saberrr-zju
+wandb_project: starVLA_rl_games

flappy_fix_latency_2_200ep_last_8_layers/dataset_statistics.json ADDED Viewed

	@@ -0,0 +1,127 @@

+{
+  "new_embodiment": {
+    "action": {
+      "mean": [
+        0.6028500199317932,
+        0.3971499800682068,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "std": [
+        0.4890792667865753,
+        0.4890792667865753,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "max": [
+        1.0,
+        1.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "min": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q01": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q99": [
+        1.0,
+        1.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "mask": [
+        true,
+        true,
+        true,
+        true,
+        true,
+        true,
+        true
+      ]
+    },
+    "state": {
+      "mean": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "std": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "max": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "min": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q01": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q99": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ]
+    },
+    "num_transitions": 330734,
+    "num_trajectories": 180
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/dataset_statistics_eval.json ADDED Viewed

	@@ -0,0 +1,127 @@

+{
+  "new_embodiment": {
+    "action": {
+      "mean": [
+        0.7959861159324646,
+        0.2040138840675354,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "std": [
+        0.4030573070049286,
+        0.4030573070049286,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "max": [
+        1.0,
+        1.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "min": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q01": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q99": [
+        1.0,
+        1.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "mask": [
+        true,
+        true,
+        true,
+        true,
+        true,
+        true,
+        true
+      ]
+    },
+    "state": {
+      "mean": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "std": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "max": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "min": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q01": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q99": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ]
+    },
+    "num_transitions": 72000,
+    "num_trajectories": 20
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_1000.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 153.99999999999991,
+      "mean_length": 1261.2,
+      "std_reward": 120.2648743399357,
+      "std_length": 970.7072473202206,
+      "episode_rewards": [
+        143.89999999999685,
+        213.89999999999372,
+        12.899999999999974,
+        348.9000000000087,
+        50.40000000000037
+      ],
+      "episode_lengths": [
+        1180,
+        1745,
+        122,
+        2834,
+        425
+      ],
+      "decoded_action_hist": {
+        "0": 5055,
+        "1": 1251
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 1000,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 153.99999999999991,
+    "mean_length": 1261.2,
+    "std_reward": 120.2648743399357,
+    "std_length": 970.7072473202206,
+    "task_count": 1,
+    "macro_mean_reward": 153.99999999999991,
+    "macro_mean_length": 1261.2,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_1250.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 255.94000000000815,
+      "mean_length": 2080.0,
+      "std_reward": 168.94732433514338,
+      "std_length": 1361.7158293858524,
+      "episode_rewards": [
+        6.799999999999992,
+        166.89999999999583,
+        216.79999999999362,
+        444.60000000002566,
+        444.60000000002566
+      ],
+      "episode_lengths": [
+        70,
+        1365,
+        1765,
+        3600,
+        3600
+      ],
+      "decoded_action_hist": {
+        "0": 8188,
+        "1": 2212
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 1250,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 255.94000000000815,
+    "mean_length": 2080.0,
+    "std_reward": 168.94732433514338,
+    "std_length": 1361.7158293858524,
+    "task_count": 1,
+    "macro_mean_reward": 255.94000000000815,
+    "macro_mean_length": 2080.0,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_1500.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 156.02000000000382,
+      "mean_length": 1275.6,
+      "std_reward": 164.3303063953899,
+      "std_length": 1324.9588069068411,
+      "episode_rewards": [
+        6.799999999999992,
+        233.39999999999284,
+        48.50000000000034,
+        444.60000000002566,
+        46.80000000000033
+      ],
+      "episode_lengths": [
+        70,
+        1904,
+        406,
+        3600,
+        398
+      ],
+      "decoded_action_hist": {
+        "0": 5074,
+        "1": 1304
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 1500,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 156.02000000000382,
+    "mean_length": 1275.6,
+    "std_reward": 164.3303063953899,
+    "std_length": 1324.9588069068411,
+    "task_count": 1,
+    "macro_mean_reward": 156.02000000000382,
+    "macro_mean_length": 1275.6,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_1750.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 10.020000000000042,
+      "mean_length": 98.6,
+      "std_reward": 13.210510966650844,
+      "std_length": 106.95344781726301,
+      "episode_rewards": [
+        36.40000000000021,
+        3.8999999999999986,
+        3.8999999999999986,
+        2.0000000000000013,
+        3.8999999999999986
+      ],
+      "episode_lengths": [
+        312,
+        50,
+        50,
+        31,
+        50
+      ],
+      "decoded_action_hist": {
+        "0": 400,
+        "1": 93
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 1750,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 10.020000000000042,
+    "mean_length": 98.6,
+    "std_reward": 13.210510966650844,
+    "std_length": 106.95344781726301,
+    "task_count": 1,
+    "macro_mean_reward": 10.020000000000042,
+    "macro_mean_length": 98.6,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_2000.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 200.6800000000103,
+      "mean_length": 1635.4,
+      "std_reward": 200.38831702473323,
+      "std_length": 1614.02622035703,
+      "episode_rewards": [
+        73.89999999999999,
+        444.60000000002566,
+        36.40000000000021,
+        3.8999999999999986,
+        444.60000000002566
+      ],
+      "episode_lengths": [
+        615,
+        3600,
+        312,
+        50,
+        3600
+      ],
+      "decoded_action_hist": {
+        "0": 6460,
+        "1": 1717
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 2000,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 200.6800000000103,
+    "mean_length": 1635.4,
+    "std_reward": 200.38831702473323,
+    "std_length": 1614.02622035703,
+    "task_count": 1,
+    "macro_mean_reward": 200.6800000000103,
+    "macro_mean_length": 1635.4,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_2250.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 190.06000000001035,
+      "mean_length": 1549.0,
+      "std_reward": 208.48305063003372,
+      "std_length": 1679.9416656539,
+      "episode_rewards": [
+        6.799999999999992,
+        444.60000000002566,
+        444.60000000002566,
+        3.8999999999999986,
+        50.40000000000037
+      ],
+      "episode_lengths": [
+        70,
+        3600,
+        3600,
+        50,
+        425
+      ],
+      "decoded_action_hist": {
+        "0": 6160,
+        "1": 1585
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 2250,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 190.06000000001035,
+    "mean_length": 1549.0,
+    "std_reward": 208.48305063003372,
+    "std_length": 1679.9416656539,
+    "task_count": 1,
+    "macro_mean_reward": 190.06000000001035,
+    "macro_mean_length": 1549.0,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_250.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 2.0000000000000013,
+      "mean_length": 31.0,
+      "std_reward": 0.0,
+      "std_length": 0.0,
+      "episode_rewards": [
+        2.0000000000000013,
+        2.0000000000000013,
+        2.0000000000000013,
+        2.0000000000000013,
+        2.0000000000000013
+      ],
+      "episode_lengths": [
+        31,
+        31,
+        31,
+        31,
+        31
+      ],
+      "decoded_action_hist": {
+        "0": 155
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 250,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 2.0000000000000013,
+    "mean_length": 31.0,
+    "std_reward": 0.0,
+    "std_length": 0.0,
+    "task_count": 1,
+    "macro_mean_reward": 2.0000000000000013,
+    "macro_mean_length": 31.0,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_2500.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 173.2800000000008,
+      "mean_length": 1416.2,
+      "std_reward": 151.64563165485944,
+      "std_length": 1224.5701939864452,
+      "episode_rewards": [
+        6.799999999999992,
+        204.39999999999415,
+        400.4000000000179,
+        3.8999999999999986,
+        250.89999999999208
+      ],
+      "episode_lengths": [
+        70,
+        1668,
+        3250,
+        50,
+        2043
+      ],
+      "decoded_action_hist": {
+        "0": 5586,
+        "1": 1495
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 2500,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 173.2800000000008,
+    "mean_length": 1416.2,
+    "std_reward": 151.64563165485944,
+    "std_length": 1224.5701939864452,
+    "task_count": 1,
+    "macro_mean_reward": 173.2800000000008,
+    "macro_mean_length": 1416.2,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_2750.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 211.5600000000095,
+      "mean_length": 1722.6,
+      "std_reward": 198.2644758901727,
+      "std_length": 1597.6542304265963,
+      "episode_rewards": [
+        6.799999999999992,
+        444.60000000002566,
+        157.89999999999623,
+        3.8999999999999986,
+        444.60000000002566
+      ],
+      "episode_lengths": [
+        70,
+        3600,
+        1293,
+        50,
+        3600
+      ],
+      "decoded_action_hist": {
+        "0": 6883,
+        "1": 1730
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 2750,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 211.5600000000095,
+    "mean_length": 1722.6,
+    "std_reward": 198.2644758901727,
+    "std_length": 1597.6542304265963,
+    "task_count": 1,
+    "macro_mean_reward": 211.5600000000095,
+    "macro_mean_length": 1722.6,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_3000.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 314.16000000001293,
+      "mean_length": 2550.6,
+      "std_reward": 168.18891283316998,
+      "std_length": 1356.5594126318242,
+      "episode_rewards": [
+        6.799999999999992,
+        414.4000000000204,
+        444.60000000002566,
+        444.60000000002566,
+        260.3999999999929
+      ],
+      "episode_lengths": [
+        70,
+        3363,
+        3600,
+        3600,
+        2120
+      ],
+      "decoded_action_hist": {
+        "0": 10174,
+        "1": 2579
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 3000,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 314.16000000001293,
+    "mean_length": 2550.6,
+    "std_reward": 168.18891283316998,
+    "std_length": 1356.5594126318242,
+    "task_count": 1,
+    "macro_mean_reward": 314.16000000001293,
+    "macro_mean_length": 2550.6,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_3250.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 268.90000000001544,
+      "mean_length": 2184.0,
+      "std_reward": 215.18962800285104,
+      "std_length": 1734.2502702897295,
+      "episode_rewards": [
+        6.799999999999992,
+        444.60000000002566,
+        444.60000000002566,
+        3.8999999999999986,
+        444.60000000002566
+      ],
+      "episode_lengths": [
+        70,
+        3600,
+        3600,
+        50,
+        3600
+      ],
+      "decoded_action_hist": {
+        "0": 8709,
+        "1": 2211
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 3250,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 268.90000000001544,
+    "mean_length": 2184.0,
+    "std_reward": 215.18962800285104,
+    "std_length": 1734.2502702897295,
+    "task_count": 1,
+    "macro_mean_reward": 268.90000000001544,
+    "macro_mean_length": 2184.0,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_3500.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 260.5200000000122,
+      "mean_length": 2119.0,
+      "std_reward": 189.18299500748955,
+      "std_length": 1526.6031573398504,
+      "episode_rewards": [
+        6.799999999999992,
+        414.4000000000204,
+        444.60000000002566,
+        381.9000000000146,
+        54.90000000000042
+      ],
+      "episode_lengths": [
+        70,
+        3363,
+        3600,
+        3101,
+        461
+      ],
+      "decoded_action_hist": {
+        "0": 8418,
+        "1": 2177
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 3500,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 260.5200000000122,
+    "mean_length": 2119.0,
+    "std_reward": 189.18299500748955,
+    "std_length": 1526.6031573398504,
+    "task_count": 1,
+    "macro_mean_reward": 260.5200000000122,
+    "macro_mean_length": 2119.0,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_3750.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 268.90000000001265,
+      "mean_length": 2186.2,
+      "std_reward": 184.73615780351173,
+      "std_length": 1488.7764640804878,
+      "episode_rewards": [
+        36.40000000000021,
+        364.0000000000114,
+        444.60000000002566,
+        444.60000000002566,
+        54.90000000000042
+      ],
+      "episode_lengths": [
+        312,
+        2958,
+        3600,
+        3600,
+        461
+      ],
+      "decoded_action_hist": {
+        "0": 8749,
+        "1": 2182
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 3750,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 268.90000000001265,
+    "mean_length": 2186.2,
+    "std_reward": 184.73615780351173,
+    "std_length": 1488.7764640804878,
+    "task_count": 1,
+    "macro_mean_reward": 268.90000000001265,
+    "macro_mean_length": 2186.2,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_4000.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 213.68000000001044,
+      "mean_length": 1740.2,
+      "std_reward": 188.710353717025,
+      "std_length": 1519.861230507575,
+      "episode_rewards": [
+        73.89999999999999,
+        444.60000000002566,
+        54.90000000000042,
+        444.60000000002566,
+        50.40000000000037
+      ],
+      "episode_lengths": [
+        615,
+        3600,
+        461,
+        3600,
+        425
+      ],
+      "decoded_action_hist": {
+        "0": 6938,
+        "1": 1763
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 4000,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 213.68000000001044,
+    "mean_length": 1740.2,
+    "std_reward": 188.710353717025,
+    "std_length": 1519.861230507575,
+    "task_count": 1,
+    "macro_mean_reward": 213.68000000001044,
+    "macro_mean_length": 1740.2,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_4250.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 268.7800000000133,
+      "mean_length": 2185.0,
+      "std_reward": 191.31879573111533,
+      "std_length": 1541.771837854097,
+      "episode_rewards": [
+        444.60000000002566,
+        22.40000000000006,
+        444.60000000002566,
+        381.9000000000146,
+        50.40000000000037
+      ],
+      "episode_lengths": [
+        3600,
+        199,
+        3600,
+        3101,
+        425
+      ],
+      "decoded_action_hist": {
+        "0": 8724,
+        "1": 2201
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 4250,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 268.7800000000133,
+    "mean_length": 2185.0,
+    "std_reward": 191.31879573111533,
+    "std_length": 1541.771837854097,
+    "task_count": 1,
+    "macro_mean_reward": 268.7800000000133,
+    "macro_mean_length": 2185.0,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_4500.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 366.6600000000206,
+      "mean_length": 2972.2,
+      "std_reward": 155.88000000001009,
+      "std_length": 1255.6000000000001,
+      "episode_rewards": [
+        444.60000000002566,
+        444.60000000002566,
+        444.60000000002566,
+        444.60000000002566,
+        54.90000000000042
+      ],
+      "episode_lengths": [
+        3600,
+        3600,
+        3600,
+        3600,
+        461
+      ],
+      "decoded_action_hist": {
+        "0": 11863,
+        "1": 2998
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 4500,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 366.6600000000206,
+    "mean_length": 2972.2,
+    "std_reward": 155.88000000001009,
+    "std_length": 1255.6000000000001,
+    "task_count": 1,
+    "macro_mean_reward": 366.6600000000206,
+    "macro_mean_length": 2972.2,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_4750.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 278.1800000000084,
+      "mean_length": 2261.0,
+      "std_reward": 164.18610659859004,
+      "std_length": 1322.34791185981,
+      "episode_rewards": [
+        444.60000000002566,
+        213.89999999999372,
+        444.60000000002566,
+        3.8999999999999986,
+        283.8999999999971
+      ],
+      "episode_lengths": [
+        3600,
+        1745,
+        3600,
+        50,
+        2310
+      ],
+      "decoded_action_hist": {
+        "0": 8954,
+        "1": 2351
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 4750,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 278.1800000000084,
+    "mean_length": 2261.0,
+    "std_reward": 164.18610659859004,
+    "std_length": 1322.34791185981,
+    "task_count": 1,
+    "macro_mean_reward": 278.1800000000084,
+    "macro_mean_length": 2261.0,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_500.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 19.920000000000094,
+      "mean_length": 179.6,
+      "std_reward": 21.023834093713926,
+      "std_length": 170.6113712505705,
+      "episode_rewards": [
+        19.100000000000026,
+        9.199999999999983,
+        6.699999999999992,
+        3.8999999999999986,
+        60.700000000000486
+      ],
+      "episode_lengths": [
+        175,
+        94,
+        69,
+        50,
+        510
+      ],
+      "decoded_action_hist": {
+        "0": 723,
+        "1": 175
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 500,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 19.920000000000094,
+    "mean_length": 179.6,
+    "std_reward": 21.023834093713926,
+    "std_length": 170.6113712505705,
+    "task_count": 1,
+    "macro_mean_reward": 19.920000000000094,
+    "macro_mean_length": 179.6,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_5000.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 285.0200000000155,
+      "mean_length": 2314.6,
+      "std_reward": 195.5323236705503,
+      "std_length": 1574.9920126781594,
+      "episode_rewards": [
+        36.40000000000021,
+        444.60000000002566,
+        444.60000000002566,
+        444.60000000002566,
+        54.90000000000042
+      ],
+      "episode_lengths": [
+        312,
+        3600,
+        3600,
+        3600,
+        461
+      ],
+      "decoded_action_hist": {
+        "0": 9199,
+        "1": 2374
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 5000,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 285.0200000000155,
+    "mean_length": 2314.6,
+    "std_reward": 195.5323236705503,
+    "std_length": 1574.9920126781594,
+    "task_count": 1,
+    "macro_mean_reward": 285.0200000000155,
+    "macro_mean_length": 2314.6,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/eval/mid_train/step_750.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "per_latency": {
+    "flappy/latency_2": {
+      "latency": 2,
+      "num_episodes": 5,
+      "mean_reward": 83.5799999999984,
+      "mean_length": 692.0,
+      "std_reward": 71.19664037017279,
+      "std_length": 575.6933211354809,
+      "episode_rewards": [
+        88.59999999999933,
+        200.7999999999943,
+        3.8999999999999986,
+        108.79999999999846,
+        15.79999999999998
+      ],
+      "episode_lengths": [
+        735,
+        1641,
+        50,
+        892,
+        142
+      ],
+      "decoded_action_hist": {
+        "0": 2698,
+        "1": 762
+      },
+      "fixed_episode_seeds": true,
+      "eval_seed": 42,
+      "episode_seeds": [
+        42,
+        43,
+        44,
+        45,
+        46
+      ],
+      "episode_indices": [
+        0,
+        1,
+        2,
+        3,
+        4
+      ]
+    }
+  },
+  "aggregate": {
+    "stage": "mid_train",
+    "step": 750,
+    "task": "flappy",
+    "model_alias": "openvla",
+    "fixed_episode_seeds": true,
+    "eval_seed": 42,
+    "total_episodes": 5,
+    "mean_reward": 83.5799999999984,
+    "mean_length": 692.0,
+    "std_reward": 71.19664037017279,
+    "std_length": 575.6933211354809,
+    "task_count": 1,
+    "macro_mean_reward": 83.5799999999984,
+    "macro_mean_length": 692.0,
+    "distributed_eval": false
+  }
+}

flappy_fix_latency_2_200ep_last_8_layers/hydra/.hydra/config.yaml ADDED Viewed

	@@ -0,0 +1,215 @@

+framework:
+  qwenvl:
+    base_vlm: /workspace/latency-sensitive-bench/starVLA/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    attn_implementation: flash_attention_2
+    enable_gradient_checkpointing: true
+  action_model:
+    state_dim: 7
+    loss_type: discrete_ce
+    action_horizon: 1
+    future_action_window_size: 0
+    past_action_window_size: 0
+    action_dim: 7
+    action_env_dim: 2
+  name: QwenOFT
+datasets:
+  vla_data:
+    dataset_py: lerobot_datasets
+    include_state: true
+    data_root_dir: /workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep
+    data_mix: flappy_train__bridge
+    eval_data_mix: flappy_train__bridge__val
+    custom_mixtures_path: null
+    action_type: discrete
+    sequential_step_sampling: false
+    eval_sequential_step_sampling: null
+    num_workers: 8
+    eval_num_workers: 8
+    prefetch_factor: 4
+    shuffle: true
+    action_balance:
+      enabled: false
+      strategy: balanced_epoch
+      action_key: action_id
+      target_flap_fraction: 0.3
+      noop_id: 0
+      flap_id: 1
+    latency_curriculum:
+      enabled: false
+      strategy: exclusive
+      latencies: null
+      phase_steps: null
+    per_device_batch_size: 64
+    load_all_data_for_training: true
+    num_obs_frames: 1
+    image_mode: single
+    stitch_grid:
+    - 2
+    - 2
+    obs_image_size: null
+    video_backend: torchvision_av
+dataset:
+  source_hf: ${dataset.single_source_hf}
+  config_name: null
+  source_subdir: null
+  converted_name: ${dataset.single_converted_name}
+  single_source_hf: ''
+  mixed_source_hf: ''
+  single_converted_name: flappy_train
+  mixed_converted_name: flappy_mixed_latency_train
+  single_latency_filter: null
+  mixed_latency_filter: null
+  force_download: false
+  setup_force: false
+  skip_verification: false
+  verify_rows: 200
+  max_episodes: null
+  episodes_per_latency: null
+  latency_filter: ${dataset.single_latency_filter}
+  debug_subset:
+    enabled: false
+    max_episodes: 5
+    suffix: debug
+base_model:
+  repo_id: ${bridge_base_model.repo_id.${model}}
+initialization:
+  checkpoint_local_dir: playground/Pretrained_models/Qwen3VL-OFT-Bridge-RT-1
+  checkpoint_hf_repo_id: StarVLA/Qwen3VL-OFT-Bridge-RT-1
+  checkpoint_filename: checkpoints/steps_5000_pytorch_model.pt
+trainer:
+  max_train_steps: 5000
+  num_warmup_steps: 100
+  save_interval: 500
+  eval_interval: 100
+  eval_num_batches: 100
+  per_latency_eval_num_batches: null
+  eval_action_classification: true
+  eval_action_classification_interval: null
+  cc_f1_tolerance: 1
+  learning_rate:
+    base: 2.0e-05
+    qwen_vl_interface: 1.0e-05
+    action_model: 0.0001
+  lr_scheduler_type: cosine_with_min_lr
+  scheduler_specific_kwargs:
+    min_lr: 1.0e-06
+  freeze_modules: ''
+  freeze_llm_bottom_ratio: 0.7778
+  loss_scale:
+    vla: 1.0
+    vlm: 0.1
+  max_grad_norm: 1.0
+  weight_decay: 0.0
+  logging_frequency: 1
+  gradient_clipping: 1.0
+  gradient_accumulation_steps: 2
+  distributed_backend: none
+  is_resume: false
+  pretrained_checkpoint: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_last_8_layers/checkpoints/_initialization/StarVLA_Qwen3VL-OFT-Bridge-RT-1/checkpoints/steps_5000_pytorch_model.pt
+  resume_step: 0
+  reload_modules: null
+  optimizer:
+    name: AdamW
+    betas:
+    - 0.9
+    - 0.95
+    eps: 1.0e-08
+    weight_decay: 1.0e-08
+    fused: false
+  save_format: pt
+workspace_dir: WORKSPACE_DIR
+run_root_dir: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints
+seed: 42
+wandb_entity: saberrr-zju
+wandb_project: starVLA_rl_games
+auth:
+  env_file: null
+  hf_token_env: HF_TOKEN
+  wandb_api_key_env: WANDB_API_KEY
+paths:
+  run_root_dir: results/Checkpoints
+  dataset_local_dir: playground/Datasets/rl_games
+  dataset_cache_dir: null
+  base_model_dir: ${bridge_base_model.local_dir.${model}}
+  accelerate_config: starVLA/config/deepseeds/deepspeed_zero2.yaml
+launch:
+  use_accelerate: true
+  gpus: null
+  num_processes: 1
+  dry_run: false
+conda:
+  enabled: true
+  env_name: null
+rl_games:
+  model_alias: openvla
+  env_eval:
+    image_size: 224
+    frameskip: 1
+    seed: 42
+    fixed_episode_seeds: true
+    latency_seed_stride: 0
+    task_seed_stride: 0
+    task_description: ''
+    enabled: true
+    distributed_mode: none
+    vectorized:
+      enabled: false
+      batch_size: 1
+    latency:
+      prompt_map_path: /workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep/flappy_train__bridge/latency_prompt_map.json
+      mode: single
+      values:
+      - 0
+    mid_train:
+      enabled: true
+      interval_steps: 250
+      latencies:
+      - 2
+      num_episodes: 5
+      max_steps_per_episode: 3600
+    post_train:
+      enabled: false
+      latencies:
+      - 0
+      - 1
+      - 2
+      - 3
+      - 4
+      num_episodes: 5
+      max_steps_per_episode: 3600
+  task: flappy
+  initialization_mode: bridge
+  action_carrier: bridge
+model: openvla
+env: flappy
+init: bridge
+bridge_base_model:
+  repo_id:
+    openvla: Qwen/Qwen3-VL-4B-Instruct
+    pi0: StarVLA/Qwen2.5-VL-3B-Instruct-Action
+    pi05: Qwen/Qwen3-VL-4B-Instruct
+    gr00t: Qwen/Qwen3-VL-4B-Instruct
+  local_dir:
+    openvla: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    pi0: playground/Pretrained_models/Qwen2.5-VL-3B-Instruct-Action
+    pi05: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    gr00t: playground/Pretrained_models/Qwen3-VL-4B-Instruct
+mode: single
+checkpoint:
+  load: auto
+  hf_repo_id: null
+  save_best_model: false
+  save_pt_file: false
+  local:
+    keep_last_n: 1
+  sync:
+    enabled: false
+    repo_id: null
+    keep_last_n: 0
+    sync_every_n_checkpoints: 1
+    resume_policy: local_latest
+run_id: flappy_fix_latency_2_200ep_last_8_layers
+output_dir: null
+config_yaml: null
+is_debug: false
+version_id: '0.21'

flappy_fix_latency_2_200ep_last_8_layers/hydra/.hydra/hydra.yaml ADDED Viewed

	@@ -0,0 +1,259 @@

+hydra:
+  run:
+    dir: ${run_root_dir}/${run_id}/hydra
+  sweep:
+    dir: multirun/${now:%Y-%m-%d}/${now:%H-%M-%S}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+      Use --hydra-help to view Hydra specific help
+      '
+    template: '${hydra.help.header}
+      == Configuration groups ==
+      Compose your configuration from those groups (group=option)
+      $APP_CONFIG_GROUPS
+      == Config ==
+      Override anything in the config (foo.bar=value)
+      $CONFIG
+      ${hydra.help.footer}
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+      See https://hydra.cc for more info.
+      == Flags ==
+      $FLAGS_HELP
+      == Configuration groups ==
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+      $HYDRA_CONFIG_GROUPS
+      Use ''--cfg hydra'' to Show the Hydra config.
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - model=openvla
+    - env=flappy
+    - init=bridge
+    - mode=single
+    - run_id=flappy_fix_latency_2_200ep_last_8_layers
+    - run_root_dir=/workspace/latency-sensitive-bench/starVLA/results/Checkpoints
+    - seed=42
+    - wandb_entity=saberrr-zju
+    - wandb_project=starVLA_rl_games
+    - rl_games.env_eval.enabled=true
+    - checkpoint.sync.enabled=false
+    - checkpoint.sync.keep_last_n=0
+    - checkpoint.local.keep_last_n=1
+    - checkpoint.save_best_model=false
+    - checkpoint.save_pt_file=false
+    - trainer.is_resume=false
+    - trainer.pretrained_checkpoint=/workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_last_8_layers/checkpoints/_initialization/StarVLA_Qwen3VL-OFT-Bridge-RT-1/checkpoints/steps_5000_pytorch_model.pt
+    - trainer.resume_step=0
+    - trainer.max_train_steps=5000
+    - trainer.num_warmup_steps=100
+    - trainer.save_interval=500
+    - trainer.eval_interval=100
+    - trainer.eval_num_batches=100
+    - trainer.eval_action_classification=true
+    - trainer.logging_frequency=1
+    - trainer.gradient_accumulation_steps=2
+    - trainer.distributed_backend=none
+    - trainer.learning_rate.base=2e-05
+    - trainer.learning_rate.qwen_vl_interface=1e-05
+    - trainer.learning_rate.action_model=0.0001
+    - trainer.lr_scheduler_type=cosine_with_min_lr
+    - trainer.scheduler_specific_kwargs.min_lr=1e-06
+    - trainer.freeze_llm_bottom_ratio=0.7778
+    - trainer.loss_scale.vla=1.0
+    - trainer.loss_scale.vlm=0.1
+    - trainer.max_grad_norm=1.0
+    - trainer.weight_decay=0.0
+    - trainer.gradient_clipping=1.0
+    - trainer.optimizer.name=AdamW
+    - trainer.optimizer.betas=[0.9,0.95]
+    - trainer.optimizer.eps=1e-08
+    - trainer.optimizer.weight_decay=1e-08
+    - trainer.optimizer.fused=false
+    - trainer.save_format=pt
+    - framework.name=QwenOFT
+    - framework.qwenvl.attn_implementation=flash_attention_2
+    - framework.qwenvl.enable_gradient_checkpointing=true
+    - framework.action_model.action_dim=7
+    - framework.action_model.action_env_dim=2
+    - framework.action_model.state_dim=7
+    - framework.action_model.loss_type=discrete_ce
+    - framework.action_model.action_horizon=1
+    - framework.action_model.future_action_window_size=0
+    - framework.action_model.past_action_window_size=0
+    - datasets.vla_data.include_state=true
+    - datasets.vla_data.action_type=discrete
+    - datasets.vla_data.sequential_step_sampling=false
+    - datasets.vla_data.shuffle=true
+    - datasets.vla_data.action_balance.enabled=false
+    - datasets.vla_data.action_balance.strategy=balanced_epoch
+    - datasets.vla_data.action_balance.action_key=action_id
+    - datasets.vla_data.action_balance.target_flap_fraction=0.3
+    - datasets.vla_data.action_balance.noop_id=0
+    - datasets.vla_data.action_balance.flap_id=1
+    - datasets.vla_data.latency_curriculum.enabled=false
+    - datasets.vla_data.latency_curriculum.strategy=exclusive
+    - datasets.vla_data.per_device_batch_size=64
+    - datasets.vla_data.num_workers=8
+    - datasets.vla_data.eval_num_workers=8
+    - datasets.vla_data.prefetch_factor=4
+    - datasets.vla_data.load_all_data_for_training=true
+    - datasets.vla_data.video_backend=torchvision_av
+    - datasets.vla_data.data_root_dir=/workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep
+    - datasets.vla_data.data_mix=flappy_train__bridge
+    - datasets.vla_data.eval_data_mix=flappy_train__bridge__val
+    - framework.qwenvl.base_vlm=/workspace/latency-sensitive-bench/starVLA/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+    - rl_games.task=flappy
+    - rl_games.model_alias=openvla
+    - rl_games.initialization_mode=bridge
+    - rl_games.action_carrier=bridge
+    - rl_games.env_eval.distributed_mode=none
+    - rl_games.env_eval.latency.mode=single
+    - rl_games.env_eval.frameskip=1
+    - rl_games.env_eval.image_size=224
+    - rl_games.env_eval.seed=42
+    - rl_games.env_eval.fixed_episode_seeds=true
+    - rl_games.env_eval.latency_seed_stride=0
+    - rl_games.env_eval.task_seed_stride=0
+    - rl_games.env_eval.latency.values=[0]
+    - rl_games.env_eval.latency.prompt_map_path=/workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep/flappy_train__bridge/latency_prompt_map.json
+    - rl_games.env_eval.mid_train.enabled=true
+    - rl_games.env_eval.mid_train.interval_steps=250
+    - rl_games.env_eval.mid_train.num_episodes=5
+    - rl_games.env_eval.mid_train.max_steps_per_episode=3600
+    - rl_games.env_eval.mid_train.latencies=[2]
+    - rl_games.env_eval.post_train.enabled=false
+    - rl_games.env_eval.post_train.num_episodes=5
+    - rl_games.env_eval.post_train.max_steps_per_episode=3600
+    - rl_games.env_eval.post_train.latencies=[0,1,2,3,4]
+  job:
+    name: train_starvla_hydra
+    chdir: false
+    override_dirname: checkpoint.local.keep_last_n=1,checkpoint.save_best_model=false,checkpoint.save_pt_file=false,checkpoint.sync.enabled=false,checkpoint.sync.keep_last_n=0,datasets.vla_data.action_balance.action_key=action_id,datasets.vla_data.action_balance.enabled=false,datasets.vla_data.action_balance.flap_id=1,datasets.vla_data.action_balance.noop_id=0,datasets.vla_data.action_balance.strategy=balanced_epoch,datasets.vla_data.action_balance.target_flap_fraction=0.3,datasets.vla_data.action_type=discrete,datasets.vla_data.data_mix=flappy_train__bridge,datasets.vla_data.data_root_dir=/workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep,datasets.vla_data.eval_data_mix=flappy_train__bridge__val,datasets.vla_data.eval_num_workers=8,datasets.vla_data.include_state=true,datasets.vla_data.latency_curriculum.enabled=false,datasets.vla_data.latency_curriculum.strategy=exclusive,datasets.vla_data.load_all_data_for_training=true,datasets.vla_data.num_workers=8,datasets.vla_data.per_device_batch_size=64,datasets.vla_data.prefetch_factor=4,datasets.vla_data.sequential_step_sampling=false,datasets.vla_data.shuffle=true,datasets.vla_data.video_backend=torchvision_av,env=flappy,framework.action_model.action_dim=7,framework.action_model.action_env_dim=2,framework.action_model.action_horizon=1,framework.action_model.future_action_window_size=0,framework.action_model.loss_type=discrete_ce,framework.action_model.past_action_window_size=0,framework.action_model.state_dim=7,framework.name=QwenOFT,framework.qwenvl.attn_implementation=flash_attention_2,framework.qwenvl.base_vlm=/workspace/latency-sensitive-bench/starVLA/playground/Pretrained_models/Qwen3-VL-4B-Instruct,framework.qwenvl.enable_gradient_checkpointing=true,init=bridge,mode=single,model=openvla,rl_games.action_carrier=bridge,rl_games.env_eval.distributed_mode=none,rl_games.env_eval.enabled=true,rl_games.env_eval.fixed_episode_seeds=true,rl_games.env_eval.frameskip=1,rl_games.env_eval.image_size=224,rl_games.env_eval.latency.mode=single,rl_games.env_eval.latency.prompt_map_path=/workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep/flappy_train__bridge/latency_prompt_map.json,rl_games.env_eval.latency.values=[0],rl_games.env_eval.latency_seed_stride=0,rl_games.env_eval.mid_train.enabled=true,rl_games.env_eval.mid_train.interval_steps=250,rl_games.env_eval.mid_train.latencies=[2],rl_games.env_eval.mid_train.max_steps_per_episode=3600,rl_games.env_eval.mid_train.num_episodes=5,rl_games.env_eval.post_train.enabled=false,rl_games.env_eval.post_train.latencies=[0,1,2,3,4],rl_games.env_eval.post_train.max_steps_per_episode=3600,rl_games.env_eval.post_train.num_episodes=5,rl_games.env_eval.seed=42,rl_games.env_eval.task_seed_stride=0,rl_games.initialization_mode=bridge,rl_games.model_alias=openvla,rl_games.task=flappy,run_id=flappy_fix_latency_2_200ep_last_8_layers,run_root_dir=/workspace/latency-sensitive-bench/starVLA/results/Checkpoints,seed=42,trainer.distributed_backend=none,trainer.eval_action_classification=true,trainer.eval_interval=100,trainer.eval_num_batches=100,trainer.freeze_llm_bottom_ratio=0.7778,trainer.gradient_accumulation_steps=2,trainer.gradient_clipping=1.0,trainer.is_resume=false,trainer.learning_rate.action_model=0.0001,trainer.learning_rate.base=2e-05,trainer.learning_rate.qwen_vl_interface=1e-05,trainer.logging_frequency=1,trainer.loss_scale.vla=1.0,trainer.loss_scale.vlm=0.1,trainer.lr_scheduler_type=cosine_with_min_lr,trainer.max_grad_norm=1.0,trainer.max_train_steps=5000,trainer.num_warmup_steps=100,trainer.optimizer.betas=[0.9,0.95],trainer.optimizer.eps=1e-08,trainer.optimizer.fused=false,trainer.optimizer.name=AdamW,trainer.optimizer.weight_decay=1e-08,trainer.pretrained_checkpoint=/workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_last_8_layers/checkpoints/_initialization/StarVLA_Qwen3VL-OFT-Bridge-RT-1/checkpoints/steps_5000_pytorch_model.pt,trainer.resume_step=0,trainer.save_format=pt,trainer.save_interval=500,trainer.scheduler_specific_kwargs.min_lr=1e-06,trainer.weight_decay=0.0,wandb_entity=saberrr-zju,wandb_project=starVLA_rl_games
+    id: ???
+    num: ???
+    config_name: train
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.3.3
+    version_base: '1.1'
+    cwd: /workspace/latency-sensitive-bench/starVLA
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /workspace/latency-sensitive-bench/starVLA/examples/rl_games/config
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_last_8_layers/hydra
+    choices:
+      cross_task_setup: null
+      checkpoint: default
+      mode: single
+      init: bridge
+      env: flappy
+      model: openvla
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false

flappy_fix_latency_2_200ep_last_8_layers/hydra/.hydra/overrides.yaml ADDED Viewed

	@@ -0,0 +1,99 @@

+- model=openvla
+- env=flappy
+- init=bridge
+- mode=single
+- run_id=flappy_fix_latency_2_200ep_last_8_layers
+- run_root_dir=/workspace/latency-sensitive-bench/starVLA/results/Checkpoints
+- seed=42
+- wandb_entity=saberrr-zju
+- wandb_project=starVLA_rl_games
+- rl_games.env_eval.enabled=true
+- checkpoint.sync.enabled=false
+- checkpoint.sync.keep_last_n=0
+- checkpoint.local.keep_last_n=1
+- checkpoint.save_best_model=false
+- checkpoint.save_pt_file=false
+- trainer.is_resume=false
+- trainer.pretrained_checkpoint=/workspace/latency-sensitive-bench/starVLA/results/Checkpoints/flappy_fix_latency_2_200ep_last_8_layers/checkpoints/_initialization/StarVLA_Qwen3VL-OFT-Bridge-RT-1/checkpoints/steps_5000_pytorch_model.pt
+- trainer.resume_step=0
+- trainer.max_train_steps=5000
+- trainer.num_warmup_steps=100
+- trainer.save_interval=500
+- trainer.eval_interval=100
+- trainer.eval_num_batches=100
+- trainer.eval_action_classification=true
+- trainer.logging_frequency=1
+- trainer.gradient_accumulation_steps=2
+- trainer.distributed_backend=none
+- trainer.learning_rate.base=2e-05
+- trainer.learning_rate.qwen_vl_interface=1e-05
+- trainer.learning_rate.action_model=0.0001
+- trainer.lr_scheduler_type=cosine_with_min_lr
+- trainer.scheduler_specific_kwargs.min_lr=1e-06
+- trainer.freeze_llm_bottom_ratio=0.7778
+- trainer.loss_scale.vla=1.0
+- trainer.loss_scale.vlm=0.1
+- trainer.max_grad_norm=1.0
+- trainer.weight_decay=0.0
+- trainer.gradient_clipping=1.0
+- trainer.optimizer.name=AdamW
+- trainer.optimizer.betas=[0.9,0.95]
+- trainer.optimizer.eps=1e-08
+- trainer.optimizer.weight_decay=1e-08
+- trainer.optimizer.fused=false
+- trainer.save_format=pt
+- framework.name=QwenOFT
+- framework.qwenvl.attn_implementation=flash_attention_2
+- framework.qwenvl.enable_gradient_checkpointing=true
+- framework.action_model.action_dim=7
+- framework.action_model.action_env_dim=2
+- framework.action_model.state_dim=7
+- framework.action_model.loss_type=discrete_ce
+- framework.action_model.action_horizon=1
+- framework.action_model.future_action_window_size=0
+- framework.action_model.past_action_window_size=0
+- datasets.vla_data.include_state=true
+- datasets.vla_data.action_type=discrete
+- datasets.vla_data.sequential_step_sampling=false
+- datasets.vla_data.shuffle=true
+- datasets.vla_data.action_balance.enabled=false
+- datasets.vla_data.action_balance.strategy=balanced_epoch
+- datasets.vla_data.action_balance.action_key=action_id
+- datasets.vla_data.action_balance.target_flap_fraction=0.3
+- datasets.vla_data.action_balance.noop_id=0
+- datasets.vla_data.action_balance.flap_id=1
+- datasets.vla_data.latency_curriculum.enabled=false
+- datasets.vla_data.latency_curriculum.strategy=exclusive
+- datasets.vla_data.per_device_batch_size=64
+- datasets.vla_data.num_workers=8
+- datasets.vla_data.eval_num_workers=8
+- datasets.vla_data.prefetch_factor=4
+- datasets.vla_data.load_all_data_for_training=true
+- datasets.vla_data.video_backend=torchvision_av
+- datasets.vla_data.data_root_dir=/workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep
+- datasets.vla_data.data_mix=flappy_train__bridge
+- datasets.vla_data.eval_data_mix=flappy_train__bridge__val
+- framework.qwenvl.base_vlm=/workspace/latency-sensitive-bench/starVLA/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+- rl_games.task=flappy
+- rl_games.model_alias=openvla
+- rl_games.initialization_mode=bridge
+- rl_games.action_carrier=bridge
+- rl_games.env_eval.distributed_mode=none
+- rl_games.env_eval.latency.mode=single
+- rl_games.env_eval.frameskip=1
+- rl_games.env_eval.image_size=224
+- rl_games.env_eval.seed=42
+- rl_games.env_eval.fixed_episode_seeds=true
+- rl_games.env_eval.latency_seed_stride=0
+- rl_games.env_eval.task_seed_stride=0
+- rl_games.env_eval.latency.values=[0]
+- rl_games.env_eval.latency.prompt_map_path=/workspace/latency-sensitive-bench/starVLA/data/flappy_fix_latency_2_200ep/flappy_train__bridge/latency_prompt_map.json
+- rl_games.env_eval.mid_train.enabled=true
+- rl_games.env_eval.mid_train.interval_steps=250
+- rl_games.env_eval.mid_train.num_episodes=5
+- rl_games.env_eval.mid_train.max_steps_per_episode=3600
+- rl_games.env_eval.mid_train.latencies=[2]
+- rl_games.env_eval.post_train.enabled=false
+- rl_games.env_eval.post_train.num_episodes=5
+- rl_games.env_eval.post_train.max_steps_per_episode=3600
+- rl_games.env_eval.post_train.latencies=[0,1,2,3,4]

flappy_fix_latency_2_200ep_last_8_layers/hydra/train_starvla_hydra.log ADDED Viewed

The diff for this file is too large to render. See raw diff

flappy_fix_latency_2_200ep_last_8_layers/summary.jsonl ADDED Viewed

	@@ -0,0 +1,10 @@

+{"steps": 500}
+{"steps": 1000}
+{"steps": 1500}
+{"steps": 2000}
+{"steps": 2500}
+{"steps": 3000}
+{"steps": 3500}
+{"steps": 4000}
+{"steps": 4500}
+{"steps": 5000}