experiment_name: proxy_interaction_state
output_dir: /workspace/VLAarchtests/artifacts/outputs/interaction
device: cuda
seed: 13
data:
  proxies:
  - foliage_proxy
  - bag_proxy
  - cloth_proxy
  resolution: 96
  train_episodes_per_proxy: 48
  val_episodes_per_proxy: 16
  train_dataset_path: /workspace/VLAarchtests/artifacts/data/reveal_proxy/proxy_train_v4_noleak_counterfactual.pt
  val_dataset_path: /workspace/VLAarchtests/artifacts/data/reveal_proxy/proxy_val_v4_noleak_counterfactual.pt
  rebuild_dataset: false
  chunk_horizon: 8
  rollout_horizon: 5
  history_steps: 6
  planner_candidates: 8
  seed: 13
optim:
  epochs: 8
  batch_size: 16
  num_workers: 0
  lr: 0.001
  weight_decay: 0.0001
trainer:
  policy_type: interaction_state
  use_bf16: true
  grad_clip_norm: 1.0
  freeze_backbone: true
  gradient_checkpointing: false
  plan_during_train: true
  plan_during_eval: true
  support_mode_conditioning: true
  planner_mode: trainable
policy:
  backbone:
    model_name: openai/clip-vit-base-patch32
    hidden_dim: 128
    max_text_tokens: 32
    freeze_backbone: true
    gradient_checkpointing: false
    use_dummy_backbone: true
  fusion:
    hidden_dim: 128
    num_cameras: 3
    num_layers: 2
    num_heads: 4
    ff_dim: 256
    dropout: 0.1
    proprio_dim: 32
    proprio_tokens: 1
  memory:
    hidden_dim: 128
    history_steps: 6
    num_layers: 2
    dropout: 0.1
    memory_bank_size: 4
    num_heads: 4
    max_history_steps: 8
  decoder:
    hidden_dim: 128
    num_heads: 4
    num_layers: 2
    ff_dim: 256
    dropout: 0.1
    chunk_size: 8
    action_dim: 14
    arm_action_dim: 7
    num_candidates: 8
    num_phases: 5
    num_arm_roles: 4
  reveal_head:
    hidden_dim: 128
    num_support_modes: 3
    num_approach_templates: 32
    rollout_horizon: 5
    belief_map_size: 32
    field_size: 16
    num_heads: 4
    predict_belief_map: true
    num_phases: 5
    num_arm_roles: 4
    num_interaction_tokens: 8
  world_model:
    hidden_dim: 128
    action_dim: 14
    num_support_modes: 3
    num_approach_templates: 32
    rollout_horizon: 5
    field_size: 16
    num_heads: 4
    num_phases: 5
    num_arm_roles: 4
    num_interaction_tokens: 8
  planner:
    hidden_dim: 128
    num_candidates: 8
    action_dim: 14
    num_support_modes: 3
    utility_margin: 0.1
    num_heads: 4
    num_layers: 2
    num_phases: 5
    num_arm_roles: 4
loss_weights:
  action: 1.0
  support_mode: 0.15
  corridor: 0.2
  persistence: 0.1
  disturbance: 0.1
  world_model: 0.25
  belief: 0.05
  planner_success: 0.2
  planner_risk: 0.1
  planner_ranking: 0.1
  proposal_reconstruction: 0.2
  proposal_success: 0.1
  proposal_ranking: 0.1