lsnu commited on 15 days ago

Commit

8944de3

verified ·

1 Parent(s): bdab26f

Add files using upload-large-folder tool

Browse files

Files changed (18) hide show

FILE_MANIFEST.txt +290 -166
MODEL_INDEX.md +64 -0
README.md +78 -1
code/reveal_vla_bimanual/sim_rlbench/launch_smoke.py +40 -51
code/reveal_vla_bimanual/train/configs/proxy_interaction_state.yaml +122 -0
code/reveal_vla_bimanual/train/configs/proxy_interaction_state_smoke.yaml +122 -0
code/reveal_vla_bimanual/train/configs/rlbench_open_drawer_interaction_smoke.yaml +128 -0
code/reveal_vla_bimanual/train/configs/rlbench_peract2_13_interaction_state_dummy.yaml +132 -0
code/reveal_vla_bimanual/train/configs/rlbench_subset3_interaction_state_dummy.yaml +117 -0
code/reveal_vla_bimanual/train/losses.py +91 -3
code/reveal_vla_bimanual/train/run_experiment.py +13 -3
code/reveal_vla_bimanual/train/run_rlbench_experiment.py +14 -11
code/reveal_vla_bimanual/train/smoke_checks.py +292 -0
code/reveal_vla_bimanual/train/trainer.py +34 -3
environment/README.md +5 -0
environment/setup_same_machine.sh +1 -0
environment/system_packages_same_machine.txt +18 -0
environment/validate_same_machine.sh +46 -0

FILE_MANIFEST.txt CHANGED Viewed

@@ -1,166 +1,290 @@
-       32283  FILE_MANIFEST.txt
-        3195  MODEL_INDEX.md
-        6379  README.md
-     8489332  artifacts/data/reveal_proxy/proxy_train_clip224_v4_noleak_counterfactual.pt
-      806868  artifacts/data/reveal_proxy/proxy_train_smoke_v4.pt
-     8489300  artifacts/data/reveal_proxy/proxy_train_v4_noleak_counterfactual.pt
-     2800044  artifacts/data/reveal_proxy/proxy_val_clip224_v4_noleak_counterfactual.pt
-      264396  artifacts/data/reveal_proxy/proxy_val_smoke_v4.pt
-     2800012  artifacts/data/reveal_proxy/proxy_val_v4_noleak_counterfactual.pt
-        1184  artifacts/logs/system/rlbench_launch_smoke.txt
-         835  artifacts/logs/system/x99.conf
-        1011  artifacts/logs/system/x99.log
-           5  artifacts/logs/system/x99.pid
-     5071390  artifacts/outputs/reveal_runs/proxy_backbone_only/checkpoint_best.pt
-        1960  artifacts/outputs/reveal_runs/proxy_backbone_only/config_resolved.yaml
-        3506  artifacts/outputs/reveal_runs/proxy_backbone_only/metrics.json
-   802090604  artifacts/outputs/reveal_runs/proxy_backbone_only_clip/checkpoint_best.pt
-        2072  artifacts/outputs/reveal_runs/proxy_backbone_only_clip/config_resolved.yaml
-        1758  artifacts/outputs/reveal_runs/proxy_backbone_only_clip/metrics.json
-     6836318  artifacts/outputs/reveal_runs/proxy_reveal_state/checkpoint_best.pt
-        1993  artifacts/outputs/reveal_runs/proxy_reveal_state/config_resolved.yaml
-        9016  artifacts/outputs/reveal_runs/proxy_reveal_state/metrics.json
-   826368812  artifacts/outputs/reveal_runs/proxy_reveal_state_clip/checkpoint_best.pt
-        2103  artifacts/outputs/reveal_runs/proxy_reveal_state_clip/config_resolved.yaml
-        4515  artifacts/outputs/reveal_runs/proxy_reveal_state_clip/metrics.json
-        2914  artifacts/outputs/reveal_runs/reveal_ablation_v4/ablations.json
-        1354  artifacts/outputs/reveal_runs/reveal_ablation_v4/ablations.md
-        3219  artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep18/ablations.json
-        1351  artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep18/ablations.md
-        5831  artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep18/ablations.partial.json
-        2824  artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep4/ablations.json
-        1351  artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep4/ablations.md
-        2670  artifacts/outputs/reveal_runs/reveal_ablation_v4_det/ablations.json
-        1354  artifacts/outputs/reveal_runs/reveal_ablation_v4_det/ablations.md
-         798  artifacts/outputs/reveal_runs/reveal_eval_v4/reveal_benchmark.json
-         726  artifacts/outputs/reveal_runs/reveal_eval_v4/reveal_benchmark.md
-         848  artifacts/outputs/reveal_runs/reveal_eval_v4_clip_det/reveal_benchmark.json
-         736  artifacts/outputs/reveal_runs/reveal_eval_v4_clip_det/reveal_benchmark.md
-         732  artifacts/outputs/reveal_runs/reveal_eval_v4_det/reveal_benchmark.json
-         726  artifacts/outputs/reveal_runs/reveal_eval_v4_det/reveal_benchmark.md
-     1331678  artifacts/outputs/smoke/proxy_backbone_only_smoke/checkpoint_best.pt
-        2062  artifacts/outputs/smoke/proxy_backbone_only_smoke/config_resolved.yaml
-         874  artifacts/outputs/smoke/proxy_backbone_only_smoke/metrics.json
-     1865438  artifacts/outputs/smoke/proxy_reveal_state_smoke/checkpoint_best.pt
-        2061  artifacts/outputs/smoke/proxy_reveal_state_smoke/config_resolved.yaml
-        2243  artifacts/outputs/smoke/proxy_reveal_state_smoke/metrics.json
-        2713  artifacts/outputs/smoke/reveal_ablation_ep2/ablations.json
-        1354  artifacts/outputs/smoke/reveal_ablation_ep2/ablations.md
-         732  artifacts/outputs/smoke/reveal_eval_ep2/reveal_benchmark.json
-         726  artifacts/outputs/smoke/reveal_eval_ep2/reveal_benchmark.md
-        3033  artifacts/reports/reveal_ablation/ablations.json
-        1354  artifacts/reports/reveal_ablation/ablations.md
-         796  artifacts/reports/reveal_eval/reveal_benchmark.json
-         724  artifacts/reports/reveal_eval/reveal_benchmark.md
-         414  artifacts/reports/reveal_eval_noplan/reveal_benchmark.json
-         381  artifacts/reports/reveal_eval_noplan/reveal_benchmark.md
-         781  artifacts/reports/reveal_eval_progress/reveal_benchmark.json
-         724  artifacts/reports/reveal_eval_progress/reveal_benchmark.md
-         828  artifacts/reports/reveal_eval_v2/reveal_benchmark.json
-         725  artifacts/reports/reveal_eval_v2/reveal_benchmark.md
-         788  artifacts/reports/rlbench_custom/backbone_only_rollout/rollout_eval.json
-         408  artifacts/reports/rlbench_custom/backbone_only_rollout/rollout_eval.md
-         787  artifacts/reports/rlbench_custom/reveal_state_rollout_noplan/rollout_eval.json
-         407  artifacts/reports/rlbench_custom/reveal_state_rollout_noplan/rollout_eval.md
-         786  artifacts/reports/rlbench_custom/reveal_state_rollout_plan/rollout_eval.json
-         406  artifacts/reports/rlbench_custom/reveal_state_rollout_plan/rollout_eval.md
-        2239  artifacts/reports/rlbench_custom/rlbench_subset3_custom_eval.md
-         787  artifacts/reports/rlbench_custom_clip/backbone_only_rollout/rollout_eval.json
-         407  artifacts/reports/rlbench_custom_clip/backbone_only_rollout/rollout_eval.md
-         786  artifacts/reports/rlbench_custom_clip/reveal_state_rollout_noplan/rollout_eval.json
-         406  artifacts/reports/rlbench_custom_clip/reveal_state_rollout_noplan/rollout_eval.md
-         785  artifacts/reports/rlbench_custom_clip/reveal_state_rollout_plan/rollout_eval.json
-         405  artifacts/reports/rlbench_custom_clip/reveal_state_rollout_plan/rollout_eval.md
-        2423  artifacts/reports/rlbench_custom_clip/rlbench_subset3_clip_eval.md
-        2019  artifacts/reports/rlbench_subset3_baseline_sanity.md
-         119  code/reveal_vla_bimanual/.gitignore
-        3500  code/reveal_vla_bimanual/README.md
-        1065  code/reveal_vla_bimanual/docs/upstream_pins.md
-         836  code/reveal_vla_bimanual/docs/xorg.rtx6000.conf
-         154  code/reveal_vla_bimanual/envs/mambafi1vu4sqxyk
-         635  code/reveal_vla_bimanual/envs/reveal310.yaml
-         930  code/reveal_vla_bimanual/envs/rlbench310.yaml
-          74  code/reveal_vla_bimanual/eval/__init__.py
-         205  code/reveal_vla_bimanual/eval/ablations.py
-        1583  code/reveal_vla_bimanual/eval/metrics.py
-        1617  code/reveal_vla_bimanual/eval/report.py
-        3886  code/reveal_vla_bimanual/eval/run_ablations.py
-       11796  code/reveal_vla_bimanual/eval/run_reveal_benchmark.py
-       10854  code/reveal_vla_bimanual/eval/run_rlbench_rollout_eval.py
-         826  code/reveal_vla_bimanual/models/__init__.py
-        6628  code/reveal_vla_bimanual/models/action_decoder.py
-        5422  code/reveal_vla_bimanual/models/backbones.py
-        2077  code/reveal_vla_bimanual/models/multiview_fusion.py
-        1870  code/reveal_vla_bimanual/models/observation_memory.py
-        3278  code/reveal_vla_bimanual/models/planner.py
-        9128  code/reveal_vla_bimanual/models/policy.py
-        5373  code/reveal_vla_bimanual/models/reveal_head.py
-        3220  code/reveal_vla_bimanual/models/world_model.py
-         780  code/reveal_vla_bimanual/pyproject.toml
-          59  code/reveal_vla_bimanual/pytorch3d/__init__.py
-        3940  code/reveal_vla_bimanual/pytorch3d/transforms.py
-        1660  code/reveal_vla_bimanual/reveal_vla_bimanual.egg-info/PKG-INFO
-         844  code/reveal_vla_bimanual/reveal_vla_bimanual.egg-info/SOURCES.txt
-           1  code/reveal_vla_bimanual/reveal_vla_bimanual.egg-info/dependency_links.txt
-         236  code/reveal_vla_bimanual/reveal_vla_bimanual.egg-info/requires.txt
-          51  code/reveal_vla_bimanual/reveal_vla_bimanual.egg-info/top_level.txt
-         967  code/reveal_vla_bimanual/scripts/download_coppeliasim.sh
-         800  code/reveal_vla_bimanual/scripts/install_micromamba.sh
-        3400  code/reveal_vla_bimanual/scripts/setup_env_a_rlbench.sh
-        1909  code/reveal_vla_bimanual/scripts/setup_env_b_reveal.sh
-        2086  code/reveal_vla_bimanual/scripts/setup_rlbench_headless_x.sh
-        3116  code/reveal_vla_bimanual/scripts/start_rlbench_x.sh
-         456  code/reveal_vla_bimanual/sim_reveal/__init__.py
-         689  code/reveal_vla_bimanual/sim_reveal/base.py
-       11788  code/reveal_vla_bimanual/sim_reveal/dataset.py
-        1633  code/reveal_vla_bimanual/sim_reveal/generate_dataset.py
-         665  code/reveal_vla_bimanual/sim_reveal/isaac_smoke.py
-         358  code/reveal_vla_bimanual/sim_reveal/isaac_wrapper.py
-        2198  code/reveal_vla_bimanual/sim_reveal/labels.py
-       31458  code/reveal_vla_bimanual/sim_reveal/procedural_envs.py
-         960  code/reveal_vla_bimanual/sim_reveal/proxy_specs.py
-        1899  code/reveal_vla_bimanual/sim_reveal/teachers.py
-         335  code/reveal_vla_bimanual/sim_rlbench/__init__.py
-         885  code/reveal_vla_bimanual/sim_rlbench/camera_spec.py
-       13817  code/reveal_vla_bimanual/sim_rlbench/dataset.py
-        4368  code/reveal_vla_bimanual/sim_rlbench/dataset_download.py
-        4698  code/reveal_vla_bimanual/sim_rlbench/generate_smoke_dataset.py
-        3232  code/reveal_vla_bimanual/sim_rlbench/launch_smoke.py
-        3025  code/reveal_vla_bimanual/sim_rlbench/obs_adapter.py
-        4525  code/reveal_vla_bimanual/sim_rlbench/peract2_runner.py
-        1410  code/reveal_vla_bimanual/sim_rlbench/smoke_test.py
-         523  code/reveal_vla_bimanual/sim_rlbench/task_splits.py
-          78  code/reveal_vla_bimanual/train/__init__.py
-         299  code/reveal_vla_bimanual/train/configs/base.yaml
-         213  code/reveal_vla_bimanual/train/configs/data/reveal_proxies.yaml
-         193  code/reveal_vla_bimanual/train/configs/data/rlbench_3cam.yaml
-         517  code/reveal_vla_bimanual/train/configs/model/backbone_only.yaml
-        1014  code/reveal_vla_bimanual/train/configs/model/reveal_state.yaml
-        1957  code/reveal_vla_bimanual/train/configs/proxy_backbone_only.yaml
-        2069  code/reveal_vla_bimanual/train/configs/proxy_backbone_only_clip.yaml
-        2059  code/reveal_vla_bimanual/train/configs/proxy_backbone_only_smoke.yaml
-        1990  code/reveal_vla_bimanual/train/configs/proxy_reveal_state.yaml
-        2100  code/reveal_vla_bimanual/train/configs/proxy_reveal_state_clip.yaml
-        2058  code/reveal_vla_bimanual/train/configs/proxy_reveal_state_smoke.yaml
-        1921  code/reveal_vla_bimanual/train/configs/rlbench_subset3_backbone_only_clip.yaml
-        1914  code/reveal_vla_bimanual/train/configs/rlbench_subset3_backbone_only_dummy.yaml
-        2019  code/reveal_vla_bimanual/train/configs/rlbench_subset3_reveal_state_clip.yaml
-        2012  code/reveal_vla_bimanual/train/configs/rlbench_subset3_reveal_state_dummy.yaml
-        8452  code/reveal_vla_bimanual/train/losses.py
-        8870  code/reveal_vla_bimanual/train/run_experiment.py
-        7809  code/reveal_vla_bimanual/train/run_rlbench_experiment.py
-        2945  code/reveal_vla_bimanual/train/trainer.py
-       13139  code/upstream_local_patches/YARR/yarr/runners/_independent_env_runner.py
-       40316  code/upstream_local_patches/peract_bimanual/agents/bimanual_peract/qattention_peract_bc_agent.py
-        1501  environment/README.md
-         855  environment/glxinfo_B.txt
-        5417  environment/hardware_snapshot.txt
-       24531  environment/reveal_env_explicit.txt
-       13289  environment/reveal_env_export.yaml
-        7333  environment/reveal_pip_freeze.txt
-       25057  environment/rlbench_env_explicit.txt
-       11542  environment/rlbench_env_export.yaml
-        6265  environment/rlbench_pip_freeze.txt
-        2775  environment/setup_same_machine.sh
-         533  environment/upstream_revisions.txt
-       27789  export_manifest_data.json

+./.gitattributes
+./FILE_MANIFEST.txt
+./MODEL_INDEX.md
+./README.md
+./artifacts/data/reveal_proxy/proxy_train_clip224_v4_noleak_counterfactual.pt
+./artifacts/data/reveal_proxy/proxy_train_smoke_v4.pt
+./artifacts/data/reveal_proxy/proxy_train_v4_noleak_counterfactual.pt
+./artifacts/data/reveal_proxy/proxy_val_clip224_v4_noleak_counterfactual.pt
+./artifacts/data/reveal_proxy/proxy_val_smoke_v4.pt
+./artifacts/data/reveal_proxy/proxy_val_v4_noleak_counterfactual.pt
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode0/front_rgb/rgb_0000.png
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode0/front_rgb/rgb_0001.png
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode0/low_dim_obs.pkl
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode0/variation_descriptions.pkl
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode0/variation_number.pkl
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode0/wrist_left_rgb/rgb_0000.png
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode0/wrist_left_rgb/rgb_0001.png
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode0/wrist_right_rgb/rgb_0000.png
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode0/wrist_right_rgb/rgb_0001.png
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode1/front_rgb/rgb_0000.png
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode1/front_rgb/rgb_0001.png
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode1/low_dim_obs.pkl
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode1/variation_descriptions.pkl
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode1/variation_number.pkl
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode1/wrist_left_rgb/rgb_0000.png
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode1/wrist_left_rgb/rgb_0001.png
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode1/wrist_right_rgb/rgb_0000.png
+./artifacts/data/rlbench_smoke_open_drawer/open_drawer/all_variations/episodes/episode1/wrist_right_rgb/rgb_0001.png
+./artifacts/logs/glxgears.log
+./artifacts/logs/isaac_smoke.log
+./artifacts/logs/rlbench2_dataset_train.log
+./artifacts/logs/rlbench2_smoke_train/bimanual_lift_ball_smoke/BIMANUAL_PERACT/.hydra/config.yaml
+./artifacts/logs/rlbench2_smoke_train/bimanual_lift_ball_smoke/BIMANUAL_PERACT/.hydra/hydra.yaml
+./artifacts/logs/rlbench2_smoke_train/bimanual_lift_ball_smoke/BIMANUAL_PERACT/.hydra/overrides.yaml
+./artifacts/logs/rlbench2_smoke_train/bimanual_lift_ball_smoke/BIMANUAL_PERACT/seed0/config.yaml
+./artifacts/logs/rlbench2_smoke_train/bimanual_lift_ball_smoke/BIMANUAL_PERACT/seed0/training.log
+./artifacts/logs/rlbench2_smoke_train/bimanual_lift_ball_smoke/BIMANUAL_PERACT/train.log
+./artifacts/logs/rlbench2_subset/multi_3cam_subset/BIMANUAL_PERACT/.hydra/config.yaml
+./artifacts/logs/rlbench2_subset/multi_3cam_subset/BIMANUAL_PERACT/.hydra/hydra.yaml
+./artifacts/logs/rlbench2_subset/multi_3cam_subset/BIMANUAL_PERACT/.hydra/overrides.yaml
+./artifacts/logs/rlbench2_subset/multi_3cam_subset/BIMANUAL_PERACT/seed0/config.yaml
+./artifacts/logs/rlbench2_subset/multi_3cam_subset/BIMANUAL_PERACT/seed0/events.out.tfevents.1774229659.e52be9725b2e.1397.0
+./artifacts/logs/rlbench2_subset/multi_3cam_subset/BIMANUAL_PERACT/seed0/events.out.tfevents.1774229898.e52be9725b2e.3678.0
+./artifacts/logs/rlbench2_subset/multi_3cam_subset/BIMANUAL_PERACT/seed0/events.out.tfevents.1774229987.e52be9725b2e.3804.0
+./artifacts/logs/rlbench2_subset/multi_3cam_subset/BIMANUAL_PERACT/seed0/events.out.tfevents.1774230133.e52be9725b2e.3957.0
+./artifacts/logs/rlbench2_subset/multi_3cam_subset/BIMANUAL_PERACT/seed0/events.out.tfevents.1774230462.e52be9725b2e.4130.0
+./artifacts/logs/rlbench2_subset/multi_3cam_subset/BIMANUAL_PERACT/seed0/training.log
+./artifacts/logs/rlbench2_subset/multi_3cam_subset/BIMANUAL_PERACT/seed0/weights/0/QAttentionAgent_layer0.pt
+./artifacts/logs/rlbench2_subset/multi_3cam_subset/BIMANUAL_PERACT/train.log
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/.hydra/config.yaml
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/.hydra/hydra.yaml
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/.hydra/overrides.yaml
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/seed0/config.yaml
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/seed0/eval_data.csv
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/seed0/events.out.tfevents.1774230948.e52be9725b2e.4400.0
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/seed0/events.out.tfevents.1774231048.e52be9725b2e.4582.0
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/seed0/events.out.tfevents.1774231173.e52be9725b2e.4703.0
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/seed0/events.out.tfevents.1774231301.e52be9725b2e.4824.0
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/seed0/events.out.tfevents.1774231438.e52be9725b2e.4951.0
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/seed0/training.log
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/seed0/weights/0/QAttentionAgent_layer0.pt
+./artifacts/logs/rlbench2_subset3/multi_3cam_subset3/BIMANUAL_PERACT/train.log
+./artifacts/logs/rlbench_extract/bimanual_lift_ball.log
+./artifacts/logs/rlbench_extract/bimanual_lift_ball_slice.log
+./artifacts/logs/system/rlbench_launch_smoke.txt
+./artifacts/logs/system/x99.conf
+./artifacts/logs/system/x99.log
+./artifacts/logs/system/x99.pid
+./artifacts/logs/x99-custom.log
+./artifacts/logs/x99.log
+./artifacts/logs/x99.pid
+./artifacts/outputs/interaction/proxy_interaction_state/checkpoint_best.pt
+./artifacts/outputs/interaction/proxy_interaction_state/config_resolved.yaml
+./artifacts/outputs/interaction/proxy_interaction_state/diagnostics/proxy_diagnostics.json
+./artifacts/outputs/interaction/proxy_interaction_state/metrics.json
+./artifacts/outputs/interaction/proxy_interaction_state_smoke/checkpoint_best.pt
+./artifacts/outputs/interaction/proxy_interaction_state_smoke/config_resolved.yaml
+./artifacts/outputs/interaction/proxy_interaction_state_smoke/diagnostics/proxy_diagnostics.json
+./artifacts/outputs/interaction/proxy_interaction_state_smoke/metrics.json
+./artifacts/outputs/interaction/proxy_reveal_state_full_diagnostics/proxy_diagnostics.json
+./artifacts/outputs/interaction/proxy_reveal_state_smoke_diagnostics/proxy_diagnostics.json
+./artifacts/outputs/interaction/reveal_ablation_interaction_ep1/ablations.json
+./artifacts/outputs/interaction/reveal_ablation_interaction_ep1/ablations.md
+./artifacts/outputs/interaction/reveal_ablation_interaction_ep1/ablations.partial.json
+./artifacts/outputs/interaction/reveal_eval_interaction_ep2/reveal_benchmark.json
+./artifacts/outputs/interaction/reveal_eval_interaction_ep2/reveal_benchmark.md
+./artifacts/outputs/interaction/reveal_eval_interaction_full_ep2/reveal_benchmark.json
+./artifacts/outputs/interaction/reveal_eval_interaction_full_ep2/reveal_benchmark.md
+./artifacts/outputs/interaction/rlbench_env_smoke/import_and_train_command.txt
+./artifacts/outputs/interaction/rlbench_env_smoke/import_smoke.json
+./artifacts/outputs/interaction/rlbench_env_smoke/launch_reset_smoke.json
+./artifacts/outputs/interaction/rlbench_env_smoke/launch_smoke_cli.json
+./artifacts/outputs/interaction/rlbench_env_smoke/launch_step_smoke.json
+./artifacts/outputs/interaction/rlbench_open_drawer_interaction_smoke/checkpoint_best.pt
+./artifacts/outputs/interaction/rlbench_open_drawer_interaction_smoke/config_resolved.yaml
+./artifacts/outputs/interaction/rlbench_open_drawer_interaction_smoke/metrics.json
+./artifacts/outputs/interaction/rlbench_open_drawer_interaction_smoke/summary.json
+./artifacts/outputs/interaction/rlbench_open_drawer_rollout_eval/rollout_eval.json
+./artifacts/outputs/interaction/rlbench_open_drawer_rollout_eval/rollout_eval.md
+./artifacts/outputs/interaction/smoke_checks/smoke_checks.json
+./artifacts/outputs/interaction_rolefix/proxy_interaction_state_smoke/checkpoint_best.pt
+./artifacts/outputs/interaction_rolefix/proxy_interaction_state_smoke/config_resolved.yaml
+./artifacts/outputs/interaction_rolefix/proxy_interaction_state_smoke/diagnostics/proxy_diagnostics.json
+./artifacts/outputs/interaction_rolefix/proxy_interaction_state_smoke/metrics.json
+./artifacts/outputs/interaction_rolefix/reveal_eval_interaction_smoke/reveal_benchmark.json
+./artifacts/outputs/interaction_rolefix/reveal_eval_interaction_smoke/reveal_benchmark.md
+./artifacts/outputs/interaction_rolefix/smoke_checks/smoke_checks.json
+./artifacts/outputs/interaction_rolefix_full/proxy_interaction_state/checkpoint_best.pt
+./artifacts/outputs/interaction_rolefix_full/proxy_interaction_state/config_resolved.yaml
+./artifacts/outputs/interaction_rolefix_full/proxy_interaction_state/diagnostics/proxy_diagnostics.json
+./artifacts/outputs/interaction_rolefix_full/proxy_interaction_state/metrics.json
+./artifacts/outputs/interaction_rolefix_full/reveal_eval_interaction/reveal_benchmark.json
+./artifacts/outputs/interaction_rolefix_full/reveal_eval_interaction/reveal_benchmark.md
+./artifacts/outputs/reveal_runs/proxy_backbone_only/checkpoint_best.pt
+./artifacts/outputs/reveal_runs/proxy_backbone_only/config_resolved.yaml
+./artifacts/outputs/reveal_runs/proxy_backbone_only/metrics.json
+./artifacts/outputs/reveal_runs/proxy_backbone_only_clip/checkpoint_best.pt
+./artifacts/outputs/reveal_runs/proxy_backbone_only_clip/config_resolved.yaml
+./artifacts/outputs/reveal_runs/proxy_backbone_only_clip/metrics.json
+./artifacts/outputs/reveal_runs/proxy_reveal_state/checkpoint_best.pt
+./artifacts/outputs/reveal_runs/proxy_reveal_state/config_resolved.yaml
+./artifacts/outputs/reveal_runs/proxy_reveal_state/metrics.json
+./artifacts/outputs/reveal_runs/proxy_reveal_state_clip/checkpoint_best.pt
+./artifacts/outputs/reveal_runs/proxy_reveal_state_clip/config_resolved.yaml
+./artifacts/outputs/reveal_runs/proxy_reveal_state_clip/metrics.json
+./artifacts/outputs/reveal_runs/reveal_ablation_v4/ablations.json
+./artifacts/outputs/reveal_runs/reveal_ablation_v4/ablations.md
+./artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep18/ablations.json
+./artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep18/ablations.md
+./artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep18/ablations.partial.json
+./artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep4/ablations.json
+./artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep4/ablations.md
+./artifacts/outputs/reveal_runs/reveal_ablation_v4_det/ablations.json
+./artifacts/outputs/reveal_runs/reveal_ablation_v4_det/ablations.md
+./artifacts/outputs/reveal_runs/reveal_eval_v4/reveal_benchmark.json
+./artifacts/outputs/reveal_runs/reveal_eval_v4/reveal_benchmark.md
+./artifacts/outputs/reveal_runs/reveal_eval_v4_clip_det/reveal_benchmark.json
+./artifacts/outputs/reveal_runs/reveal_eval_v4_clip_det/reveal_benchmark.md
+./artifacts/outputs/reveal_runs/reveal_eval_v4_det/reveal_benchmark.json
+./artifacts/outputs/reveal_runs/reveal_eval_v4_det/reveal_benchmark.md
+./artifacts/outputs/rlbench_custom/rlbench_subset3_backbone_only_clip/checkpoint_best.pt
+./artifacts/outputs/rlbench_custom/rlbench_subset3_backbone_only_clip/config_resolved.yaml
+./artifacts/outputs/rlbench_custom/rlbench_subset3_backbone_only_clip/metrics.json
+./artifacts/outputs/rlbench_custom/rlbench_subset3_backbone_only_clip/summary.json
+./artifacts/outputs/rlbench_custom/rlbench_subset3_backbone_only_dummy/checkpoint_best.pt
+./artifacts/outputs/rlbench_custom/rlbench_subset3_backbone_only_dummy/config_resolved.yaml
+./artifacts/outputs/rlbench_custom/rlbench_subset3_backbone_only_dummy/metrics.json
+./artifacts/outputs/rlbench_custom/rlbench_subset3_backbone_only_dummy/summary.json
+./artifacts/outputs/rlbench_custom/rlbench_subset3_reveal_state_clip/checkpoint_best.pt
+./artifacts/outputs/rlbench_custom/rlbench_subset3_reveal_state_clip/config_resolved.yaml
+./artifacts/outputs/rlbench_custom/rlbench_subset3_reveal_state_clip/metrics.json
+./artifacts/outputs/rlbench_custom/rlbench_subset3_reveal_state_clip/summary.json
+./artifacts/outputs/rlbench_custom/rlbench_subset3_reveal_state_dummy/checkpoint_best.pt
+./artifacts/outputs/rlbench_custom/rlbench_subset3_reveal_state_dummy/config_resolved.yaml
+./artifacts/outputs/rlbench_custom/rlbench_subset3_reveal_state_dummy/metrics.json
+./artifacts/outputs/rlbench_custom/rlbench_subset3_reveal_state_dummy/summary.json
+./artifacts/outputs/smoke/proxy_backbone_only_smoke/checkpoint_best.pt
+./artifacts/outputs/smoke/proxy_backbone_only_smoke/config_resolved.yaml
+./artifacts/outputs/smoke/proxy_backbone_only_smoke/metrics.json
+./artifacts/outputs/smoke/proxy_reveal_state_smoke/checkpoint_best.pt
+./artifacts/outputs/smoke/proxy_reveal_state_smoke/config_resolved.yaml
+./artifacts/outputs/smoke/proxy_reveal_state_smoke/metrics.json
+./artifacts/outputs/smoke/reveal_ablation_ep2/ablations.json
+./artifacts/outputs/smoke/reveal_ablation_ep2/ablations.md
+./artifacts/outputs/smoke/reveal_eval_ep2/reveal_benchmark.json
+./artifacts/outputs/smoke/reveal_eval_ep2/reveal_benchmark.md
+./artifacts/reports/reveal_ablation/ablations.json
+./artifacts/reports/reveal_ablation/ablations.md
+./artifacts/reports/reveal_eval/reveal_benchmark.json
+./artifacts/reports/reveal_eval/reveal_benchmark.md
+./artifacts/reports/reveal_eval_noplan/reveal_benchmark.json
+./artifacts/reports/reveal_eval_noplan/reveal_benchmark.md
+./artifacts/reports/reveal_eval_progress/reveal_benchmark.json
+./artifacts/reports/reveal_eval_progress/reveal_benchmark.md
+./artifacts/reports/reveal_eval_v2/reveal_benchmark.json
+./artifacts/reports/reveal_eval_v2/reveal_benchmark.md
+./artifacts/reports/rlbench_custom/backbone_only_rollout/rollout_eval.json
+./artifacts/reports/rlbench_custom/backbone_only_rollout/rollout_eval.md
+./artifacts/reports/rlbench_custom/reveal_state_rollout_noplan/rollout_eval.json
+./artifacts/reports/rlbench_custom/reveal_state_rollout_noplan/rollout_eval.md
+./artifacts/reports/rlbench_custom/reveal_state_rollout_plan/rollout_eval.json
+./artifacts/reports/rlbench_custom/reveal_state_rollout_plan/rollout_eval.md
+./artifacts/reports/rlbench_custom/rlbench_subset3_custom_eval.md
+./artifacts/reports/rlbench_custom_clip/backbone_only_rollout/rollout_eval.json
+./artifacts/reports/rlbench_custom_clip/backbone_only_rollout/rollout_eval.md
+./artifacts/reports/rlbench_custom_clip/reveal_state_rollout_noplan/rollout_eval.json
+./artifacts/reports/rlbench_custom_clip/reveal_state_rollout_noplan/rollout_eval.md
+./artifacts/reports/rlbench_custom_clip/reveal_state_rollout_plan/rollout_eval.json
+./artifacts/reports/rlbench_custom_clip/reveal_state_rollout_plan/rollout_eval.md
+./artifacts/reports/rlbench_custom_clip/rlbench_subset3_clip_eval.md
+./artifacts/reports/rlbench_subset3_baseline_sanity.md
+./code/reveal_vla_bimanual/.gitignore
+./code/reveal_vla_bimanual/README.md
+./code/reveal_vla_bimanual/docs/upstream_pins.md
+./code/reveal_vla_bimanual/docs/xorg.rtx6000.conf
+./code/reveal_vla_bimanual/envs/reveal310.yaml
+./code/reveal_vla_bimanual/envs/rlbench310.yaml
+./code/reveal_vla_bimanual/eval/__init__.py
+./code/reveal_vla_bimanual/eval/ablations.py
+./code/reveal_vla_bimanual/eval/metrics.py
+./code/reveal_vla_bimanual/eval/report.py
+./code/reveal_vla_bimanual/eval/run_ablations.py
+./code/reveal_vla_bimanual/eval/run_proxy_diagnostics.py
+./code/reveal_vla_bimanual/eval/run_reveal_benchmark.py
+./code/reveal_vla_bimanual/eval/run_rlbench_rollout_eval.py
+./code/reveal_vla_bimanual/models/__init__.py
+./code/reveal_vla_bimanual/models/action_decoder.py
+./code/reveal_vla_bimanual/models/backbones.py
+./code/reveal_vla_bimanual/models/multiview_fusion.py
+./code/reveal_vla_bimanual/models/observation_memory.py
+./code/reveal_vla_bimanual/models/planner.py
+./code/reveal_vla_bimanual/models/policy.py
+./code/reveal_vla_bimanual/models/reveal_head.py
+./code/reveal_vla_bimanual/models/world_model.py
+./code/reveal_vla_bimanual/pyproject.toml
+./code/reveal_vla_bimanual/pytorch3d/__init__.py
+./code/reveal_vla_bimanual/pytorch3d/transforms.py
+./code/reveal_vla_bimanual/reveal_vla_bimanual.egg-info/PKG-INFO
+./code/reveal_vla_bimanual/reveal_vla_bimanual.egg-info/SOURCES.txt
+./code/reveal_vla_bimanual/reveal_vla_bimanual.egg-info/dependency_links.txt
+./code/reveal_vla_bimanual/reveal_vla_bimanual.egg-info/requires.txt
+./code/reveal_vla_bimanual/reveal_vla_bimanual.egg-info/top_level.txt
+./code/reveal_vla_bimanual/scripts/download_coppeliasim.sh
+./code/reveal_vla_bimanual/scripts/install_micromamba.sh
+./code/reveal_vla_bimanual/scripts/setup_env_a_rlbench.sh
+./code/reveal_vla_bimanual/scripts/setup_env_b_reveal.sh
+./code/reveal_vla_bimanual/scripts/setup_rlbench_headless_x.sh
+./code/reveal_vla_bimanual/scripts/start_rlbench_x.sh
+./code/reveal_vla_bimanual/sim_reveal/__init__.py
+./code/reveal_vla_bimanual/sim_reveal/base.py
+./code/reveal_vla_bimanual/sim_reveal/dataset.py
+./code/reveal_vla_bimanual/sim_reveal/generate_dataset.py
+./code/reveal_vla_bimanual/sim_reveal/isaac_smoke.py
+./code/reveal_vla_bimanual/sim_reveal/isaac_wrapper.py
+./code/reveal_vla_bimanual/sim_reveal/labels.py
+./code/reveal_vla_bimanual/sim_reveal/procedural_envs.py
+./code/reveal_vla_bimanual/sim_reveal/proxy_specs.py
+./code/reveal_vla_bimanual/sim_reveal/teachers.py
+./code/reveal_vla_bimanual/sim_rlbench/__init__.py
+./code/reveal_vla_bimanual/sim_rlbench/camera_spec.py
+./code/reveal_vla_bimanual/sim_rlbench/dataset.py
+./code/reveal_vla_bimanual/sim_rlbench/dataset_download.py
+./code/reveal_vla_bimanual/sim_rlbench/generate_smoke_dataset.py
+./code/reveal_vla_bimanual/sim_rlbench/launch_smoke.py
+./code/reveal_vla_bimanual/sim_rlbench/obs_adapter.py
+./code/reveal_vla_bimanual/sim_rlbench/peract2_runner.py
+./code/reveal_vla_bimanual/sim_rlbench/smoke_test.py
+./code/reveal_vla_bimanual/sim_rlbench/task_splits.py
+./code/reveal_vla_bimanual/train/__init__.py
+./code/reveal_vla_bimanual/train/configs/base.yaml
+./code/reveal_vla_bimanual/train/configs/data/reveal_proxies.yaml
+./code/reveal_vla_bimanual/train/configs/data/rlbench_3cam.yaml
+./code/reveal_vla_bimanual/train/configs/model/backbone_only.yaml
+./code/reveal_vla_bimanual/train/configs/model/reveal_state.yaml
+./code/reveal_vla_bimanual/train/configs/proxy_backbone_only.yaml
+./code/reveal_vla_bimanual/train/configs/proxy_backbone_only_clip.yaml
+./code/reveal_vla_bimanual/train/configs/proxy_backbone_only_smoke.yaml
+./code/reveal_vla_bimanual/train/configs/proxy_interaction_state.yaml
+./code/reveal_vla_bimanual/train/configs/proxy_interaction_state_smoke.yaml
+./code/reveal_vla_bimanual/train/configs/proxy_reveal_state.yaml
+./code/reveal_vla_bimanual/train/configs/proxy_reveal_state_clip.yaml
+./code/reveal_vla_bimanual/train/configs/proxy_reveal_state_smoke.yaml
+./code/reveal_vla_bimanual/train/configs/rlbench_open_drawer_interaction_smoke.yaml
+./code/reveal_vla_bimanual/train/configs/rlbench_peract2_13_interaction_state_dummy.yaml
+./code/reveal_vla_bimanual/train/configs/rlbench_subset3_backbone_only_clip.yaml
+./code/reveal_vla_bimanual/train/configs/rlbench_subset3_backbone_only_dummy.yaml
+./code/reveal_vla_bimanual/train/configs/rlbench_subset3_interaction_state_dummy.yaml
+./code/reveal_vla_bimanual/train/configs/rlbench_subset3_reveal_state_clip.yaml
+./code/reveal_vla_bimanual/train/configs/rlbench_subset3_reveal_state_dummy.yaml
+./code/reveal_vla_bimanual/train/losses.py
+./code/reveal_vla_bimanual/train/run_experiment.py
+./code/reveal_vla_bimanual/train/run_rlbench_experiment.py
+./code/reveal_vla_bimanual/train/smoke_checks.py
+./code/reveal_vla_bimanual/train/trainer.py
+./code/upstream_local_patches/YARR/yarr/runners/_independent_env_runner.py
+./code/upstream_local_patches/peract_bimanual/agents/bimanual_peract/qattention_peract_bc_agent.py
+./environment/README.md
+./environment/glxinfo_B.txt
+./environment/hardware_snapshot.txt
+./environment/reveal_env_explicit.txt
+./environment/reveal_env_export.yaml
+./environment/reveal_pip_freeze.txt
+./environment/rlbench_env_explicit.txt
+./environment/rlbench_env_export.yaml
+./environment/rlbench_pip_freeze.txt
+./environment/setup_same_machine.sh
+./environment/system_packages_same_machine.txt
+./environment/upstream_revisions.txt
+./environment/validate_same_machine.sh
+./export_manifest_data.json

MODEL_INDEX.md CHANGED Viewed

@@ -58,6 +58,66 @@ This file lists the uploaded checkpoints, datasets, and raw report files referen
 - CLIP 18-episode ablation partial checkpoint
   - `artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep18/ablations.partial.json`
 ## Smoke Artifacts
 - proxy backbone-only smoke checkpoint
@@ -79,5 +139,9 @@ This file lists the uploaded checkpoints, datasets, and raw report files referen
   - `environment/glxinfo_B.txt`
 - third-party pins
   - `environment/upstream_revisions.txt`
 - same-machine setup helper
   - `environment/setup_same_machine.sh`

 - CLIP 18-episode ablation partial checkpoint
   - `artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep18/ablations.partial.json`
+## Interaction-State Outputs
+- interaction-state smoke checkpoint
+  - `artifacts/outputs/interaction/proxy_interaction_state_smoke/checkpoint_best.pt`
+- interaction-state smoke metrics
+  - `artifacts/outputs/interaction/proxy_interaction_state_smoke/metrics.json`
+- interaction-state smoke diagnostics
+  - `artifacts/outputs/interaction/proxy_interaction_state_smoke/diagnostics/proxy_diagnostics.json`
+- interaction-state smoke benchmark JSON
+  - `artifacts/outputs/interaction/reveal_eval_interaction_ep2/reveal_benchmark.json`
+- interaction-state full checkpoint
+  - `artifacts/outputs/interaction/proxy_interaction_state/checkpoint_best.pt`
+- interaction-state full metrics
+  - `artifacts/outputs/interaction/proxy_interaction_state/metrics.json`
+- interaction-state full diagnostics
+  - `artifacts/outputs/interaction/proxy_interaction_state/diagnostics/proxy_diagnostics.json`
+- interaction-state full benchmark JSON
+  - `artifacts/outputs/interaction/reveal_eval_interaction_full_ep2/reveal_benchmark.json`
+- interaction-state ablation JSON
+  - `artifacts/outputs/interaction/reveal_ablation_interaction_ep1/ablations.json`
+- interaction-state rolefix smoke checkpoint
+  - `artifacts/outputs/interaction_rolefix/proxy_interaction_state_smoke/checkpoint_best.pt`
+- interaction-state rolefix smoke metrics
+  - `artifacts/outputs/interaction_rolefix/proxy_interaction_state_smoke/metrics.json`
+- interaction-state rolefix smoke diagnostics
+  - `artifacts/outputs/interaction_rolefix/proxy_interaction_state_smoke/diagnostics/proxy_diagnostics.json`
+- interaction-state rolefix smoke benchmark JSON
+  - `artifacts/outputs/interaction_rolefix/reveal_eval_interaction_smoke/reveal_benchmark.json`
+- interaction-state rolefix full checkpoint
+  - `artifacts/outputs/interaction_rolefix_full/proxy_interaction_state/checkpoint_best.pt`
+- interaction-state rolefix full metrics
+  - `artifacts/outputs/interaction_rolefix_full/proxy_interaction_state/metrics.json`
+- interaction-state rolefix full diagnostics
+  - `artifacts/outputs/interaction_rolefix_full/proxy_interaction_state/diagnostics/proxy_diagnostics.json`
+- interaction-state rolefix full benchmark JSON
+  - `artifacts/outputs/interaction_rolefix_full/reveal_eval_interaction/reveal_benchmark.json`
+## RLBench Two-Robot Smoke Outputs
+- import smoke JSON
+  - `artifacts/outputs/interaction/rlbench_env_smoke/import_smoke.json`
+- launch reset smoke JSON
+  - `artifacts/outputs/interaction/rlbench_env_smoke/launch_reset_smoke.json`
+- launch step smoke JSON
+  - `artifacts/outputs/interaction/rlbench_env_smoke/launch_step_smoke.json`
+- launch smoke CLI JSON
+  - `artifacts/outputs/interaction/rlbench_env_smoke/launch_smoke_cli.json`
+- train command export
+  - `artifacts/outputs/interaction/rlbench_env_smoke/import_and_train_command.txt`
+- RLBench open_drawer smoke checkpoint
+  - `artifacts/outputs/interaction/rlbench_open_drawer_interaction_smoke/checkpoint_best.pt`
+- RLBench open_drawer smoke summary
+  - `artifacts/outputs/interaction/rlbench_open_drawer_interaction_smoke/summary.json`
+- RLBench open_drawer rollout eval JSON
+  - `artifacts/outputs/interaction/rlbench_open_drawer_rollout_eval/rollout_eval.json`
+- RLBench open_drawer rollout eval Markdown
+  - `artifacts/outputs/interaction/rlbench_open_drawer_rollout_eval/rollout_eval.md`
+- RLBench smoke dataset root
+  - `artifacts/data/rlbench_smoke_open_drawer/`
 ## Smoke Artifacts
 - proxy backbone-only smoke checkpoint
   - `environment/glxinfo_B.txt`
 - third-party pins
   - `environment/upstream_revisions.txt`
+- same-machine system packages
+  - `environment/system_packages_same_machine.txt`
 - same-machine setup helper
   - `environment/setup_same_machine.sh`
+- same-machine validation helper
+  - `environment/validate_same_machine.sh`

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 # VLAarchtests
-Bundle uploaded from the `/workspace` runpod session dated `2026-03-23`.
 ## Contents
@@ -31,6 +31,19 @@ Raw machine outputs are in:
 - `environment/hardware_snapshot.txt`
 - `environment/glxinfo_B.txt`
 ## Raw Training Endpoints
 | Run | Checkpoint | Final train total | Final val total | Metrics |
@@ -74,6 +87,67 @@ Source: `artifacts/outputs/reveal_runs/reveal_ablation_v4_clip_ep18/ablations.js
 | no_wrist_cameras | 0.35185185185185186 | 0.3333333333333333 | 0.3888888888888889 | 0.3333333333333333 | 41.34216132428911 | 0.8971193510073202 | 0.0011574074074074073 | 0.9659118890357264 | 0.6302977896950863 |
 | no_global_camera | 0.35185185185185186 | 0.3333333333333333 | 0.3888888888888889 | 0.3333333333333333 | 41.33038121020353 | 0.8943758684175985 | 0.002777777777777778 | 0.9659084288095618 | 0.6303076523321646 |
 ## RLBench Headless Smoke
 The headless X server files used on this node are:
@@ -92,6 +166,7 @@ The smoke output file is:
 - `artifacts/data/reveal_proxy/proxy_val_v4_noleak_counterfactual.pt`
 - `artifacts/data/reveal_proxy/proxy_train_clip224_v4_noleak_counterfactual.pt`
 - `artifacts/data/reveal_proxy/proxy_val_clip224_v4_noleak_counterfactual.pt`
 ## Recreate The Same Software Layout
@@ -99,6 +174,7 @@ Use:
 ```bash
 /workspace/VLAarchtests/environment/setup_same_machine.sh
 ```
 That helper:
@@ -113,6 +189,7 @@ That helper:
 Raw setup metadata is in:
 - `environment/upstream_revisions.txt`
 - `environment/rlbench_env_export.yaml`
 - `environment/rlbench_env_explicit.txt`
 - `environment/rlbench_pip_freeze.txt`

 # VLAarchtests
+Bundle uploaded from the `/workspace` runpod session dated `2026-03-24`.
 ## Contents
 - `environment/hardware_snapshot.txt`
 - `environment/glxinfo_B.txt`
+## Same-Machine Setup Files
+- `environment/setup_same_machine.sh`
+- `environment/validate_same_machine.sh`
+- `environment/system_packages_same_machine.txt`
+- `environment/upstream_revisions.txt`
+- `environment/rlbench_env_export.yaml`
+- `environment/rlbench_env_explicit.txt`
+- `environment/rlbench_pip_freeze.txt`
+- `environment/reveal_env_export.yaml`
+- `environment/reveal_env_explicit.txt`
+- `environment/reveal_pip_freeze.txt`
 ## Raw Training Endpoints
 | Run | Checkpoint | Final train total | Final val total | Metrics |
 | no_wrist_cameras | 0.35185185185185186 | 0.3333333333333333 | 0.3888888888888889 | 0.3333333333333333 | 41.34216132428911 | 0.8971193510073202 | 0.0011574074074074073 | 0.9659118890357264 | 0.6302977896950863 |
 | no_global_camera | 0.35185185185185186 | 0.3333333333333333 | 0.3888888888888889 | 0.3333333333333333 | 41.33038121020353 | 0.8943758684175985 | 0.002777777777777778 | 0.9659084288095618 | 0.6303076523321646 |
+## Raw Interaction-State Training Endpoints
+| Run | Checkpoint | Final train total | Final val total | Metrics |
+| --- | --- | ---: | ---: | --- |
+| interaction-state smoke | `artifacts/outputs/interaction/proxy_interaction_state_smoke/checkpoint_best.pt` | 1.2046506234577723 | 1.1171032786369324 | `artifacts/outputs/interaction/proxy_interaction_state_smoke/metrics.json` |
+| interaction-state full | `artifacts/outputs/interaction/proxy_interaction_state/checkpoint_best.pt` | 1.0910143380363782 | 1.1184726804494858 | `artifacts/outputs/interaction/proxy_interaction_state/metrics.json` |
+| interaction-state rolefix smoke | `artifacts/outputs/interaction_rolefix/proxy_interaction_state_smoke/checkpoint_best.pt` | 1.205997347831726 | 1.130429446697235 | `artifacts/outputs/interaction_rolefix/proxy_interaction_state_smoke/metrics.json` |
+| interaction-state rolefix full | `artifacts/outputs/interaction_rolefix_full/proxy_interaction_state/checkpoint_best.pt` | 1.1160989701747894 | 1.0928071364760399 | `artifacts/outputs/interaction_rolefix_full/proxy_interaction_state/metrics.json` |
+| RLBench `open_drawer` smoke | `artifacts/outputs/interaction/rlbench_open_drawer_interaction_smoke/checkpoint_best.pt` | 0.1628243774175644 | 0.05217807739973068 | `artifacts/outputs/interaction/rlbench_open_drawer_interaction_smoke/summary.json` |
+## Raw Interaction-State Proxy Diagnostics
+| Run | Planner top-1 accuracy | Planner regret | Risk calibration MSE | Role collapse rate | Samples | JSON |
+| --- | ---: | ---: | ---: | ---: | ---: | --- |
+| reveal-state smoke | 0.25 | 0.2715669870376587 | 0.0521860271692276 | 0.0 | 16 | `artifacts/outputs/interaction/proxy_reveal_state_smoke_diagnostics/proxy_diagnostics.json` |
+| reveal-state full | 0.2698412698412698 | 0.3642531931400299 | 0.011263838969171047 | 0.0 | 126 | `artifacts/outputs/interaction/proxy_reveal_state_full_diagnostics/proxy_diagnostics.json` |
+| interaction-state smoke | 0.375 | 0.4054882526397705 | 0.01106204278767109 | 1.0 | 16 | `artifacts/outputs/interaction/proxy_interaction_state_smoke/diagnostics/proxy_diagnostics.json` |
+| interaction-state full | 0.42857142857142855 | 0.1302730292081833 | 0.010318642482161522 | 1.0 | 126 | `artifacts/outputs/interaction/proxy_interaction_state/diagnostics/proxy_diagnostics.json` |
+| interaction-state rolefix smoke | 0.5 | 0.28291308879852295 | 0.011351427994668484 | 0.0 | 16 | `artifacts/outputs/interaction_rolefix/proxy_interaction_state_smoke/diagnostics/proxy_diagnostics.json` |
+| interaction-state rolefix full | 0.29365079365079366 | 0.08918909728527069 | 0.009334742091596127 | 0.0 | 126 | `artifacts/outputs/interaction_rolefix_full/proxy_interaction_state/diagnostics/proxy_diagnostics.json` |
+## Raw Interaction-State Proxy Benchmark Results
+| Run | Mean success | foliage_proxy | bag_proxy | cloth_proxy | visibility_integral | corridor_availability | reocclusion_rate | persistence_horizon_mae | disturbance_cost | JSON |
+| --- | ---: | ---: | ---: | ---: | ---: | ---: | ---: | ---: | ---: | --- |
+| interaction-state smoke | 0.0 | 0.0 | 0.0 | 0.0 | 62.47385279337565 | 0.9876543283462524 | 0.0 | 2.8290874414145946 | 0.9037613173325857 | `artifacts/outputs/interaction/reveal_eval_interaction_ep2/reveal_benchmark.json` |
+| interaction-state full | 0.0 | 0.0 | 0.0 | 0.0 | 62.6574592590332 | 0.9876543283462524 | 0.0 | 2.1672919432322186 | 0.8980477948983511 | `artifacts/outputs/interaction/reveal_eval_interaction_full_ep2/reveal_benchmark.json` |
+| interaction-state rolefix smoke | 0.0 | 0.0 | 0.0 | 0.0 | 62.513198375701904 | 0.9871399253606796 | 0.0 | 2.8390470795333385 | 0.9011474947134653 | `artifacts/outputs/interaction_rolefix/reveal_eval_interaction_smoke/reveal_benchmark.json` |
+| interaction-state rolefix full | 0.0 | 0.0 | 0.0 | 0.0 | 64.04203844070435 | 0.9837105721235275 | 0.0 | 1.7914747282500483 | 0.8335009200705422 | `artifacts/outputs/interaction_rolefix_full/reveal_eval_interaction/reveal_benchmark.json` |
+## Raw Interaction-State Ablation Results
+Source: `artifacts/outputs/interaction/reveal_ablation_interaction_ep1/ablations.json`
+| Ablation | Mean success | foliage_proxy | bag_proxy | cloth_proxy | visibility_integral | corridor_availability | reocclusion_rate | persistence_horizon_mae | disturbance_cost |
+| --- | ---: | ---: | ---: | ---: | ---: | ---: | ---: | ---: | ---: |
+| full_model | 0.0 | 0.0 | 0.0 | 0.0 | 67.46570078531902 | 0.9835391044616699 | 0.0 | 2.9001280729969343 | 0.7520796457926432 |
+| no_interaction_head | 0.0 | 0.0 | 0.0 | 0.0 | 63.56013615926107 | 0.9876543283462524 | 0.0 | null | 0.8973869283994039 |
+| no_world_model | 0.0 | 0.0 | 0.0 | 0.0 | 63.46492385864258 | 0.9876543283462524 | 0.0 | 2.8303335145115853 | 0.900044322013855 |
+| no_planner | 0.0 | 0.0 | 0.0 | 0.0 | 63.54209772745768 | 0.9876543283462524 | 0.0 | 2.8313964143395425 | 0.8962932030359904 |
+| no_role_tokens | 0.0 | 0.0 | 0.0 | 0.0 | 67.39010111490886 | 0.9835391044616699 | 0.0 | 2.8990648205081624 | 0.7544853488604227 |
+| short_history | 0.0 | 0.0 | 0.0 | 0.0 | 67.46627298990886 | 0.9835391044616699 | 0.0 | 2.900133213897546 | 0.7520630160967509 |
+## Raw RLBench Two-Robot Outputs
+### Env Smoke
+| Output | Raw values | File |
+| --- | --- | --- |
+| import smoke | `resolved_upstream_root=/workspace/third_party/peract_bimanual/peract`, `imports.rlbench=ok`, `imports.pyrep=ok`, `imports.yarr=ok` | `artifacts/outputs/interaction/rlbench_env_smoke/import_smoke.json` |
+| launch reset smoke | `description=\"hold the drawer with left hand and open the bottom drawer with right hand\"`, `front_rgb_shape=[128,128,3]`, `wrist_rgb_shape=[128,128,3]`, `wrist2_rgb_shape=[128,128,3]`, `right_pose_shape=[7]`, `left_pose_shape=[7]` | `artifacts/outputs/interaction/rlbench_env_smoke/launch_reset_smoke.json` |
+| launch step smoke | `description=\"hold the drawer with left hand and open the bottom drawer with right hand\"`, `reward=0.0`, `done=false`, `front_rgb_shape_after_step=[128,128,3]` | `artifacts/outputs/interaction/rlbench_env_smoke/launch_step_smoke.json` |
+| train command export | raw command text | `artifacts/outputs/interaction/rlbench_env_smoke/import_and_train_command.txt` |
+### Offline Smoke And Rollout Eval
+| Output | Raw values | File |
+| --- | --- | --- |
+| offline RLBench smoke summary | `train_dataset.num_samples=1`, `val_dataset.num_samples=1`, `plan_enabled_for_eval=true`, `frozen_modules=[interaction_head, world_model, planner]` | `artifacts/outputs/interaction/rlbench_open_drawer_interaction_smoke/summary.json` |
+| rollout eval | `plan_requested=true`, `plan_applied=true`, `tasks.open_drawer.error=\"A path could not be found because the target is outside of workspace.\"`, `mean_success=0.0` | `artifacts/outputs/interaction/rlbench_open_drawer_rollout_eval/rollout_eval.json` |
 ## RLBench Headless Smoke
 The headless X server files used on this node are:
 - `artifacts/data/reveal_proxy/proxy_val_v4_noleak_counterfactual.pt`
 - `artifacts/data/reveal_proxy/proxy_train_clip224_v4_noleak_counterfactual.pt`
 - `artifacts/data/reveal_proxy/proxy_val_clip224_v4_noleak_counterfactual.pt`
+- `artifacts/data/rlbench_smoke_open_drawer/`
 ## Recreate The Same Software Layout
 ```bash
 /workspace/VLAarchtests/environment/setup_same_machine.sh
+/workspace/VLAarchtests/environment/validate_same_machine.sh
 ```
 That helper:
 Raw setup metadata is in:
 - `environment/upstream_revisions.txt`
+- `environment/system_packages_same_machine.txt`
 - `environment/rlbench_env_export.yaml`
 - `environment/rlbench_env_explicit.txt`
 - `environment/rlbench_pip_freeze.txt`

code/reveal_vla_bimanual/sim_rlbench/launch_smoke.py CHANGED Viewed

@@ -5,84 +5,73 @@ import json
 import os
 import numpy as np
-from helpers.observation_utils import create_obs_config
-from rlbench.action_modes.action_mode import BimanualJointPositionActionMode
 from rlbench.backend.utils import task_file_to_task_class
-from rlbench.environment import Environment
-from sim_rlbench.obs_adapter import extract_canonical_bimanual_obs
 def main() -> None:
     parser = argparse.ArgumentParser()
-    parser.add_argument("--task", default="bimanual_lift_ball")
     parser.add_argument("--resolution", type=int, default=224)
     parser.add_argument("--display", default=None)
     parser.add_argument("--headless", action="store_true", default=True)
     parser.add_argument("--visible", action="store_true")
     args = parser.parse_args()
     headless = args.headless and not args.visible
-    cameras = ["front", "wrist_left", "wrist_right"]
-    obs_config = create_obs_config(
-        cameras,
-        [args.resolution, args.resolution],
-        "BIMANUAL_PERACT",
-        "bimanual",
     )
-    env = Environment(
-        action_mode=BimanualJointPositionActionMode(),
         obs_config=obs_config,
         headless=headless,
-        robot_setup="dual_panda",
     )
     try:
         env.launch()
-        task_cls = task_file_to_task_class(args.task, bimanual=True)
         task = env.get_task(task_cls)
         descriptions, obs = task.reset()
-        canonical = extract_canonical_bimanual_obs(
-            obs,
-            descriptions[0],
-            include_point_cloud=True,
-        )
-        right_joint_positions = np.asarray(obs.right.joint_positions, dtype=np.float32)
-        left_joint_positions = np.asarray(obs.left.joint_positions, dtype=np.float32)
-        right_open = float(obs.right.gripper_open)
-        left_open = float(obs.left.gripper_open)
-        action = np.concatenate(
-            [
-                right_joint_positions,
-                np.array([right_open], dtype=np.float32),
-                left_joint_positions,
-                np.array([left_open], dtype=np.float32),
-            ],
-            axis=0,
-        )
-        next_obs, reward, done = task.step(action)
         payload = {
             "display": args.display or os.environ.get("DISPLAY"),
             "headless": headless,
-            "task": task.get_name(),
-            "description": descriptions[0],
-            "rgb_shapes": {k: list(v.shape) for k, v in canonical.rgb.items()},
-            "intrinsic_shapes": {
-                k: list(v.shape) for k, v in canonical.camera_intrinsics.items()
-            },
-            "extrinsic_shapes": {
-                k: list(v.shape) for k, v in canonical.camera_extrinsics.items()
-            },
-            "point_cloud_shapes": {
-                k: list(v.shape) for k, v in canonical.point_cloud.items()
-            },
-            "proprio_shape": list(canonical.proprio.shape),
-            "action_shape": list(action.shape),
             "reward": float(reward),
             "done": bool(done),
-            "front_rgb_shape_after_step": list(next_obs.perception_data["front_rgb"].shape),
         }
         print(json.dumps(payload, indent=2))
     finally:

 import os
 import numpy as np
+from helpers.utils import create_obs_config
+from rlbench.action_modes.action_mode import MoveArmThenGripper2Robots
+from rlbench.action_modes.arm_action_modes import EndEffectorPoseViaPlanning2Robots
+from rlbench.action_modes.gripper_action_modes import Discrete2Robots
 from rlbench.backend.utils import task_file_to_task_class
+from rlbench.environments_two_robots import Environment2Robots
+from sim_rlbench.camera_spec import default_three_camera_spec
+def _noop_arm_action(obs: object, arm_name: str) -> np.ndarray:
+    if arm_name == "right":
+        pose = np.asarray(obs.gripper_right_pose, dtype=np.float32)
+        gripper_open = float(obs.gripper_right_open)
+    elif arm_name == "left":
+        pose = np.asarray(obs.gripper_left_pose, dtype=np.float32)
+        gripper_open = float(obs.gripper_left_open)
+    else:  # pragma: no cover - smoke-only guard
+        raise ValueError(f"Unsupported arm: {arm_name}")
+    return np.concatenate([pose, np.array([gripper_open, 1.0], dtype=np.float32)], axis=0)
 def main() -> None:
     parser = argparse.ArgumentParser()
+    parser.add_argument("--task", default="open_drawer")
     parser.add_argument("--resolution", type=int, default=224)
     parser.add_argument("--display", default=None)
     parser.add_argument("--headless", action="store_true", default=True)
     parser.add_argument("--visible", action="store_true")
+    parser.add_argument("--arm", choices=("right", "left"), default="right")
     args = parser.parse_args()
     headless = args.headless and not args.visible
+    spec = default_three_camera_spec(args.resolution)
+    task_cls = task_file_to_task_class(args.task)
+    obs_config = create_obs_config(list(spec.upstream_cameras), [args.resolution, args.resolution], "PERACT_BC")
+    action_mode = MoveArmThenGripper2Robots(
+        EndEffectorPoseViaPlanning2Robots(absolute_mode=True, frame="world", collision_checking=False),
+        Discrete2Robots(),
     )
+    env = Environment2Robots(
+        action_mode=action_mode,
         obs_config=obs_config,
         headless=headless,
+        robot_setup="panda",
+        task_name=task_cls.__name__,
     )
     try:
         env.launch()
         task = env.get_task(task_cls)
         descriptions, obs = task.reset()
+        next_obs, reward, done = task.step(_noop_arm_action(obs, args.arm), args.arm)
         payload = {
             "display": args.display or os.environ.get("DISPLAY"),
             "headless": headless,
+            "task": task_cls.__name__,
+            "description": descriptions[0] if descriptions else "",
+            "front_rgb_shape": None if obs.front_rgb is None else list(obs.front_rgb.shape),
+            "wrist_rgb_shape": None if obs.wrist_rgb is None else list(obs.wrist_rgb.shape),
+            "wrist2_rgb_shape": None if obs.wrist2_rgb is None else list(obs.wrist2_rgb.shape),
+            "right_pose_shape": None if obs.gripper_right_pose is None else list(obs.gripper_right_pose.shape),
+            "left_pose_shape": None if obs.gripper_left_pose is None else list(obs.gripper_left_pose.shape),
+            "stepped_arm": args.arm,
             "reward": float(reward),
             "done": bool(done),
+            "front_rgb_shape_after_step": None if next_obs.front_rgb is None else list(next_obs.front_rgb.shape),
         }
         print(json.dumps(payload, indent=2))
     finally:

code/reveal_vla_bimanual/train/configs/proxy_interaction_state.yaml ADDED Viewed

	@@ -0,0 +1,122 @@

+experiment_name: proxy_interaction_state
+output_dir: /workspace/VLAarchtests/artifacts/outputs/interaction
+device: cuda
+seed: 13
+data:
+  proxies: [foliage_proxy, bag_proxy, cloth_proxy]
+  resolution: 96
+  train_episodes_per_proxy: 48
+  val_episodes_per_proxy: 16
+  train_dataset_path: /workspace/VLAarchtests/artifacts/data/reveal_proxy/proxy_train_v4_noleak_counterfactual.pt
+  val_dataset_path: /workspace/VLAarchtests/artifacts/data/reveal_proxy/proxy_val_v4_noleak_counterfactual.pt
+  rebuild_dataset: false
+  chunk_horizon: 8
+  rollout_horizon: 5
+  history_steps: 6
+  planner_candidates: 8
+  seed: 13
+optim:
+  epochs: 8
+  batch_size: 16
+  num_workers: 0
+  lr: 0.001
+  weight_decay: 0.0001
+trainer:
+  policy_type: interaction_state
+  use_bf16: true
+  grad_clip_norm: 1.0
+  freeze_backbone: true
+  gradient_checkpointing: false
+  plan_during_train: true
+  plan_during_eval: true
+  support_mode_conditioning: true
+  planner_mode: trainable
+policy:
+  backbone:
+    model_name: openai/clip-vit-base-patch32
+    hidden_dim: 128
+    max_text_tokens: 32
+    freeze_backbone: true
+    gradient_checkpointing: false
+    use_dummy_backbone: true
+  fusion:
+    hidden_dim: 128
+    num_cameras: 3
+    num_layers: 2
+    num_heads: 4
+    ff_dim: 256
+    dropout: 0.1
+    proprio_dim: 32
+    proprio_tokens: 1
+  memory:
+    hidden_dim: 128
+    history_steps: 6
+    num_layers: 2
+    dropout: 0.1
+    memory_bank_size: 4
+    num_heads: 4
+    max_history_steps: 8
+  decoder:
+    hidden_dim: 128
+    num_heads: 4
+    num_layers: 2
+    ff_dim: 256
+    dropout: 0.1
+    chunk_size: 8
+    action_dim: 14
+    arm_action_dim: 7
+    num_candidates: 8
+    num_phases: 5
+    num_arm_roles: 4
+  reveal_head:
+    hidden_dim: 128
+    num_support_modes: 3
+    num_approach_templates: 32
+    rollout_horizon: 5
+    belief_map_size: 32
+    field_size: 16
+    num_heads: 4
+    predict_belief_map: true
+    num_phases: 5
+    num_arm_roles: 4
+    num_interaction_tokens: 8
+  world_model:
+    hidden_dim: 128
+    action_dim: 14
+    num_support_modes: 3
+    num_approach_templates: 32
+    rollout_horizon: 5
+    field_size: 16
+    num_heads: 4
+    num_phases: 5
+    num_arm_roles: 4
+    num_interaction_tokens: 8
+  planner:
+    hidden_dim: 128
+    num_candidates: 8
+    action_dim: 14
+    num_support_modes: 3
+    utility_margin: 0.1
+    num_heads: 4
+    num_layers: 2
+    num_phases: 5
+    num_arm_roles: 4
+loss_weights:
+  action: 1.0
+  support_mode: 0.15
+  corridor: 0.2
+  persistence: 0.1
+  disturbance: 0.1
+  world_model: 0.25
+  belief: 0.05
+  planner_success: 0.2
+  planner_risk: 0.1
+  planner_ranking: 0.1
+  proposal_reconstruction: 0.2
+  proposal_success: 0.1
+  proposal_ranking: 0.1

code/reveal_vla_bimanual/train/configs/proxy_interaction_state_smoke.yaml ADDED Viewed

	@@ -0,0 +1,122 @@

+experiment_name: proxy_interaction_state_smoke
+output_dir: /workspace/VLAarchtests/artifacts/outputs/interaction
+device: cuda
+seed: 13
+data:
+  proxies: [foliage_proxy, bag_proxy, cloth_proxy]
+  resolution: 64
+  train_episodes_per_proxy: 6
+  val_episodes_per_proxy: 2
+  train_dataset_path: /workspace/VLAarchtests/artifacts/data/reveal_proxy/proxy_train_smoke_v4.pt
+  val_dataset_path: /workspace/VLAarchtests/artifacts/data/reveal_proxy/proxy_val_smoke_v4.pt
+  rebuild_dataset: false
+  chunk_horizon: 4
+  rollout_horizon: 3
+  history_steps: 6
+  planner_candidates: 4
+  seed: 13
+optim:
+  epochs: 2
+  batch_size: 8
+  num_workers: 0
+  lr: 0.001
+  weight_decay: 0.0001
+trainer:
+  policy_type: interaction_state
+  use_bf16: true
+  grad_clip_norm: 1.0
+  freeze_backbone: true
+  gradient_checkpointing: false
+  plan_during_train: true
+  plan_during_eval: true
+  support_mode_conditioning: true
+  planner_mode: trainable
+policy:
+  backbone:
+    model_name: openai/clip-vit-base-patch32
+    hidden_dim: 64
+    max_text_tokens: 32
+    freeze_backbone: true
+    gradient_checkpointing: false
+    use_dummy_backbone: true
+  fusion:
+    hidden_dim: 64
+    num_cameras: 3
+    num_layers: 2
+    num_heads: 4
+    ff_dim: 128
+    dropout: 0.1
+    proprio_dim: 32
+    proprio_tokens: 1
+  memory:
+    hidden_dim: 64
+    history_steps: 6
+    num_layers: 2
+    dropout: 0.1
+    memory_bank_size: 4
+    num_heads: 4
+    max_history_steps: 8
+  decoder:
+    hidden_dim: 64
+    num_heads: 4
+    num_layers: 2
+    ff_dim: 128
+    dropout: 0.1
+    chunk_size: 4
+    action_dim: 14
+    arm_action_dim: 7
+    num_candidates: 4
+    num_phases: 5
+    num_arm_roles: 4
+  reveal_head:
+    hidden_dim: 64
+    num_support_modes: 3
+    num_approach_templates: 32
+    rollout_horizon: 3
+    belief_map_size: 32
+    field_size: 16
+    num_heads: 4
+    predict_belief_map: true
+    num_phases: 5
+    num_arm_roles: 4
+    num_interaction_tokens: 8
+  world_model:
+    hidden_dim: 64
+    action_dim: 14
+    num_support_modes: 3
+    num_approach_templates: 32
+    rollout_horizon: 3
+    field_size: 16
+    num_heads: 4
+    num_phases: 5
+    num_arm_roles: 4
+    num_interaction_tokens: 8
+  planner:
+    hidden_dim: 64
+    num_candidates: 4
+    action_dim: 14
+    num_support_modes: 3
+    utility_margin: 0.1
+    num_heads: 4
+    num_layers: 2
+    num_phases: 5
+    num_arm_roles: 4
+loss_weights:
+  action: 1.0
+  support_mode: 0.15
+  corridor: 0.2
+  persistence: 0.1
+  disturbance: 0.1
+  world_model: 0.25
+  belief: 0.05
+  planner_success: 0.2
+  planner_risk: 0.1
+  planner_ranking: 0.1
+  proposal_reconstruction: 0.2
+  proposal_success: 0.1
+  proposal_ranking: 0.1

code/reveal_vla_bimanual/train/configs/rlbench_open_drawer_interaction_smoke.yaml ADDED Viewed

	@@ -0,0 +1,128 @@

+experiment_name: rlbench_open_drawer_interaction_smoke
+output_dir: /workspace/VLAarchtests/artifacts/outputs/interaction
+device: cuda
+seed: 13
+init_checkpoint: /workspace/VLAarchtests/artifacts/outputs/interaction/proxy_interaction_state_smoke/checkpoint_best.pt
+init_strict: false
+data:
+  dataset_root: /workspace/VLAarchtests/artifacts/data/rlbench_smoke_open_drawer
+  tasks: [open_drawer]
+  train_episodes: [0]
+  val_episodes: [1]
+  resolution: 128
+  chunk_horizon: 4
+  proprio_dim: 32
+  history_steps: 6
+  max_train_samples: 8
+  max_val_samples: 4
+optim:
+  epochs: 1
+  batch_size: 2
+  num_workers: 0
+  lr: 0.0005
+  weight_decay: 0.0001
+trainer:
+  policy_type: interaction_state
+  use_bf16: true
+  grad_clip_norm: 1.0
+  freeze_backbone: true
+  gradient_checkpointing: false
+  plan_during_train: false
+  plan_during_eval: true
+  support_mode_conditioning: true
+  planner_mode: proxy_pretrained
+policy:
+  backbone:
+    model_name: openai/clip-vit-base-patch32
+    hidden_dim: 64
+    max_text_tokens: 32
+    freeze_backbone: true
+    gradient_checkpointing: false
+    use_dummy_backbone: true
+  fusion:
+    hidden_dim: 64
+    num_cameras: 3
+    num_layers: 2
+    num_heads: 4
+    ff_dim: 128
+    dropout: 0.1
+    proprio_dim: 32
+    proprio_tokens: 1
+  memory:
+    hidden_dim: 64
+    history_steps: 6
+    num_layers: 2
+    dropout: 0.1
+    memory_bank_size: 4
+    num_heads: 4
+    max_history_steps: 8
+  decoder:
+    hidden_dim: 64
+    num_heads: 4
+    num_layers: 2
+    ff_dim: 128
+    dropout: 0.1
+    chunk_size: 4
+    action_dim: 14
+    arm_action_dim: 7
+    num_candidates: 4
+    num_phases: 5
+    num_arm_roles: 4
+  reveal_head:
+    hidden_dim: 64
+    num_support_modes: 3
+    num_approach_templates: 32
+    rollout_horizon: 3
+    belief_map_size: 32
+    field_size: 16
+    num_heads: 4
+    predict_belief_map: true
+    num_phases: 5
+    num_arm_roles: 4
+    num_interaction_tokens: 8
+  world_model:
+    hidden_dim: 64
+    action_dim: 14
+    num_support_modes: 3
+    num_approach_templates: 32
+    rollout_horizon: 3
+    field_size: 16
+    num_heads: 4
+    num_phases: 5
+    num_arm_roles: 4
+    num_interaction_tokens: 8
+    belief_map_size: 32
+    predict_belief_map: true
+  planner:
+    hidden_dim: 64
+    num_candidates: 4
+    action_dim: 14
+    num_support_modes: 3
+    utility_margin: 0.1
+    corridor_weight: 1.0
+    persistence_weight: 0.5
+    proposal_weight: 0.5
+    task_progress_weight: 0.75
+    disturbance_weight: 0.75
+    reocclusion_weight: 0.5
+    visibility_weight: 0.25
+    num_heads: 4
+    num_layers: 2
+    num_phases: 5
+    num_arm_roles: 4
+loss_weights:
+  action: 1.0
+  support_mode: 0.0
+  corridor: 0.0
+  persistence: 0.0
+  disturbance: 0.0
+  world_model: 0.0
+  belief: 0.0
+  planner_success: 0.0
+  planner_risk: 0.0
+  planner_ranking: 0.0

code/reveal_vla_bimanual/train/configs/rlbench_peract2_13_interaction_state_dummy.yaml ADDED Viewed

	@@ -0,0 +1,132 @@

+experiment_name: rlbench_peract2_13_interaction_state_dummy
+output_dir: /workspace/VLAarchtests/artifacts/outputs/interaction
+device: cuda
+seed: 13
+init_checkpoint: /workspace/VLAarchtests/artifacts/outputs/interaction/proxy_interaction_state/checkpoint_best.pt
+init_strict: false
+data:
+  dataset_root: /workspace/data/rlbench2
+  tasks:
+    [
+      bimanual_push_box,
+      bimanual_lift_ball,
+      bimanual_dual_push_buttons,
+      bimanual_pick_plate,
+      bimanual_put_item_in_drawer,
+      bimanual_put_bottle_in_fridge,
+      bimanual_handover_item,
+      bimanual_pick_laptop,
+      bimanual_straighten_rope,
+      bimanual_sweep_to_dustpan,
+      bimanual_lift_tray,
+      bimanual_handover_item_easy,
+      bimanual_take_tray_out_of_oven,
+    ]
+  train_episodes: [0]
+  val_episodes: [1]
+  resolution: 224
+  chunk_horizon: 8
+  proprio_dim: 32
+  history_steps: 6
+optim:
+  epochs: 2
+  batch_size: 4
+  num_workers: 0
+  lr: 0.0005
+  weight_decay: 0.0001
+trainer:
+  policy_type: interaction_state
+  use_bf16: true
+  grad_clip_norm: 1.0
+  freeze_backbone: true
+  gradient_checkpointing: false
+  plan_during_train: false
+  plan_during_eval: true
+  support_mode_conditioning: true
+  planner_mode: proxy_pretrained
+policy:
+  backbone:
+    model_name: openai/clip-vit-base-patch32
+    hidden_dim: 128
+    max_text_tokens: 32
+    freeze_backbone: true
+    gradient_checkpointing: false
+    use_dummy_backbone: true
+  fusion:
+    hidden_dim: 128
+    num_cameras: 3
+    num_layers: 2
+    num_heads: 4
+    ff_dim: 256
+    dropout: 0.1
+    proprio_dim: 32
+    proprio_tokens: 1
+  memory:
+    hidden_dim: 128
+    history_steps: 6
+    num_layers: 2
+    dropout: 0.1
+    memory_bank_size: 4
+    num_heads: 4
+    max_history_steps: 8
+  decoder:
+    hidden_dim: 128
+    num_heads: 4
+    num_layers: 2
+    ff_dim: 256
+    dropout: 0.1
+    chunk_size: 8
+    action_dim: 14
+    arm_action_dim: 7
+    num_candidates: 8
+    num_phases: 5
+    num_arm_roles: 4
+  reveal_head:
+    hidden_dim: 128
+    num_support_modes: 3
+    num_approach_templates: 32
+    rollout_horizon: 5
+    belief_map_size: 32
+    field_size: 16
+    num_heads: 4
+    predict_belief_map: true
+    num_phases: 5
+    num_arm_roles: 4
+    num_interaction_tokens: 8
+  world_model:
+    hidden_dim: 128
+    action_dim: 14
+    num_support_modes: 3
+    num_approach_templates: 32
+    rollout_horizon: 5
+    field_size: 16
+    num_heads: 4
+    num_phases: 5
+    num_arm_roles: 4
+    num_interaction_tokens: 8
+  planner:
+    hidden_dim: 128
+    num_candidates: 8
+    action_dim: 14
+    num_support_modes: 3
+    utility_margin: 0.1
+    num_heads: 4
+    num_layers: 2
+    num_phases: 5
+    num_arm_roles: 4
+loss_weights:
+  action: 1.0
+  support_mode: 0.0
+  corridor: 0.0
+  persistence: 0.0
+  disturbance: 0.0
+  world_model: 0.0
+  belief: 0.0
+  planner_success: 0.0
+  planner_risk: 0.0
+  planner_ranking: 0.0

code/reveal_vla_bimanual/train/configs/rlbench_subset3_interaction_state_dummy.yaml ADDED Viewed

	@@ -0,0 +1,117 @@

+experiment_name: rlbench_subset3_interaction_state_dummy
+output_dir: /workspace/VLAarchtests/artifacts/outputs/interaction
+device: cuda
+seed: 13
+init_checkpoint: /workspace/VLAarchtests/artifacts/outputs/interaction/proxy_interaction_state_smoke/checkpoint_best.pt
+init_strict: false
+data:
+  dataset_root: /workspace/data/rlbench2
+  tasks: [bimanual_lift_ball, bimanual_push_box, bimanual_dual_push_buttons]
+  train_episodes: [0]
+  val_episodes: [1]
+  resolution: 224
+  chunk_horizon: 8
+  proprio_dim: 32
+  history_steps: 6
+optim:
+  epochs: 2
+  batch_size: 4
+  num_workers: 0
+  lr: 0.0005
+  weight_decay: 0.0001
+trainer:
+  policy_type: interaction_state
+  use_bf16: true
+  grad_clip_norm: 1.0
+  freeze_backbone: true
+  gradient_checkpointing: false
+  plan_during_train: false
+  plan_during_eval: true
+  support_mode_conditioning: true
+  planner_mode: proxy_pretrained
+policy:
+  backbone:
+    model_name: openai/clip-vit-base-patch32
+    hidden_dim: 128
+    max_text_tokens: 32
+    freeze_backbone: true
+    gradient_checkpointing: false
+    use_dummy_backbone: true
+  fusion:
+    hidden_dim: 128
+    num_cameras: 3
+    num_layers: 2
+    num_heads: 4
+    ff_dim: 256
+    dropout: 0.1
+    proprio_dim: 32
+    proprio_tokens: 1
+  memory:
+    hidden_dim: 128
+    history_steps: 6
+    num_layers: 2
+    dropout: 0.1
+    memory_bank_size: 4
+    num_heads: 4
+    max_history_steps: 8
+  decoder:
+    hidden_dim: 128
+    num_heads: 4
+    num_layers: 2
+    ff_dim: 256
+    dropout: 0.1
+    chunk_size: 8
+    action_dim: 14
+    arm_action_dim: 7
+    num_candidates: 8
+    num_phases: 5
+    num_arm_roles: 4
+  reveal_head:
+    hidden_dim: 128
+    num_support_modes: 3
+    num_approach_templates: 32
+    rollout_horizon: 5
+    belief_map_size: 32
+    field_size: 16
+    num_heads: 4
+    predict_belief_map: true
+    num_phases: 5
+    num_arm_roles: 4
+    num_interaction_tokens: 8
+  world_model:
+    hidden_dim: 128
+    action_dim: 14
+    num_support_modes: 3
+    num_approach_templates: 32
+    rollout_horizon: 5
+    field_size: 16
+    num_heads: 4
+    num_phases: 5
+    num_arm_roles: 4
+    num_interaction_tokens: 8
+  planner:
+    hidden_dim: 128
+    num_candidates: 8
+    action_dim: 14
+    num_support_modes: 3
+    utility_margin: 0.1
+    num_heads: 4
+    num_layers: 2
+    num_phases: 5
+    num_arm_roles: 4
+loss_weights:
+  action: 1.0
+  support_mode: 0.0
+  corridor: 0.0
+  persistence: 0.0
+  disturbance: 0.0
+  world_model: 0.0
+  belief: 0.0
+  planner_success: 0.0
+  planner_risk: 0.0
+  planner_ranking: 0.0

code/reveal_vla_bimanual/train/losses.py CHANGED Viewed

@@ -10,6 +10,8 @@ from torch import Tensor
 @dataclass
 class LossWeights:
     action: float = 1.0
     support_mode: float = 0.1
     corridor: float = 0.1
     persistence: float = 0.05
@@ -19,6 +21,9 @@ class LossWeights:
     planner_success: float = 0.1
     planner_risk: float = 0.05
     planner_ranking: float = 0.05
 def chunk_bc_loss(pred_actions: Tensor, target_actions: Tensor, mask: Tensor | None = None) -> Tensor:
@@ -31,6 +36,26 @@ def chunk_bc_loss(pred_actions: Tensor, target_actions: Tensor, mask: Tensor | N
 def reveal_state_loss(pred: dict[str, Tensor], target: dict[str, Tensor], weights: LossWeights) -> dict[str, Tensor]:
     losses = {}
     support_target = target["support_mode"].long()
     losses["support_mode"] = F.cross_entropy(pred["support_mode_logits"], support_target)
     losses["corridor"] = F.binary_cross_entropy_with_logits(
@@ -107,11 +132,17 @@ def compute_total_loss(
     }
     total = weights.action * losses["action"]
-    if "reveal_state" in model_output and "support_mode" in batch:
-        reveal_losses = reveal_state_loss(model_output["reveal_state"], batch, weights)
         losses.update(reveal_losses)
         total = (
             total
             + weights.support_mode * reveal_losses["support_mode"]
             + weights.corridor * reveal_losses["corridor"]
             + weights.persistence * reveal_losses["persistence"]
@@ -121,7 +152,7 @@ def compute_total_loss(
             + 0.01 * reveal_losses["uncertainty"]
         )
-    if "planned_rollout" in model_output and (
         "candidate_rollout_support_mode" in batch or "rollout_support_mode" in batch
     ):
         if "candidate_rollout_support_mode" in batch:
@@ -182,5 +213,62 @@ def compute_total_loss(
         losses["planner_risk"] = model_output["action_mean"].new_tensor(0.0)
         losses["planner_ranking"] = model_output["action_mean"].new_tensor(0.0)
     losses["total"] = total
     return losses

 @dataclass
 class LossWeights:
     action: float = 1.0
+    phase: float = 0.05
+    arm_role: float = 0.2
     support_mode: float = 0.1
     corridor: float = 0.1
     persistence: float = 0.05
     planner_success: float = 0.1
     planner_risk: float = 0.05
     planner_ranking: float = 0.05
+    proposal_reconstruction: float = 0.1
+    proposal_success: float = 0.05
+    proposal_ranking: float = 0.05
 def chunk_bc_loss(pred_actions: Tensor, target_actions: Tensor, mask: Tensor | None = None) -> Tensor:
 def reveal_state_loss(pred: dict[str, Tensor], target: dict[str, Tensor], weights: LossWeights) -> dict[str, Tensor]:
     losses = {}
+    if "phase_logits" in pred:
+        phase_map = torch.as_tensor([2, 3, 0], device=target["support_mode"].device, dtype=torch.long)
+        phase_target = phase_map[target["support_mode"].long()]
+        losses["phase"] = F.cross_entropy(pred["phase_logits"], phase_target)
+    else:
+        losses["phase"] = pred["support_mode_logits"].new_tensor(0.0)
+    if "arm_role_logits" in pred:
+        batch_size = pred["arm_role_logits"].shape[0]
+        role_target = torch.as_tensor([1, 2], device=pred["arm_role_logits"].device, dtype=torch.long)
+        role_target = role_target.unsqueeze(0).expand(batch_size, -1)
+        role_ce = F.cross_entropy(
+            pred["arm_role_logits"].reshape(-1, pred["arm_role_logits"].shape[-1]),
+            role_target.reshape(-1),
+        )
+        role_probs = pred["arm_role_logits"].softmax(dim=-1)
+        role_gap = torch.mean(torch.abs(role_probs[:, 0] - role_probs[:, 1]), dim=-1)
+        role_separation = torch.relu(0.25 - role_gap).mean()
+        losses["arm_role"] = role_ce + 0.5 * role_separation
+    else:
+        losses["arm_role"] = pred["support_mode_logits"].new_tensor(0.0)
     support_target = target["support_mode"].long()
     losses["support_mode"] = F.cross_entropy(pred["support_mode_logits"], support_target)
     losses["corridor"] = F.binary_cross_entropy_with_logits(
     }
     total = weights.action * losses["action"]
+    state_output = model_output.get("interaction_state")
+    if state_output is None:
+        state_output = model_output.get("reveal_state")
+    if state_output is not None and "support_mode" in batch:
+        reveal_losses = reveal_state_loss(state_output, batch, weights)
         losses.update(reveal_losses)
         total = (
             total
+            + weights.phase * reveal_losses["phase"]
+            + weights.arm_role * reveal_losses["arm_role"]
             + weights.support_mode * reveal_losses["support_mode"]
             + weights.corridor * reveal_losses["corridor"]
             + weights.persistence * reveal_losses["persistence"]
             + 0.01 * reveal_losses["uncertainty"]
         )
+    if model_output.get("planned_rollout") and (
         "candidate_rollout_support_mode" in batch or "rollout_support_mode" in batch
     ):
         if "candidate_rollout_support_mode" in batch:
         losses["planner_risk"] = model_output["action_mean"].new_tensor(0.0)
         losses["planner_ranking"] = model_output["action_mean"].new_tensor(0.0)
+    if "proposal_candidates" in model_output and "candidate_action_chunks" in batch:
+        candidate_count = min(
+            model_output["proposal_candidates"].shape[1],
+            batch["candidate_action_chunks"].shape[1],
+        )
+        proposal_reconstruction = chunk_bc_loss(
+            model_output["proposal_candidates"][:, :candidate_count],
+            batch["candidate_action_chunks"][:, :candidate_count],
+        )
+        losses["proposal_reconstruction"] = proposal_reconstruction
+        total = total + weights.proposal_reconstruction * proposal_reconstruction
+    else:
+        losses["proposal_reconstruction"] = model_output["action_mean"].new_tensor(0.0)
+    if "proposal_logits" in model_output and "candidate_retrieval_success" in batch:
+        candidate_count = min(
+            model_output["proposal_logits"].shape[1],
+            batch["candidate_retrieval_success"].shape[1],
+        )
+        proposal_logits = model_output["proposal_logits"][:, :candidate_count]
+        proposal_success_target = batch["candidate_retrieval_success"][:, :candidate_count].float()
+        proposal_utility = batch.get("candidate_utility")
+        if proposal_utility is None:
+            proposal_risk = batch.get("candidate_risk")
+            if proposal_risk is None:
+                proposal_risk = torch.clamp(
+                    batch["candidate_final_disturbance_cost"].float() + batch["candidate_reocclusion_rate"].float(),
+                    0.0,
+                    1.0,
+                )
+            proposal_utility = proposal_success_target - proposal_risk[:, :candidate_count]
+        else:
+            proposal_utility = proposal_utility[:, :candidate_count]
+        proposal_success_loss = F.binary_cross_entropy_with_logits(
+            proposal_logits,
+            proposal_success_target,
+        )
+        proposal_pred_diff = proposal_logits.unsqueeze(-1) - proposal_logits.unsqueeze(-2)
+        proposal_target_diff = proposal_utility.float().unsqueeze(-1) - proposal_utility.float().unsqueeze(-2)
+        proposal_mask = proposal_target_diff.abs() > 1e-4
+        if proposal_mask.any():
+            proposal_ranking_loss = torch.relu(0.1 - torch.sign(proposal_target_diff) * proposal_pred_diff)[
+                proposal_mask
+            ].mean()
+        else:
+            proposal_ranking_loss = model_output["proposal_logits"].new_tensor(0.0)
+        losses["proposal_success"] = proposal_success_loss
+        losses["proposal_ranking"] = proposal_ranking_loss
+        total = (
+            total
+            + weights.proposal_success * proposal_success_loss
+            + weights.proposal_ranking * proposal_ranking_loss
+        )
+    else:
+        losses["proposal_success"] = model_output["action_mean"].new_tensor(0.0)
+        losses["proposal_ranking"] = model_output["action_mean"].new_tensor(0.0)
     losses["total"] = total
     return losses

code/reveal_vla_bimanual/train/run_experiment.py CHANGED Viewed

@@ -21,7 +21,14 @@ from models.reveal_head import RevealHeadConfig
 from models.world_model import RevealWMConfig
 from sim_reveal.dataset import RevealOfflineDataset, collect_teacher_dataset, load_teacher_dataset, save_teacher_dataset
 from train.losses import LossWeights, compute_total_loss
-from train.trainer import BimanualTrainer, TrainerConfig, build_policy
 def _move_batch_to_device(batch: dict[str, Any], device: torch.device) -> dict[str, Any]:
@@ -131,6 +138,7 @@ def main() -> None:
     trainer_config = _trainer_config_from_omega(cfg.trainer)
     loss_weights = _loss_weights_from_omega(cfg.loss_weights)
     model = build_policy(policy_config, trainer_config).to(device)
     trainable_parameters = [parameter for parameter in model.parameters() if parameter.requires_grad]
     optimizer = torch.optim.AdamW(trainable_parameters, lr=float(cfg.optim.lr), weight_decay=float(cfg.optim.weight_decay))
     trainer = BimanualTrainer(model=model, optimizer=optimizer, config=trainer_config)
@@ -159,8 +167,8 @@ def main() -> None:
                     "history_images": moved.get("history_images"),
                     "history_proprio": moved.get("history_proprio"),
                 }
-                if trainer_config.policy_type == "reveal_state":
-                    forward_kwargs["plan"] = trainer_config.plan_during_eval
                     forward_kwargs["support_mode_conditioning"] = trainer_config.support_mode_conditioning
                     if "candidate_action_chunks" in moved:
                         forward_kwargs["candidate_chunks_override"] = moved["candidate_action_chunks"]
@@ -202,6 +210,8 @@ def main() -> None:
         "final_val_total": history[-1]["val"]["total"],
         "num_train_samples": len(train_bundle["samples"]),
         "num_val_samples": len(val_bundle["samples"]),
     }
     print(json.dumps(summary, indent=2))

 from models.world_model import RevealWMConfig
 from sim_reveal.dataset import RevealOfflineDataset, collect_teacher_dataset, load_teacher_dataset, save_teacher_dataset
 from train.losses import LossWeights, compute_total_loss
+from train.trainer import (
+    BimanualTrainer,
+    TrainerConfig,
+    apply_planner_mode,
+    build_policy,
+    planner_enabled,
+    policy_supports_planning,
+)
 def _move_batch_to_device(batch: dict[str, Any], device: torch.device) -> dict[str, Any]:
     trainer_config = _trainer_config_from_omega(cfg.trainer)
     loss_weights = _loss_weights_from_omega(cfg.loss_weights)
     model = build_policy(policy_config, trainer_config).to(device)
+    frozen_modules = apply_planner_mode(model, trainer_config)
     trainable_parameters = [parameter for parameter in model.parameters() if parameter.requires_grad]
     optimizer = torch.optim.AdamW(trainable_parameters, lr=float(cfg.optim.lr), weight_decay=float(cfg.optim.weight_decay))
     trainer = BimanualTrainer(model=model, optimizer=optimizer, config=trainer_config)
                     "history_images": moved.get("history_images"),
                     "history_proprio": moved.get("history_proprio"),
                 }
+                if policy_supports_planning(trainer_config.policy_type):
+                    forward_kwargs["plan"] = planner_enabled(trainer_config, during_eval=True)
                     forward_kwargs["support_mode_conditioning"] = trainer_config.support_mode_conditioning
                     if "candidate_action_chunks" in moved:
                         forward_kwargs["candidate_chunks_override"] = moved["candidate_action_chunks"]
         "final_val_total": history[-1]["val"]["total"],
         "num_train_samples": len(train_bundle["samples"]),
         "num_val_samples": len(val_bundle["samples"]),
+        "planner_mode": trainer_config.planner_mode,
+        "frozen_modules": frozen_modules,
     }
     print(json.dumps(summary, indent=2))

code/reveal_vla_bimanual/train/run_rlbench_experiment.py CHANGED Viewed

@@ -19,7 +19,13 @@ from train.run_experiment import (
     _policy_config_from_omega,
     _trainer_config_from_omega,
 )
-from train.trainer import BimanualTrainer, build_policy
 def _make_loader(dataset: RLBenchOfflineChunkDataset, batch_size: int, shuffle: bool, num_workers: int) -> DataLoader:
@@ -95,16 +101,10 @@ def main() -> None:
     policy_config = _policy_config_from_omega(cfg.policy)
     trainer_config = _trainer_config_from_omega(cfg.trainer)
-    planning_disabled_for_rlbench = False
-    if trainer_config.policy_type == "reveal_state" and (
-        trainer_config.plan_during_train or trainer_config.plan_during_eval
-    ):
-        trainer_config.plan_during_train = False
-        trainer_config.plan_during_eval = False
-        planning_disabled_for_rlbench = True
     loss_weights = _loss_weights_from_omega(cfg.loss_weights)
     model = build_policy(policy_config, trainer_config).to(device)
     init_info = _load_init_checkpoint(model, cfg.get("init_checkpoint"), bool(cfg.get("init_strict", False)))
     trainable_parameters = [parameter for parameter in model.parameters() if parameter.requires_grad]
     optimizer = torch.optim.AdamW(trainable_parameters, lr=float(cfg.optim.lr), weight_decay=float(cfg.optim.weight_decay))
@@ -134,8 +134,8 @@ def main() -> None:
                     "history_images": moved.get("history_images"),
                     "history_proprio": moved.get("history_proprio"),
                 }
-                if trainer_config.policy_type == "reveal_state":
-                    forward_kwargs["plan"] = trainer_config.plan_during_eval
                     forward_kwargs["support_mode_conditioning"] = trainer_config.support_mode_conditioning
                 output = model(**forward_kwargs)
                 from train.losses import compute_total_loss
@@ -178,7 +178,10 @@ def main() -> None:
         "train_dataset": train_dataset.summary(),
         "val_dataset": val_dataset.summary(),
         "init_info": init_info,
-        "planning_disabled_for_rlbench": planning_disabled_for_rlbench,
     }
     (output_dir / "summary.json").write_text(json.dumps(summary, indent=2), encoding="utf-8")
     print(json.dumps(summary, indent=2))

     _policy_config_from_omega,
     _trainer_config_from_omega,
 )
+from train.trainer import (
+    BimanualTrainer,
+    apply_planner_mode,
+    build_policy,
+    planner_enabled,
+    policy_supports_planning,
+)
 def _make_loader(dataset: RLBenchOfflineChunkDataset, batch_size: int, shuffle: bool, num_workers: int) -> DataLoader:
     policy_config = _policy_config_from_omega(cfg.policy)
     trainer_config = _trainer_config_from_omega(cfg.trainer)
     loss_weights = _loss_weights_from_omega(cfg.loss_weights)
     model = build_policy(policy_config, trainer_config).to(device)
     init_info = _load_init_checkpoint(model, cfg.get("init_checkpoint"), bool(cfg.get("init_strict", False)))
+    frozen_modules = apply_planner_mode(model, trainer_config)
     trainable_parameters = [parameter for parameter in model.parameters() if parameter.requires_grad]
     optimizer = torch.optim.AdamW(trainable_parameters, lr=float(cfg.optim.lr), weight_decay=float(cfg.optim.weight_decay))
                     "history_images": moved.get("history_images"),
                     "history_proprio": moved.get("history_proprio"),
                 }
+                if policy_supports_planning(trainer_config.policy_type):
+                    forward_kwargs["plan"] = planner_enabled(trainer_config, during_eval=True)
                     forward_kwargs["support_mode_conditioning"] = trainer_config.support_mode_conditioning
                 output = model(**forward_kwargs)
                 from train.losses import compute_total_loss
         "train_dataset": train_dataset.summary(),
         "val_dataset": val_dataset.summary(),
         "init_info": init_info,
+        "planner_mode": trainer_config.planner_mode,
+        "plan_enabled_for_train": planner_enabled(trainer_config, during_eval=False),
+        "plan_enabled_for_eval": planner_enabled(trainer_config, during_eval=True),
+        "frozen_modules": frozen_modules,
     }
     (output_dir / "summary.json").write_text(json.dumps(summary, indent=2), encoding="utf-8")
     print(json.dumps(summary, indent=2))

code/reveal_vla_bimanual/train/smoke_checks.py ADDED Viewed

	@@ -0,0 +1,292 @@

+from __future__ import annotations
+import argparse
+import json
+from dataclasses import asdict
+from pathlib import Path
+from typing import Any
+import torch
+from torch.utils.data import DataLoader
+from models.action_decoder import ChunkDecoderConfig
+from models.backbones import FrozenVLBackboneConfig
+from models.multiview_fusion import MultiViewFusionConfig
+from models.observation_memory import ObservationMemoryConfig
+from models.planner import PlannerConfig
+from models.policy import PolicyConfig
+from models.reveal_head import RevealHeadConfig
+from models.world_model import RevealWMConfig
+from sim_reveal.dataset import dataset_from_bundle, load_teacher_dataset
+from train.losses import LossWeights, compute_total_loss
+from train.trainer import TrainerConfig, apply_planner_mode, build_policy, planner_enabled
+def _move_batch_to_device(batch: dict[str, Any], device: torch.device) -> dict[str, Any]:
+    moved = {}
+    for key, value in batch.items():
+        if isinstance(value, torch.Tensor):
+            moved[key] = value.to(device)
+        else:
+            moved[key] = value
+    return moved
+def _small_policy_config() -> PolicyConfig:
+    hidden_dim = 64
+    return PolicyConfig(
+        backbone=FrozenVLBackboneConfig(
+            model_name="openai/clip-vit-base-patch32",
+            hidden_dim=hidden_dim,
+            max_text_tokens=32,
+            freeze_backbone=True,
+            gradient_checkpointing=False,
+            use_dummy_backbone=True,
+        ),
+        fusion=MultiViewFusionConfig(
+            hidden_dim=hidden_dim,
+            num_cameras=3,
+            num_layers=2,
+            num_heads=4,
+            ff_dim=128,
+            dropout=0.1,
+            proprio_dim=32,
+            proprio_tokens=1,
+        ),
+        memory=ObservationMemoryConfig(
+            hidden_dim=hidden_dim,
+            history_steps=6,
+            num_layers=2,
+            dropout=0.1,
+            memory_bank_size=4,
+            num_heads=4,
+            max_history_steps=8,
+        ),
+        decoder=ChunkDecoderConfig(
+            hidden_dim=hidden_dim,
+            num_heads=4,
+            num_layers=2,
+            ff_dim=128,
+            dropout=0.1,
+            chunk_size=4,
+            action_dim=14,
+            arm_action_dim=7,
+            num_candidates=4,
+            num_phases=5,
+            num_arm_roles=4,
+        ),
+        reveal_head=RevealHeadConfig(
+            hidden_dim=hidden_dim,
+            num_support_modes=3,
+            num_approach_templates=32,
+            rollout_horizon=3,
+            belief_map_size=32,
+            field_size=16,
+            num_heads=4,
+            predict_belief_map=True,
+            num_phases=5,
+            num_arm_roles=4,
+            num_interaction_tokens=8,
+        ),
+        world_model=RevealWMConfig(
+            hidden_dim=hidden_dim,
+            action_dim=14,
+            num_support_modes=3,
+            num_approach_templates=32,
+            rollout_horizon=3,
+            field_size=16,
+            num_heads=4,
+            num_phases=5,
+            num_arm_roles=4,
+            num_interaction_tokens=8,
+        ),
+        planner=PlannerConfig(
+            hidden_dim=hidden_dim,
+            num_candidates=4,
+            action_dim=14,
+            num_support_modes=3,
+            utility_margin=0.1,
+            num_heads=4,
+            num_layers=2,
+            num_phases=5,
+            num_arm_roles=4,
+        ),
+    )
+def _trainer_config(planner_mode: str = "trainable") -> TrainerConfig:
+    return TrainerConfig(
+        policy_type="interaction_state",
+        use_bf16=False,
+        grad_clip_norm=1.0,
+        freeze_backbone=True,
+        gradient_checkpointing=False,
+        plan_during_train=True,
+        plan_during_eval=True,
+        support_mode_conditioning=True,
+        planner_mode=planner_mode,
+    )
+def _synthetic_rlbench_batch(
+    batch_size: int,
+    chunk_size: int,
+    history_steps: int,
+    resolution: int,
+    device: torch.device,
+) -> dict[str, Any]:
+    images = torch.rand(batch_size, 3, 3, resolution, resolution, device=device)
+    history_images = torch.rand(batch_size, history_steps, 3, 3, resolution, resolution, device=device)
+    proprio = torch.rand(batch_size, 32, device=device)
+    history_proprio = torch.rand(batch_size, history_steps, 32, device=device)
+    action_chunk = torch.rand(batch_size, chunk_size, 14, device=device)
+    return {
+        "images": images,
+        "history_images": history_images,
+        "history_proprio": history_proprio,
+        "proprio": proprio,
+        "texts": ["synthetic dual-arm RLBench smoke task"] * batch_size,
+        "action_chunk": action_chunk,
+    }
+def _check_output_shapes(outputs: dict[str, Any], batch_size: int, num_candidates: int, chunk_size: int) -> None:
+    required = (
+        "action_mean",
+        "candidate_chunks",
+        "planned_chunk",
+        "interaction_state",
+        "reveal_state",
+        "planned_rollout",
+        "planner_success_logits",
+        "planner_risk_values",
+        "planner_scores",
+        "best_candidate_indices",
+    )
+    missing = [key for key in required if key not in outputs]
+    if missing:
+        raise AssertionError(f"Missing keys from interaction policy output: {missing}")
+    if outputs["candidate_chunks"].shape != (batch_size, num_candidates, chunk_size, 14):
+        raise AssertionError(f"Unexpected candidate chunk shape: {tuple(outputs['candidate_chunks'].shape)}")
+    if outputs["planned_chunk"].shape != (batch_size, chunk_size, 14):
+        raise AssertionError(f"Unexpected planned chunk shape: {tuple(outputs['planned_chunk'].shape)}")
+    if outputs["planner_scores"].shape != (batch_size, num_candidates):
+        raise AssertionError(f"Unexpected planner score shape: {tuple(outputs['planner_scores'].shape)}")
+    rollout = outputs["planned_rollout"]
+    if rollout["phase_logits"].shape[:3] != (batch_size, num_candidates, chunk_size):
+        raise AssertionError(f"Unexpected rollout phase shape: {tuple(rollout['phase_logits'].shape)}")
+def main() -> None:
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--proxy-dataset", required=True)
+    parser.add_argument("--output-dir", required=True)
+    parser.add_argument("--batch-size", type=int, default=2)
+    args = parser.parse_args()
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    policy_config = _small_policy_config()
+    loss_weights = LossWeights()
+    proxy_bundle = load_teacher_dataset(args.proxy_dataset)
+    proxy_dataset = dataset_from_bundle(proxy_bundle, resolution=int(proxy_bundle["resolution"]))
+    proxy_loader = DataLoader(proxy_dataset, batch_size=args.batch_size, shuffle=False, num_workers=0)
+    proxy_batch = _move_batch_to_device(next(iter(proxy_loader)), device)
+    proxy_trainer_config = _trainer_config(planner_mode="trainable")
+    proxy_model = build_policy(policy_config, proxy_trainer_config).to(device)
+    proxy_optimizer = torch.optim.AdamW(
+        [parameter for parameter in proxy_model.parameters() if parameter.requires_grad],
+        lr=1e-3,
+    )
+    proxy_model.train()
+    proxy_optimizer.zero_grad(set_to_none=True)
+    proxy_outputs = proxy_model(
+        images=proxy_batch["images"],
+        proprio=proxy_batch["proprio"],
+        texts=proxy_batch["texts"],
+        history_images=proxy_batch.get("history_images"),
+        history_proprio=proxy_batch.get("history_proprio"),
+        plan=True,
+        candidate_chunks_override=proxy_batch["candidate_action_chunks"],
+    )
+    _check_output_shapes(
+        proxy_outputs,
+        batch_size=proxy_batch["images"].shape[0],
+        num_candidates=proxy_batch["candidate_action_chunks"].shape[1],
+        chunk_size=proxy_batch["action_chunk"].shape[1],
+    )
+    proxy_losses = compute_total_loss(proxy_outputs, proxy_batch, weights=loss_weights)
+    proxy_losses["total"].backward()
+    proxy_grad_norm = float(
+        torch.nn.utils.clip_grad_norm_(proxy_model.parameters(), max_norm=10.0).detach().cpu()
+    )
+    proxy_optimizer.step()
+    rlbench_trainer_config = _trainer_config(planner_mode="proxy_pretrained")
+    rlbench_model = build_policy(policy_config, rlbench_trainer_config).to(device)
+    frozen_modules = apply_planner_mode(rlbench_model, rlbench_trainer_config)
+    rlbench_optimizer = torch.optim.AdamW(
+        [parameter for parameter in rlbench_model.parameters() if parameter.requires_grad],
+        lr=1e-3,
+    )
+    rlbench_model.train()
+    rlbench_batch = _synthetic_rlbench_batch(
+        batch_size=args.batch_size,
+        chunk_size=policy_config.decoder.chunk_size,
+        history_steps=policy_config.memory.history_steps,
+        resolution=64,
+        device=device,
+    )
+    rlbench_optimizer.zero_grad(set_to_none=True)
+    rlbench_outputs = rlbench_model(
+        images=rlbench_batch["images"],
+        proprio=rlbench_batch["proprio"],
+        texts=rlbench_batch["texts"],
+        history_images=rlbench_batch.get("history_images"),
+        history_proprio=rlbench_batch.get("history_proprio"),
+        plan=True,
+    )
+    _check_output_shapes(
+        rlbench_outputs,
+        batch_size=rlbench_batch["images"].shape[0],
+        num_candidates=policy_config.decoder.num_candidates,
+        chunk_size=policy_config.decoder.chunk_size,
+    )
+    rlbench_losses = compute_total_loss(rlbench_outputs, rlbench_batch, weights=loss_weights)
+    rlbench_losses["total"].backward()
+    rlbench_grad_norm = float(
+        torch.nn.utils.clip_grad_norm_(rlbench_model.parameters(), max_norm=10.0).detach().cpu()
+    )
+    rlbench_optimizer.step()
+    planner_gate = planner_enabled(rlbench_trainer_config, during_eval=True)
+    if not planner_gate:
+        raise AssertionError("planner_enabled should be true for interaction_state with planner_mode=proxy_pretrained")
+    report = {
+        "proxy": {
+            "losses": {key: float(value.detach().cpu()) for key, value in proxy_losses.items()},
+            "grad_norm": proxy_grad_norm,
+            "candidate_shape": list(proxy_outputs["candidate_chunks"].shape),
+            "rollout_phase_shape": list(proxy_outputs["planned_rollout"]["phase_logits"].shape),
+        },
+        "rlbench": {
+            "losses": {key: float(value.detach().cpu()) for key, value in rlbench_losses.items()},
+            "grad_norm": rlbench_grad_norm,
+            "candidate_shape": list(rlbench_outputs["candidate_chunks"].shape),
+            "rollout_phase_shape": list(rlbench_outputs["planned_rollout"]["phase_logits"].shape),
+            "planner_enabled_for_eval": planner_gate,
+            "frozen_modules": frozen_modules,
+        },
+        "policy_config": asdict(policy_config),
+    }
+    output_dir = Path(args.output_dir)
+    output_dir.mkdir(parents=True, exist_ok=True)
+    (output_dir / "smoke_checks.json").write_text(json.dumps(report, indent=2), encoding="utf-8")
+    print(json.dumps(report, indent=2))
+if __name__ == "__main__":
+    main()

code/reveal_vla_bimanual/train/trainer.py CHANGED Viewed

@@ -6,7 +6,7 @@ from typing import Sequence
 import torch
 from torch import Tensor, nn
-from models.policy import BackboneOnlyPolicy, PolicyConfig, RevealBimanualPolicy
 from train.losses import LossWeights, compute_total_loss
@@ -20,6 +20,7 @@ class TrainerConfig:
     plan_during_train: bool = True
     plan_during_eval: bool = True
     support_mode_conditioning: bool = True
 def build_policy(config: PolicyConfig, trainer_config: TrainerConfig) -> nn.Module:
@@ -27,9 +28,39 @@ def build_policy(config: PolicyConfig, trainer_config: TrainerConfig) -> nn.Modu
     config.backbone.gradient_checkpointing = trainer_config.gradient_checkpointing
     if trainer_config.policy_type == "reveal_state":
         return RevealBimanualPolicy(config)
     return BackboneOnlyPolicy(config)
 class BimanualTrainer:
     def __init__(self, model: nn.Module, optimizer: torch.optim.Optimizer, config: TrainerConfig) -> None:
         self.model = model
@@ -56,8 +87,8 @@ class BimanualTrainer:
                 "history_images": batch.get("history_images"),
                 "history_proprio": batch.get("history_proprio"),
             }
-            if self.config.policy_type == "reveal_state":
-                forward_kwargs["plan"] = self.config.plan_during_train
                 forward_kwargs["support_mode_conditioning"] = self.config.support_mode_conditioning
                 if "candidate_action_chunks" in batch:
                     forward_kwargs["candidate_chunks_override"] = batch["candidate_action_chunks"]

 import torch
 from torch import Tensor, nn
+from models.policy import BackboneOnlyPolicy, InteractionBimanualPolicy, PolicyConfig, RevealBimanualPolicy
 from train.losses import LossWeights, compute_total_loss
     plan_during_train: bool = True
     plan_during_eval: bool = True
     support_mode_conditioning: bool = True
+    planner_mode: str = "trainable"
 def build_policy(config: PolicyConfig, trainer_config: TrainerConfig) -> nn.Module:
     config.backbone.gradient_checkpointing = trainer_config.gradient_checkpointing
     if trainer_config.policy_type == "reveal_state":
         return RevealBimanualPolicy(config)
+    if trainer_config.policy_type == "interaction_state":
+        return InteractionBimanualPolicy(config)
     return BackboneOnlyPolicy(config)
+def policy_supports_planning(policy_type: str) -> bool:
+    return policy_type in {"reveal_state", "interaction_state"}
+def planner_enabled(trainer_config: TrainerConfig, during_eval: bool) -> bool:
+    if not policy_supports_planning(trainer_config.policy_type):
+        return False
+    if trainer_config.planner_mode == "off":
+        return False
+    if during_eval:
+        return trainer_config.plan_during_eval
+    return trainer_config.plan_during_train
+def apply_planner_mode(model: nn.Module, trainer_config: TrainerConfig) -> list[str]:
+    if trainer_config.planner_mode != "proxy_pretrained":
+        return []
+    frozen_modules = []
+    for module_name in ("interaction_head", "world_model", "planner"):
+        module = getattr(model, module_name, None)
+        if module is None:
+            continue
+        frozen_modules.append(module_name)
+        for parameter in module.parameters():
+            parameter.requires_grad = False
+    return frozen_modules
 class BimanualTrainer:
     def __init__(self, model: nn.Module, optimizer: torch.optim.Optimizer, config: TrainerConfig) -> None:
         self.model = model
                 "history_images": batch.get("history_images"),
                 "history_proprio": batch.get("history_proprio"),
             }
+            if policy_supports_planning(self.config.policy_type):
+                forward_kwargs["plan"] = planner_enabled(self.config, during_eval=False)
                 forward_kwargs["support_mode_conditioning"] = self.config.support_mode_conditioning
                 if "candidate_action_chunks" in batch:
                     forward_kwargs["candidate_chunks_override"] = batch["candidate_action_chunks"]

environment/README.md CHANGED Viewed

@@ -10,6 +10,8 @@ This directory contains the machine snapshot and setup helpers for the runpod no
   - raw `glxinfo -B` output from the working `:99` X server
 - `upstream_revisions.txt`
   - third-party repo URLs and pinned commits used on this node
 - `rlbench_env_export.yaml`
   - `micromamba env export` for `/workspace/envs/rlbench`
 - `rlbench_env_explicit.txt`
@@ -24,6 +26,8 @@ This directory contains the machine snapshot and setup helpers for the runpod no
   - `pip freeze` for `/workspace/envs/reveal`
 - `setup_same_machine.sh`
   - bundle-aware bootstrap script for a matching `/workspace` machine
 ## Default Layout
@@ -37,4 +41,5 @@ This directory contains the machine snapshot and setup helpers for the runpod no
 ```bash
 DISPLAY=:99 glxinfo -B
 /workspace/.tools/micromamba/bin/micromamba run -r /workspace/.micromamba -p /workspace/envs/rlbench python -m sim_rlbench.launch_smoke --headless
 ```

   - raw `glxinfo -B` output from the working `:99` X server
 - `upstream_revisions.txt`
   - third-party repo URLs and pinned commits used on this node
+- `system_packages_same_machine.txt`
+  - apt package names installed for the RLBench/X11 path on this node
 - `rlbench_env_export.yaml`
   - `micromamba env export` for `/workspace/envs/rlbench`
 - `rlbench_env_explicit.txt`
   - `pip freeze` for `/workspace/envs/reveal`
 - `setup_same_machine.sh`
   - bundle-aware bootstrap script for a matching `/workspace` machine
+- `validate_same_machine.sh`
+  - validation helper that runs `glxinfo`, RLBench import smoke, and `open_drawer` launch smoke
 ## Default Layout
 ```bash
 DISPLAY=:99 glxinfo -B
 /workspace/.tools/micromamba/bin/micromamba run -r /workspace/.micromamba -p /workspace/envs/rlbench python -m sim_rlbench.launch_smoke --headless
+/workspace/VLAarchtests/environment/validate_same_machine.sh
 ```

environment/setup_same_machine.sh CHANGED Viewed

@@ -69,3 +69,4 @@ echo "Recommended validation commands:"
 echo "  DISPLAY=:99 glxinfo -B"
 echo "  /workspace/.tools/micromamba/bin/micromamba run -r /workspace/.micromamba -p /workspace/envs/rlbench python -m sim_rlbench.launch_smoke --headless"
 echo "  /workspace/.tools/micromamba/bin/micromamba run -r /workspace/.micromamba -p /workspace/envs/rlbench python -m sim_reveal.isaac_smoke"

 echo "  DISPLAY=:99 glxinfo -B"
 echo "  /workspace/.tools/micromamba/bin/micromamba run -r /workspace/.micromamba -p /workspace/envs/rlbench python -m sim_rlbench.launch_smoke --headless"
 echo "  /workspace/.tools/micromamba/bin/micromamba run -r /workspace/.micromamba -p /workspace/envs/rlbench python -m sim_reveal.isaac_smoke"
+echo "  ${BUNDLE_ROOT}/environment/validate_same_machine.sh"

environment/system_packages_same_machine.txt ADDED Viewed

	@@ -0,0 +1,18 @@

+libxcb-cursor0
+libxcb-icccm4
+libxcb-image0
+libxcb-keysyms1
+libxcb-randr0
+libxcb-render-util0
+libxcb-xinerama0
+libxkbcommon0
+libxkbcommon-x11-0
+libxrender1
+mesa-utils
+nvidia-xconfig
+x11-utils
+x11-xserver-utils
+xauth
+xserver-xorg
+xserver-xorg-core
+xvfb

environment/validate_same_machine.sh ADDED Viewed

	@@ -0,0 +1,46 @@

+#!/usr/bin/env bash
+set -euo pipefail
+ROOT_DIR="${ROOT_DIR:-/workspace}"
+DISPLAY_NUM="${DISPLAY_NUM:-99}"
+DISPLAY=":${DISPLAY_NUM}"
+PROJECT_DIR="${PROJECT_DIR:-${ROOT_DIR}/reveal_vla_bimanual}"
+MAMBA_BIN="${ROOT_DIR}/.tools/micromamba/bin/micromamba"
+MAMBA_ROOT_PREFIX="${ROOT_DIR}/.micromamba"
+ENV_PREFIX="${ROOT_DIR}/envs/rlbench"
+COPPELIA_DIR="${COPPELIASIM_ROOT:-${ROOT_DIR}/assets/coppeliasim_v4_1_0}"
+RUNTIME_DIR="${ROOT_DIR}/runtime"
+mkdir -p "${RUNTIME_DIR}"
+chmod 700 "${RUNTIME_DIR}"
+run_in_rlbench_env() {
+  local driver_version=""
+  local driver_branch=""
+  local shim_ld=""
+  if command -v nvidia-smi >/dev/null 2>&1; then
+    driver_version="$(nvidia-smi --query-gpu=driver_version --format=csv,noheader | head -n1 || true)"
+    driver_branch="${driver_version%%.*}"
+    if [[ -n "${driver_branch}" && -d "${ROOT_DIR}/system_shims/nvidia${driver_branch}/usr/lib/x86_64-linux-gnu" ]]; then
+      shim_ld="${ROOT_DIR}/system_shims/nvidia${driver_branch}/usr/lib/x86_64-linux-gnu"
+    fi
+  fi
+  env \
+    DISPLAY="${DISPLAY}" \
+    COPPELIASIM_ROOT="${COPPELIA_DIR}" \
+    XDG_RUNTIME_DIR="${RUNTIME_DIR}" \
+    LD_LIBRARY_PATH="${COPPELIA_DIR}${shim_ld:+:${shim_ld}}${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}" \
+    QT_QPA_PLATFORM_PLUGIN_PATH="${COPPELIA_DIR}" \
+    "${MAMBA_BIN}" run -r "${MAMBA_ROOT_PREFIX}" -p "${ENV_PREFIX}" "$@"
+}
+echo "Display check"
+DISPLAY="${DISPLAY}" glxinfo -B
+echo
+echo "RLBench import smoke"
+run_in_rlbench_env python -m sim_rlbench.smoke_test --print-train-command
+echo
+echo "RLBench launch smoke"
+run_in_rlbench_env python -m sim_rlbench.launch_smoke --task open_drawer --resolution 128 --headless