Vincent2311 commited on Feb 24

Commit

01d79f8

verified ·

1 Parent(s): 1a12c13

Add files using upload-large-folder tool

Browse files

Files changed (43) hide show

.gitattributes +3 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/checkpoints/steps_4000_pytorch_model.pt +3 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/checkpoints/steps_8000_pytorch_model.pt +3 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/config.yaml +70 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/dataset_statistics.json +193 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/run_franka_vp_filter_class_12.sh +64 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/summary.jsonl +2 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/debug-internal.log +6 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/debug.log +0 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/files/output.log +0 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/files/requirements.txt +151 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/files/wandb-metadata.json +145 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/logs/debug-internal.log +6 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/logs/debug.log +0 -0
franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/run-tbifv35r.wandb +3 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/checkpoints/steps_4000_pytorch_model.pt +3 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/checkpoints/steps_8000_pytorch_model.pt +3 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/config.yaml +70 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/dataset_statistics.json +193 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/run_franka_vp_move_egg.sh +64 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/summary.jsonl +2 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/debug-internal.log +6 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/debug.log +0 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/files/output.log +0 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/files/requirements.txt +151 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/files/wandb-metadata.json +145 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/logs/debug-internal.log +6 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/logs/debug.log +0 -0
franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/run-90ibcpp4.wandb +3 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/checkpoints/steps_4000_pytorch_model.pt +3 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/config.yaml +70 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/dataset_statistics.json +193 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/run_franka_vp_pick_color_egg.sh +64 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/summary.jsonl +1 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/debug-internal.log +6 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/debug.log +0 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/files/output.log +0 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/files/requirements.txt +151 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/files/wandb-metadata.json +145 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/logs/debug-core.log +7 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/logs/debug-internal.log +6 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/logs/debug.log +0 -0
franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/run-d1v6qg5k.wandb +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/run-90ibcpp4.wandb filter=lfs diff=lfs merge=lfs -text
+franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/run-d1v6qg5k.wandb filter=lfs diff=lfs merge=lfs -text
+franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/run-tbifv35r.wandb filter=lfs diff=lfs merge=lfs -text

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/checkpoints/steps_4000_pytorch_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8d41bfc50361a4e7f18e7f03ce4e0e265371bd74be9886a93b0f5ea8edd04de
+size 9785060316

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/checkpoints/steps_8000_pytorch_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0673adbb3963b4326e94b08d1d3d35ef128ef035506fd79fc05c34554fa08674
+size 9785060316

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/config.yaml ADDED Viewed

	@@ -0,0 +1,70 @@

+datasets:
+  vla_data:
+    CoT_prompt: Your task is {instruction}. To identify the key objects for your task.
+      Locate their bounding boxes in [x1,y1,x2,y2] format.
+    data_mix: smartmore_franka_filter_class_12
+    data_root_dir: /gpfs/wangzixuan/visual_prompting/real_data/lerobot
+    dataset_py: visual_prompt_datasets
+    delete_pause_frame: false
+    feed_both_images: true
+    image_size:
+    - 224
+    - 224
+    num_workers: 4
+    per_device_batch_size: 32
+    target_location_prompt_type: box
+    target_object_prompt_type: crosshair
+    use_subtask: false
+    video_backend: decord
+    visual_prompt_dir: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output
+  vp_data:
+    dataset_py: visual_prompt_prediction_datasets
+    extracted_frames_dir: /gpfs/wangzixuan/visual_prompting/real_data/extracted_frames
+    feed_both_images: false
+    num_workers: 4
+    per_device_batch_size: 8
+    target_location_prompt_type: box
+    target_object_prompt_type: crosshair
+    visual_prompt_dir: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output
+framework:
+  action_model:
+    action_dim: 7
+    action_hidden_dim: 2560
+    action_model_type: DiT-B
+    future_action_window_size: 15
+    past_action_window_size: 0
+  name: QwenOFT
+  qwenvl:
+    base_vlm: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+output_dir: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints/franka_filter_class_12_visual_prompt_QwenOFT_4k_save
+run_id: franka_filter_class_12_visual_prompt_QwenOFT_4k_save
+run_root_dir: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints
+seed: 42
+trainer:
+  eval_interval: 100
+  freeze_modules: null
+  gradient_accumulation_steps: 1
+  gradient_clipping: 1.0
+  is_resume: false
+  learning_rate:
+    action_model: 0.0001
+    base: 3.0e-05
+    qwen_vl_interface: 1.0e-05
+  logging_frequency: 10
+  loss_scale:
+    visual_prompt: 0.1
+    vla: 1.0
+  lr_scheduler_type: cosine_with_min_lr
+  max_train_steps: 100000
+  num_warmup_steps: 5000
+  optimizer:
+    betas:
+    - 0.9
+    - 0.95
+    eps: 1.0e-08
+    weight_decay: 1.0e-08
+  save_interval: 4000
+  scheduler_specific_kwargs:
+    min_lr: 5.0e-07
+wandb_entity: zwanggk
+wandb_project: franka_visual_prompt

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/dataset_statistics.json ADDED Viewed

	@@ -0,0 +1,193 @@

+{
+  "franka": {
+    "action": {
+      "mean": [
+        -0.020236223936080933,
+        0.008768259882344864,
+        0.007521322928369045,
+        -0.006128499051555991,
+        0.019211848732084036,
+        -0.00576494331471622,
+        0.20101751387119293
+      ],
+      "std": [
+        0.24978733014273452,
+        0.24741882289981892,
+        0.181121291568636,
+        0.1732716775215671,
+        0.19246192022144204,
+        0.2615901018815526,
+        0.9797030975328717
+      ],
+      "max": [
+        0.8579332232475281,
+        0.9207748770713806,
+        0.8091973066329956,
+        0.9944977164268494,
+        1.0313228368759155,
+        0.9821529984474182,
+        1.0
+      ],
+      "min": [
+        -1.0587303638458252,
+        -0.9918345212936401,
+        -0.999170184135437,
+        -1.0410339832305908,
+        -1.069510817527771,
+        -1.022361397743225,
+        -1.0
+      ],
+      "q01": [
+        -0.6976645022630692,
+        -0.599154212474823,
+        -0.6296609127521515,
+        -0.550723231434822,
+        -0.4845139479637146,
+        -0.7129359030723572,
+        -1.0
+      ],
+      "q99": [
+        0.641489732265472,
+        0.613702954649925,
+        0.3858347168564795,
+        0.48247617363929723,
+        0.6824872374534604,
+        0.7233274286985395,
+        1.0
+      ],
+      "mask": [
+        true,
+        true,
+        true,
+        true,
+        true,
+        true,
+        false
+      ]
+    },
+    "state": {
+      "mean": [
+        0.7828335464000702,
+        -0.37660054862499237,
+        0.3502291142940521,
+        -0.32449065148830414,
+        -0.1438142955303192,
+        -0.048927899450063705,
+        0.016899482579901814,
+        -0.006700105965137482,
+        -0.04339943639934063,
+        0.565076932311058,
+        0.14807689003646374,
+        0.3588131070137024,
+        -0.04751526936888695,
+        -0.0014195036492310464,
+        0.0006292320467764512,
+        0.0010934736637864262,
+        -0.0009234353783540428,
+        0.0001233784896612633
+      ],
+      "std": [
+        0.2981169524439282,
+        2.898492135275962,
+        2.3926403856445035,
+        1.697119778687442,
+        0.12494011727025223,
+        0.12099017598413474,
+        0.0501878448527201,
+        0.09417516179359244,
+        0.08348633664179528,
+        0.7109853859604784,
+        1.1036816032306362,
+        1.2343315337648189,
+        0.5035770878145771,
+        0.03827079217334366,
+        0.040987636446814746,
+        0.029763517644250365,
+        0.044215816757692435,
+        0.0422595564363939
+      ],
+      "max": [
+        1.0,
+        10.657198905944824,
+        11.896556854248047,
+        17.887727737426758,
+        0.19620218873023987,
+        0.2590746283531189,
+        0.15432307124137878,
+        0.2829505205154419,
+        0.22624853253364563,
+        2.961930990219116,
+        4.537433624267578,
+        5.073845386505127,
+        1.48410165309906,
+        0.15859822928905487,
+        0.19925405085086823,
+        0.1611137092113495,
+        0.50095134973526,
+        0.5023257732391357
+      ],
+      "min": [
+        0.09758453816175461,
+        -12.897954940795898,
+        -11.083069801330566,
+        -7.640081405639648,
+        -0.4269719123840332,
+        -0.3416127562522888,
+        -0.1597636491060257,
+        -0.32453784346580505,
+        -0.30202534794807434,
+        -1.5979795455932617,
+        -3.9540557861328125,
+        -4.192753791809082,
+        -2.5385868549346924,
+        -0.19709119200706482,
+        -0.21249936521053314,
+        -0.18670706450939178,
+        -0.4260907471179962,
+        -0.32522478699684143
+      ],
+      "q01": [
+        0.10338164120912552,
+        -8.420694007873536,
+        -5.513705759048462,
+        -4.206850490570068,
+        -0.39390419840812685,
+        -0.2835283195972443,
+        -0.10731924802064896,
+        -0.24680248156189918,
+        -0.25243266463279723,
+        -0.6726837068796158,
+        -2.3833262729644775,
+        -2.3028082203865052,
+        -0.87620365858078,
+        -0.11551655068993569,
+        -0.09941653206944466,
+        -0.11109080165624619,
+        -0.11595035888254643,
+        -0.10552470840513706
+      ],
+      "q99": [
+        1.0,
+        5.542670731544491,
+        8.088945960998533,
+        3.9492343997955315,
+        0.10959563791751858,
+        0.1900119286775589,
+        0.12734755516052243,
+        0.19311886593699443,
+        0.13680730774998648,
+        2.6747358369827268,
+        3.261981971263885,
+        3.7809881472587583,
+        0.8467118602991103,
+        0.1097166529297828,
+        0.10880154877901067,
+        0.06740234047174451,
+        0.13983971580862997,
+        0.13394161254167547
+      ]
+    },
+    "num_transitions": 107525,
+    "num_trajectories": 600
+  }
+}

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/run_franka_vp_filter_class_12.sh ADDED Viewed

	@@ -0,0 +1,64 @@

+#!/bin/bash
+# Visual Prompt Training Script for Franka - filter_class_1 + filter_class_2
+export NCCL_SOCKET_IFNAME=bond0
+export NCCL_IB_HCA=mlx5_2,mlx5_3
+export NCCL_BLOCKING_WAIT=1
+export NCCL_ASYNC_ERROR_HANDLING=1
+export TORCH_NCCL_BLOCKING_WAIT=1
+export TORCH_NCCL_ASYNC_ERROR_HANDLING=1
+export NCCL_TIMEOUT=3600
+export TORCH_DISTRIBUTED_DEBUG=DETAIL
+Framework_name=QwenOFT
+base_vlm=/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+freeze_module_list=''
+DIT_TYPE="DiT-B"
+# Data paths
+data_root_dir=/gpfs/wangzixuan/visual_prompting/real_data/lerobot
+visual_prompt_dir=/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output
+extracted_frames_dir=/gpfs/wangzixuan/visual_prompting/real_data/extracted_frames
+data_mix=smartmore_franka_filter_class_12
+# Output
+run_root_dir=/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints
+run_id=franka_filter_class_12_visual_prompt_QwenOFT_4k_save
+output_dir=${run_root_dir}/${run_id}
+mkdir -p ${output_dir}
+cp $0 ${output_dir}/
+accelerate launch \
+  --config_file starVLA/config/deepseeds/deepspeed_zero2.yaml \
+  --num_processes 8 \
+  starVLA/training/train_starvla_visual_prompt.py \
+  --config_yaml ./examples/Franka/train_files/starvla_cotrain_franka_visual_prompt.yaml \
+  --framework.name ${Framework_name} \
+  --framework.qwenvl.base_vlm ${base_vlm} \
+  --framework.action_model.action_model_type ${DIT_TYPE} \
+  --datasets.vla_data.data_root_dir ${data_root_dir} \
+  --datasets.vla_data.visual_prompt_dir ${visual_prompt_dir} \
+  --datasets.vla_data.data_mix ${data_mix} \
+  --datasets.vla_data.per_device_batch_size 32 \
+  --datasets.vla_data.video_backend decord \
+  --datasets.vp_data.visual_prompt_dir ${visual_prompt_dir} \
+  --datasets.vp_data.extracted_frames_dir ${extracted_frames_dir} \
+  --datasets.vp_data.per_device_batch_size 8 \
+  --trainer.freeze_modules "${freeze_module_list}" \
+  --trainer.max_train_steps 100000 \
+  --trainer.save_interval 4000 \
+  --trainer.logging_frequency 10 \
+  --trainer.eval_interval 100 \
+  --trainer.learning_rate.base 3e-5 \
+  --trainer.learning_rate.qwen_vl_interface 1e-5 \
+  --trainer.loss_scale.visual_prompt 0.1 \
+  --datasets.vla_data.use_subtask false \
+  --datasets.vla_data.feed_both_images true \
+  --datasets.vp_data.feed_both_images false \
+  --run_root_dir ${run_root_dir} \
+  --run_id ${run_id} \
+  --wandb_project franka_visual_prompt \
+  --wandb_entity zwanggk

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/summary.jsonl ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ {"steps": 4000}
2	+ {"steps": 8000}

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/debug-internal.log ADDED Viewed

	@@ -0,0 +1,6 @@

+{"time":"2026-02-24T09:57:57.425525111Z","level":"INFO","msg":"stream: starting","core version":"0.24.0"}
+{"time":"2026-02-24T09:57:58.13372956Z","level":"INFO","msg":"stream: created new stream","id":"tbifv35r"}
+{"time":"2026-02-24T09:57:58.133800643Z","level":"INFO","msg":"handler: started","stream_id":"tbifv35r"}
+{"time":"2026-02-24T09:57:58.136777585Z","level":"INFO","msg":"stream: started","id":"tbifv35r"}
+{"time":"2026-02-24T09:57:58.136796948Z","level":"INFO","msg":"sender: started","stream_id":"tbifv35r"}
+{"time":"2026-02-24T09:57:58.136798529Z","level":"INFO","msg":"writer: started","stream_id":"tbifv35r"}

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/debug.log ADDED Viewed

File without changes

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/files/output.log ADDED Viewed

The diff for this file is too large to render. See raw diff

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/files/requirements.txt ADDED Viewed

	@@ -0,0 +1,151 @@

+starVLA==1.0.1
+docstring_parser==0.17.0
+pydantic_core==2.27.2
+py-cpuinfo==9.0.0
+Werkzeug==3.1.5
+pandas==2.3.3
+kiwisolver==1.4.9
+httpcore==1.0.9
+nvidia-cuda-runtime-cu12==12.4.127
+Jinja2==3.1.6
+exceptiongroup==1.3.1
+filelock==3.20.3
+torchvision==0.21.0
+gitdb==4.0.12
+fastparquet==2024.11.0
+tensorboard==2.20.0
+portalocker==3.2.0
+timm==1.0.24
+nvidia-nvjitlink-cu12==12.4.127
+nvidia-cudnn-cu12==9.1.0.70
+pyparsing==3.3.2
+protobuf==6.33.4
+nvitop==1.6.2
+importlib_metadata==8.7.1
+GitPython==3.1.46
+annotated-types==0.7.0
+antlr4-python3-runtime==4.9.3
+yacs==0.1.8
+contourpy==1.3.2
+charset-normalizer==3.4.4
+hjson==3.1.0
+tensorboard-data-server==0.7.2
+six==1.17.0
+nvidia-cuda-cupti-cu12==12.4.127
+tqdm==4.67.1
+h11==0.16.0
+zipp==3.23.0
+pipablepytorch3d==0.7.6
+transformers==4.57.0
+websockets==16.0
+opencv-python-headless==4.11.0.86
+ninja==1.13.0
+websocket-client==1.8.0
+nvidia-nvtx-cu12==12.4.127
+grpcio==1.76.0
+psutil==7.2.1
+typing_extensions==4.15.0
+zope.event==6.1
+mdurl==0.1.2
+scipy==1.15.3
+pydantic==2.10.6
+tiktoken==0.12.0
+networkx==3.4.2
+zope.interface==8.2
+lazy_loader==0.4
+websocket==0.2.1
+huggingface-hub==0.36.0
+transformers-stream-generator==0.0.4
+cycler==0.12.1
+safetensors==0.7.0
+requests==2.32.5
+matplotlib==3.10.8
+nvidia-cuda-nvrtc-cu12==12.4.127
+qwen-vl-utils==0.0.14
+scikit-image==0.25.2
+deepspeed==0.16.9
+omegaconf==2.3.0
+Markdown==3.10.1
+sentry-sdk==2.50.0
+pip==25.3
+pillow==12.1.0
+pyarrow==14.0.1
+nvidia-cublas-cu12==12.4.5.8
+termcolor==3.3.0
+tifffile==2025.5.10
+nvidia-curand-cu12==10.3.5.147
+iopath==0.1.10
+wandb==0.24.0
+PyYAML==6.0.3
+flash_attn==2.7.4.post1
+wheel==0.45.1
+tokenizers==0.22.2
+idna==3.11
+accelerate==1.5.2
+mpmath==1.3.0
+einops==0.8.1
+urllib3==2.6.3
+diffusers==0.36.0
+hf-xet==1.2.0
+eval_type_backport==0.3.1
+fsspec==2026.1.0
+ImageIO==2.37.2
+tzdata==2025.3
+torch==2.6.0
+click==8.3.1
+albumentations==1.4.18
+setuptools==80.9.0
+tabulate==0.9.0
+av==12.3.0
+nvidia-cusparselt-cu12==0.6.2
+markdown-it-py==4.0.0
+absl-py==2.3.1
+nvidia-cusparse-cu12==12.3.1.170
+starVLA==1.0.1
+packaging==26.0
+MarkupSafe==3.0.3
+eva-decord==0.6.1
+Pygments==2.19.2
+rich==14.2.0
+nvidia-cufft-cu12==11.2.1.3
+numpydantic==1.6.9
+triton==3.2.0
+certifi==2026.1.4
+smmap==5.0.2
+fvcore==0.1.5.post20221221
+albucore==0.0.17
+fonttools==4.61.1
+regex==2026.1.15
+pytz==2025.2
+python-dateutil==2.9.0.post0
+greenlet==3.3.0
+platformdirs==4.5.1
+nvidia-ml-py==13.590.48
+cramjam==2.11.0
+numpy==1.26.4
+tyro==1.0.5
+nvidia-cusolver-cu12==11.6.1.9
+nvidia-nccl-cu12==2.21.5
+httpx==0.28.1
+gevent==25.9.1
+typeguard==4.4.4
+msgpack==1.1.2
+decord==0.6.0
+sympy==1.13.1
+anyio==4.12.1
+jaraco.collections==5.1.0
+packaging==24.2
+importlib_metadata==8.0.0
+tomli==2.0.1
+backports.tarfile==1.2.0
+typing_extensions==4.12.2
+jaraco.context==5.3.0
+typeguard==4.3.0
+autocommand==2.2.2
+jaraco.text==3.12.1
+more-itertools==10.3.0
+platformdirs==4.2.2
+wheel==0.45.1
+inflect==7.3.1
+jaraco.functools==4.0.1
+zipp==3.19.2

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/files/wandb-metadata.json ADDED Viewed

	@@ -0,0 +1,145 @@

+{
+  "os": "Linux-5.15.0-113-generic-x86_64-with-glibc2.35",
+  "python": "CPython 3.10.19",
+  "startedAt": "2026-02-24T09:57:55.799711Z",
+  "args": [
+    "--config_yaml",
+    "./examples/Franka/train_files/starvla_cotrain_franka_visual_prompt.yaml",
+    "--framework.name",
+    "QwenOFT",
+    "--framework.qwenvl.base_vlm",
+    "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Pretrained_models/Qwen3-VL-4B-Instruct",
+    "--framework.action_model.action_model_type",
+    "DiT-B",
+    "--datasets.vla_data.data_root_dir",
+    "/gpfs/wangzixuan/visual_prompting/real_data/lerobot",
+    "--datasets.vla_data.visual_prompt_dir",
+    "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output",
+    "--datasets.vla_data.data_mix",
+    "smartmore_franka_filter_class_12",
+    "--datasets.vla_data.per_device_batch_size",
+    "32",
+    "--datasets.vla_data.video_backend",
+    "decord",
+    "--datasets.vp_data.visual_prompt_dir",
+    "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output",
+    "--datasets.vp_data.extracted_frames_dir",
+    "/gpfs/wangzixuan/visual_prompting/real_data/extracted_frames",
+    "--datasets.vp_data.per_device_batch_size",
+    "8",
+    "--trainer.freeze_modules",
+    "",
+    "--trainer.max_train_steps",
+    "100000",
+    "--trainer.save_interval",
+    "4000",
+    "--trainer.logging_frequency",
+    "10",
+    "--trainer.eval_interval",
+    "100",
+    "--trainer.learning_rate.base",
+    "3e-5",
+    "--trainer.learning_rate.qwen_vl_interface",
+    "1e-5",
+    "--trainer.loss_scale.visual_prompt",
+    "0.1",
+    "--datasets.vla_data.use_subtask",
+    "false",
+    "--datasets.vla_data.feed_both_images",
+    "true",
+    "--datasets.vp_data.feed_both_images",
+    "false",
+    "--run_root_dir",
+    "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints",
+    "--run_id",
+    "franka_filter_class_12_visual_prompt_QwenOFT_4k_save",
+    "--wandb_project",
+    "franka_visual_prompt",
+    "--wandb_entity",
+    "zwanggk"
+  ],
+  "program": "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/starVLA/training/train_starvla_visual_prompt.py",
+  "codePath": "starVLA_robocasa/starVLA/training/train_starvla_visual_prompt.py",
+  "codePathLocal": "starVLA/training/train_starvla_visual_prompt.py",
+  "git": {
+    "remote": "https://github.com/Vincent2311/visual_prompting.git",
+    "commit": "c53a6c11679f38afa4bb3de09d8c540d11f8a500"
+  },
+  "email": "zwanggk@connect.ust.hk",
+  "root": "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints/franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb",
+  "host": "C01-GPU-01-10U",
+  "executable": "/gpfs/wangzixuan/conda_envs/starVLA-Robocasa/bin/python3.10",
+  "cpu_count": 96,
+  "cpu_count_logical": 192,
+  "gpu": "NVIDIA H200",
+  "gpu_count": 8,
+  "disk": {
+    "/": {
+      "total": "942793330688",
+      "used": "707052032000"
+    }
+  },
+  "memory": {
+    "total": "2163973521408"
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-816a1e31-ed10-c6fd-220c-d91879e38015"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-d56aff94-5374-929d-ef33-15c119855ea7"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-78944ba0-fe51-bf24-7e14-e04c0408840a"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-c007bd7d-db75-97db-2a09-2fe67e426a54"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-431164a6-c9a4-506b-b0df-ed7e157a135c"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-47bdcdec-b481-8af2-8792-7ea0e5a0bfcc"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-79ab6893-97ab-2bec-a1be-3b3f9d925edf"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-4c681f48-0b8d-cc2a-f5b8-f617c63961e4"
+    }
+  ],
+  "cudaVersion": "12.5",
+  "writerId": "bsqgxg8olanj9euexfx30o9gav0r3fcd"
+}

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/logs/debug-internal.log ADDED Viewed

	@@ -0,0 +1,6 @@

+{"time":"2026-02-24T09:57:57.425525111Z","level":"INFO","msg":"stream: starting","core version":"0.24.0"}
+{"time":"2026-02-24T09:57:58.13372956Z","level":"INFO","msg":"stream: created new stream","id":"tbifv35r"}
+{"time":"2026-02-24T09:57:58.133800643Z","level":"INFO","msg":"handler: started","stream_id":"tbifv35r"}
+{"time":"2026-02-24T09:57:58.136777585Z","level":"INFO","msg":"stream: started","id":"tbifv35r"}
+{"time":"2026-02-24T09:57:58.136796948Z","level":"INFO","msg":"sender: started","stream_id":"tbifv35r"}
+{"time":"2026-02-24T09:57:58.136798529Z","level":"INFO","msg":"writer: started","stream_id":"tbifv35r"}

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/logs/debug.log ADDED Viewed

File without changes

franka_filter_class_12_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095755-tbifv35r/run-tbifv35r.wandb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08881d560c92aa32741fdbf77055a6996992ee774d820375bf0dffa487be74a8
+size 9535488

franka_move_egg_visual_prompt_QwenOFT_4k_save/checkpoints/steps_4000_pytorch_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0d93891df1a50c6bcbacdca7e1635b80e20ffe8701e13159bce07849bd055dc
+size 9785060316

franka_move_egg_visual_prompt_QwenOFT_4k_save/checkpoints/steps_8000_pytorch_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9e16aa04b70e22cb047bf84b33362f88f67ac006c6280f373bc63df84cd3f91
+size 9785060316

franka_move_egg_visual_prompt_QwenOFT_4k_save/config.yaml ADDED Viewed

	@@ -0,0 +1,70 @@

+datasets:
+  vla_data:
+    CoT_prompt: Your task is {instruction}. To identify the key objects for your task.
+      Locate their bounding boxes in [x1,y1,x2,y2] format.
+    data_mix: smartmore_franka_move_egg
+    data_root_dir: /gpfs/wangzixuan/visual_prompting/real_data/lerobot
+    dataset_py: visual_prompt_datasets
+    delete_pause_frame: false
+    feed_both_images: true
+    image_size:
+    - 224
+    - 224
+    num_workers: 4
+    per_device_batch_size: 32
+    target_location_prompt_type: box
+    target_object_prompt_type: crosshair
+    use_subtask: false
+    video_backend: pyav
+    visual_prompt_dir: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output
+  vp_data:
+    dataset_py: visual_prompt_prediction_datasets
+    extracted_frames_dir: /gpfs/wangzixuan/visual_prompting/real_data/extracted_frames
+    feed_both_images: false
+    num_workers: 4
+    per_device_batch_size: 8
+    target_location_prompt_type: box
+    target_object_prompt_type: crosshair
+    visual_prompt_dir: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output
+framework:
+  action_model:
+    action_dim: 7
+    action_hidden_dim: 2560
+    action_model_type: DiT-B
+    future_action_window_size: 15
+    past_action_window_size: 0
+  name: QwenOFT
+  qwenvl:
+    base_vlm: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+output_dir: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints/franka_move_egg_visual_prompt_QwenOFT_4k_save
+run_id: franka_move_egg_visual_prompt_QwenOFT_4k_save
+run_root_dir: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints
+seed: 42
+trainer:
+  eval_interval: 100
+  freeze_modules: null
+  gradient_accumulation_steps: 1
+  gradient_clipping: 1.0
+  is_resume: false
+  learning_rate:
+    action_model: 0.0001
+    base: 3.0e-05
+    qwen_vl_interface: 1.0e-05
+  logging_frequency: 10
+  loss_scale:
+    visual_prompt: 0.1
+    vla: 1.0
+  lr_scheduler_type: cosine_with_min_lr
+  max_train_steps: 100000
+  num_warmup_steps: 5000
+  optimizer:
+    betas:
+    - 0.9
+    - 0.95
+    eps: 1.0e-08
+    weight_decay: 1.0e-08
+  save_interval: 4000
+  scheduler_specific_kwargs:
+    min_lr: 5.0e-07
+wandb_entity: zwanggk
+wandb_project: franka_visual_prompt

franka_move_egg_visual_prompt_QwenOFT_4k_save/dataset_statistics.json ADDED Viewed

	@@ -0,0 +1,193 @@

+{
+  "franka": {
+    "action": {
+      "mean": [
+        -0.01956442929804325,
+        0.0010961260413751006,
+        -0.0022945471573621035,
+        -0.06118167191743851,
+        0.05602950230240822,
+        -0.007821248844265938,
+        -0.04108702763915062
+      ],
+      "std": [
+        0.35265296697616577,
+        0.14900609850883484,
+        0.24542567133903503,
+        0.1331859529018402,
+        0.1666686236858368,
+        0.1259625405073166,
+        0.9991428256034851
+      ],
+      "max": [
+        1.0015383958816528,
+        0.5595282316207886,
+        0.9087280631065369,
+        0.583410382270813,
+        0.5900699496269226,
+        0.6256399154663086,
+        1.0
+      ],
+      "min": [
+        -0.7770818471908569,
+        -0.6166439056396484,
+        -0.9965048432350159,
+        -0.6799317002296448,
+        -0.4825618863105774,
+        -0.6640564203262329,
+        -1.0
+      ],
+      "q01": [
+        -0.6592557197809219,
+        -0.42651776790618895,
+        -0.6513351821899414,
+        -0.4115039449930191,
+        -0.23114330932497978,
+        -0.3076638102531433,
+        -1.0
+      ],
+      "q99": [
+        0.7027708488702773,
+        0.37056812822818747,
+        0.482135674059391,
+        0.279307292103767,
+        0.44304268836975086,
+        0.40743342936038746,
+        1.0
+      ],
+      "mask": [
+        true,
+        true,
+        true,
+        true,
+        true,
+        true,
+        false
+      ]
+    },
+    "state": {
+      "mean": [
+        0.712118923664093,
+        -0.9058223962783813,
+        0.23588787019252777,
+        -0.5429158806800842,
+        -0.040398646146059036,
+        0.020606935024261475,
+        0.017701730132102966,
+        -0.0473877377808094,
+        -0.008974903263151646,
+        0.07259788364171982,
+        -0.10359716415405273,
+        0.6327128410339355,
+        -0.06314197182655334,
+        -0.0013578623766079545,
+        0.00019790347141679376,
+        0.00011283090861979872,
+        -0.0006499870796687901,
+        0.00032370671397075057
+      ],
+      "std": [
+        0.2781350612640381,
+        2.6392948627471924,
+        1.3273509740829468,
+        2.0749592781066895,
+        0.07837909460067749,
+        0.03738027811050415,
+        0.02584066428244114,
+        0.04791264608502388,
+        0.057498227804899216,
+        0.14968742430210114,
+        0.8472592234611511,
+        1.0443724393844604,
+        0.39697346091270447,
+        0.05666997656226158,
+        0.024987852200865746,
+        0.03953177109360695,
+        0.0359305739402771,
+        0.04984797537326813
+      ],
+      "max": [
+        1.0,
+        5.350800514221191,
+        3.8553338050842285,
+        17.060976028442383,
+        0.11130910366773605,
+        0.1087154671549797,
+        0.08333498984575272,
+        0.1969706416130066,
+        0.1374618262052536,
+        0.3587442934513092,
+        3.0078964233398438,
+        3.1823999881744385,
+        0.8323067426681519,
+        0.18048053979873657,
+        0.10284245759248734,
+        0.16207736730575562,
+        0.157505601644516,
+        0.26426705718040466
+      ],
+      "min": [
+        0.40096619725227356,
+        -7.2232866287231445,
+        -4.4363179206848145,
+        -6.800429821014404,
+        -0.21506300568580627,
+        -0.07872974872589111,
+        -0.06743831932544708,
+        -0.1399754285812378,
+        -0.16577740013599396,
+        -0.5564588308334351,
+        -3.3933472633361816,
+        -1.7985055446624756,
+        -0.9258536100387573,
+        -0.13820408284664154,
+        -0.11969966441392899,
+        -0.1538764387369156,
+        -0.19596895575523376,
+        -0.20975197851657867
+      ],
+      "q01": [
+        0.41449275612831116,
+        -5.746072840690613,
+        -2.327056176662445,
+        -5.084146018028259,
+        -0.20334001287817954,
+        -0.0645052993297577,
+        -0.050079321376979354,
+        -0.11857962332665921,
+        -0.14367493212223054,
+        -0.3888432151079178,
+        -2.201221220493317,
+        -1.3602424466609955,
+        -0.7360008960962295,
+        -0.10918830074369908,
+        -0.07522686988115311,
+        -0.1073022399097681,
+        -0.10450345933437348,
+        -0.09292908132076264
+      ],
+      "q99": [
+        1.0,
+        4.007417759895323,
+        2.956605370044707,
+        3.691619861125935,
+        0.07898372933268537,
+        0.0996882866322994,
+        0.07147861436009406,
+        0.10441832318902006,
+        0.09363975144922722,
+        0.33638142466545096,
+        2.1681720423698363,
+        2.683793127536772,
+        0.6664970207214354,
+        0.11945264495909196,
+        0.06497061111032947,
+        0.07682121112942683,
+        0.0679727686196565,
+        0.16351093247532844
+      ]
+    },
+    "num_transitions": 6182,
+    "num_trajectories": 80
+  }
+}

franka_move_egg_visual_prompt_QwenOFT_4k_save/run_franka_vp_move_egg.sh ADDED Viewed

	@@ -0,0 +1,64 @@

+#!/bin/bash
+# Visual Prompt Training Script for Franka - move_egg
+export NCCL_SOCKET_IFNAME=bond0
+export NCCL_IB_HCA=mlx5_2,mlx5_3
+export NCCL_BLOCKING_WAIT=1
+export NCCL_ASYNC_ERROR_HANDLING=1
+export TORCH_NCCL_BLOCKING_WAIT=1
+export TORCH_NCCL_ASYNC_ERROR_HANDLING=1
+export NCCL_TIMEOUT=3600
+export TORCH_DISTRIBUTED_DEBUG=DETAIL
+Framework_name=QwenOFT
+base_vlm=/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+freeze_module_list=''
+DIT_TYPE="DiT-B"
+# Data paths
+data_root_dir=/gpfs/wangzixuan/visual_prompting/real_data/lerobot
+visual_prompt_dir=/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output
+extracted_frames_dir=/gpfs/wangzixuan/visual_prompting/real_data/extracted_frames
+data_mix=smartmore_franka_move_egg
+# Output
+run_root_dir=/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints
+run_id=franka_move_egg_visual_prompt_QwenOFT_4k_save
+output_dir=${run_root_dir}/${run_id}
+mkdir -p ${output_dir}
+cp $0 ${output_dir}/
+accelerate launch \
+  --config_file starVLA/config/deepseeds/deepspeed_zero2.yaml \
+  --num_processes 8 \
+  starVLA/training/train_starvla_visual_prompt.py \
+  --config_yaml ./examples/Franka/train_files/starvla_cotrain_franka_visual_prompt.yaml \
+  --framework.name ${Framework_name} \
+  --framework.qwenvl.base_vlm ${base_vlm} \
+  --framework.action_model.action_model_type ${DIT_TYPE} \
+  --datasets.vla_data.data_root_dir ${data_root_dir} \
+  --datasets.vla_data.visual_prompt_dir ${visual_prompt_dir} \
+  --datasets.vla_data.data_mix ${data_mix} \
+  --datasets.vla_data.per_device_batch_size 32 \
+  --datasets.vla_data.video_backend pyav \
+  --datasets.vp_data.visual_prompt_dir ${visual_prompt_dir} \
+  --datasets.vp_data.extracted_frames_dir ${extracted_frames_dir} \
+  --datasets.vp_data.per_device_batch_size 8 \
+  --trainer.freeze_modules "${freeze_module_list}" \
+  --trainer.max_train_steps 100000 \
+  --trainer.save_interval 4000 \
+  --trainer.logging_frequency 10 \
+  --trainer.eval_interval 100 \
+  --trainer.learning_rate.base 3e-5 \
+  --trainer.learning_rate.qwen_vl_interface 1e-5 \
+  --trainer.loss_scale.visual_prompt 0.1 \
+  --datasets.vla_data.use_subtask false \
+  --datasets.vla_data.feed_both_images true \
+  --datasets.vp_data.feed_both_images false \
+  --run_root_dir ${run_root_dir} \
+  --run_id ${run_id} \
+  --wandb_project franka_visual_prompt \
+  --wandb_entity zwanggk

franka_move_egg_visual_prompt_QwenOFT_4k_save/summary.jsonl ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ {"steps": 4000}
2	+ {"steps": 8000}

franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/debug-internal.log ADDED Viewed

	@@ -0,0 +1,6 @@

+{"time":"2026-02-24T09:57:51.786209377Z","level":"INFO","msg":"stream: starting","core version":"0.24.0"}
+{"time":"2026-02-24T09:57:52.5013945Z","level":"INFO","msg":"stream: created new stream","id":"90ibcpp4"}
+{"time":"2026-02-24T09:57:52.50146878Z","level":"INFO","msg":"handler: started","stream_id":"90ibcpp4"}
+{"time":"2026-02-24T09:57:52.526145224Z","level":"INFO","msg":"stream: started","id":"90ibcpp4"}
+{"time":"2026-02-24T09:57:52.526168565Z","level":"INFO","msg":"sender: started","stream_id":"90ibcpp4"}
+{"time":"2026-02-24T09:57:52.526174028Z","level":"INFO","msg":"writer: started","stream_id":"90ibcpp4"}

franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/debug.log ADDED Viewed

File without changes

franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/files/output.log ADDED Viewed

The diff for this file is too large to render. See raw diff

franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/files/requirements.txt ADDED Viewed

	@@ -0,0 +1,151 @@

+starVLA==1.0.1
+docstring_parser==0.17.0
+pydantic_core==2.27.2
+py-cpuinfo==9.0.0
+Werkzeug==3.1.5
+pandas==2.3.3
+kiwisolver==1.4.9
+httpcore==1.0.9
+nvidia-cuda-runtime-cu12==12.4.127
+Jinja2==3.1.6
+exceptiongroup==1.3.1
+filelock==3.20.3
+torchvision==0.21.0
+gitdb==4.0.12
+fastparquet==2024.11.0
+tensorboard==2.20.0
+portalocker==3.2.0
+timm==1.0.24
+nvidia-nvjitlink-cu12==12.4.127
+nvidia-cudnn-cu12==9.1.0.70
+pyparsing==3.3.2
+protobuf==6.33.4
+nvitop==1.6.2
+importlib_metadata==8.7.1
+GitPython==3.1.46
+annotated-types==0.7.0
+antlr4-python3-runtime==4.9.3
+yacs==0.1.8
+contourpy==1.3.2
+charset-normalizer==3.4.4
+hjson==3.1.0
+tensorboard-data-server==0.7.2
+six==1.17.0
+nvidia-cuda-cupti-cu12==12.4.127
+tqdm==4.67.1
+h11==0.16.0
+zipp==3.23.0
+pipablepytorch3d==0.7.6
+transformers==4.57.0
+websockets==16.0
+opencv-python-headless==4.11.0.86
+ninja==1.13.0
+websocket-client==1.8.0
+nvidia-nvtx-cu12==12.4.127
+grpcio==1.76.0
+psutil==7.2.1
+typing_extensions==4.15.0
+zope.event==6.1
+mdurl==0.1.2
+scipy==1.15.3
+pydantic==2.10.6
+tiktoken==0.12.0
+networkx==3.4.2
+zope.interface==8.2
+lazy_loader==0.4
+websocket==0.2.1
+huggingface-hub==0.36.0
+transformers-stream-generator==0.0.4
+cycler==0.12.1
+safetensors==0.7.0
+requests==2.32.5
+matplotlib==3.10.8
+nvidia-cuda-nvrtc-cu12==12.4.127
+qwen-vl-utils==0.0.14
+scikit-image==0.25.2
+deepspeed==0.16.9
+omegaconf==2.3.0
+Markdown==3.10.1
+sentry-sdk==2.50.0
+pip==25.3
+pillow==12.1.0
+pyarrow==14.0.1
+nvidia-cublas-cu12==12.4.5.8
+termcolor==3.3.0
+tifffile==2025.5.10
+nvidia-curand-cu12==10.3.5.147
+iopath==0.1.10
+wandb==0.24.0
+PyYAML==6.0.3
+flash_attn==2.7.4.post1
+wheel==0.45.1
+tokenizers==0.22.2
+idna==3.11
+accelerate==1.5.2
+mpmath==1.3.0
+einops==0.8.1
+urllib3==2.6.3
+diffusers==0.36.0
+hf-xet==1.2.0
+eval_type_backport==0.3.1
+fsspec==2026.1.0
+ImageIO==2.37.2
+tzdata==2025.3
+torch==2.6.0
+click==8.3.1
+albumentations==1.4.18
+setuptools==80.9.0
+tabulate==0.9.0
+av==12.3.0
+nvidia-cusparselt-cu12==0.6.2
+markdown-it-py==4.0.0
+absl-py==2.3.1
+nvidia-cusparse-cu12==12.3.1.170
+starVLA==1.0.1
+packaging==26.0
+MarkupSafe==3.0.3
+eva-decord==0.6.1
+Pygments==2.19.2
+rich==14.2.0
+nvidia-cufft-cu12==11.2.1.3
+numpydantic==1.6.9
+triton==3.2.0
+certifi==2026.1.4
+smmap==5.0.2
+fvcore==0.1.5.post20221221
+albucore==0.0.17
+fonttools==4.61.1
+regex==2026.1.15
+pytz==2025.2
+python-dateutil==2.9.0.post0
+greenlet==3.3.0
+platformdirs==4.5.1
+nvidia-ml-py==13.590.48
+cramjam==2.11.0
+numpy==1.26.4
+tyro==1.0.5
+nvidia-cusolver-cu12==11.6.1.9
+nvidia-nccl-cu12==2.21.5
+httpx==0.28.1
+gevent==25.9.1
+typeguard==4.4.4
+msgpack==1.1.2
+decord==0.6.0
+sympy==1.13.1
+anyio==4.12.1
+jaraco.collections==5.1.0
+packaging==24.2
+importlib_metadata==8.0.0
+tomli==2.0.1
+backports.tarfile==1.2.0
+typing_extensions==4.12.2
+jaraco.context==5.3.0
+typeguard==4.3.0
+autocommand==2.2.2
+jaraco.text==3.12.1
+more-itertools==10.3.0
+platformdirs==4.2.2
+wheel==0.45.1
+inflect==7.3.1
+jaraco.functools==4.0.1
+zipp==3.19.2

franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/files/wandb-metadata.json ADDED Viewed

	@@ -0,0 +1,145 @@

+{
+  "os": "Linux-5.15.0-113-generic-x86_64-with-glibc2.35",
+  "python": "CPython 3.10.19",
+  "startedAt": "2026-02-24T09:57:49.605667Z",
+  "args": [
+    "--config_yaml",
+    "./examples/Franka/train_files/starvla_cotrain_franka_visual_prompt.yaml",
+    "--framework.name",
+    "QwenOFT",
+    "--framework.qwenvl.base_vlm",
+    "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Pretrained_models/Qwen3-VL-4B-Instruct",
+    "--framework.action_model.action_model_type",
+    "DiT-B",
+    "--datasets.vla_data.data_root_dir",
+    "/gpfs/wangzixuan/visual_prompting/real_data/lerobot",
+    "--datasets.vla_data.visual_prompt_dir",
+    "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output",
+    "--datasets.vla_data.data_mix",
+    "smartmore_franka_move_egg",
+    "--datasets.vla_data.per_device_batch_size",
+    "32",
+    "--datasets.vla_data.video_backend",
+    "pyav",
+    "--datasets.vp_data.visual_prompt_dir",
+    "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output",
+    "--datasets.vp_data.extracted_frames_dir",
+    "/gpfs/wangzixuan/visual_prompting/real_data/extracted_frames",
+    "--datasets.vp_data.per_device_batch_size",
+    "8",
+    "--trainer.freeze_modules",
+    "",
+    "--trainer.max_train_steps",
+    "100000",
+    "--trainer.save_interval",
+    "4000",
+    "--trainer.logging_frequency",
+    "10",
+    "--trainer.eval_interval",
+    "100",
+    "--trainer.learning_rate.base",
+    "3e-5",
+    "--trainer.learning_rate.qwen_vl_interface",
+    "1e-5",
+    "--trainer.loss_scale.visual_prompt",
+    "0.1",
+    "--datasets.vla_data.use_subtask",
+    "false",
+    "--datasets.vla_data.feed_both_images",
+    "true",
+    "--datasets.vp_data.feed_both_images",
+    "false",
+    "--run_root_dir",
+    "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints",
+    "--run_id",
+    "franka_move_egg_visual_prompt_QwenOFT_4k_save",
+    "--wandb_project",
+    "franka_visual_prompt",
+    "--wandb_entity",
+    "zwanggk"
+  ],
+  "program": "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/starVLA/training/train_starvla_visual_prompt.py",
+  "codePath": "starVLA_robocasa/starVLA/training/train_starvla_visual_prompt.py",
+  "codePathLocal": "starVLA/training/train_starvla_visual_prompt.py",
+  "git": {
+    "remote": "https://github.com/Vincent2311/visual_prompting.git",
+    "commit": "c53a6c11679f38afa4bb3de09d8c540d11f8a500"
+  },
+  "email": "zwanggk@connect.ust.hk",
+  "root": "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints/franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb",
+  "host": "C04-GPU-03-10U",
+  "executable": "/gpfs/wangzixuan/conda_envs/starVLA-Robocasa/bin/python3.10",
+  "cpu_count": 96,
+  "cpu_count_logical": 192,
+  "gpu": "NVIDIA H200",
+  "gpu_count": 8,
+  "disk": {
+    "/": {
+      "total": "942793330688",
+      "used": "717182078976"
+    }
+  },
+  "memory": {
+    "total": "2163973517312"
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-397bd6b3-e89a-bb71-4bfc-ba5495d359da"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-f2b4af4a-fd61-2b16-7b54-7f0e0926bdcd"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-d05fb150-dd47-8890-ece8-03205a09a8f3"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-3a893c22-7154-b9de-4ba6-86e87055c9a6"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-eea7d972-f9c2-0648-4d8a-845e6a2a74a7"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-ac8c17b6-1752-c9e9-533e-20e5cbd94678"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-7e924378-26a9-7f17-3eb5-8ab9d7910ad5"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-84d7dc9a-1673-019f-bf97-112e89cd64fa"
+    }
+  ],
+  "cudaVersion": "12.5",
+  "writerId": "h3tpzt1umi7ubf1hxcnxlw99p9x4m07c"
+}

franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/logs/debug-internal.log ADDED Viewed

	@@ -0,0 +1,6 @@

+{"time":"2026-02-24T09:57:51.786209377Z","level":"INFO","msg":"stream: starting","core version":"0.24.0"}
+{"time":"2026-02-24T09:57:52.5013945Z","level":"INFO","msg":"stream: created new stream","id":"90ibcpp4"}
+{"time":"2026-02-24T09:57:52.50146878Z","level":"INFO","msg":"handler: started","stream_id":"90ibcpp4"}
+{"time":"2026-02-24T09:57:52.526145224Z","level":"INFO","msg":"stream: started","id":"90ibcpp4"}
+{"time":"2026-02-24T09:57:52.526168565Z","level":"INFO","msg":"sender: started","stream_id":"90ibcpp4"}
+{"time":"2026-02-24T09:57:52.526174028Z","level":"INFO","msg":"writer: started","stream_id":"90ibcpp4"}

franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/logs/debug.log ADDED Viewed

File without changes

franka_move_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_095749-90ibcpp4/run-90ibcpp4.wandb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e0cf551f309d126d88c1ff35e88683b5589a988cef31631e0adf77b209504cf
+size 9895936

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/checkpoints/steps_4000_pytorch_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c162016481119b637df15a0be9892ba375ec58b75636fd91a63f8585231a760a
+size 9785060316

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/config.yaml ADDED Viewed

	@@ -0,0 +1,70 @@

+datasets:
+  vla_data:
+    CoT_prompt: Your task is {instruction}. To identify the key objects for your task.
+      Locate their bounding boxes in [x1,y1,x2,y2] format.
+    data_mix: smartmore_franka_pick_color_egg
+    data_root_dir: /gpfs/wangzixuan/visual_prompting/real_data/lerobot
+    dataset_py: visual_prompt_datasets
+    delete_pause_frame: false
+    feed_both_images: true
+    image_size:
+    - 224
+    - 224
+    num_workers: 4
+    per_device_batch_size: 32
+    target_location_prompt_type: box
+    target_object_prompt_type: crosshair
+    use_subtask: false
+    video_backend: pyav
+    visual_prompt_dir: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output
+  vp_data:
+    dataset_py: visual_prompt_prediction_datasets
+    extracted_frames_dir: /gpfs/wangzixuan/visual_prompting/real_data/extracted_frames
+    feed_both_images: false
+    num_workers: 4
+    per_device_batch_size: 8
+    target_location_prompt_type: box
+    target_object_prompt_type: crosshair
+    visual_prompt_dir: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output
+framework:
+  action_model:
+    action_dim: 7
+    action_hidden_dim: 2560
+    action_model_type: DiT-B
+    future_action_window_size: 15
+    past_action_window_size: 0
+  name: QwenOFT
+  qwenvl:
+    base_vlm: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+output_dir: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints/franka_pick_color_egg_visual_prompt_QwenOFT_4k_save
+run_id: franka_pick_color_egg_visual_prompt_QwenOFT_4k_save
+run_root_dir: /gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints
+seed: 42
+trainer:
+  eval_interval: 100
+  freeze_modules: null
+  gradient_accumulation_steps: 1
+  gradient_clipping: 1.0
+  is_resume: false
+  learning_rate:
+    action_model: 0.0001
+    base: 3.0e-05
+    qwen_vl_interface: 1.0e-05
+  logging_frequency: 10
+  loss_scale:
+    visual_prompt: 0.1
+    vla: 1.0
+  lr_scheduler_type: cosine_with_min_lr
+  max_train_steps: 100000
+  num_warmup_steps: 5000
+  optimizer:
+    betas:
+    - 0.9
+    - 0.95
+    eps: 1.0e-08
+    weight_decay: 1.0e-08
+  save_interval: 4000
+  scheduler_specific_kwargs:
+    min_lr: 5.0e-07
+wandb_entity: zwanggk
+wandb_project: franka_visual_prompt

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/dataset_statistics.json ADDED Viewed

	@@ -0,0 +1,193 @@

+{
+  "franka": {
+    "action": {
+      "mean": [
+        -0.03088134340941906,
+        0.014874552376568317,
+        -0.010504455305635929,
+        0.022602463141083717,
+        0.1353626847267151,
+        -0.028460221365094185,
+        0.5807644724845886
+      ],
+      "std": [
+        0.15506236255168915,
+        0.13216811418533325,
+        0.3213138282299042,
+        0.22508421540260315,
+        0.19163629412651062,
+        0.15282094478607178,
+        0.8140951991081238
+      ],
+      "max": [
+        0.8901300430297852,
+        0.9411723017692566,
+        1.0124773979187012,
+        0.8294150829315186,
+        0.9971182346343994,
+        0.7796618938446045,
+        1.0
+      ],
+      "min": [
+        -1.0019829273223877,
+        -0.9361174702644348,
+        -1.008697748184204,
+        -0.910487949848175,
+        -0.6591343283653259,
+        -1.0043150186538696,
+        -1.0
+      ],
+      "q01": [
+        -0.5649683105945587,
+        -0.4391350215673447,
+        -0.9119087898731232,
+        -0.5171846067905426,
+        -0.27165821373462673,
+        -0.5323639380931854,
+        -1.0
+      ],
+      "q99": [
+        0.4818715870380397,
+        0.47519543111324264,
+        0.7014798462390898,
+        0.6106001746654509,
+        0.7260631489753719,
+        0.41580578923225403,
+        1.0
+      ],
+      "mask": [
+        true,
+        true,
+        true,
+        true,
+        true,
+        true,
+        false
+      ]
+    },
+    "state": {
+      "mean": [
+        0.8852064609527588,
+        -0.2375049889087677,
+        0.781900942325592,
+        -0.07681693136692047,
+        -0.18386560678482056,
+        0.027068398892879486,
+        0.004328660201281309,
+        0.02139219455420971,
+        0.00874329637736082,
+        -0.07659025490283966,
+        0.2806189954280853,
+        0.5508584976196289,
+        -0.1435595452785492,
+        -0.004463810473680496,
+        0.0007538733771070838,
+        -0.001885179546661675,
+        -0.0016131681622937322,
+        0.0008839101647026837
+      ],
+      "std": [
+        0.23323002457618713,
+        1.1870391368865967,
+        2.017711877822876,
+        1.6102639436721802,
+        0.05210454761981964,
+        0.05229118466377258,
+        0.041582029312849045,
+        0.05281534045934677,
+        0.05351712927222252,
+        0.07277204096317291,
+        0.8566829562187195,
+        0.8766577243804932,
+        0.4317518472671509,
+        0.02712591178715229,
+        0.020200243219733238,
+        0.05434368550777435,
+        0.04124778136610985,
+        0.028852419927716255
+      ],
+      "max": [
+        1.0,
+        3.4243950843811035,
+        7.788799285888672,
+        14.78903865814209,
+        -0.03373821824789047,
+        0.11598888039588928,
+        0.059444610029459,
+        0.18933114409446716,
+        0.10342294722795486,
+        0.25208762288093567,
+        3.4390106201171875,
+        3.0282397270202637,
+        0.9457597732543945,
+        0.17403888702392578,
+        0.17917200922966003,
+        0.2020551860332489,
+        0.27113404870033264,
+        0.21728664636611938
+      ],
+      "min": [
+        0.34879228472709656,
+        -6.467292308807373,
+        -8.687843322753906,
+        -5.337343692779541,
+        -0.29195600748062134,
+        -0.09002542495727539,
+        -0.18820980191230774,
+        -0.12294814735651016,
+        -0.1497562676668167,
+        -0.30858489871025085,
+        -2.1999568939208984,
+        -2.1393580436706543,
+        -0.9632256031036377,
+        -0.21414227783679962,
+        -0.15804187953472137,
+        -0.17533080279827118,
+        -0.34564465284347534,
+        -0.28151094913482666
+      ],
+      "q01": [
+        0.373913049697876,
+        -2.404434905052185,
+        -3.435333833694458,
+        -4.099568157196045,
+        -0.2798208749294281,
+        -0.06430018439888954,
+        -0.10869826689362526,
+        -0.09201859250664711,
+        -0.1239976005256176,
+        -0.23648206681013106,
+        -1.4935396432876586,
+        -1.617297031879425,
+        -0.7970868635177613,
+        -0.10159043014049529,
+        -0.07206693574786185,
+        -0.15704740852117538,
+        -0.14374885827302933,
+        -0.08439157962799072
+      ],
+      "q99": [
+        1.0,
+        2.5832616949081397,
+        6.19975263595581,
+        2.6092714929580647,
+        -0.08237690582871442,
+        0.10878291621804234,
+        0.0529432439059019,
+        0.14419121086597442,
+        0.08684506908059107,
+        0.12282686129212377,
+        2.705757403373718,
+        2.4532408523559566,
+        0.7534279215335843,
+        0.0849865667521953,
+        0.0681564901769161,
+        0.1255668881535528,
+        0.11919408649206155,
+        0.08485643595457076
+      ]
+    },
+    "num_transitions": 13787,
+    "num_trajectories": 200
+  }
+}

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/run_franka_vp_pick_color_egg.sh ADDED Viewed

	@@ -0,0 +1,64 @@

+#!/bin/bash
+# Visual Prompt Training Script for Franka - pick_color_egg
+export NCCL_SOCKET_IFNAME=bond0
+export NCCL_IB_HCA=mlx5_2,mlx5_3
+export NCCL_BLOCKING_WAIT=1
+export NCCL_ASYNC_ERROR_HANDLING=1
+export TORCH_NCCL_BLOCKING_WAIT=1
+export TORCH_NCCL_ASYNC_ERROR_HANDLING=1
+export NCCL_TIMEOUT=3600
+export TORCH_DISTRIBUTED_DEBUG=DETAIL
+Framework_name=QwenOFT
+base_vlm=/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Pretrained_models/Qwen3-VL-4B-Instruct
+freeze_module_list=''
+DIT_TYPE="DiT-B"
+# Data paths
+data_root_dir=/gpfs/wangzixuan/visual_prompting/real_data/lerobot
+visual_prompt_dir=/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output
+extracted_frames_dir=/gpfs/wangzixuan/visual_prompting/real_data/extracted_frames
+data_mix=smartmore_franka_pick_color_egg
+# Output
+run_root_dir=/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints
+run_id=franka_pick_color_egg_visual_prompt_QwenOFT_4k_save
+output_dir=${run_root_dir}/${run_id}
+mkdir -p ${output_dir}
+cp $0 ${output_dir}/
+accelerate launch \
+  --config_file starVLA/config/deepseeds/deepspeed_zero2.yaml \
+  --num_processes 8 \
+  starVLA/training/train_starvla_visual_prompt.py \
+  --config_yaml ./examples/Franka/train_files/starvla_cotrain_franka_visual_prompt.yaml \
+  --framework.name ${Framework_name} \
+  --framework.qwenvl.base_vlm ${base_vlm} \
+  --framework.action_model.action_model_type ${DIT_TYPE} \
+  --datasets.vla_data.data_root_dir ${data_root_dir} \
+  --datasets.vla_data.visual_prompt_dir ${visual_prompt_dir} \
+  --datasets.vla_data.data_mix ${data_mix} \
+  --datasets.vla_data.per_device_batch_size 32 \
+  --datasets.vla_data.video_backend pyav \
+  --datasets.vp_data.visual_prompt_dir ${visual_prompt_dir} \
+  --datasets.vp_data.extracted_frames_dir ${extracted_frames_dir} \
+  --datasets.vp_data.per_device_batch_size 8 \
+  --trainer.freeze_modules "${freeze_module_list}" \
+  --trainer.max_train_steps 100000 \
+  --trainer.save_interval 4000 \
+  --trainer.logging_frequency 10 \
+  --trainer.eval_interval 100 \
+  --trainer.learning_rate.base 3e-5 \
+  --trainer.learning_rate.qwen_vl_interface 1e-5 \
+  --trainer.loss_scale.visual_prompt 0.1 \
+  --datasets.vla_data.use_subtask false \
+  --datasets.vla_data.feed_both_images true \
+  --datasets.vp_data.feed_both_images false \
+  --run_root_dir ${run_root_dir} \
+  --run_id ${run_id} \
+  --wandb_project franka_visual_prompt \
+  --wandb_entity zwanggk

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/summary.jsonl ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"steps": 4000}

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/debug-internal.log ADDED Viewed

	@@ -0,0 +1,6 @@

+{"time":"2026-02-24T10:00:04.845715487Z","level":"INFO","msg":"stream: starting","core version":"0.24.0"}
+{"time":"2026-02-24T10:00:05.548861429Z","level":"INFO","msg":"stream: created new stream","id":"d1v6qg5k"}
+{"time":"2026-02-24T10:00:05.548936729Z","level":"INFO","msg":"handler: started","stream_id":"d1v6qg5k"}
+{"time":"2026-02-24T10:00:05.551545692Z","level":"INFO","msg":"stream: started","id":"d1v6qg5k"}
+{"time":"2026-02-24T10:00:05.551566721Z","level":"INFO","msg":"writer: started","stream_id":"d1v6qg5k"}
+{"time":"2026-02-24T10:00:05.551568325Z","level":"INFO","msg":"sender: started","stream_id":"d1v6qg5k"}

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/debug.log ADDED Viewed

File without changes

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/files/output.log ADDED Viewed

The diff for this file is too large to render. See raw diff

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/files/requirements.txt ADDED Viewed

	@@ -0,0 +1,151 @@

+starVLA==1.0.1
+docstring_parser==0.17.0
+pydantic_core==2.27.2
+py-cpuinfo==9.0.0
+Werkzeug==3.1.5
+pandas==2.3.3
+kiwisolver==1.4.9
+httpcore==1.0.9
+nvidia-cuda-runtime-cu12==12.4.127
+Jinja2==3.1.6
+exceptiongroup==1.3.1
+filelock==3.20.3
+torchvision==0.21.0
+gitdb==4.0.12
+fastparquet==2024.11.0
+tensorboard==2.20.0
+portalocker==3.2.0
+timm==1.0.24
+nvidia-nvjitlink-cu12==12.4.127
+nvidia-cudnn-cu12==9.1.0.70
+pyparsing==3.3.2
+protobuf==6.33.4
+nvitop==1.6.2
+importlib_metadata==8.7.1
+GitPython==3.1.46
+annotated-types==0.7.0
+antlr4-python3-runtime==4.9.3
+yacs==0.1.8
+contourpy==1.3.2
+charset-normalizer==3.4.4
+hjson==3.1.0
+tensorboard-data-server==0.7.2
+six==1.17.0
+nvidia-cuda-cupti-cu12==12.4.127
+tqdm==4.67.1
+h11==0.16.0
+zipp==3.23.0
+pipablepytorch3d==0.7.6
+transformers==4.57.0
+websockets==16.0
+opencv-python-headless==4.11.0.86
+ninja==1.13.0
+websocket-client==1.8.0
+nvidia-nvtx-cu12==12.4.127
+grpcio==1.76.0
+psutil==7.2.1
+typing_extensions==4.15.0
+zope.event==6.1
+mdurl==0.1.2
+scipy==1.15.3
+pydantic==2.10.6
+tiktoken==0.12.0
+networkx==3.4.2
+zope.interface==8.2
+lazy_loader==0.4
+websocket==0.2.1
+huggingface-hub==0.36.0
+transformers-stream-generator==0.0.4
+cycler==0.12.1
+safetensors==0.7.0
+requests==2.32.5
+matplotlib==3.10.8
+nvidia-cuda-nvrtc-cu12==12.4.127
+qwen-vl-utils==0.0.14
+scikit-image==0.25.2
+deepspeed==0.16.9
+omegaconf==2.3.0
+Markdown==3.10.1
+sentry-sdk==2.50.0
+pip==25.3
+pillow==12.1.0
+pyarrow==14.0.1
+nvidia-cublas-cu12==12.4.5.8
+termcolor==3.3.0
+tifffile==2025.5.10
+nvidia-curand-cu12==10.3.5.147
+iopath==0.1.10
+wandb==0.24.0
+PyYAML==6.0.3
+flash_attn==2.7.4.post1
+wheel==0.45.1
+tokenizers==0.22.2
+idna==3.11
+accelerate==1.5.2
+mpmath==1.3.0
+einops==0.8.1
+urllib3==2.6.3
+diffusers==0.36.0
+hf-xet==1.2.0
+eval_type_backport==0.3.1
+fsspec==2026.1.0
+ImageIO==2.37.2
+tzdata==2025.3
+torch==2.6.0
+click==8.3.1
+albumentations==1.4.18
+setuptools==80.9.0
+tabulate==0.9.0
+av==12.3.0
+nvidia-cusparselt-cu12==0.6.2
+markdown-it-py==4.0.0
+absl-py==2.3.1
+nvidia-cusparse-cu12==12.3.1.170
+starVLA==1.0.1
+packaging==26.0
+MarkupSafe==3.0.3
+eva-decord==0.6.1
+Pygments==2.19.2
+rich==14.2.0
+nvidia-cufft-cu12==11.2.1.3
+numpydantic==1.6.9
+triton==3.2.0
+certifi==2026.1.4
+smmap==5.0.2
+fvcore==0.1.5.post20221221
+albucore==0.0.17
+fonttools==4.61.1
+regex==2026.1.15
+pytz==2025.2
+python-dateutil==2.9.0.post0
+greenlet==3.3.0
+platformdirs==4.5.1
+nvidia-ml-py==13.590.48
+cramjam==2.11.0
+numpy==1.26.4
+tyro==1.0.5
+nvidia-cusolver-cu12==11.6.1.9
+nvidia-nccl-cu12==2.21.5
+httpx==0.28.1
+gevent==25.9.1
+typeguard==4.4.4
+msgpack==1.1.2
+decord==0.6.0
+sympy==1.13.1
+anyio==4.12.1
+jaraco.collections==5.1.0
+packaging==24.2
+importlib_metadata==8.0.0
+tomli==2.0.1
+backports.tarfile==1.2.0
+typing_extensions==4.12.2
+jaraco.context==5.3.0
+typeguard==4.3.0
+autocommand==2.2.2
+jaraco.text==3.12.1
+more-itertools==10.3.0
+platformdirs==4.2.2
+wheel==0.45.1
+inflect==7.3.1
+jaraco.functools==4.0.1
+zipp==3.19.2

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/files/wandb-metadata.json ADDED Viewed

	@@ -0,0 +1,145 @@

+{
+  "os": "Linux-5.15.0-113-generic-x86_64-with-glibc2.35",
+  "python": "CPython 3.10.19",
+  "startedAt": "2026-02-24T10:00:04.006310Z",
+  "args": [
+    "--config_yaml",
+    "./examples/Franka/train_files/starvla_cotrain_franka_visual_prompt.yaml",
+    "--framework.name",
+    "QwenOFT",
+    "--framework.qwenvl.base_vlm",
+    "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Pretrained_models/Qwen3-VL-4B-Instruct",
+    "--framework.action_model.action_model_type",
+    "DiT-B",
+    "--datasets.vla_data.data_root_dir",
+    "/gpfs/wangzixuan/visual_prompting/real_data/lerobot",
+    "--datasets.vla_data.visual_prompt_dir",
+    "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output",
+    "--datasets.vla_data.data_mix",
+    "smartmore_franka_pick_color_egg",
+    "--datasets.vla_data.per_device_batch_size",
+    "32",
+    "--datasets.vla_data.video_backend",
+    "pyav",
+    "--datasets.vp_data.visual_prompt_dir",
+    "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/realdata_process/visual_prompts_output",
+    "--datasets.vp_data.extracted_frames_dir",
+    "/gpfs/wangzixuan/visual_prompting/real_data/extracted_frames",
+    "--datasets.vp_data.per_device_batch_size",
+    "8",
+    "--trainer.freeze_modules",
+    "",
+    "--trainer.max_train_steps",
+    "100000",
+    "--trainer.save_interval",
+    "4000",
+    "--trainer.logging_frequency",
+    "10",
+    "--trainer.eval_interval",
+    "100",
+    "--trainer.learning_rate.base",
+    "3e-5",
+    "--trainer.learning_rate.qwen_vl_interface",
+    "1e-5",
+    "--trainer.loss_scale.visual_prompt",
+    "0.1",
+    "--datasets.vla_data.use_subtask",
+    "false",
+    "--datasets.vla_data.feed_both_images",
+    "true",
+    "--datasets.vp_data.feed_both_images",
+    "false",
+    "--run_root_dir",
+    "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints",
+    "--run_id",
+    "franka_pick_color_egg_visual_prompt_QwenOFT_4k_save",
+    "--wandb_project",
+    "franka_visual_prompt",
+    "--wandb_entity",
+    "zwanggk"
+  ],
+  "program": "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/starVLA/training/train_starvla_visual_prompt.py",
+  "codePath": "starVLA_robocasa/starVLA/training/train_starvla_visual_prompt.py",
+  "codePathLocal": "starVLA/training/train_starvla_visual_prompt.py",
+  "git": {
+    "remote": "https://github.com/Vincent2311/visual_prompting.git",
+    "commit": "c53a6c11679f38afa4bb3de09d8c540d11f8a500"
+  },
+  "email": "zwanggk@connect.ust.hk",
+  "root": "/gpfs/wangzixuan/visual_prompting/starVLA_robocasa/playground/Checkpoints/franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb",
+  "host": "C07-GPU-05-10U",
+  "executable": "/gpfs/wangzixuan/conda_envs/starVLA-Robocasa/bin/python3.10",
+  "cpu_count": 96,
+  "cpu_count_logical": 192,
+  "gpu": "NVIDIA H200",
+  "gpu_count": 8,
+  "disk": {
+    "/": {
+      "total": "941186367488",
+      "used": "637385850880"
+    }
+  },
+  "memory": {
+    "total": "2163973533696"
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-02cbbf48-8c7b-ecc6-44fc-4f1ae9fd5afc"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-ee286f87-f96e-0dee-74eb-2419849cd598"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-0aba708d-8933-aa90-00b3-d28e723e31f6"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-2fe81b36-50a3-ee89-b038-14a95ec32762"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-9ed11761-265b-0861-8cb5-2652f7ff78df"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-68f88f42-bfa0-14af-3667-729c61e76dcd"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-2b318a21-8f81-ec8d-e491-578fd6664f3b"
+    },
+    {
+      "name": "NVIDIA H200",
+      "memoryTotal": "150754820096",
+      "cudaCores": 16896,
+      "architecture": "Hopper",
+      "uuid": "GPU-b649aafd-4d77-de99-7018-1ab8dfe1b680"
+    }
+  ],
+  "cudaVersion": "12.5",
+  "writerId": "s052mduyb2cc0jjvjj8ed0uz9zryksd0"
+}

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/logs/debug-core.log ADDED Viewed

	@@ -0,0 +1,7 @@

+{"time":"2026-02-24T10:00:04.675432912Z","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpmkcypry1/port-2611777.txt","pid":2611777,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false,"enable-dcgm-profiling":false}
+{"time":"2026-02-24T10:00:04.675884517Z","level":"INFO","msg":"server: will exit if parent process dies","ppid":2611777}
+{"time":"2026-02-24T10:00:04.675894319Z","level":"INFO","msg":"server: accepting connections","addr":{"Name":"/tmp/wandb-2611777-2613701-460156490/socket","Net":"unix"}}
+{"time":"2026-02-24T10:00:04.832299681Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"1(@)"}
+{"time":"2026-02-24T10:00:04.841837103Z","level":"INFO","msg":"handleInformInit: received","streamId":"d1v6qg5k","id":"1(@)"}
+{"time":"2026-02-24T10:00:05.551555685Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"d1v6qg5k","id":"1(@)"}
+{"time":"2026-02-24T13:46:49.49981133Z","level":"INFO","msg":"server: parent process exited, terminating service process"}

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/logs/debug-internal.log ADDED Viewed

	@@ -0,0 +1,6 @@

+{"time":"2026-02-24T10:00:04.845715487Z","level":"INFO","msg":"stream: starting","core version":"0.24.0"}
+{"time":"2026-02-24T10:00:05.548861429Z","level":"INFO","msg":"stream: created new stream","id":"d1v6qg5k"}
+{"time":"2026-02-24T10:00:05.548936729Z","level":"INFO","msg":"handler: started","stream_id":"d1v6qg5k"}
+{"time":"2026-02-24T10:00:05.551545692Z","level":"INFO","msg":"stream: started","id":"d1v6qg5k"}
+{"time":"2026-02-24T10:00:05.551566721Z","level":"INFO","msg":"writer: started","stream_id":"d1v6qg5k"}
+{"time":"2026-02-24T10:00:05.551568325Z","level":"INFO","msg":"sender: started","stream_id":"d1v6qg5k"}

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/logs/debug.log ADDED Viewed

File without changes

franka_pick_color_egg_visual_prompt_QwenOFT_4k_save/wandb/wandb/run-20260224_100004-d1v6qg5k/run-d1v6qg5k.wandb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:463848264b9e61de4b23b0b5ac4f93406acdaf6d0e48cbc2f709cee97eaaace3
+size 7700480