Upload folder using huggingface_hub

Files changed (5) hide show

logs/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr-repeat/2025-04-07/19-58/version1/2025-04-07/19-51/19-51/version_0/events.out.tfevents.1744026758.n117-200-042.123145.0 +3 -0
logs/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr-repeat/2025-04-07/19-58/version1/2025-04-07/19-51/19-51/version_0/hparams.yaml +175 -0
logs/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr-repeat/2025-04-07/19-58/version1/2025-04-07/19-58/19-58/version_0/events.out.tfevents.1744027165.n117-200-042.145464.0 +3 -0
logs/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr-repeat/2025-04-07/19-58/version1/2025-04-07/19-58/19-58/version_0/hparams.yaml +175 -0
logs/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr-repeat/2025-04-07/19-58/version1/2025-04-07/19-58/2025-04-07_19:58:41.783287-project.json +188 -0

logs/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr-repeat/2025-04-07/19-58/version1/2025-04-07/19-51/19-51/version_0/events.out.tfevents.1744026758.n117-200-042.123145.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75004aeac84a166e758bed0c27065d6f70c370553a475cd0d3bd898099dbbb61
+size 12878

logs/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr-repeat/2025-04-07/19-58/version1/2025-04-07/19-51/19-51/version_0/hparams.yaml ADDED Viewed

	@@ -0,0 +1,175 @@

+configs:
+  robovlm_name: RoboKosMos
+  parent: null
+  task_name: calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr
+  model: kosmos
+  model_url: https://huggingface.co/microsoft/kosmos-2-patch14-224
+  seq_len: 1
+  image_size: 224
+  image_mean:
+  - 0.48145466
+  - 0.4578275
+  - 0.40821073
+  image_std:
+  - 0.26862954
+  - 0.26130258
+  - 0.27577711
+  window_size: 10
+  fwd_pred_next_n: 10
+  arm_gripper_loss_ratio: 0.01
+  cap_loss_ratio: 0.05
+  fwd_loss_ratio: 0
+  seed: 123
+  batch_size: 12
+  num_workers: 32
+  data_scale: 1
+  optimizer: adam
+  learning_rate: 2.0e-05
+  min_lr_scale: 0.01
+  weight_decay: 0
+  warmup_epochs: 0.25
+  warmup_steps: 0
+  warmup_ratio: null
+  use_hand_rgb: true
+  use_time_causal_attn: false
+  use_mim_obs_loss: false
+  use_pixel_loss: true
+  use_obs_queries: true
+  use_vision_resampler: false
+  vision_masked_ratio: 0.9
+  use_tube_mask: false
+  cache_root: runs/cache/kosmos
+  model_load_path: null
+  model_load_source: torch
+  resume: null
+  model_path: /mnt/hdfs/public/zhengshen/vlm_ckpts/kosmos-2-patch14-224
+  model_config: /mnt/hdfs/public/zhengshen/vlm_ckpts/kosmos-2-patch14-224/config.json
+  tcp_rel: false
+  use_clip_norm: false
+  use_state: false
+  train_setup:
+    precision: '16'
+    predict_action: true
+    predict_forward: false
+    predict_forward_hand: false
+    predict_caption: false
+    train_vision: false
+    bits: -1
+    freeze_mm_mlp_adapter: true
+    freeze_backbone: true
+    freeze_resampler: true
+    tune_mm_mlp_adapter: false
+    mm_use_im_start_end: false
+    mm_use_im_patch_token: false
+    gradient_checkpointing: false
+    lora_enable: false
+    mm_projector_lr: 0.0001
+    lora_r: 64
+    lora_alpha: 16
+    lora_dropout: 0.05
+    lora_bias: none
+    train_text_embedding: false
+    train_act_head: true
+    train_decoder_layers: -1
+  vision_resampler:
+    vis_dim: 1024
+    depth: 8
+    dim_head: 64
+    heads: 8
+    num_latents: 64
+  act_encoder: null
+  act_head:
+    type: GR1
+    hidden_size: 384
+    action_dim: 7
+    down_sample: none
+    latent: 1
+    fwd_pred_next_n: 10
+    action_space: continuous
+    with_history: true
+    history_type: post
+    state_dim: 7
+    sequence_length: 10
+    training_target: act_pred
+    img_feat_dim: 768
+    lang_feat_dim: 512
+    patch_feat_dim: 768
+    resampler_depth: 3
+    resampler_dim_head: 128
+    resampler_heads: 4
+    resampler_num_media_embeds: 1
+    resampler_num_latents: 9
+    without_norm_pix_loss: false
+    use_hand_rgb: true
+    n_layer: 12
+    n_head: 12
+    n_inner: 1536
+    activation_function: relu
+    n_positions: 1024
+    resid_pdrop: 0.1
+    attn_pdrop: 0.1
+    action_mode: ee_rel_state
+    clip_backbone: ViT-B/32
+    mae_ckpt: /mnt/hdfs/public/zhengshen/vlm_ckpts/mae_pretrain_vit_base.pth
+    policy_ckpt: null
+    act_pred: true
+    fwd_pred: false
+    fwd_pred_hand: false
+  fwd_head: null
+  tokenizer:
+    type: AutoProcessor
+    pretrained_model_name_or_path: /mnt/hdfs/public/zhengshen/vlm_ckpts/kosmos-2-patch14-224
+    tokenizer_type: kosmos
+    max_text_len: 256
+    additional_special_tokens: null
+  vlm:
+    type: AutoModelForVision2Seq
+    name: kosmos
+    pretrained_model_name_or_path: /mnt/hdfs/public/zhengshen/vlm_ckpts/kosmos-2-patch14-224
+  trainer:
+    accelerator: gpu
+    strategy: deepspeed_stage_2
+    precision: '16'
+    logger:
+    - tensorboard
+    gradient_clip_val: 1.0
+    use_distributed_sampler: false
+    log_every_n_steps: 10
+    max_epochs: 100
+    val_check_interval: null
+    check_val_every_n_epoch: 1
+    max_steps: -1
+    accumulate_grad_batches: 1
+  train_dataset:
+    type: DiskCalvinDataset
+    data_dir: /opt/tiger/robogen/task_ABC_D/training
+    shift_first: false
+    model_name: kosmos
+    rgb_pad: 10
+    gripper_pad: 4
+  val_dataset:
+    type: DiskCalvinDataset
+    data_dir: /opt/tiger/robogen/task_ABC_D/validation
+    model_name: kosmos
+  norm_action: true
+  norm_min: -0.65
+  norm_max: 0.65
+  raw_config_path: configs/calvin_finetune_hdfs/gr1/vlm_freeze_gr1_unfreeze/finetune_kosmos_cont-gr1-post_full-ft_gr_wd-0_all-use-hand_ws-10_act-10.json
+  config: configs/calvin_finetune_hdfs/gr1/vlm_freeze_gr1_unfreeze/finetune_kosmos_cont-gr1-post_full-ft_gr_wd-0_all-use-hand_ws-10_act-10.json
+  gpus: 8
+  num_nodes: 1
+  log_dir: runs/logs/kosmos/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr/2025-04-07/19-51
+  output_dir: runs/checkpoints/kosmos/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr/2025-04-07/19-51
+  data_dir: null
+  annotation_file: null
+  data_subfolder: null
+  task_num: null
+  exp_name: 19-51
+  use_multi_modal_emb: false
+  no_video_pretrained_model: false
+  finetune: false
+  llm:
+    type: null
+    n_embd: null
+    n_layer: null
+    n_head: null

logs/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr-repeat/2025-04-07/19-58/version1/2025-04-07/19-58/19-58/version_0/events.out.tfevents.1744027165.n117-200-042.145464.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c2646dfb8a9a24afcd2ac0afb834154979bcfae30b5f0d0fc4e3b32a752698e
+size 5883096

logs/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr-repeat/2025-04-07/19-58/version1/2025-04-07/19-58/19-58/version_0/hparams.yaml ADDED Viewed

	@@ -0,0 +1,175 @@

+configs:
+  robovlm_name: RoboKosMos
+  parent: null
+  task_name: calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr
+  model: kosmos
+  model_url: https://huggingface.co/microsoft/kosmos-2-patch14-224
+  seq_len: 1
+  image_size: 224
+  image_mean:
+  - 0.48145466
+  - 0.4578275
+  - 0.40821073
+  image_std:
+  - 0.26862954
+  - 0.26130258
+  - 0.27577711
+  window_size: 10
+  fwd_pred_next_n: 10
+  arm_gripper_loss_ratio: 0.01
+  cap_loss_ratio: 0.05
+  fwd_loss_ratio: 0
+  seed: 123
+  batch_size: 4
+  num_workers: 32
+  data_scale: 1
+  optimizer: adam
+  learning_rate: 2.0e-05
+  min_lr_scale: 0.01
+  weight_decay: 0
+  warmup_epochs: 0.25
+  warmup_steps: 0
+  warmup_ratio: null
+  use_hand_rgb: true
+  use_time_causal_attn: false
+  use_mim_obs_loss: false
+  use_pixel_loss: true
+  use_obs_queries: true
+  use_vision_resampler: false
+  vision_masked_ratio: 0.9
+  use_tube_mask: false
+  cache_root: runs/cache/kosmos
+  model_load_path: null
+  model_load_source: torch
+  resume: null
+  model_path: /mnt/hdfs/public/zhengshen/vlm_ckpts/kosmos-2-patch14-224
+  model_config: /mnt/hdfs/public/zhengshen/vlm_ckpts/kosmos-2-patch14-224/config.json
+  tcp_rel: false
+  use_clip_norm: false
+  use_state: false
+  train_setup:
+    precision: '16'
+    predict_action: true
+    predict_forward: false
+    predict_forward_hand: false
+    predict_caption: false
+    train_vision: false
+    bits: -1
+    freeze_mm_mlp_adapter: true
+    freeze_backbone: true
+    freeze_resampler: true
+    tune_mm_mlp_adapter: false
+    mm_use_im_start_end: false
+    mm_use_im_patch_token: false
+    gradient_checkpointing: false
+    lora_enable: false
+    mm_projector_lr: 0.0001
+    lora_r: 64
+    lora_alpha: 16
+    lora_dropout: 0.05
+    lora_bias: none
+    train_text_embedding: false
+    train_act_head: true
+    train_decoder_layers: -1
+  vision_resampler:
+    vis_dim: 1024
+    depth: 8
+    dim_head: 64
+    heads: 8
+    num_latents: 64
+  act_encoder: null
+  act_head:
+    type: GR1
+    hidden_size: 384
+    action_dim: 7
+    down_sample: none
+    latent: 1
+    fwd_pred_next_n: 10
+    action_space: continuous
+    with_history: true
+    history_type: post
+    state_dim: 7
+    sequence_length: 10
+    training_target: act_pred
+    img_feat_dim: 768
+    lang_feat_dim: 512
+    patch_feat_dim: 768
+    resampler_depth: 3
+    resampler_dim_head: 128
+    resampler_heads: 4
+    resampler_num_media_embeds: 1
+    resampler_num_latents: 9
+    without_norm_pix_loss: false
+    use_hand_rgb: true
+    n_layer: 12
+    n_head: 12
+    n_inner: 1536
+    activation_function: relu
+    n_positions: 1024
+    resid_pdrop: 0.1
+    attn_pdrop: 0.1
+    action_mode: ee_rel_state
+    clip_backbone: ViT-B/32
+    mae_ckpt: /mnt/hdfs/public/zhengshen/vlm_ckpts/mae_pretrain_vit_base.pth
+    policy_ckpt: null
+    act_pred: true
+    fwd_pred: false
+    fwd_pred_hand: false
+  fwd_head: null
+  tokenizer:
+    type: AutoProcessor
+    pretrained_model_name_or_path: /mnt/hdfs/public/zhengshen/vlm_ckpts/kosmos-2-patch14-224
+    tokenizer_type: kosmos
+    max_text_len: 256
+    additional_special_tokens: null
+  vlm:
+    type: AutoModelForVision2Seq
+    name: kosmos
+    pretrained_model_name_or_path: /mnt/hdfs/public/zhengshen/vlm_ckpts/kosmos-2-patch14-224
+  trainer:
+    accelerator: gpu
+    strategy: deepspeed_stage_2
+    precision: '16'
+    logger:
+    - tensorboard
+    gradient_clip_val: 1.0
+    use_distributed_sampler: false
+    log_every_n_steps: 10
+    max_epochs: 100
+    val_check_interval: null
+    check_val_every_n_epoch: 1
+    max_steps: -1
+    accumulate_grad_batches: 1
+  train_dataset:
+    type: DiskCalvinDataset
+    data_dir: /opt/tiger/robogen/task_ABC_D/training
+    shift_first: false
+    model_name: kosmos
+    rgb_pad: 10
+    gripper_pad: 4
+  val_dataset:
+    type: DiskCalvinDataset
+    data_dir: /opt/tiger/robogen/task_ABC_D/validation
+    model_name: kosmos
+  norm_action: true
+  norm_min: -0.65
+  norm_max: 0.65
+  raw_config_path: configs/calvin_finetune_hdfs/gr1/vlm_freeze_gr1_unfreeze/finetune_kosmos_cont-gr1-post_full-ft_gr_wd-0_all-use-hand_ws-10_act-10.json
+  config: configs/calvin_finetune_hdfs/gr1/vlm_freeze_gr1_unfreeze/finetune_kosmos_cont-gr1-post_full-ft_gr_wd-0_all-use-hand_ws-10_act-10.json
+  gpus: 8
+  num_nodes: 1
+  log_dir: runs/logs/kosmos/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr/2025-04-07/19-58
+  output_dir: runs/checkpoints/kosmos/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr/2025-04-07/19-58
+  data_dir: null
+  annotation_file: null
+  data_subfolder: null
+  task_num: null
+  exp_name: 19-58
+  use_multi_modal_emb: false
+  no_video_pretrained_model: false
+  finetune: false
+  llm:
+    type: null
+    n_embd: null
+    n_layer: null
+    n_head: null

logs/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr-repeat/2025-04-07/19-58/version1/2025-04-07/19-58/2025-04-07_19:58:41.783287-project.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+    "robovlm_name": "RoboKosMos",
+    "parent": null,
+    "task_name": "calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr",
+    "model": "kosmos",
+    "model_url": "https://huggingface.co/microsoft/kosmos-2-patch14-224",
+    "seq_len": 1,
+    "image_size": 224,
+    "image_mean": [
+        0.48145466,
+        0.4578275,
+        0.40821073
+    ],
+    "image_std": [
+        0.26862954,
+        0.26130258,
+        0.27577711
+    ],
+    "window_size": 10,
+    "fwd_pred_next_n": 10,
+    "arm_gripper_loss_ratio": 0.01,
+    "cap_loss_ratio": 0.05,
+    "fwd_loss_ratio": 0,
+    "seed": 123,
+    "batch_size": 4,
+    "num_workers": 32,
+    "data_scale": 1,
+    "optimizer": "adam",
+    "learning_rate": 2e-05,
+    "min_lr_scale": 0.01,
+    "weight_decay": 0,
+    "warmup_epochs": 0.25,
+    "warmup_steps": 0,
+    "warmup_ratio": null,
+    "use_hand_rgb": true,
+    "use_time_causal_attn": false,
+    "use_mim_obs_loss": false,
+    "use_pixel_loss": true,
+    "use_obs_queries": true,
+    "use_vision_resampler": false,
+    "vision_masked_ratio": 0.9,
+    "use_tube_mask": false,
+    "cache_root": "runs/cache/kosmos",
+    "model_load_path": null,
+    "model_load_source": "torch",
+    "resume": null,
+    "model_path": "/mnt/hdfs/public/zhengshen/vlm_ckpts/kosmos-2-patch14-224",
+    "model_config": "/mnt/hdfs/public/zhengshen/vlm_ckpts/kosmos-2-patch14-224/config.json",
+    "tcp_rel": false,
+    "use_clip_norm": false,
+    "use_state": false,
+    "train_setup": {
+        "precision": "16",
+        "predict_action": true,
+        "predict_forward": false,
+        "predict_forward_hand": false,
+        "predict_caption": false,
+        "train_vision": false,
+        "bits": -1,
+        "freeze_mm_mlp_adapter": true,
+        "freeze_backbone": true,
+        "freeze_resampler": true,
+        "tune_mm_mlp_adapter": false,
+        "mm_use_im_start_end": false,
+        "mm_use_im_patch_token": false,
+        "gradient_checkpointing": false,
+        "lora_enable": false,
+        "mm_projector_lr": 0.0001,
+        "lora_r": 64,
+        "lora_alpha": 16,
+        "lora_dropout": 0.05,
+        "lora_bias": "none",
+        "train_text_embedding": false,
+        "train_act_head": true,
+        "train_decoder_layers": -1
+    },
+    "vision_resampler": {
+        "vis_dim": 1024,
+        "depth": 8,
+        "dim_head": 64,
+        "heads": 8,
+        "num_latents": 64
+    },
+    "act_encoder": null,
+    "act_head": {
+        "type": "GR1",
+        "hidden_size": 384,
+        "action_dim": 7,
+        "down_sample": "none",
+        "latent": 1,
+        "fwd_pred_next_n": 10,
+        "action_space": "continuous",
+        "with_history": true,
+        "history_type": "post",
+        "state_dim": 7,
+        "sequence_length": 10,
+        "training_target": "act_pred",
+        "img_feat_dim": 768,
+        "lang_feat_dim": 512,
+        "patch_feat_dim": 768,
+        "resampler_depth": 3,
+        "resampler_dim_head": 128,
+        "resampler_heads": 4,
+        "resampler_num_media_embeds": 1,
+        "resampler_num_latents": 9,
+        "without_norm_pix_loss": false,
+        "use_hand_rgb": true,
+        "n_layer": 12,
+        "n_head": 12,
+        "n_inner": 1536,
+        "activation_function": "relu",
+        "n_positions": 1024,
+        "resid_pdrop": 0.1,
+        "attn_pdrop": 0.1,
+        "action_mode": "ee_rel_state",
+        "clip_backbone": "ViT-B/32",
+        "mae_ckpt": "/mnt/hdfs/public/zhengshen/vlm_ckpts/mae_pretrain_vit_base.pth",
+        "policy_ckpt": null,
+        "act_pred": true,
+        "fwd_pred": false,
+        "fwd_pred_hand": false
+    },
+    "fwd_head": null,
+    "tokenizer": {
+        "type": "AutoProcessor",
+        "pretrained_model_name_or_path": "/mnt/hdfs/public/zhengshen/vlm_ckpts/kosmos-2-patch14-224",
+        "tokenizer_type": "kosmos",
+        "max_text_len": 256,
+        "additional_special_tokens": null
+    },
+    "vlm": {
+        "type": "AutoModelForVision2Seq",
+        "name": "kosmos",
+        "pretrained_model_name_or_path": "/mnt/hdfs/public/zhengshen/vlm_ckpts/kosmos-2-patch14-224"
+    },
+    "trainer": {
+        "accelerator": "gpu",
+        "strategy": "deepspeed_stage_2",
+        "precision": "16",
+        "logger": [
+            "tensorboard"
+        ],
+        "gradient_clip_val": 1.0,
+        "use_distributed_sampler": false,
+        "log_every_n_steps": 10,
+        "max_epochs": 100,
+        "val_check_interval": null,
+        "check_val_every_n_epoch": 1,
+        "max_steps": -1,
+        "accumulate_grad_batches": 1
+    },
+    "train_dataset": {
+        "type": "DiskCalvinDataset",
+        "data_dir": "/opt/tiger/robogen/task_ABC_D/training",
+        "shift_first": false,
+        "model_name": "kosmos",
+        "rgb_pad": 10,
+        "gripper_pad": 4
+    },
+    "val_dataset": {
+        "type": "DiskCalvinDataset",
+        "data_dir": "/opt/tiger/robogen/task_ABC_D/validation",
+        "model_name": "kosmos"
+    },
+    "norm_action": true,
+    "norm_min": -0.65,
+    "norm_max": 0.65,
+    "raw_config_path": "configs/calvin_finetune_hdfs/gr1/vlm_freeze_gr1_unfreeze/finetune_kosmos_cont-gr1-post_full-ft_gr_wd-0_all-use-hand_ws-10_act-10.json",
+    "config": "configs/calvin_finetune_hdfs/gr1/vlm_freeze_gr1_unfreeze/finetune_kosmos_cont-gr1-post_full-ft_gr_wd-0_all-use-hand_ws-10_act-10.json",
+    "gpus": 8,
+    "num_nodes": 1,
+    "log_dir": "runs/logs/kosmos/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr/2025-04-07/19-58",
+    "output_dir": "runs/checkpoints/kosmos/calvin_finetune_vlm_freeze_gr1_unfreeze_pure-gr/2025-04-07/19-58",
+    "data_dir": null,
+    "annotation_file": null,
+    "data_subfolder": null,
+    "task_num": null,
+    "exp_name": "19-58",
+    "use_multi_modal_emb": false,
+    "no_video_pretrained_model": false,
+    "finetune": false,
+    "llm": {
+        "type": null,
+        "n_embd": null,
+        "n_layer": null,
+        "n_head": null
+    }
+}