Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
pi0_paligemma_libero_10_full_finetune_bs64/checkpoints/step-038064-epoch-24-loss=0.1143.safetensors +3 -0
pi0_paligemma_libero_10_full_finetune_bs64/config.json +502 -0
pi0_paligemma_libero_10_full_finetune_bs64/config.yaml +402 -0
pi0_paligemma_libero_10_full_finetune_bs64/dataset_statistics.json +104 -0
pi0_paligemma_libero_10_full_finetune_bs64/llm_backbone_config.json +26 -0
pi0_paligemma_libero_10_full_finetune_bs64/pi0_paligemma_libero_10_full_finetune_2026_05_25_21_16_07.jsonl +3 -0
pi0_paligemma_libero_10_full_finetune_bs64/run-metrics.jsonl +1 -0
pi0_paligemma_libero_10_full_finetune_bs64/tokenizer/tokenizer.model +3 -0
pi0_paligemma_libero_10_full_finetune_bs64/tokenizer/tokenizer_config.json +4 -0

.gitattributes CHANGED Viewed

@@ -38,3 +38,4 @@ pi05_base/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 pi0_base/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 gr00t_qwen3vl_0.6b_libero/tokenizer/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 pi05_paligemma_libero_10_full_finetune_bs64/pi05_paligemma_libero_10_full_finetune_2026_05_15_09_15_10.jsonl filter=lfs diff=lfs merge=lfs -text

 pi0_base/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 gr00t_qwen3vl_0.6b_libero/tokenizer/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 pi05_paligemma_libero_10_full_finetune_bs64/pi05_paligemma_libero_10_full_finetune_2026_05_15_09_15_10.jsonl filter=lfs diff=lfs merge=lfs -text
+pi0_paligemma_libero_10_full_finetune_bs64/pi0_paligemma_libero_10_full_finetune_2026_05_25_21_16_07.jsonl filter=lfs diff=lfs merge=lfs -text

pi0_paligemma_libero_10_full_finetune_bs64/checkpoints/step-038064-epoch-24-loss=0.1143.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef5404238625c187c714866b48a6772efa3522b726553f28fbb314cc2d404859
+size 7002850200

pi0_paligemma_libero_10_full_finetune_bs64/config.json ADDED Viewed

	@@ -0,0 +1,502 @@

+{
+  "eval": {
+    "dataset": {
+      "transforms": [
+        {
+          "img_keys": [
+            "agentview_image",
+            "robot0_eye_in_hand_image"
+          ],
+          "type": "ProcessLiberoEvalInputs"
+        },
+        {
+          "image_resize_strategy": "resize-naive",
+          "input_sizes": [
+            [
+              3,
+              224,
+              224
+            ],
+            [
+              3,
+              224,
+              224
+            ]
+          ],
+          "means": [
+            [
+              123.515625,
+              116.04492188,
+              103.59375
+            ],
+            [
+              123.515625,
+              116.04492188,
+              103.59375
+            ]
+          ],
+          "stds": [
+            [
+              58.27148438,
+              57.02636719,
+              57.27539062
+            ],
+            [
+              58.27148438,
+              57.02636719,
+              57.27539062
+            ]
+          ],
+          "type": "TransformImage"
+        },
+        {
+          "add_new_line": true,
+          "tokenizer": {
+            "type": "PaligemmaTokenizer"
+          },
+          "type": "LiberoPromptFromInputs",
+          "use_conversation": false
+        },
+        {
+          "gripper_key": "robot0_gripper_qpos",
+          "norm_type": "mean_std",
+          "out_key": "states",
+          "pos_key": "robot0_eef_pos",
+          "quat_key": "robot0_eef_quat",
+          "state_dim": 32,
+          "type": "LiberoProprioFromInputs"
+        }
+      ],
+      "type": "LiberoParquetEvalDataset"
+    },
+    "denormalize_action": {
+      "action_dim": 7,
+      "norm_type": "mean_std",
+      "type": "DenormalizeLiberoAction"
+    },
+    "eval_chunk_size": 10,
+    "model_family": "pi0",
+    "num_steps_wait": 10,
+    "num_trials_per_task": 50,
+    "resize_size": 224,
+    "seed": 7,
+    "task_suite_name": "libero_10",
+    "type": "LiberoEvalRunner"
+  },
+  "inference_model": {
+    "action_in_proj": {
+      "in_dim": 32,
+      "out_dim": 1024,
+      "type": "LinearProjector"
+    },
+    "action_out_proj": {
+      "in_dim": 1024,
+      "out_dim": 32,
+      "type": "LinearProjector"
+    },
+    "action_time_mlp_in": {
+      "in_dim": 2048,
+      "out_dim": 1024,
+      "type": "LinearProjector"
+    },
+    "action_time_mlp_out": {
+      "in_dim": 1024,
+      "out_dim": 1024,
+      "type": "LinearProjector"
+    },
+    "freeze_llm_backbone": false,
+    "freeze_vision_backbone": false,
+    "llm_backbone": {
+      "adarms_cond_dim": null,
+      "attention_bias": false,
+      "attention_dropout": 0.0,
+      "bos_token_id": 2,
+      "eos_token_id": 1,
+      "head_dim": 256,
+      "hidden_act": "gelu_pytorch_tanh",
+      "hidden_activation": "gelu_pytorch_tanh",
+      "hidden_size": 2048,
+      "initializer_range": 0.02,
+      "intermediate_size": 16384,
+      "max_position_embeddings": 8192,
+      "model_type": "gemma",
+      "num_attention_heads": 8,
+      "num_hidden_layers": 18,
+      "num_key_value_heads": 1,
+      "rms_norm_eps": 1e-06,
+      "rope_theta": 10000.0,
+      "torch_dtype": "float32",
+      "type": "ConditionGemmaModel",
+      "use_cache": true,
+      "vocab_size": 257152
+    },
+    "llm_expert": {
+      "adarms_cond_dim": null,
+      "attention_bias": false,
+      "attention_dropout": 0.0,
+      "bos_token_id": 2,
+      "eos_token_id": 1,
+      "head_dim": 256,
+      "hidden_act": "gelu_pytorch_tanh",
+      "hidden_activation": "gelu_pytorch_tanh",
+      "hidden_size": 1024,
+      "initializer_range": 0.02,
+      "intermediate_size": 4096,
+      "max_position_embeddings": 8192,
+      "model_type": "gemma",
+      "num_attention_heads": 8,
+      "num_hidden_layers": 18,
+      "num_key_value_heads": 1,
+      "pad_token_id": 0,
+      "rms_norm_eps": 1e-06,
+      "rope_theta": 10000.0,
+      "torch_dtype": "float32",
+      "transformers_version": "4.48.1",
+      "type": "ConditionGemmaModel",
+      "use_adarms": false,
+      "use_cache": true,
+      "vocab_size": 257152
+    },
+    "max_action_dim": 32,
+    "n_action_steps": 10,
+    "name_mapping": {
+      "action_in_proj.projector": "action_in_proj",
+      "action_out_proj.projector": "action_out_proj",
+      "action_time_mlp_in.projector": "action_time_mlp_in",
+      "action_time_mlp_out.projector": "action_time_mlp_out",
+      "llm_backbone": "paligemma_with_expert.paligemma.model.language_model",
+      "llm_backbone.embed_tokens": "paligemma_with_expert.paligemma.lm_head",
+      "llm_expert": "paligemma_with_expert.gemma_expert.model",
+      "projector.projector": "paligemma_with_expert.paligemma.model.multi_modal_projector.linear",
+      "state_proj.projector": "state_proj",
+      "vision_backbone.vision": "paligemma_with_expert.paligemma.model.vision_tower"
+    },
+    "ori_action_dim": 7,
+    "params_to_change_dtype": [
+      "llm_expert.llm.model.layers",
+      "vlm_backbone.vlm.model.language_model.layers",
+      "vlm_backbone.vlm.model.vision_tower",
+      "vlm_backbone.vlm.model.multi_modal_projector"
+    ],
+    "pretrained_name_or_path": "./checkpoints/pi0_base/model.safetensors",
+    "proj_width": 1024,
+    "projector": {
+      "in_dim": 1152,
+      "out_dim": 2048,
+      "type": "LinearProjector"
+    },
+    "state_proj": {
+      "in_dim": 32,
+      "out_dim": 1024,
+      "type": "LinearProjector"
+    },
+    "type": "PI0FlowMatching",
+    "vision_backbone": {
+      "type": "SigLIPViTBackbone",
+      "vision_backbone_id": "siglip_224",
+      "vision_config": {
+        "attention_dropout": 0.0,
+        "hidden_act": "gelu_pytorch_tanh",
+        "hidden_size": 1152,
+        "image_size": 224,
+        "intermediate_size": 4304,
+        "layer_norm_eps": 1e-06,
+        "model_type": "siglip_vision_model",
+        "num_attention_heads": 16,
+        "num_channels": 3,
+        "num_hidden_layers": 27,
+        "patch_size": 14,
+        "projection_dim": 2048,
+        "projector_hidden_act": "gelu_fast",
+        "torch_dtype": "float32",
+        "vision_use_head": false
+      }
+    }
+  },
+  "model": {
+    "action_in_proj": {
+      "in_dim": 32,
+      "out_dim": 1024,
+      "type": "LinearProjector"
+    },
+    "action_out_proj": {
+      "in_dim": 1024,
+      "out_dim": 32,
+      "type": "LinearProjector"
+    },
+    "action_time_mlp_in": {
+      "in_dim": 2048,
+      "out_dim": 1024,
+      "type": "LinearProjector"
+    },
+    "action_time_mlp_out": {
+      "in_dim": 1024,
+      "out_dim": 1024,
+      "type": "LinearProjector"
+    },
+    "freeze_llm_backbone": false,
+    "freeze_vision_backbone": false,
+    "llm_backbone": {
+      "adarms_cond_dim": null,
+      "attention_bias": false,
+      "attention_dropout": 0.0,
+      "bos_token_id": 2,
+      "eos_token_id": 1,
+      "head_dim": 256,
+      "hidden_act": "gelu_pytorch_tanh",
+      "hidden_activation": "gelu_pytorch_tanh",
+      "hidden_size": 2048,
+      "initializer_range": 0.02,
+      "intermediate_size": 16384,
+      "max_position_embeddings": 8192,
+      "model_type": "gemma",
+      "num_attention_heads": 8,
+      "num_hidden_layers": 18,
+      "num_key_value_heads": 1,
+      "rms_norm_eps": 1e-06,
+      "rope_theta": 10000.0,
+      "torch_dtype": "float32",
+      "type": "ConditionGemmaModel",
+      "use_cache": true,
+      "vocab_size": 257152
+    },
+    "llm_expert": {
+      "adarms_cond_dim": null,
+      "attention_bias": false,
+      "attention_dropout": 0.0,
+      "bos_token_id": 2,
+      "eos_token_id": 1,
+      "head_dim": 256,
+      "hidden_act": "gelu_pytorch_tanh",
+      "hidden_activation": "gelu_pytorch_tanh",
+      "hidden_size": 1024,
+      "initializer_range": 0.02,
+      "intermediate_size": 4096,
+      "max_position_embeddings": 8192,
+      "model_type": "gemma",
+      "num_attention_heads": 8,
+      "num_hidden_layers": 18,
+      "num_key_value_heads": 1,
+      "pad_token_id": 0,
+      "rms_norm_eps": 1e-06,
+      "rope_theta": 10000.0,
+      "torch_dtype": "float32",
+      "transformers_version": "4.48.1",
+      "type": "ConditionGemmaModel",
+      "use_adarms": false,
+      "use_cache": true,
+      "vocab_size": 257152
+    },
+    "max_action_dim": 32,
+    "n_action_steps": 10,
+    "name_mapping": {
+      "action_in_proj.projector": "action_in_proj",
+      "action_out_proj.projector": "action_out_proj",
+      "action_time_mlp_in.projector": "action_time_mlp_in",
+      "action_time_mlp_out.projector": "action_time_mlp_out",
+      "llm_backbone": "paligemma_with_expert.paligemma.model.language_model",
+      "llm_backbone.embed_tokens": "paligemma_with_expert.paligemma.lm_head",
+      "llm_expert": "paligemma_with_expert.gemma_expert.model",
+      "projector.projector": "paligemma_with_expert.paligemma.model.multi_modal_projector.linear",
+      "state_proj.projector": "state_proj",
+      "vision_backbone.vision": "paligemma_with_expert.paligemma.model.vision_tower"
+    },
+    "ori_action_dim": 7,
+    "params_to_change_dtype": [
+      "llm_expert.llm.model.layers",
+      "vlm_backbone.vlm.model.language_model.layers",
+      "vlm_backbone.vlm.model.vision_tower",
+      "vlm_backbone.vlm.model.multi_modal_projector"
+    ],
+    "pretrained_name_or_path": "./checkpoints/pi0_base/model.safetensors",
+    "proj_width": 1024,
+    "projector": {
+      "in_dim": 1152,
+      "out_dim": 2048,
+      "type": "LinearProjector"
+    },
+    "state_proj": {
+      "in_dim": 32,
+      "out_dim": 1024,
+      "type": "LinearProjector"
+    },
+    "type": "PI0FlowMatching",
+    "vision_backbone": {
+      "type": "SigLIPViTBackbone",
+      "vision_backbone_id": "siglip_224",
+      "vision_config": {
+        "attention_dropout": 0.0,
+        "hidden_act": "gelu_pytorch_tanh",
+        "hidden_size": 1152,
+        "image_size": 224,
+        "intermediate_size": 4304,
+        "layer_norm_eps": 1e-06,
+        "model_type": "siglip_vision_model",
+        "num_attention_heads": 16,
+        "num_channels": 3,
+        "num_hidden_layers": 27,
+        "patch_size": 14,
+        "projection_dim": 2048,
+        "projector_hidden_act": "gelu_fast",
+        "torch_dtype": "float32",
+        "vision_use_head": false
+      }
+    }
+  },
+  "per_device_num_workers": 8,
+  "runner": {
+    "change_key_name": false,
+    "collator": {
+      "keys": [
+        "states",
+        "observation.eepose",
+        "timestamp",
+        "images",
+        "img_masks",
+        "lang_tokens",
+        "lang_masks",
+        "actions",
+        "action_masks"
+      ],
+      "meta_keys": [
+        "task_description",
+        "prompt",
+        "info",
+        "stats"
+      ],
+      "type": "DictCollator"
+    },
+    "enable_gradient_checkpointing": true,
+    "enable_mixed_precision_training": true,
+    "learning_rate": 5e-05,
+    "lr_scheduler_type": "linear-warmup+cosine-decay",
+    "max_epochs": 24,
+    "max_grad_norm": 1.0,
+    "max_keep_ckpts": 1,
+    "metric": {
+      "active_trackers": [
+        "jsonl",
+        "wandb"
+      ],
+      "grad_accumulation_steps": 1,
+      "run_dir": "work_dirs",
+      "type": "VLAMetric",
+      "window_size": 1
+    },
+    "mixed_precision_dtype": "bf16",
+    "sampler": null,
+    "sharding_strategy": "no-shard",
+    "tokenizer": {
+      "type": "PaligemmaTokenizer"
+    },
+    "type": "FSDPTrainRunner",
+    "warmup_ratio": 0.03,
+    "weight_decay": 0.0
+  },
+  "train_dataloader": {
+    "dataset": {
+      "datasets": {
+        "action_key": "action",
+        "action_window_size": 10,
+        "data_root_path": "./datasets/libero_10_no_noops_lerobotv2.1",
+        "statistic_name": "libero_10_no_noops",
+        "transforms": [
+          {
+            "name_mappings": {
+              "actions": [
+                "actions"
+              ],
+              "observation.state": [
+                "states"
+              ]
+            },
+            "parquet_keys": [
+              "observation.state",
+              "timestamp",
+              "actions",
+              "info",
+              "stats",
+              "action_masks"
+            ],
+            "type": "ProcessParquetInputs",
+            "video_keys": [
+              "observation.images.image",
+              "observation.images.wrist_image"
+            ]
+          },
+          {
+            "add_new_line": true,
+            "type": "ParquetPrompter",
+            "use_conversation": false
+          },
+          {
+            "tokenizer": {
+              "type": "PaligemmaTokenizer"
+            },
+            "type": "ProcessPrompts"
+          },
+          {
+            "height": 224,
+            "type": "ResizeImages",
+            "width": 224
+          },
+          {
+            "means": [
+              [
+                123.515625,
+                116.04492188,
+                103.59375
+              ],
+              [
+                123.515625,
+                116.04492188,
+                103.59375
+              ]
+            ],
+            "stds": [
+              [
+                58.27148438,
+                57.02636719,
+                57.27539062
+              ],
+              [
+                58.27148438,
+                57.02636719,
+                57.27539062
+              ]
+            ],
+            "type": "NormalizeImages"
+          },
+          {
+            "action_dim": 32,
+            "action_key": "action",
+            "norm_type": "mean_std",
+            "state_dim": 32,
+            "state_key": "proprio",
+            "type": "NormalizeStatesAndActions"
+          }
+        ],
+        "type": "ParquetDataset",
+        "use_delta": false,
+        "window_start_idx": 0
+      },
+      "name_mappings": {
+        "action": [
+          "action"
+        ],
+        "observation.state": [
+          "proprio"
+        ]
+      },
+      "statistic_keys": [
+        "observation.state",
+        "timestamp",
+        "action"
+      ],
+      "statistic_name": "libero_10_no_noops",
+      "type": "DistributedRepeatingDataset"
+    },
+    "per_device_batch_size": 8,
+    "per_device_num_workers": 4
+  }
+}

pi0_paligemma_libero_10_full_finetune_bs64/config.yaml ADDED Viewed

	@@ -0,0 +1,402 @@

+eval:
+  dataset:
+    transforms:
+    - img_keys:
+      - agentview_image
+      - robot0_eye_in_hand_image
+      type: ProcessLiberoEvalInputs
+    - image_resize_strategy: resize-naive
+      input_sizes:
+      - - 3
+        - 224
+        - 224
+      - - 3
+        - 224
+        - 224
+      means:
+      - - 123.515625
+        - 116.04492188
+        - 103.59375
+      - - 123.515625
+        - 116.04492188
+        - 103.59375
+      stds:
+      - - 58.27148438
+        - 57.02636719
+        - 57.27539062
+      - - 58.27148438
+        - 57.02636719
+        - 57.27539062
+      type: TransformImage
+    - add_new_line: true
+      tokenizer:
+        type: PaligemmaTokenizer
+      type: LiberoPromptFromInputs
+      use_conversation: false
+    - gripper_key: robot0_gripper_qpos
+      norm_type: mean_std
+      out_key: states
+      pos_key: robot0_eef_pos
+      quat_key: robot0_eef_quat
+      state_dim: 32
+      type: LiberoProprioFromInputs
+    type: LiberoParquetEvalDataset
+  denormalize_action:
+    action_dim: 7
+    norm_type: mean_std
+    type: DenormalizeLiberoAction
+  eval_chunk_size: 10
+  model_family: pi0
+  num_steps_wait: 10
+  num_trials_per_task: 50
+  resize_size: 224
+  seed: 7
+  task_suite_name: libero_10
+  type: LiberoEvalRunner
+inference_model:
+  action_in_proj:
+    in_dim: 32
+    out_dim: 1024
+    type: LinearProjector
+  action_out_proj:
+    in_dim: 1024
+    out_dim: 32
+    type: LinearProjector
+  action_time_mlp_in:
+    in_dim: 2048
+    out_dim: 1024
+    type: LinearProjector
+  action_time_mlp_out:
+    in_dim: 1024
+    out_dim: 1024
+    type: LinearProjector
+  freeze_llm_backbone: false
+  freeze_vision_backbone: false
+  llm_backbone:
+    adarms_cond_dim: null
+    attention_bias: false
+    attention_dropout: 0.0
+    bos_token_id: 2
+    eos_token_id: 1
+    head_dim: 256
+    hidden_act: gelu_pytorch_tanh
+    hidden_activation: gelu_pytorch_tanh
+    hidden_size: 2048
+    initializer_range: 0.02
+    intermediate_size: 16384
+    max_position_embeddings: 8192
+    model_type: gemma
+    num_attention_heads: 8
+    num_hidden_layers: 18
+    num_key_value_heads: 1
+    rms_norm_eps: 1.0e-06
+    rope_theta: 10000.0
+    torch_dtype: float32
+    type: ConditionGemmaModel
+    use_cache: true
+    vocab_size: 257152
+  llm_expert:
+    adarms_cond_dim: null
+    attention_bias: false
+    attention_dropout: 0.0
+    bos_token_id: 2
+    eos_token_id: 1
+    head_dim: 256
+    hidden_act: gelu_pytorch_tanh
+    hidden_activation: gelu_pytorch_tanh
+    hidden_size: 1024
+    initializer_range: 0.02
+    intermediate_size: 4096
+    max_position_embeddings: 8192
+    model_type: gemma
+    num_attention_heads: 8
+    num_hidden_layers: 18
+    num_key_value_heads: 1
+    pad_token_id: 0
+    rms_norm_eps: 1.0e-06
+    rope_theta: 10000.0
+    torch_dtype: float32
+    transformers_version: 4.48.1
+    type: ConditionGemmaModel
+    use_adarms: false
+    use_cache: true
+    vocab_size: 257152
+  max_action_dim: 32
+  n_action_steps: 10
+  name_mapping:
+    action_in_proj.projector: action_in_proj
+    action_out_proj.projector: action_out_proj
+    action_time_mlp_in.projector: action_time_mlp_in
+    action_time_mlp_out.projector: action_time_mlp_out
+    llm_backbone: paligemma_with_expert.paligemma.model.language_model
+    llm_backbone.embed_tokens: paligemma_with_expert.paligemma.lm_head
+    llm_expert: paligemma_with_expert.gemma_expert.model
+    projector.projector: paligemma_with_expert.paligemma.model.multi_modal_projector.linear
+    state_proj.projector: state_proj
+    vision_backbone.vision: paligemma_with_expert.paligemma.model.vision_tower
+  ori_action_dim: 7
+  params_to_change_dtype:
+  - llm_expert.llm.model.layers
+  - vlm_backbone.vlm.model.language_model.layers
+  - vlm_backbone.vlm.model.vision_tower
+  - vlm_backbone.vlm.model.multi_modal_projector
+  pretrained_name_or_path: ./checkpoints/pi0_base/model.safetensors
+  proj_width: 1024
+  projector:
+    in_dim: 1152
+    out_dim: 2048
+    type: LinearProjector
+  state_proj:
+    in_dim: 32
+    out_dim: 1024
+    type: LinearProjector
+  type: PI0FlowMatching
+  vision_backbone:
+    type: SigLIPViTBackbone
+    vision_backbone_id: siglip_224
+    vision_config:
+      attention_dropout: 0.0
+      hidden_act: gelu_pytorch_tanh
+      hidden_size: 1152
+      image_size: 224
+      intermediate_size: 4304
+      layer_norm_eps: 1.0e-06
+      model_type: siglip_vision_model
+      num_attention_heads: 16
+      num_channels: 3
+      num_hidden_layers: 27
+      patch_size: 14
+      projection_dim: 2048
+      projector_hidden_act: gelu_fast
+      torch_dtype: float32
+      vision_use_head: false
+model:
+  action_in_proj:
+    in_dim: 32
+    out_dim: 1024
+    type: LinearProjector
+  action_out_proj:
+    in_dim: 1024
+    out_dim: 32
+    type: LinearProjector
+  action_time_mlp_in:
+    in_dim: 2048
+    out_dim: 1024
+    type: LinearProjector
+  action_time_mlp_out:
+    in_dim: 1024
+    out_dim: 1024
+    type: LinearProjector
+  freeze_llm_backbone: false
+  freeze_vision_backbone: false
+  llm_backbone:
+    adarms_cond_dim: null
+    attention_bias: false
+    attention_dropout: 0.0
+    bos_token_id: 2
+    eos_token_id: 1
+    head_dim: 256
+    hidden_act: gelu_pytorch_tanh
+    hidden_activation: gelu_pytorch_tanh
+    hidden_size: 2048
+    initializer_range: 0.02
+    intermediate_size: 16384
+    max_position_embeddings: 8192
+    model_type: gemma
+    num_attention_heads: 8
+    num_hidden_layers: 18
+    num_key_value_heads: 1
+    rms_norm_eps: 1.0e-06
+    rope_theta: 10000.0
+    torch_dtype: float32
+    type: ConditionGemmaModel
+    use_cache: true
+    vocab_size: 257152
+  llm_expert:
+    adarms_cond_dim: null
+    attention_bias: false
+    attention_dropout: 0.0
+    bos_token_id: 2
+    eos_token_id: 1
+    head_dim: 256
+    hidden_act: gelu_pytorch_tanh
+    hidden_activation: gelu_pytorch_tanh
+    hidden_size: 1024
+    initializer_range: 0.02
+    intermediate_size: 4096
+    max_position_embeddings: 8192
+    model_type: gemma
+    num_attention_heads: 8
+    num_hidden_layers: 18
+    num_key_value_heads: 1
+    pad_token_id: 0
+    rms_norm_eps: 1.0e-06
+    rope_theta: 10000.0
+    torch_dtype: float32
+    transformers_version: 4.48.1
+    type: ConditionGemmaModel
+    use_adarms: false
+    use_cache: true
+    vocab_size: 257152
+  max_action_dim: 32
+  n_action_steps: 10
+  name_mapping:
+    action_in_proj.projector: action_in_proj
+    action_out_proj.projector: action_out_proj
+    action_time_mlp_in.projector: action_time_mlp_in
+    action_time_mlp_out.projector: action_time_mlp_out
+    llm_backbone: paligemma_with_expert.paligemma.model.language_model
+    llm_backbone.embed_tokens: paligemma_with_expert.paligemma.lm_head
+    llm_expert: paligemma_with_expert.gemma_expert.model
+    projector.projector: paligemma_with_expert.paligemma.model.multi_modal_projector.linear
+    state_proj.projector: state_proj
+    vision_backbone.vision: paligemma_with_expert.paligemma.model.vision_tower
+  ori_action_dim: 7
+  params_to_change_dtype:
+  - llm_expert.llm.model.layers
+  - vlm_backbone.vlm.model.language_model.layers
+  - vlm_backbone.vlm.model.vision_tower
+  - vlm_backbone.vlm.model.multi_modal_projector
+  pretrained_name_or_path: ./checkpoints/pi0_base/model.safetensors
+  proj_width: 1024
+  projector:
+    in_dim: 1152
+    out_dim: 2048
+    type: LinearProjector
+  state_proj:
+    in_dim: 32
+    out_dim: 1024
+    type: LinearProjector
+  type: PI0FlowMatching
+  vision_backbone:
+    type: SigLIPViTBackbone
+    vision_backbone_id: siglip_224
+    vision_config:
+      attention_dropout: 0.0
+      hidden_act: gelu_pytorch_tanh
+      hidden_size: 1152
+      image_size: 224
+      intermediate_size: 4304
+      layer_norm_eps: 1.0e-06
+      model_type: siglip_vision_model
+      num_attention_heads: 16
+      num_channels: 3
+      num_hidden_layers: 27
+      patch_size: 14
+      projection_dim: 2048
+      projector_hidden_act: gelu_fast
+      torch_dtype: float32
+      vision_use_head: false
+per_device_num_workers: 8
+runner:
+  change_key_name: false
+  collator:
+    keys:
+    - states
+    - observation.eepose
+    - timestamp
+    - images
+    - img_masks
+    - lang_tokens
+    - lang_masks
+    - actions
+    - action_masks
+    meta_keys:
+    - task_description
+    - prompt
+    - info
+    - stats
+    type: DictCollator
+  enable_gradient_checkpointing: true
+  enable_mixed_precision_training: true
+  learning_rate: 5.0e-05
+  lr_scheduler_type: linear-warmup+cosine-decay
+  max_epochs: 24
+  max_grad_norm: 1.0
+  max_keep_ckpts: 1
+  metric:
+    active_trackers:
+    - jsonl
+    - wandb
+    grad_accumulation_steps: 1
+    run_dir: work_dirs
+    type: VLAMetric
+    window_size: 1
+  mixed_precision_dtype: bf16
+  sampler: null
+  sharding_strategy: no-shard
+  tokenizer:
+    type: PaligemmaTokenizer
+  type: FSDPTrainRunner
+  warmup_ratio: 0.03
+  weight_decay: 0.0
+train_dataloader:
+  dataset:
+    datasets:
+      action_key: action
+      action_window_size: 10
+      data_root_path: ./datasets/libero_10_no_noops_lerobotv2.1
+      statistic_name: libero_10_no_noops
+      transforms:
+      - name_mappings:
+          actions:
+          - actions
+          observation.state:
+          - states
+        parquet_keys:
+        - observation.state
+        - timestamp
+        - actions
+        - info
+        - stats
+        - action_masks
+        type: ProcessParquetInputs
+        video_keys:
+        - observation.images.image
+        - observation.images.wrist_image
+      - add_new_line: true
+        type: ParquetPrompter
+        use_conversation: false
+      - tokenizer:
+          type: PaligemmaTokenizer
+        type: ProcessPrompts
+      - height: 224
+        type: ResizeImages
+        width: 224
+      - means:
+        - - 123.515625
+          - 116.04492188
+          - 103.59375
+        - - 123.515625
+          - 116.04492188
+          - 103.59375
+        stds:
+        - - 58.27148438
+          - 57.02636719
+          - 57.27539062
+        - - 58.27148438
+          - 57.02636719
+          - 57.27539062
+        type: NormalizeImages
+      - action_dim: 32
+        action_key: action
+        norm_type: mean_std
+        state_dim: 32
+        state_key: proprio
+        type: NormalizeStatesAndActions
+      type: ParquetDataset
+      use_delta: false
+      window_start_idx: 0
+    name_mappings:
+      action:
+      - action
+      observation.state:
+      - proprio
+    statistic_keys:
+    - observation.state
+    - timestamp
+    - action
+    statistic_name: libero_10_no_noops
+    type: DistributedRepeatingDataset
+  per_device_batch_size: 8
+  per_device_num_workers: 4

pi0_paligemma_libero_10_full_finetune_bs64/dataset_statistics.json ADDED Viewed

	@@ -0,0 +1,104 @@

+{
+  "libero_10_no_noops": {
+    "proprio": {
+      "mean": [
+        -0.0419064655693921,
+        0.0353943785769225,
+        0.8257066448085474,
+        2.908315654671235,
+        -0.5562158603122547,
+        -0.1664910329554594,
+        0.02831534785236664,
+        -0.028561558922556265
+      ],
+      "std": [
+        0.037983810285504724,
+        0.05099922690402999,
+        0.09094586143443492,
+        0.12167118781966886,
+        0.43643697181350727,
+        0.12656789603066015,
+        0.004705366661198258,
+        0.004657921514447958
+      ],
+      "min": [
+        -0.4828203022480011,
+        -0.3255046010017395,
+        0.445506751537323,
+        1.1321442127227783,
+        -3.641430377960205,
+        -1.842738389968872,
+        -0.0010040868073701859,
+        -0.04111652821302414
+      ],
+      "max": [
+        0.21031762659549713,
+        0.39128610491752625,
+        1.3332009315490723,
+        3.6714255809783936,
+        3.560650587081909,
+        1.386339545249939,
+        0.04160946607589722,
+        0.0013633022317662835
+      ],
+      "q01": null,
+      "q99": null
+    },
+    "timestamp": {
+      "mean": [
+        6.968810671239492
+      ],
+      "std": [
+        4.4205853432820845
+      ],
+      "min": [
+        0.0
+      ],
+      "max": [
+        25.2
+      ],
+      "q01": null,
+      "q99": null
+    },
+    "action": {
+      "mean": [
+        0.018203219580245917,
+        0.05858386677049721,
+        -0.05592356325431262,
+        0.004626933903665416,
+        0.0028960781014207345,
+        -0.0076731359981381505,
+        0.5457824565452817
+      ],
+      "std": [
+        0.10678436772960577,
+        0.13569355116695744,
+        0.1388675428804427,
+        0.014251597889066525,
+        0.020520837090261576,
+        0.03297657922665584,
+        0.1881883528070125
+      ],
+      "min": [
+        -0.9375,
+        -0.9375,
+        -0.9375,
+        -0.23642857372760773,
+        -0.3053571283817291,
+        -0.3675000071525574,
+        0.0
+      ],
+      "max": [
+        0.9375,
+        0.9375,
+        0.9375,
+        0.30000001192092896,
+        0.29357144236564636,
+        0.375,
+        1.0
+      ],
+      "q01": null,
+      "q99": null
+    }
+  }
+}

pi0_paligemma_libero_10_full_finetune_bs64/llm_backbone_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "adarms_cond_dim": null,
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 2,
+  "eos_token_id": 1,
+  "head_dim": 256,
+  "hidden_act": "gelu_pytorch_tanh",
+  "hidden_activation": "gelu_pytorch_tanh",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 16384,
+  "max_position_embeddings": 8192,
+  "model_type": "gemma",
+  "num_attention_heads": 8,
+  "num_hidden_layers": 18,
+  "num_key_value_heads": 1,
+  "pad_token_id": 0,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 10000.0,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.2",
+  "use_adarms": true,
+  "use_cache": true,
+  "vocab_size": 257152
+}

pi0_paligemma_libero_10_full_finetune_bs64/pi0_paligemma_libero_10_full_finetune_2026_05_25_21_16_07.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7bcdef560d6c22aba8b7e0eab92cb487e34e25e15f5e1cf7b29e628894d3fd5e
+size 10666556

pi0_paligemma_libero_10_full_finetune_bs64/run-metrics.jsonl ADDED Viewed

	@@ -0,0 +1 @@

+ {"hparams": "{'model': {'type': 'PI0FlowMatching', 'llm_backbone': {'type': 'ConditionGemmaModel', 'adarms_cond_dim': None, 'attention_bias': False, 'attention_dropout': 0.0, 'bos_token_id': 2, 'eos_token_id': 1, 'head_dim': 256, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_activation': 'gelu_pytorch_tanh', 'hidden_size': 2048, 'initializer_range': 0.02, 'intermediate_size': 16384, 'max_position_embeddings': 8192, 'model_type': 'gemma', 'num_attention_heads': 8, 'num_hidden_layers': 18, 'num_key_value_heads': 1, 'rms_norm_eps': 1e-06, 'rope_theta': 10000.0, 'torch_dtype': 'float32', 'use_cache': True, 'vocab_size': 257152}, 'vision_backbone': {'type': 'SigLIPViTBackbone', 'vision_backbone_id': 'siglip_224', 'vision_config': {'attention_dropout': 0.0, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_size': 1152, 'image_size': 224, 'intermediate_size': 4304, 'layer_norm_eps': 1e-06, 'model_type': 'siglip_vision_model', 'num_attention_heads': 16, 'num_channels': 3, 'num_hidden_layers': 27, 'patch_size': 14, 'projection_dim': 2048, 'projector_hidden_act': 'gelu_fast', 'torch_dtype': 'float32', 'vision_use_head': False}}, 'projector': {'type': 'LinearProjector', 'in_dim': 1152, 'out_dim': 2048}, 'proj_width': 1024, 'n_action_steps': 10, 'state_proj': {'type': 'LinearProjector', 'in_dim': 32, 'out_dim': 1024}, 'action_in_proj': {'type': 'LinearProjector', 'in_dim': 32, 'out_dim': 1024}, 'action_out_proj': {'type': 'LinearProjector', 'in_dim': 1024, 'out_dim': 32}, 'action_time_mlp_in': {'type': 'LinearProjector', 'in_dim': 2048, 'out_dim': 1024}, 'action_time_mlp_out': {'type': 'LinearProjector', 'in_dim': 1024, 'out_dim': 1024}, 'max_action_dim': 32, 'llm_expert': {'type': 'ConditionGemmaModel', 'attention_bias': False, 'adarms_cond_dim': None, 'attention_dropout': 0.0, 'bos_token_id': 2, 'eos_token_id': 1, 'head_dim': 256, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_activation': 'gelu_pytorch_tanh', 'hidden_size': 1024, 'initializer_range': 0.02, 'intermediate_size': 4096, 'max_position_embeddings': 8192, 'model_type': 'gemma', 'num_attention_heads': 8, 'num_hidden_layers': 18, 'num_key_value_heads': 1, 'pad_token_id': 0, 'rms_norm_eps': 1e-06, 'rope_theta': 10000.0, 'torch_dtype': 'float32', 'transformers_version': '4.48.1', 'use_adarms': False, 'use_cache': True, 'vocab_size': 257152}, 'freeze_llm_backbone': False, 'freeze_vision_backbone': False, 'pretrained_name_or_path': './checkpoints/pi0_base/model.safetensors', 'name_mapping': {'llm_backbone': 'paligemma_with_expert.paligemma.model.language_model', 'vision_backbone.vision': 'paligemma_with_expert.paligemma.model.vision_tower', 'projector.projector': 'paligemma_with_expert.paligemma.model.multi_modal_projector.linear', 'llm_expert': 'paligemma_with_expert.gemma_expert.model', 'action_time_mlp_in.projector': 'action_time_mlp_in', 'action_time_mlp_out.projector': 'action_time_mlp_out', 'state_proj.projector': 'state_proj', 'action_in_proj.projector': 'action_in_proj', 'action_out_proj.projector': 'action_out_proj', 'llm_backbone.embed_tokens': 'paligemma_with_expert.paligemma.lm_head'}, 'params_to_change_dtype': ['llm_expert.llm.model.layers', 'vlm_backbone.vlm.model.language_model.layers', 'vlm_backbone.vlm.model.vision_tower', 'vlm_backbone.vlm.model.multi_modal_projector'], 'ori_action_dim': 7}, 'inference_model': {'type': 'PI0FlowMatching', 'llm_backbone': {'type': 'ConditionGemmaModel', 'adarms_cond_dim': None, 'attention_bias': False, 'attention_dropout': 0.0, 'bos_token_id': 2, 'eos_token_id': 1, 'head_dim': 256, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_activation': 'gelu_pytorch_tanh', 'hidden_size': 2048, 'initializer_range': 0.02, 'intermediate_size': 16384, 'max_position_embeddings': 8192, 'model_type': 'gemma', 'num_attention_heads': 8, 'num_hidden_layers': 18, 'num_key_value_heads': 1, 'rms_norm_eps': 1e-06, 'rope_theta': 10000.0, 'torch_dtype': 'float32', 'use_cache': True, 'vocab_size': 257152}, 'vision_backbone': {'type': 'SigLIPViTBackbone', 'vision_backbone_id': 'siglip_224', 'vision_config': {'attention_dropout': 0.0, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_size': 1152, 'image_size': 224, 'intermediate_size': 4304, 'layer_norm_eps': 1e-06, 'model_type': 'siglip_vision_model', 'num_attention_heads': 16, 'num_channels': 3, 'num_hidden_layers': 27, 'patch_size': 14, 'projection_dim': 2048, 'projector_hidden_act': 'gelu_fast', 'torch_dtype': 'float32', 'vision_use_head': False}}, 'projector': {'type': 'LinearProjector', 'in_dim': 1152, 'out_dim': 2048}, 'proj_width': 1024, 'n_action_steps': 10, 'state_proj': {'type': 'LinearProjector', 'in_dim': 32, 'out_dim': 1024}, 'action_in_proj': {'type': 'LinearProjector', 'in_dim': 32, 'out_dim': 1024}, 'action_out_proj': {'type': 'LinearProjector', 'in_dim': 1024, 'out_dim': 32}, 'action_time_mlp_in': {'type': 'LinearProjector', 'in_dim': 2048, 'out_dim': 1024}, 'action_time_mlp_out': {'type': 'LinearProjector', 'in_dim': 1024, 'out_dim': 1024}, 'max_action_dim': 32, 'llm_expert': {'type': 'ConditionGemmaModel', 'attention_bias': False, 'adarms_cond_dim': None, 'attention_dropout': 0.0, 'bos_token_id': 2, 'eos_token_id': 1, 'head_dim': 256, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_activation': 'gelu_pytorch_tanh', 'hidden_size': 1024, 'initializer_range': 0.02, 'intermediate_size': 4096, 'max_position_embeddings': 8192, 'model_type': 'gemma', 'num_attention_heads': 8, 'num_hidden_layers': 18, 'num_key_value_heads': 1, 'pad_token_id': 0, 'rms_norm_eps': 1e-06, 'rope_theta': 10000.0, 'torch_dtype': 'float32', 'transformers_version': '4.48.1', 'use_adarms': False, 'use_cache': True, 'vocab_size': 257152}, 'freeze_llm_backbone': False, 'freeze_vision_backbone': False, 'pretrained_name_or_path': './checkpoints/pi0_base/model.safetensors', 'name_mapping': {'llm_backbone': 'paligemma_with_expert.paligemma.model.language_model', 'vision_backbone.vision': 'paligemma_with_expert.paligemma.model.vision_tower', 'projector.projector': 'paligemma_with_expert.paligemma.model.multi_modal_projector.linear', 'llm_expert': 'paligemma_with_expert.gemma_expert.model', 'action_time_mlp_in.projector': 'action_time_mlp_in', 'action_time_mlp_out.projector': 'action_time_mlp_out', 'state_proj.projector': 'state_proj', 'action_in_proj.projector': 'action_in_proj', 'action_out_proj.projector': 'action_out_proj', 'llm_backbone.embed_tokens': 'paligemma_with_expert.paligemma.lm_head'}, 'params_to_change_dtype': ['llm_expert.llm.model.layers', 'vlm_backbone.vlm.model.language_model.layers', 'vlm_backbone.vlm.model.vision_tower', 'vlm_backbone.vlm.model.multi_modal_projector'], 'ori_action_dim': 7}, 'train_dataloader': {'per_device_batch_size': 8, 'per_device_num_workers': 4, 'dataset': {'type': 'DistributedRepeatingDataset', 'name_mappings': {'observation.state': ['proprio'], 'action': ['action']}, 'statistic_keys': ['observation.state', 'timestamp', 'action'], 'statistic_name': 'libero_10_no_noops', 'datasets': {'type': 'ParquetDataset', 'data_root_path': './datasets/libero_10_no_noops_lerobotv2.1', 'transforms': [{'type': 'ProcessParquetInputs', 'parquet_keys': ['observation.state', 'timestamp', 'actions', 'info', 'stats', 'action_masks'], 'video_keys': ['observation.images.image', 'observation.images.wrist_image'], 'name_mappings': {'observation.state': ['states'], 'actions': ['actions']}}, {'type': 'ParquetPrompter', 'use_conversation': False, 'add_new_line': True}, {'type': 'ProcessPrompts', 'tokenizer': {'type': 'PaligemmaTokenizer'}}, {'type': 'ResizeImages', 'height': 224, 'width': 224}, {'type': 'NormalizeImages', 'means': [[123.515625, 116.04492188, 103.59375], [123.515625, 116.04492188, 103.59375]], 'stds': [[58.27148438, 57.02636719, 57.27539062], [58.27148438, 57.02636719, 57.27539062]]}, {'type': 'NormalizeStatesAndActions', 'action_dim': 32, 'state_dim': 32, 'state_key': 'proprio', 'action_key': 'action', 'norm_type': 'mean_std'}], 'action_window_size': 10, 'action_key': 'action', 'use_delta': False, 'statistic_name': 'libero_10_no_noops', 'window_start_idx': 0}}}, 'runner': {'type': 'FSDPTrainRunner', 'max_epochs': 24, 'learning_rate': 5e-05, 'weight_decay': 0.0, 'max_grad_norm': 1.0, 'sharding_strategy': 'no-shard', 'collator': {'type': 'DictCollator', 'keys': ['states', 'observation.eepose', 'timestamp', 'images', 'img_masks', 'lang_tokens', 'lang_masks', 'actions', 'action_masks'], 'meta_keys': ['task_description', 'prompt', 'info', 'stats']}, 'sampler': None, 'tokenizer': {'type': 'PaligemmaTokenizer'}, 'metric': {'type': 'VLAMetric', 'active_trackers': ('jsonl', 'wandb'), 'run_dir': 'work_dirs/pi0_paligemma_libero_10_full_finetune_10676d3d_bs64', 'grad_accumulation_steps': 1, 'window_size': 1, 'hparams': Config (path: configs/pi0/pi0_paligemma_libero_10_full_finetune.py): {'model': {'type': 'PI0FlowMatching', 'llm_backbone': {'type': 'ConditionGemmaModel', 'adarms_cond_dim': None, 'attention_bias': False, 'attention_dropout': 0.0, 'bos_token_id': 2, 'eos_token_id': 1, 'head_dim': 256, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_activation': 'gelu_pytorch_tanh', 'hidden_size': 2048, 'initializer_range': 0.02, 'intermediate_size': 16384, 'max_position_embeddings': 8192, 'model_type': 'gemma', 'num_attention_heads': 8, 'num_hidden_layers': 18, 'num_key_value_heads': 1, 'rms_norm_eps': 1e-06, 'rope_theta': 10000.0, 'torch_dtype': 'float32', 'use_cache': True, 'vocab_size': 257152}, 'vision_backbone': {'type': 'SigLIPViTBackbone', 'vision_backbone_id': 'siglip_224', 'vision_config': {'attention_dropout': 0.0, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_size': 1152, 'image_size': 224, 'intermediate_size': 4304, 'layer_norm_eps': 1e-06, 'model_type': 'siglip_vision_model', 'num_attention_heads': 16, 'num_channels': 3, 'num_hidden_layers': 27, 'patch_size': 14, 'projection_dim': 2048, 'projector_hidden_act': 'gelu_fast', 'torch_dtype': 'float32', 'vision_use_head': False}}, 'projector': {'type': 'LinearProjector', 'in_dim': 1152, 'out_dim': 2048}, 'proj_width': 1024, 'n_action_steps': 10, 'state_proj': {'type': 'LinearProjector', 'in_dim': 32, 'out_dim': 1024}, 'action_in_proj': {'type': 'LinearProjector', 'in_dim': 32, 'out_dim': 1024}, 'action_out_proj': {'type': 'LinearProjector', 'in_dim': 1024, 'out_dim': 32}, 'action_time_mlp_in': {'type': 'LinearProjector', 'in_dim': 2048, 'out_dim': 1024}, 'action_time_mlp_out': {'type': 'LinearProjector', 'in_dim': 1024, 'out_dim': 1024}, 'max_action_dim': 32, 'llm_expert': {'type': 'ConditionGemmaModel', 'attention_bias': False, 'adarms_cond_dim': None, 'attention_dropout': 0.0, 'bos_token_id': 2, 'eos_token_id': 1, 'head_dim': 256, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_activation': 'gelu_pytorch_tanh', 'hidden_size': 1024, 'initializer_range': 0.02, 'intermediate_size': 4096, 'max_position_embeddings': 8192, 'model_type': 'gemma', 'num_attention_heads': 8, 'num_hidden_layers': 18, 'num_key_value_heads': 1, 'pad_token_id': 0, 'rms_norm_eps': 1e-06, 'rope_theta': 10000.0, 'torch_dtype': 'float32', 'transformers_version': '4.48.1', 'use_adarms': False, 'use_cache': True, 'vocab_size': 257152}, 'freeze_llm_backbone': False, 'freeze_vision_backbone': False, 'pretrained_name_or_path': './checkpoints/pi0_base/model.safetensors', 'name_mapping': {'llm_backbone': 'paligemma_with_expert.paligemma.model.language_model', 'vision_backbone.vision': 'paligemma_with_expert.paligemma.model.vision_tower', 'projector.projector': 'paligemma_with_expert.paligemma.model.multi_modal_projector.linear', 'llm_expert': 'paligemma_with_expert.gemma_expert.model', 'action_time_mlp_in.projector': 'action_time_mlp_in', 'action_time_mlp_out.projector': 'action_time_mlp_out', 'state_proj.projector': 'state_proj', 'action_in_proj.projector': 'action_in_proj', 'action_out_proj.projector': 'action_out_proj', 'llm_backbone.embed_tokens': 'paligemma_with_expert.paligemma.lm_head'}, 'params_to_change_dtype': ['llm_expert.llm.model.layers', 'vlm_backbone.vlm.model.language_model.layers', 'vlm_backbone.vlm.model.vision_tower', 'vlm_backbone.vlm.model.multi_modal_projector'], 'ori_action_dim': 7}, 'inference_model': {'type': 'PI0FlowMatching', 'llm_backbone': {'type': 'ConditionGemmaModel', 'adarms_cond_dim': None, 'attention_bias': False, 'attention_dropout': 0.0, 'bos_token_id': 2, 'eos_token_id': 1, 'head_dim': 256, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_activation': 'gelu_pytorch_tanh', 'hidden_size': 2048, 'initializer_range': 0.02, 'intermediate_size': 16384, 'max_position_embeddings': 8192, 'model_type': 'gemma', 'num_attention_heads': 8, 'num_hidden_layers': 18, 'num_key_value_heads': 1, 'rms_norm_eps': 1e-06, 'rope_theta': 10000.0, 'torch_dtype': 'float32', 'use_cache': True, 'vocab_size': 257152}, 'vision_backbone': {'type': 'SigLIPViTBackbone', 'vision_backbone_id': 'siglip_224', 'vision_config': {'attention_dropout': 0.0, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_size': 1152, 'image_size': 224, 'intermediate_size': 4304, 'layer_norm_eps': 1e-06, 'model_type': 'siglip_vision_model', 'num_attention_heads': 16, 'num_channels': 3, 'num_hidden_layers': 27, 'patch_size': 14, 'projection_dim': 2048, 'projector_hidden_act': 'gelu_fast', 'torch_dtype': 'float32', 'vision_use_head': False}}, 'projector': {'type': 'LinearProjector', 'in_dim': 1152, 'out_dim': 2048}, 'proj_width': 1024, 'n_action_steps': 10, 'state_proj': {'type': 'LinearProjector', 'in_dim': 32, 'out_dim': 1024}, 'action_in_proj': {'type': 'LinearProjector', 'in_dim': 32, 'out_dim': 1024}, 'action_out_proj': {'type': 'LinearProjector', 'in_dim': 1024, 'out_dim': 32}, 'action_time_mlp_in': {'type': 'LinearProjector', 'in_dim': 2048, 'out_dim': 1024}, 'action_time_mlp_out': {'type': 'LinearProjector', 'in_dim': 1024, 'out_dim': 1024}, 'max_action_dim': 32, 'llm_expert': {'type': 'ConditionGemmaModel', 'attention_bias': False, 'adarms_cond_dim': None, 'attention_dropout': 0.0, 'bos_token_id': 2, 'eos_token_id': 1, 'head_dim': 256, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_activation': 'gelu_pytorch_tanh', 'hidden_size': 1024, 'initializer_range': 0.02, 'intermediate_size': 4096, 'max_position_embeddings': 8192, 'model_type': 'gemma', 'num_attention_heads': 8, 'num_hidden_layers': 18, 'num_key_value_heads': 1, 'pad_token_id': 0, 'rms_norm_eps': 1e-06, 'rope_theta': 10000.0, 'torch_dtype': 'float32', 'transformers_version': '4.48.1', 'use_adarms': False, 'use_cache': True, 'vocab_size': 257152}, 'freeze_llm_backbone': False, 'freeze_vision_backbone': False, 'pretrained_name_or_path': './checkpoints/pi0_base/model.safetensors', 'name_mapping': {'llm_backbone': 'paligemma_with_expert.paligemma.model.language_model', 'vision_backbone.vision': 'paligemma_with_expert.paligemma.model.vision_tower', 'projector.projector': 'paligemma_with_expert.paligemma.model.multi_modal_projector.linear', 'llm_expert': 'paligemma_with_expert.gemma_expert.model', 'action_time_mlp_in.projector': 'action_time_mlp_in', 'action_time_mlp_out.projector': 'action_time_mlp_out', 'state_proj.projector': 'state_proj', 'action_in_proj.projector': 'action_in_proj', 'action_out_proj.projector': 'action_out_proj', 'llm_backbone.embed_tokens': 'paligemma_with_expert.paligemma.lm_head'}, 'params_to_change_dtype': ['llm_expert.llm.model.layers', 'vlm_backbone.vlm.model.language_model.layers', 'vlm_backbone.vlm.model.vision_tower', 'vlm_backbone.vlm.model.multi_modal_projector'], 'ori_action_dim': 7}, 'train_dataloader': {'per_device_batch_size': 8, 'per_device_num_workers': 4, 'dataset': {'type': 'DistributedRepeatingDataset', 'name_mappings': {'observation.state': ['proprio'], 'action': ['action']}, 'statistic_keys': ['observation.state', 'timestamp', 'action'], 'statistic_name': 'libero_10_no_noops', 'datasets': {'type': 'ParquetDataset', 'data_root_path': './datasets/libero_10_no_noops_lerobotv2.1', 'transforms': [{'type': 'ProcessParquetInputs', 'parquet_keys': ['observation.state', 'timestamp', 'actions', 'info', 'stats', 'action_masks'], 'video_keys': ['observation.images.image', 'observation.images.wrist_image'], 'name_mappings': {'observation.state': ['states'], 'actions': ['actions']}}, {'type': 'ParquetPrompter', 'use_conversation': False, 'add_new_line': True}, {'type': 'ProcessPrompts', 'tokenizer': {'type': 'PaligemmaTokenizer'}}, {'type': 'ResizeImages', 'height': 224, 'width': 224}, {'type': 'NormalizeImages', 'means': [[123.515625, 116.04492188, 103.59375], [123.515625, 116.04492188, 103.59375]], 'stds': [[58.27148438, 57.02636719, 57.27539062], [58.27148438, 57.02636719, 57.27539062]]}, {'type': 'NormalizeStatesAndActions', 'action_dim': 32, 'state_dim': 32, 'state_key': 'proprio', 'action_key': 'action', 'norm_type': 'mean_std'}], 'action_window_size': 10, 'action_key': 'action', 'use_delta': False, 'statistic_name': 'libero_10_no_noops', 'window_start_idx': 0}}}, 'runner': {'type': 'FSDPTrainRunner', 'max_epochs': 24, 'learning_rate': 5e-05, 'weight_decay': 0.0, 'max_grad_norm': 1.0, 'sharding_strategy': 'no-shard', 'collator': {'type': 'DictCollator', 'keys': ['states', 'observation.eepose', 'timestamp', 'images', 'img_masks', 'lang_tokens', 'lang_masks', 'actions', 'action_masks'], 'meta_keys': ['task_description', 'prompt', 'info', 'stats']}, 'sampler': None, 'tokenizer': {'type': 'PaligemmaTokenizer'}, 'metric': {'type': 'VLAMetric', 'active_trackers': ('jsonl', 'wandb'), 'run_dir': 'work_dirs/pi0_paligemma_libero_10_full_finetune_10676d3d_bs64', 'grad_accumulation_steps': 1, 'window_size': 1, 'hparams': Config (path: configs/pi0/pi0_paligemma_libero_10_full_finetune.py): {...}, 'run_id': 'pi0_paligemma_libero_10_full_finetune_2026_05_25_21_16_07'}, 'lr_scheduler_type': 'linear-warmup+cosine-decay', 'warmup_ratio': 0.03, 'enable_gradient_checkpointing': True, 'enable_mixed_precision_training': True, 'mixed_precision_dtype': 'bf16', 'change_key_name': False, 'max_keep_ckpts': 1, 'cfg': Config (path: configs/pi0/pi0_paligemma_libero_10_full_finetune.py): {...}, 'args': Namespace(config='configs/pi0/pi0_paligemma_libero_10_full_finetune.py', work_dir='work_dirs/pi0_paligemma_libero_10_full_finetune_10676d3d_bs64', cfg_options={'train_dataloader.per_device_batch_size': 8, 'per_device_num_workers': 8, 'runner.max_keep_ckpts': 1}, eval_after_train=True, resume_from=None)}, 'eval': {'type': 'LiberoEvalRunner', 'task_suite_name': 'libero_10', 'model_family': 'pi0', 'eval_chunk_size': 10, 'resize_size': 224, 'num_trials_per_task': 50, 'num_steps_wait': 10, 'seed': 7, 'dataset': {'type': 'LiberoParquetEvalDataset', 'transforms': [{'type': 'ProcessLiberoEvalInputs', 'img_keys': ['agentview_image', 'robot0_eye_in_hand_image']}, {'type': 'TransformImage', 'image_resize_strategy': 'resize-naive', 'input_sizes': [[3, 224, 224], [3, 224, 224]], 'means': [[123.515625, 116.04492188, 103.59375], [123.515625, 116.04492188, 103.59375]], 'stds': [[58.27148438, 57.02636719, 57.27539062], [58.27148438, 57.02636719, 57.27539062]]}, {'type': 'LiberoPromptFromInputs', 'use_conversation': False, 'add_new_line': True, 'tokenizer': {'type': 'PaligemmaTokenizer'}}, {'type': 'LiberoProprioFromInputs', 'norm_type': 'mean_std', 'pos_key': 'robot0_eef_pos', 'quat_key': 'robot0_eef_quat', 'gripper_key': 'robot0_gripper_qpos', 'state_dim': 32, 'out_key': 'states'}]}, 'denormalize_action': {'type': 'DenormalizeLiberoAction', 'norm_type': 'mean_std', 'action_dim': 7}}, 'per_device_num_workers': 8}, 'run_id': 'pi0_paligemma_libero_10_full_finetune_2026_05_25_21_16_07'}, 'lr_scheduler_type': 'linear-warmup+cosine-decay', 'warmup_ratio': 0.03, 'enable_gradient_checkpointing': True, 'enable_mixed_precision_training': True, 'mixed_precision_dtype': 'bf16', 'change_key_name': False, 'max_keep_ckpts': 1, 'cfg': Config (path: configs/pi0/pi0_paligemma_libero_10_full_finetune.py): {'model': {'type': 'PI0FlowMatching', 'llm_backbone': {'type': 'ConditionGemmaModel', 'adarms_cond_dim': None, 'attention_bias': False, 'attention_dropout': 0.0, 'bos_token_id': 2, 'eos_token_id': 1, 'head_dim': 256, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_activation': 'gelu_pytorch_tanh', 'hidden_size': 2048, 'initializer_range': 0.02, 'intermediate_size': 16384, 'max_position_embeddings': 8192, 'model_type': 'gemma', 'num_attention_heads': 8, 'num_hidden_layers': 18, 'num_key_value_heads': 1, 'rms_norm_eps': 1e-06, 'rope_theta': 10000.0, 'torch_dtype': 'float32', 'use_cache': True, 'vocab_size': 257152}, 'vision_backbone': {'type': 'SigLIPViTBackbone', 'vision_backbone_id': 'siglip_224', 'vision_config': {'attention_dropout': 0.0, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_size': 1152, 'image_size': 224, 'intermediate_size': 4304, 'layer_norm_eps': 1e-06, 'model_type': 'siglip_vision_model', 'num_attention_heads': 16, 'num_channels': 3, 'num_hidden_layers': 27, 'patch_size': 14, 'projection_dim': 2048, 'projector_hidden_act': 'gelu_fast', 'torch_dtype': 'float32', 'vision_use_head': False}}, 'projector': {'type': 'LinearProjector', 'in_dim': 1152, 'out_dim': 2048}, 'proj_width': 1024, 'n_action_steps': 10, 'state_proj': {'type': 'LinearProjector', 'in_dim': 32, 'out_dim': 1024}, 'action_in_proj': {'type': 'LinearProjector', 'in_dim': 32, 'out_dim': 1024}, 'action_out_proj': {'type': 'LinearProjector', 'in_dim': 1024, 'out_dim': 32}, 'action_time_mlp_in': {'type': 'LinearProjector', 'in_dim': 2048, 'out_dim': 1024}, 'action_time_mlp_out': {'type': 'LinearProjector', 'in_dim': 1024, 'out_dim': 1024}, 'max_action_dim': 32, 'llm_expert': {'type': 'ConditionGemmaModel', 'attention_bias': False, 'adarms_cond_dim': None, 'attention_dropout': 0.0, 'bos_token_id': 2, 'eos_token_id': 1, 'head_dim': 256, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_activation': 'gelu_pytorch_tanh', 'hidden_size': 1024, 'initializer_range': 0.02, 'intermediate_size': 4096, 'max_position_embeddings': 8192, 'model_type': 'gemma', 'num_attention_heads': 8, 'num_hidden_layers': 18, 'num_key_value_heads': 1, 'pad_token_id': 0, 'rms_norm_eps': 1e-06, 'rope_theta': 10000.0, 'torch_dtype': 'float32', 'transformers_version': '4.48.1', 'use_adarms': False, 'use_cache': True, 'vocab_size': 257152}, 'freeze_llm_backbone': False, 'freeze_vision_backbone': False, 'pretrained_name_or_path': './checkpoints/pi0_base/model.safetensors', 'name_mapping': {'llm_backbone': 'paligemma_with_expert.paligemma.model.language_model', 'vision_backbone.vision': 'paligemma_with_expert.paligemma.model.vision_tower', 'projector.projector': 'paligemma_with_expert.paligemma.model.multi_modal_projector.linear', 'llm_expert': 'paligemma_with_expert.gemma_expert.model', 'action_time_mlp_in.projector': 'action_time_mlp_in', 'action_time_mlp_out.projector': 'action_time_mlp_out', 'state_proj.projector': 'state_proj', 'action_in_proj.projector': 'action_in_proj', 'action_out_proj.projector': 'action_out_proj', 'llm_backbone.embed_tokens': 'paligemma_with_expert.paligemma.lm_head'}, 'params_to_change_dtype': ['llm_expert.llm.model.layers', 'vlm_backbone.vlm.model.language_model.layers', 'vlm_backbone.vlm.model.vision_tower', 'vlm_backbone.vlm.model.multi_modal_projector'], 'ori_action_dim': 7}, 'inference_model': {'type': 'PI0FlowMatching', 'llm_backbone': {'type': 'ConditionGemmaModel', 'adarms_cond_dim': None, 'attention_bias': False, 'attention_dropout': 0.0, 'bos_token_id': 2, 'eos_token_id': 1, 'head_dim': 256, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_activation': 'gelu_pytorch_tanh', 'hidden_size': 2048, 'initializer_range': 0.02, 'intermediate_size': 16384, 'max_position_embeddings': 8192, 'model_type': 'gemma', 'num_attention_heads': 8, 'num_hidden_layers': 18, 'num_key_value_heads': 1, 'rms_norm_eps': 1e-06, 'rope_theta': 10000.0, 'torch_dtype': 'float32', 'use_cache': True, 'vocab_size': 257152}, 'vision_backbone': {'type': 'SigLIPViTBackbone', 'vision_backbone_id': 'siglip_224', 'vision_config': {'attention_dropout': 0.0, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_size': 1152, 'image_size': 224, 'intermediate_size': 4304, 'layer_norm_eps': 1e-06, 'model_type': 'siglip_vision_model', 'num_attention_heads': 16, 'num_channels': 3, 'num_hidden_layers': 27, 'patch_size': 14, 'projection_dim': 2048, 'projector_hidden_act': 'gelu_fast', 'torch_dtype': 'float32', 'vision_use_head': False}}, 'projector': {'type': 'LinearProjector', 'in_dim': 1152, 'out_dim': 2048}, 'proj_width': 1024, 'n_action_steps': 10, 'state_proj': {'type': 'LinearProjector', 'in_dim': 32, 'out_dim': 1024}, 'action_in_proj': {'type': 'LinearProjector', 'in_dim': 32, 'out_dim': 1024}, 'action_out_proj': {'type': 'LinearProjector', 'in_dim': 1024, 'out_dim': 32}, 'action_time_mlp_in': {'type': 'LinearProjector', 'in_dim': 2048, 'out_dim': 1024}, 'action_time_mlp_out': {'type': 'LinearProjector', 'in_dim': 1024, 'out_dim': 1024}, 'max_action_dim': 32, 'llm_expert': {'type': 'ConditionGemmaModel', 'attention_bias': False, 'adarms_cond_dim': None, 'attention_dropout': 0.0, 'bos_token_id': 2, 'eos_token_id': 1, 'head_dim': 256, 'hidden_act': 'gelu_pytorch_tanh', 'hidden_activation': 'gelu_pytorch_tanh', 'hidden_size': 1024, 'initializer_range': 0.02, 'intermediate_size': 4096, 'max_position_embeddings': 8192, 'model_type': 'gemma', 'num_attention_heads': 8, 'num_hidden_layers': 18, 'num_key_value_heads': 1, 'pad_token_id': 0, 'rms_norm_eps': 1e-06, 'rope_theta': 10000.0, 'torch_dtype': 'float32', 'transformers_version': '4.48.1', 'use_adarms': False, 'use_cache': True, 'vocab_size': 257152}, 'freeze_llm_backbone': False, 'freeze_vision_backbone': False, 'pretrained_name_or_path': './checkpoints/pi0_base/model.safetensors', 'name_mapping': {'llm_backbone': 'paligemma_with_expert.paligemma.model.language_model', 'vision_backbone.vision': 'paligemma_with_expert.paligemma.model.vision_tower', 'projector.projector': 'paligemma_with_expert.paligemma.model.multi_modal_projector.linear', 'llm_expert': 'paligemma_with_expert.gemma_expert.model', 'action_time_mlp_in.projector': 'action_time_mlp_in', 'action_time_mlp_out.projector': 'action_time_mlp_out', 'state_proj.projector': 'state_proj', 'action_in_proj.projector': 'action_in_proj', 'action_out_proj.projector': 'action_out_proj', 'llm_backbone.embed_tokens': 'paligemma_with_expert.paligemma.lm_head'}, 'params_to_change_dtype': ['llm_expert.llm.model.layers', 'vlm_backbone.vlm.model.language_model.layers', 'vlm_backbone.vlm.model.vision_tower', 'vlm_backbone.vlm.model.multi_modal_projector'], 'ori_action_dim': 7}, 'train_dataloader': {'per_device_batch_size': 8, 'per_device_num_workers': 4, 'dataset': {'type': 'DistributedRepeatingDataset', 'name_mappings': {'observation.state': ['proprio'], 'action': ['action']}, 'statistic_keys': ['observation.state', 'timestamp', 'action'], 'statistic_name': 'libero_10_no_noops', 'datasets': {'type': 'ParquetDataset', 'data_root_path': './datasets/libero_10_no_noops_lerobotv2.1', 'transforms': [{'type': 'ProcessParquetInputs', 'parquet_keys': ['observation.state', 'timestamp', 'actions', 'info', 'stats', 'action_masks'], 'video_keys': ['observation.images.image', 'observation.images.wrist_image'], 'name_mappings': {'observation.state': ['states'], 'actions': ['actions']}}, {'type': 'ParquetPrompter', 'use_conversation': False, 'add_new_line': True}, {'type': 'ProcessPrompts', 'tokenizer': {'type': 'PaligemmaTokenizer'}}, {'type': 'ResizeImages', 'height': 224, 'width': 224}, {'type': 'NormalizeImages', 'means': [[123.515625, 116.04492188, 103.59375], [123.515625, 116.04492188, 103.59375]], 'stds': [[58.27148438, 57.02636719, 57.27539062], [58.27148438, 57.02636719, 57.27539062]]}, {'type': 'NormalizeStatesAndActions', 'action_dim': 32, 'state_dim': 32, 'state_key': 'proprio', 'action_key': 'action', 'norm_type': 'mean_std'}], 'action_window_size': 10, 'action_key': 'action', 'use_delta': False, 'statistic_name': 'libero_10_no_noops', 'window_start_idx': 0}}}, 'runner': {'type': 'FSDPTrainRunner', 'max_epochs': 24, 'learning_rate': 5e-05, 'weight_decay': 0.0, 'max_grad_norm': 1.0, 'sharding_strategy': 'no-shard', 'collator': {'type': 'DictCollator', 'keys': ['states', 'observation.eepose', 'timestamp', 'images', 'img_masks', 'lang_tokens', 'lang_masks', 'actions', 'action_masks'], 'meta_keys': ['task_description', 'prompt', 'info', 'stats']}, 'sampler': None, 'tokenizer': {'type': 'PaligemmaTokenizer'}, 'metric': {'type': 'VLAMetric', 'active_trackers': ('jsonl', 'wandb'), 'run_dir': 'work_dirs/pi0_paligemma_libero_10_full_finetune_10676d3d_bs64', 'grad_accumulation_steps': 1, 'window_size': 1, 'hparams': Config (path: configs/pi0/pi0_paligemma_libero_10_full_finetune.py): {...}, 'run_id': 'pi0_paligemma_libero_10_full_finetune_2026_05_25_21_16_07'}, 'lr_scheduler_type': 'linear-warmup+cosine-decay', 'warmup_ratio': 0.03, 'enable_gradient_checkpointing': True, 'enable_mixed_precision_training': True, 'mixed_precision_dtype': 'bf16', 'change_key_name': False, 'max_keep_ckpts': 1, 'cfg': Config (path: configs/pi0/pi0_paligemma_libero_10_full_finetune.py): {...}, 'args': Namespace(config='configs/pi0/pi0_paligemma_libero_10_full_finetune.py', work_dir='work_dirs/pi0_paligemma_libero_10_full_finetune_10676d3d_bs64', cfg_options={'train_dataloader.per_device_batch_size': 8, 'per_device_num_workers': 8, 'runner.max_keep_ckpts': 1}, eval_after_train=True, resume_from=None)}, 'eval': {'type': 'LiberoEvalRunner', 'task_suite_name': 'libero_10', 'model_family': 'pi0', 'eval_chunk_size': 10, 'resize_size': 224, 'num_trials_per_task': 50, 'num_steps_wait': 10, 'seed': 7, 'dataset': {'type': 'LiberoParquetEvalDataset', 'transforms': [{'type': 'ProcessLiberoEvalInputs', 'img_keys': ['agentview_image', 'robot0_eye_in_hand_image']}, {'type': 'TransformImage', 'image_resize_strategy': 'resize-naive', 'input_sizes': [[3, 224, 224], [3, 224, 224]], 'means': [[123.515625, 116.04492188, 103.59375], [123.515625, 116.04492188, 103.59375]], 'stds': [[58.27148438, 57.02636719, 57.27539062], [58.27148438, 57.02636719, 57.27539062]]}, {'type': 'LiberoPromptFromInputs', 'use_conversation': False, 'add_new_line': True, 'tokenizer': {'type': 'PaligemmaTokenizer'}}, {'type': 'LiberoProprioFromInputs', 'norm_type': 'mean_std', 'pos_key': 'robot0_eef_pos', 'quat_key': 'robot0_eef_quat', 'gripper_key': 'robot0_gripper_qpos', 'state_dim': 32, 'out_key': 'states'}]}, 'denormalize_action': {'type': 'DenormalizeLiberoAction', 'norm_type': 'mean_std', 'action_dim': 7}}, 'per_device_num_workers': 8}, 'args': Namespace(config='configs/pi0/pi0_paligemma_libero_10_full_finetune.py', work_dir='work_dirs/pi0_paligemma_libero_10_full_finetune_10676d3d_bs64', cfg_options={'train_dataloader.per_device_batch_size': 8, 'per_device_num_workers': 8, 'runner.max_keep_ckpts': 1}, eval_after_train=True, resume_from=None)}, 'eval': {'type': 'LiberoEvalRunner', 'task_suite_name': 'libero_10', 'model_family': 'pi0', 'eval_chunk_size': 10, 'resize_size': 224, 'num_trials_per_task': 50, 'num_steps_wait': 10, 'seed': 7, 'dataset': {'type': 'LiberoParquetEvalDataset', 'transforms': [{'type': 'ProcessLiberoEvalInputs', 'img_keys': ['agentview_image', 'robot0_eye_in_hand_image']}, {'type': 'TransformImage', 'image_resize_strategy': 'resize-naive', 'input_sizes': [[3, 224, 224], [3, 224, 224]], 'means': [[123.515625, 116.04492188, 103.59375], [123.515625, 116.04492188, 103.59375]], 'stds': [[58.27148438, 57.02636719, 57.27539062], [58.27148438, 57.02636719, 57.27539062]]}, {'type': 'LiberoPromptFromInputs', 'use_conversation': False, 'add_new_line': True, 'tokenizer': {'type': 'PaligemmaTokenizer'}}, {'type': 'LiberoProprioFromInputs', 'norm_type': 'mean_std', 'pos_key': 'robot0_eef_pos', 'quat_key': 'robot0_eef_quat', 'gripper_key': 'robot0_gripper_qpos', 'state_dim': 32, 'out_key': 'states'}]}, 'denormalize_action': {'type': 'DenormalizeLiberoAction', 'norm_type': 'mean_std', 'action_dim': 7}}, 'per_device_num_workers': 8}", "run_id": "pi0_paligemma_libero_10_full_finetune_2026_05_25_21_16_07"}

pi0_paligemma_libero_10_full_finetune_bs64/tokenizer/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8986bb4f423f07f8c7f70d0dbe3526fb2316056c17bae71b1ea975e77a168fc6
+size 4264023

pi0_paligemma_libero_10_full_finetune_bs64/tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "tokenizer_class": "PaligemmaTokenizer",
+  "spm_file": "tokenizer.model"
+}