maxsegan
/

mimic-vlam

+{
+  "dataset": {
+    "pose_dir": "data/kinetics_processed",
+    "desc_dir": "data/kinetics_full_output/descriptions",
+    "video_dir": "data/kinetics-dataset/k700-2020",
+    "val_split": 0.02,
+    "max_samples_per_class": null,
+    "num_workers": 8,
+    "image_size": 224,
+    "normalize_pose": true,
+    "use_joint_angles": true,
+    "sample_stride": 16,
+    "include_temporal_context": false,
+    "action_focus_prompt": false,
+    "video_fps": 10.0,
+    "augment_flip": true,
+    "seed": 42
+  },
+  "model_config": {
+    "qwen_model_name": "/root/.cache/huggingface/hub/models--Qwen--Qwen3-VL-4B-Instruct/snapshots/ebb281ec70b05090aa6165b016eac8ec08e71b17",
+    "qwen_hidden_size": 2560,
+    "use_intermediate_hidden": true,
+    "hidden_layer_fraction": 0.5,
+    "hidden_layer_index": 18,
+    "use_early_exit": true,
+    "use_deepstack_features": true,
+    "use_flash_attention": true,
+    "projection_dim": 1024,
+    "action_dim": 44,
+    "diffusion_hidden_dim": 1536,
+    "num_diffusion_layers": 24,
+    "num_diffusion_heads": 24,
+    "num_future_tokens": 4,
+    "action_horizon": 16,
+    "num_frames": 4,
+    "use_lora": true,
+    "lora_rank": 128,
+    "lora_alpha": 128,
+    "lora_dropout": 0.05,
+    "freeze_vision_encoder": true,
+    "freeze_qwen_layers": 0,
+    "use_thinking_mode": false,
+    "diffusion_steps": 2,
+    "init_from_current_pose": false
+  },
+  "learning_rate": 1e-05,
+  "llm_learning_rate": 1e-06,
+  "weight_decay": 0.01,
+  "batch_size": 8,
+  "num_epochs": 4,
+  "unfreeze_pct": 0.5,
+  "gradient_accumulation_steps": 16,
+  "gradient_clip": 1.0,
+  "use_amp": true,
+  "gradient_checkpointing": false,
+  "log_every_n_steps": 1,
+  "save_every_n_steps": 750,
+  "val_max_batches": 100,
+  "perf_log_every": 100,
+  "max_checkpoints": 5,
+  "log_dir": "logs/kinetics_vla",
+  "checkpoint_dir": "checkpoints/kinetics_vla"
+}