add MoGe2 backbone support: lpd_run5d_moge2.yaml + tartanair_lpd loader + unrealstereo4k jpg/.npy fixes

Browse files

Files changed (1) hide show

code/ppd/configs/lpd_run5d_moge2.yaml +150 -0

code/ppd/configs/lpd_run5d_moge2.yaml ADDED Viewed

	@@ -0,0 +1,150 @@

+# LiDAR-Perfect Depth — 5-dataset mixed run, 1024×768, 10 000 steps.
+#
+# Mix:  Hypersim 0.5  UrbanSyn 0.15  UnrealStereo4K 0.15  VKITTI2 0.1  TartanAir 0.1
+# Init: from the official PPD checkpoint (checkpoints/ppd.pth).
+# GPU:  bs=18 → ~119 GB peak on H200; ~5.5 s/step → ~15 h for 10K steps.
+data:
+  _target_: ppd.data.general_datamodule.GeneralDataModule
+  train_dataset:
+    pretrain: False                  # triggers 5-dataset mix in mix_datasets()
+    dataset_opts:
+      - _target_: ppd.data.hypersim_lpd.Dataset
+        data_root: /mnt/sig/datasets/train/hypersim/extracted
+        split_path: ppd/datasets/hypersim/metadata_splits_filtered_train.json
+        split: train
+        dataset_name: 'hypersim'
+        transforms:
+          - _target_: ppd.data.transform.PrepareForNet
+      - _target_: ppd.data.urbansyn.Dataset
+        data_root: /mnt/sig/datasets/train/urbansyn
+        split: train
+        dataset_name: 'urbansyn'
+        transforms:
+          - _target_: ppd.data.transform.Resize
+            width: 1024
+            height: 768
+          - _target_: ppd.data.transform.PrepareForNet
+      - _target_: ppd.data.unrealstereo4k.Dataset
+        data_root: /mnt/sig/datasets/train/unrealstereo4k
+        split: train
+        dataset_name: 'unrealstereo4k'
+        transforms:
+          - _target_: ppd.data.transform.Resize_4K_Crop
+            width: 1024
+            height: 768
+          - _target_: ppd.data.transform.PrepareForNet
+      - _target_: ppd.data.vkitti.Dataset
+        data_root: /mnt/sig/datasets/train/vkitti2/extracted
+        split_path: ppd/datasets/vkitti/filename_list_train.txt
+        split: train
+        dataset_name: 'vkitti'
+        transforms:
+          - _target_: ppd.data.transform.Resize
+            width: 1024
+            height: 768
+          - _target_: ppd.data.transform.PrepareForNet
+      - _target_: ppd.data.tartanair_lpd.Dataset
+        data_root: /mnt/sig/datasets/train/tartanair/extracted
+        split: train
+        dataset_name: 'tartanair'
+        transforms:
+          - _target_: ppd.data.transform.Resize
+            width: 1024
+            height: 768
+          - _target_: ppd.data.transform.PrepareForNet
+  train_loader_opts:
+    batch_size: 16
+    num_workers: 8
+  val_dataset:
+    dataset_opts: []
+model:
+  _target_: ppd.models.depth_estimation_model.DepthEstimationModel
+  output_dir: ${output_dir}/results
+  save_vis_depth: True
+  pipeline:
+    _target_: ppd.lpd.lpd_train.LiDARPerfectDepth
+    config:
+      pretrain: False
+      semantics_model: MoGe2
+      semantics_pth: checkpoints/moge2.pt
+      ppd_weights: checkpoints/ppd_moge2.pth
+      freeze_backbone: True
+      lambda_anchor: 0.5
+      R_proj: 0.1
+      proj_alpha: 0.1
+      init_P: 1.0
+      sparse:
+        pattern: auto
+        density: 0.005
+        n_lines: 64
+        line_density: 0.5
+        grid_stride: 32
+        min_points: 16
+        measurement_noise_std: 0.0
+      score_model:
+        depth: 24
+        hidden_size: 1024
+        patch_size: 8
+        num_heads: 16
+        in_channels: 4
+        out_channels: 1
+      diffusion:
+        schedule: {type: lerp, T: 1000}
+        sampler:  {type: euler, prediction_type: v_lerp}
+        timesteps:
+          training: {type: logitnormal, loc: 0.0, scale: 1.0}
+          sampling: {type: uniform, steps: 4}
+  optimizer:
+    _target_: torch.optim.AdamW
+    _partial_: true
+    lr: 1e-4
+    weight_decay: 0.0
+  lr_table:
+    _target_: ppd.utils.lr_table.LRTable
+    default_lr: 1e-4
+callbacks:
+  model_checkpoint:
+    _target_: pytorch_lightning.callbacks.ModelCheckpoint
+    dirpath: /mnt/sig/pixel-perfect-depth/experiments/outputs/lpd_run5d_moge2/checkpoints
+    filename: "e{epoch:03d}-s{step:06d}"
+    monitor: train/loss_epoch
+    mode: min
+    save_top_k: -1                    # save every epoch's checkpoint
+    auto_insert_metric_name: False
+    save_weights_only: True
+    every_n_epochs: 1
+    save_last: True
+logger:
+  _target_: pytorch_lightning.loggers.TensorBoardLogger
+  save_dir: ${output_dir}
+  name: ''
+  version: 'tb'
+# 10 epochs × 1000 batches/epoch = 10 000 steps.  Saves last.ckpt every epoch.
+pl_trainer:
+  devices: 1
+  num_nodes: 1
+  num_sanity_val_steps: 0
+  max_epochs: 2
+  limit_train_batches: 1000
+  log_every_n_steps: 25
+  strategy: auto
+  precision: bf16-mixed
+print_cfg: True
+seed: 666
+exp_name: lpd_run5d_moge2
+resume_training: True
+confirm_delete_previous_dir: False
+output_dir: experiments/outputs/${exp_name}