Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

SceneMaker_indoor_ckpts/config.yaml +238 -0
SceneMaker_indoor_ckpts/model.bin +3 -0
SceneMaker_openset_ckpts/config.yaml +229 -0
SceneMaker_openset_ckpts/model.bin +3 -0
new-sharp-msvae-2048-tokens.ckpt +3 -0

SceneMaker_indoor_ckpts/config.yaml ADDED Viewed

	@@ -0,0 +1,238 @@

+name: image-to-pose-diffusion/mixed-dinov2reglarge336-PatchEmbed-pixartflow-sharpvae-dit32-160wdata-width1280-rectify-size+6Drotation+pose-direct
+description: ''
+tag: michelangelo-autoencoder+n16384+lr0.0001+shape2vec+scene-attn+sep_both-block+pcd2_aug-mode+lambda-rot-1+lambda-trans-1+proj-mode-sep+loss-mode-object+scene-mask-img+only-pitch-True+both-mode+scratch+train-pcd
+seed: 0
+use_timestamp: true
+timestamp: ''
+exp_root_dir: outputs
+exp_dir: outputs/image-to-pose-diffusion/mixed-dinov2reglarge336-PatchEmbed-pixartflow-sharpvae-dit32-160wdata-width1280-rectify-size+6Drotation+pose-direct
+trial_name: michelangelo-autoencoder+n16384+lr0.0001+shape2vec+scene-attn+sep_both-block+pcd2_aug-mode+lambda-rot-1+lambda-trans-1+proj-mode-sep+loss-mode-object+scene-mask-img+only-pitch-True+both-mode+scratch+train-pcd
+trial_dir: outputs/image-to-pose-diffusion/mixed-dinov2reglarge336-PatchEmbed-pixartflow-sharpvae-dit32-160wdata-width1280-rectify-size+6Drotation+pose-direct/michelangelo-autoencoder+n16384+lr0.0001+shape2vec+scene-attn+sep_both-block+pcd2_aug-mode+lambda-rot-1+lambda-trans-1+proj-mode-sep+loss-mode-object+scene-mask-img+only-pitch-True+both-mode+scratch+train-pcd
+n_gpus: 8
+resume: null
+data_type: Front3D-mixed-datamodule
+data:
+  midi_cfg:
+    scene_list: /comp_robot/shiyukai/datasets/midi/3D-Front/midi_room_ids.json
+    object_list: /comp_robot/shiyukai/datasets/midi/3D-Front/midi_furniture_ids.json
+    surface_root_dir: /comp_robot/shiyukai/datasets/midi/3D-Front/3D-FRONT-SURFACE/
+    image_data_path: /comp_robot/shiyukai/datasets/midi/3D-Front/3D-FRONT-RENDER/
+    mask_path: /comp_robot/shiyukai/datasets/midi/3D-Front/3D-FRONT-RENDER-independent-norm/
+    geo_data_path: /comp_robot/shiyukai/datasets/instPiFU/datasets/normalized_watertight/sampling_objects
+    train_indices:
+    - 0
+    - -1000
+    val_indices:
+    - -1010
+    - -990
+    test_indices:
+    - -1000
+    - null
+    render_mode: both
+  instpifu_cfg:
+    data_path: /comp_robot/shiyukai/datasets/instPiFU/datasets/prepare_data/
+    geo_data_path: /comp_robot/shiyukai/datasets/instPiFU/datasets/normalized_watertight/sampling_objects
+    avg_layout_path: data/3dfront/avg_layout.pkl
+  geo_data_type: sdf
+  with_sharp_data: true
+  sampling_strategy: fps
+  n_samples: 16384
+  noise_sigma: 0.0
+  random_flip: true
+  random_color_jitter: true
+  shuffle: true
+  load_supervision: false
+  supervision_type: sdf
+  n_supervision: 10000
+  load_image: true
+  image_type: rgb_or_normal
+  image_type_ratio: 0.95
+  idx:
+  - 0
+  - 1
+  - 2
+  - 3
+  - 4
+  - 5
+  - 6
+  - 7
+  - 8
+  - 9
+  - 10
+  - 11
+  - 12
+  - 13
+  - 14
+  - 15
+  - 16
+  - 17
+  - 18
+  - 19
+  n_views: 1
+  background_color:
+  - 255
+  - 255
+  - 255
+  images_per_sample: 1
+  max_objs: 5
+  min_pcd: 1024
+  translation_mode: pcd2_aug
+  refine_mask: false
+  use_scene_geometry: false
+  only_use_pitch: true
+  use_mix_coord: true
+  image_width: 512
+  image_height: 512
+  batch_size: 8
+  num_workers: 8
+system_type: direct-unify-flow-system
+system:
+  val_samples_json: val_data/images/val_samples_rgb_image.json
+  z_scale_factor: 1.0
+  guidance_scale: 3.0
+  num_inference_steps: 50
+  eta: 0.0
+  compute_metric: true
+  visualize_mesh: true
+  extract_mesh_func: mc
+  remove_bg: true
+  octree_depth: 5
+  max_objs: 5
+  weighting_scheme: cosmap
+  pretrain_pcd: shape2vec
+  lambda_rot: 1
+  lambda_trans: 1
+  lambda_kl: 0.0
+  lambda_cd: 0.0
+  sup_latents: false
+  loss_mode: object
+  use_scene_img: true
+  use_scene_mask: false
+  use_scene_mask_img: true
+  use_scene_pcd: true
+  use_caption: false
+  freeze_pose_enc: false
+  freeze_pcd_model: false
+  shape_model_type: michelangelo-autoencoder
+  shape_model:
+    pretrained_model_name_or_path: ckpts/new-sharp-msvae-2048-tokens.ckpt
+    n_samples: 16384
+    with_sharp_data: true
+    use_downsample: true
+    num_latents: 512
+    embed_dim: 64
+    point_feats: 3
+    out_dim: 1
+    num_freqs: 8
+    include_pi: false
+    heads: 12
+    width: 768
+    num_encoder_layers: 8
+    num_decoder_layers: 16
+    use_ln_post: true
+    init_scale: 0.25
+    qkv_bias: false
+    use_flash: true
+    use_checkpoint: true
+  pose_model_type: pose-ae
+  pose_model:
+    in_dim: 6
+    out_dim: 6
+    embed_dim: 64
+    embed_type: fourier
+    num_latents: 5
+    include_pi: false
+    init_scale: 0.25
+    enable_ln_affine: true
+    context_dim: 1024
+    enable_translation: true
+    num_tokens: 3
+  pcd_model_type: shape2vectset-autoencoder
+  pcd_model:
+    num_latents: 512
+    embed_dim: 8
+    use_fps: true
+  condition_model_type: dinov2-embedder
+  condition_model:
+    pretrained_dino_name_or_path: facebook/dinov2-with-registers-large
+    encode_camera: false
+    n_views: 1
+    empty_embeds_ratio: 0.0
+    normalize_embeds: false
+    zero_uncond_embeds: true
+    image_size_dino: 224
+  caption_condition_type: t5-encoder
+  caption_condition:
+    pretrained_t5_name_or_path: google-t5/t5-small
+    empty_embeds_ratio: 0.1
+    normalize_embeds: false
+    zero_uncond_embeds: true
+    caption_condition_dim: 512
+    text_max_length: 77
+  denoiser_model_type: dit-pose-denoiser
+  denoiser_model:
+    input_channels: 64
+    output_channels: 64
+    width: 1024
+    layers: 16
+    pre_heads: 16
+    curr_heads: 16
+    context_dim: 1024
+    init_scale: 1.0
+    use_checkpoint: true
+    condition_type: dinov2
+    use_rope: true
+    use_pe: false
+    use_caption: false
+    num_shape_latents: 512
+    num_pose_latents: 3
+    num_pcd_latents: 512
+    num_img_latents: 257
+    num_text_latents: 77
+    attn_mode: scene
+    block_mode: sep_both
+    proj_mode: sep
+  noise_scheduler_type: diffusers.schedulers.FlowMatchEulerDiscreteScheduler
+  noise_scheduler:
+    num_train_timesteps: 1000
+    shift: 1.0
+  denoise_scheduler_type: diffusers.schedulers.FlowMatchEulerDiscreteScheduler
+  denoise_scheduler:
+    num_train_timesteps: 1000
+    shift: 1.0
+  loggers:
+    wandb:
+      enable: false
+      project: CraftsMan
+      name: image-to-shape-diffusion+image-to-pose-diffusion/mixed-dinov2reglarge336-PatchEmbed-pixartflow-sharpvae-dit32-160wdata-width1280-rectify-size+6Drotation+pose-direct+michelangelo-autoencoder+n16384+lr0.0001+shape2vec+scene-attn+sep_both-block+pcd2_aug-mode+lambda-rot-1+lambda-trans-1+proj-mode-sep+loss-mode-object+scene-mask-img+only-pitch-True+both-mode+scratch+train-pcd
+  loss:
+    loss_type: mse
+    lambda_diffusion: 1.0
+  optimizer:
+    name: AdamW
+    args:
+      lr: 0.0001
+      betas:
+      - 0.9
+      - 0.99
+      eps: 1.0e-06
+  scheduler:
+    interval: step
+    name: CosineAnnealingLR
+    args:
+      T_max: 20000
+      eta_min: 0.0001
+trainer:
+  num_nodes: 1
+  max_epochs: 600
+  log_every_n_steps: 5
+  num_sanity_val_steps: 1
+  check_val_every_n_epoch: 1
+  enable_progress_bar: true
+  precision: bf16-mixed
+  strategy: deepspeed_stage_2
+  accumulate_grad_batches: 2
+checkpoint:
+  save_last: true
+  save_top_k: -1
+  every_n_train_steps: 2000

SceneMaker_indoor_ckpts/model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:795f49e74dbe7cb72d5b5579548d789a7a2bad7b6f0917e13436f3d419fa1232
+size 4148439802

SceneMaker_openset_ckpts/config.yaml ADDED Viewed

	@@ -0,0 +1,229 @@

+name: image-to-pose-diffusion/openset-dinov2reglarge336-PatchEmbed-pixartflow-sharpvae-dit32-160wdata-width1280-rectify-size+6Drotation+pose-direct
+description: ''
+tag: michelangelo-autoencoder+n16384+lr0.0001+shape2vec-pcd+scene-attn+sep_both-block+pcd2_aug-mode+lambda-rot-1+lambda-trans-1+proj-mode-sep+loss-mode-object+scene-mask-img+only-pitch-True+mixed-coord-True+render-mode+scratch+50k+rectify+train-pcd
+seed: 0
+use_timestamp: true
+timestamp: ''
+exp_root_dir: outputs
+exp_dir: outputs/image-to-pose-diffusion/openset-dinov2reglarge336-PatchEmbed-pixartflow-sharpvae-dit32-160wdata-width1280-rectify-size+6Drotation+pose-direct
+trial_name: michelangelo-autoencoder+n16384+lr0.0001+shape2vec-pcd+scene-attn+sep_both-block+pcd2_aug-mode+lambda-rot-1+lambda-trans-1+proj-mode-sep+loss-mode-object+scene-mask-img+only-pitch-True+mixed-coord-True+render-mode+scratch+50k+rectify+train-pcd
+trial_dir: outputs/image-to-pose-diffusion/openset-dinov2reglarge336-PatchEmbed-pixartflow-sharpvae-dit32-160wdata-width1280-rectify-size+6Drotation+pose-direct/michelangelo-autoencoder+n16384+lr0.0001+shape2vec-pcd+scene-attn+sep_both-block+pcd2_aug-mode+lambda-rot-1+lambda-trans-1+proj-mode-sep+loss-mode-object+scene-mask-img+only-pitch-True+mixed-coord-True+render-mode+scratch+50k+rectify+train-pcd
+n_gpus: 8
+resume: null
+data_type: Openset-datamodule
+data:
+  scene_list: /comp_robot/shiyukai/datasets/openset_scene/openset50k/data/all_json_files.json
+  geo_data_path: /comp_robot/shiyukai/datasets/objaverse/objaverse_clean/high_quality_xl_190k_images/geometry/sample/
+  train_indices:
+  - 0
+  - -100
+  val_indices:
+  - -100
+  - null
+  test_indices:
+  - -100
+  - null
+  geo_data_type: sdf
+  with_sharp_data: true
+  sampling_strategy: fps
+  n_samples: 16384
+  noise_sigma: 0.0
+  random_flip: true
+  random_color_jitter: true
+  shuffle: true
+  load_supervision: false
+  supervision_type: sdf
+  n_supervision: 10000
+  load_image: true
+  image_type: rgb_or_normal
+  image_type_ratio: 0.95
+  idx:
+  - 0
+  - 1
+  - 2
+  - 3
+  - 4
+  - 5
+  - 6
+  - 7
+  - 8
+  - 9
+  - 10
+  - 11
+  - 12
+  - 13
+  - 14
+  - 15
+  - 16
+  - 17
+  - 18
+  - 19
+  n_views: 20
+  background_color:
+  - 255
+  - 255
+  - 255
+  images_per_sample: 1
+  max_objs: 5
+  min_pcd: 1024
+  translation_mode: pcd2_aug
+  refine_mask: false
+  use_scene_geometry: false
+  only_use_pitch: true
+  use_mix_coord: true
+  image_width: 512
+  image_height: 512
+  render_mode: render
+  batch_size: 8
+  num_workers: 8
+system_type: direct-unify-flow-system
+system:
+  val_samples_json: val_data/images/val_samples_rgb_image.json
+  z_scale_factor: 1.0
+  guidance_scale: 3.0
+  num_inference_steps: 50
+  eta: 0.0
+  compute_metric: true
+  visualize_mesh: true
+  extract_mesh_func: mc
+  remove_bg: true
+  octree_depth: 5
+  max_objs: 5
+  weighting_scheme: cosmap
+  pretrain_pcd: shape2vec
+  lambda_rot: 1
+  lambda_trans: 1
+  lambda_kl: 0.0
+  lambda_cd: 0.0
+  sup_latents: false
+  loss_mode: object
+  use_scene_img: true
+  use_scene_mask: false
+  use_scene_mask_img: true
+  use_scene_pcd: true
+  use_caption: false
+  freeze_pose_enc: false
+  freeze_pcd_model: false
+  shape_model_type: michelangelo-autoencoder
+  shape_model:
+    pretrained_model_name_or_path: ckpts/new-sharp-msvae-2048-tokens.ckpt
+    n_samples: 16384
+    with_sharp_data: true
+    use_downsample: true
+    num_latents: 512
+    embed_dim: 64
+    point_feats: 3
+    out_dim: 1
+    num_freqs: 8
+    include_pi: false
+    heads: 12
+    width: 768
+    num_encoder_layers: 8
+    num_decoder_layers: 16
+    use_ln_post: true
+    init_scale: 0.25
+    qkv_bias: false
+    use_flash: true
+    use_checkpoint: true
+  pose_model_type: pose-ae
+  pose_model:
+    in_dim: 6
+    out_dim: 6
+    embed_dim: 64
+    embed_type: fourier
+    num_latents: 5
+    include_pi: false
+    init_scale: 0.25
+    enable_ln_affine: true
+    context_dim: 1024
+    enable_translation: true
+    num_tokens: 3
+  pcd_model_type: shape2vectset-autoencoder
+  pcd_model:
+    num_latents: 512
+    embed_dim: 8
+    use_fps: true
+  condition_model_type: dinov2-embedder
+  condition_model:
+    pretrained_dino_name_or_path: facebook/dinov2-with-registers-large
+    encode_camera: false
+    n_views: 20
+    empty_embeds_ratio: 0.0
+    normalize_embeds: false
+    zero_uncond_embeds: true
+    image_size_dino: 224
+  caption_condition_type: t5-encoder
+  caption_condition:
+    pretrained_t5_name_or_path: google-t5/t5-small
+    empty_embeds_ratio: 0.1
+    normalize_embeds: false
+    zero_uncond_embeds: true
+    caption_condition_dim: 512
+    text_max_length: 77
+  denoiser_model_type: dit-pose-denoiser
+  denoiser_model:
+    input_channels: 64
+    output_channels: 64
+    width: 1024
+    layers: 16
+    pre_heads: 16
+    curr_heads: 16
+    context_dim: 1024
+    init_scale: 1.0
+    use_checkpoint: true
+    condition_type: dinov2
+    use_rope: true
+    use_pe: false
+    use_caption: false
+    num_shape_latents: 512
+    num_pose_latents: 3
+    num_pcd_latents: 512
+    num_img_latents: 257
+    num_text_latents: 77
+    attn_mode: scene
+    block_mode: sep_both
+    proj_mode: sep
+  noise_scheduler_type: diffusers.schedulers.FlowMatchEulerDiscreteScheduler
+  noise_scheduler:
+    num_train_timesteps: 1000
+    shift: 1.0
+  denoise_scheduler_type: diffusers.schedulers.FlowMatchEulerDiscreteScheduler
+  denoise_scheduler:
+    num_train_timesteps: 1000
+    shift: 1.0
+  loggers:
+    wandb:
+      enable: false
+      project: CraftsMan
+      name: image-to-shape-diffusion+image-to-pose-diffusion/openset-dinov2reglarge336-PatchEmbed-pixartflow-sharpvae-dit32-160wdata-width1280-rectify-size+6Drotation+pose-direct+michelangelo-autoencoder+n16384+lr0.0001+shape2vec-pcd+scene-attn+sep_both-block+pcd2_aug-mode+lambda-rot-1+lambda-trans-1+proj-mode-sep+loss-mode-object+scene-mask-img+only-pitch-True+mixed-coord-True+render-mode+scratch+50k+rectify+train-pcd
+  loss:
+    loss_type: mse
+    lambda_diffusion: 1.0
+  optimizer:
+    name: AdamW
+    args:
+      lr: 0.0001
+      betas:
+      - 0.9
+      - 0.99
+      eps: 1.0e-06
+  scheduler:
+    interval: step
+    name: CosineAnnealingLR
+    args:
+      T_max: 20000
+      eta_min: 0.0001
+trainer:
+  num_nodes: 1
+  max_epochs: 600
+  log_every_n_steps: 5
+  num_sanity_val_steps: 1
+  check_val_every_n_epoch: 5
+  enable_progress_bar: true
+  precision: bf16-mixed
+  strategy: deepspeed_stage_2
+  accumulate_grad_batches: 2
+checkpoint:
+  save_last: true
+  save_top_k: -1
+  every_n_train_steps: 2000

SceneMaker_openset_ckpts/model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9491e037e7248f5e111e79e24328cac00781c6ffe7dd7609e3307c9074ac305a
+size 4148439802

new-sharp-msvae-2048-tokens.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:897296f19c0ef654e242b8164a0c9dcc6261f301d3505d76cf097a01e0104390
+size 766482726