tusharsangam commited on Oct 22, 2025

Commit

9205b56

verified ·

1 Parent(s): 30f1ff0

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +281 -0
LICENSE.md +83 -0
README.md +230 -0
arguments/__init__.py +116 -0
arguments/__pycache__/__init__.cpython-38.pyc +0 -0
assets/teaser.png +3 -0
autoencoder/__pycache__/dataset.cpython-38.pyc +0 -0
autoencoder/__pycache__/model.cpython-38.pyc +0 -0
autoencoder/ckpt/office_scene_50/best_ckpt.pth +3 -0
autoencoder/ckpt/office_scene_50/events.out.tfevents.1760944914.a100-st-p4de24xlarge-7.434065.0 +3 -0
autoencoder/ckpt/office_scene_50/events.out.tfevents.1760945127.a100-st-p4de24xlarge-7.441630.0 +3 -0
autoencoder/dataset.py +26 -0
autoencoder/model.py +46 -0
autoencoder/test.py +77 -0
autoencoder/train.py +110 -0
ckpts/sam_vit_b_01ec64.pth +3 -0
ckpts/sam_vit_h_4b8939.pth +3 -0
ckpts/sam_vit_l_0b3195.pth +3 -0
convert.py +124 -0
data/40753679.mov +3 -0
data/Tushar.zip +3 -0
data/colmap_scene.zip +3 -0
data/examples/office_scene_50/depths/frame_00059.png +3 -0
data/examples/office_scene_50/depths/frame_00119.png +3 -0
data/examples/office_scene_50/depths/frame_00179.png +3 -0
data/examples/office_scene_50/depths/frame_00239.png +3 -0
data/examples/office_scene_50/depths/frame_00299.png +3 -0
data/examples/office_scene_50/depths/frame_00359.png +3 -0
data/examples/office_scene_50/depths/frame_00419.png +3 -0
data/examples/office_scene_50/depths/frame_00479.png +3 -0
data/examples/office_scene_50/depths/frame_00539.png +3 -0
data/examples/office_scene_50/depths/frame_00599.png +3 -0
data/examples/office_scene_50/depths/frame_00659.png +3 -0
data/examples/office_scene_50/depths/frame_00719.png +3 -0
data/examples/office_scene_50/depths/frame_00779.png +3 -0
data/examples/office_scene_50/depths/frame_00839.png +3 -0
data/examples/office_scene_50/depths/frame_00899.png +3 -0
data/examples/office_scene_50/depths/frame_00959.png +3 -0
data/examples/office_scene_50/depths/frame_01019.png +3 -0
data/examples/office_scene_50/depths/frame_01079.png +3 -0
data/examples/office_scene_50/depths/frame_01139.png +3 -0
data/examples/office_scene_50/depths/frame_01199.png +3 -0
data/examples/office_scene_50/depths/frame_01259.png +3 -0
data/examples/office_scene_50/depths/frame_01319.png +3 -0
data/examples/office_scene_50/depths/frame_01379.png +3 -0
data/examples/office_scene_50/depths/frame_01439.png +3 -0
data/examples/office_scene_50/depths/frame_01499.png +3 -0
data/examples/office_scene_50/depths/frame_01559.png +3 -0
data/examples/office_scene_50/depths/frame_01619.png +3 -0
data/examples/office_scene_50/depths/frame_01679.png +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,284 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+assets/teaser.png filter=lfs diff=lfs merge=lfs -text
+data/40753679.mov filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00059.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00119.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00179.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00239.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00299.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00359.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00419.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00479.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00539.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00599.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00659.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00719.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00779.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00839.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00899.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_00959.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01019.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01079.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01139.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01199.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01259.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01319.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01379.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01439.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01499.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01559.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01619.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01679.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01739.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01799.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01859.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01919.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_01979.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02039.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02099.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02159.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02219.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02279.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02339.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02459.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02519.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02579.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02639.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02699.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02759.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02819.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02879.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02939.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/depths/frame_02999.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00059.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00119.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00179.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00239.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00299.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00359.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00419.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00479.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00539.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00599.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00659.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00719.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00779.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00839.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00899.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_00959.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01019.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01079.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01139.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01199.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01259.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01319.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01379.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01439.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01499.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01559.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01619.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01679.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01739.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01799.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01859.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01919.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_01979.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02039.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02099.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02159.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02219.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02279.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02339.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02399.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02459.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02519.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02579.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02639.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02699.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02759.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02819.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02879.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02939.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/images/frame_02999.png filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/office_scene_50/input.ply filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/office_scene_50/point_cloud/iteration_30000/point_cloud.ply filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/office_scene_50/point_cloud/iteration_7000/point_cloud.ply filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/sparse/0/points.ply filter=lfs diff=lfs merge=lfs -text
+data/examples/office_scene_50/sparse/0/points3D.ply filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/input.ply filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/point_cloud/iteration_30000/point_cloud.ply filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/point_cloud/iteration_7000/point_cloud.ply filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00000.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00002.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00003.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00004.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00005.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00006.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00007.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00008.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00009.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00010.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00011.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00012.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00013.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00014.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00015.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00016.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00017.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00018.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00019.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00020.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00021.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00022.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00023.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00024.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00025.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00026.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00027.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00028.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00029.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00030.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00031.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00032.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00033.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00034.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00035.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00036.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00037.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00038.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00039.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00040.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00041.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00042.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00043.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00044.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00045.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00046.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00047.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00048.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_1/train/ours_None/renders/00049.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/input.ply filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/point_cloud/iteration_30000/point_cloud.ply filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/point_cloud/iteration_7000/point_cloud.ply filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00000.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00002.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00003.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00004.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00005.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00006.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00007.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00008.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00009.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00010.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00011.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00012.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00013.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00014.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00015.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00016.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00017.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00018.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00019.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00020.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00021.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00022.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00023.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00024.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00025.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00026.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00027.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00028.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00029.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00030.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00031.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00032.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00033.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00034.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00035.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00036.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00037.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00038.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00039.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00040.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00041.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00042.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00043.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00044.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00045.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00046.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00047.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00048.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_2/train/ours_None/renders/00049.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/input.ply filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/point_cloud/iteration_30000/point_cloud.ply filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/point_cloud/iteration_7000/point_cloud.ply filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00000.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00002.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00003.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00004.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00005.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00006.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00007.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00008.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00009.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00010.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00011.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00012.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00013.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00014.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00015.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00016.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00017.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00018.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00019.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00020.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00021.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00022.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00023.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00024.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00025.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00026.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00027.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00028.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00029.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00030.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00031.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00032.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00033.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00034.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00035.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00036.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00037.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00038.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00039.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00040.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00041.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00042.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00043.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00044.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00045.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00046.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00047.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00048.png filter=lfs diff=lfs merge=lfs -text
+output/office_scene_50_3/train/ours_None/renders/00049.png filter=lfs diff=lfs merge=lfs -text
+submodules/langsplat-rasterization/build/lib.linux-x86_64-cpython-37/diff_gaussian_rasterization/_C.cpython-37m-x86_64-linux-gnu.so filter=lfs diff=lfs merge=lfs -text
+submodules/langsplat-rasterization/build/lib.linux-x86_64-cpython-38/diff_gaussian_rasterization/_C.cpython-38-x86_64-linux-gnu.so filter=lfs diff=lfs merge=lfs -text
+submodules/langsplat-rasterization/build/temp.linux-x86_64-cpython-37/cuda_rasterizer/rasterizer_impl.o filter=lfs diff=lfs merge=lfs -text
+submodules/langsplat-rasterization/build/temp.linux-x86_64-cpython-37/ext.o filter=lfs diff=lfs merge=lfs -text
+submodules/langsplat-rasterization/build/temp.linux-x86_64-cpython-37/rasterize_points.o filter=lfs diff=lfs merge=lfs -text
+submodules/langsplat-rasterization/build/temp.linux-x86_64-cpython-38/cuda_rasterizer/rasterizer_impl.o filter=lfs diff=lfs merge=lfs -text
+submodules/langsplat-rasterization/build/temp.linux-x86_64-cpython-38/ext.o filter=lfs diff=lfs merge=lfs -text
+submodules/langsplat-rasterization/build/temp.linux-x86_64-cpython-38/rasterize_points.o filter=lfs diff=lfs merge=lfs -text
+submodules/langsplat-rasterization/third_party/glm/doc/manual/frontpage1.png filter=lfs diff=lfs merge=lfs -text
+submodules/langsplat-rasterization/third_party/glm/doc/manual/frontpage2.png filter=lfs diff=lfs merge=lfs -text
+submodules/langsplat-rasterization/third_party/glm/doc/manual.pdf filter=lfs diff=lfs merge=lfs -text
+submodules/simple-knn/build/lib.linux-x86_64-cpython-37/simple_knn/_C.cpython-37m-x86_64-linux-gnu.so filter=lfs diff=lfs merge=lfs -text
+submodules/simple-knn/build/lib.linux-x86_64-cpython-38/simple_knn/_C.cpython-38-x86_64-linux-gnu.so filter=lfs diff=lfs merge=lfs -text
+submodules/simple-knn/build/temp.linux-x86_64-cpython-37/ext.o filter=lfs diff=lfs merge=lfs -text
+submodules/simple-knn/build/temp.linux-x86_64-cpython-37/simple_knn.o filter=lfs diff=lfs merge=lfs -text
+submodules/simple-knn/build/temp.linux-x86_64-cpython-37/spatial.o filter=lfs diff=lfs merge=lfs -text
+submodules/simple-knn/build/temp.linux-x86_64-cpython-38/ext.o filter=lfs diff=lfs merge=lfs -text
+submodules/simple-knn/build/temp.linux-x86_64-cpython-38/simple_knn.o filter=lfs diff=lfs merge=lfs -text
+submodules/simple-knn/build/temp.linux-x86_64-cpython-38/spatial.o filter=lfs diff=lfs merge=lfs -text

LICENSE.md ADDED Viewed

	@@ -0,0 +1,83 @@

+Gaussian-Splatting License
+===========================
+**Inria** and **the Max Planck Institut for Informatik (MPII)** hold all the ownership rights on the *Software* named **gaussian-splatting**.
+The *Software* is in the process of being registered with the Agence pour la Protection des
+Programmes (APP).
+The *Software* is still being developed by the *Licensor*.
+*Licensor*'s goal is to allow the research community to use, test and evaluate
+the *Software*.
+## 1.  Definitions
+*Licensee* means any person or entity that uses the *Software* and distributes
+its *Work*.
+*Licensor* means the owners of the *Software*, i.e Inria and MPII
+*Software* means the original work of authorship made available under this
+License ie gaussian-splatting.
+*Work* means the *Software* and any additions to or derivative works of the
+*Software* that are made available under this License.
+## 2.  Purpose
+This license is intended to define the rights granted to the *Licensee* by
+Licensors under the *Software*.
+## 3.  Rights granted
+For the above reasons Licensors have decided to distribute the *Software*.
+Licensors grant non-exclusive rights to use the *Software* for research purposes
+to research users (both academic and industrial), free of charge, without right
+to sublicense.. The *Software* may be used "non-commercially", i.e., for research
+and/or evaluation purposes only.
+Subject to the terms and conditions of this License, you are granted a
+non-exclusive, royalty-free, license to reproduce, prepare derivative works of,
+publicly display, publicly perform and distribute its *Work* and any resulting
+derivative works in any form.
+## 4.  Limitations
+**4.1 Redistribution.** You may reproduce or distribute the *Work* only if (a) you do
+so under this License, (b) you include a complete copy of this License with
+your distribution, and (c) you retain without modification any copyright,
+patent, trademark, or attribution notices that are present in the *Work*.
+**4.2 Derivative Works.** You may specify that additional or different terms apply
+to the use, reproduction, and distribution of your derivative works of the *Work*
+("Your Terms") only if (a) Your Terms provide that the use limitation in
+Section 2 applies to your derivative works, and (b) you identify the specific
+derivative works that are subject to Your Terms. Notwithstanding Your Terms,
+this License (including the redistribution requirements in Section 3.1) will
+continue to apply to the *Work* itself.
+**4.3** Any other use without of prior consent of Licensors is prohibited. Research
+users explicitly acknowledge having received from Licensors all information
+allowing to appreciate the adequacy between of the *Software* and their needs and
+to undertake all necessary precautions for its execution and use.
+**4.4** The *Software* is provided both as a compiled library file and as source
+code. In case of using the *Software* for a publication or other results obtained
+through the use of the *Software*, users are strongly encouraged to cite the
+corresponding publications as explained in the documentation of the *Software*.
+## 5.  Disclaimer
+THE USER CANNOT USE, EXPLOIT OR DISTRIBUTE THE *SOFTWARE* FOR COMMERCIAL PURPOSES
+WITHOUT PRIOR AND EXPLICIT CONSENT OF LICENSORS. YOU MUST CONTACT INRIA FOR ANY
+UNAUTHORIZED USE: stip-sophia.transfert@inria.fr . ANY SUCH ACTION WILL
+CONSTITUTE A FORGERY. THIS *SOFTWARE* IS PROVIDED "AS IS" WITHOUT ANY WARRANTIES
+OF ANY NATURE AND ANY EXPRESS OR IMPLIED WARRANTIES, WITH REGARDS TO COMMERCIAL
+USE, PROFESSIONNAL USE, LEGAL OR NOT, OR OTHER, OR COMMERCIALISATION OR
+ADAPTATION. UNLESS EXPLICITLY PROVIDED BY LAW, IN NO EVENT, SHALL INRIA OR THE
+AUTHOR BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
+CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE
+GOODS OR SERVICES, LOSS OF USE, DATA, OR PROFITS OR BUSINESS INTERRUPTION)
+HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
+LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING FROM, OUT OF OR
+IN CONNECTION WITH THE *SOFTWARE* OR THE USE OR OTHER DEALINGS IN THE *SOFTWARE*.

README.md ADDED Viewed

	@@ -0,0 +1,230 @@

+# [CVPR2024 Highlight] LangSplat: 3D Language Gaussian Splatting
+[Minghan Qin*](https://minghanqin.github.io/), [Wanhua Li*†](https://li-wanhua.github.io/), [Jiawei Zhou*](https://latitudezhou.github.io/), [Haoqian Wang†](https://www.sigs.tsinghua.edu.cn/whq_en/main.htm), [Hanspeter Pfister](https://seas.harvard.edu/person/hanspeter-pfister)<br>(\* indicates equal contribution, † means Co-corresponding author)<br>| [Webpage](https://langsplat.github.io/) | [Full Paper](https://arxiv.org/pdf/2312.16084.pdf) | [Video](https://www.youtube.com/watch?v=XMlyjsei-Es) |<br>
+| Preprocessed Dataset | [BaiduWangpan](https://pan.baidu.com/s/1S_cdmN9EFOlCQ3z1GZR3EA?pwd=lfea) | [GoogleDrive](https://drive.google.com/drive/folders/1Icw5AcQkY_2L_k7ddXrGCJ3z4laa4jg5?usp=sharing) |<br>
+| Pre-trained Models | [BaiduWangpan](https://pan.baidu.com/s/12L83uEi5KlF9ViAZqp0B4w?pwd=dl22) | [GoogleDrive](https://drive.google.com/drive/folders/1ASFXWOwaXP_aSXV2iMDmEfILaDXQXlrE?usp=sharing) |<br>
+| [Datasets](https://drive.google.com/file/d/1QF1Po5p5DwTjFHu6tnTeYs_G0egMVmHt/view?usp=sharing) |<br>
+![Teaser image](assets/teaser.png)
+This repository contains the official authors implementation associated with the paper "LangSplat: 3D Language Gaussian Splatting" (CVPR 2024), which can be found [here](https://arxiv.org/pdf/2312.16084.pdf). We further provide the preprocessed datasets 3D-OVS with language feature, as well as pre-trained models.
+<section class="section" id="BibTeX">
+  <div class="container is-max-desktop content">
+    <h2 class="title">😊LangSplat Family</h2>
+    <pre><code>@inproceedings{qin2024langsplat,
+  title={Langsplat: 3d language gaussian splatting},
+  author={Qin, Minghan and Li, Wanhua and Zhou, Jiawei and Wang, Haoqian and Pfister, Hanspeter},
+  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
+  pages={20051--20060},
+  year={2024}
+}</code></pre>
+  <p><strong>🎉 We have released LangSplat V2!</strong>
+  The new version significantly improves performance, achieving over <strong>450+ FPS</strong> in rendering.  <a href="https://langsplat-v2.github.io/" target="_blank" style="text-decoration: underline;">[NeurIPS 2025] LangSplat V2</a>
+  </p>
+  <pre><code>@article{li2025langsplatv2,
+  title={LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS},
+  author={Li, Wanhua and Zhao, Yujie and Qin, Minghan and Liu, Yang and Cai, Yuanhao and Gan, Chuang and Pfister, Hanspeter},
+  journal={arXiv preprint arXiv:2507.07136},
+  year={2025}
+}</code></pre>
+  <p>🎉We also invite everyone to check out our <a href="https://4d-langsplat.github.io/" target="_blank" style="text-decoration: underline;">[CVPR 2025] 4D LangSplat</a>, which is a multimodal, object-wise video prompting approach combined with a status deformable network to learn 4D language fields.
+  </p>
+  <pre><code>@inproceedings{li20254d,
+  title={4d langsplat: 4d language gaussian splatting via multimodal large language models},
+  author={Li, Wanhua and Zhou, Renping and Zhou, Jiawei and Song, Yingwei and Herter, Johannes and Qin, Minghan and Huang, Gao and Pfister, Hanspeter},
+  booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference},
+  pages={22001--22011},
+  year={2025}
+}</code></pre>
+  </div>
+</section>
+  </div>
+</section>
+## Cloning the Repository
+The repository contains submodules, thus please check it out with
+```shell
+# SSH
+git clone git@github.com:minghanqin/LangSplat.git --recursive
+```
+or
+```shell
+# HTTPS
+git clone https://github.com/minghanqin/LangSplat.git --recursive
+```
+## Overview
+The codebase has 3 main components:
+- A PyTorch-based optimizer to produce a LangSplat model from SfM datasets with language feature inputs to
+- A scene-wise language autoencode to alleviate substantial memory demands imposed by explicit modeling.
+- A script to help you turn your own images into optimization-ready SfM data sets with language feature
+The components have been tested on Ubuntu Linux 18.04. Instructions for setting up and running each of them are found in the sections below.
+## Datasets
+In the experiments section of our paper, we primarily utilized two datasets: the 3D-OVS dataset and the LERF dataset.
+The 3D-OVS dataset is accessible for download via the following link: [Download 3D-OVS Dataset](https://drive.google.com/drive/folders/1kdV14Gu5nZX6WOPbccG7t7obP_aXkOuC?usp=sharing) .
+For the LERF dataset, we have expanded upon its existing collection and also provided the corresponding COLMAP data. These resources can be accessed through this link: [Download Expanded LERF Dataset and COLMAP Data](https://drive.google.com/file/d/1QF1Po5p5DwTjFHu6tnTeYs_G0egMVmHt/view?usp=sharing).
+## Optimizer
+The optimizer uses PyTorch and CUDA extensions in a Python environment to produce trained models.
+### Hardware Requirements
+- CUDA-ready GPU with Compute Capability 7.0+
+- 24 GB VRAM (to train to paper evaluation quality)
+### Software Requirements
+- Conda (recommended for easy setup)
+- C++ Compiler for PyTorch extensions (we used VS Code)
+- CUDA SDK 11 for PyTorch extensions (we used 11.8)
+- C++ Compiler and CUDA SDK must be compatible
+### Setup
+#### Environment Setup
+Our default, provided install method is based on Conda package and environment management:
+```shell
+conda env create --file environment.yml
+conda activate langsplat
+```
+### QuickStart
+Download the pretrained model to ```output/```, then simply use
+```shell
+python render.py -m output/$CASENAME --include_feature
+```
+## Processing your own Scenes
+### Before getting started
+Firstly, put your images into the data dir.
+```
+<dataset_name>
+|---input
+|   |---<image 0>
+|   |---<image 1>
+|   |---...
+```
+Secondly, you need to acquire the following dataset format and a pre-trained RGB model follow the [3dgs](https://github.com/graphdeco-inria/gaussian-splatting) repository.
+```
+<dataset_name>
+|---images
+|   |---<image 0>
+|   |---<image 1>
+|   |---...
+|---input
+|   |---<image 0>
+|   |---<image 1>
+|   |---...
+|---output
+|   |---<dataset_name>
+|   |   |---point_cloud/iteration_30000/point_cloud.ply
+|   |   |---cameras.json
+|   |   |---cfg_args
+|   |   |---chkpnt30000.pth
+|   |   |---input.ply
+|---sparse
+    |---0
+        |---cameras.bin
+        |---images.bin
+        |---points3D.bin
+```
+### Environment setup.
+  Please install [segment-anything-langsplat](https://github.com/minghanqin/segment-anything-langsplat) and download the checkpoints of SAM from [here](https://github.com/facebookresearch/segment-anything) to ```ckpts/```.
+### Pipeline
+Follow the ```process.sh``` and train LangSplat on your own scenes.
+- **Step 1: Generate Language Feature of the Scenes.**
+  Put the image data into the "input" directory under the ```<dataset_name>/```, then run the following code.
+  ```
+  python preprocess.py --dataset_path $dataset_path
+  ```
+- **Step 2: Train the Autoencoder and get the lower-dims Feature.**
+  ```
+  # train the autoencoder
+  cd autoencoder
+  python train.py --dataset_name $dataset_path --encoder_dims 256 128 64 32 3 --decoder_dims 16 32 64 128 256 256 512 --lr 0.0007 --output ae_ckpt
+  # get the 3-dims language feature of the scene
+  python test.py --dataset_name $dataset_path --output
+  ```
+  Our model expect the following dataset structure in the source path location:
+  ```
+  <dataset_name>
+  |---images
+  |   |---<image 0>
+  |   |---<image 1>
+  |   |---...
+  |---language_feature
+  |   |---00_f.npy
+  |   |---00_s.npy
+  |   |---...
+  |---language_feature_dim3
+  |   |---00_f.npy
+  |   |---00_s.npy
+  |   |---...
+  |---output
+  |   |---<dataset_name>
+  |   |   |---point_cloud/iteration_30000/point_cloud.ply
+  |   |   |---cameras.json
+  |   |   |---cfg_args
+  |   |   |---chkpnt30000.pth
+  |   |   |---input.ply
+  |---sparse
+      |---0
+          |---cameras.bin
+          |---images.bin
+          |---points3D.bin
+  ```
+- **Step 3: Train the LangSplat.**
+  ```
+  python train.py -s dataset_path -m output/${casename} --start_checkpoint $dataset_path/output/$casename/chkpnt30000.pth --feature_level ${level}
+  ```
+- **Step 4: Render the LangSplat.**
+  ```
+  python render.py -s dataset_path -m output/${casename} --feature_level ${level}
+  ```
+- **Step 5: Eval.**
+  First, we generate the 3-dim language feature map through Step 4. Subsequently, the decoder elevates the features from 3 dimensions to 512 dimensions. For further operations and detailed explanations, please refer to the [supplementary materials](https://arxiv.org/pdf/2312.16084.pdf).
+  -  3D Object Localization on LERF and 3D Semantic Segmentation on LERF. Our eval code is based on [LERF](https://github.com/kerrj/lerf) and [NerfStudio](https://github.com/nerfstudio-project/nerfstudio), thanks for these impressive open-source projects!
+      - Please download the [lerf_ovs]((https://drive.google.com/file/d/1QF1Po5p5DwTjFHu6tnTeYs_G0egMVmHt/view?usp=sharing)) first.
+      - Set the ```gt_folder``` as the path to lerf_ovs/label.
+      - Make sure finish the **Step 4** before you run the eval code.
+  ```
+  cd eval
+  sh eval.sh
+  ```
+## TODO list:
+- [x] release the code of the optimizer
+- [x] release the code of the autoencoder
+- [x] release the code of the segment-anything-langsplat
+- [x] update the arxiv link
+- [x] release the preprocessed dataset and the pretrained model
+- [x] release more preprocessed dataset and the pretrained model (coming soon)
+- [x] release the code of the eval
+This project is still under development. Please feel free to raise issues or submit pull requests to contribute to our codebase.

arguments/__init__.py ADDED Viewed

	@@ -0,0 +1,116 @@

+#
+# Copyright (C) 2023, Inria
+# GRAPHDECO research group, https://team.inria.fr/graphdeco
+# All rights reserved.
+#
+# This software is free for non-commercial, research and evaluation use
+# under the terms of the LICENSE.md file.
+#
+# For inquiries contact  george.drettakis@inria.fr
+#
+from argparse import ArgumentParser, Namespace
+import sys
+import os
+class GroupParams:
+    pass
+class ParamGroup:
+    def __init__(self, parser: ArgumentParser, name : str, fill_none = False):
+        group = parser.add_argument_group(name)
+        for key, value in vars(self).items():
+            shorthand = False
+            if key.startswith("_"):
+                shorthand = True
+                key = key[1:]
+            t = type(value)
+            value = value if not fill_none else None
+            if shorthand:
+                if t == bool:
+                    group.add_argument("--" + key, ("-" + key[0:1]), default=value, action="store_true")
+                else:
+                    group.add_argument("--" + key, ("-" + key[0:1]), default=value, type=t)
+            else:
+                if t == bool:
+                    group.add_argument("--" + key, default=value, action="store_true")
+                else:
+                    group.add_argument("--" + key, default=value, type=t)
+    def extract(self, args):
+        group = GroupParams()
+        for arg in vars(args).items():
+            if arg[0] in vars(self) or ("_" + arg[0]) in vars(self):
+                setattr(group, arg[0], arg[1])
+        return group
+class ModelParams(ParamGroup):
+    def __init__(self, parser, sentinel=False):
+        self.sh_degree = 3
+        self._source_path = ""
+        self._model_path = ""
+        self._language_features_name = "language_features_dim3"
+        self._images = "images"
+        self._resolution = -1
+        self._white_background = False
+        self._feature_level = -1
+        self.data_device = "cuda"
+        self.eval = False
+        super().__init__(parser, "Loading Parameters", sentinel)
+    def extract(self, args):
+        g = super().extract(args)
+        g.source_path = os.path.abspath(g.source_path)
+        g.lf_path = os.path.join(g.source_path, g.language_features_name)
+        return g
+class PipelineParams(ParamGroup):
+    def __init__(self, parser):
+        self.convert_SHs_python = False
+        self.compute_cov3D_python = False
+        self.debug = False
+        super().__init__(parser, "Pipeline Parameters")
+class OptimizationParams(ParamGroup):
+    def __init__(self, parser):
+        self.iterations = 30_000
+        self.position_lr_init = 0.00016
+        self.position_lr_final = 0.0000016
+        self.position_lr_delay_mult = 0.01
+        self.position_lr_max_steps = 30_000
+        self.feature_lr = 0.0025
+        self.opacity_lr = 0.05
+        self.language_feature_lr = 0.0025 # TODO: update
+        self.include_feature = True # Set to False if train the original gs
+        self.scaling_lr = 0.005
+        self.rotation_lr = 0.001
+        self.percent_dense = 0.01
+        self.lambda_dssim = 0.2
+        self.densification_interval = 100
+        self.opacity_reset_interval = 3000
+        self.densify_from_iter = 500
+        self.densify_until_iter = 15_000
+        self.densify_grad_threshold = 0.0002
+        super().__init__(parser, "Optimization Parameters")
+def get_combined_args(parser : ArgumentParser):
+    cmdlne_string = sys.argv[1:]
+    cfgfile_string = "Namespace()"
+    args_cmdline = parser.parse_args(cmdlne_string)
+    try:
+        cfgfilepath = os.path.join(args_cmdline.model_path, "cfg_args")
+        print("Looking for config file in", cfgfilepath)
+        with open(cfgfilepath) as cfg_file:
+            print("Config file found: {}".format(cfgfilepath))
+            cfgfile_string = cfg_file.read()
+    except TypeError:
+        print("Config file not found at")
+        pass
+    args_cfgfile = eval(cfgfile_string)
+    merged_dict = vars(args_cfgfile).copy()
+    for k,v in vars(args_cmdline).items():
+        if v != None:
+            merged_dict[k] = v
+    return Namespace(**merged_dict)

arguments/__pycache__/__init__.cpython-38.pyc ADDED Viewed

Binary file (4.24 kB). View file

assets/teaser.png ADDED Viewed

Git LFS Details

SHA256: a6f81aad75adea1f2df5fad18ec78e3d09c7d0adc0ea72bbfd2fdc710bc80094
Pointer size: 133 Bytes
Size of remote file: 21.9 MB

autoencoder/__pycache__/dataset.cpython-38.pyc ADDED Viewed

Binary file (1.24 kB). View file

autoencoder/__pycache__/model.cpython-38.pyc ADDED Viewed

Binary file (1.64 kB). View file

autoencoder/ckpt/office_scene_50/best_ckpt.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3a93d4b1ad809b23e9a27c72ea54d10dfe10b96d268ee5b9905947da9196872
+size 1685665

autoencoder/ckpt/office_scene_50/events.out.tfevents.1760944914.a100-st-p4de24xlarge-7.434065.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:def6ab9b62040824c06233c1ca9c7eabd7c81ce910c3e64e820f871383ee6a8b
+size 254

autoencoder/ckpt/office_scene_50/events.out.tfevents.1760945127.a100-st-p4de24xlarge-7.441630.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c769f358ebf36d5373d8f41c37899a683622e425fd29308443a4be425fea3f19
+size 58836284

autoencoder/dataset.py ADDED Viewed

	@@ -0,0 +1,26 @@

+import os
+import glob
+import numpy as np
+import torch
+from torch.utils.data import Dataset
+class Autoencoder_dataset(Dataset):
+    def __init__(self, data_dir):
+        data_names = glob.glob(os.path.join(data_dir, '*f.npy'))
+        self.data_dic = {}
+        for i in range(len(data_names)):
+            features = np.load(data_names[i])
+            name = data_names[i].split('/')[-1].split('.')[0]
+            self.data_dic[name] = features.shape[0]
+            if i == 0:
+                data = features
+            else:
+                data = np.concatenate([data, features], axis=0)
+        self.data = data
+    def __getitem__(self, index):
+        data = torch.tensor(self.data[index])
+        return data
+    def __len__(self):
+        return self.data.shape[0]

autoencoder/model.py ADDED Viewed

	@@ -0,0 +1,46 @@

+import torch
+import torch.nn as nn
+class Autoencoder(nn.Module):
+    def __init__(self, encoder_hidden_dims, decoder_hidden_dims):
+        super(Autoencoder, self).__init__()
+        encoder_layers = []
+        for i in range(len(encoder_hidden_dims)):
+            if i == 0:
+                encoder_layers.append(nn.Linear(512, encoder_hidden_dims[i]))
+            else:
+                encoder_layers.append(torch.nn.BatchNorm1d(encoder_hidden_dims[i-1]))
+                encoder_layers.append(nn.ReLU())
+                encoder_layers.append(nn.Linear(encoder_hidden_dims[i-1], encoder_hidden_dims[i]))
+        self.encoder = nn.ModuleList(encoder_layers)
+        decoder_layers = []
+        for i in range(len(decoder_hidden_dims)):
+            if i == 0:
+                decoder_layers.append(nn.Linear(encoder_hidden_dims[-1], decoder_hidden_dims[i]))
+            else:
+                decoder_layers.append(nn.ReLU())
+                decoder_layers.append(nn.Linear(decoder_hidden_dims[i-1], decoder_hidden_dims[i]))
+        self.decoder = nn.ModuleList(decoder_layers)
+        print(self.encoder, self.decoder)
+    def forward(self, x):
+        for m in self.encoder:
+            x = m(x)
+        x = x / x.norm(dim=-1, keepdim=True)
+        for m in self.decoder:
+            x = m(x)
+        x = x / x.norm(dim=-1, keepdim=True)
+        return x
+    def encode(self, x):
+        for m in self.encoder:
+            x = m(x)
+        x = x / x.norm(dim=-1, keepdim=True)
+        return x
+    def decode(self, x):
+        for m in self.decoder:
+            x = m(x)
+        x = x / x.norm(dim=-1, keepdim=True)
+        return x

autoencoder/test.py ADDED Viewed

	@@ -0,0 +1,77 @@

+import os
+import numpy as np
+import torch
+import argparse
+import shutil
+from torch.utils.data import DataLoader
+from tqdm import tqdm
+from dataset import Autoencoder_dataset
+from model import Autoencoder
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--dataset_path', type=str, required=True)
+    parser.add_argument('--dataset_name', type=str, required=True)
+    parser.add_argument('--encoder_dims',
+                    nargs = '+',
+                    type=int,
+                    default=[256, 128, 64, 32, 3],
+                    )
+    parser.add_argument('--decoder_dims',
+                    nargs = '+',
+                    type=int,
+                    default=[16, 32, 64, 128, 256, 256, 512],
+                    )
+    args = parser.parse_args()
+    dataset_name = args.dataset_name
+    encoder_hidden_dims = args.encoder_dims
+    decoder_hidden_dims = args.decoder_dims
+    dataset_path = args.dataset_path
+    ckpt_path = f"ckpt/{dataset_name}/best_ckpt.pth"
+    data_dir = f"{dataset_path}/language_features"
+    output_dir = f"{dataset_path}/language_features_dim3"
+    os.makedirs(output_dir, exist_ok=True)
+    # copy the segmentation map
+    for filename in os.listdir(data_dir):
+        if filename.endswith("_s.npy"):
+            source_path = os.path.join(data_dir, filename)
+            target_path = os.path.join(output_dir, filename)
+            shutil.copy(source_path, target_path)
+    checkpoint = torch.load(ckpt_path)
+    train_dataset = Autoencoder_dataset(data_dir)
+    test_loader = DataLoader(
+        dataset=train_dataset,
+        batch_size=256,
+        shuffle=False,
+        num_workers=16,
+        drop_last=False
+    )
+    model = Autoencoder(encoder_hidden_dims, decoder_hidden_dims).to("cuda:0")
+    model.load_state_dict(checkpoint)
+    model.eval()
+    for idx, feature in tqdm(enumerate(test_loader)):
+        data = feature.to("cuda:0")
+        with torch.no_grad():
+            outputs = model.encode(data).to("cpu").numpy()
+        if idx == 0:
+            features = outputs
+        else:
+            features = np.concatenate([features, outputs], axis=0)
+    os.makedirs(output_dir, exist_ok=True)
+    start = 0
+    for k,v in train_dataset.data_dic.items():
+        path = os.path.join(output_dir, k)
+        np.save(path, features[start:start+v])
+        start += v

autoencoder/train.py ADDED Viewed

	@@ -0,0 +1,110 @@

+import os
+import torch
+import torch.nn.functional as F
+from torch.utils.data import Dataset, DataLoader
+from tqdm import tqdm
+from dataset import Autoencoder_dataset
+from model import Autoencoder
+from torch.utils.tensorboard import SummaryWriter
+import argparse
+torch.autograd.set_detect_anomaly(True)
+def l2_loss(network_output, gt):
+    return ((network_output - gt) ** 2).mean()
+def cos_loss(network_output, gt):
+    return 1 - F.cosine_similarity(network_output, gt, dim=0).mean()
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--dataset_path', type=str, required=True)
+    parser.add_argument('--num_epochs', type=int, default=100)
+    parser.add_argument('--lr', type=float, default=0.0001)
+    parser.add_argument('--encoder_dims',
+                    nargs = '+',
+                    type=int,
+                    default=[256, 128, 64, 32, 3],
+                    )
+    parser.add_argument('--decoder_dims',
+                    nargs = '+',
+                    type=int,
+                    default=[16, 32, 64, 128, 256, 256, 512],
+                    )
+    parser.add_argument('--dataset_name', type=str, required=True)
+    args = parser.parse_args()
+    dataset_path = args.dataset_path
+    num_epochs = args.num_epochs
+    data_dir = f"{dataset_path}/language_features"
+    os.makedirs(f'ckpt/{args.dataset_name}', exist_ok=True)
+    train_dataset = Autoencoder_dataset(data_dir)
+    train_loader = DataLoader(
+        dataset=train_dataset,
+        batch_size=64,
+        shuffle=True,
+        num_workers=16,
+        drop_last=False
+    )
+    test_loader = DataLoader(
+        dataset=train_dataset,
+        batch_size=256,
+        shuffle=False,
+        num_workers=16,
+        drop_last=False
+    )
+    encoder_hidden_dims = args.encoder_dims
+    decoder_hidden_dims = args.decoder_dims
+    model = Autoencoder(encoder_hidden_dims, decoder_hidden_dims).to("cuda:0")
+    optimizer = torch.optim.Adam(model.parameters(), lr=args.lr)
+    logdir = f'ckpt/{args.dataset_name}'
+    tb_writer = SummaryWriter(logdir)
+    best_eval_loss = 100.0
+    best_epoch = 0
+    for epoch in tqdm(range(num_epochs)):
+        model.train()
+        for idx, feature in enumerate(train_loader):
+            data = feature.to("cuda:0")
+            outputs_dim3 = model.encode(data)
+            outputs = model.decode(outputs_dim3)
+            l2loss = l2_loss(outputs, data)
+            cosloss = cos_loss(outputs, data)
+            loss = l2loss + cosloss * 0.001
+            optimizer.zero_grad()
+            loss.backward()
+            optimizer.step()
+            global_iter = epoch * len(train_loader) + idx
+            tb_writer.add_scalar('train_loss/l2_loss', l2loss.item(), global_iter)
+            tb_writer.add_scalar('train_loss/cos_loss', cosloss.item(), global_iter)
+            tb_writer.add_scalar('train_loss/total_loss', loss.item(), global_iter)
+            tb_writer.add_histogram("feat", outputs, global_iter)
+        if epoch > 95:
+            eval_loss = 0.0
+            model.eval()
+            for idx, feature in enumerate(test_loader):
+                data = feature.to("cuda:0")
+                with torch.no_grad():
+                    outputs = model(data)
+                loss = l2_loss(outputs, data) + cos_loss(outputs, data)
+                eval_loss += loss * len(feature)
+            eval_loss = eval_loss / len(train_dataset)
+            print("eval_loss:{:.8f}".format(eval_loss))
+            if eval_loss < best_eval_loss:
+                best_eval_loss = eval_loss
+                best_epoch = epoch
+                torch.save(model.state_dict(), f'ckpt/{args.dataset_name}/best_ckpt.pth')
+            if epoch % 10 == 0:
+                torch.save(model.state_dict(), f'ckpt/{args.dataset_name}/{epoch}_ckpt.pth')
+    print(f"best_epoch: {best_epoch}")
+    print("best_loss: {:.8f}".format(best_eval_loss))

ckpts/sam_vit_b_01ec64.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec2df62732614e57411cdcf32a23ffdf28910380d03139ee0f4fcbe91eb8c912
+size 375042383

ckpts/sam_vit_h_4b8939.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7bf3b02f3ebf1267aba913ff637d9a2d5c33d3173bb679e46d9f338c26f262e
+size 2564550879

ckpts/sam_vit_l_0b3195.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3adcc4315b642a4d2101128f611684e8734c41232a17c648ed1693702a49a622
+size 1249524607

convert.py ADDED Viewed

	@@ -0,0 +1,124 @@

+#
+# Copyright (C) 2023, Inria
+# GRAPHDECO research group, https://team.inria.fr/graphdeco
+# All rights reserved.
+#
+# This software is free for non-commercial, research and evaluation use
+# under the terms of the LICENSE.md file.
+#
+# For inquiries contact  george.drettakis@inria.fr
+#
+import os
+import logging
+from argparse import ArgumentParser
+import shutil
+# This Python script is based on the shell converter script provided in the MipNerF 360 repository.
+parser = ArgumentParser("Colmap converter")
+parser.add_argument("--no_gpu", action='store_true')
+parser.add_argument("--skip_matching", action='store_true')
+parser.add_argument("--source_path", "-s", required=True, type=str)
+parser.add_argument("--camera", default="SIMPLE_PINHOLE", type=str)
+parser.add_argument("--colmap_executable", default="", type=str)
+parser.add_argument("--resize", action="store_true")
+parser.add_argument("--magick_executable", default="", type=str)
+args = parser.parse_args()
+colmap_command = '"{}"'.format(args.colmap_executable) if len(args.colmap_executable) > 0 else "colmap"
+magick_command = '"{}"'.format(args.magick_executable) if len(args.magick_executable) > 0 else "magick"
+use_gpu = 1 if not args.no_gpu else 0
+if not args.skip_matching:
+    os.makedirs(args.source_path + "/distorted/sparse", exist_ok=True)
+    ## Feature extraction
+    feat_extracton_cmd = colmap_command + " feature_extractor "\
+        "--database_path " + args.source_path + "/distorted/database.db \
+        --image_path " + args.source_path + "/input \
+        --ImageReader.single_camera 1 \
+        --ImageReader.camera_model " + args.camera + " \
+        --SiftExtraction.use_gpu " + str(use_gpu)
+    exit_code = os.system(feat_extracton_cmd)
+    if exit_code != 0:
+        logging.error(f"Feature extraction failed with code {exit_code}. Exiting.")
+        exit(exit_code)
+    ## Feature matching
+    feat_matching_cmd = colmap_command + " exhaustive_matcher \
+        --database_path " + args.source_path + "/distorted/database.db \
+        --SiftMatching.use_gpu " + str(use_gpu)
+    exit_code = os.system(feat_matching_cmd)
+    if exit_code != 0:
+        logging.error(f"Feature matching failed with code {exit_code}. Exiting.")
+        exit(exit_code)
+    ### Bundle adjustment
+    # The default Mapper tolerance is unnecessarily large,
+    # decreasing it speeds up bundle adjustment steps.
+    mapper_cmd = (colmap_command + " mapper \
+        --database_path " + args.source_path + "/distorted/database.db \
+        --image_path "  + args.source_path + "/input \
+        --output_path "  + args.source_path + "/distorted/sparse \
+        --Mapper.ba_global_function_tolerance=0.000001")
+    exit_code = os.system(mapper_cmd)
+    if exit_code != 0:
+        logging.error(f"Mapper failed with code {exit_code}. Exiting.")
+        exit(exit_code)
+### Image undistortion
+## We need to undistort our images into ideal pinhole intrinsics.
+img_undist_cmd = (colmap_command + " image_undistorter \
+    --image_path " + args.source_path + "/input \
+    --input_path " + args.source_path + "/distorted/sparse/0 \
+    --output_path " + args.source_path + "\
+    --output_type COLMAP")
+exit_code = os.system(img_undist_cmd)
+if exit_code != 0:
+    logging.error(f"Mapper failed with code {exit_code}. Exiting.")
+    exit(exit_code)
+files = os.listdir(args.source_path + "/sparse")
+os.makedirs(args.source_path + "/sparse/0", exist_ok=True)
+# Copy each file from the source directory to the destination directory
+for file in files:
+    if file == '0':
+        continue
+    source_file = os.path.join(args.source_path, "sparse", file)
+    destination_file = os.path.join(args.source_path, "sparse", "0", file)
+    shutil.move(source_file, destination_file)
+if(args.resize):
+    print("Copying and resizing...")
+    # Resize images.
+    os.makedirs(args.source_path + "/images_2", exist_ok=True)
+    os.makedirs(args.source_path + "/images_4", exist_ok=True)
+    os.makedirs(args.source_path + "/images_8", exist_ok=True)
+    # Get the list of files in the source directory
+    files = os.listdir(args.source_path + "/images")
+    # Copy each file from the source directory to the destination directory
+    for file in files:
+        source_file = os.path.join(args.source_path, "images", file)
+        destination_file = os.path.join(args.source_path, "images_2", file)
+        shutil.copy2(source_file, destination_file)
+        exit_code = os.system(magick_command + " mogrify -resize 50% " + destination_file)
+        if exit_code != 0:
+            logging.error(f"50% resize failed with code {exit_code}. Exiting.")
+            exit(exit_code)
+        destination_file = os.path.join(args.source_path, "images_4", file)
+        shutil.copy2(source_file, destination_file)
+        exit_code = os.system(magick_command + " mogrify -resize 25% " + destination_file)
+        if exit_code != 0:
+            logging.error(f"25% resize failed with code {exit_code}. Exiting.")
+            exit(exit_code)
+        destination_file = os.path.join(args.source_path, "images_8", file)
+        shutil.copy2(source_file, destination_file)
+        exit_code = os.system(magick_command + " mogrify -resize 12.5% " + destination_file)
+        if exit_code != 0:
+            logging.error(f"12.5% resize failed with code {exit_code}. Exiting.")
+            exit(exit_code)
+print("Done.")