Amshaker
/

WorldMem

Model card Files Files and versions

xet

Community

Amshaker commited on Mar 11

Commit

a124d29

verified ·

1 Parent(s): 389d93d

Upload train_mamba_stage_b.sh with huggingface_hub

Browse files

Files changed (1) hide show

train_mamba_stage_b.sh +129 -0

train_mamba_stage_b.sh ADDED Viewed

	@@ -0,0 +1,129 @@

+#!/usr/bin/env bash
+#SBATCH --job-name=worldmem
+#SBATCH --nodes=1
+#SBATCH --ntasks-per-node=8
+#SBATCH --time=72:00:00
+#SBATCH --output=logs/slurmm1.0-%j.out
+#SBATCH --error=logs/slurmm1.0-%j.out
+#SBATCH --account=berzelius-2025-436
+#SBATCH --gres=gpu:8
+##SBATCH --gres=gpu:A100-SXM4-80GB:8
+module load buildenv-gcccuda/12.1.1-gcc12.3.0
+source $(conda info --base)/etc/profile.d/conda.sh
+export PYTHONPATH="./:$PYTHONPATH"
+export HF_HOME=/proj/cvl/users/x_fahkh2/caches
+export TORCH_HOME=/proj/cvl/users/x_fahkh2/caches
+export PIP_CACHE_DIR=/proj/cvl/users/x_fahkh2/caches
+export TMPDIR=/proj/cvl/users/x_fahkh2/caches
+export TRITON_CACHE_DIR=/proj/cvl/users/x_fahkh2/caches
+export CUDA_HOME=$CUDA_ROOT
+export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
+export WANDB_DISABLED=true
+#export NCCL_P2P_DISABLE=1
+#export WANDB_MODE=offline
+export HYDRA_FULL_ERROR=1
+srun python -m main \
+    +name=train_stage_b_mamba \
+    algorithm=df_video_mamba3stage \
+    +customized_load=true \
+    +seperate_load=false \
+    experiment.num_nodes=1 \
+    load=/proj/cvl/users/x_fahkh2/WorldMem_Repro/checkpoints/bimamba_stage_a_128/checkpoints/epoch0_step2000.ckpt \
+    dataset.save_dir=/proj/cvl/users/x_fahkh2/WorldMem_Repro/datasets/minecraft \
+    dataset.n_frames=200 \
+    +dataset.n_frames_valid=200 \
+    +dataset.angle_range=110 \
+    +dataset.pos_range=2 \
+    +dataset.wo_updown=false \
+    +dataset.customized_validation=true \
+    +dataset.add_timestamp_embedding=true \
+    +dataset.use_explicit_memory_frames=false \
+    algorithm.training_stage=stage_b_diffusion_frozen_memory \
+    algorithm.use_mamba_memory_pipeline=true \
+    algorithm.use_oracle_pose_eval=false \
+    algorithm.enable_memory_noise_curriculum=false \
+    +algorithm.require_pose_prediction=false \
+    +algorithm.use_memory_attention=false \
+    +algorithm.relative_embedding=false \
+    +algorithm.memory_retrieval_topk=32 \
+    algorithm.diff_window_size=8 \
+    algorithm.memory_condition_length=0 \
+    algorithm.context_frames=100 \
+    +algorithm.n_tokens=8 \
+    experiment.training.batch_size=8 \
+    experiment.training.checkpointing.every_n_train_steps=2500 \
+    experiment.training.max_steps=30000 \
+    experiment.validation.val_every_n_step=2500 \
+    +output_dir=/proj/cvl/users/x_fahkh2/WorldMem_Repro/checkpoints/bimamba_stage_b/
+srun python -m main \
+    +name=train_stage_b_mamba \
+    algorithm=df_video_mamba3stage \
+    experiment.num_nodes=1 \
+    dataset.save_dir=/proj/cvl/users/x_fahkh2/WorldMem_Repro/datasets/minecraft \
+    dataset.n_frames=200 \
+    +dataset.n_frames_valid=200 \
+    +dataset.angle_range=110 \
+    +dataset.pos_range=8 \
+    +dataset.wo_updown=false \
+    +dataset.customized_validation=true \
+    +dataset.add_timestamp_embedding=true \
+    +dataset.use_explicit_memory_frames=false \
+    algorithm.training_stage=stage_b_diffusion_frozen_memory \
+    algorithm.use_mamba_memory_pipeline=true \
+    algorithm.use_oracle_pose_eval=false \
+    algorithm.enable_memory_noise_curriculum=false \
+    +algorithm.require_pose_prediction=false \
+    +algorithm.use_memory_attention=false \
+    +algorithm.relative_embedding=false \
+    +algorithm.memory_retrieval_topk=32 \
+    algorithm.diff_window_size=8 \
+    algorithm.memory_condition_length=0 \
+    algorithm.context_frames=100 \
+    +algorithm.n_tokens=8 \
+    experiment.training.batch_size=8 \
+    experiment.training.checkpointing.every_n_train_steps=2500 \
+    experiment.training.max_steps=60000 \
+    experiment.validation.val_every_n_step=2500 \
+    resume=stage_b_offline \
+    +output_dir=/proj/cvl/users/x_fahkh2/WorldMem_Repro/checkpoints/bimamba_stage_b/
+srun python -m main \
+    +name=train_stage_b_mamba \
+    algorithm=df_video_mamba3stage \
+    experiment.num_nodes=1 \
+    dataset.save_dir=/proj/cvl/users/x_fahkh2/WorldMem_Repro/datasets/minecraft \
+    dataset.n_frames=200 \
+    +dataset.n_frames_valid=200 \
+    +dataset.angle_range=110 \
+    +dataset.pos_range=8 \
+    +dataset.wo_updown=false \
+    +dataset.customized_validation=true \
+    +dataset.add_timestamp_embedding=true \
+    +dataset.use_explicit_memory_frames=false \
+    algorithm.training_stage=stage_b_diffusion_frozen_memory \
+    algorithm.use_mamba_memory_pipeline=true \
+    algorithm.use_oracle_pose_eval=false \
+    algorithm.enable_memory_noise_curriculum=false \
+    +algorithm.require_pose_prediction=false \
+    +algorithm.use_memory_attention=false \
+    +algorithm.relative_embedding=false \
+    +algorithm.memory_retrieval_topk=32 \
+    algorithm.diff_window_size=8 \
+    algorithm.memory_condition_length=0 \
+    algorithm.context_frames=100 \
+    +algorithm.n_tokens=8 \
+    experiment.training.batch_size=8 \
+    experiment.training.checkpointing.every_n_train_steps=2500 \
+    experiment.training.max_steps=175000 \
+    experiment.validation.val_every_n_step=2500 \
+    resume=stage_b_offline \
+    +output_dir=/proj/cvl/users/x_fahkh2/WorldMem_Repro/checkpoints/bimamba_stage_b/