studyOverflow commited on Jan 24

Commit

771ecfe

verified ·

1 Parent(s): 3f04536

Add files using upload-large-folder tool

Browse files

Files changed (20) hide show

data/qwenimage_rl_embeddings/prompt_embed/27214.pt +3 -0
data/qwenimage_rl_embeddings/prompt_embed/27548.pt +3 -0
data/qwenimage_rl_embeddings/prompt_embed/28269.pt +3 -0
data/qwenimage_rl_embeddings/prompt_embed/35020.pt +3 -0
data/qwenimage_rl_embeddings/prompt_embed/51199.pt +3 -0
data/qwenimage_rl_embeddings/prompt_embed/70606.pt +3 -0
data/qwenimage_rl_embeddings/prompt_embed/76836.pt +3 -0
data/qwenimage_rl_embeddings/prompt_embed/80700.pt +3 -0
data/qwenimage_rl_embeddings/prompt_embed/81549.pt +3 -0
data/qwenimage_rl_embeddings/prompt_embed/94872.pt +3 -0
data/qwenimage_rl_embeddings/prompt_embed/98552.pt +3 -0
hope/finetune_intervalstep.hope +68 -0
hope/finetune_mergestep.sh +97 -0
hope/finetune_mergestep_multi.sh +99 -0
hope/finetune_mergestep_multi_v2.hope +68 -0
hope/finetune_multistep.hope +68 -0
hope/finetune_rlpt.hope +68 -0
hope/finetune_rlpt.sh +97 -0
hope/finetune_rlpt_from_noise.hope +68 -0
hope/finetune_tempflow_multi.hope +68 -0

data/qwenimage_rl_embeddings/prompt_embed/27214.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e6e1d92bf4691cf95d4000bf0a6cb6112ce5943b629f2deb6f25494a81feb31
+size 7341531

data/qwenimage_rl_embeddings/prompt_embed/27548.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55f9e80c9788f581a087b97b27e38426c69d39b03c088503a52b9ba1582f398e
+size 7341531

data/qwenimage_rl_embeddings/prompt_embed/28269.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec71dd4914a29f331f0e4e25ba03ea8992f411797e6224f83def3aa69e7789ce
+size 7341531

data/qwenimage_rl_embeddings/prompt_embed/35020.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6604247e246bdc9e66602d3db3b4611b38733c07362894220e78659a5357afb
+size 7341531

data/qwenimage_rl_embeddings/prompt_embed/51199.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bb38e0af3d106c6988c980db6ed16f8b91602966a3edfc7adb0db2afc153685
+size 7341531

data/qwenimage_rl_embeddings/prompt_embed/70606.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a06b6d21c0cd9e05a829ac4ec4a1151f148c10663df240568b1b0d6c5d2ec504
+size 7341531

data/qwenimage_rl_embeddings/prompt_embed/76836.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f38a891cb79fc0386d497068c2d1dcda5b8607d50c35f46c3b6f37f1a4012d54
+size 7341531

data/qwenimage_rl_embeddings/prompt_embed/80700.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bce0abc6601a8b348551e7f766fb0f5136ec991eb9364681331f98588ae01474
+size 7341531

data/qwenimage_rl_embeddings/prompt_embed/81549.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:235d43ccd91e1a4327a120a814cc52566fb1d8502c37d703a50229c97b78feaf
+size 7341531

data/qwenimage_rl_embeddings/prompt_embed/94872.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13e8c6013dc5c3fc477936ff6b8708dd110c207087ab629db02e52a84d81e529
+size 7341531

data/qwenimage_rl_embeddings/prompt_embed/98552.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a84711584506cfb03f7c3584af40c10dc3583814df7428110090b46143faf2b9
+size 7341531

hope/finetune_intervalstep.hope ADDED Viewed

	@@ -0,0 +1,68 @@

+[base]
+type = ml-vision
+[resource]
+usergroup = hadoop-camera3d
+queue = root.hldy_training_cluster.hadoop-aipnlp.h800_vi_sp
+[dataset]
+dataset_name =
+dataset_type =
+dataset_path =
+[job_track]
+demand_id = 91369190
+upstream_jobid =
+input_dir =
+output_dir =
+log_dir =
+[user_args]
+[roles]
+workers = 2
+worker.memory = 1920000
+worker.vcore = 128
+worker.gcoresh800-80g = 8
+worker.script = sh /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/Granular-GRPO/hope/finetune_intervalstep.sh /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/DanceGRPO /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/conda-envs/dancegrpo-v2/bin/python fastvideo/train_g2rpo_hps.py 2 8
+worker.ports = 1
+[am]
+afo.app.am.resource.mb = 4096
+[tensorboard]
+with.tensor.board = false
+[docker]
+afo.docker.image.name = registryonline-hulk.sankuai.com/custom_prod/com.sankuai.data.hadoop.gpu/data-hadoop-camera3d_cuda12.4-nccl2.21.5-prod-10ab7b1d
+[data]
+afo.data.prefetch = false
+[failover]
+afo.app.support.engine.failover = true
+[conda]
+afo.conda.env.name =
+afo.conda.env.path =
+afo.conda.store.type =
+[distribute]
+afo.role.worker.gpu_driver_version = 470.103.01
+[others]
+afo.app.env.YARN_CONTAINER_RUNTIME_DOCKER_SHM_SIZE_BYTES = 640000000000
+afo.xm.notice.receivers.account = zhangshengjun02
+with_requirements = false
+afo.app.yarn.allocate.timeout.seconds = 3600000
+afo.app.blacklist.fail_times = 16
+#afo.role.worker.task.attempt.max.retry = 16
+afo.role.worker.task.attempt.max.retry = 1
+afo.dolphinfs.otherusers = hadoop-videogen-hl,hadoop-imagen-hl:true,hadoop-vision-data:true
+afo.use.hdfs.fuse=true
+afo.use.hdfs.fuse.subpath=:/mnt/hdfs
+afo.use.hdfs.fuse.readonly=false
+afo.role.worker.not.node_name = hldy-data-k8s-gpu-h800-node0483.mt,hldy-data-k8s-gpu-h800-node0866.mt,hldy-data-k8s-gpu-h800-node0187.mt,hldy-data-k8s-gpu-h800-node0059.mt,hldy-data-k8s-gpu-h800-node0178.mt,hldy-data-k8s-gpu-h800-node0670.mt,hldy-data-k8s-gpu-h800-node0303.mt,hldy-data-k8s-gpu-h800-node0950.mt,hldy-data-k8s-gpu-h800-node0785.mt,hldy-data-k8s-gpu-h800-node0416.mt,hldy-data-k8s-gpu-h800-node0846.mt,hldy-data-k8s-gpu-h800-node0836.mt,hldy-data-k8s-gpu-h800-node0802.mt,hldy-data-k8s-gpu-h800-node0768.mt,hldy-data-k8s-gpu-h800-node1014.mt,hldy-data-k8s-gpu-h800-node0843.mt
+afo.role.am.not.node_name = hlsc-data-k8s-node0187.mt

hope/finetune_mergestep.sh ADDED Viewed

	@@ -0,0 +1,97 @@

+# cluster_spec='{"am":["psx2s7cxrbvmlcvk-am-0.psx2s7cxrbvmlcvk.hadoop-aipnlp.svc.cluster.local"],"index":"0","role":"worker","worker":["psx2s7cxrbvmlcvk-worker-0.psx2s7cxrbvmlcvk.hadoop-aipnlp.svc.cluster.local:3400","psx2s7cxrbvmlcvk-worker-1.psx2s7cxrbvmlcvk.hadoop-aipnlp.svc.cluster.local:3400"]}'
+# echo "cluster spec is $cluster_spec"
+WORK_DIR=$1
+PYTHON_BIN=$2
+SCRIPT=$3
+NNODES=$4
+NPROC_PER_NODE=$5
+echo "WORK_DIR is $WORK_DIR"
+echo "PYTHON_BIN is $PYTHON_BIN"
+echo "SCRIPT is $SCRIPT"
+echo "NNODES is $NNODES"
+echo "NPROC_PER_NODE is $NPROC_PER_NODE"
+PORT=${PORT:-29509}
+PYTHONPATH="$(dirname $0)/..":$PYTHONPATH \
+cluster_spec=${AFO_ENV_CLUSTER_SPEC//\"/\\\"}
+echo "cluster spec is $cluster_spec"
+# Assuming worker_list contains the JSON string (it's already been parsed)
+worker_list_command="import json_parser; data = json_parser.parse('$cluster_spec'); print(data['worker'])"
+worker_list=$($PYTHON_BIN -c "$worker_list_command")
+# Remove the square brackets and quotes from worker_list
+worker_list_cleaned=$(echo $worker_list | tr -d '[]' | tr -d "'")
+# Convert the cleaned worker list into an array by splitting by commas
+worker_strs=($(echo $worker_list_cleaned | tr ',' '\n'))
+# Extract the master (first worker)
+master=${worker_strs[0]}
+# Extract master address and port
+master_addr=$(echo $master | cut -d ':' -f1)
+master_port=$(echo $master | cut -d ':' -f2)
+# Output the master information without brackets and quotes
+echo "worker list is $worker_list_cleaned"
+echo "master is $master"
+echo "master address is $master_addr"
+echo "master port is $master_port"
+worker_list_command="import json_parser; data = json_parser.parse('$cluster_spec'); print(data['index'])"
+node_rank=$($PYTHON_BIN -c "$worker_list_command")
+echo "node rank is $node_rank"
+dist_url="tcp://$master_addr:$master_port"
+echo "dist url is $dist_url"
+export TOKENIZERS_PARALLELISM=false
+export OMP_NUM_THREADS=1
+export NCCL_DEBUG=INFO
+export TORCH_NCCL_ASYNC_ERROR_HANDLING=1
+export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+export TORCH_FORCE_NO_WEIGHTS_ONLY_LOAD=1
+### launch with DDP (multi-machines-multi-gpus)
+source scl_source enable devtoolset-7
+ifconfig
+cd $WORK_DIR=/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/Granular-GRPO/hope/json_parse_test.sh
+$PYTHON_BIN -m torch.distributed.run \
+--nnodes=$NNODES --nproc_per_node=$NPROC_PER_NODE --node_rank=$node_rank --master_addr=$master_addr --master_port=$PORT \
+$SCRIPT \
+--seed 42 \
+--pretrained_model_name_or_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/ckpt/flux \
+--hps_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/ckpt/hps/HPS_v2.1_compressed.pt \
+--hps_clip_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/ckpt/CLIP-ViT-H-14-laion2B-s32B-b79K/open_clip_pytorch_model.bin \
+--data_json_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/rl_embeddings/videos2caption.json \
+--gradient_checkpointing \
+--train_batch_size 1 \
+--num_latent_t 1 \
+--sp_size 1 \
+--train_sp_batch_size 1 \
+--dataloader_num_workers 4 \
+--max_train_steps 301 \
+--learning_rate 2e-6 \
+--mixed_precision bf16 \
+--checkpointing_steps 50 \
+--cfg 0.0 \
+--output_dir /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/save_exp/hps_merge_step_2_0 \
+--h 1024 \
+--w 1024 \
+--t 1 \
+--sampling_steps 16 \
+--eta 0.7 \
+--lr_warmup_steps 0 \
+--sampler_seed 1223627 \
+--max_grad_norm 1.0 \
+--weight_decay 0.0001 \
+--num_generations 12 \
+--shift 3 \
+--init_same_noise \
+--clip_range 1e-4 \
+--adv_clip_max 5.0 \
+--eta_step_list 0 1 2 3 4 5 6 7 \
+--eta_step_merge_list 1 1 1 2 2 2 3 3 \
+--granular_list 1 \

hope/finetune_mergestep_multi.sh ADDED Viewed

	@@ -0,0 +1,99 @@

+# cluster_spec='{"am":["psx2s7cxrbvmlcvk-am-0.psx2s7cxrbvmlcvk.hadoop-aipnlp.svc.cluster.local"],"index":"0","role":"worker","worker":["psx2s7cxrbvmlcvk-worker-0.psx2s7cxrbvmlcvk.hadoop-aipnlp.svc.cluster.local:3400","psx2s7cxrbvmlcvk-worker-1.psx2s7cxrbvmlcvk.hadoop-aipnlp.svc.cluster.local:3400"]}'
+# echo "cluster spec is $cluster_spec"
+WORK_DIR=$1
+PYTHON_BIN=$2
+SCRIPT=$3
+NNODES=$4
+NPROC_PER_NODE=$5
+echo "WORK_DIR is $WORK_DIR"
+echo "PYTHON_BIN is $PYTHON_BIN"
+echo "SCRIPT is $SCRIPT"
+echo "NNODES is $NNODES"
+echo "NPROC_PER_NODE is $NPROC_PER_NODE"
+PORT=${PORT:-29509}
+PYTHONPATH="$(dirname $0)/..":$PYTHONPATH \
+cluster_spec=${AFO_ENV_CLUSTER_SPEC//\"/\\\"}
+echo "cluster spec is $cluster_spec"
+# Assuming worker_list contains the JSON string (it's already been parsed)
+worker_list_command="import json_parser; data = json_parser.parse('$cluster_spec'); print(data['worker'])"
+worker_list=$($PYTHON_BIN -c "$worker_list_command")
+# Remove the square brackets and quotes from worker_list
+worker_list_cleaned=$(echo $worker_list | tr -d '[]' | tr -d "'")
+# Convert the cleaned worker list into an array by splitting by commas
+worker_strs=($(echo $worker_list_cleaned | tr ',' '\n'))
+# Extract the master (first worker)
+master=${worker_strs[0]}
+# Extract master address and port
+master_addr=$(echo $master | cut -d ':' -f1)
+master_port=$(echo $master | cut -d ':' -f2)
+# Output the master information without brackets and quotes
+echo "worker list is $worker_list_cleaned"
+echo "master is $master"
+echo "master address is $master_addr"
+echo "master port is $master_port"
+worker_list_command="import json_parser; data = json_parser.parse('$cluster_spec'); print(data['index'])"
+node_rank=$($PYTHON_BIN -c "$worker_list_command")
+echo "node rank is $node_rank"
+dist_url="tcp://$master_addr:$master_port"
+echo "dist url is $dist_url"
+export TOKENIZERS_PARALLELISM=false
+export OMP_NUM_THREADS=1
+export NCCL_DEBUG=INFO
+export TORCH_NCCL_ASYNC_ERROR_HANDLING=1
+export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+export TORCH_FORCE_NO_WEIGHTS_ONLY_LOAD=1
+### launch with DDP (multi-machines-multi-gpus)
+source scl_source enable devtoolset-7
+ifconfig
+cd $WORK_DIR=/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/Granular-GRPO
+$PYTHON_BIN -m torch.distributed.run \
+--nnodes=$NNODES --nproc_per_node=$NPROC_PER_NODE --node_rank=$node_rank --master_addr=$master_addr --master_port=$PORT \
+$SCRIPT \
+--seed 42 \
+--pretrained_model_name_or_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/ckpt/flux \
+--resume_ckpt /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/save_exp/hps_clip_merge_step/ckpt/checkpoint-200-0 \
+--hps_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/ckpt/hps/HPS_v2.1_compressed.pt \
+--hps_clip_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/ckpt/CLIP-ViT-H-14-laion2B-s32B-b79K/open_clip_pytorch_model.bin \
+--clip_score_path  /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/ckpt/clip_score \
+--data_json_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/rl_embeddings/videos2caption.json \
+--train_batch_size 1 \
+--num_latent_t 1 \
+--sp_size 1 \
+--train_sp_batch_size 1 \
+--dataloader_num_workers 4 \
+--max_train_steps 401 \
+--init_steps 200 \
+--learning_rate 2e-6 \
+--mixed_precision bf16 \
+--checkpointing_steps 10 \
+--cfg 0.0 \
+--output_dir /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/save_exp/hps_clip_merge_resume_200 \
+--h 1024 \
+--w 1024 \
+--t 1 \
+--sampling_steps 16 \
+--eta 0.7 \
+--lr_warmup_steps 0 \
+--sampler_seed 1223627 \
+--max_grad_norm 1.0 \
+--weight_decay 0.0001 \
+--num_generations 12 \
+--shift 3 \
+--init_same_noise \
+--clip_range 1e-4 \
+--adv_clip_max 5.0 \
+--eta_step_list 0 1 2 3 4 5 6 7 \
+--eta_step_merge_list 1 1 1 2 2 2 3 3 \
+--granular_list 1 \

hope/finetune_mergestep_multi_v2.hope ADDED Viewed

	@@ -0,0 +1,68 @@

+[base]
+type = ml-vision
+[resource]
+usergroup = hadoop-camera3d
+queue = root.hldy_training_cluster.hadoop-aipnlp.h800_vi_sp
+[dataset]
+dataset_name =
+dataset_type =
+dataset_path =
+[job_track]
+demand_id = 91369190
+upstream_jobid =
+input_dir =
+output_dir =
+log_dir =
+[user_args]
+[roles]
+workers = 4
+worker.memory = 1920000
+worker.vcore = 128
+worker.gcoresh800-80g = 8
+worker.script = sh /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/Granular-GRPO/hope/finetune_mergestep_multi_v2.sh /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/DanceGRPO /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/conda-envs/dancegrpo-v2/bin/python fastvideo/train_g2rpo_hps_clip_merge.py 4 8
+worker.ports = 1
+[am]
+afo.app.am.resource.mb = 4096
+[tensorboard]
+with.tensor.board = false
+[docker]
+afo.docker.image.name = registryonline-hulk.sankuai.com/custom_prod/com.sankuai.data.hadoop.gpu/data-hadoop-camera3d_cuda12.4-nccl2.21.5-prod-10ab7b1d
+[data]
+afo.data.prefetch = false
+[failover]
+afo.app.support.engine.failover = true
+[conda]
+afo.conda.env.name =
+afo.conda.env.path =
+afo.conda.store.type =
+[distribute]
+afo.role.worker.gpu_driver_version = 470.103.01
+[others]
+afo.app.env.YARN_CONTAINER_RUNTIME_DOCKER_SHM_SIZE_BYTES = 640000000000
+afo.xm.notice.receivers.account = zhangshengjun02
+with_requirements = false
+afo.app.yarn.allocate.timeout.seconds = 3600000
+afo.app.blacklist.fail_times = 16
+#afo.role.worker.task.attempt.max.retry = 16
+afo.role.worker.task.attempt.max.retry = 1
+afo.dolphinfs.otherusers = hadoop-videogen-hl,hadoop-imagen-hl:true,hadoop-vision-data:true
+afo.use.hdfs.fuse=true
+afo.use.hdfs.fuse.subpath=:/mnt/hdfs
+afo.use.hdfs.fuse.readonly=false
+afo.role.worker.not.node_name = hldy-data-k8s-gpu-h800-node0483.mt,hldy-data-k8s-gpu-h800-node0866.mt,hldy-data-k8s-gpu-h800-node0187.mt,hldy-data-k8s-gpu-h800-node0059.mt,hldy-data-k8s-gpu-h800-node0178.mt,hldy-data-k8s-gpu-h800-node0670.mt,hldy-data-k8s-gpu-h800-node0303.mt,hldy-data-k8s-gpu-h800-node0950.mt,hldy-data-k8s-gpu-h800-node0785.mt,hldy-data-k8s-gpu-h800-node0416.mt,hldy-data-k8s-gpu-h800-node0846.mt,hldy-data-k8s-gpu-h800-node0836.mt,hldy-data-k8s-gpu-h800-node0802.mt,hldy-data-k8s-gpu-h800-node0768.mt,hldy-data-k8s-gpu-h800-node1014.mt,hldy-data-k8s-gpu-h800-node0843.mt
+afo.role.am.not.node_name = hlsc-data-k8s-node0187.mt

hope/finetune_multistep.hope ADDED Viewed

	@@ -0,0 +1,68 @@

+[base]
+type = ml-vision
+[resource]
+usergroup = hadoop-camera3d
+queue = root.hldy_training_cluster.hadoop-aipnlp.h800_vi_sp
+[dataset]
+dataset_name =
+dataset_type =
+dataset_path =
+[job_track]
+demand_id = 91369190
+upstream_jobid =
+input_dir =
+output_dir =
+log_dir =
+[user_args]
+[roles]
+workers = 2
+worker.memory = 1920000
+worker.vcore = 128
+worker.gcoresh800-80g = 8
+worker.script = sh /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/Granular-GRPO/hope/json_parse_test.sh /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/DanceGRPO /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/conda-envs/dancegrpo-v2/bin/python fastvideo/train_g2rpo_hps.py 2 8
+worker.ports = 1
+[am]
+afo.app.am.resource.mb = 4096
+[tensorboard]
+with.tensor.board = false
+[docker]
+afo.docker.image.name = registryonline-hulk.sankuai.com/custom_prod/com.sankuai.data.hadoop.gpu/data-hadoop-camera3d_cuda12.4-nccl2.21.5-prod-10ab7b1d
+[data]
+afo.data.prefetch = false
+[failover]
+afo.app.support.engine.failover = true
+[conda]
+afo.conda.env.name =
+afo.conda.env.path =
+afo.conda.store.type =
+[distribute]
+afo.role.worker.gpu_driver_version = 470.103.01
+[others]
+afo.app.env.YARN_CONTAINER_RUNTIME_DOCKER_SHM_SIZE_BYTES = 640000000000
+afo.xm.notice.receivers.account = zhangshengjun02
+with_requirements = false
+afo.app.yarn.allocate.timeout.seconds = 3600000
+afo.app.blacklist.fail_times = 16
+#afo.role.worker.task.attempt.max.retry = 16
+afo.role.worker.task.attempt.max.retry = 1
+afo.dolphinfs.otherusers = hadoop-videogen-hl,hadoop-imagen-hl:true,hadoop-vision-data:true
+afo.use.hdfs.fuse=true
+afo.use.hdfs.fuse.subpath=:/mnt/hdfs
+afo.use.hdfs.fuse.readonly=false
+afo.role.worker.not.node_name = hldy-data-k8s-gpu-h800-node0483.mt,hldy-data-k8s-gpu-h800-node0866.mt,hldy-data-k8s-gpu-h800-node0187.mt,hldy-data-k8s-gpu-h800-node0059.mt,hldy-data-k8s-gpu-h800-node0178.mt,hldy-data-k8s-gpu-h800-node0670.mt,hldy-data-k8s-gpu-h800-node0303.mt,hldy-data-k8s-gpu-h800-node0950.mt,hldy-data-k8s-gpu-h800-node0785.mt,hldy-data-k8s-gpu-h800-node0416.mt,hldy-data-k8s-gpu-h800-node0846.mt,hldy-data-k8s-gpu-h800-node0836.mt,hldy-data-k8s-gpu-h800-node0802.mt,hldy-data-k8s-gpu-h800-node0768.mt,hldy-data-k8s-gpu-h800-node1014.mt,hldy-data-k8s-gpu-h800-node0843.mt
+afo.role.am.not.node_name = hlsc-data-k8s-node0187.mt

hope/finetune_rlpt.hope ADDED Viewed

	@@ -0,0 +1,68 @@

+[base]
+type = ml-vision
+[resource]
+usergroup = hadoop-camera3d
+queue = root.hldy_training_cluster.hadoop-aipnlp.h800_vi_sp
+[dataset]
+dataset_name =
+dataset_type =
+dataset_path =
+[job_track]
+demand_id = 91369190
+upstream_jobid =
+input_dir =
+output_dir =
+log_dir =
+[user_args]
+[roles]
+workers = 4
+worker.memory = 1920000
+worker.vcore = 128
+worker.gcoresh800-80g = 8
+worker.script = sh /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/Granular-GRPO/hope/finetune_rlpt.sh /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/DanceGRPO /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/conda-envs/dancegrpo-v2/bin/python fastvideo/train_g2rpo_rlpt_dino.py 4 8
+worker.ports = 1
+[am]
+afo.app.am.resource.mb = 4096
+[tensorboard]
+with.tensor.board = false
+[docker]
+afo.docker.image.name = registryonline-hulk.sankuai.com/custom_prod/com.sankuai.data.hadoop.gpu/data-hadoop-camera3d_cuda12.4-nccl2.21.5-prod-10ab7b1d
+[data]
+afo.data.prefetch = false
+[failover]
+afo.app.support.engine.failover = true
+[conda]
+afo.conda.env.name =
+afo.conda.env.path =
+afo.conda.store.type =
+[distribute]
+afo.role.worker.gpu_driver_version = 470.103.01
+[others]
+afo.app.env.YARN_CONTAINER_RUNTIME_DOCKER_SHM_SIZE_BYTES = 640000000000
+afo.xm.notice.receivers.account = zhangshengjun02
+with_requirements = false
+afo.app.yarn.allocate.timeout.seconds = 3600000
+afo.app.blacklist.fail_times = 16
+#afo.role.worker.task.attempt.max.retry = 16
+afo.role.worker.task.attempt.max.retry = 1
+afo.dolphinfs.otherusers = hadoop-videogen-hl,hadoop-imagen-hl:true,hadoop-vision-data:true
+afo.use.hdfs.fuse=true
+afo.use.hdfs.fuse.subpath=:/mnt/hdfs
+afo.use.hdfs.fuse.readonly=false
+afo.role.worker.not.node_name = hldy-data-k8s-gpu-h800-node0483.mt,hldy-data-k8s-gpu-h800-node0866.mt,hldy-data-k8s-gpu-h800-node0187.mt,hldy-data-k8s-gpu-h800-node0059.mt,hldy-data-k8s-gpu-h800-node0178.mt,hldy-data-k8s-gpu-h800-node0670.mt,hldy-data-k8s-gpu-h800-node0303.mt,hldy-data-k8s-gpu-h800-node0950.mt,hldy-data-k8s-gpu-h800-node0785.mt,hldy-data-k8s-gpu-h800-node0416.mt,hldy-data-k8s-gpu-h800-node0846.mt,hldy-data-k8s-gpu-h800-node0836.mt,hldy-data-k8s-gpu-h800-node0802.mt,hldy-data-k8s-gpu-h800-node0768.mt,hldy-data-k8s-gpu-h800-node1014.mt,hldy-data-k8s-gpu-h800-node0843.mt
+afo.role.am.not.node_name = hlsc-data-k8s-node0187.mt

hope/finetune_rlpt.sh ADDED Viewed

	@@ -0,0 +1,97 @@

+# cluster_spec='{"am":["psx2s7cxrbvmlcvk-am-0.psx2s7cxrbvmlcvk.hadoop-aipnlp.svc.cluster.local"],"index":"0","role":"worker","worker":["psx2s7cxrbvmlcvk-worker-0.psx2s7cxrbvmlcvk.hadoop-aipnlp.svc.cluster.local:3400","psx2s7cxrbvmlcvk-worker-1.psx2s7cxrbvmlcvk.hadoop-aipnlp.svc.cluster.local:3400"]}'
+# echo "cluster spec is $cluster_spec"
+WORK_DIR=$1
+PYTHON_BIN=$2
+SCRIPT=$3
+NNODES=$4
+NPROC_PER_NODE=$5
+echo "WORK_DIR is $WORK_DIR"
+echo "PYTHON_BIN is $PYTHON_BIN"
+echo "SCRIPT is $SCRIPT"
+echo "NNODES is $NNODES"
+echo "NPROC_PER_NODE is $NPROC_PER_NODE"
+PORT=${PORT:-29509}
+PYTHONPATH="$(dirname $0)/..":$PYTHONPATH \
+cluster_spec=${AFO_ENV_CLUSTER_SPEC//\"/\\\"}
+echo "cluster spec is $cluster_spec"
+# Assuming worker_list contains the JSON string (it's already been parsed)
+worker_list_command="import json_parser; data = json_parser.parse('$cluster_spec'); print(data['worker'])"
+worker_list=$($PYTHON_BIN -c "$worker_list_command")
+# Remove the square brackets and quotes from worker_list
+worker_list_cleaned=$(echo $worker_list | tr -d '[]' | tr -d "'")
+# Convert the cleaned worker list into an array by splitting by commas
+worker_strs=($(echo $worker_list_cleaned | tr ',' '\n'))
+# Extract the master (first worker)
+master=${worker_strs[0]}
+# Extract master address and port
+master_addr=$(echo $master | cut -d ':' -f1)
+master_port=$(echo $master | cut -d ':' -f2)
+# Output the master information without brackets and quotes
+echo "worker list is $worker_list_cleaned"
+echo "master is $master"
+echo "master address is $master_addr"
+echo "master port is $master_port"
+worker_list_command="import json_parser; data = json_parser.parse('$cluster_spec'); print(data['index'])"
+node_rank=$($PYTHON_BIN -c "$worker_list_command")
+echo "node rank is $node_rank"
+dist_url="tcp://$master_addr:$master_port"
+echo "dist url is $dist_url"
+export TOKENIZERS_PARALLELISM=false
+export OMP_NUM_THREADS=1
+export NCCL_DEBUG=INFO
+export TORCH_NCCL_ASYNC_ERROR_HANDLING=1
+export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+export TORCH_FORCE_NO_WEIGHTS_ONLY_LOAD=1
+### launch with DDP (multi-machines-multi-gpus)
+source scl_source enable devtoolset-7
+ifconfig
+cd $WORK_DIR=/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/Granular-GRPO
+$PYTHON_BIN -m torch.distributed.run \
+--nnodes=$NNODES --nproc_per_node=$NPROC_PER_NODE --node_rank=$node_rank --master_addr=$master_addr --master_port=$PORT \
+$SCRIPT \
+--seed 42 \
+--pretrained_model_name_or_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/ckpt/flux \
+--hps_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/ckpt/hps/HPS_v2.1_compressed.pt \
+--hps_clip_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/ckpt/CLIP-ViT-H-14-laion2B-s32B-b79K/open_clip_pytorch_model.bin \
+--dino_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/dinov2 \
+--data_json_path /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/datasets/flux_rl_embeddings/videos2caption.json \
+--gradient_checkpointing \
+--train_batch_size 1 \
+--num_latent_t 1 \
+--sp_size 1 \
+--train_sp_batch_size 1 \
+--dataloader_num_workers 4 \
+--max_train_steps 151 \
+--learning_rate 2e-6 \
+--mixed_precision bf16 \
+--checkpointing_steps 30 \
+--cfg 0.0 \
+--output_dir /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/checkpoints/G2RPO/save_exp_rlpt/dino_gt_1022 \
+--h 1024 \
+--w 1024 \
+--t 1 \
+--sampling_steps 16 \
+--eta 0.7 \
+--lr_warmup_steps 0 \
+--sampler_seed 1223627 \
+--max_grad_norm 1.0 \
+--weight_decay 0.0001 \
+--num_generations 12 \
+--shift 3 \
+--init_same_noise \
+--clip_range 1e-4 \
+--adv_clip_max 5.0 \
+--eta_step_list 0 1 2 3 4 5 6 7 \
+--granular_list 1 \

hope/finetune_rlpt_from_noise.hope ADDED Viewed

	@@ -0,0 +1,68 @@

+[base]
+type = ml-vision
+[resource]
+usergroup = hadoop-camera3d
+queue = root.hldy_training_cluster.hadoop-aipnlp.h800_vi_sp
+[dataset]
+dataset_name =
+dataset_type =
+dataset_path =
+[job_track]
+demand_id = 91369190
+upstream_jobid =
+input_dir =
+output_dir =
+log_dir =
+[user_args]
+[roles]
+workers = 4
+worker.memory = 1920000
+worker.vcore = 128
+worker.gcoresh800-80g = 8
+worker.script = sh /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/Granular-GRPO/hope/finetune_rlpt_from_noise.sh /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/DanceGRPO /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/conda-envs/dancegrpo-v2/bin/python fastvideo/train_g2rpo_rlpt_from_noise.py 4 8
+worker.ports = 1
+[am]
+afo.app.am.resource.mb = 4096
+[tensorboard]
+with.tensor.board = false
+[docker]
+afo.docker.image.name = registryonline-hulk.sankuai.com/custom_prod/com.sankuai.data.hadoop.gpu/data-hadoop-camera3d_cuda12.4-nccl2.21.5-prod-10ab7b1d
+[data]
+afo.data.prefetch = false
+[failover]
+afo.app.support.engine.failover = true
+[conda]
+afo.conda.env.name =
+afo.conda.env.path =
+afo.conda.store.type =
+[distribute]
+afo.role.worker.gpu_driver_version = 470.103.01
+[others]
+afo.app.env.YARN_CONTAINER_RUNTIME_DOCKER_SHM_SIZE_BYTES = 640000000000
+afo.xm.notice.receivers.account = zhangshengjun02
+with_requirements = false
+afo.app.yarn.allocate.timeout.seconds = 3600000
+afo.app.blacklist.fail_times = 16
+#afo.role.worker.task.attempt.max.retry = 16
+afo.role.worker.task.attempt.max.retry = 1
+afo.dolphinfs.otherusers = hadoop-videogen-hl,hadoop-imagen-hl:true,hadoop-vision-data:true
+afo.use.hdfs.fuse=true
+afo.use.hdfs.fuse.subpath=:/mnt/hdfs
+afo.use.hdfs.fuse.readonly=false
+afo.role.worker.not.node_name = hldy-data-k8s-gpu-h800-node0483.mt,hldy-data-k8s-gpu-h800-node0866.mt,hldy-data-k8s-gpu-h800-node0187.mt,hldy-data-k8s-gpu-h800-node0059.mt,hldy-data-k8s-gpu-h800-node0178.mt,hldy-data-k8s-gpu-h800-node0670.mt,hldy-data-k8s-gpu-h800-node0303.mt,hldy-data-k8s-gpu-h800-node0950.mt,hldy-data-k8s-gpu-h800-node0785.mt,hldy-data-k8s-gpu-h800-node0416.mt,hldy-data-k8s-gpu-h800-node0846.mt,hldy-data-k8s-gpu-h800-node0836.mt,hldy-data-k8s-gpu-h800-node0802.mt,hldy-data-k8s-gpu-h800-node0768.mt,hldy-data-k8s-gpu-h800-node1014.mt,hldy-data-k8s-gpu-h800-node0843.mt
+afo.role.am.not.node_name = hlsc-data-k8s-node0187.mt

hope/finetune_tempflow_multi.hope ADDED Viewed

	@@ -0,0 +1,68 @@

+[base]
+type = ml-vision
+[resource]
+usergroup = hadoop-camera3d
+queue = root.hldy_training_cluster.hadoop-aipnlp.h800_vi_sp
+[dataset]
+dataset_name =
+dataset_type =
+dataset_path =
+[job_track]
+demand_id = 91369190
+upstream_jobid =
+input_dir =
+output_dir =
+log_dir =
+[user_args]
+[roles]
+workers = 1
+worker.memory = 1920000
+worker.vcore = 128
+worker.gcoresh800-80g = 8
+worker.script = sh /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/Granular-GRPO/hope/finetune_tempflow_multi.sh /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/DanceGRPO /mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/zhangshengjun/conda-envs/dancegrpo-v2/bin/python fastvideo/train_tempflow_hps_clip.py 1 8
+worker.ports = 1
+[am]
+afo.app.am.resource.mb = 4096
+[tensorboard]
+with.tensor.board = false
+[docker]
+afo.docker.image.name = registryonline-hulk.sankuai.com/custom_prod/com.sankuai.data.hadoop.gpu/data-hadoop-camera3d_cuda12.4-nccl2.21.5-prod-10ab7b1d
+[data]
+afo.data.prefetch = false
+[failover]
+afo.app.support.engine.failover = true
+[conda]
+afo.conda.env.name =
+afo.conda.env.path =
+afo.conda.store.type =
+[distribute]
+afo.role.worker.gpu_driver_version = 470.103.01
+[others]
+afo.app.env.YARN_CONTAINER_RUNTIME_DOCKER_SHM_SIZE_BYTES = 640000000000
+afo.xm.notice.receivers.account = zhangshengjun02
+with_requirements = false
+afo.app.yarn.allocate.timeout.seconds = 3600000
+afo.app.blacklist.fail_times = 16
+#afo.role.worker.task.attempt.max.retry = 16
+afo.role.worker.task.attempt.max.retry = 1
+afo.dolphinfs.otherusers = hadoop-videogen-hl,hadoop-imagen-hl:true,hadoop-vision-data:true
+afo.use.hdfs.fuse=true
+afo.use.hdfs.fuse.subpath=:/mnt/hdfs
+afo.use.hdfs.fuse.readonly=false
+afo.role.worker.not.node_name = hldy-data-k8s-gpu-h800-node0483.mt,hldy-data-k8s-gpu-h800-node0866.mt,hldy-data-k8s-gpu-h800-node0187.mt,hldy-data-k8s-gpu-h800-node0059.mt,hldy-data-k8s-gpu-h800-node0178.mt,hldy-data-k8s-gpu-h800-node0670.mt,hldy-data-k8s-gpu-h800-node0303.mt,hldy-data-k8s-gpu-h800-node0950.mt,hldy-data-k8s-gpu-h800-node0785.mt,hldy-data-k8s-gpu-h800-node0416.mt,hldy-data-k8s-gpu-h800-node0846.mt,hldy-data-k8s-gpu-h800-node0836.mt,hldy-data-k8s-gpu-h800-node0802.mt,hldy-data-k8s-gpu-h800-node0768.mt,hldy-data-k8s-gpu-h800-node1014.mt,hldy-data-k8s-gpu-h800-node0843.mt
+afo.role.am.not.node_name = hlsc-data-k8s-node0187.mt