wuruiqi0722 commited on Feb 5

Commit

01c7703

verified ·

1 Parent(s): ff3a6e0

Upload folder using huggingface_hub

Browse files

Files changed (37) hide show

.gitattributes +3 -0
.gitignore +2 -0
assets/example_case/0001.jpg +3 -0
assets/example_case/0001.json +5586 -0
assets/example_case/0002.jpg +3 -0
assets/example_case/0002.json +6234 -0
assets/framework.png +3 -0
configs/infworld_config.yaml +73 -0
infer_local.sh +31 -0
infworld/__init__.py +1 -0
infworld/clip/__init__.py +1 -0
infworld/clip/clip.py +663 -0
infworld/clip/tokenizers.py +82 -0
infworld/clip/xlm_roberta.py +170 -0
infworld/configs/__init__.py +1 -0
infworld/configs/bucket_config.py +155 -0
infworld/context_parallel/__init__.py +1 -0
infworld/context_parallel/context_parallel_util.py +405 -0
infworld/models/__init__.py +1 -0
infworld/models/checkpoint.py +24 -0
infworld/models/dit_model.py +1285 -0
infworld/models/scheduler.py +306 -0
infworld/models/t5.py +321 -0
infworld/models/umt5.py +605 -0
infworld/utils/__init__.py +1 -0
infworld/utils/data_utils.py +854 -0
infworld/utils/dataset_utils.py +665 -0
infworld/utils/prepare_dataloader.py +133 -0
infworld/utils/registry.py +39 -0
infworld/vae/__init__.py +48 -0
infworld/vae/vae.py +674 -0
prompts/demo.yaml +10 -0
readme.md +144 -0
requirements.txt +89 -0
scripts/infworld_inference.py +384 -0
scripts/upload_to_hf.py +86 -0
setup_project.py +140 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+assets/example_case/0001.jpg filter=lfs diff=lfs merge=lfs -text
+assets/example_case/0002.jpg filter=lfs diff=lfs merge=lfs -text
+assets/framework.png filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ outputs
2	+ checkpoints

assets/example_case/0001.jpg ADDED Viewed

Git LFS Details

SHA256: af6a9aff8f0bd82b871ec1d6f8bc61cfe4c8082b1b65ed72ded9883549e87a25
Pointer size: 132 Bytes
Size of remote file: 2.81 MB

assets/example_case/0001.json ADDED Viewed

	@@ -0,0 +1,5586 @@

+[
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  }
+]

assets/example_case/0002.jpg ADDED Viewed

Git LFS Details

SHA256: 52b3e8048f19afa36a2103b2799d5753676ea65169a40a85abdbbd737af24b34
Pointer size: 132 Bytes
Size of remote file: 2.75 MB

assets/example_case/0002.json ADDED Viewed

	@@ -0,0 +1,6234 @@

+[
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn up"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn down"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "go forward",
+    "view": "no-op"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn left"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  },
+  {
+    "move": "no-op",
+    "view": "turn right"
+  }
+]

assets/framework.png ADDED Viewed

Git LFS Details

SHA256: 4a4806f577b3871c7a0e370269fe7ca846a0dc09f8b680c9758f2b3325a28115
Pointer size: 131 Bytes
Size of remote file: 643 kB

configs/infworld_config.yaml ADDED Viewed

	@@ -0,0 +1,73 @@

+# Infinite World - Model Configuration
+# Download from https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B and put files under checkpoints/models/
+# Paths below are relative to project root unless absolute.
+##########################
+### DiT checkpoint (from config)
+##########################
+# HF: diffusion_pytorch_model.safetensors; or your training .ckpt
+checkpoint_path: "checkpoints/infinite_world_model.ckpt"
+##########################
+### text encoder config
+##########################
+text_encoder_target: infworld.models.umt5.T5EncoderModel
+text_encoder_cfg:
+  checkpoint_path: "checkpoints/models/models_t5_umt5-xxl-enc-bf16.pth"
+  tokenizer_path: "checkpoints/models/google/umt5-xxl"
+  model_max_length: 512
+##########################
+### scheduler config
+##########################
+scheduler_target: infworld.models.scheduler.RFlowScheduler
+val_scheduler_cfg:
+  shift: 7.0  # PX256: 3, PX627: 7, PX960: 11
+  use_reversed_velocity: true
+  use_timestep_transform: true
+  num_sampling_steps: 30
+  audio_cfg_scale: 5.0
+  text_cfg_scale: 5.0
+##########################
+### model config
+##########################
+model_target: infworld.models.dit_model.WanModel
+# 1.3B model config
+model_cfg:
+  model_type: t2v
+  dim: 1536
+  in_channels: 20
+  ffn_dim: 8960
+  freq_dim: 256
+  num_heads: 12
+  num_layers: 30
+##########################
+### VAE config
+##########################
+vae_target: infworld.vae.WanVAEModelWrapper
+vae_cfg:
+  vae_pth: "checkpoints/models/Wan2.1_VAE.pth"
+##########################
+### validation config
+##########################
+validation_data:
+  num_frames: 81
+##########################
+### other config
+##########################
+amp_dtype: "bfloat16"

infer_local.sh ADDED Viewed

	@@ -0,0 +1,31 @@

+#!/bin/bash
+# Infinite World - Local Inference Script (Single/Multi GPU)
+# Usage: bash infer_local.sh [num_gpus]
+# Example: bash infer_local.sh 1   (single GPU, no torchrun, avoids port conflict)
+# Example: bash infer_local.sh 8   (8 GPUs via torchrun)
+#
+# Single GPU (num_gpus=1): runs "python scripts/..." directly, no port needed.
+# Multi GPU: runs torchrun. If EADDRINUSE, set: export MASTER_PORT=29500
+NUM_GPUS=${1:-1}
+WORK_DIR="/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/wuruiqi/infinite-world"
+cd $WORK_DIR
+echo "=============================================="
+echo "Infinite World - Local Inference"
+echo "=============================================="
+echo "Using $NUM_GPUS GPU(s)"
+echo "Working directory: $WORK_DIR"
+if [ "$NUM_GPUS" -eq 1 ]; then
+    # Single GPU: run directly to avoid torchrun port (EADDRINUSE)
+    python scripts/infworld_inference.py
+else
+    MASTER_PORT=${MASTER_PORT:-29400}
+    echo "MASTER_PORT: $MASTER_PORT"
+    torchrun --nnodes=1 --nproc_per_node=$NUM_GPUS \
+        --rdzv_id=100 --rdzv_backend=c10d \
+        --rdzv_endpoint=localhost:$MASTER_PORT \
+        scripts/infworld_inference.py
+fi

infworld/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ # infworld package

infworld/clip/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ # infworld/clip package

infworld/clip/clip.py ADDED Viewed

	@@ -0,0 +1,663 @@

+# Modified from ``https://github.com/openai/CLIP'' and ``https://github.com/mlfoundations/open_clip''
+# Copyright 2024-2025 The Alibaba Wan Team Authors. All rights reserved.
+import logging
+import warnings
+import math
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import torchvision.transforms as T
+try:
+    import flash_attn_interface
+    FLASH_ATTN_3_AVAILABLE = True
+except ModuleNotFoundError:
+    FLASH_ATTN_3_AVAILABLE = False
+try:
+    import flash_attn
+    FLASH_ATTN_2_AVAILABLE = True
+except ModuleNotFoundError:
+    FLASH_ATTN_2_AVAILABLE = False
+from infworld.clip.tokenizers import HuggingfaceTokenizer
+from infworld.clip.xlm_roberta import XLMRoberta
+__all__ = [
+    'XLMRobertaCLIP',
+    'clip_xlm_roberta_vit_h_14',
+    'CLIPModel',
+]
+def flash_attention(
+    q,
+    k,
+    v,
+    q_lens=None,
+    k_lens=None,
+    dropout_p=0.,
+    softmax_scale=None,
+    q_scale=None,
+    causal=False,
+    window_size=(-1, -1),
+    deterministic=False,
+    dtype=torch.bfloat16,
+    version=None,
+):
+    """
+    q:              [B, Lq, Nq, C1].
+    k:              [B, Lk, Nk, C1].
+    v:              [B, Lk, Nk, C2]. Nq must be divisible by Nk.
+    q_lens:         [B].
+    k_lens:         [B].
+    dropout_p:      float. Dropout probability.
+    softmax_scale:  float. The scaling of QK^T before applying softmax.
+    causal:         bool. Whether to apply causal attention mask.
+    window_size:    (left right). If not (-1, -1), apply sliding window local attention.
+    deterministic:  bool. If True, slightly slower and uses more memory.
+    dtype:          torch.dtype. Apply when dtype of q/k/v is not float16/bfloat16.
+    """
+    half_dtypes = (torch.float16, torch.bfloat16)
+    assert dtype in half_dtypes
+    assert q.device.type == 'cuda' and q.size(-1) <= 256
+    # params
+    b, lq, lk, out_dtype = q.size(0), q.size(1), k.size(1), q.dtype
+    def half(x):
+        return x if x.dtype in half_dtypes else x.to(dtype)
+    # preprocess query
+    if q_lens is None:
+        q = half(q.flatten(0, 1))
+        q_lens = torch.tensor(
+            [lq] * b, dtype=torch.int32).to(
+                device=q.device, non_blocking=True)
+    else:
+        q = half(torch.cat([u[:v] for u, v in zip(q, q_lens)]))
+    # preprocess key, value
+    if k_lens is None:
+        k = half(k.flatten(0, 1))
+        v = half(v.flatten(0, 1))
+        k_lens = torch.tensor(
+            [lk] * b, dtype=torch.int32).to(
+                device=k.device, non_blocking=True)
+    else:
+        k = half(torch.cat([u[:v] for u, v in zip(k, k_lens)]))
+        v = half(torch.cat([u[:v] for u, v in zip(v, k_lens)]))
+    q = q.to(v.dtype)
+    k = k.to(v.dtype)
+    if q_scale is not None:
+        q = q * q_scale
+    if version is not None and version == 3 and not FLASH_ATTN_3_AVAILABLE:
+        warnings.warn(
+            'Flash attention 3 is not available, use flash attention 2 instead.'
+        )
+    # apply attention
+    if (version is None or version == 3) and FLASH_ATTN_3_AVAILABLE:
+        # Note: dropout_p, window_size are not supported in FA3 now.
+        x = flash_attn_interface.flash_attn_varlen_func(
+            q=q,
+            k=k,
+            v=v,
+            cu_seqlens_q=torch.cat([q_lens.new_zeros([1]), q_lens]).cumsum(
+                0, dtype=torch.int32).to(q.device, non_blocking=True),
+            cu_seqlens_k=torch.cat([k_lens.new_zeros([1]), k_lens]).cumsum(
+                0, dtype=torch.int32).to(q.device, non_blocking=True),
+            seqused_q=None,
+            seqused_k=None,
+            max_seqlen_q=lq,
+            max_seqlen_k=lk,
+            softmax_scale=softmax_scale,
+            causal=causal,
+            deterministic=deterministic)[0].unflatten(0, (b, lq))
+    else:
+        assert FLASH_ATTN_2_AVAILABLE
+        x = flash_attn.flash_attn_varlen_func(
+            q=q,
+            k=k,
+            v=v,
+            cu_seqlens_q=torch.cat([q_lens.new_zeros([1]), q_lens]).cumsum(
+                0, dtype=torch.int32).to(q.device, non_blocking=True),
+            cu_seqlens_k=torch.cat([k_lens.new_zeros([1]), k_lens]).cumsum(
+                0, dtype=torch.int32).to(q.device, non_blocking=True),
+            max_seqlen_q=lq,
+            max_seqlen_k=lk,
+            dropout_p=dropout_p,
+            softmax_scale=softmax_scale,
+            causal=causal,
+            window_size=window_size,
+            deterministic=deterministic).unflatten(0, (b, lq))
+    # output
+    return x.type(out_dtype)
+def pos_interpolate(pos, seq_len):
+    if pos.size(1) == seq_len:
+        return pos
+    else:
+        src_grid = int(math.sqrt(pos.size(1)))
+        tar_grid = int(math.sqrt(seq_len))
+        n = pos.size(1) - src_grid * src_grid
+        return torch.cat([
+            pos[:, :n],
+            F.interpolate(
+                pos[:, n:].float().reshape(1, src_grid, src_grid, -1).permute(
+                    0, 3, 1, 2),
+                size=(tar_grid, tar_grid),
+                mode='bicubic',
+                align_corners=False).flatten(2).transpose(1, 2)
+        ],
+                         dim=1)
+class QuickGELU(nn.Module):
+    def forward(self, x):
+        return x * torch.sigmoid(1.702 * x)
+class LayerNorm(nn.LayerNorm):
+    def forward(self, x):
+        return super().forward(x.float()).type_as(x)
+class SelfAttention(nn.Module):
+    def __init__(self,
+                 dim,
+                 num_heads,
+                 causal=False,
+                 attn_dropout=0.0,
+                 proj_dropout=0.0):
+        assert dim % num_heads == 0
+        super().__init__()
+        self.dim = dim
+        self.num_heads = num_heads
+        self.head_dim = dim // num_heads
+        self.causal = causal
+        self.attn_dropout = attn_dropout
+        self.proj_dropout = proj_dropout
+        # layers
+        self.to_qkv = nn.Linear(dim, dim * 3)
+        self.proj = nn.Linear(dim, dim)
+    def forward(self, x):
+        """
+        x:   [B, L, C].
+        """
+        b, s, c, n, d = *x.size(), self.num_heads, self.head_dim
+        # compute query, key, value
+        q, k, v = self.to_qkv(x).view(b, s, 3, n, d).unbind(2)
+        # compute attention
+        p = self.attn_dropout if self.training else 0.0
+        x = flash_attention(q, k, v, dropout_p=p, causal=self.causal, version=2)
+        x = x.reshape(b, s, c)
+        # output
+        x = self.proj(x)
+        x = F.dropout(x, self.proj_dropout, self.training)
+        return x
+class SwiGLU(nn.Module):
+    def __init__(self, dim, mid_dim):
+        super().__init__()
+        self.dim = dim
+        self.mid_dim = mid_dim
+        # layers
+        self.fc1 = nn.Linear(dim, mid_dim)
+        self.fc2 = nn.Linear(dim, mid_dim)
+        self.fc3 = nn.Linear(mid_dim, dim)
+    def forward(self, x):
+        x = F.silu(self.fc1(x)) * self.fc2(x)
+        x = self.fc3(x)
+        return x
+class AttentionBlock(nn.Module):
+    def __init__(self,
+                 dim,
+                 mlp_ratio,
+                 num_heads,
+                 post_norm=False,
+                 causal=False,
+                 activation='quick_gelu',
+                 attn_dropout=0.0,
+                 proj_dropout=0.0,
+                 norm_eps=1e-5):
+        assert activation in ['quick_gelu', 'gelu', 'swi_glu']
+        super().__init__()
+        self.dim = dim
+        self.mlp_ratio = mlp_ratio
+        self.num_heads = num_heads
+        self.post_norm = post_norm
+        self.causal = causal
+        self.norm_eps = norm_eps
+        # layers
+        self.norm1 = LayerNorm(dim, eps=norm_eps)
+        self.attn = SelfAttention(dim, num_heads, causal, attn_dropout,
+                                  proj_dropout)
+        self.norm2 = LayerNorm(dim, eps=norm_eps)
+        if activation == 'swi_glu':
+            self.mlp = SwiGLU(dim, int(dim * mlp_ratio))
+        else:
+            self.mlp = nn.Sequential(
+                nn.Linear(dim, int(dim * mlp_ratio)),
+                QuickGELU() if activation == 'quick_gelu' else nn.GELU(),
+                nn.Linear(int(dim * mlp_ratio), dim), nn.Dropout(proj_dropout))
+    def forward(self, x):
+        if self.post_norm:
+            x = x + self.norm1(self.attn(x))
+            x = x + self.norm2(self.mlp(x))
+        else:
+            x = x + self.attn(self.norm1(x))
+            x = x + self.mlp(self.norm2(x))
+        return x
+class AttentionPool(nn.Module):
+    def __init__(self,
+                 dim,
+                 mlp_ratio,
+                 num_heads,
+                 activation='gelu',
+                 proj_dropout=0.0,
+                 norm_eps=1e-5):
+        assert dim % num_heads == 0
+        super().__init__()
+        self.dim = dim
+        self.mlp_ratio = mlp_ratio
+        self.num_heads = num_heads
+        self.head_dim = dim // num_heads
+        self.proj_dropout = proj_dropout
+        self.norm_eps = norm_eps
+        # layers
+        gain = 1.0 / math.sqrt(dim)
+        self.cls_embedding = nn.Parameter(gain * torch.randn(1, 1, dim))
+        self.to_q = nn.Linear(dim, dim)
+        self.to_kv = nn.Linear(dim, dim * 2)
+        self.proj = nn.Linear(dim, dim)
+        self.norm = LayerNorm(dim, eps=norm_eps)
+        self.mlp = nn.Sequential(
+            nn.Linear(dim, int(dim * mlp_ratio)),
+            QuickGELU() if activation == 'quick_gelu' else nn.GELU(),
+            nn.Linear(int(dim * mlp_ratio), dim), nn.Dropout(proj_dropout))
+    def forward(self, x):
+        """
+        x:  [B, L, C].
+        """
+        b, s, c, n, d = *x.size(), self.num_heads, self.head_dim
+        # compute query, key, value
+        q = self.to_q(self.cls_embedding).view(1, 1, n, d).expand(b, -1, -1, -1)
+        k, v = self.to_kv(x).view(b, s, 2, n, d).unbind(2)
+        # compute attention
+        x = flash_attention(q, k, v, version=2)
+        x = x.reshape(b, 1, c)
+        # output
+        x = self.proj(x)
+        x = F.dropout(x, self.proj_dropout, self.training)
+        # mlp
+        x = x + self.mlp(self.norm(x))
+        return x[:, 0]
+class VisionTransformer(nn.Module):
+    def __init__(self,
+                 image_size=224,
+                 patch_size=16,
+                 dim=768,
+                 mlp_ratio=4,
+                 out_dim=512,
+                 num_heads=12,
+                 num_layers=12,
+                 pool_type='token',
+                 pre_norm=True,
+                 post_norm=False,
+                 activation='quick_gelu',
+                 attn_dropout=0.0,
+                 proj_dropout=0.0,
+                 embedding_dropout=0.0,
+                 norm_eps=1e-5):
+        if image_size % patch_size != 0:
+            print(
+                '[WARNING] image_size is not divisible by patch_size',
+                flush=True)
+        assert pool_type in ('token', 'token_fc', 'attn_pool')
+        out_dim = out_dim or dim
+        super().__init__()
+        self.image_size = image_size
+        self.patch_size = patch_size
+        self.num_patches = (image_size // patch_size)**2
+        self.dim = dim
+        self.mlp_ratio = mlp_ratio
+        self.out_dim = out_dim
+        self.num_heads = num_heads
+        self.num_layers = num_layers
+        self.pool_type = pool_type
+        self.post_norm = post_norm
+        self.norm_eps = norm_eps
+        # embeddings
+        gain = 1.0 / math.sqrt(dim)
+        self.patch_embedding = nn.Conv2d(
+            3,
+            dim,
+            kernel_size=patch_size,
+            stride=patch_size,
+            bias=not pre_norm)
+        if pool_type in ('token', 'token_fc'):
+            self.cls_embedding = nn.Parameter(gain * torch.randn(1, 1, dim))
+        self.pos_embedding = nn.Parameter(gain * torch.randn(
+            1, self.num_patches +
+            (1 if pool_type in ('token', 'token_fc') else 0), dim))
+        self.dropout = nn.Dropout(embedding_dropout)
+        # transformer
+        self.pre_norm = LayerNorm(dim, eps=norm_eps) if pre_norm else None
+        self.transformer = nn.Sequential(*[
+            AttentionBlock(dim, mlp_ratio, num_heads, post_norm, False,
+                           activation, attn_dropout, proj_dropout, norm_eps)
+            for _ in range(num_layers)
+        ])
+        self.post_norm = LayerNorm(dim, eps=norm_eps)
+        # head
+        if pool_type == 'token':
+            self.head = nn.Parameter(gain * torch.randn(dim, out_dim))
+        elif pool_type == 'token_fc':
+            self.head = nn.Linear(dim, out_dim)
+        elif pool_type == 'attn_pool':
+            self.head = AttentionPool(dim, mlp_ratio, num_heads, activation,
+                                      proj_dropout, norm_eps)
+    def forward(self, x, interpolation=False, use_31_block=False):
+        b = x.size(0)
+        # embeddings
+        x = self.patch_embedding(x).flatten(2).permute(0, 2, 1)
+        if self.pool_type in ('token', 'token_fc'):
+            x = torch.cat([self.cls_embedding.expand(b, -1, -1), x], dim=1)
+        if interpolation:
+            e = pos_interpolate(self.pos_embedding, x.size(1))
+        else:
+            e = self.pos_embedding
+        x = self.dropout(x + e)
+        if self.pre_norm is not None:
+            x = self.pre_norm(x)
+        # transformer
+        if use_31_block:
+            x = self.transformer[:-1](x)
+            return x
+        else:
+            x = self.transformer(x)
+            return x
+class XLMRobertaWithHead(XLMRoberta):
+    def __init__(self, **kwargs):
+        self.out_dim = kwargs.pop('out_dim')
+        super().__init__(**kwargs)
+        # head
+        mid_dim = (self.dim + self.out_dim) // 2
+        self.head = nn.Sequential(
+            nn.Linear(self.dim, mid_dim, bias=False), nn.GELU(),
+            nn.Linear(mid_dim, self.out_dim, bias=False))
+    def forward(self, ids):
+        # xlm-roberta
+        x = super().forward(ids)
+        # average pooling
+        mask = ids.ne(self.pad_id).unsqueeze(-1).to(x)
+        x = (x * mask).sum(dim=1) / mask.sum(dim=1)
+        # head
+        x = self.head(x)
+        return x
+class XLMRobertaCLIP(nn.Module):
+    def __init__(self,
+                 embed_dim=1024,
+                 image_size=224,
+                 patch_size=14,
+                 vision_dim=1280,
+                 vision_mlp_ratio=4,
+                 vision_heads=16,
+                 vision_layers=32,
+                 vision_pool='token',
+                 vision_pre_norm=True,
+                 vision_post_norm=False,
+                 activation='gelu',
+                 vocab_size=250002,
+                 max_text_len=514,
+                 type_size=1,
+                 pad_id=1,
+                 text_dim=1024,
+                 text_heads=16,
+                 text_layers=24,
+                 text_post_norm=True,
+                 text_dropout=0.1,
+                 attn_dropout=0.0,
+                 proj_dropout=0.0,
+                 embedding_dropout=0.0,
+                 norm_eps=1e-5):
+        super().__init__()
+        self.embed_dim = embed_dim
+        self.image_size = image_size
+        self.patch_size = patch_size
+        self.vision_dim = vision_dim
+        self.vision_mlp_ratio = vision_mlp_ratio
+        self.vision_heads = vision_heads
+        self.vision_layers = vision_layers
+        self.vision_pre_norm = vision_pre_norm
+        self.vision_post_norm = vision_post_norm
+        self.activation = activation
+        self.vocab_size = vocab_size
+        self.max_text_len = max_text_len
+        self.type_size = type_size
+        self.pad_id = pad_id
+        self.text_dim = text_dim
+        self.text_heads = text_heads
+        self.text_layers = text_layers
+        self.text_post_norm = text_post_norm
+        self.norm_eps = norm_eps
+        # models
+        self.visual = VisionTransformer(
+            image_size=image_size,
+            patch_size=patch_size,
+            dim=vision_dim,
+            mlp_ratio=vision_mlp_ratio,
+            out_dim=embed_dim,
+            num_heads=vision_heads,
+            num_layers=vision_layers,
+            pool_type=vision_pool,
+            pre_norm=vision_pre_norm,
+            post_norm=vision_post_norm,
+            activation=activation,
+            attn_dropout=attn_dropout,
+            proj_dropout=proj_dropout,
+            embedding_dropout=embedding_dropout,
+            norm_eps=norm_eps)
+        self.textual = XLMRobertaWithHead(
+            vocab_size=vocab_size,
+            max_seq_len=max_text_len,
+            type_size=type_size,
+            pad_id=pad_id,
+            dim=text_dim,
+            out_dim=embed_dim,
+            num_heads=text_heads,
+            num_layers=text_layers,
+            post_norm=text_post_norm,
+            dropout=text_dropout)
+        self.log_scale = nn.Parameter(math.log(1 / 0.07) * torch.ones([]))
+    def forward(self, imgs, txt_ids):
+        """
+        imgs:       [B, 3, H, W] of torch.float32.
+        - mean:     [0.48145466, 0.4578275, 0.40821073]
+        - std:      [0.26862954, 0.26130258, 0.27577711]
+        txt_ids:    [B, L] of torch.long.
+                    Encoded by data.CLIPTokenizer.
+        """
+        xi = self.visual(imgs)
+        xt = self.textual(txt_ids)
+        return xi, xt
+    def param_groups(self):
+        groups = [{
+            'params': [
+                p for n, p in self.named_parameters()
+                if 'norm' in n or n.endswith('bias')
+            ],
+            'weight_decay': 0.0
+        }, {
+            'params': [
+                p for n, p in self.named_parameters()
+                if not ('norm' in n or n.endswith('bias'))
+            ]
+        }]
+        return groups
+def _clip(pretrained=False,
+          pretrained_name=None,
+          model_cls=XLMRobertaCLIP,
+          return_transforms=False,
+          return_tokenizer=False,
+          tokenizer_padding='eos',
+          dtype=torch.float32,
+          device='cpu',
+          **kwargs):
+    # init a model on device
+    with torch.device(device):
+        model = model_cls(**kwargs)
+    # set device
+    model = model.to(dtype=dtype, device=device)
+    output = (model,)
+    # init transforms
+    if return_transforms:
+        # mean and std
+        if 'siglip' in pretrained_name.lower():
+            mean, std = [0.5, 0.5, 0.5], [0.5, 0.5, 0.5]
+        else:
+            mean = [0.48145466, 0.4578275, 0.40821073]
+            std = [0.26862954, 0.26130258, 0.27577711]
+        # transforms
+        transforms = T.Compose([
+            T.Resize((model.image_size, model.image_size),
+                     interpolation=T.InterpolationMode.BICUBIC),
+            T.ToTensor(),
+            T.Normalize(mean=mean, std=std)
+        ])
+        output += (transforms,)
+    return output[0] if len(output) == 1 else output
+def clip_xlm_roberta_vit_h_14(
+        pretrained=False,
+        pretrained_name='open-clip-xlm-roberta-large-vit-huge-14',
+        **kwargs):
+    cfg = dict(
+        embed_dim=1024,
+        image_size=224,
+        patch_size=14,
+        vision_dim=1280,
+        vision_mlp_ratio=4,
+        vision_heads=16,
+        vision_layers=32,
+        vision_pool='token',
+        activation='gelu',
+        vocab_size=250002,
+        max_text_len=514,
+        type_size=1,
+        pad_id=1,
+        text_dim=1024,
+        text_heads=16,
+        text_layers=24,
+        text_post_norm=True,
+        text_dropout=0.1,
+        attn_dropout=0.0,
+        proj_dropout=0.0,
+        embedding_dropout=0.0)
+    cfg.update(**kwargs)
+    return _clip(pretrained, pretrained_name, XLMRobertaCLIP, **cfg)
+class CLIPModel:
+    def __init__(self, device, checkpoint_path, tokenizer_path, dtype=torch.float16):
+        self.dtype = dtype
+        self.device = device
+        self.checkpoint_path = checkpoint_path
+        self.tokenizer_path = tokenizer_path
+        # init model
+        self.model, self.transforms = clip_xlm_roberta_vit_h_14(
+            pretrained=False,
+            return_transforms=True,
+            return_tokenizer=False,
+            dtype=dtype,
+            device=device)
+        self.model = self.model.eval().requires_grad_(False)
+        logging.info(f'loading {checkpoint_path}')
+        self.model.load_state_dict(
+            torch.load(checkpoint_path, map_location='cpu'))
+        # init tokenizer
+        self.tokenizer = HuggingfaceTokenizer(
+            name=tokenizer_path,
+            seq_len=self.model.max_text_len - 2,
+            clean='whitespace')
+    def visual(self, videos):
+        # preprocess, list, C 1 H W
+        size = (self.model.image_size,) * 2 # (224, 224)
+        videos = torch.cat([
+            F.interpolate(
+                u.transpose(0, 1),
+                size=size,
+                mode='bicubic',
+                align_corners=False) for u in videos
+        ]) # 1 3 224 224
+        videos = self.transforms.transforms[-1](videos.mul_(0.5).add_(0.5)) # 1 3 224 224
+        # forward
+        with torch.cuda.amp.autocast(dtype=self.dtype):
+            out = self.model.visual(videos, use_31_block=True) # 1 257 1280
+            return out

infworld/clip/tokenizers.py ADDED Viewed

	@@ -0,0 +1,82 @@

+# Copyright 2024-2025 The Alibaba Wan Team Authors. All rights reserved.
+import html
+import string
+import ftfy
+import regex as re
+from transformers import AutoTokenizer
+__all__ = ['HuggingfaceTokenizer']
+def basic_clean(text):
+    text = ftfy.fix_text(text)
+    text = html.unescape(html.unescape(text))
+    return text.strip()
+def whitespace_clean(text):
+    text = re.sub(r'\s+', ' ', text)
+    text = text.strip()
+    return text
+def canonicalize(text, keep_punctuation_exact_string=None):
+    text = text.replace('_', ' ')
+    if keep_punctuation_exact_string:
+        text = keep_punctuation_exact_string.join(
+            part.translate(str.maketrans('', '', string.punctuation))
+            for part in text.split(keep_punctuation_exact_string))
+    else:
+        text = text.translate(str.maketrans('', '', string.punctuation))
+    text = text.lower()
+    text = re.sub(r'\s+', ' ', text)
+    return text.strip()
+class HuggingfaceTokenizer:
+    def __init__(self, name, seq_len=None, clean=None, **kwargs):
+        assert clean in (None, 'whitespace', 'lower', 'canonicalize')
+        self.name = name
+        self.seq_len = seq_len
+        self.clean = clean
+        # init tokenizer
+        self.tokenizer = AutoTokenizer.from_pretrained(name, **kwargs)
+        self.vocab_size = self.tokenizer.vocab_size
+    def __call__(self, sequence, **kwargs):
+        return_mask = kwargs.pop('return_mask', False)
+        # arguments
+        _kwargs = {'return_tensors': 'pt'}
+        if self.seq_len is not None:
+            _kwargs.update({
+                'padding': 'max_length',
+                'truncation': True,
+                'max_length': self.seq_len
+            })
+        _kwargs.update(**kwargs)
+        # tokenization
+        if isinstance(sequence, str):
+            sequence = [sequence]
+        if self.clean:
+            sequence = [self._clean(u) for u in sequence]
+        ids = self.tokenizer(sequence, **_kwargs)
+        # output
+        if return_mask:
+            return ids.input_ids, ids.attention_mask
+        else:
+            return ids.input_ids
+    def _clean(self, text):
+        if self.clean == 'whitespace':
+            text = whitespace_clean(basic_clean(text))
+        elif self.clean == 'lower':
+            text = whitespace_clean(basic_clean(text)).lower()
+        elif self.clean == 'canonicalize':
+            text = canonicalize(basic_clean(text))
+        return text

infworld/clip/xlm_roberta.py ADDED Viewed

	@@ -0,0 +1,170 @@

+# Modified from transformers.models.xlm_roberta.modeling_xlm_roberta
+# Copyright 2024-2025 The Alibaba Wan Team Authors. All rights reserved.
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+__all__ = ['XLMRoberta', 'xlm_roberta_large']
+class SelfAttention(nn.Module):
+    def __init__(self, dim, num_heads, dropout=0.1, eps=1e-5):
+        assert dim % num_heads == 0
+        super().__init__()
+        self.dim = dim
+        self.num_heads = num_heads
+        self.head_dim = dim // num_heads
+        self.eps = eps
+        # layers
+        self.q = nn.Linear(dim, dim)
+        self.k = nn.Linear(dim, dim)
+        self.v = nn.Linear(dim, dim)
+        self.o = nn.Linear(dim, dim)
+        self.dropout = nn.Dropout(dropout)
+    def forward(self, x, mask):
+        """
+        x:   [B, L, C].
+        """
+        b, s, c, n, d = *x.size(), self.num_heads, self.head_dim
+        # compute query, key, value
+        q = self.q(x).reshape(b, s, n, d).permute(0, 2, 1, 3)
+        k = self.k(x).reshape(b, s, n, d).permute(0, 2, 1, 3)
+        v = self.v(x).reshape(b, s, n, d).permute(0, 2, 1, 3)
+        # compute attention
+        p = self.dropout.p if self.training else 0.0
+        x = F.scaled_dot_product_attention(q, k, v, mask, p)
+        x = x.permute(0, 2, 1, 3).reshape(b, s, c)
+        # output
+        x = self.o(x)
+        x = self.dropout(x)
+        return x
+class AttentionBlock(nn.Module):
+    def __init__(self, dim, num_heads, post_norm, dropout=0.1, eps=1e-5):
+        super().__init__()
+        self.dim = dim
+        self.num_heads = num_heads
+        self.post_norm = post_norm
+        self.eps = eps
+        # layers
+        self.attn = SelfAttention(dim, num_heads, dropout, eps)
+        self.norm1 = nn.LayerNorm(dim, eps=eps)
+        self.ffn = nn.Sequential(
+            nn.Linear(dim, dim * 4), nn.GELU(), nn.Linear(dim * 4, dim),
+            nn.Dropout(dropout))
+        self.norm2 = nn.LayerNorm(dim, eps=eps)
+    def forward(self, x, mask):
+        if self.post_norm:
+            x = self.norm1(x + self.attn(x, mask))
+            x = self.norm2(x + self.ffn(x))
+        else:
+            x = x + self.attn(self.norm1(x), mask)
+            x = x + self.ffn(self.norm2(x))
+        return x
+class XLMRoberta(nn.Module):
+    """
+    XLMRobertaModel with no pooler and no LM head.
+    """
+    def __init__(self,
+                 vocab_size=250002,
+                 max_seq_len=514,
+                 type_size=1,
+                 pad_id=1,
+                 dim=1024,
+                 num_heads=16,
+                 num_layers=24,
+                 post_norm=True,
+                 dropout=0.1,
+                 eps=1e-5):
+        super().__init__()
+        self.vocab_size = vocab_size
+        self.max_seq_len = max_seq_len
+        self.type_size = type_size
+        self.pad_id = pad_id
+        self.dim = dim
+        self.num_heads = num_heads
+        self.num_layers = num_layers
+        self.post_norm = post_norm
+        self.eps = eps
+        # embeddings
+        self.token_embedding = nn.Embedding(vocab_size, dim, padding_idx=pad_id)
+        self.type_embedding = nn.Embedding(type_size, dim)
+        self.pos_embedding = nn.Embedding(max_seq_len, dim, padding_idx=pad_id)
+        self.dropout = nn.Dropout(dropout)
+        # blocks
+        self.blocks = nn.ModuleList([
+            AttentionBlock(dim, num_heads, post_norm, dropout, eps)
+            for _ in range(num_layers)
+        ])
+        # norm layer
+        self.norm = nn.LayerNorm(dim, eps=eps)
+    def forward(self, ids):
+        """
+        ids: [B, L] of torch.LongTensor.
+        """
+        b, s = ids.shape
+        mask = ids.ne(self.pad_id).long()
+        # embeddings
+        x = self.token_embedding(ids) + \
+            self.type_embedding(torch.zeros_like(ids)) + \
+            self.pos_embedding(self.pad_id + torch.cumsum(mask, dim=1) * mask)
+        if self.post_norm:
+            x = self.norm(x)
+        x = self.dropout(x)
+        # blocks
+        mask = torch.where(
+            mask.view(b, 1, 1, s).gt(0), 0.0,
+            torch.finfo(x.dtype).min)
+        for block in self.blocks:
+            x = block(x, mask)
+        # output
+        if not self.post_norm:
+            x = self.norm(x)
+        return x
+def xlm_roberta_large(pretrained=False,
+                      return_tokenizer=False,
+                      device='cpu',
+                      **kwargs):
+    """
+    XLMRobertaLarge adapted from Huggingface.
+    """
+    # params
+    cfg = dict(
+        vocab_size=250002,
+        max_seq_len=514,
+        type_size=1,
+        pad_id=1,
+        dim=1024,
+        num_heads=16,
+        num_layers=24,
+        post_norm=True,
+        dropout=0.1,
+        eps=1e-5)
+    cfg.update(**kwargs)
+    # init a model on device
+    with torch.device(device):
+        model = XLMRoberta(**cfg)
+    return model

infworld/configs/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ # infworld/configs package

infworld/configs/bucket_config.py ADDED Viewed

	@@ -0,0 +1,155 @@

+ASPECT_RATIO_200 = {
+    '0.23': ([96, 416], 1), '0.40': ([128, 320], 1), '0.62': ([160, 256], 1), '0.86': ([192, 224], 1),
+    '1.17': ([224, 192], 1), '1.60': ([256, 160], 1), '2.25': ([288, 128], 1), '2.50': ([320, 128], 1),
+    '2.75': ([352, 128], 1), '4.00': ([384, 96], 1)
+}
+ASPECT_RATIO_256 = {
+    '0.25': ([128, 512], 1), '0.38': ([160, 416], 1), '0.55': ([192, 352], 1), '0.78': ([224, 288], 1),
+    '1.00': ([256, 256], 1), '1.29': ([288, 224], 1), '1.67': ([320, 192], 1), '1.83': ([352, 192], 1),
+    '2.40': ([384, 160], 1), '2.60': ([416, 160], 1), '2.80': ([448, 160], 1), '3.75': ([480, 128], 1),
+    '4.00': ([512, 128], 1)
+}
+ASPECT_RATIO_256_SQUARE = {
+    '1.00': ([256, 256], 1),
+}
+ASPECT_RATIO_320 = {
+    '0.26': ([160, 608], 1), '0.38': ([192, 512], 1), '0.50': ([224, 448], 1), '0.67': ([256, 384], 1),
+    '0.82': ([288, 352], 1), '1.00': ([320, 320], 1), '1.22': ([352, 288], 1), '1.50': ([384, 256], 1),
+    '1.86': ([416, 224], 1), '2.00': ([448, 224], 1), '2.50': ([480, 192], 1), '2.83': ([544, 192], 1),
+    '3.60': ([576, 160], 1), '3.80': ([608, 160], 1), '4.00': ([640, 160], 1)
+}
+ASPECT_RATIO_400 = {
+     '0.23': ([192, 832], 1), '0.32': ([224, 704], 1), '0.40': ([256, 640], 1), '0.53': ([288, 544], 1),
+     '0.62': ([320, 512], 1), '0.79': ([352, 448], 1), '0.92': ([384, 416], 1), '1.08': ([416, 384], 1),
+     '1.27': ([448, 352], 1), '1.50': ([480, 320], 1), '1.60': ([512, 320], 1), '1.89': ([544, 288], 1),
+     '2.00': ([576, 288], 1), '2.38': ([608, 256], 1), '2.50': ([640, 256], 1), '3.00': ([672, 224], 1),
+     '3.14': ([704, 224], 1), '3.43': ([768, 224], 1), '4.17': ([800, 192], 1)
+}
+ASPECT_RATIO_400_F64 = {
+     '0.23': ([192, 832], 1), '0.40': ([256, 640], 1), '0.62': ([320, 512], 1), '0.86': ([384, 448], 1),
+     '1.17': ([448, 384], 1), '1.60': ([512, 320], 1), '2.25': ([576, 256], 1), '2.50': ([640, 256], 1),
+     '2.75': ([704, 256], 1), '4.00': ([768, 192], 1)
+}
+ASPECT_RATIO_400_F64_SQUARE = {
+     '0.23': ([192, 832], 1), '0.40': ([256, 640], 1), '0.62': ([320, 512], 1), '0.86': ([384, 448], 1), '1.0': ([448, 448], 1),
+     '1.17': ([448, 384], 1), '1.60': ([512, 320], 1), '2.25': ([576, 256], 1), '2.50': ([640, 256], 1),
+     '2.75': ([704, 256], 1), '4.00': ([768, 192], 1)
+}
+ASPECT_RATIO_512x512 = {
+     '1.0': ([512, 512], 1),
+}
+ASPECT_RATIO_512 = {
+     '0.25': ([256, 1024], 1), '0.26': ([256, 992], 1), '0.27': ([256, 960], 1), '0.28': ([256, 928], 1),
+     '0.32': ([288, 896], 1), '0.33': ([288, 864], 1), '0.35': ([288, 832], 1), '0.4': ([320, 800], 1),
+     '0.42': ([320, 768], 1), '0.48': ([352, 736], 1), '0.5': ([352, 704], 1), '0.52': ([352, 672], 1),
+     '0.57': ([384, 672], 1), '0.6': ([384, 640], 1), '0.68': ([416, 608], 1), '0.72': ([416, 576], 1),
+     '0.78': ([448, 576], 1), '0.82': ([448, 544], 1), '0.88': ([480, 544], 1), '0.94': ([480, 512], 1),
+     '1.0': ([512, 512], 1), '1.07': ([512, 480], 1), '1.13': ([544, 480], 1), '1.21': ([544, 448], 1),
+     '1.29': ([576, 448], 1), '1.38': ([576, 416], 1), '1.46': ([608, 416], 1), '1.67': ([640, 384], 1),
+     '1.75': ([672, 384], 1), '2.0': ([704, 352], 1), '2.09': ([736, 352], 1), '2.4': ([768, 320], 1),
+     '2.5': ([800, 320], 1), '2.89': ([832, 288], 1), '3.0': ([864, 288], 1), '3.11': ([896, 288], 1),
+     '3.62': ([928, 256], 1), '3.75': ([960, 256], 1), '3.88': ([992, 256], 1), '4.0': ([1024, 256], 1),
+}
+# ASPECT_RATIO_627 = {
+#      '0.26': ([320, 1216], 1), '0.31': ([352, 1120], 1), '0.38': ([384, 1024], 1), '0.43': ([416, 960], 1),
+#      '0.52': ([448, 864], 1), '0.58': ([448, 768], 1), '0.67': ([512, 768], 1), '0.74': ([544, 736], 1),
+#      '0.86': ([576, 672], 1), '0.95': ([608, 640], 1), '1.05': ([640, 608], 1), '1.17': ([672, 576], 1),
+#      '1.29': ([704, 544], 1), '1.35': ([736, 544], 1), '1.50': ([768, 512], 1), '1.67': ([800, 480], 1),
+#      '1.73': ([832, 480], 1), '2.00': ([896, 448], 1), '2.31': ([960, 416], 1), '2.58': ([992, 384], 1),
+#      '2.75': ([1056, 384], 1), '3.09': ([1088, 352], 1), '3.70': ([1184, 320], 1), '3.80': ([1216, 320], 1),
+#      '3.90': ([1248, 320], 1), '4.00': ([1280, 320], 1)
+# }
+ASPECT_RATIO_627 = {
+     '0.26': ([320, 1216], 1), '0.31': ([352, 1120], 1), '0.38': ([384, 1024], 1), '0.43': ([416, 960], 1),
+     '0.52': ([448, 864], 1), '0.58': ([480, 832], 1), '0.67': ([512, 768], 1), '0.74': ([544, 736], 1),
+     '0.86': ([576, 672], 1), '0.95': ([608, 640], 1), '1.05': ([640, 608], 1), '1.17': ([672, 576], 1),
+     '1.29': ([704, 544], 1), '1.35': ([736, 544], 1), '1.50': ([768, 512], 1), '1.67': ([800, 480], 1),
+     '1.73': ([832, 480], 1), '2.00': ([896, 448], 1), '2.31': ([960, 416], 1), '2.58': ([992, 384], 1),
+     '2.75': ([1056, 384], 1), '3.09': ([1088, 352], 1), '3.70': ([1184, 320], 1), '3.80': ([1216, 320], 1),
+     '3.90': ([1248, 320], 1), '4.00': ([1280, 320], 1)
+}
+ASPECT_RATIO_627_F64 = {
+     '0.26': ([320, 1216], 1), '0.38': ([384, 1024], 1), '0.50': ([448, 896], 1), '0.67': ([512, 768], 1),
+     '0.82': ([576, 704], 1),  '1.00': ([640, 640], 1),  '1.22': ([704, 576], 1), '1.50': ([768, 512], 1),
+     '1.86': ([832, 448], 1),  '2.00': ([896, 448], 1),  '2.50': ([960, 384], 1), '2.83': ([1088, 384], 1),
+     '3.60': ([1152, 320], 1), '3.80': ([1216, 320], 1), '4.00': ([1280, 320], 1)}
+ASPECT_RATIO_960 = {
+     '0.25': ([480, 1920], 1), '0.29': ([512, 1792], 1), '0.32': ([544, 1696], 1), '0.36': ([576, 1600], 1),
+     '0.40': ([608, 1504], 1), '0.49': ([672, 1376], 1), '0.54': ([704, 1312], 1), '0.59': ([736, 1248], 1),
+     '0.69': ([800, 1152], 1), '0.74': ([832, 1120], 1), '0.82': ([864, 1056], 1), '0.88': ([896, 1024], 1),
+     '0.94': ([928, 992], 1), '1.00': ([960, 960], 1), '1.07': ([992, 928], 1), '1.14': ([1024, 896], 1),
+     '1.22': ([1056, 864], 1), '1.31': ([1088, 832], 1), '1.35': ([1120, 832], 1), '1.44': ([1152, 800], 1),
+     '1.70': ([1248, 736], 1), '2.00': ([1344, 672], 1), '2.05': ([1376, 672], 1), '2.47': ([1504, 608], 1),
+     '2.53': ([1536, 608], 1), '2.83': ([1632, 576], 1), '3.06': ([1664, 544], 1), '3.12': ([1696, 544], 1),
+     '3.62': ([1856, 512], 1), '3.93': ([1888, 480], 1), '4.00': ([1920, 480], 1)
+}
+ASPECT_RATIO_960_F64 = {
+     '0.22': ([448, 2048], 1), '0.29': ([512, 1792], 1), '0.36': ([576, 1600], 1), '0.45': ([640, 1408], 1),
+     '0.55': ([704, 1280], 1), '0.63': ([768, 1216], 1), '0.76': ([832, 1088], 1), '0.88': ([896, 1024], 1),
+     '1.00': ([960, 960], 1), '1.14': ([1024, 896], 1), '1.31': ([1088, 832], 1), '1.50': ([1152, 768], 1),
+     '1.58': ([1216, 768], 1), '1.82': ([1280, 704], 1), '1.91': ([1344, 704], 1), '2.20': ([1408, 640], 1),
+     '2.30': ([1472, 640], 1), '2.67': ([1536, 576], 1), '2.89': ([1664, 576], 1), '3.62': ([1856, 512], 1),
+     '3.75': ([1920, 512], 1)}
+ASPECT_RATIO_1440_F64 = {
+     '0.24': ([704, 2944], 1), '0.29': ([768, 2688], 1), '0.33': ([832, 2496], 1), '0.39': ([896, 2304], 1),
+     '0.44': ([960, 2176], 1), '0.50': ([1024, 2048], 1), '0.57': ([1088, 1920], 1), '0.70': ([1216, 1728], 1),
+     '0.80': ([1280, 1600], 1), '0.88': ([1344, 1536], 1), '0.96': ([1408, 1472], 1), '1.05': ([1472, 1408], 1),
+     '1.14': ([1536, 1344], 1), '1.25': ([1600, 1280], 1), '1.37': ([1664, 1216], 1), '1.42': ([1728, 1216], 1),
+     '1.71': ([1856, 1088], 1), '1.76': ([1920, 1088], 1), '2.00': ([2048, 1024], 1), '2.50': ([2240, 896], 1),
+     '2.92': ([2432, 832], 1), '3.00': ([2496, 832], 1), '3.08': ([2560, 832], 1), '3.58': ([2752, 768], 1),
+     '3.67': ([2816, 768], 1), '4.09': ([2880, 704], 1)
+}
+# this func is only used for bucket config generation
+def find_hw(target_area, target_ratio, factor=32):
+    min_side = factor
+    max_side = target_area // factor // factor * factor + factor
+    min_error = float('inf')
+    best_solution = None
+    for height in range(max_side, min_side-1, -factor):
+        width = round(target_area / height / factor) * factor
+        if width < min_side:
+            continue
+        ratio = height / width
+        ratio_error = abs(ratio - target_ratio)
+        if ratio_error < min_error:
+            min_error = ratio_error
+            best_solution = (height, width)
+        if ratio_error == 0:
+            break
+    return best_solution
+if __name__ == "__main__":
+     ratios = list(map(float, ASPECT_RATIO_512.keys()))
+     res = {}
+     for ratio in ratios:
+          h,w = find_hw(400**2, ratio, 64)
+          res[f"{h/w:.2f}"] = ([h,w], 1)
+          print((h*w)**0.5)
+     print(res)

infworld/context_parallel/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ # infworld/context_parallel package

infworld/context_parallel/context_parallel_util.py ADDED Viewed

	@@ -0,0 +1,405 @@

+import os
+import math
+import random
+import argparse
+import datetime
+import logging
+import inspect
+import subprocess
+import torch
+import torch.distributed as dist
+from torch.distributed.device_mesh import init_device_mesh
+from einops import rearrange, repeat
+dp_size = None
+cp_size = None
+dp_group = None
+cp_group = None
+cp_stream = None
+dp_ranks = None
+cp_ranks = None
+dp_rank = None
+cp_rank = None
+def init_context_parallel(context_parallel_size: int = 1,
+                          global_rank: int = 1,
+                          world_size: int = 1,):
+    global dp_size
+    global cp_size
+    global dp_group
+    global cp_group
+    global dp_ranks
+    global cp_ranks
+    global dp_rank
+    global cp_rank
+    if world_size%context_parallel_size != 0:
+        raise RuntimeError(f'world_size {world_size} must be multiple of context_parallel_size {context_parallel_size}!!!')
+    cp_size = context_parallel_size
+    dp_size = world_size//context_parallel_size
+    print(f'[rank {global_rank}] init_device_mesh [dp_size x cp_size]: [{dp_size} x {cp_size}]')
+    mesh_2d = init_device_mesh("cuda", (dp_size, cp_size), mesh_dim_names=("dp", "cp"))
+    print(f'[rank {global_rank}] mesh_2d: {mesh_2d}')
+    dp_group = mesh_2d.get_group(mesh_dim="dp")
+    cp_group = mesh_2d.get_group(mesh_dim="cp")
+    dp_ranks = torch.distributed.get_process_group_ranks(dp_group)
+    cp_ranks = torch.distributed.get_process_group_ranks(cp_group)
+    dp_rank = dist.get_rank(group=dp_group)
+    cp_rank = dist.get_rank(group=cp_group)
+    global_rank_1 = torch.distributed.get_rank()
+    print(f'[rank {global_rank_1}] [dp_rank, cp_rank]: [{dp_rank}, {cp_rank}],  dp_ranks: {dp_ranks}, cp_ranks: {cp_ranks}')
+def get_cp_size():
+    global cp_size
+    return cp_size
+def get_dp_size():
+    global dp_size
+    return dp_size
+def get_cp_stream():
+    global cp_stream
+    if cp_stream == None:
+        cp_stream = torch.cuda.Stream()
+    return cp_stream
+def get_dp_group():
+    global dp_group
+    return dp_group
+def get_cp_group():
+    global cp_group
+    return cp_group
+def get_dp_rank():
+    global dp_rank
+    global cp_rank
+    return dp_rank
+def get_cp_rank():
+    global dp_rank
+    global cp_rank
+    return cp_rank
+def get_cp_rank_list():
+    global cp_ranks
+    if cp_ranks == None:
+        cp_ranks = torch.distributed.get_process_group_ranks(cp_group)
+    return cp_ranks
+def cp_broadcast(tensor, cp_index=0):
+    global dp_group
+    global cp_group
+    cp_ranks = get_cp_rank_list()
+    torch.distributed.broadcast(tensor, cp_ranks[cp_index], group=cp_group)
+def cp_broadcast_objects(tensor):
+    global dp_group
+    global cp_group
+    raise NotImplementedError("cp_broadcast_objects method is not yet implemented!!!")
+def split_tensor_in_cp(input, seq_dim):
+    global cp_size
+    seq_size = input.shape[seq_dim]
+    if seq_size%cp_size != 0:
+        raise RuntimeError(f'seq_length {seq_size} in dim {seq_dim} must be multiple of cp_size {cp_size}!!!')
+    split_seq_size = seq_size//cp_size
+    tensor_splits = input.split(split_seq_size, dim=seq_dim)
+    cp_rank = get_cp_rank()
+    split_tensor = tensor_splits[cp_rank]
+    return split_tensor
+class GatherFunction(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, input, process_group, seq_dim, frames):
+        ctx.cp_group = process_group
+        ctx.seq_dim = seq_dim
+        ctx.frames = frames
+        ctx.cp_size = get_cp_size()
+        input = rearrange(input, "B (T S) C -> B T S C", T=frames)
+        with torch.no_grad():
+            input = input.contiguous()
+            output_tensors = [torch.zeros_like(input) for _ in range(ctx.cp_size)]
+            dist.all_gather(output_tensors, input, group=ctx.cp_group)
+            output_tensor = torch.cat(output_tensors, dim=seq_dim)
+        output_tensor = rearrange(output_tensor, "B T S C -> B (T S) C", T=frames)
+        return output_tensor
+    @staticmethod
+    def backward(ctx, grad_output):
+        with torch.no_grad():
+            grad_output = grad_output * ctx.cp_size
+            grad_output = rearrange(grad_output, "B (T S) C -> B T S C", T=ctx.frames)
+            grad_input = split_tensor_in_cp(grad_output, ctx.seq_dim)
+            grad_input = rearrange(grad_input, "B T S C -> B (T S) C", T=ctx.frames)
+        return grad_input, None, None, None
+class SplitFunction(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, input, process_group, seq_dim):
+        ctx.cp_group = process_group
+        ctx.seq_dim = seq_dim
+        ctx.cp_size = get_cp_size()
+        output_tensor = split_tensor_in_cp(input, ctx.seq_dim)
+        return output_tensor
+    @staticmethod
+    def backward(ctx, grad_output):
+        with torch.no_grad():
+            grad_output = grad_output / ctx.cp_size
+            output_tensors = [torch.zeros_like(grad_output) for _ in range(ctx.cp_size)]
+            dist.all_gather(output_tensors, grad_output, group=ctx.cp_group)
+            grad_input = torch.cat(output_tensors, dim=ctx.seq_dim)
+        return grad_input, None, None
+def gather_cp(input, frames):
+    cp_process_group = get_cp_group()
+    output_tensor = GatherFunction.apply(input, cp_process_group, 2, frames)
+    return output_tensor
+def split_cp(input, seq_dim):
+    cp_process_group = get_cp_group()
+    output_tensor = SplitFunction.apply(input, cp_process_group, seq_dim)
+    return output_tensor
+class ReduceFunction(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, input, process_group):
+        ctx.cp_group = process_group
+        output = input.detach().clone()
+        dist.all_reduce(output, group=ctx.cp_group)
+        return output
+    @staticmethod
+    def backward(ctx, grad_output):
+        grad_input = grad_output.detach().clone()
+        return grad_input, None
+class ReplicateFunction(torch.autograd.Function):
+    @staticmethod
+    def forward(ctx, input, process_group):
+        ctx.cp_group = process_group
+        output = input.detach().clone()
+        return output
+    @staticmethod
+    def backward(ctx, grad_output):
+        grad_input = grad_output.detach().clone()
+        dist.all_reduce(grad_input, group=ctx.cp_group)
+        return grad_input, None
+def reduce_cp(partial_sum, partial_square_sum):
+    cp_process_group = get_cp_group()
+    all_sum = ReduceFunction.apply(partial_sum, cp_process_group)
+    all_square_sum = ReduceFunction.apply(partial_square_sum, cp_process_group)
+    return all_sum, all_square_sum
+def replicate_cp(all_mean, all_var):
+    cp_process_group = get_cp_group()
+    all_mean = ReplicateFunction.apply(all_mean, cp_process_group)
+    all_var = ReplicateFunction.apply(all_var, cp_process_group)
+    return all_mean, all_var
+def _all_to_all_func(input_, world_size, group, scatter_dim, gather_dim):
+    input_list = [t.contiguous() for t in torch.tensor_split(input_, world_size, scatter_dim)]
+    output_list = [torch.empty_like(input_list[0]) for _ in range(world_size)]
+    dist.all_to_all(output_list, input_list, group=group)
+    return torch.cat(output_list, dim=gather_dim).contiguous()
+class _AllToAll(torch.autograd.Function):
+    """All-to-all communication.
+    Args:
+        input_: input matrix
+        process_group: communication group
+        scatter_dim: scatter dimension
+        gather_dim: gather dimension
+    """
+    @staticmethod
+    def forward(ctx, input_, process_group, scatter_dim, gather_dim):
+        ctx.process_group = process_group
+        ctx.scatter_dim = scatter_dim
+        ctx.gather_dim = gather_dim
+        world_size = dist.get_world_size(process_group)
+        return _all_to_all_func(input_, world_size, process_group, scatter_dim, gather_dim)
+    @staticmethod
+    def backward(ctx, *grad_output):
+        process_group = ctx.process_group
+        scatter_dim = ctx.gather_dim
+        gather_dim = ctx.scatter_dim
+        return_grad = _AllToAll.apply(*grad_output, process_group, scatter_dim, gather_dim)
+        return (return_grad, None, None, None)
+def all_to_all_with_pad(
+    input_: torch.Tensor,
+    process_group: dist.ProcessGroup,
+    scatter_dim: int = 2,
+    gather_dim: int = 1,
+    scatter_pad: int = 0,
+    gather_pad: int = 0,
+):
+    if scatter_pad > 0:
+        pad_shape = list(input_.shape)
+        pad_shape[scatter_dim] = scatter_pad
+        pad_tensor = torch.zeros(pad_shape, device=input_.device, dtype=input_.dtype)
+        input_ = torch.cat([input_, pad_tensor], dim=scatter_dim)
+    assert (
+        input_.shape[scatter_dim] % dist.get_world_size(process_group) == 0
+    ), f"Dimension to scatter ({input_.shape[scatter_dim]}) is not divisible by world size ({dist.get_world_size(process_group)})"
+    input_ = _AllToAll.apply(input_, process_group, scatter_dim, gather_dim)
+    if gather_pad > 0:
+        input_ = input_.narrow(gather_dim, 0, input_.size(gather_dim) - gather_pad)
+    return input_
+def dynamic_switch(x, scatter_dim, gather_dim):
+    scatter_pad = 0
+    gather_pad = 0
+    cp_process_group = get_cp_group()
+    x = all_to_all_with_pad(
+        x,
+        cp_process_group,
+        scatter_dim=scatter_dim,
+        gather_dim=gather_dim,
+        scatter_pad=scatter_pad,
+        gather_pad=gather_pad,
+    )
+    return x

infworld/models/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ # infworld/models package

infworld/models/checkpoint.py ADDED Viewed

	@@ -0,0 +1,24 @@

+from collections.abc import Iterable
+import torch.nn as nn
+from torch.utils.checkpoint import checkpoint, checkpoint_sequential
+def set_grad_checkpoint(model, use_fp32_attention=False, gc_step=1):
+    assert isinstance(model, nn.Module)
+    def set_attr(module):
+        module.grad_checkpointing = True
+        module.fp32_attention = use_fp32_attention
+        module.grad_checkpointing_step = gc_step
+    model.apply(set_attr)
+def auto_grad_checkpoint(module, *args, **kwargs):
+    if getattr(module, "grad_checkpointing", False):
+        if not isinstance(module, Iterable):
+            return checkpoint(module, *args, **kwargs)
+        gc_step = module[0].grad_checkpointing_step
+        return checkpoint_sequential(module, gc_step, *args, **kwargs)
+    return module(*args, **kwargs)

infworld/models/dit_model.py ADDED Viewed

	@@ -0,0 +1,1285 @@

+# Copyright 2024-2025 The Alibaba Wan Team Authors. All rights reserved.
+import math
+import os
+import torch
+import torch.cuda.amp as amp
+import torch.nn as nn
+import torch.nn.functional as F
+from einops import rearrange
+from infworld.context_parallel import context_parallel_util
+from infworld.models.checkpoint import auto_grad_checkpoint
+try:
+    from transformer_engine.pytorch.attention import DotProductAttention
+except:
+    print("Import transformer_engine failed, may cause bug.")
+try:
+    import flash_attn_interface
+    FLASH_ATTN_3_AVAILABLE = True
+except ModuleNotFoundError:
+    FLASH_ATTN_3_AVAILABLE = False
+try:
+    import flash_attn
+    FLASH_ATTN_2_AVAILABLE = True
+except ModuleNotFoundError:
+    FLASH_ATTN_2_AVAILABLE = False
+import warnings
+__all__ = ['WanModel']
+class ResnetBlock3D(nn.Module):
+    def __init__(self, in_channels, out_channels=None, dropout=0.0):
+        super().__init__()
+        out_channels = out_channels or in_channels
+        self.norm1 = nn.GroupNorm(num_groups=32, num_channels=in_channels, eps=1e-6, affine=True)
+        self.conv1 = nn.Conv3d(in_channels, out_channels, kernel_size=3, stride=1, padding=1)
+        self.norm2 = nn.GroupNorm(num_groups=32, num_channels=out_channels, eps=1e-6, affine=True)
+        self.dropout = nn.Dropout(dropout)
+        self.conv2 = nn.Conv3d(out_channels, out_channels, kernel_size=3, stride=1, padding=1)
+        self.nonlinearity = nn.SiLU()
+        # Shortcut connection
+        if in_channels != out_channels:
+            self.shortcut = nn.Conv3d(in_channels, out_channels, kernel_size=1, stride=1, padding=0)
+        else:
+            self.shortcut = nn.Identity()
+    def forward(self, x):
+        h = x
+        h = self.norm1(h)
+        h = self.nonlinearity(h)
+        h = self.conv1(h)
+        h = self.norm2(h)
+        h = self.nonlinearity(h)
+        h = self.dropout(h)
+        h = self.conv2(h)
+        return h + self.shortcut(x)
+class TemporalDownsample(nn.Module):
+    def __init__(self, channels):
+        super().__init__()
+        # 时序下采样: kernel=3, stride=(2,1,1), padding=(1,1,1)
+        # T -> T/2, H, W 保持不变
+        self.conv = nn.Conv3d(channels, channels, kernel_size=3, stride=(2, 1, 1), padding=(1, 1, 1))
+    def forward(self, x):
+        return self.conv(x)
+class WanEncoderAttentionBlock(nn.Module):
+    def __init__(self, dim, num_heads=8, window_size=(-1, -1), eps=1e-6):
+        super().__init__()
+        self.dim = dim
+        self.num_heads = num_heads
+        self.head_dim = dim // num_heads
+        # 内部使用 WanSelfAttention，保持与主干网络一致的 3D RoPE 和 FlashAttention
+        self.attn = WanSelfAttention(
+            dim,
+            num_heads,
+            window_size=window_size,
+            qk_norm=True,
+            eps=eps
+        )
+        # Pre-Norm
+        self.norm = WanLayerNorm(dim, eps)
+    def _build_freqs(self, device):
+        # 构建 RoPE 频率参数
+        d = self.head_dim
+        freqs = torch.cat([
+            rope_params(1024, d - 4 * (d // 6)),
+            rope_params(1024, 2 * (d // 6)),
+            rope_params(1024, 2 * (d // 6))
+        ], dim=1)
+        return freqs.to(device)
+    def forward(self, x):
+        # Input: (B, C, T, H, W)
+        B, C, T, H, W = x.shape
+        # 1. 转换格式: (B, C, T, H, W) -> (B, L, C)
+        # 先 permute 到 (B, T, H, W, C)，再 flatten
+        x_in = x.permute(0, 2, 3, 4, 1).flatten(1, 3)
+        # 2. Norm
+        x_norm = self.norm(x_in)
+        # 3. 构造 Metadata
+        # grid_sizes: [B, 3] -> [[T, H, W], ...]
+        grid_sizes = torch.tensor([T, H, W], device=x.device).unsqueeze(0).repeat(B, 1)
+        # seq_lens: [B]
+        seq_lens = torch.tensor([T * H * W] * B, device=x.device, dtype=torch.long)
+        # freqs: RoPE (可以考虑缓存，这里为了独立性实时生成)
+        freqs = self._build_freqs(x.device)
+        # 4. Attention Forward
+        # Encoder 内部通常不需要 causal mask 或 ignore mask
+        x_out = self.attn(
+            x_norm,
+            seq_lens=seq_lens,
+            grid_sizes=grid_sizes,
+            freqs=freqs,
+            token_ignore_mask=None
+        )
+        # 5. Residual + 恢复形状
+        x_out = x_in + x_out
+        # (B, L, C) -> (B, T, H, W, C) -> (B, C, T, H, W)
+        x_out = x_out.view(B, T, H, W, C).permute(0, 4, 1, 2, 3)
+        return x_out
+class TemporalLatentEncoder(nn.Module):
+    def __init__(self, in_channels=16, hidden_dim=256, num_heads=8, use_checkpoint=True):
+        """
+        高配版时序 Encoder
+        结构: ConvIn -> ResBlock*2 -> Down -> ResBlock*2 -> Down -> ResBlock -> WanAttn -> ResBlock -> ConvOut
+        输入输出: (B, 16, T, H, W) -> (B, 16, T/4, H, W)
+        Args:
+            use_checkpoint: 是否使用 gradient checkpointing 节省显存（默认开启）
+        """
+        super().__init__()
+        self.use_checkpoint = use_checkpoint
+        # 1. Initial Conv
+        self.conv_in = nn.Conv3d(in_channels, hidden_dim, kernel_size=3, stride=1, padding=1)
+        # 2. Down Block 1 (T -> T/2)
+        self.down_block1 = nn.Sequential(
+            ResnetBlock3D(hidden_dim, hidden_dim),
+            ResnetBlock3D(hidden_dim, hidden_dim),
+            TemporalDownsample(hidden_dim)
+        )
+        # 3. Down Block 2 (T/2 -> T/4)
+        self.down_block2 = nn.Sequential(
+            ResnetBlock3D(hidden_dim, hidden_dim),
+            ResnetBlock3D(hidden_dim, hidden_dim),
+            TemporalDownsample(hidden_dim)
+        )
+        # 4. Mid Block (Res + WanAttention + Res)
+        self.mid_block = nn.Sequential(
+            ResnetBlock3D(hidden_dim, hidden_dim),
+            WanEncoderAttentionBlock(dim=hidden_dim, num_heads=num_heads), # 使用 Wanx 风格 Attention
+            ResnetBlock3D(hidden_dim, hidden_dim),
+        )
+        # 5. Output Projection
+        self.norm_out = nn.GroupNorm(num_groups=32, num_channels=hidden_dim, eps=1e-6, affine=True)
+        self.act_out = nn.SiLU()
+        self.conv_out = nn.Conv3d(hidden_dim, in_channels, kernel_size=3, stride=1, padding=1)
+    def _forward_down_block1(self, x):
+        return self.down_block1(x)
+    def _forward_down_block2(self, x):
+        return self.down_block2(x)
+    def _forward_mid_block(self, x):
+        return self.mid_block(x)
+    def forward(self, x):
+        # x: (B, C, T, H, W)
+        from torch.utils.checkpoint import checkpoint
+        x = self.conv_in(x)
+        # 🔴 使用 gradient checkpointing 节省显存
+        if self.use_checkpoint and self.training:
+            x = checkpoint(self._forward_down_block1, x, use_reentrant=False)
+            x = checkpoint(self._forward_down_block2, x, use_reentrant=False)
+            x = checkpoint(self._forward_mid_block, x, use_reentrant=False)
+        else:
+            x = self.down_block1(x)
+            x = self.down_block2(x)
+            x = self.mid_block(x)
+        x = self.norm_out(x)
+        x = self.act_out(x)
+        x = self.conv_out(x)
+        return x
+def temporal_sample(x: torch.Tensor, rate: int, dim: int = 2) -> torch.Tensor:
+    """
+    在指定维度采样，首尾必保留
+    Args:
+        x (torch.Tensor): 输入张量，默认 shape = (B, C, T, H, W)
+        rate (int): 采样率（步长）
+        dim (int): 采样的维度，默认=2 (T维)
+    Returns:
+        torch.Tensor: 采样后的张量
+    """
+    assert x.dim() >= dim + 1, f"输入维度 {x.dim()} 小于 dim={dim}"
+    N = x.shape[dim]
+    # 初步采样下标
+    indices = torch.arange(0, N, step=rate, device=x.device)
+    # 确保首尾都在
+    if indices[0] != 0:
+        indices = torch.cat([torch.tensor([0], device=x.device), indices])
+    if indices[-1] != N - 1:
+        indices = torch.cat([indices, torch.tensor([N - 1], device=x.device)])
+    # 去重并排序
+    indices = torch.unique(indices, sorted=True)
+    return torch.index_select(x, dim, indices)
+def flash_attention(
+    q,
+    k,
+    v,
+    q_lens=None,
+    k_lens=None,
+    dropout_p=0.,
+    softmax_scale=None,
+    q_scale=None,
+    causal=False,
+    window_size=(-1, -1),
+    deterministic=False,
+    dtype=torch.bfloat16,
+    version=None,
+):
+    """
+    q:              [B, Lq, Nq, C1].
+    k:              [B, Lk, Nk, C1].
+    v:              [B, Lk, Nk, C2]. Nq must be divisible by Nk.
+    q_lens:         [B].
+    k_lens:         [B].
+    dropout_p:      float. Dropout probability.
+    softmax_scale:  float. The scaling of QK^T before applying softmax.
+    causal:         bool. Whether to apply causal attention mask.
+    window_size:    (left right). If not (-1, -1), apply sliding window local attention.
+    deterministic:  bool. If True, slightly slower and uses more memory.
+    dtype:          torch.dtype. Apply when dtype of q/k/v is not float16/bfloat16.
+    """
+    half_dtypes = (torch.float16, torch.bfloat16)
+    assert dtype in half_dtypes
+    assert q.device.type == 'cuda' and q.size(-1) <= 256
+    # params
+    b, lq, lk, out_dtype = q.size(0), q.size(1), k.size(1), q.dtype
+    def half(x):
+        return x if x.dtype in half_dtypes else x.to(dtype)
+    # preprocess query
+    if q_lens is None:
+        q = half(q.flatten(0, 1))
+        q_lens = torch.tensor(
+            [lq] * b, dtype=torch.int32).to(
+                device=q.device, non_blocking=True)
+    else:
+        q = half(torch.cat([u[:v] for u, v in zip(q, q_lens)]))
+    # preprocess key, value
+    if k_lens is None:
+        k = half(k.flatten(0, 1))
+        v = half(v.flatten(0, 1))
+        k_lens = torch.tensor(
+            [lk] * b, dtype=torch.int32).to(
+                device=k.device, non_blocking=True)
+    else:
+        k = half(torch.cat([u[:v] for u, v in zip(k, k_lens)]))
+        v = half(torch.cat([u[:v] for u, v in zip(v, k_lens)]))
+    q = q.to(v.dtype)
+    k = k.to(v.dtype)
+    if q_scale is not None:
+        q = q * q_scale
+    if version is not None and version == 3 and not FLASH_ATTN_3_AVAILABLE:
+        warnings.warn(
+            'Flash attention 3 is not available, use flash attention 2 instead.'
+        )
+    # apply attention
+    if (version is None or version == 3) and FLASH_ATTN_3_AVAILABLE:
+        # Note: dropout_p, window_size are not supported in FA3 now.
+        x = flash_attn_interface.flash_attn_varlen_func(
+            q=q,
+            k=k,
+            v=v,
+            cu_seqlens_q=torch.cat([q_lens.new_zeros([1]), q_lens]).cumsum(
+                0, dtype=torch.int32).to(q.device, non_blocking=True),
+            cu_seqlens_k=torch.cat([k_lens.new_zeros([1]), k_lens]).cumsum(
+                0, dtype=torch.int32).to(q.device, non_blocking=True),
+            seqused_q=None,
+            seqused_k=None,
+            max_seqlen_q=lq,
+            max_seqlen_k=lk,
+            softmax_scale=softmax_scale,
+            causal=causal,
+            deterministic=deterministic)[0].unflatten(0, (b, lq))
+    else:
+        assert FLASH_ATTN_2_AVAILABLE
+        x = flash_attn.flash_attn_varlen_func(
+            q=q,
+            k=k,
+            v=v,
+            cu_seqlens_q=torch.cat([q_lens.new_zeros([1]), q_lens]).cumsum(
+                0, dtype=torch.int32).to(q.device, non_blocking=True),
+            cu_seqlens_k=torch.cat([k_lens.new_zeros([1]), k_lens]).cumsum(
+                0, dtype=torch.int32).to(q.device, non_blocking=True),
+            max_seqlen_q=lq,
+            max_seqlen_k=lk,
+            dropout_p=dropout_p,
+            softmax_scale=softmax_scale,
+            causal=causal,
+            window_size=window_size,
+            deterministic=deterministic).unflatten(0, (b, lq))
+    # output
+    return x.type(out_dtype)
+def sinusoidal_embedding_1d(dim, position):
+    # preprocess
+    assert dim % 2 == 0
+    half = dim // 2
+    position = position.type(torch.float64)
+    # calculation
+    sinusoid = torch.outer(
+        position, torch.pow(10000, -torch.arange(half).to(position).div(half)))
+    x = torch.cat([torch.cos(sinusoid), torch.sin(sinusoid)], dim=1)
+    return x
+@amp.autocast(enabled=False)
+def rope_params(max_seq_len, dim, theta=10000):
+    assert dim % 2 == 0
+    freqs = torch.outer(
+        torch.arange(max_seq_len),
+        1.0 / torch.pow(theta,
+                        torch.arange(0, dim, 2).to(torch.float64).div(dim)))
+    freqs = torch.polar(torch.ones_like(freqs), freqs)
+    return freqs
+@amp.autocast(enabled=False)
+def rope_apply(x, grid_sizes, freqs, enable_context_parallel=False):
+    s, n, c = x.size(1), x.size(2), x.size(3) // 2
+    # split freqs
+    freqs = freqs.split([c - 2 * (c // 3), c // 3, c // 3], dim=1)
+    # loop over samples
+    output = []
+    for i, (f, h, w) in enumerate(grid_sizes.tolist()):
+        seq_len = f * h * w
+        # precompute multipliers
+        x_i = torch.view_as_complex(x[i, :s].to(torch.float64).reshape(
+            s, n, -1, 2))
+        freqs_i = torch.cat([
+            freqs[0][:f].view(f, 1, 1, -1).expand(f, h, w, -1),
+            freqs[1][:h].view(1, h, 1, -1).expand(f, h, w, -1),
+            freqs[2][:w].view(1, 1, w, -1).expand(f, h, w, -1)
+        ],
+                            dim=-1).reshape(seq_len, 1, -1)
+        if enable_context_parallel:
+            freqs_i = rearrange(freqs_i, "(T S) B C -> T S B C", T=f)
+            freqs_i = context_parallel_util.split_cp(freqs_i, seq_dim=1)
+            freqs_i = rearrange(freqs_i, "T S B C -> (T S) B C")
+        # apply rotary embedding
+        x_i = torch.view_as_real(x_i * freqs_i).flatten(2)
+        x_i = torch.cat([x_i, x[i, seq_len:]])
+        # append to collection
+        output.append(x_i)
+    return torch.stack(output).float()
+class WanRMSNorm(nn.Module):
+    def __init__(self, dim, eps=1e-5):
+        super().__init__()
+        self.dim = dim
+        self.eps = eps
+        self.weight = nn.Parameter(torch.ones(dim))
+    def forward(self, x):
+        r"""
+        Args:
+            x(Tensor): Shape [B, L, C]
+        """
+        return self._norm(x.float()).type_as(x) * self.weight
+    def _norm(self, x):
+        return x * torch.rsqrt(x.pow(2).mean(dim=-1, keepdim=True) + self.eps)
+class ActionEncoder(nn.Module):
+    def __init__(self, vocab_size=10, embed_dim=256, hidden_dim=512, out_dim=1536):
+        super().__init__()
+        # 将整数映射到向量
+        self.embedding_move = nn.Embedding(vocab_size, embed_dim)
+        self.embedding_view = nn.Embedding(vocab_size, embed_dim)
+        self.encode_1 = nn.Sequential(
+            nn.Conv1d(embed_dim * 2, hidden_dim, kernel_size=3, stride=2, padding=1),
+            nn.GroupNorm(2, hidden_dim),
+            nn.ReLU(),
+        )
+        self.encode_2 = nn.Sequential(
+            nn.Conv1d(hidden_dim, hidden_dim, kernel_size=3, stride=2, padding=1),
+            nn.GroupNorm(2, hidden_dim),
+            nn.ReLU(),
+        )
+        self.proj = nn.Linear(hidden_dim, out_dim)
+    def forward(self, move, view):
+        # x: (B, L+1)，整数输入
+        x_move = self.embedding_move(move).transpose(1, 2)
+        x_view = self.embedding_view(view).transpose(1, 2)
+        x = torch.cat([x_move, x_view], dim=1)
+        x = self.encode_2(self.encode_1(x))       # (B, out_dim, (L+1)/4)
+        x = x.transpose(1, 2)             # (B, (L/4)+1, out_dim)
+        x = self.proj(x)
+        return x
+class WanLayerNorm(nn.LayerNorm):
+    def __init__(self, dim, eps=1e-6, elementwise_affine=False):
+        super().__init__(dim, elementwise_affine=elementwise_affine, eps=eps)
+    def forward(self, inputs: torch.Tensor) -> torch.Tensor:
+        origin_dtype = inputs.dtype
+        out = F.layer_norm(
+            inputs.float(),
+            self.normalized_shape,
+            None if self.weight is None else self.weight.float(),
+            None if self.bias is None else self.bias.float() ,
+            self.eps
+        ).to(origin_dtype)
+        return out
+class WanSelfAttention(nn.Module):
+    def __init__(
+        self,
+        dim,
+        num_heads,
+        window_size=(-1, -1),
+        qk_norm=True,
+        eps=1e-6,
+        enable_context_parallel=False,
+        fp32_infer=False,
+    ):
+        assert dim % num_heads == 0
+        super().__init__()
+        self.dim = dim
+        self.num_heads = num_heads
+        self.head_dim = dim // num_heads
+        self.window_size = window_size
+        self.qk_norm = qk_norm
+        self.eps = eps
+        self.enable_context_parallel = enable_context_parallel
+        # layers
+        self.q = nn.Linear(dim, dim)
+        self.k = nn.Linear(dim, dim)
+        self.v = nn.Linear(dim, dim)
+        self.o = nn.Linear(dim, dim)
+        self.norm_q = WanRMSNorm(dim, eps=eps) if qk_norm else nn.Identity()
+        self.norm_k = WanRMSNorm(dim, eps=eps) if qk_norm else nn.Identity()
+        if self.enable_context_parallel:
+            qkv_format = "bshd"
+            attn_mask_type = "no_mask"
+            os.environ["NVTE_FUSED_ATTN"] = "0"
+            os.environ["NVTE_FLASH_ATTN"] = "1"
+            self.core_attn = DotProductAttention(
+                self.num_heads,
+                self.head_dim,
+                num_gqa_groups=self.num_heads,
+                qkv_format=qkv_format,
+                attn_mask_type=attn_mask_type,
+            )
+            self.core_attn.set_context_parallel_group(context_parallel_util.get_cp_group(),
+                                                      context_parallel_util.get_cp_rank_list(),
+                                                      context_parallel_util.get_cp_stream())
+        self.fp32_infer = fp32_infer
+        self.out_c = None
+    def forward(self, x, seq_lens, grid_sizes, freqs, token_ignore_mask=None, dtype=torch.bfloat16):
+        r"""
+        Args:
+            x(Tensor): Shape [B, L, num_heads, C / num_heads]
+            seq_lens(Tensor): Shape [B]
+            grid_sizes(Tensor): Shape [B, 3], the second dimension contains (F, H, W)
+            freqs(Tensor): Rope freqs, shape [1024, C / num_heads / 2]
+            token_ignore_mask: [B, N]; bool tensor indicating tokens to be ignored
+        """
+        b, s, n, d = *x.shape[:2], self.num_heads, self.head_dim
+        # query, key, value function
+        def qkv_fn(x):
+            q = self.norm_q(self.q(x)).view(b, s, n, d)
+            k = self.norm_k(self.k(x)).view(b, s, n, d)
+            v = self.v(x).view(b, s, n, d)
+            return q, k, v
+        q, k, v = qkv_fn(x)
+        q = rope_apply(q, grid_sizes, freqs, enable_context_parallel=self.enable_context_parallel)
+        k = rope_apply(k, grid_sizes, freqs, enable_context_parallel=self.enable_context_parallel)
+        # maks implementation by setting KV to zero
+        # this is a hack for the sake of cp support
+        if token_ignore_mask is not None:
+            select_mask = ~token_ignore_mask
+            expanded_select_mask = select_mask.unsqueeze(-1).unsqueeze(-1).expand(-1, -1, self.num_heads, self.head_dim) # [B, N, H, D]
+            expanded_select_mask = expanded_select_mask.to(k.dtype)
+            k = k * expanded_select_mask
+            v = v * expanded_select_mask
+        if self.enable_context_parallel:
+            # cp_size = context_parallel_util.get_cp_size()
+            # half_dtypes = (torch.float16, torch.bfloat16)
+            # def half(x):
+            #     return x if x.dtype in half_dtypes else x.to(dtype)
+            # max_seqlen_q = s * cp_size
+            # max_seqlen_kv = max_seqlen_q
+            # x = self.core_attn(
+            #     half(q) if self.fp32_infer else q.type_as(x),
+            #     half(k) if self.fp32_infer else k.type_as(x),
+            #     half(v) if self.fp32_infer else v.type_as(x),
+            #     core_attention_bias_type="no_bias",
+            #     core_attention_bias=None,
+            #     cu_seqlens_q=None,
+            #     cu_seqlens_kv=None,
+            #     max_seqlen_q=max_seqlen_q,
+            #     max_seqlen_kv=max_seqlen_kv,
+            # )
+            # x = rearrange(x, "B S (H D) -> B S H D", H=self.num_heads)
+            raise(NotImplementedError)
+        else:
+            B, S, H, D = q.shape
+            # 👉 你需要提前传入 num_c（或在这里根据场景算出）
+            num_c = getattr(self, "num_c", 0)
+            if num_c > 0 and num_c < S:
+                # 2️⃣ 当前 noisy 帧 Qz 看 [Kc; Kz]
+                q_z, k_z, v_z = q[:, num_c:], k, v
+                x = flash_attention(q_z, k_z, v_z, window_size=self.window_size).type_as(x)
+            else:
+                # 没有分段信息，默认用标准路径
+                x = flash_attention(q, k, v, k_lens=seq_lens, window_size=self.window_size).type_as(x)
+        # output
+        x = x.flatten(2)
+        x = self.o(x)
+        return x
+class WanT2VCrossAttention(WanSelfAttention):
+    def forward(self, x, context, context_lens):
+        r"""
+        Args:
+            x(Tensor): Shape [B, L1, C]
+            context(Tensor): Shape [B, L2, C]
+            context_lens(Tensor): Shape [B]
+        """
+        b, n, d = x.size(0), self.num_heads, self.head_dim
+        # compute query, key, value
+        q = self.norm_q(self.q(x)).view(b, -1, n, d)
+        k = self.norm_k(self.k(context)).view(b, -1, n, d)
+        v = self.v(context).view(b, -1, n, d)
+        # compute attention
+        x = flash_attention(q, k, v, k_lens=context_lens)
+        # output
+        x = x.flatten(2)
+        x = self.o(x)
+        return x
+class WanI2VCrossAttention(WanSelfAttention):
+    def __init__(self,
+                 dim,
+                 num_heads,
+                 window_size=(-1, -1),
+                 qk_norm=True,
+                 eps=1e-6):
+        super().__init__(dim, num_heads, window_size, qk_norm, eps)
+        self.k_img = nn.Linear(dim, dim)
+        self.v_img = nn.Linear(dim, dim)
+        # self.alpha = nn.Parameter(torch.zeros((1, )))
+        self.norm_k_img = WanRMSNorm(dim, eps=eps) if qk_norm else nn.Identity()
+    def forward(self, x, context, context_lens):
+        r"""
+        Args:
+            x(Tensor): Shape [B, L1, C]
+            context(Tensor): Shape [B, L2, C]
+            context_lens(Tensor): Shape [B]
+        """
+        context_img = context[:, :257]
+        context = context[:, 257:]
+        b, n, d = x.size(0), self.num_heads, self.head_dim
+        # compute query, key, value
+        q = self.norm_q(self.q(x)).view(b, -1, n, d)
+        k = self.norm_k(self.k(context)).view(b, -1, n, d)
+        v = self.v(context).view(b, -1, n, d)
+        k_img = self.norm_k_img(self.k_img(context_img)).view(b, -1, n, d)
+        v_img = self.v_img(context_img).view(b, -1, n, d)
+        img_x = flash_attention(q, k_img, v_img, k_lens=None)
+        # compute attention
+        x = flash_attention(q, k, v, k_lens=context_lens)
+        # output
+        x = x.flatten(2)
+        img_x = img_x.flatten(2)
+        x = x + img_x
+        x = self.o(x)
+        return x
+WAN_CROSSATTENTION_CLASSES = {
+    't2v_cross_attn': WanT2VCrossAttention,
+    'i2v_cross_attn': WanI2VCrossAttention,
+}
+class WanAttentionBlock(nn.Module):
+    def __init__(
+        self,
+        cross_attn_type,
+        dim,
+        ffn_dim,
+        num_heads,
+        window_size=(-1, -1),
+        qk_norm=True,
+        cross_attn_norm=False,
+        eps=1e-6,
+        enable_context_parallel=False,
+    ):
+        super().__init__()
+        self.dim = dim
+        self.ffn_dim = ffn_dim
+        self.num_heads = num_heads
+        self.window_size = window_size
+        self.qk_norm = qk_norm
+        self.cross_attn_norm = cross_attn_norm
+        self.eps = eps
+        self.enable_context_parallel = enable_context_parallel
+        # layers
+        self.norm1 = WanLayerNorm(dim, eps)
+        self.self_attn = WanSelfAttention(dim, num_heads, window_size, qk_norm,
+                                          eps, enable_context_parallel=enable_context_parallel)
+        self.norm3 = WanLayerNorm(
+            dim, eps,
+            elementwise_affine=True) if cross_attn_norm else nn.Identity()
+        self.cross_attn = WAN_CROSSATTENTION_CLASSES[cross_attn_type](dim,
+                                                                      num_heads,
+                                                                      (-1, -1),
+                                                                      qk_norm,
+                                                                      eps)
+        self.norm2 = WanLayerNorm(dim, eps)
+        self.ffn = nn.Sequential(
+            nn.Linear(dim, ffn_dim), nn.GELU(approximate='tanh'),
+            nn.Linear(ffn_dim, dim))
+        # modulation
+        self.modulation = nn.Parameter(torch.randn(1, 6, dim) / dim**0.5)
+        self.hist = None
+        self.hist_cross = None
+    def forward(
+        self,
+        x,
+        e_all,
+        seq_lens,
+        grid_sizes,
+        freqs,
+        context,
+        context_lens,
+        token_ignore_mask=None,
+        training=True
+    ):
+        r"""
+        Args:
+            x(Tensor): Shape [B, L, C]
+            e(Tensor): Shape [B, 6, C]
+            seq_lens(Tensor): Shape [B], length of each sequence in batch
+            grid_sizes(Tensor): Shape [B, 3], the second dimension contains (F, H, W)
+            freqs(Tensor): Rope freqs, shape [1024, C / num_heads / 2]
+            token_ignore_mask: [B, N]; bool tensor indicating tokens to be ignored in self attention
+        """
+        dtype = x.dtype
+        e, e_no_noise = e_all[0], e_all[1]
+        assert e.dtype == torch.float32
+        assert e_no_noise.dtype == torch.float32
+        with amp.autocast(dtype=torch.float32):
+            e = (self.modulation + e).chunk(6, dim=1)
+            e_no_noise = (self.modulation + e_no_noise).chunk(6, dim=1)
+        assert e[0].dtype == torch.float32
+        num_hist = getattr(self.self_attn, "num_c", 0)
+        hist, noisy = x[:, :num_hist], x[:, num_hist:]
+        _, H, W = grid_sizes[0].tolist()  # 假设所有样本一致
+        B = grid_sizes.shape[0]
+        T_noisy = noisy.shape[1] // (H * W)
+        T_hist= hist.shape[1] // (H * W)
+        grid_sizes_noisy = torch.tensor([T_noisy, H, W], device=grid_sizes.device).unsqueeze(0).repeat(B, 1)
+        grid_sizes_hist = torch.tensor([T_hist, H, W], device=grid_sizes.device).unsqueeze(0).repeat(B, 1)
+        # print(x.shape, e[1].shape, e[0].shape)
+        # self-attention
+        seq_len_hist = torch.tensor([u.size(0) for u in hist], dtype=torch.long)
+        if training or self.hist is None or self.hist.shape[1] != num_hist:
+            if token_ignore_mask is not None:
+                hist_token_ignore_mask = token_ignore_mask[:, :num_hist]
+            else:
+                hist_token_ignore_mask = token_ignore_mask
+            y = self.self_attn(
+                (self.norm1(hist).float() * (1 + e_no_noise[1]) + e_no_noise[0]).type_as(x), seq_len_hist, grid_sizes_hist,
+                freqs, hist_token_ignore_mask)
+            with amp.autocast(dtype=torch.float32):
+                self.hist = hist + y * e_no_noise[2]
+        # print('recompute condition', x.shape)
+        y = self.self_attn(
+            (self.norm1(x).float() * (1 + e[1]) + e[0]).type_as(x), seq_lens, grid_sizes,
+            freqs, token_ignore_mask)
+        with amp.autocast(dtype=torch.float32):
+            noisy = noisy + y * e[2]
+        x = torch.cat([self.hist, noisy], dim=1)
+        x = x.to(dtype)
+        # print('after self attn', x.shape)
+        # cross-attention & ffn function
+        def cross_attn_ffn(x, context, context_lens, e):
+            # print('before cross attn', x.shape)
+            x = x + self.cross_attn(self.norm3(x), context, context_lens)
+            # print('after cross attn', x.shape)
+            hist, noisy = x[:, :num_hist], x[:, num_hist:]
+            y = self.ffn((self.norm2(noisy).float() * (1 + e[4]) + e[3]).to(dtype))
+            with amp.autocast(dtype=torch.float32):
+                noisy = noisy + y * e[5]
+            if training or self.hist_cross is None or self.hist_cross.shape[1] != num_hist:
+                y = self.ffn((self.norm2(hist).float() * (1 + e_no_noise[4]) + e_no_noise[3]).to(dtype))
+                with amp.autocast(dtype=torch.float32):
+                    self.hist_cross = hist + y * e_no_noise[5]
+                # print('compute hist cross', self.hist_cross.shape, hist.shape, noisy.shape, x.shape)
+            x = torch.cat([self.hist_cross, noisy], dim=1)
+            # print('after ffn', self.hist_cross.shape, hist.shape, noisy.shape, x.shape)
+            return x
+        x = cross_attn_ffn(x, context, context_lens, e)
+        x = x.to(dtype)
+        return x
+class Head(nn.Module):
+    def __init__(self, dim, out_dim, patch_size, eps=1e-6):
+        super().__init__()
+        self.dim = dim
+        self.out_dim = out_dim
+        self.patch_size = patch_size
+        self.eps = eps
+        # layers
+        out_dim = math.prod(patch_size) * out_dim
+        self.norm = WanLayerNorm(dim, eps)
+        self.head = nn.Linear(dim, out_dim)
+        # modulation
+        self.modulation = nn.Parameter(torch.randn(1, 2, dim) / dim**0.5)
+    def forward(self, x, e):
+        r"""
+        Args:
+            x(Tensor): Shape [B, L1, C]
+            e(Tensor): Shape [B, C]
+        """
+        assert e.dtype == torch.float32
+        with amp.autocast(dtype=torch.float32):
+            e = (self.modulation + e.unsqueeze(1)).chunk(2, dim=1)
+            x = (self.head(self.norm(x) * (1 + e[1]) + e[0]))
+        return x
+class MLPProj(torch.nn.Module):
+    def __init__(self, in_dim, out_dim):
+        super().__init__()
+        self.proj = torch.nn.Sequential(
+            torch.nn.LayerNorm(in_dim), torch.nn.Linear(in_dim, in_dim),
+            torch.nn.GELU(), torch.nn.Linear(in_dim, out_dim),
+            torch.nn.LayerNorm(out_dim))
+    def forward(self, image_embeds):
+        clip_extra_context_tokens = self.proj(image_embeds)
+        return clip_extra_context_tokens
+class WanModel(nn.Module):
+    r"""
+    Wan diffusion backbone supporting both text-to-video and image-to-video.
+    """
+    def __init__(
+        self,
+        model_type='t2v',
+        patch_size=(1, 2, 2),
+        model_max_length=512,
+        in_channels=16,
+        dim=2048,
+        ffn_dim=8192,
+        freq_dim=256,
+        caption_channels=4096,
+        out_channels=16,
+        num_heads=16,
+        num_layers=32,
+        window_size=(-1, -1),
+        qk_norm=True,
+        cross_attn_norm=True,
+        eps=1e-6,
+        enable_context_parallel=False,
+        use_convenc=True,  # 🔴 新增参数：是否使用卷积编码器进行时序压缩
+    ):
+        r"""
+        Initialize the diffusion model backbone.
+        Args:
+            model_type (`str`, *optional*, defaults to 't2v'):
+                Model variant - 't2v' (text-to-video) or 'i2v' (image-to-video)
+            patch_size (`tuple`, *optional*, defaults to (1, 2, 2)):
+                3D patch dimensions for video embedding (t_patch, h_patch, w_patch)
+            model_max_length (`int`, *optional*, defaults to 512):
+                Fixed length for text embeddings
+            in_channels (`int`, *optional*, defaults to 16):
+                Input video channels (C_in)
+            dim (`int`, *optional*, defaults to 2048):
+                Hidden dimension of the transformer
+            ffn_dim (`int`, *optional*, defaults to 8192):
+                Intermediate dimension in feed-forward network
+            freq_dim (`int`, *optional*, defaults to 256):
+                Dimension for sinusoidal time embeddings
+            caption_channels (`int`, *optional*, defaults to 4096):
+                Input dimension for text embeddings
+            out_channels (`int`, *optional*, defaults to 16):
+                Output video channels (C_out)
+            num_heads (`int`, *optional*, defaults to 16):
+                Number of attention heads
+            num_layers (`int`, *optional*, defaults to 32):
+                Number of transformer blocks
+            window_size (`tuple`, *optional*, defaults to (-1, -1)):
+                Window size for local attention (-1 indicates global attention)
+            qk_norm (`bool`, *optional*, defaults to True):
+                Enable query/key normalization
+            cross_attn_norm (`bool`, *optional*, defaults to False):
+                Enable cross-attention normalization
+            eps (`float`, *optional*, defaults to 1e-6):
+                Epsilon value for normalization layers
+        """
+        super().__init__()
+        assert model_type in ['t2v', 'i2v']
+        self.model_type = model_type
+        self.patch_size = patch_size
+        self.model_max_length = model_max_length
+        self.in_channels = in_channels
+        self.dim = dim
+        self.ffn_dim = ffn_dim
+        self.freq_dim = freq_dim
+        self.caption_channels = caption_channels
+        self.out_channels = out_channels
+        self.num_heads = num_heads
+        self.num_layers = num_layers
+        self.window_size = window_size
+        self.qk_norm = qk_norm
+        self.cross_attn_norm = cross_attn_norm
+        self.eps = eps
+        self.enable_context_parallel = enable_context_parallel
+        self.use_convenc = use_convenc  # 🔴 保存参数
+        # hack y_embedder, not support uncond training now, pls use negative prompt for uncond
+        self.y_embedder = None
+        # embeddings
+        self.patch_embedding = nn.Conv3d(
+            in_channels, dim, kernel_size=patch_size, stride=patch_size)
+        self.text_embedding = nn.Sequential(
+            nn.Linear(caption_channels, dim), nn.GELU(approximate='tanh'),
+            nn.Linear(dim, dim))
+        self.time_embedding = nn.Sequential(
+            nn.Linear(freq_dim, dim), nn.SiLU(), nn.Linear(dim, dim))
+        self.time_projection = nn.Sequential(nn.SiLU(), nn.Linear(dim, dim * 6))
+        self.action_encoder = ActionEncoder()
+        # 🔴 只在 use_convenc=True 时创建时序编码器
+        if self.use_convenc:
+            self.latent_encoder = TemporalLatentEncoder()
+        else:
+            self.latent_encoder = None
+        # blocks
+        cross_attn_type = 't2v_cross_attn' if model_type == 't2v' else 'i2v_cross_attn'
+        self.blocks = nn.ModuleList([
+            WanAttentionBlock(cross_attn_type, dim, ffn_dim, num_heads,
+                              window_size, qk_norm, cross_attn_norm, eps,
+                              enable_context_parallel=enable_context_parallel,)
+            for _ in range(num_layers)
+        ])
+        # head
+        self.head = Head(dim, out_channels, patch_size, eps)
+        # buffers (don't use register_buffer otherwise dtype will be changed in to())
+        assert (dim % num_heads) == 0 and (dim // num_heads) % 2 == 0
+        d = dim // num_heads
+        self.freqs = torch.cat([
+            rope_params(1024, d - 4 * (d // 6)),
+            rope_params(1024, 2 * (d // 6)),
+            rope_params(1024, 2 * (d // 6))
+        ],
+                               dim=1)
+        if model_type == 'i2v':
+            self.img_emb = MLPProj(1280, dim)
+        # initialize weights
+        self.init_weights()
+    def forward(
+        self,
+        x,
+        t,
+        y,
+        y_mask=None,
+        x_ignore_mask=None,
+        clip_fea=None,
+        image_cond=None,
+        move=None,
+        view=None
+    ):
+        r"""
+        Forward pass through the diffusion model
+        """
+        COMPRESSION_RATE = 4
+        MAX_T_OUT = 20
+        TARGET_T_MID = MAX_T_OUT * COMPRESSION_RATE # 80
+        W_IN = 64
+        W_OUT_PER_CHUNK = W_IN // COMPRESSION_RATE # 16
+        TARGET_N_CHUNKS = 5 # 确保 T_mid = 80
+        dtype = self.patch_embedding.weight.dtype
+        B, _, T, H, W = x.shape
+        device = x.device # 获取当前设备
+        T_in = image_cond.shape[2] # 原始输入的时间维度长度
+        # 1. 提取局部记忆 (Last Frame Memory) - 必须在压缩前进行
+        loc_mem = image_cond[:,:,-1:,:,:].to(dtype)
+        # 2. 确保输入数据类型正确
+        image_cond = image_cond.to(dtype)
+        # ----------------- [NEW LOGIC START] 时序压缩逻辑 -----------------
+        # 🔴 只在 use_convenc=True 时执行时序压缩
+        if T_in <= TARGET_T_MID:
+            # 情况 A: T_in <= 80，直接一次编码
+            image_cond = self.latent_encoder(image_cond)
+        else:
+            # 情况 B: T_in > 80，滑动窗口 + 二次压缩
+            # --- Step 1: 滑动窗口分块编码 (T_in -> T_mid=80) ---
+            # 计算步长 S，确保 5 个 Chunk 覆盖 T_in
+            S_denom = TARGET_N_CHUNKS - 1
+            # S = floor( (T_in - W_IN) / (N_chunks - 1) )
+            S = math.floor((T_in - W_IN) / S_denom)
+            S = max(1, S) # 最小步长为 1
+            latent_chunks = []
+            for i in range(TARGET_N_CHUNKS):
+                start = i * S
+                end = start + W_IN
+                chunk = image_cond[:, :, start:end, :, :]
+                # 处理填充：如果 end > T_in，则需要填充
+                padding_len = W_IN - chunk.shape[2]
+                if padding_len > 0:
+                    # 在时序维度 (dim=2) 末尾填充 0
+                    # F.pad 参数: (W_pad_start, W_pad_end, H_pad_start, H_pad_end, T_pad_start, T_pad_end)
+                    chunk = F.pad(chunk, (0, 0, 0, 0, 0, padding_len))
+                # 编码块 (W_IN -> W_OUT_PER_CHUNK=16)
+                # 第一次编码通常冻结
+                # with torch.no_grad():
+                    # self.latent_encoder.eval()
+                encoded_chunk = self.latent_encoder(chunk)
+                    # self.latent_encoder.train()
+                # 裁剪到预期的输出长度 (防止 padding 导致的额外输出)
+                encoded_chunk = encoded_chunk[:, :, :W_OUT_PER_CHUNK, :, :]
+                latent_chunks.append(encoded_chunk)
+            # 拼接中间序列 T_mid (T_mid = 80)
+            image_cond = torch.cat(latent_chunks, dim=2)
+            T_mid = image_cond.shape[2]
+            # --- Step 2: 二次压缩 (T_mid=80 -> T_out=20) ---
+            if T_mid > MAX_T_OUT:
+                # 此时 T_mid = 80，是 4 的倍数，直接编码即可
+                image_cond = self.latent_encoder(image_cond)
+                # T_out = 20
+        # ----------------- [NEW LOGIC END] -----------------
+        # 3. 拼接压缩后的 Condition 和 Loc_Mem
+        image_cond = torch.cat((image_cond, loc_mem), dim=2)
+        # 4. 拼接 Condition 和 Noisy Input
+        x = torch.cat((image_cond, x.to(dtype)), dim=2) # B, C, T_all, H, W
+        # print("x init shape: ", x.shape)
+        # print("image_cond init shape: ", image_cond.shape)
+        T_all = x.shape[2]
+        mask = torch.ones(B, T_all, H, W, device=x.device, dtype=x.dtype) # B, T_all, H, W
+        mask[:, -T:] = 0
+        mask = mask.unsqueeze(1).expand(-1, 4, -1, -1, -1) # B, 4, T_all, H, W
+        x = torch.cat((x, mask), dim=1) # B, C+4, T_all, H, W
+        T_x = T
+        T = T_all
+        N_t = T // self.patch_size[0]
+        N_h = H // self.patch_size[1]
+        N_w = W // self.patch_size[2]
+        T_cond = image_cond.shape[2] # 新的 T_cond 约为 21 (20 + 1 loc_mem)
+        num_c = (T_cond // self.patch_size[0]) * (H // self.patch_size[1]) * (W // self.patch_size[2])
+        for block in self.blocks:
+            block.self_attn.num_c = num_c
+        dtype = self.patch_embedding.weight.dtype
+        x = x.to(dtype)
+        t = t.to(dtype)
+        y = y.to(dtype)
+        if self.model_type == 'i2v':
+            assert clip_fea is not None and image_cond is not None
+            # clip_fea = clip_fea.to(dtype)
+        # params
+        device = self.patch_embedding.weight.device
+        if self.freqs.device != device:
+            self.freqs = self.freqs.to(device)
+        if self.model_type == 'i2v' and image_cond is not None:
+            # image_cond = image_cond.to(dtype)
+            x = [torch.cat([u, v], dim=0) for u, v in zip(x, image_cond)]
+        # embeddings
+        x = [self.patch_embedding(u.unsqueeze(0)) for u in x] # fp32 -> bf16
+        # *******************************************************************
+        # 注意：这里的 action_encoder 调用已经更新为 move 和 view
+        # 假设 self.action_encoder 现在接收 move 和 view 两个参数
+        # *******************************************************************
+        # Action Embedding Logic
+        action_embedding_2 = self.action_encoder(move[:, -81:], view[:, -81:]).to(dtype).permute(0, 2, 1).unsqueeze(-1).unsqueeze(-1)
+        # padding action embedding2 with a tensor of all zeros, the tensor has a same time length of image cond
+        action_shape = list(action_embedding_2.shape)
+        action_shape[2] = T_cond
+        padding_embedding = torch.zeros(action_shape, device=device)
+        # make data type and device right with action embedding 1
+        padding_embedding = padding_embedding.to(dtype).to(device)
+        # concat action embedding 1 and 2
+        action_embedding = torch.cat((padding_embedding, action_embedding_2), dim=2)
+        # 切片 action embedding to meet the length of x (the last action)
+        action_embedding = action_embedding[:, :, -T_all:]
+        # print("action", action_embedding.shape)
+        # print("u shape 1", x[0].shape)
+        x = [u + action_embedding for u in x]
+        grid_sizes = torch.stack(
+            [torch.tensor(u.shape[2:], dtype=torch.long) for u in x])
+        x = [u.flatten(2).transpose(1, 2) for u in x]
+        seq_lens = torch.tensor([u.size(1) for u in x], dtype=torch.long)
+        # print("u shape", x[0].shape)
+        # hack seq_len
+        seq_len = seq_lens.max()
+        x = torch.cat([
+            torch.cat([u, u.new_zeros(u.size(0), seq_len - u.size(1), u.size(2))],
+                      dim=1) for u in x
+        ])
+        # print("x now", x.shape)
+        # time embeddings
+        with amp.autocast(dtype=torch.float32):
+            e = self.time_embedding(
+                sinusoidal_embedding_1d(self.freq_dim, t).float())
+            e0 = self.time_projection(e).unflatten(1, (6, self.dim))
+            assert e.dtype == torch.float32 and e0.dtype == torch.float32
+        t_no_noise = torch.zeros_like(t)  # 对应 t = 0
+        with amp.autocast(dtype=torch.float32):
+            e_no_noise = self.time_embedding(
+                sinusoidal_embedding_1d(self.freq_dim, t_no_noise).float())
+            e0_no_noise = self.time_projection(e_no_noise).unflatten(1, (6, self.dim))
+            assert e_no_noise.dtype == torch.float32 and e0_no_noise.dtype == torch.float32
+        y = y[:,0]
+        y = y * y_mask[...,None]
+        # context
+        context_lens = None
+        context = self.text_embedding(
+            torch.stack(
+                [torch.cat([u, u.new_zeros(self.model_max_length - u.size(0), u.size(1))])  for u in y] #padding
+            )
+        )
+        # # sync context among cp ranks to avoid the following situation:
+        # # cp_rank 0 dropped the context but cp_rank 1 did not, then they have different y embeeding in a forward pass
+        # if context_parallel_util.get_cp_size() > 1:
+        #     context_parallel_util.cp_broadcast(context)
+        if self.model_type == 'i2v' and clip_fea is not None:
+            context_clip = self.img_emb(clip_fea)  # bs x 257 x dim
+            context = torch.concat([context_clip, context], dim=1) # bf16 --> tf32
+        if self.enable_context_parallel:
+            x = rearrange(x, "B (T S) C -> B T S C", T=N_t)
+            x = context_parallel_util.split_cp(x, seq_dim=2)
+            x = rearrange(x, "B T S C -> B (T S) C")
+        # convert x_mask to token_ignore_mask
+        token_ignore_mask = None
+        if x_ignore_mask is not None:
+            x_ignore_mask = x_ignore_mask.to(torch.float32) # [B, T, H, W]; cast for interpolation
+            # x_ignore_mask_temp_sample_cond = temporal_sample(x_ignore_mask[:, :-T_x], rate=2, dim=1)
+            # print(x_ignore_mask_temp_sample_cond.shape)
+            x_ignore_mask_temp_sample = torch.cat((x_ignore_mask, x_ignore_mask[:, -T_x:]), dim=1)
+            token_ignore_mask = nn.functional.interpolate(x_ignore_mask_temp_sample, size=(N_h, N_w), mode='nearest')[:, -T_all:] # [B, T, N_h, N_w]
+            token_ignore_mask = token_ignore_mask.reshape(B, T * N_h * N_w) # [B, N]
+            token_ignore_mask = (token_ignore_mask > 0)
+        if self.enable_context_parallel and x_ignore_mask is not None:
+            token_ignore_mask = rearrange(token_ignore_mask, "B (T S) -> B T S", T=T)
+            token_ignore_mask = context_parallel_util.split_cp(token_ignore_mask, seq_dim=2)
+            token_ignore_mask = rearrange(token_ignore_mask, "B T S -> B (T S)")
+        for block in self.blocks:
+            # support grad checkpointing
+            x = auto_grad_checkpoint(block, x, [e0, e0_no_noise], seq_lens, grid_sizes, self.freqs, context, context_lens, token_ignore_mask)
+        if self.enable_context_parallel:
+            x = context_parallel_util.gather_cp(x, N_t)
+        # head
+        x = self.head(x, e)
+        # unpatchify
+        x = self.unpatchify(x, grid_sizes)
+        return torch.stack(x).float()
+    def unpatchify(self, x, grid_sizes):
+        r"""
+        Reconstruct video tensors from patch embeddings.
+        Args:
+            x (List[Tensor]):
+                List of patchified features, each with shape [L, C_out * prod(patch_size)]
+            grid_sizes (Tensor):
+                Original spatial-temporal grid dimensions before patching,
+                    shape [B, 3] (3 dimensions correspond to F_patches, H_patches, W_patches)
+        Returns:
+            List[Tensor]:
+                Reconstructed video tensors with shape [C_out, F, H / 8, W / 8]
+        """
+        c = self.out_channels
+        out = []
+        for u, v in zip(x, grid_sizes.tolist()):
+            u = u[:math.prod(v)].view(*v, *self.patch_size, c)
+            u = torch.einsum('fhwpqrc->cfphqwr', u)
+            u = u.reshape(c, *[i * j for i, j in zip(v, self.patch_size)])
+            out.append(u)
+        return out
+    def init_weights(self):
+        r"""
+        Initialize model parameters using Xavier initialization.
+        """
+        # basic init
+        for m in self.modules():
+            if isinstance(m, nn.Linear):
+                nn.init.xavier_uniform_(m.weight)
+                if m.bias is not None:
+                    nn.init.zeros_(m.bias)
+        # init embeddings
+        nn.init.xavier_uniform_(self.patch_embedding.weight.flatten(1))
+        for m in self.text_embedding.modules():
+            if isinstance(m, nn.Linear):
+                nn.init.normal_(m.weight, std=.02)
+        for m in self.time_embedding.modules():
+            if isinstance(m, nn.Linear):
+                nn.init.normal_(m.weight, std=.02)
+        # init output layer
+        nn.init.zeros_(self.head.head.weight)

infworld/models/scheduler.py ADDED Viewed

	@@ -0,0 +1,306 @@

+import math
+import time
+import numpy as np
+from tqdm import tqdm
+from typing import Callable
+from einops import rearrange
+from functools import partial
+import torch
+from torch.distributions import LogisticNormal
+from infworld.context_parallel import context_parallel_util
+# some code are inspired by https://github.com/magic-research/piecewise-rectified-flow/blob/main/scripts/train_perflow.py
+# and https://github.com/magic-research/piecewise-rectified-flow/blob/main/src/scheduler_perflow.py
+# and https://github.com/black-forest-labs/flux/blob/main/src/flux/sampling.py
+def _extract_into_tensor(arr, timesteps, broadcast_shape):
+    """
+    Extract values from a 1-D numpy array for a batch of indices.
+    :param arr: the 1-D numpy array.
+    :param timesteps: a tensor of indices into the array to extract.
+    :param broadcast_shape: a larger shape of K dimensions with the batch
+                            dimension equal to the length of timesteps.
+    :return: a tensor of shape [batch_size, 1, ...] where the shape has K dims.
+    """
+    res = torch.from_numpy(arr).to(device=timesteps.device)[timesteps].float()
+    while len(res.shape) < len(broadcast_shape):
+        res = res[..., None]
+    return res + torch.zeros(broadcast_shape, device=timesteps.device)
+def mean_flat(tensor: torch.Tensor, stoploss_mask=None):
+    """
+    Take the mean over all non-batch dimensions.
+        tensor: [B, C, T, H, W]
+        stoploss_mask: [B, T, H, W]
+    """
+    if stoploss_mask is None:
+        return tensor.mean(dim=list(range(1, len(tensor.shape))))
+    else:
+        stoploss_mask = stoploss_mask.unsqueeze(1).expand_as(tensor) # [B, T, H, W] --> [B, C, T, H, W]
+        assert tensor.shape == stoploss_mask.shape, f"shape of tensor {tensor.shape} and stoploss_mask {stoploss_mask.shape} should be the same"
+        loss_mask = ~stoploss_mask
+        masked_loss = tensor * loss_mask
+        sum_loss = masked_loss.sum(dim=list(range(1, len(tensor.shape))))
+        count_nonzero = loss_mask.sum(dim=list(range(1, len(tensor.shape))))
+        mean_loss = sum_loss / count_nonzero.clamp(min=1)
+        return mean_loss
+def clamp(value, min_value, max_value):
+    return max(min_value, min(value, max_value))
+def timestep_transform(
+    t,
+    shift=5.0,
+    num_timesteps=1000,
+):
+    t = t / num_timesteps
+    # shift the timestep based on ratio
+    new_t = shift * t / (1 + (shift - 1) * t)
+    new_t = new_t * num_timesteps
+    return new_t
+class RFlowScheduler:
+    def __init__(
+        self,
+        num_timesteps=1000,
+        num_sampling_steps=10,
+        use_discrete_timesteps=False,
+        sample_method="uniform",
+        loc=0.0,
+        scale=1.0,
+        shift=5.0,
+        use_timestep_transform=False,
+        transform_scale=1.0,
+        use_reversed_velocity=False,
+        cfg_scale=7.0,
+        **kwargs,
+    ):
+        self.num_timesteps = num_timesteps
+        self.num_sampling_steps = num_sampling_steps
+        self.use_discrete_timesteps = use_discrete_timesteps
+        self.use_reversed_velocity = use_reversed_velocity
+        self.cfg_scale = cfg_scale
+        # sample method
+        assert sample_method in ["uniform", "logit-normal"]
+        assert (
+            sample_method == "uniform" or not use_discrete_timesteps
+        ), "Only uniform sampling is supported for discrete timesteps"
+        self.sample_method = sample_method
+        if sample_method == "logit-normal":
+            self.distribution = LogisticNormal(torch.tensor([loc]), torch.tensor([scale]))
+            self.sample_t = lambda x: self.distribution.sample((x.shape[0],))[:, 0].to(x.device)
+        # timestep transform
+        self.use_timestep_transform = use_timestep_transform
+        self.transform_scale = transform_scale
+        self.shift = shift
+        sigmas = torch.linspace(0, 1, num_timesteps)
+        sigmas = shift * sigmas / (1 + (shift - 1) * sigmas)
+        self.timesteps = sigmas * num_timesteps
+        y = torch.exp(-2 * ((self.timesteps - num_timesteps/2) / num_timesteps)**2)
+        y_shifted = y - y.min()
+        self.bsmntw_weighing = y_shifted * (num_timesteps / y_shifted.sum())
+    def training_losses(self, model, x_start, model_kwargs=None, noise=None, x_ignore_mask=None, t=None):
+        """
+        Compute training losses for a single timestep.
+        Arguments format copied from opensora/schedulers/iddpm/gaussian_diffusion.py/training_losses
+        Note: t is int tensor and should be rescaled from [0, num_timesteps-1] to [1,0]
+        """
+        if t is None:
+            if self.use_discrete_timesteps:
+                t = torch.randint(0, self.num_timesteps, (x_start.shape[0],), device=x_start.device)
+            elif self.sample_method == "uniform":
+                t = torch.rand((x_start.shape[0],), device=x_start.device) * self.num_timesteps
+            elif self.sample_method == "logit-normal":
+                t = self.sample_t(x_start) * self.num_timesteps
+            if self.use_timestep_transform:
+                latent_size = x_start.shape[-3:]
+                t = timestep_transform(t, shift=self.shift, num_timesteps=self.num_timesteps)
+        if model_kwargs is None:
+            model_kwargs = {}
+        if noise is None:
+            noise = torch.randn_like(x_start)
+        assert noise.shape == x_start.shape
+        if context_parallel_util.get_cp_size() > 1:
+            context_parallel_util.cp_broadcast(noise)
+            context_parallel_util.cp_broadcast(t)
+        x_t = self.add_noise(x_start, noise, t)
+        target = x_start - noise
+        if self.use_reversed_velocity:
+            target = -target
+        terms = {}
+        model_output = model(x_t, t, x_ignore_mask=x_ignore_mask, **model_kwargs)
+        velocity_pred = model_output
+        T = target.shape[2]
+        loss = mean_flat((velocity_pred[:, :, -T:] - target).pow(2), stoploss_mask=x_ignore_mask[:, -T:])
+        # # get loss weight
+        # timestep_id = torch.argmin((self.timesteps.unsqueeze(0) - t.unsqueeze(1).to(self.timesteps.device)).abs(), dim=1)
+        # weights = self.bsmntw_weighing[timestep_id]
+        # loss = weights.to(loss) * loss
+        terms["loss"] = loss
+        return terms
+    def add_noise(
+        self,
+        original_samples: torch.FloatTensor,
+        noise: torch.FloatTensor,
+        timesteps: torch.IntTensor,
+    ) -> torch.FloatTensor:
+        """
+        compatible with diffusers add_noise()
+        """
+        timesteps = timesteps.float() / self.num_timesteps
+        timesteps = timesteps.view(timesteps.shape + (1,) * (len(noise.shape)-1))
+        return (1 - timesteps) * original_samples + timesteps * noise
+    def sample(
+        self,
+        model,
+        text_encoder,
+        null_embedder,
+        z_size,
+        prompts,
+        device,
+        mask=None,
+        guidance_scale=None,
+        negative_prompts=None,
+        additional_args=None,
+        progress=True,
+    ):
+        # if no specific guidance scale is provided, use the default scale when initializing the scheduler
+        if guidance_scale is None:
+            guidance_scale = self.cfg_scale
+        n = len(prompts)
+        z = torch.randn(*z_size, device=device)
+        if context_parallel_util.get_cp_size() > 1:
+            context_parallel_util.cp_broadcast(z)
+        # For performance alignment
+        # from source.opensora.utils.inference_utils import apply_mask_strategy
+        # mask = apply_mask_strategy(z, [[]], [""], 0, align=5)
+        assert negative_prompts is None or len(negative_prompts) in [n, 1], \
+            "Invalid negative prompts."
+        if negative_prompts:
+            if len(negative_prompts) == 1: negative_prompts *= n
+            prompts = prompts + negative_prompts
+        batch_size = len(prompts)
+        if context_parallel_util.get_cp_rank() == 0:
+            model_args = text_encoder.encode(prompts)
+            if context_parallel_util.get_cp_size() > 1:
+                context_parallel_util.cp_broadcast(model_args['y'])
+                context_parallel_util.cp_broadcast(model_args['y_mask'])
+        elif context_parallel_util.get_cp_size() > 1:
+            caption_channels = text_encoder.output_dim
+            model_max_length = text_encoder.model_max_length
+            y_tensor = torch.zeros([batch_size, 1, model_max_length, caption_channels], dtype=torch.float32, device=device)
+            y_mask_tensor = torch.zeros([batch_size, model_max_length], dtype=torch.int64, device=device)
+            context_parallel_util.cp_broadcast(y_tensor)
+            context_parallel_util.cp_broadcast(y_mask_tensor)
+            model_args = {
+                "y" : y_tensor,
+                "y_mask": y_mask_tensor,
+            }
+        assert negative_prompts, "Not support uncond training now, pls use negative prompt for uncond."
+        if not negative_prompts:
+            uncond = null_embedder.y_embedding[None].repeat(n, 1, 1)[:, None]
+            model_args["y"] = torch.concat([model_args["y"], uncond])
+        if additional_args is not None:
+            model_args.update(additional_args)
+        # prepare timesteps
+        timesteps = list(np.linspace(self.num_timesteps, 1, self.num_sampling_steps, dtype=np.float32))
+        if self.use_discrete_timesteps:
+            timesteps = [int(round(t)) for t in timesteps]
+        timesteps = [torch.tensor([t] * z.shape[0], device=device) for t in timesteps]
+        if self.use_timestep_transform:
+            latent_size = z_size[-3:]
+            timesteps = [timestep_transform(t, shift=self.shift, num_timesteps=self.num_timesteps) for t in timesteps]
+        if mask is not None:
+            noise_added = torch.zeros_like(mask, dtype=torch.bool)
+            noise_added = noise_added | (mask == 1)
+        if context_parallel_util.get_cp_size() > 1:
+            torch.distributed.barrier(group=context_parallel_util.get_cp_group())
+        model_args["image_cond"] = model_args["image_cond"].repeat(2, 1, 1, 1, 1)
+        progress_wrap = partial(tqdm, total=len(timesteps)) if progress else (lambda x: x)
+        for i, t in progress_wrap(enumerate(timesteps)):
+            # mask for adding noise
+            if mask is not None:
+                mask_t = mask * self.num_timesteps
+                x0 = z.clone()
+                x0_noise = torch.randn_like(x0)
+                if context_parallel_util.get_cp_size() > 1:
+                    context_parallel_util.cp_broadcast(x0_noise)
+                x_noise = self.scheduler.add_noise(x0, x0_noise, t)
+                mask_t_upper = mask_t >= t.unsqueeze(1)
+                model_args["x_mask"] = mask_t_upper.repeat(2, 1)
+                mask_add_noise = mask_t_upper & ~noise_added
+                z = torch.where(mask_add_noise[:, None, :, None, None], x_noise, x0)
+                noise_added = mask_t_upper
+            # classifier-free guidance
+            z_in = torch.cat([z, z], 0)
+            t = torch.cat([t, t], 0)
+            start = time.time()
+            pred = model(z_in, t, **model_args)
+            pred = pred[:, :, -z_in.shape[2]:]
+            end = time.time()
+            print(f"Step {i} Forward time: {end - start:.4f} seconds")
+            pred_cond, pred_uncond = pred.chunk(2, dim=0)
+            v_pred = pred_uncond + guidance_scale * (pred_cond - pred_uncond)
+            # When model predict noise-z0, the actual velocity is (v_pred * -1)
+            if self.use_reversed_velocity:
+                v_pred = -v_pred
+            # update z
+            dt = timesteps[i] - timesteps[i + 1] if i < len(timesteps) - 1 else timesteps[i]
+            dt = dt / self.num_timesteps
+            z = z + v_pred * dt[:, None, None, None, None]
+            if mask is not None:
+                z = torch.where(mask_t_upper[:, None, :, None, None], z, x0)
+        return z

infworld/models/t5.py ADDED Viewed

	@@ -0,0 +1,321 @@

+# Adapted from PixArt
+#
+# Copyright (C) 2023  PixArt-alpha/PixArt-alpha
+#
+# This program is free software: you can redistribute it and/or modify
+# it under the terms of the GNU Affero General Public License as published
+# by the Free Software Foundation, either version 3 of the License, or
+# (at your option) any later version.
+#
+# This program is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+# GNU Affero General Public License for more details.
+#
+#
+# This source code is licensed under the license found in the
+# LICENSE file in the root directory of this source tree.
+# --------------------------------------------------------
+# References:
+# PixArt: https://github.com/PixArt-alpha/PixArt-alpha
+# T5:     https://github.com/google-research/text-to-text-transfer-transformer
+# --------------------------------------------------------
+import html
+import os
+import re
+import urllib.parse as ul
+import ftfy
+import torch
+from bs4 import BeautifulSoup
+from huggingface_hub import hf_hub_download
+from transformers import AutoTokenizer, T5EncoderModel
+class T5Embedder:
+    available_models = ["t5-v1_1-xxl"]
+    bad_punct_regex = re.compile(
+        r"[" + "#®•©™&@·º½¾¿¡§~" + "\)" + "\(" + "\]" + "\[" + "\}" + "\{" + "\|" + "\\" + "\/" + "\*" + r"]{1,}"
+    )  # noqa
+    def __init__(
+        self,
+        device,
+        from_pretrained,
+        *,
+        cache_dir=None,
+        hf_token=None,
+        use_text_preprocessing=True,
+        t5_model_kwargs=None,
+        torch_dtype=None,
+        use_offload_folder=None,
+        model_max_length=120,
+    ):
+        self.device = torch.device(device)
+        self.torch_dtype = torch_dtype or torch.bfloat16
+        if t5_model_kwargs is None:
+            t5_model_kwargs = {"low_cpu_mem_usage": True, "torch_dtype": self.torch_dtype}
+            if use_offload_folder is not None:
+                t5_model_kwargs["offload_folder"] = use_offload_folder
+                t5_model_kwargs["device_map"] = {
+                    "shared": self.device,
+                    "encoder.embed_tokens": self.device,
+                    "encoder.block.0": self.device,
+                    "encoder.block.1": self.device,
+                    "encoder.block.2": self.device,
+                    "encoder.block.3": self.device,
+                    "encoder.block.4": self.device,
+                    "encoder.block.5": self.device,
+                    "encoder.block.6": self.device,
+                    "encoder.block.7": self.device,
+                    "encoder.block.8": self.device,
+                    "encoder.block.9": self.device,
+                    "encoder.block.10": self.device,
+                    "encoder.block.11": self.device,
+                    "encoder.block.12": "disk",
+                    "encoder.block.13": "disk",
+                    "encoder.block.14": "disk",
+                    "encoder.block.15": "disk",
+                    "encoder.block.16": "disk",
+                    "encoder.block.17": "disk",
+                    "encoder.block.18": "disk",
+                    "encoder.block.19": "disk",
+                    "encoder.block.20": "disk",
+                    "encoder.block.21": "disk",
+                    "encoder.block.22": "disk",
+                    "encoder.block.23": "disk",
+                    "encoder.final_layer_norm": "disk",
+                    "encoder.dropout": "disk",
+                }
+            else:
+                t5_model_kwargs["device_map"] = {"shared": self.device, "encoder": self.device}
+        self.use_text_preprocessing = use_text_preprocessing
+        tokenizer_path = from_pretrained
+        path = from_pretrained
+        print(tokenizer_path)
+        self.tokenizer = AutoTokenizer.from_pretrained(tokenizer_path)
+        self.model = T5EncoderModel.from_pretrained(path, **t5_model_kwargs).eval()
+        self.model_max_length = model_max_length
+    def get_text_embeddings(self, texts):
+        texts = [self.text_preprocessing(text) for text in texts]
+        text_tokens_and_mask = self.tokenizer(
+            texts,
+            max_length=self.model_max_length,
+            padding="max_length",
+            truncation=True,
+            return_attention_mask=True,
+            add_special_tokens=True,
+            return_tensors="pt",
+        )
+        text_tokens_and_mask["input_ids"] = text_tokens_and_mask["input_ids"]
+        text_tokens_and_mask["attention_mask"] = text_tokens_and_mask["attention_mask"]
+        with torch.no_grad():
+            text_encoder_embs = self.model(
+                input_ids=text_tokens_and_mask["input_ids"].to(self.device),
+                attention_mask=text_tokens_and_mask["attention_mask"].to(self.device),
+            )["last_hidden_state"].detach()
+        return text_encoder_embs, text_tokens_and_mask["attention_mask"].to(self.device)
+    def text_preprocessing(self, text):
+        if self.use_text_preprocessing:
+            # The exact text cleaning as was in the training stage:
+            text = self.clean_caption(text)
+            text = self.clean_caption(text)
+            return text
+        else:
+            return text.lower().strip()
+    @staticmethod
+    def basic_clean(text):
+        text = ftfy.fix_text(text)
+        text = html.unescape(html.unescape(text))
+        return text.strip()
+    def clean_caption(self, caption):
+        caption = str(caption)
+        caption = ul.unquote_plus(caption)
+        caption = caption.strip().lower()
+        caption = re.sub("<person>", "person", caption)
+        # urls:
+        caption = re.sub(
+            r"\b((?:https?:(?:\/{1,3}|[a-zA-Z0-9%])|[a-zA-Z0-9.\-]+[.](?:com|co|ru|net|org|edu|gov|it)[\w/-]*\b\/?(?!@)))",  # noqa
+            "",
+            caption,
+        )  # regex for urls
+        caption = re.sub(
+            r"\b((?:www:(?:\/{1,3}|[a-zA-Z0-9%])|[a-zA-Z0-9.\-]+[.](?:com|co|ru|net|org|edu|gov|it)[\w/-]*\b\/?(?!@)))",  # noqa
+            "",
+            caption,
+        )  # regex for urls
+        # html:
+        caption = BeautifulSoup(caption, features="html.parser").text
+        # @<nickname>
+        caption = re.sub(r"@[\w\d]+\b", "", caption)
+        # 31C0—31EF CJK Strokes
+        # 31F0—31FF Katakana Phonetic Extensions
+        # 3200—32FF Enclosed CJK Letters and Months
+        # 3300—33FF CJK Compatibility
+        # 3400—4DBF CJK Unified Ideographs Extension A
+        # 4DC0—4DFF Yijing Hexagram Symbols
+        # 4E00—9FFF CJK Unified Ideographs
+        caption = re.sub(r"[\u31c0-\u31ef]+", "", caption)
+        caption = re.sub(r"[\u31f0-\u31ff]+", "", caption)
+        caption = re.sub(r"[\u3200-\u32ff]+", "", caption)
+        caption = re.sub(r"[\u3300-\u33ff]+", "", caption)
+        caption = re.sub(r"[\u3400-\u4dbf]+", "", caption)
+        caption = re.sub(r"[\u4dc0-\u4dff]+", "", caption)
+        caption = re.sub(r"[\u4e00-\u9fff]+", "", caption)
+        #######################################################
+        # все виды тире / all types of dash --> "-"
+        caption = re.sub(
+            r"[\u002D\u058A\u05BE\u1400\u1806\u2010-\u2015\u2E17\u2E1A\u2E3A\u2E3B\u2E40\u301C\u3030\u30A0\uFE31\uFE32\uFE58\uFE63\uFF0D]+",  # noqa
+            "-",
+            caption,
+        )
+        # кавычки к одному стандарту
+        caption = re.sub(r"[`´«»“”¨]", '"', caption)
+        caption = re.sub(r"[‘’]", "'", caption)
+        # &quot;
+        caption = re.sub(r"&quot;?", "", caption)
+        # &amp
+        caption = re.sub(r"&amp", "", caption)
+        # ip adresses:
+        caption = re.sub(r"\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}", " ", caption)
+        # article ids:
+        caption = re.sub(r"\d:\d\d\s+$", "", caption)
+        # \n
+        caption = re.sub(r"\\n", " ", caption)
+        # "#123"
+        caption = re.sub(r"#\d{1,3}\b", "", caption)
+        # "#12345.."
+        caption = re.sub(r"#\d{5,}\b", "", caption)
+        # "123456.."
+        caption = re.sub(r"\b\d{6,}\b", "", caption)
+        # filenames:
+        caption = re.sub(r"[\S]+\.(?:png|jpg|jpeg|bmp|webp|eps|pdf|apk|mp4)", "", caption)
+        #
+        caption = re.sub(r"[\"\']{2,}", r'"', caption)  # """AUSVERKAUFT"""
+        caption = re.sub(r"[\.]{2,}", r" ", caption)  # """AUSVERKAUFT"""
+        caption = re.sub(self.bad_punct_regex, r" ", caption)  # ***AUSVERKAUFT***, #AUSVERKAUFT
+        caption = re.sub(r"\s+\.\s+", r" ", caption)  # " . "
+        # this-is-my-cute-cat / this_is_my_cute_cat
+        regex2 = re.compile(r"(?:\-|\_)")
+        if len(re.findall(regex2, caption)) > 3:
+            caption = re.sub(regex2, " ", caption)
+        caption = self.basic_clean(caption)
+        caption = re.sub(r"\b[a-zA-Z]{1,3}\d{3,15}\b", "", caption)  # jc6640
+        caption = re.sub(r"\b[a-zA-Z]+\d+[a-zA-Z]+\b", "", caption)  # jc6640vc
+        caption = re.sub(r"\b\d+[a-zA-Z]+\d+\b", "", caption)  # 6640vc231
+        caption = re.sub(r"(worldwide\s+)?(free\s+)?shipping", "", caption)
+        caption = re.sub(r"(free\s)?download(\sfree)?", "", caption)
+        caption = re.sub(r"\bclick\b\s(?:for|on)\s\w+", "", caption)
+        caption = re.sub(r"\b(?:png|jpg|jpeg|bmp|webp|eps|pdf|apk|mp4)(\simage[s]?)?", "", caption)
+        caption = re.sub(r"\bpage\s+\d+\b", "", caption)
+        caption = re.sub(r"\b\d*[a-zA-Z]+\d+[a-zA-Z]+\d+[a-zA-Z\d]*\b", r" ", caption)  # j2d1a2a...
+        caption = re.sub(r"\b\d+\.?\d*[xх×]\d+\.?\d*\b", "", caption)
+        caption = re.sub(r"\b\s+\:\s+", r": ", caption)
+        caption = re.sub(r"(\D[,\./])\b", r"\1 ", caption)
+        caption = re.sub(r"\s+", " ", caption)
+        caption.strip()
+        caption = re.sub(r"^[\"\']([\w\W]+)[\"\']$", r"\1", caption)
+        caption = re.sub(r"^[\'\_,\-\:;]", r"", caption)
+        caption = re.sub(r"[\'\_,\-\:\-\+]$", r"", caption)
+        caption = re.sub(r"^\.\S+$", "", caption)
+        return caption.strip()
+class T5Encoder:
+    def __init__(
+        self,
+        from_pretrained=None,
+        model_max_length=120,
+        device="cuda",
+        dtype=torch.float,
+        shardformer=False,
+        allow_tf32=True,
+    ):
+        assert from_pretrained is not None, "Please specify the path to the T5 model"
+        self.t5 = T5Embedder(
+            device=device,
+            torch_dtype=dtype,
+            from_pretrained=from_pretrained,
+            model_max_length=model_max_length,
+        )
+        self.t5.model.to(dtype=dtype)
+        self.y_embedder = None
+        self.model_max_length = model_max_length
+        self.output_dim = self.t5.model.config.d_model
+        self.allow_tf32 = allow_tf32
+        if shardformer:
+            self.shardformer_t5()
+    def shardformer_t5(self):
+        from colossalai.shardformer import ShardConfig, ShardFormer
+        from opensora.acceleration.shardformer.policy.t5_encoder import T5EncoderPolicy
+        from opensora.utils.misc import requires_grad
+        shard_config = ShardConfig(
+            tensor_parallel_process_group=None,
+            pipeline_stage_manager=None,
+            enable_tensor_parallelism=False,
+            enable_fused_normalization=False,
+            enable_flash_attention=False,
+            enable_jit_fused=True,
+            enable_sequence_parallelism=False,
+            enable_sequence_overlap=False,
+        )
+        shard_former = ShardFormer(shard_config=shard_config)
+        optim_model, _ = shard_former.optimize(self.t5.model, policy=T5EncoderPolicy())
+        self.t5.model = optim_model.half()
+        # ensure the weights are frozen
+        requires_grad(self.t5.model, False)
+    def encode(self, text):
+        original_value = torch.backends.cuda.matmul.allow_tf32
+        if self.allow_tf32:
+            torch.backends.cuda.matmul.allow_tf32 = True
+        caption_embs, emb_masks = self.t5.get_text_embeddings(text)
+        caption_embs = caption_embs[:, None]
+        torch.backends.cuda.matmul.allow_tf32 = original_value
+        return dict(y=caption_embs, y_mask=emb_masks)
+    def null(self, n):
+        null_y = self.y_embedder.y_embedding[None].repeat(n, 1, 1)[:, None]
+        return null_y

infworld/models/umt5.py ADDED Viewed

	@@ -0,0 +1,605 @@

+# Modified from transformers.models.t5.modeling_t5
+# Copyright 2024-2025 The Alibaba Wan Team Authors. All rights reserved.
+import os
+import html
+import math
+import ftfy
+import string
+import logging
+import regex as re
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import AutoTokenizer
+__all__ = [
+    'T5Model',
+    'T5Encoder',
+    'T5Decoder',
+    'T5EncoderModel',
+    'HuggingfaceTokenizer',
+]
+def basic_clean(text):
+    text = ftfy.fix_text(text)
+    text = html.unescape(html.unescape(text))
+    return text.strip()
+def whitespace_clean(text):
+    text = re.sub(r'\s+', ' ', text)
+    text = text.strip()
+    return text
+def canonicalize(text, keep_punctuation_exact_string=None):
+    text = text.replace('_', ' ')
+    if keep_punctuation_exact_string:
+        text = keep_punctuation_exact_string.join(
+            part.translate(str.maketrans('', '', string.punctuation))
+            for part in text.split(keep_punctuation_exact_string))
+    else:
+        text = text.translate(str.maketrans('', '', string.punctuation))
+    text = text.lower()
+    text = re.sub(r'\s+', ' ', text)
+    return text.strip()
+class HuggingfaceTokenizer:
+    def __init__(self, name, seq_len=None, clean=None, **kwargs):
+        assert clean in (None, 'whitespace', 'lower', 'canonicalize')
+        self.name = name
+        self.seq_len = seq_len
+        self.clean = clean
+        # init tokenizer
+        self.tokenizer = AutoTokenizer.from_pretrained(name, **kwargs)
+        self.vocab_size = self.tokenizer.vocab_size
+    def __call__(self, sequence, **kwargs):
+        return_mask = kwargs.pop('return_mask', False)
+        # arguments
+        _kwargs = {'return_tensors': 'pt'}
+        if self.seq_len is not None:
+            _kwargs.update({
+                'padding': 'max_length',
+                'truncation': True,
+                'max_length': self.seq_len
+            })
+        _kwargs.update(**kwargs)
+        # tokenization
+        if isinstance(sequence, str):
+            sequence = [sequence]
+        if self.clean:
+            sequence = [self._clean(u) for u in sequence]
+        ids = self.tokenizer(sequence, **_kwargs)
+        # output
+        if return_mask:
+            return ids.input_ids, ids.attention_mask
+        else:
+            return ids.input_ids
+    def _clean(self, text):
+        if self.clean == 'whitespace':
+            text = whitespace_clean(basic_clean(text))
+        elif self.clean == 'lower':
+            text = whitespace_clean(basic_clean(text)).lower()
+        elif self.clean == 'canonicalize':
+            text = canonicalize(basic_clean(text))
+        return text
+def fp16_clamp(x):
+    if x.dtype == torch.float16 and torch.isinf(x).any():
+        clamp = torch.finfo(x.dtype).max - 1000
+        x = torch.clamp(x, min=-clamp, max=clamp)
+    return x
+def init_weights(m):
+    if isinstance(m, T5LayerNorm):
+        nn.init.ones_(m.weight)
+    elif isinstance(m, T5Model):
+        nn.init.normal_(m.token_embedding.weight, std=1.0)
+    elif isinstance(m, T5FeedForward):
+        nn.init.normal_(m.gate[0].weight, std=m.dim**-0.5)
+        nn.init.normal_(m.fc1.weight, std=m.dim**-0.5)
+        nn.init.normal_(m.fc2.weight, std=m.dim_ffn**-0.5)
+    elif isinstance(m, T5Attention):
+        nn.init.normal_(m.q.weight, std=(m.dim * m.dim_attn)**-0.5)
+        nn.init.normal_(m.k.weight, std=m.dim**-0.5)
+        nn.init.normal_(m.v.weight, std=m.dim**-0.5)
+        nn.init.normal_(m.o.weight, std=(m.num_heads * m.dim_attn)**-0.5)
+    elif isinstance(m, T5RelativeEmbedding):
+        nn.init.normal_(
+            m.embedding.weight, std=(2 * m.num_buckets * m.num_heads)**-0.5)
+class GELU(nn.Module):
+    def forward(self, x):
+        return 0.5 * x * (1.0 + torch.tanh(
+            math.sqrt(2.0 / math.pi) * (x + 0.044715 * torch.pow(x, 3.0))))
+class T5LayerNorm(nn.Module):
+    def __init__(self, dim, eps=1e-6):
+        super(T5LayerNorm, self).__init__()
+        self.dim = dim
+        self.eps = eps
+        self.weight = nn.Parameter(torch.ones(dim))
+    def forward(self, x):
+        x = x * torch.rsqrt(x.float().pow(2).mean(dim=-1, keepdim=True) +
+                            self.eps)
+        if self.weight.dtype in [torch.float16, torch.bfloat16]:
+            x = x.type_as(self.weight)
+        return self.weight * x
+class T5Attention(nn.Module):
+    def __init__(self, dim, dim_attn, num_heads, dropout=0.1):
+        assert dim_attn % num_heads == 0
+        super(T5Attention, self).__init__()
+        self.dim = dim
+        self.dim_attn = dim_attn
+        self.num_heads = num_heads
+        self.head_dim = dim_attn // num_heads
+        # layers
+        self.q = nn.Linear(dim, dim_attn, bias=False)
+        self.k = nn.Linear(dim, dim_attn, bias=False)
+        self.v = nn.Linear(dim, dim_attn, bias=False)
+        self.o = nn.Linear(dim_attn, dim, bias=False)
+        self.dropout = nn.Dropout(dropout)
+    def forward(self, x, context=None, mask=None, pos_bias=None):
+        """
+        x:          [B, L1, C].
+        context:    [B, L2, C] or None.
+        mask:       [B, L2] or [B, L1, L2] or None.
+        """
+        # check inputs
+        context = x if context is None else context
+        b, n, c = x.size(0), self.num_heads, self.head_dim
+        # compute query, key, value
+        q = self.q(x).view(b, -1, n, c)
+        k = self.k(context).view(b, -1, n, c)
+        v = self.v(context).view(b, -1, n, c)
+        # attention bias
+        attn_bias = x.new_zeros(b, n, q.size(1), k.size(1))
+        if pos_bias is not None:
+            attn_bias += pos_bias
+        if mask is not None:
+            assert mask.ndim in [2, 3]
+            mask = mask.view(b, 1, 1,
+                             -1) if mask.ndim == 2 else mask.unsqueeze(1)
+            attn_bias.masked_fill_(mask == 0, torch.finfo(x.dtype).min)
+        # compute attention (T5 does not use scaling)
+        attn = torch.einsum('binc,bjnc->bnij', q, k) + attn_bias
+        attn = F.softmax(attn.float(), dim=-1).type_as(attn)
+        x = torch.einsum('bnij,bjnc->binc', attn, v)
+        # output
+        x = x.reshape(b, -1, n * c)
+        x = self.o(x)
+        x = self.dropout(x)
+        return x
+class T5FeedForward(nn.Module):
+    def __init__(self, dim, dim_ffn, dropout=0.1):
+        super(T5FeedForward, self).__init__()
+        self.dim = dim
+        self.dim_ffn = dim_ffn
+        # layers
+        self.gate = nn.Sequential(nn.Linear(dim, dim_ffn, bias=False), GELU())
+        self.fc1 = nn.Linear(dim, dim_ffn, bias=False)
+        self.fc2 = nn.Linear(dim_ffn, dim, bias=False)
+        self.dropout = nn.Dropout(dropout)
+    def forward(self, x):
+        x = self.fc1(x) * self.gate(x)
+        x = self.dropout(x)
+        x = self.fc2(x)
+        x = self.dropout(x)
+        return x
+class T5SelfAttention(nn.Module):
+    def __init__(self,
+                 dim,
+                 dim_attn,
+                 dim_ffn,
+                 num_heads,
+                 num_buckets,
+                 shared_pos=True,
+                 dropout=0.1):
+        super(T5SelfAttention, self).__init__()
+        self.dim = dim
+        self.dim_attn = dim_attn
+        self.dim_ffn = dim_ffn
+        self.num_heads = num_heads
+        self.num_buckets = num_buckets
+        self.shared_pos = shared_pos
+        # layers
+        self.norm1 = T5LayerNorm(dim)
+        self.attn = T5Attention(dim, dim_attn, num_heads, dropout)
+        self.norm2 = T5LayerNorm(dim)
+        self.ffn = T5FeedForward(dim, dim_ffn, dropout)
+        self.pos_embedding = None if shared_pos else T5RelativeEmbedding(
+            num_buckets, num_heads, bidirectional=True)
+    def forward(self, x, mask=None, pos_bias=None):
+        e = pos_bias if self.shared_pos else self.pos_embedding(
+            x.size(1), x.size(1))
+        x = fp16_clamp(x + self.attn(self.norm1(x), mask=mask, pos_bias=e))
+        x = fp16_clamp(x + self.ffn(self.norm2(x)))
+        return x
+class T5CrossAttention(nn.Module):
+    def __init__(self,
+                 dim,
+                 dim_attn,
+                 dim_ffn,
+                 num_heads,
+                 num_buckets,
+                 shared_pos=True,
+                 dropout=0.1):
+        super(T5CrossAttention, self).__init__()
+        self.dim = dim
+        self.dim_attn = dim_attn
+        self.dim_ffn = dim_ffn
+        self.num_heads = num_heads
+        self.num_buckets = num_buckets
+        self.shared_pos = shared_pos
+        # layers
+        self.norm1 = T5LayerNorm(dim)
+        self.self_attn = T5Attention(dim, dim_attn, num_heads, dropout)
+        self.norm2 = T5LayerNorm(dim)
+        self.cross_attn = T5Attention(dim, dim_attn, num_heads, dropout)
+        self.norm3 = T5LayerNorm(dim)
+        self.ffn = T5FeedForward(dim, dim_ffn, dropout)
+        self.pos_embedding = None if shared_pos else T5RelativeEmbedding(
+            num_buckets, num_heads, bidirectional=False)
+    def forward(self,
+                x,
+                mask=None,
+                encoder_states=None,
+                encoder_mask=None,
+                pos_bias=None):
+        e = pos_bias if self.shared_pos else self.pos_embedding(
+            x.size(1), x.size(1))
+        x = fp16_clamp(x + self.self_attn(self.norm1(x), mask=mask, pos_bias=e))
+        x = fp16_clamp(x + self.cross_attn(
+            self.norm2(x), context=encoder_states, mask=encoder_mask))
+        x = fp16_clamp(x + self.ffn(self.norm3(x)))
+        return x
+class T5RelativeEmbedding(nn.Module):
+    def __init__(self, num_buckets, num_heads, bidirectional, max_dist=128):
+        super(T5RelativeEmbedding, self).__init__()
+        self.num_buckets = num_buckets
+        self.num_heads = num_heads
+        self.bidirectional = bidirectional
+        self.max_dist = max_dist
+        # layers
+        self.embedding = nn.Embedding(num_buckets, num_heads)
+    def forward(self, lq, lk):
+        device = self.embedding.weight.device
+        # rel_pos = torch.arange(lk).unsqueeze(0).to(device) - \
+        #     torch.arange(lq).unsqueeze(1).to(device)
+        rel_pos = torch.arange(lk, device=device).unsqueeze(0) - \
+            torch.arange(lq, device=device).unsqueeze(1)
+        rel_pos = self._relative_position_bucket(rel_pos)
+        rel_pos_embeds = self.embedding(rel_pos)
+        rel_pos_embeds = rel_pos_embeds.permute(2, 0, 1).unsqueeze(
+            0)  # [1, N, Lq, Lk]
+        return rel_pos_embeds.contiguous()
+    def _relative_position_bucket(self, rel_pos):
+        # preprocess
+        if self.bidirectional:
+            num_buckets = self.num_buckets // 2
+            rel_buckets = (rel_pos > 0).long() * num_buckets
+            rel_pos = torch.abs(rel_pos)
+        else:
+            num_buckets = self.num_buckets
+            rel_buckets = 0
+            rel_pos = -torch.min(rel_pos, torch.zeros_like(rel_pos))
+        # embeddings for small and large positions
+        max_exact = num_buckets // 2
+        rel_pos_large = max_exact + (torch.log(rel_pos.float() / max_exact) /
+                                     math.log(self.max_dist / max_exact) *
+                                     (num_buckets - max_exact)).long()
+        rel_pos_large = torch.min(
+            rel_pos_large, torch.full_like(rel_pos_large, num_buckets - 1))
+        rel_buckets += torch.where(rel_pos < max_exact, rel_pos, rel_pos_large)
+        return rel_buckets
+class T5Encoder(nn.Module):
+    def __init__(self,
+                 vocab,
+                 dim,
+                 dim_attn,
+                 dim_ffn,
+                 num_heads,
+                 num_layers,
+                 num_buckets,
+                 shared_pos=True,
+                 dropout=0.1):
+        super(T5Encoder, self).__init__()
+        self.dim = dim
+        self.dim_attn = dim_attn
+        self.dim_ffn = dim_ffn
+        self.num_heads = num_heads
+        self.num_layers = num_layers
+        self.num_buckets = num_buckets
+        self.shared_pos = shared_pos
+        # layers
+        self.token_embedding = vocab if isinstance(vocab, nn.Embedding) \
+            else nn.Embedding(vocab, dim)
+        self.pos_embedding = T5RelativeEmbedding(
+            num_buckets, num_heads, bidirectional=True) if shared_pos else None
+        self.dropout = nn.Dropout(dropout)
+        self.blocks = nn.ModuleList([
+            T5SelfAttention(dim, dim_attn, dim_ffn, num_heads, num_buckets,
+                            shared_pos, dropout) for _ in range(num_layers)
+        ])
+        self.norm = T5LayerNorm(dim)
+        # initialize weights
+        self.apply(init_weights)
+    def forward(self, ids, mask=None):
+        x = self.token_embedding(ids)
+        x = self.dropout(x)
+        e = self.pos_embedding(x.size(1),
+                               x.size(1)) if self.shared_pos else None
+        for block in self.blocks:
+            x = block(x, mask, pos_bias=e)
+        x = self.norm(x)
+        x = self.dropout(x)
+        return x
+class T5Decoder(nn.Module):
+    def __init__(self,
+                 vocab,
+                 dim,
+                 dim_attn,
+                 dim_ffn,
+                 num_heads,
+                 num_layers,
+                 num_buckets,
+                 shared_pos=True,
+                 dropout=0.1):
+        super(T5Decoder, self).__init__()
+        self.dim = dim
+        self.dim_attn = dim_attn
+        self.dim_ffn = dim_ffn
+        self.num_heads = num_heads
+        self.num_layers = num_layers
+        self.num_buckets = num_buckets
+        self.shared_pos = shared_pos
+        # layers
+        self.token_embedding = vocab if isinstance(vocab, nn.Embedding) \
+            else nn.Embedding(vocab, dim)
+        self.pos_embedding = T5RelativeEmbedding(
+            num_buckets, num_heads, bidirectional=False) if shared_pos else None
+        self.dropout = nn.Dropout(dropout)
+        self.blocks = nn.ModuleList([
+            T5CrossAttention(dim, dim_attn, dim_ffn, num_heads, num_buckets,
+                             shared_pos, dropout) for _ in range(num_layers)
+        ])
+        self.norm = T5LayerNorm(dim)
+        # initialize weights
+        self.apply(init_weights)
+    def forward(self, ids, mask=None, encoder_states=None, encoder_mask=None):
+        b, s = ids.size()
+        # causal mask
+        if mask is None:
+            mask = torch.tril(torch.ones(1, s, s).to(ids.device))
+        elif mask.ndim == 2:
+            mask = torch.tril(mask.unsqueeze(1).expand(-1, s, -1))
+        # layers
+        x = self.token_embedding(ids)
+        x = self.dropout(x)
+        e = self.pos_embedding(x.size(1),
+                               x.size(1)) if self.shared_pos else None
+        for block in self.blocks:
+            x = block(x, mask, encoder_states, encoder_mask, pos_bias=e)
+        x = self.norm(x)
+        x = self.dropout(x)
+        return x
+class T5Model(nn.Module):
+    def __init__(self,
+                 vocab_size,
+                 dim,
+                 dim_attn,
+                 dim_ffn,
+                 num_heads,
+                 encoder_layers,
+                 decoder_layers,
+                 num_buckets,
+                 shared_pos=True,
+                 dropout=0.1):
+        super(T5Model, self).__init__()
+        self.vocab_size = vocab_size
+        self.dim = dim
+        self.dim_attn = dim_attn
+        self.dim_ffn = dim_ffn
+        self.num_heads = num_heads
+        self.encoder_layers = encoder_layers
+        self.decoder_layers = decoder_layers
+        self.num_buckets = num_buckets
+        # layers
+        self.token_embedding = nn.Embedding(vocab_size, dim)
+        self.encoder = T5Encoder(self.token_embedding, dim, dim_attn, dim_ffn,
+                                 num_heads, encoder_layers, num_buckets,
+                                 shared_pos, dropout)
+        self.decoder = T5Decoder(self.token_embedding, dim, dim_attn, dim_ffn,
+                                 num_heads, decoder_layers, num_buckets,
+                                 shared_pos, dropout)
+        self.head = nn.Linear(dim, vocab_size, bias=False)
+        # initialize weights
+        self.apply(init_weights)
+    def forward(self, encoder_ids, encoder_mask, decoder_ids, decoder_mask):
+        x = self.encoder(encoder_ids, encoder_mask)
+        x = self.decoder(decoder_ids, decoder_mask, x, encoder_mask)
+        x = self.head(x)
+        return x
+def _t5(name,
+        encoder_only=False,
+        decoder_only=False,
+        return_tokenizer=False,
+        tokenizer_kwargs={},
+        dtype=torch.float32,
+        device='cpu',
+        **kwargs):
+    # sanity check
+    assert not (encoder_only and decoder_only)
+    # params
+    if encoder_only:
+        model_cls = T5Encoder
+        kwargs['vocab'] = kwargs.pop('vocab_size')
+        kwargs['num_layers'] = kwargs.pop('encoder_layers')
+        _ = kwargs.pop('decoder_layers')
+    elif decoder_only:
+        model_cls = T5Decoder
+        kwargs['vocab'] = kwargs.pop('vocab_size')
+        kwargs['num_layers'] = kwargs.pop('decoder_layers')
+        _ = kwargs.pop('encoder_layers')
+    else:
+        model_cls = T5Model
+    # init model
+    with torch.device(device):
+        model = model_cls(**kwargs)
+    # set device
+    model = model.to(dtype=dtype, device=device)
+    # init tokenizer
+    if return_tokenizer:
+        tokenizer = HuggingfaceTokenizer(f'google/{name}', **tokenizer_kwargs)
+        return model, tokenizer
+    else:
+        return model
+def umt5_xxl(**kwargs):
+    cfg = dict(
+        vocab_size=256384,
+        dim=4096,
+        dim_attn=4096,
+        dim_ffn=10240,
+        num_heads=64,
+        encoder_layers=24,
+        decoder_layers=24,
+        num_buckets=32,
+        shared_pos=False,
+        dropout=0.1)
+    cfg.update(**kwargs)
+    return _t5('umt5-xxl', **cfg)
+class T5EncoderModel:
+    def __init__(
+        self,
+        model_max_length,
+        dtype=torch.bfloat16,
+        device=torch.cuda.current_device(),
+        checkpoint_path=None,
+        tokenizer_path=None,
+        shard_fn=None,
+    ):
+        os.environ["TOKENIZERS_PARALLELISM"]="false"
+        self.model_max_length = model_max_length
+        self.dtype = dtype
+        self.device = device
+        self.checkpoint_path = checkpoint_path
+        self.tokenizer_path = tokenizer_path
+        # init model
+        model = umt5_xxl(
+            encoder_only=True,
+            return_tokenizer=False,
+            dtype=dtype,
+            device=device).eval().requires_grad_(False)
+        logging.info(f'loading {checkpoint_path}')
+        model.load_state_dict(torch.load(checkpoint_path, map_location='cpu'))
+        self.model = model
+        if shard_fn is not None:
+            self.model = shard_fn(self.model, sync_module_states=False)
+        else:
+            self.model.to(self.device)
+        # init tokenizer
+        self.tokenizer = HuggingfaceTokenizer(
+            name=tokenizer_path, seq_len=model_max_length, clean='whitespace')
+        self.output_dim = self.model.dim
+        self.y_embedder = None
+    @property
+    def t5(self,):
+        return self
+    def encode(self, texts):
+        ids, mask = self.tokenizer(
+            texts, return_mask=True, add_special_tokens=True)
+        ids = ids.to(self.device)
+        mask = mask.to(self.device)
+        seq_lens = mask.gt(0).sum(dim=1).long()
+        context = self.model(ids, mask).float()
+        return dict(y=context[:,None], y_mask=mask)
+    def null(self, n):
+        null_y = self.y_embedder.y_embedding[None].repeat(n, 1, 1)[:, None]
+        return null_y

infworld/utils/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ # infworld/utils package

infworld/utils/data_utils.py ADDED Viewed

	@@ -0,0 +1,854 @@

+import os
+import io
+import re
+import math
+import tempfile
+import imageio
+import random
+from tqdm import tqdm
+import subprocess
+import cv2
+import numpy as np
+from decord import VideoReader
+from PIL import Image
+from moviepy.editor import AudioFileClip, VideoClip
+import torch
+from torchvision.io import write_video
+from torchvision.utils import save_image
+import torchvision.transforms as transforms
+import binascii
+import torchvision
+import imageio
+import os.path as osp
+def infinite_iterator(iter):
+    while True:
+        for sample in iter:
+            yield sample
+### Moved from opensora dataset utils
+def save_sample(x, fps=8, save_path=None, normalize=True, value_range=(-1, 1)):
+    """
+    Args:
+        x (Tensor): shape [C, T, H, W]
+    Returns:
+        x (Tensor): shape [T, H, W, C]
+    """
+    assert x.ndim == 4
+    os.makedirs(os.path.dirname(save_path),exist_ok=True)
+    if x.shape[1] == 1:  # T = 1: save as image
+        save_path += ".png"
+        x = x.squeeze(1) # [C, H, W]
+        save_image([x], save_path, normalize=normalize, value_range=value_range)
+        x = x.unsqueeze(0)  # [1, C, H, W]
+        x = x.permute(0, 2, 3, 1)  # [1, H, W, C]
+    else:
+        save_path += ".mp4"
+        if normalize:
+            low, high = value_range
+            x = x.clamp(min=low, max=high)
+            x = x.sub(low).div(max(high - low, 1e-5))
+        x = x.mul(255).add(0.5).clamp(0, 255).permute(1, 2, 3, 0).to("cpu", torch.uint8)
+        write_video(save_path, x, fps=fps, video_codec="h264")
+    print(f"Saved to {save_path}")
+    return x
+def video_reader_from_data_meta(datameta, use_tempfile, num_threads_decord):
+    """ Get VideoReader from data meta; data meta needs to be video.
+    """
+    if not datameta.is_video:
+        raise NotImplementedError('Unknown data type.')
+    if 'raw_frames' in datameta:
+        raw_data = datameta.raw_frames
+        if use_tempfile:
+            # write raw frames to a temp file before loading
+            # this avoids some codec problems
+            with tempfile.NamedTemporaryFile() as temp:
+                temp.write(raw_data)
+                video_reader = VideoReader(temp.name, num_threads=num_threads_decord)
+        else:
+            # Use io.BytesIO to read image data from memory
+            dataBytesIO = io.BytesIO(raw_data)
+            # Convert raw data to numpy array
+            # Use decord to read video data from memory
+            video_reader = VideoReader(dataBytesIO, num_threads=num_threads_decord)
+    elif "tar_dir" in datameta and "tar_filename" in datameta and "tar_key" in datameta:
+        raw_data = datameta.load_tar_videodata()
+        if use_tempfile:
+            # write raw frames to a temp file before loading
+            # this avoids some codec problems
+            with tempfile.NamedTemporaryFile() as temp:
+                temp.write(raw_data)
+                video_reader = VideoReader(temp.name, num_threads=num_threads_decord)
+        else:
+            # Use io.BytesIO to read image data from memory
+            dataBytesIO = io.BytesIO(raw_data)
+            # Convert raw data to numpy array
+            # Use decord to read video data from memory
+            video_reader = VideoReader(dataBytesIO, num_threads=num_threads_decord)
+    elif os.path.exists(datameta.filename):
+        video_reader = VideoReader(datameta.filename, num_threads=num_threads_decord)
+    else:
+        raise NotImplementedError('Not supported data format. rawframes or filename is needed.')
+    return video_reader
+def cap_from_data_meta(datameta):
+    if not datameta.is_video:
+        raise NotImplementedError('Unknown data type.')
+    if 'raw_frames' in datameta:
+        raw_data = datameta.raw_frames
+        # write raw frames to a temp file before loading
+        # this avoids some codec problems
+        with tempfile.NamedTemporaryFile() as temp:
+            temp.write(raw_data)
+            cap = cv2.VideoCapture(temp.name)
+    elif "tar_dir" in datameta and "tar_filename" in datameta and "tar_key" in datameta:
+        raw_data = datameta.load_tar_videodata()
+        # write raw frames to a temp file before loading
+        # this avoids some codec problems
+        with tempfile.NamedTemporaryFile() as temp:
+            temp.write(raw_data)
+            cap = cv2.VideoCapture(temp.name)
+    elif os.path.exists(datameta.filename):
+        cap = cv2.VideoCapture(datameta.filename)
+    else:
+        raise NotImplementedError('Not supported data format. rawframes or filename is needed.')
+    return cap
+def none_node_splitter(src, group=None):
+    yield from src
+def resize_and_covert_to_gray(np_frames, pixel_value=16, interpolation=cv2.INTER_LINEAR, resize_only=False):
+    # Get the dimensions of the first frame
+    height, width, *_ = np_frames[0].shape
+    # Determine the new dimensions based on the aspect ratio of the original frame
+    if width < height:
+        new_width = pixel_value
+        new_height = int((new_width / width) * height)
+    else:
+        new_height = pixel_value
+        new_width = int((new_height / height) * width)
+    # Function to preprocess each frame
+    def transform(frame):
+        # Resize the frame
+        frame = cv2.resize(frame, (new_width, new_height), interpolation=interpolation)
+        # Convert the frame to grayscale
+        if not resize_only:
+            frame = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
+        return frame
+    # Apply the transformation to each frame
+    resize_frames = [transform(frame) for frame in np_frames]
+    resize_frames = np.stack(resize_frames)
+    return resize_frames
+def get_top_m_percent(arr, m_percent):
+    B, H, W = arr.shape
+    N = int(H * W * m_percent / 100)
+    result = np.zeros((B, N))
+    for i in range(B):
+        flattened_frame = arr[i].flatten()
+        flattened_frame = flattened_frame[~np.isnan(flattened_frame)]
+        top_m_percent_values = np.partition(flattened_frame, -N)[-N:]
+        result[i] = top_m_percent_values
+    return np.nanmean(result,axis=1)
+def compute_optical_flow_score(np_frames, pixel_value=16):
+    video_length = np_frames.shape[0]
+    # Calculate the optical flow for each pair of frames
+    flow_scores = []
+    for i in range(1, video_length):
+        # Calculate the optical flow between the current and previous frame
+        flow = cv2.calcOpticalFlowFarneback(np_frames[i - 1], np_frames[i], None,  0.5, 3, 15, 3, 5, 1.2, 0)
+        # Convert the flow vectors to polar coordinates
+        magnitude, angle = cv2.cartToPolar(flow[..., 0], flow[..., 1])
+        # Append the mean magnitude of the flow vectors to the list of scores
+        flow_scores.append(magnitude)
+    # Return the flow score
+    return np.array(flow_scores)
+def get_first_frame_from_video_path(video_path):
+    # get cv2 video capture data meta
+    cap = cv2.VideoCapture(video_path)
+    cap.set(cv2.CAP_PROP_POS_FRAMES, 0)
+    # get first frame, ret will be False if the read operation fails.
+    ret, frame = cap.read()
+    if ret is False:
+        return None
+    cap.release()
+    frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
+    # convert the numpy frame to Image.
+    frame = Image.fromarray(frame)
+    return frame
+def get_first_clip_from_video(video_path, clip_len=1):
+    """
+    获取视频前n帧（默认第1帧）
+    参数：
+    video_path: 视频文件路径
+    n: 需要获取的帧数（从第1帧开始）
+    返回：
+    list: 包含前n帧PIL.Image对象的列表，空列表表示读取失败
+    """
+    frames = []
+    cap = cv2.VideoCapture(video_path)
+    if not cap.isOpened():
+        return frames
+    if clip_len is None:
+        clip_len = 100000000
+    # 循环读取前n帧
+    for frame_idx in range(clip_len):
+        # 设置当前帧位置
+        cap.set(cv2.CAP_PROP_POS_FRAMES, frame_idx)
+        ret, frame = cap.read()
+        if not ret:
+            break  # 视频长度不足时提前终止
+        # 格式转换
+        frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
+        frames.append(frame)
+    cap.release()
+    return frames
+def get_last_clip_from_video(video_path, clip_len=1):
+    """
+    获取视频最后n帧
+    参数：
+    video_path: 视频文件路径
+    clip_len: 需要获取的帧数（从末尾开始）
+    返回：
+    list: 包含最后n帧的RGB帧列表，空列表表示读取失败
+    """
+    frames = []
+    cap = cv2.VideoCapture(video_path)
+    if not cap.isOpened():
+        return frames
+    # 获取视频总帧数
+    total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
+    # 计算起始帧位置
+    start_frame = max(0, total_frames - clip_len)
+    # 设置起始位置
+    cap.set(cv2.CAP_PROP_POS_FRAMES, start_frame)
+    # 读取剩余所有帧
+    while len(frames) < clip_len:
+        ret, frame = cap.read()
+        if not ret:
+            break
+        # 转换颜色空间并存储
+        frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
+        frames.append(frame)
+    cap.release()
+    # 如果视频长度不足，返回实际能读取的帧
+    return frames[-clip_len:] if len(frames) >= clip_len else frames
+def pad_to_square_ndarray(image, pad_value=255):
+    H, W, C = image.shape
+    max_size = max(H, W)
+    padded_image = np.full((max_size, max_size, C), pad_value, dtype=image.dtype)
+    top_left_y = (max_size - H) // 2
+    top_left_x = (max_size - W) // 2
+    padded_image[top_left_y:top_left_y + H, top_left_x:top_left_x + W, :] = image
+    return padded_image
+def pad_to_square_pil(image, pad_value=255):
+    width, height = image.size
+    max_size = max(width, height)
+    new_image = Image.new("RGB", (max_size, max_size), (pad_value, pad_value, pad_value))
+    top_left_x = (max_size - width) // 2
+    top_left_y = (max_size - height) // 2
+    new_image.paste(image, (top_left_x, top_left_y))
+    return new_image
+def separate_connected_components(mask):
+    labeled_array, num_features = label(mask)
+    separate_masks = []
+    bboxes = []
+    slices = find_objects(labeled_array)
+    for i in range(1, num_features + 1):
+        component_mask = (labeled_array == i).astype(np.uint8)
+        separate_masks.append(component_mask)
+        slice_ = slices[i - 1]
+        bbox = (slice_[1].start, slice_[0].start, slice_[1].stop, slice_[0].stop)  # (xmin, ymin, xmax, ymax)
+        bboxes.append(bbox)
+    return separate_masks, bboxes
+def bbox_random_crop(bbox):
+    xmin, ymin, xmax, ymax = bbox
+    width = xmax - xmin
+    height = ymax - ymin
+    if height > width:
+        square_size = width
+        max_y_start = ymax - square_size
+        y_start = random.randint(ymin, max_y_start)
+        return (xmin, y_start, xmin + square_size, y_start + square_size)
+    else:
+        square_size = height
+        max_x_start = xmax - square_size
+        x_start = random.randint(xmin, max_x_start)
+        return (x_start, ymin, x_start + square_size, ymin + square_size)
+def inflate_bbox(bbox, d):
+    x_min, y_min, x_max, y_max = bbox
+    original_width = x_max - x_min
+    original_height = y_max - y_min
+    new_width = d * original_width
+    new_height = new_width
+    center_x = (x_min + x_max) / 2
+    center_y = (y_min + y_max) / 2
+    half_new_width = new_width / 2
+    half_new_height = new_height / 2
+    new_x_min = int(center_x - half_new_width)
+    new_x_max = int(center_x + half_new_width)
+    new_y_min = int(center_y - half_new_height)
+    new_y_max = int(center_y + half_new_height)
+    return (new_x_min, new_y_min, new_x_max, new_y_max)
+def get_frame_by_idx(cap, frame_idxs):
+    if isinstance(frame_idxs, np.ndarray) or isinstance(frame_idxs, list):
+        frames = []
+        for frame_idx in frame_idxs:
+            cap.set(cv2.CAP_PROP_POS_FRAMES, frame_idx)
+            ret, frame = cap.read()
+            assert ret
+            frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
+            frames.append(frame)
+        return frames
+    else:
+        cap.set(cv2.CAP_PROP_POS_FRAMES, frame_idxs)
+        ret, frame = cap.read()
+        assert ret
+        frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
+        return frame
+def recover_mask(array, shape):
+    size = np.prod(shape)
+    mask = np.unpackbits(array)[:size].reshape(shape).astype(np.uint8)
+    return mask
+def calculate_iou(box1, box2):
+    x1_min, y1_min, x1_max, y1_max = box1
+    x2_min, y2_min, x2_max, y2_max = box2
+    inter_x_min = max(x1_min, x2_min)
+    inter_x_max = min(x1_max, x2_max)
+    inter_y_min = max(y1_min, y2_min)
+    inter_y_max = min(y1_max, y2_max)
+    if inter_x_max > inter_x_min and inter_y_max > inter_y_min:
+        inter_area = (inter_x_max - inter_x_min) * (inter_y_max - inter_y_min)
+    else:
+        inter_area = 0
+    area1 = (x1_max - x1_min) * (y1_max - y1_min)
+    area2 = (x2_max - x2_min) * (y2_max - y2_min)
+    union_area = area1 + area2 - inter_area
+    iou = inter_area / union_area if union_area != 0 else 0
+    return iou
+def extract_number_from_suffix(s):
+    match = re.search(r'_\[([\d.]+)\]$', s)
+    if match:
+        return float(match.group(1))
+    else:
+        return 0
+def tensor_to_video(tensor, output_video_path, input_audio_path, fps=30, dynamic_fps=True, audio_range=None, video_length=None):
+    """
+    Converts a Tensor with shape [c, f, h, w] into a video and adds an audio track from the specified audio file.
+    Args:
+        tensor (Tensor): The Tensor to be converted, shaped [c, f, h, w].
+        output_video_path (str): The file path where the output video will be saved.
+        input_audio_path (str): The path to the audio file (WAV file) that contains the audio track to be added.
+        fps (int): The frame rate of the output video. Default is 30 fps.
+    """
+    if tensor.shape[1] == 1:
+        output_video_path += '.png'
+    else:
+        output_video_path += '.mp4'
+    os.makedirs(os.path.dirname(output_video_path), exist_ok=True)
+    tensor = tensor.permute(1, 2, 3, 0).cpu().numpy()  # convert to [f, h, w, c]
+    tensor = np.clip(tensor * 255, 0, 255).astype(np.uint8)  # to [0, 255]
+    def make_frame(t):
+        frame_index = min(int(t * fps), tensor.shape[0] - 1)
+        return tensor[frame_index]
+    if not dynamic_fps:
+        video_duration = tensor.shape[0] / fps
+    audio_clip = AudioFileClip(input_audio_path)
+    audio_duration = audio_clip.duration
+    if not dynamic_fps:
+        final_duration = min(video_duration, audio_duration)
+        audio_clip = audio_clip.subclip(0, final_duration)
+    else:
+        select_start, select_end = audio_range[0] / video_length, audio_range[1] / video_length
+        audio_clip = audio_clip.subclip(select_start * audio_duration, select_end * audio_duration)
+        final_duration = (select_end - select_start) * audio_duration
+        fps = tensor.shape[0] / final_duration
+    new_video_clip = VideoClip(make_frame, duration=final_duration)
+    new_video_clip = new_video_clip.set_audio(audio_clip)
+    print(f"video save fps is: {fps}")
+    new_video_clip.write_videofile(output_video_path, fps=fps, audio_codec="aac")
+def resize_and_centercrop(cond_image, target_size):
+        """
+        Resize image to the target size without padding.
+        """
+        # Get the original size
+        orig_h, orig_w = cond_image.height, cond_image.width
+        target_h, target_w = target_size
+        # Calculate the scaling factor for resizing
+        scale_h = target_h / orig_h
+        scale_w = target_w / orig_w
+        # Compute the final size
+        scale = max(scale_h, scale_w)
+        final_h = math.ceil(scale * orig_h)
+        final_w = math.ceil(scale * orig_w)
+        # Resize
+        resized_image = cond_image.resize((final_w, final_h), resample=Image.BILINEAR)
+        resized_image = np.array(resized_image)
+        # tensor and crop
+        resized_tensor = torch.from_numpy(resized_image)[None, ...].permute(0, 3, 1, 2).contiguous()
+        cropped_tensor = transforms.functional.center_crop(resized_tensor, target_size) # 1 C H W
+        cropped_tensor = cropped_tensor[:, :, None, :, :] # 1 C H W --> 1 C 1 H W
+        return cropped_tensor
+def compute_face_to_front_angle(rvec):
+    # 参考姿态（正对镜头）
+    rvec_ref = np.zeros((3, 1), dtype=np.float32)
+    # rvec_ref = np.array([[0], [0], [1]], dtype=np.float32)
+    R_ref, _ = cv2.Rodrigues(rvec_ref)
+    R_face, _ = cv2.Rodrigues(rvec)
+    R_diff = R_face @ R_ref.T
+    angle_rad = np.arccos(np.clip((np.trace(R_diff) - 1) / 2, -1.0, 1.0))
+    return 180 - angle_rad * 180 / np.pi
+def rotation_vector_to_euler_angles(rvec):
+    R, _ = cv2.Rodrigues(rvec)
+    sy = np.sqrt(R[0,0] * R[0,0] +  R[1,0] * R[1,0])
+    singular = sy < 1e-6
+    if not singular:
+        pitch = np.arctan2(R[2,1], R[2,2])
+        yaw = np.arctan2(-R[2,0], sy)
+        roll = np.arctan2(R[1,0], R[0,0])
+    else:
+        pitch = np.arctan2(-R[1,2], R[1,1])
+        yaw = np.arctan2(-R[2,0], sy)
+        roll = 0
+    return np.degrees(yaw), np.degrees(pitch), np.degrees(roll)
+def head_pose_calculation(face_landmarks, image_size=(720, 480)):
+    # ========== 可选：模型中的 3D 点定义 ==========
+    # 依照通用五点模型（左眼、右眼、鼻尖、左嘴角、右嘴角）
+    model_points = np.array([
+            [-30.0,  35.0,  0.0],  # 左眼
+            [30.0,   35.0,  0.0],  # 右眼
+            [0.0,     0.0,  0.0],  # 鼻尖
+            [-25.0, -35.0,  0.0],  # 左嘴角
+            [25.0,  -35.0,  0.0],  # 右嘴角
+        ])
+    # ========== 相机内参 ==========
+    focal_length = image_size[0]
+    center = (image_size[0] / 2, image_size[1] / 2)
+    camera_matrix = np.array([
+        [focal_length, 0, center[0]],
+        [0, focal_length, center[1]],
+        [0, 0, 1]
+    ], dtype=np.float32)
+    dist_coeffs = np.zeros((4, 1))  # 假设无畸变
+    success, rvec, tvec = cv2.solvePnP(
+        model_points, face_landmarks,
+        camera_matrix, dist_coeffs,
+        flags=cv2.SOLVEPNP_ITERATIVE
+    )
+    # # # 转换为旋转矩阵
+    # # R1, _ = cv2.Rodrigues(rvec)
+    # angle_face_to_front = compute_face_to_front_angle(rvec)
+    # 转换为欧拉角（单位：度）
+    yaw, pitch, roll = rotation_vector_to_euler_angles(rvec)
+    return abs(yaw), abs(pitch)
+def rand_name(length=8, suffix=''):
+    name = binascii.b2a_hex(os.urandom(length)).decode('utf-8')
+    if suffix:
+        if not suffix.startswith('.'):
+            suffix = '.' + suffix
+        name += suffix
+    return name
+def cache_video(tensor,
+                save_file=None,
+                fps=30,
+                suffix='.mp4',
+                nrow=8,
+                normalize=True,
+                value_range=(-1, 1),
+                retry=5):
+    # cache file
+    cache_file = osp.join('/tmp', rand_name(
+        suffix=suffix)) if save_file is None else save_file
+    # save to cache
+    error = None
+    for _ in range(retry):
+        # preprocess
+        tensor = tensor.clamp(min(value_range), max(value_range))
+        tensor = torch.stack([
+                torchvision.utils.make_grid(
+                    u, nrow=nrow, normalize=normalize, value_range=value_range)
+                for u in tensor.unbind(2)
+            ],
+                                 dim=1).permute(1, 2, 3, 0)
+        tensor = (tensor * 255).type(torch.uint8).cpu()
+        # write video
+        writer = imageio.get_writer(cache_file, fps=fps, codec='libx264', quality=10, ffmpeg_params=["-crf", "10"])
+        for frame in tensor.numpy():
+            writer.append_data(frame)
+        writer.close()
+        return cache_file
+def save_silent_video(gen_video_samples, save_path, fps=25, quality=10, high_quality_save=True):
+    """
+    保存无声音视频（支持追加���到已有视频）
+    参数：
+    gen_video_samples: 生成的视频张量 [B,C,T,H,W]
+    save_path: 保存路径（不带扩展名）
+    fps: 视频帧率
+    quality: 视频质量 (0-10)
+    high_quality_save: 是否启用高质量模式
+    """
+    gen_video_samples = gen_video_samples[0]  # 取第一个样本
+    # 创建保存目录
+    os.makedirs(os.path.dirname(save_path), exist_ok=True)
+    # 统一保存为MP4格式
+    final_save_path = f"{save_path}.mp4"
+    # 张量转视频帧
+    video_frames = (gen_video_samples + 1) / 2  # [-1,1] -> [0,1]
+    video_frames = video_frames.permute(1, 2, 3, 0).cpu().numpy()  # T H W C
+    video_frames = np.clip(video_frames * 255, 0, 255).astype(np.uint8)
+    # 处理已有视频
+    all_frames = []
+    existing_fps = fps  # 默认使用新视频的fps
+    if os.path.exists(final_save_path):
+        # 读取已有视频信息
+        with imageio.get_reader(final_save_path) as reader:
+            # 先获取元数据再读取帧
+            meta_data = reader.get_meta_data()
+            existing_fps = meta_data['fps']
+            existing_frames = [frame for frame in reader]
+            # 检查参数一致性
+            if existing_fps != fps:
+                raise ValueError(f"Existing video fps {existing_fps} conflicts with new fps {fps}")
+            if existing_frames[0].shape != video_frames[0].shape:
+                raise ValueError("Frame resolution mismatch between existing and new video")
+            all_frames.extend(existing_frames)
+    # 添加新帧
+    all_frames.extend(video_frames)
+    # 设置编码参数
+    if high_quality_save:
+        ffmpeg_params = [
+            '-c:v', 'libx264',
+            '-crf', '0',          # 无损模式
+            '-preset', 'veryslow' # 最高压缩率
+        ]
+    else:
+        ffmpeg_params = [
+            '-c:v', 'libx264',
+            '-crf', '23',         # 默认质量 (0-51, 越小质量越高)
+            '-preset', 'medium'
+        ]
+    # 使用imageio保存
+    with imageio.get_writer(
+        final_save_path,
+        fps=existing_fps,  # 使用已有视频的fps（当存在时）
+        codec='libx264',
+        quality=quality,
+        ffmpeg_params=ffmpeg_params
+    ) as writer:
+        for frame in all_frames:
+            writer.append_data(frame)
+    print(f"Silent video saved to: {final_save_path}")
+def save_silent_video_overwrite(gen_video_samples, save_path, fps=25, quality=5, high_quality_save=False):
+    """
+    保存无声音视频（支持追加帧到已有视频）
+    参数：
+    gen_video_samples: 生成的视频张量 [B,C,T,H,W]
+    save_path: 保存路径（不带扩展名）
+    fps: 视频帧率
+    quality: 视频质量 (0-10)
+    high_quality_save: 是否启用高质量模式
+    """
+    gen_video_samples = gen_video_samples[0]  # 取第一个样本
+    # 创建保存目录
+    os.makedirs(os.path.dirname(save_path), exist_ok=True)
+    # 统一保存为MP4格式
+    final_save_path = f"{save_path}.mp4"
+    # 张量转视频帧
+    video_frames = (gen_video_samples + 1) / 2  # [-1,1] -> [0,1]
+    video_frames = video_frames.permute(1, 2, 3, 0).cpu().numpy()  # T H W C
+    video_frames = np.clip(video_frames * 255, 0, 255).astype(np.uint8)
+    # 处理已有视频
+    all_frames = []
+    # 添加新帧
+    all_frames.extend(video_frames)
+    # 设置编码参数
+    if high_quality_save:
+        ffmpeg_params = [
+            '-c:v', 'libx264',
+            '-crf', '0',          # 无损模式
+            '-preset', 'veryslow' # 最高压缩率
+        ]
+    else:
+        ffmpeg_params = [
+            '-c:v', 'libx264',
+            '-crf', '23',         # 默认质量 (0-51, 越小质量越高)
+            '-preset', 'medium'
+        ]
+    # 使用imageio保存
+    with imageio.get_writer(
+        final_save_path,
+        fps=fps,  # 使用已有视频的fps（当存在时）
+        codec='libx264',
+        quality=quality,
+        ffmpeg_params=ffmpeg_params
+    ) as writer:
+        for frame in all_frames:
+            writer.append_data(frame)
+    print(f"Silent video saved to: {final_save_path}")
+def save_video_ffmpeg(gen_video_samples, save_path, vocal_audio_list, fps=25, quality=5, high_quality_save=False):
+    gen_video_samples = gen_video_samples[0]
+    def save_video(frames, save_path, fps, quality=9, ffmpeg_params=None):
+        writer = imageio.get_writer(
+            save_path, fps=fps, quality=quality, ffmpeg_params=ffmpeg_params
+        )
+        for frame in tqdm(frames, desc="Saving video"):
+            frame = np.array(frame)
+            writer.append_data(frame)
+        writer.close()
+    save_path_tmp = save_path + "-temp.mp4"
+    os.makedirs(os.path.dirname(save_path_tmp), exist_ok=True)
+    if high_quality_save:
+        # Experiment version
+        # NOTE: to be verified effects
+        cache_video(
+                    tensor=gen_video_samples.unsqueeze(0),
+                    save_file=save_path_tmp,
+                    fps=fps,
+                    nrow=1,
+                    normalize=True,
+                    value_range=(-1, 1)
+                    )
+    else:
+        video_audio = (gen_video_samples+1)/2 # C T H W
+        video_audio = video_audio.permute(1, 2, 3, 0).cpu().numpy()
+        video_audio = np.clip(video_audio * 255, 0, 255).astype(np.uint8)  # to [0, 255]
+        save_video(video_audio, save_path_tmp, fps=fps, quality=quality)
+    # crop audio according to video length
+    _, T, _, _ = gen_video_samples.shape
+    duration = T / fps
+    save_path_crop_audio = save_path + "-cropaudio.wav"
+    final_command = [
+        "/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/gaofeng49/conda/memo/bin/ffmpeg",
+        "-i",
+        vocal_audio_list[0],
+        "-t",
+        f'{duration}',
+        save_path_crop_audio,
+    ]
+    subprocess.run(final_command, check=True)
+    # generate video with audio
+    save_path = save_path + ".mp4"
+    if high_quality_save:
+        final_command = [
+            "/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/gaofeng49/conda/memo/bin/ffmpeg",
+            "-y",
+            "-i", save_path_tmp,
+            "-i", save_path_crop_audio,
+            "-c:v", "libx264",
+            "-crf", "0",
+            "-preset", "veryslow", # 可选，压缩率更高但更慢
+            "-c:a", "aac",  # mp4下只能用aac或copy
+            "-shortest",
+            save_path,
+        ]
+        subprocess.run(final_command, check=True)
+        os.remove(save_path_tmp)
+        os.remove(save_path_crop_audio)
+    else:
+        final_command = [
+            "/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/gaofeng49/conda/memo/bin/ffmpeg",
+            "-y",
+            "-i",
+            save_path_tmp,
+            "-i",
+            save_path_crop_audio,
+            "-c:v",
+            "libx264",
+            "-c:a",
+            "aac",
+            "-shortest",
+            save_path,
+        ]
+        subprocess.run(final_command, check=True)
+        os.remove(save_path_tmp)
+        os.remove(save_path_crop_audio)
+def audio_move_from_hdfs(src_path):
+    map_dict = {
+        "/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/data_digitalhuman/talkingbody/yt_runway_sub/singlehuman_lipsync/yt_runway_0808_35w_merge/tar_record_caption_qwen2vlm_pose_audioemb_lipsync_camera_face_chinese":
+        "/mnt/hdfs/user/hadoop-vision-data/llm/dataset/videogen_dataset/data/digital_human_video/talkingbody/runway_chinese/singlehuman_lipsync/yt_runway_0808_35w_merge/tar_record_caption_qwen2vlm_pose_audioemb_lipsync_camera_face_chinese",
+        "/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/data_digitalhuman/talkingbody/yt_runway_sub/singlehuman_lipsync/yt_runway_0829_52w_merge/tar_record_caption_qwen2vlm_pose_audioemb_part2_lipsync_camera_face_chinese":
+        "/mnt/hdfs/user/hadoop-vision-data/llm/dataset/videogen_dataset/data/digital_human_video/talkingbody/runway_chinese/singlehuman_lipsync/yt_runway_0829_52w_merge/tar_record_caption_qwen2vlm_pose_audioemb_part2_lipsync_camera_face_chinese",
+        "/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/data_digitalhuman/talkingbody/yt_runway_sub/singlehuman_lipsync/yt_runway_0912_28w_merge/tar_record_caption_qwen2vlm_pose_audioemb_lipsync_camera_face_chinese":
+        "/mnt/hdfs/user/hadoop-vision-data/llm/dataset/videogen_dataset/data/digital_human_video/talkingbody/runway_chinese/singlehuman_lipsync/yt_runway_0912_28w_merge/tar_record_caption_qwen2vlm_pose_audioemb_lipsync_camera_face_chinese",
+        "/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/data_digitalhuman/talkingbody/yt_runway_sub/singlehuman_lipsync/yt_runway_0926_105w_merge/tar_record_caption_qwen2vlm_pose_audioemb_lipsync_camera_face_chinese":
+        "/mnt/hdfs/user/hadoop-vision-data/llm/dataset/videogen_dataset/data/digital_human_video/talkingbody/runway_chinese/singlehuman_lipsync/yt_runway_0926_105w_merge/tar_record_caption_qwen2vlm_pose_audioemb_lipsync_camera_face_chinese",
+        "/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/data_digitalhuman/talkingbody/yt_runway_sub/singlehuman_lipsync/yt_runway_1129_65w_part1/tar_record_caption_qwen2vlm_pose_audioemb_lipsync_camera_face_facecropcaption_chinese":
+        "/mnt/hdfs/user/hadoop-vision-data/llm/dataset/videogen_dataset/data/digital_human_video/talkingbody/runway_chinese/singlehuman_lipsync/yt_runway_1129_65w_part1/tar_record_caption_qwen2vlm_pose_audioemb_lipsync_camera_face_facecropcaption_chinese",
+        "/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/data_digitalhuman/talkingbody/yt_runway_sub/singlehuman_lipsync/yt_runway_1129_65w_part2/tar_record_caption_qwen2vlm_pose_audioemb_lipsync_camera_face_facecropcaption_chinese":
+        "/mnt/hdfs/user/hadoop-vision-data/llm/dataset/videogen_dataset/data/digital_human_video/talkingbody/runway_chinese/singlehuman_lipsync/yt_runway_1129_65w_part2/tar_record_caption_qwen2vlm_pose_audioemb_lipsync_camera_face_facecropcaption_chinese"
+    }
+    for src_p in map_dict:
+        if src_p in src_path:
+            src_path = src_path.replace(src_p, map_dict[src_p])
+    return src_path

infworld/utils/dataset_utils.py ADDED Viewed

	@@ -0,0 +1,665 @@

+import os
+import re
+import numpy as np
+import pandas as pd
+import requests
+import torch
+import torchvision
+import torchvision.transforms as transforms
+from PIL import Image
+from torchvision.datasets.folder import IMG_EXTENSIONS, pil_loader
+from torchvision.io import write_video
+from torchvision.utils import save_image
+VID_EXTENSIONS = (".mp4", ".avi", ".mov", ".mkv")
+regex = re.compile(
+    r"^(?:http|ftp)s?://"  # http:// or https://
+    r"(?:(?:[A-Z0-9](?:[A-Z0-9-]{0,61}[A-Z0-9])?\.)+(?:[A-Z]{2,6}\.?|[A-Z0-9-]{2,}\.?)|"  # domain...
+    r"localhost|"  # localhost...
+    r"\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})"  # ...or ip
+    r"(?::\d+)?"  # optional port
+    r"(?:/?|[/?]\S+)$",
+    re.IGNORECASE,
+)
+import numbers
+import random
+import numpy as np
+import torch
+def _is_tensor_video_clip(clip):
+    if not torch.is_tensor(clip):
+        raise TypeError("clip should be Tensor. Got %s" % type(clip))
+    if not clip.ndimension() == 4:
+        raise ValueError("clip should be 4D. Got %dD" % clip.dim())
+    return True
+def crop(clip, i, j, h, w):
+    """
+    Args:
+        clip (torch.tensor): Video clip to be cropped. Size is (T, C, H, W)
+    """
+    if len(clip.size()) != 4:
+        raise ValueError("clip should be a 4D tensor")
+    return clip[..., i : i + h, j : j + w]
+def resize(clip, target_size, interpolation_mode):
+    if len(target_size) != 2:
+        raise ValueError(f"target size should be tuple (height, width), instead got {target_size}")
+    return torch.nn.functional.interpolate(clip, size=target_size, mode=interpolation_mode, align_corners=False)
+def resize_scale(clip, target_size, interpolation_mode):
+    if len(target_size) != 2:
+        raise ValueError(f"target size should be tuple (height, width), instead got {target_size}")
+    H, W = clip.size(-2), clip.size(-1)
+    scale_ = target_size[0] / min(H, W)
+    return torch.nn.functional.interpolate(clip, scale_factor=scale_, mode=interpolation_mode, align_corners=False)
+def resized_crop(clip, i, j, h, w, size, interpolation_mode="bilinear"):
+    """
+    Do spatial cropping and resizing to the video clip
+    Args:
+        clip (torch.tensor): Video clip to be cropped. Size is (T, C, H, W)
+        i (int): i in (i,j) i.e coordinates of the upper left corner.
+        j (int): j in (i,j) i.e coordinates of the upper left corner.
+        h (int): Height of the cropped region.
+        w (int): Width of the cropped region.
+        size (tuple(int, int)): height and width of resized clip
+    Returns:
+        clip (torch.tensor): Resized and cropped clip. Size is (T, C, H, W)
+    """
+    if not _is_tensor_video_clip(clip):
+        raise ValueError("clip should be a 4D torch.tensor")
+    clip = crop(clip, i, j, h, w)
+    clip = resize(clip, size, interpolation_mode)
+    return clip
+def center_crop(clip, crop_size):
+    if not _is_tensor_video_clip(clip):
+        raise ValueError("clip should be a 4D torch.tensor")
+    h, w = clip.size(-2), clip.size(-1)
+    th, tw = crop_size
+    if h < th or w < tw:
+        raise ValueError("height and width must be no smaller than crop_size")
+    i = int(round((h - th) / 2.0))
+    j = int(round((w - tw) / 2.0))
+    return crop(clip, i, j, th, tw)
+def center_crop_using_short_edge(clip):
+    if not _is_tensor_video_clip(clip):
+        raise ValueError("clip should be a 4D torch.tensor")
+    h, w = clip.size(-2), clip.size(-1)
+    if h < w:
+        th, tw = h, h
+        i = 0
+        j = int(round((w - tw) / 2.0))
+    else:
+        th, tw = w, w
+        i = int(round((h - th) / 2.0))
+        j = 0
+    return crop(clip, i, j, th, tw)
+def resize_crop_to_fill(clip, target_size):
+    if not _is_tensor_video_clip(clip):
+        raise ValueError("clip should be a 4D torch.tensor")
+    h, w = clip.size(-2), clip.size(-1)
+    th, tw = target_size[0], target_size[1]
+    rh, rw = th / h, tw / w
+    if rh > rw:
+        sh, sw = th, round(w * rh)
+        clip = resize(clip, (sh, sw), "bilinear")
+        i = 0
+        j = int(round(sw - tw) / 2.0)
+    else:
+        sh, sw = round(h * rw), tw
+        clip = resize(clip, (sh, sw), "bilinear")
+        i = int(round(sh - th) / 2.0)
+        j = 0
+    assert i + th <= clip.size(-2) and j + tw <= clip.size(-1)
+    return crop(clip, i, j, th, tw)
+def random_shift_crop(clip):
+    """
+    Slide along the long edge, with the short edge as crop size
+    """
+    if not _is_tensor_video_clip(clip):
+        raise ValueError("clip should be a 4D torch.tensor")
+    h, w = clip.size(-2), clip.size(-1)
+    if h <= w:
+        short_edge = h
+    else:
+        short_edge = w
+    th, tw = short_edge, short_edge
+    i = torch.randint(0, h - th + 1, size=(1,)).item()
+    j = torch.randint(0, w - tw + 1, size=(1,)).item()
+    return crop(clip, i, j, th, tw)
+def to_tensor(clip):
+    """
+    Convert tensor data type from uint8 to float, divide value by 255.0 and
+    permute the dimensions of clip tensor
+    Args:
+        clip (torch.tensor, dtype=torch.uint8): Size is (T, C, H, W)
+    Return:
+        clip (torch.tensor, dtype=torch.float): Size is (T, C, H, W)
+    """
+    _is_tensor_video_clip(clip)
+    if not clip.dtype == torch.uint8:
+        raise TypeError("clip tensor should have data type uint8. Got %s" % str(clip.dtype))
+    # return clip.float().permute(3, 0, 1, 2) / 255.0
+    return clip.float() / 255.0
+def normalize(clip, mean, std, inplace=False):
+    """
+    Args:
+        clip (torch.tensor): Video clip to be normalized. Size is (T, C, H, W)
+        mean (tuple): pixel RGB mean. Size is (3)
+        std (tuple): pixel standard deviation. Size is (3)
+    Returns:
+        normalized clip (torch.tensor): Size is (T, C, H, W)
+    """
+    if not _is_tensor_video_clip(clip):
+        raise ValueError("clip should be a 4D torch.tensor")
+    if not inplace:
+        clip = clip.clone()
+    mean = torch.as_tensor(mean, dtype=clip.dtype, device=clip.device)
+    # print(mean)
+    std = torch.as_tensor(std, dtype=clip.dtype, device=clip.device)
+    clip.sub_(mean[:, None, None, None]).div_(std[:, None, None, None])
+    return clip
+def hflip(clip):
+    """
+    Args:
+        clip (torch.tensor): Video clip to be normalized. Size is (T, C, H, W)
+    Returns:
+        flipped clip (torch.tensor): Size is (T, C, H, W)
+    """
+    if not _is_tensor_video_clip(clip):
+        raise ValueError("clip should be a 4D torch.tensor")
+    return clip.flip(-1)
+class ResizeCrop:
+    def __init__(self, size):
+        if isinstance(size, numbers.Number):
+            self.size = (int(size), int(size))
+        else:
+            self.size = size
+    def __call__(self, clip):
+        clip = resize_crop_to_fill(clip, self.size)
+        return clip
+    def __repr__(self) -> str:
+        return f"{self.__class__.__name__}(size={self.size})"
+class RandomCropVideo:
+    def __init__(self, size):
+        if isinstance(size, numbers.Number):
+            self.size = (int(size), int(size))
+        else:
+            self.size = size
+    def __call__(self, clip):
+        """
+        Args:
+            clip (torch.tensor): Video clip to be cropped. Size is (T, C, H, W)
+        Returns:
+            torch.tensor: randomly cropped video clip.
+                size is (T, C, OH, OW)
+        """
+        i, j, h, w = self.get_params(clip)
+        return crop(clip, i, j, h, w)
+    def get_params(self, clip):
+        h, w = clip.shape[-2:]
+        th, tw = self.size
+        if h < th or w < tw:
+            raise ValueError(f"Required crop size {(th, tw)} is larger than input image size {(h, w)}")
+        if w == tw and h == th:
+            return 0, 0, h, w
+        i = torch.randint(0, h - th + 1, size=(1,)).item()
+        j = torch.randint(0, w - tw + 1, size=(1,)).item()
+        return i, j, th, tw
+    def __repr__(self) -> str:
+        return f"{self.__class__.__name__}(size={self.size})"
+class CenterCropResizeVideo:
+    """
+    First use the short side for cropping length,
+    center crop video, then resize to the specified size
+    """
+    def __init__(
+        self,
+        size,
+        interpolation_mode="bilinear",
+    ):
+        if isinstance(size, tuple):
+            if len(size) != 2:
+                raise ValueError(f"size should be tuple (height, width), instead got {size}")
+            self.size = size
+        else:
+            self.size = (size, size)
+        self.interpolation_mode = interpolation_mode
+    def __call__(self, clip):
+        """
+        Args:
+            clip (torch.tensor): Video clip to be cropped. Size is (T, C, H, W)
+        Returns:
+            torch.tensor: scale resized / center cropped video clip.
+                size is (T, C, crop_size, crop_size)
+        """
+        clip_center_crop = center_crop_using_short_edge(clip)
+        clip_center_crop_resize = resize(
+            clip_center_crop, target_size=self.size, interpolation_mode=self.interpolation_mode
+        )
+        return clip_center_crop_resize
+    def __repr__(self) -> str:
+        return f"{self.__class__.__name__}(size={self.size}, interpolation_mode={self.interpolation_mode}"
+class UCFCenterCropVideo:
+    """
+    First scale to the specified size in equal proportion to the short edge,
+    then center cropping
+    """
+    def __init__(
+        self,
+        size,
+        interpolation_mode="bilinear",
+    ):
+        if isinstance(size, tuple):
+            if len(size) != 2:
+                raise ValueError(f"size should be tuple (height, width), instead got {size}")
+            self.size = size
+        else:
+            self.size = (size, size)
+        self.interpolation_mode = interpolation_mode
+    def __call__(self, clip):
+        """
+        Args:
+            clip (torch.tensor): Video clip to be cropped. Size is (T, C, H, W)
+        Returns:
+            torch.tensor: scale resized / center cropped video clip.
+                size is (T, C, crop_size, crop_size)
+        """
+        clip_resize = resize_scale(clip=clip, target_size=self.size, interpolation_mode=self.interpolation_mode)
+        clip_center_crop = center_crop(clip_resize, self.size)
+        return clip_center_crop
+    def __repr__(self) -> str:
+        return f"{self.__class__.__name__}(size={self.size}, interpolation_mode={self.interpolation_mode}"
+class KineticsRandomCropResizeVideo:
+    """
+    Slide along the long edge, with the short edge as crop size. And resie to the desired size.
+    """
+    def __init__(
+        self,
+        size,
+        interpolation_mode="bilinear",
+    ):
+        if isinstance(size, tuple):
+            if len(size) != 2:
+                raise ValueError(f"size should be tuple (height, width), instead got {size}")
+            self.size = size
+        else:
+            self.size = (size, size)
+        self.interpolation_mode = interpolation_mode
+    def __call__(self, clip):
+        clip_random_crop = random_shift_crop(clip)
+        clip_resize = resize(clip_random_crop, self.size, self.interpolation_mode)
+        return clip_resize
+class CenterCropVideo:
+    def __init__(
+        self,
+        size,
+        interpolation_mode="bilinear",
+    ):
+        if isinstance(size, tuple):
+            if len(size) != 2:
+                raise ValueError(f"size should be tuple (height, width), instead got {size}")
+            self.size = size
+        else:
+            self.size = (size, size)
+        self.interpolation_mode = interpolation_mode
+    def __call__(self, clip):
+        """
+        Args:
+            clip (torch.tensor): Video clip to be cropped. Size is (T, C, H, W)
+        Returns:
+            torch.tensor: center cropped video clip.
+                size is (T, C, crop_size, crop_size)
+        """
+        clip_center_crop = center_crop(clip, self.size)
+        return clip_center_crop
+    def __repr__(self) -> str:
+        return f"{self.__class__.__name__}(size={self.size}, interpolation_mode={self.interpolation_mode}"
+class NormalizeVideo:
+    """
+    Normalize the video clip by mean subtraction and division by standard deviation
+    Args:
+        mean (3-tuple): pixel RGB mean
+        std (3-tuple): pixel RGB standard deviation
+        inplace (boolean): whether do in-place normalization
+    """
+    def __init__(self, mean, std, inplace=False):
+        self.mean = mean
+        self.std = std
+        self.inplace = inplace
+    def __call__(self, clip):
+        """
+        Args:
+            clip (torch.tensor): video clip must be normalized. Size is (C, T, H, W)
+        """
+        return normalize(clip, self.mean, self.std, self.inplace)
+    def __repr__(self) -> str:
+        return f"{self.__class__.__name__}(mean={self.mean}, std={self.std}, inplace={self.inplace})"
+class ToTensorVideo:
+    """
+    Convert tensor data type from uint8 to float, divide value by 255.0 and
+    permute the dimensions of clip tensor
+    """
+    def __init__(self):
+        pass
+    def __call__(self, clip):
+        """
+        Args:
+            clip (torch.tensor, dtype=torch.uint8): Size is (T, C, H, W)
+        Return:
+            clip (torch.tensor, dtype=torch.float): Size is (T, C, H, W)
+        """
+        return to_tensor(clip)
+    def __repr__(self) -> str:
+        return self.__class__.__name__
+class RandomHorizontalFlipVideo:
+    """
+    Flip the video clip along the horizontal direction with a given probability
+    Args:
+        p (float): probability of the clip being flipped. Default value is 0.5
+    """
+    def __init__(self, p=0.5):
+        self.p = p
+    def __call__(self, clip):
+        """
+        Args:
+            clip (torch.tensor): Size is (T, C, H, W)
+        Return:
+            clip (torch.tensor): Size is (T, C, H, W)
+        """
+        if random.random() < self.p:
+            clip = hflip(clip)
+        return clip
+    def __repr__(self) -> str:
+        return f"{self.__class__.__name__}(p={self.p})"
+#  ------------------------------------------------------------
+#  ---------------------  Sampling  ---------------------------
+#  ------------------------------------------------------------
+class TemporalRandomCrop(object):
+    """Temporally crop the given frame indices at a random location.
+    Args:
+            size (int): Desired length of frames will be seen in the model.
+    """
+    def __init__(self, size):
+        self.size = size
+    def __call__(self, total_frames):
+        rand_end = max(0, total_frames - self.size - 1)
+        begin_index = random.randint(0, rand_end)
+        end_index = min(begin_index + self.size, total_frames)
+        return begin_index, end_index
+def is_img(path):
+    ext = os.path.splitext(path)[-1].lower()
+    return ext in IMG_EXTENSIONS
+def is_vid(path):
+    ext = os.path.splitext(path)[-1].lower()
+    return ext in VID_EXTENSIONS
+def is_url(url):
+    return re.match(regex, url) is not None
+def read_file(input_path):
+    if input_path.endswith(".csv"):
+        return pd.read_csv(input_path)
+    elif input_path.endswith(".parquet"):
+        return pd.read_parquet(input_path)
+    else:
+        raise NotImplementedError(f"Unsupported file format: {input_path}")
+def download_url(input_path):
+    output_dir = "cache"
+    os.makedirs(output_dir, exist_ok=True)
+    base_name = os.path.basename(input_path)
+    output_path = os.path.join(output_dir, base_name)
+    img_data = requests.get(input_path).content
+    with open(output_path, "wb") as handler:
+        handler.write(img_data)
+    print(f"URL {input_path} downloaded to {output_path}")
+    return output_path
+def temporal_random_crop(vframes, num_frames, frame_interval):
+    temporal_sample = TemporalRandomCrop(num_frames * frame_interval)
+    total_frames = len(vframes)
+    start_frame_ind, end_frame_ind = temporal_sample(total_frames)
+    assert (
+        end_frame_ind - start_frame_ind >= num_frames
+    ), f"Not enough frames to sample, {end_frame_ind} - {start_frame_ind} < {num_frames}"
+    frame_indice = np.linspace(start_frame_ind, end_frame_ind - 1, num_frames, dtype=int)
+    video = vframes[frame_indice]
+    return video
+def get_transforms_video(name="center", image_size=(256, 256)):
+    if name is None:
+        return None
+    elif name == "center":
+        assert image_size[0] == image_size[1], "image_size must be square for center crop"
+        transform_video = transforms.Compose(
+            [
+                ToTensorVideo(),  # TCHW
+                # video_transforms.RandomHorizontalFlipVideo(),
+                UCFCenterCropVideo(image_size[0]),
+                transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5], inplace=True),
+            ]
+        )
+    elif name == "resize_crop":
+        transform_video = transforms.Compose(
+            [
+                ToTensorVideo(),  # TCHW
+                ResizeCrop(image_size),
+                transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5], inplace=True),
+            ]
+        )
+    else:
+        raise NotImplementedError(f"Transform {name} not implemented")
+    return transform_video
+def get_transforms_image(name="center", image_size=(256, 256)):
+    if name is None:
+        return None
+    elif name == "center":
+        assert image_size[0] == image_size[1], "Image size must be square for center crop"
+        transform = transforms.Compose(
+            [
+                transforms.Lambda(lambda pil_image: center_crop_arr(pil_image, image_size[0])),
+                # transforms.RandomHorizontalFlip(),
+                transforms.ToTensor(),
+                transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5], inplace=True),
+            ]
+        )
+    elif name == "resize_crop":
+        transform = transforms.Compose(
+            [
+                transforms.Lambda(lambda pil_image: resize_crop_to_fill(pil_image, image_size)),
+                transforms.ToTensor(),
+                transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5], inplace=True),
+            ]
+        )
+    else:
+        raise NotImplementedError(f"Transform {name} not implemented")
+    return transform
+def read_image_from_path(path, transform=None, transform_name="center", num_frames=1, image_size=(256, 256)):
+    image = pil_loader(path)
+    if transform is None:
+        transform = get_transforms_image(image_size=image_size, name=transform_name)
+    image = transform(image)
+    video = image.unsqueeze(0).repeat(num_frames, 1, 1, 1)
+    video = video.permute(1, 0, 2, 3)
+    return video
+def read_video_from_path(path, transform=None, transform_name="center", image_size=(256, 256)):
+    vframes, aframes, info = torchvision.io.read_video(filename=path, pts_unit="sec", output_format="TCHW")
+    if transform is None:
+        transform = get_transforms_video(image_size=image_size, name=transform_name)
+    video = transform(vframes)  # T C H W
+    video = video.permute(1, 0, 2, 3)
+    return video
+def read_from_path(path, image_size, transform_name="center"):
+    if is_url(path):
+        path = download_url(path)
+    ext = os.path.splitext(path)[-1].lower()
+    if ext.lower() in VID_EXTENSIONS:
+        return read_video_from_path(path, image_size=image_size, transform_name=transform_name)
+    else:
+        assert ext.lower() in IMG_EXTENSIONS, f"Unsupported file format: {ext}"
+        return read_image_from_path(path, image_size=image_size, transform_name=transform_name)
+def save_sample(x, save_path=None, fps=8, normalize=True, value_range=(-1, 1), force_video=False, verbose=True):
+    """
+    Args:
+        x (Tensor): shape [C, T, H, W]
+    """
+    assert x.ndim == 4
+    if not force_video and x.shape[1] == 1:  # T = 1: save as image
+        save_path += ".png"
+        x = x.squeeze(1)
+        save_image([x], save_path, normalize=normalize, value_range=value_range)
+    else:
+        save_path += ".mp4"
+        if normalize:
+            low, high = value_range
+            x.clamp_(min=low, max=high)
+            x.sub_(low).div_(max(high - low, 1e-5))
+        x = x.mul(255).add_(0.5).clamp_(0, 255).permute(1, 2, 3, 0).to("cpu", torch.uint8)
+        write_video(save_path, x, fps=fps, video_codec="h264")
+    if verbose:
+        print(f"Saved to {save_path}")
+    return save_path
+def center_crop_arr(pil_image, image_size):
+    """
+    Center cropping implementation from ADM.
+    https://github.com/openai/guided-diffusion/blob/8fb3ad9197f16bbc40620447b2742e13458d2831/guided_diffusion/image_datasets.py#L126
+    """
+    while min(*pil_image.size) >= 2 * image_size:
+        pil_image = pil_image.resize(tuple(x // 2 for x in pil_image.size), resample=Image.BOX)
+    scale = image_size / min(*pil_image.size)
+    pil_image = pil_image.resize(tuple(round(x * scale) for x in pil_image.size), resample=Image.BICUBIC)
+    arr = np.array(pil_image)
+    crop_y = (arr.shape[0] - image_size) // 2
+    crop_x = (arr.shape[1] - image_size) // 2
+    return Image.fromarray(arr[crop_y : crop_y + image_size, crop_x : crop_x + image_size])
+def resize_crop_to_fill(pil_image, image_size):
+    w, h = pil_image.size  # PIL is (W, H)
+    th, tw = image_size
+    rh, rw = th / h, tw / w
+    if rh > rw:
+        sh, sw = th, round(w * rh)
+        image = pil_image.resize((sw, sh), Image.BICUBIC)
+        i = 0
+        j = int(round((sw - tw) / 2.0))
+    else:
+        sh, sw = round(h * rw), tw
+        image = pil_image.resize((sw, sh), Image.BICUBIC)
+        i = int(round((sh - th) / 2.0))
+        j = 0
+    arr = np.array(image)
+    assert i + th <= arr.shape[0] and j + tw <= arr.shape[1]
+    return Image.fromarray(arr[i : i + th, j : j + tw])

infworld/utils/prepare_dataloader.py ADDED Viewed

	@@ -0,0 +1,133 @@

+import sys
+import os
+import importlib
+from omegaconf import OmegaConf
+from tqdm.auto import tqdm
+import torch
+sys.path.append(os.path.join(os.path.dirname(__file__),'../..'))
+def get_obj_from_str(string, reload=False, invalidate_cache=True):
+    module, cls = string.rsplit(".", 1)
+    if invalidate_cache:
+        importlib.invalidate_caches()
+    if reload:
+        module_imp = importlib.import_module(module)
+        importlib.reload(module_imp)
+    return getattr(importlib.import_module(module, package=None), cls)
+def prepare_dataloader_for_rank(config, global_rank, num_processes=-1, repeat_cp_size=1):
+    """ Get the dataloader given config and the current global rank.
+        "dataset_setting" provides the list of dataset configs
+        "rank_index_map" provides how to distribute the config across ranks
+    """
+    # repeat each elements in CP; [a b c] --> [a a ... b b ... c c ...]
+    if repeat_cp_size > 1:
+        print(f'before repeat config.rank_index_map: {config.rank_index_map}')
+        repeated_rank_index_map = [element for element in config.rank_index_map for _ in range(repeat_cp_size)]
+        config.rank_index_map = repeated_rank_index_map
+        print(f'after repeat repeated_rank_index_map: {config.rank_index_map}')
+    # get the dataset index
+    num_total_indices = len(config.rank_index_map)
+    dataset_index = config.rank_index_map[global_rank % num_total_indices]
+    # get the correct partition
+    num_partitions = 1
+    partition_id = 0
+    if num_processes > 0:
+        rank_to_dataset_index_map = list(config.rank_index_map) * num_processes
+        rank_to_dataset_index_map = rank_to_dataset_index_map[:num_processes]
+        num_partitions = rank_to_dataset_index_map.count(dataset_index)
+        partition_id = rank_to_dataset_index_map[:global_rank].count(dataset_index)
+        print(f'rank_to_dataset_index_map: {rank_to_dataset_index_map}')
+        print(f'dataset_index: {dataset_index} partition_id: {partition_id} num_partitions: {num_partitions} ')
+    # get the loss weight scale factor to normalize loss weight to 1.0
+    sum_loss_weight = 0.0
+    for i in range(num_total_indices):
+        dataset_setting = config.dataset_setting[config.rank_index_map[i]]
+        sum_loss_weight += dataset_setting.get("loss_weight", 1.0)
+    loss_weight_scale = float(num_total_indices) / sum_loss_weight
+    # fetch the config
+    dataset_setting = config.dataset_setting[dataset_index]
+    loss_weight = dataset_setting.get("loss_weight", 1.0) * loss_weight_scale
+    print(f'global_rank: {global_rank} -- dataset_index: {dataset_index} - loss_weight_scale: {loss_weight_scale} - loss weight: {loss_weight} - dataset_setting: {dataset_setting}')
+    # set prompt function
+    utils_prompt_module = importlib.import_module(dataset_setting.get_prompt_module)
+    get_prompt_func = getattr(utils_prompt_module, dataset_setting.get_prompt_func)
+    get_prompt_frame_spans_func = None
+    if hasattr(dataset_setting, "get_prompt_frame_spans_func"):
+        get_prompt_frame_spans_func = getattr(utils_prompt_module, dataset_setting.get_prompt_frame_spans_func)
+    # get dataset from setting
+    dataset_kwargs = dataset_setting.get("dataset_kwargs", dict())
+    # get bucket configs
+    assert hasattr(dataset_kwargs, "bucket_configs")
+    bucket_configs = dataset_kwargs.get("bucket_configs", dict())
+    dataset = get_obj_from_str(dataset_setting.dataset_target)(
+        get_prompt_func=get_prompt_func,
+        get_prompt_frame_spans_func=get_prompt_frame_spans_func,
+        partition_id=partition_id,
+        num_partitions=num_partitions,
+        **dataset_kwargs
+    )
+    # get dataloader from setting
+    dataloader_kwargs = dataset_setting.get("dataloader_kwargs", dict())
+    dataloader = torch.utils.data.DataLoader(
+        dataset,
+        **dataloader_kwargs,
+        shuffle=False,
+        pin_memory=True,
+        drop_last=True,
+        collate_fn = dataset.collate_fn if hasattr(dataset,"collate_fn") else None,
+    )
+    return dataloader, loss_weight, bucket_configs
+if __name__ == '__main__':
+    # example_config_path = 'source/dataset/example_config.yaml'
+    example_config_path = "configs/train_t2v_opensora_v2_ms_long32_hq400.yaml"
+    config = OmegaConf.load(example_config_path)
+    dataloader = prepare_dataloader_for_rank(config.video_training_data_config, global_rank=7, num_processes=28)
+    num_train_steps = 1000
+    progress_bar = tqdm(range(0, num_train_steps))
+    # output_dir = "assets/webvid-trimming_aes-tfreader"
+    # os.makedirs(output_dir, exist_ok=True)
+    # for step, batch in enumerate(tfreader):
+    for step, batch in enumerate(dataloader):
+        progress_bar.update(1)
+        # # save data for visualization
+        # pixel_values = batch['pixel_values'].cpu()
+        # pixel_values = rearrange(pixel_values, "b f c h w -> b c f h w")
+        # for idx, pixel_value in enumerate(pixel_values):
+        #     pixel_value = pixel_value[None, ...]
+        #     text_value = batch['text'][idx]
+        #     of_score = batch['of_score'][idx]
+        #     fps_value = batch['fps'][idx]
+        #     text_value = (text_value[:70] + '..') if len(text_value) > 70 else text_value
+        #     output_filename = f"{output_dir}/{f'{fps_value}-{of_score}-{text_value}'}.gif"
+        #     print(f'saving data to {output_filename}')
+        #     save_videos_grid(pixel_value, output_filename, rescale=True)
+        # print(f'step: {step} / num_train_steps: {num_train_steps}')
+        if step >= num_train_steps:
+            break

infworld/utils/registry.py ADDED Viewed

	@@ -0,0 +1,39 @@

+from copy import deepcopy
+import torch.nn as nn
+from mmengine.registry import Registry
+def build_module(module, builder, **kwargs):
+    """Build module from config or return the module itself.
+    Args:
+        module (Union[dict, nn.Module]): The module to build.
+        builder (Registry): The registry to build module.
+        *args, **kwargs: Arguments passed to build function.
+    Returns:
+        Any: The built module.
+    """
+    if isinstance(module, dict):
+        cfg = deepcopy(module)
+        for k, v in kwargs.items():
+            cfg[k] = v
+        return builder.build(cfg)
+    elif isinstance(module, nn.Module):
+        return module
+    elif module is None:
+        return None
+    else:
+        raise TypeError(f"Only support dict and nn.Module, but got {type(module)}.")
+MODELS = Registry(
+    "model",
+    locations=["opensora.models"],
+)
+SCHEDULERS = Registry(
+    "scheduler",
+    locations=["opensora.schedulers"],
+)

infworld/vae/__init__.py ADDED Viewed

	@@ -0,0 +1,48 @@

+from einops import rearrange
+import torch
+from torch import nn
+# Standalone: only Wan VAE (used by infworld_config.yaml)
+from .vae import WanVAE
+class WanVAEModelWrapper(nn.Module):
+    def __init__(self, vae_pth, dtype=torch.float, device="cuda", patch_size=(4, 8, 8)):
+        super(WanVAEModelWrapper, self).__init__()
+        self.module = WanVAE(
+            vae_pth=vae_pth,
+            dtype=dtype,
+            device=device,
+        )
+        self.dtype = dtype
+        self.device = device
+        self.out_channels = 16
+        self.patch_size = patch_size
+    def encode(self, x):
+        # input: x: B, C, T, H, W or B, C, H, W
+        # return: x: B, C, T, H, W
+        if len(x.shape) == 4:
+            x = rearrange(x, "B C H W -> B C 1 H W")
+        x = self.module.encode_batch(x)
+        return x
+    def decode(self, x):
+        # input: x: B, C, T, H, W or B, C, H, W
+        # return: x: B, C, T, H, W
+        if len(x.shape) == 4:
+            x = rearrange(x, "T C H W -> 1 C T H W")
+        x = self.module.decode_batch(x)
+        return x
+    def get_latent_size(self, input_size):
+        latent_size = []
+        for i in range(3):
+            if i == 0:
+                target_size = 1 + (input_size[i] - 1) // self.patch_size[i]
+                latent_size.append(target_size)
+            else:
+                assert input_size[i] % self.patch_size[i] == 0, "Input spatial size must be divisible by patch size"
+                target_size = input_size[i] // self.patch_size[i]
+                latent_size.append(target_size)
+        return latent_size

infworld/vae/vae.py ADDED Viewed

	@@ -0,0 +1,674 @@

+# Copyright 2024-2025 The Alibaba Wan Team Authors. All rights reserved.
+import logging
+import torch
+import torch.cuda.amp as amp
+import torch.nn as nn
+import torch.nn.functional as F
+from einops import rearrange
+__all__ = [
+    'WanVAE',
+]
+CACHE_T = 2
+class CausalConv3d(nn.Conv3d):
+    """
+    Causal 3d convolusion.
+    """
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self._padding = (self.padding[2], self.padding[2], self.padding[1],
+                         self.padding[1], 2 * self.padding[0], 0)
+        self.padding = (0, 0, 0)
+    def forward(self, x, cache_x=None):
+        padding = list(self._padding)
+        if cache_x is not None and self._padding[4] > 0:
+            cache_x = cache_x.to(x.device)
+            x = torch.cat([cache_x, x], dim=2)
+            padding[4] -= cache_x.shape[2]
+        x = F.pad(x, padding)
+        return super().forward(x)
+class RMS_norm(nn.Module):
+    def __init__(self, dim, channel_first=True, images=True, bias=False):
+        super().__init__()
+        broadcastable_dims = (1, 1, 1) if not images else (1, 1)
+        shape = (dim, *broadcastable_dims) if channel_first else (dim,)
+        self.channel_first = channel_first
+        self.scale = dim**0.5
+        self.gamma = nn.Parameter(torch.ones(shape))
+        self.bias = nn.Parameter(torch.zeros(shape)) if bias else 0.
+    def forward(self, x):
+        return F.normalize(
+            x, dim=(1 if self.channel_first else
+                    -1)) * self.scale * self.gamma + self.bias
+class Upsample(nn.Upsample):
+    def forward(self, x):
+        """
+        Fix bfloat16 support for nearest neighbor interpolation.
+        """
+        return super().forward(x.float()).type_as(x)
+class Resample(nn.Module):
+    def __init__(self, dim, mode):
+        assert mode in ('none', 'upsample2d', 'upsample3d', 'downsample2d',
+                        'downsample3d')
+        super().__init__()
+        self.dim = dim
+        self.mode = mode
+        # layers
+        if mode == 'upsample2d':
+            self.resample = nn.Sequential(
+                Upsample(scale_factor=(2., 2.), mode='nearest-exact'),
+                nn.Conv2d(dim, dim // 2, 3, padding=1))
+        elif mode == 'upsample3d':
+            self.resample = nn.Sequential(
+                Upsample(scale_factor=(2., 2.), mode='nearest-exact'),
+                nn.Conv2d(dim, dim // 2, 3, padding=1))
+            self.time_conv = CausalConv3d(
+                dim, dim * 2, (3, 1, 1), padding=(1, 0, 0))
+        elif mode == 'downsample2d':
+            self.resample = nn.Sequential(
+                nn.ZeroPad2d((0, 1, 0, 1)),
+                nn.Conv2d(dim, dim, 3, stride=(2, 2)))
+        elif mode == 'downsample3d':
+            self.resample = nn.Sequential(
+                nn.ZeroPad2d((0, 1, 0, 1)),
+                nn.Conv2d(dim, dim, 3, stride=(2, 2)))
+            self.time_conv = CausalConv3d(
+                dim, dim, (3, 1, 1), stride=(2, 1, 1), padding=(0, 0, 0))
+        else:
+            self.resample = nn.Identity()
+    def forward(self, x, feat_cache=None, feat_idx=[0]):
+        b, c, t, h, w = x.size()
+        if self.mode == 'upsample3d':
+            if feat_cache is not None:
+                idx = feat_idx[0]
+                if feat_cache[idx] is None:
+                    feat_cache[idx] = 'Rep'
+                    feat_idx[0] += 1
+                else:
+                    cache_x = x[:, :, -CACHE_T:, :, :].clone()
+                    if cache_x.shape[2] < 2 and feat_cache[
+                            idx] is not None and feat_cache[idx] != 'Rep':
+                        # cache last frame of last two chunk
+                        cache_x = torch.cat([
+                            feat_cache[idx][:, :, -1, :, :].unsqueeze(2).to(
+                                cache_x.device), cache_x
+                        ],
+                                            dim=2)
+                    if cache_x.shape[2] < 2 and feat_cache[
+                            idx] is not None and feat_cache[idx] == 'Rep':
+                        cache_x = torch.cat([
+                            torch.zeros_like(cache_x).to(cache_x.device),
+                            cache_x
+                        ],
+                                            dim=2)
+                    if feat_cache[idx] == 'Rep':
+                        x = self.time_conv(x)
+                    else:
+                        x = self.time_conv(x, feat_cache[idx])
+                    feat_cache[idx] = cache_x
+                    feat_idx[0] += 1
+                    x = x.reshape(b, 2, c, t, h, w)
+                    x = torch.stack((x[:, 0, :, :, :, :], x[:, 1, :, :, :, :]),
+                                    3)
+                    x = x.reshape(b, c, t * 2, h, w)
+        t = x.shape[2]
+        x = rearrange(x, 'b c t h w -> (b t) c h w')
+        x = self.resample(x)
+        x = rearrange(x, '(b t) c h w -> b c t h w', t=t)
+        if self.mode == 'downsample3d':
+            if feat_cache is not None:
+                idx = feat_idx[0]
+                if feat_cache[idx] is None:
+                    feat_cache[idx] = x.clone()
+                    feat_idx[0] += 1
+                else:
+                    cache_x = x[:, :, -1:, :, :].clone()
+                    # if cache_x.shape[2] < 2 and feat_cache[idx] is not None and feat_cache[idx]!='Rep':
+                    #     # cache last frame of last two chunk
+                    #     cache_x = torch.cat([feat_cache[idx][:, :, -1, :, :].unsqueeze(2).to(cache_x.device), cache_x], dim=2)
+                    x = self.time_conv(
+                        torch.cat([feat_cache[idx][:, :, -1:, :, :], x], 2))
+                    feat_cache[idx] = cache_x
+                    feat_idx[0] += 1
+        return x
+    def init_weight(self, conv):
+        conv_weight = conv.weight
+        nn.init.zeros_(conv_weight)
+        c1, c2, t, h, w = conv_weight.size()
+        one_matrix = torch.eye(c1, c2)
+        init_matrix = one_matrix
+        nn.init.zeros_(conv_weight)
+        #conv_weight.data[:,:,-1,1,1] = init_matrix * 0.5
+        conv_weight.data[:, :, 1, 0, 0] = init_matrix  #* 0.5
+        conv.weight.data.copy_(conv_weight)
+        nn.init.zeros_(conv.bias.data)
+    def init_weight2(self, conv):
+        conv_weight = conv.weight.data
+        nn.init.zeros_(conv_weight)
+        c1, c2, t, h, w = conv_weight.size()
+        init_matrix = torch.eye(c1 // 2, c2)
+        #init_matrix = repeat(init_matrix, 'o ... -> (o 2) ...').permute(1,0,2).contiguous().reshape(c1,c2)
+        conv_weight[:c1 // 2, :, -1, 0, 0] = init_matrix
+        conv_weight[c1 // 2:, :, -1, 0, 0] = init_matrix
+        conv.weight.data.copy_(conv_weight)
+        nn.init.zeros_(conv.bias.data)
+class ResidualBlock(nn.Module):
+    def __init__(self, in_dim, out_dim, dropout=0.0):
+        super().__init__()
+        self.in_dim = in_dim
+        self.out_dim = out_dim
+        # layers
+        self.residual = nn.Sequential(
+            RMS_norm(in_dim, images=False), nn.SiLU(),
+            CausalConv3d(in_dim, out_dim, 3, padding=1),
+            RMS_norm(out_dim, images=False), nn.SiLU(), nn.Dropout(dropout),
+            CausalConv3d(out_dim, out_dim, 3, padding=1))
+        self.shortcut = CausalConv3d(in_dim, out_dim, 1) \
+            if in_dim != out_dim else nn.Identity()
+    def forward(self, x, feat_cache=None, feat_idx=[0]):
+        h = self.shortcut(x)
+        for layer in self.residual:
+            if isinstance(layer, CausalConv3d) and feat_cache is not None:
+                idx = feat_idx[0]
+                cache_x = x[:, :, -CACHE_T:, :, :].clone()
+                if cache_x.shape[2] < 2 and feat_cache[idx] is not None:
+                    # cache last frame of last two chunk
+                    cache_x = torch.cat([
+                        feat_cache[idx][:, :, -1, :, :].unsqueeze(2).to(
+                            cache_x.device), cache_x
+                    ],
+                                        dim=2)
+                x = layer(x, feat_cache[idx])
+                feat_cache[idx] = cache_x
+                feat_idx[0] += 1
+            else:
+                x = layer(x)
+        return x + h
+class AttentionBlock(nn.Module):
+    """
+    Causal self-attention with a single head.
+    """
+    def __init__(self, dim):
+        super().__init__()
+        self.dim = dim
+        # layers
+        self.norm = RMS_norm(dim)
+        self.to_qkv = nn.Conv2d(dim, dim * 3, 1)
+        self.proj = nn.Conv2d(dim, dim, 1)
+        # zero out the last layer params
+        nn.init.zeros_(self.proj.weight)
+    def forward(self, x):
+        identity = x
+        b, c, t, h, w = x.size()
+        x = rearrange(x, 'b c t h w -> (b t) c h w')
+        x = self.norm(x)
+        # compute query, key, value
+        q, k, v = self.to_qkv(x).reshape(b * t, 1, c * 3,
+                                         -1).permute(0, 1, 3,
+                                                     2).contiguous().chunk(
+                                                         3, dim=-1)
+        # apply attention
+        x = F.scaled_dot_product_attention(
+            q,
+            k,
+            v,
+        )
+        x = x.squeeze(1).permute(0, 2, 1).reshape(b * t, c, h, w)
+        # output
+        x = self.proj(x)
+        x = rearrange(x, '(b t) c h w-> b c t h w', t=t)
+        return x + identity
+class Encoder3d(nn.Module):
+    def __init__(self,
+                 dim=128,
+                 z_dim=4,
+                 dim_mult=[1, 2, 4, 4],
+                 num_res_blocks=2,
+                 attn_scales=[],
+                 temperal_downsample=[True, True, False],
+                 dropout=0.0):
+        super().__init__()
+        self.dim = dim
+        self.z_dim = z_dim
+        self.dim_mult = dim_mult
+        self.num_res_blocks = num_res_blocks
+        self.attn_scales = attn_scales
+        self.temperal_downsample = temperal_downsample
+        # dimensions
+        dims = [dim * u for u in [1] + dim_mult]
+        scale = 1.0
+        # init block
+        self.conv1 = CausalConv3d(3, dims[0], 3, padding=1)
+        # downsample blocks
+        downsamples = []
+        for i, (in_dim, out_dim) in enumerate(zip(dims[:-1], dims[1:])):
+            # residual (+attention) blocks
+            for _ in range(num_res_blocks):
+                downsamples.append(ResidualBlock(in_dim, out_dim, dropout))
+                if scale in attn_scales:
+                    downsamples.append(AttentionBlock(out_dim))
+                in_dim = out_dim
+            # downsample block
+            if i != len(dim_mult) - 1:
+                mode = 'downsample3d' if temperal_downsample[
+                    i] else 'downsample2d'
+                downsamples.append(Resample(out_dim, mode=mode))
+                scale /= 2.0
+        self.downsamples = nn.Sequential(*downsamples)
+        # middle blocks
+        self.middle = nn.Sequential(
+            ResidualBlock(out_dim, out_dim, dropout), AttentionBlock(out_dim),
+            ResidualBlock(out_dim, out_dim, dropout))
+        # output blocks
+        self.head = nn.Sequential(
+            RMS_norm(out_dim, images=False), nn.SiLU(),
+            CausalConv3d(out_dim, z_dim, 3, padding=1))
+    def forward(self, x, feat_cache=None, feat_idx=[0]):
+        if feat_cache is not None:
+            idx = feat_idx[0]
+            cache_x = x[:, :, -CACHE_T:, :, :].clone()
+            if cache_x.shape[2] < 2 and feat_cache[idx] is not None:
+                # cache last frame of last two chunk
+                cache_x = torch.cat([
+                    feat_cache[idx][:, :, -1, :, :].unsqueeze(2).to(
+                        cache_x.device), cache_x
+                ],
+                                    dim=2)
+            x = self.conv1(x, feat_cache[idx])
+            feat_cache[idx] = cache_x
+            feat_idx[0] += 1
+        else:
+            x = self.conv1(x)
+        ## downsamples
+        for layer in self.downsamples:
+            if feat_cache is not None:
+                x = layer(x, feat_cache, feat_idx)
+            else:
+                x = layer(x)
+        ## middle
+        for layer in self.middle:
+            if isinstance(layer, ResidualBlock) and feat_cache is not None:
+                x = layer(x, feat_cache, feat_idx)
+            else:
+                x = layer(x)
+        ## head
+        for layer in self.head:
+            if isinstance(layer, CausalConv3d) and feat_cache is not None:
+                idx = feat_idx[0]
+                cache_x = x[:, :, -CACHE_T:, :, :].clone()
+                if cache_x.shape[2] < 2 and feat_cache[idx] is not None:
+                    # cache last frame of last two chunk
+                    cache_x = torch.cat([
+                        feat_cache[idx][:, :, -1, :, :].unsqueeze(2).to(
+                            cache_x.device), cache_x
+                    ],
+                                        dim=2)
+                x = layer(x, feat_cache[idx])
+                feat_cache[idx] = cache_x
+                feat_idx[0] += 1
+            else:
+                x = layer(x)
+        return x
+class Decoder3d(nn.Module):
+    def __init__(self,
+                 dim=128,
+                 z_dim=4,
+                 dim_mult=[1, 2, 4, 4],
+                 num_res_blocks=2,
+                 attn_scales=[],
+                 temperal_upsample=[False, True, True],
+                 dropout=0.0):
+        super().__init__()
+        self.dim = dim
+        self.z_dim = z_dim
+        self.dim_mult = dim_mult
+        self.num_res_blocks = num_res_blocks
+        self.attn_scales = attn_scales
+        self.temperal_upsample = temperal_upsample
+        # dimensions
+        dims = [dim * u for u in [dim_mult[-1]] + dim_mult[::-1]]
+        scale = 1.0 / 2**(len(dim_mult) - 2)
+        # init block
+        self.conv1 = CausalConv3d(z_dim, dims[0], 3, padding=1)
+        # middle blocks
+        self.middle = nn.Sequential(
+            ResidualBlock(dims[0], dims[0], dropout), AttentionBlock(dims[0]),
+            ResidualBlock(dims[0], dims[0], dropout))
+        # upsample blocks
+        upsamples = []
+        for i, (in_dim, out_dim) in enumerate(zip(dims[:-1], dims[1:])):
+            # residual (+attention) blocks
+            if i == 1 or i == 2 or i == 3:
+                in_dim = in_dim // 2
+            for _ in range(num_res_blocks + 1):
+                upsamples.append(ResidualBlock(in_dim, out_dim, dropout))
+                if scale in attn_scales:
+                    upsamples.append(AttentionBlock(out_dim))
+                in_dim = out_dim
+            # upsample block
+            if i != len(dim_mult) - 1:
+                mode = 'upsample3d' if temperal_upsample[i] else 'upsample2d'
+                upsamples.append(Resample(out_dim, mode=mode))
+                scale *= 2.0
+        self.upsamples = nn.Sequential(*upsamples)
+        # output blocks
+        self.head = nn.Sequential(
+            RMS_norm(out_dim, images=False), nn.SiLU(),
+            CausalConv3d(out_dim, 3, 3, padding=1))
+    def forward(self, x, feat_cache=None, feat_idx=[0]):
+        ## conv1
+        if feat_cache is not None:
+            idx = feat_idx[0]
+            cache_x = x[:, :, -CACHE_T:, :, :].clone()
+            if cache_x.shape[2] < 2 and feat_cache[idx] is not None:
+                # cache last frame of last two chunk
+                cache_x = torch.cat([
+                    feat_cache[idx][:, :, -1, :, :].unsqueeze(2).to(
+                        cache_x.device), cache_x
+                ],
+                                    dim=2)
+            x = self.conv1(x, feat_cache[idx])
+            feat_cache[idx] = cache_x
+            feat_idx[0] += 1
+        else:
+            x = self.conv1(x)
+        ## middle
+        for layer in self.middle:
+            if isinstance(layer, ResidualBlock) and feat_cache is not None:
+                x = layer(x, feat_cache, feat_idx)
+            else:
+                x = layer(x)
+        ## upsamples
+        for layer in self.upsamples:
+            if feat_cache is not None:
+                x = layer(x, feat_cache, feat_idx)
+            else:
+                x = layer(x)
+        ## head
+        for layer in self.head:
+            if isinstance(layer, CausalConv3d) and feat_cache is not None:
+                idx = feat_idx[0]
+                cache_x = x[:, :, -CACHE_T:, :, :].clone()
+                if cache_x.shape[2] < 2 and feat_cache[idx] is not None:
+                    # cache last frame of last two chunk
+                    cache_x = torch.cat([
+                        feat_cache[idx][:, :, -1, :, :].unsqueeze(2).to(
+                            cache_x.device), cache_x
+                    ],
+                                        dim=2)
+                x = layer(x, feat_cache[idx])
+                feat_cache[idx] = cache_x
+                feat_idx[0] += 1
+            else:
+                x = layer(x)
+        return x
+def count_conv3d(model):
+    count = 0
+    for m in model.modules():
+        if isinstance(m, CausalConv3d):
+            count += 1
+    return count
+class WanVAE_(nn.Module):
+    def __init__(self,
+                 dim=128,
+                 z_dim=4,
+                 dim_mult=[1, 2, 4, 4],
+                 num_res_blocks=2,
+                 attn_scales=[],
+                 temperal_downsample=[True, True, False],
+                 dropout=0.0):
+        super().__init__()
+        self.dim = dim
+        self.z_dim = z_dim
+        self.dim_mult = dim_mult
+        self.num_res_blocks = num_res_blocks
+        self.attn_scales = attn_scales
+        self.temperal_downsample = temperal_downsample
+        self.temperal_upsample = temperal_downsample[::-1]
+        # modules
+        self.encoder = Encoder3d(dim, z_dim * 2, dim_mult, num_res_blocks,
+                                 attn_scales, self.temperal_downsample, dropout)
+        self.conv1 = CausalConv3d(z_dim * 2, z_dim * 2, 1)
+        self.conv2 = CausalConv3d(z_dim, z_dim, 1)
+        self.decoder = Decoder3d(dim, z_dim, dim_mult, num_res_blocks,
+                                 attn_scales, self.temperal_upsample, dropout)
+    def forward(self, x):
+        mu, log_var = self.encode(x)
+        z = self.reparameterize(mu, log_var)
+        x_recon = self.decode(z)
+        return x_recon, mu, log_var
+    def encode(self, x, scale):
+        self.clear_cache()
+        ## cache
+        t = x.shape[2]
+        iter_ = 1 + (t - 1) // 4
+        ## 对encode输入的x，按时间拆分为1、4、4、4....
+        for i in range(iter_):
+            self._enc_conv_idx = [0]
+            if i == 0:
+                out = self.encoder(
+                    x[:, :, :1, :, :],
+                    feat_cache=self._enc_feat_map,
+                    feat_idx=self._enc_conv_idx)
+            else:
+                out_ = self.encoder(
+                    x[:, :, 1 + 4 * (i - 1):1 + 4 * i, :, :],
+                    feat_cache=self._enc_feat_map,
+                    feat_idx=self._enc_conv_idx)
+                out = torch.cat([out, out_], 2)
+        mu, log_var = self.conv1(out).chunk(2, dim=1)
+        if isinstance(scale[0], torch.Tensor):
+            mu = (mu - scale[0].view(1, self.z_dim, 1, 1, 1)) * scale[1].view(
+                1, self.z_dim, 1, 1, 1)
+        else:
+            mu = (mu - scale[0]) * scale[1]
+        self.clear_cache()
+        return mu
+    def decode(self, z, scale):
+        self.clear_cache()
+        # z: [b,c,t,h,w]
+        if isinstance(scale[0], torch.Tensor):
+            z = z / scale[1].view(1, self.z_dim, 1, 1, 1) + scale[0].view(
+                1, self.z_dim, 1, 1, 1)
+        else:
+            z = z / scale[1] + scale[0]
+        iter_ = z.shape[2]
+        x = self.conv2(z)
+        for i in range(iter_):
+            self._conv_idx = [0]
+            if i == 0:
+                out = self.decoder(
+                    x[:, :, i:i + 1, :, :],
+                    feat_cache=self._feat_map,
+                    feat_idx=self._conv_idx)
+            else:
+                out_ = self.decoder(
+                    x[:, :, i:i + 1, :, :],
+                    feat_cache=self._feat_map,
+                    feat_idx=self._conv_idx)
+                out = torch.cat([out, out_], 2)
+        self.clear_cache()
+        return out
+    def reparameterize(self, mu, log_var):
+        std = torch.exp(0.5 * log_var)
+        eps = torch.randn_like(std)
+        return eps * std + mu
+    def sample(self, imgs, deterministic=False):
+        mu, log_var = self.encode(imgs)
+        if deterministic:
+            return mu
+        std = torch.exp(0.5 * log_var.clamp(-30.0, 20.0))
+        return mu + std * torch.randn_like(std)
+    def clear_cache(self):
+        self._conv_num = count_conv3d(self.decoder)
+        self._conv_idx = [0]
+        self._feat_map = [None] * self._conv_num
+        #cache encode
+        self._enc_conv_num = count_conv3d(self.encoder)
+        self._enc_conv_idx = [0]
+        self._enc_feat_map = [None] * self._enc_conv_num
+def _video_vae(pretrained_path=None, z_dim=None, device='cpu', **kwargs):
+    """
+    Autoencoder3d adapted from Stable Diffusion 1.x, 2.x and XL.
+    """
+    # params
+    cfg = dict(
+        dim=96,
+        z_dim=z_dim,
+        dim_mult=[1, 2, 4, 4],
+        num_res_blocks=2,
+        attn_scales=[],
+        temperal_downsample=[False, True, True],
+        dropout=0.0)
+    cfg.update(**kwargs)
+    # init model
+    with torch.device('meta'):
+        model = WanVAE_(**cfg)
+    # load checkpoint
+    logging.info(f'loading {pretrained_path}')
+    model.load_state_dict(
+        torch.load(pretrained_path, map_location=device), assign=True)
+    return model
+class WanVAE:
+    def __init__(self,
+                 z_dim=16,
+                 vae_pth='cache/vae_step_411000.pth',
+                 dtype=torch.float,
+                 device="cuda"):
+        self.dtype = dtype
+        self.device = device
+        mean = [
+            -0.7571, -0.7089, -0.9113, 0.1075, -0.1745, 0.9653, -0.1517, 1.5508,
+            0.4134, -0.0715, 0.5517, -0.3632, -0.1922, -0.9497, 0.2503, -0.2921
+        ]
+        std = [
+            2.8184, 1.4541, 2.3275, 2.6558, 1.2196, 1.7708, 2.6052, 2.0743,
+            3.2687, 2.1526, 2.8652, 1.5579, 1.6382, 1.1253, 2.8251, 1.9160
+        ]
+        self.mean = torch.tensor(mean, dtype=dtype, device=device)
+        self.std = torch.tensor(std, dtype=dtype, device=device)
+        self.scale = [self.mean, 1.0 / self.std]
+        # init model
+        self.model = _video_vae(
+            pretrained_path=vae_pth,
+            z_dim=z_dim,
+        ).eval().requires_grad_(False).to(device)
+    def encode(self, videos):
+        """
+        videos: A list of videos each with shape [C, T, H, W].
+        """
+        with amp.autocast(dtype=self.dtype):
+            return [
+                self.model.encode(u.unsqueeze(0), self.scale).float().squeeze(0)
+                for u in videos
+            ]
+    def decode(self, zs):
+        with amp.autocast(dtype=self.dtype):
+            return [
+                self.model.decode(u.unsqueeze(0),
+                                  self.scale).float().clamp_(-1, 1).squeeze(0)
+                for u in zs
+            ]
+    def encode_batch(self, videos):
+        """
+        videos: A list of videos each with shape [C, T, H, W].
+        """
+        with amp.autocast(dtype=self.dtype):
+            return self.model.encode(videos, self.scale).float()
+    def decode_batch(self, zs):
+        with amp.autocast(dtype=self.dtype):
+            return self.model.decode(zs, self.scale).float().clamp_(-1, 1)

prompts/demo.yaml ADDED Viewed

	@@ -0,0 +1,10 @@

+# Infinite World - Demo Prompts
+# Format: [prompt, condition_image_path, action_json_path]
+prompts:
+  - - A serene campus walkway lined with modern glass buildings, green ivy climbing some walls, empty benches, soft dappled sunlight through maple trees.
+    - ./assets/example_case/0001.jpg
+    - ./assets/example_case/0001.json
+  - - A street in a fantasy city where buildings are carved into gargantuan ancient trees, glowing sap running through bark, misty floor.
+    - ./assets/example_case/0002.jpg
+    - ./assets/example_case/0002.json

readme.md ADDED Viewed

	@@ -0,0 +1,144 @@

+<h1 align="center">Infinite-World</h1>
+<h3 align="center">Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory</h3>
+<p align="center">
+  <a href="http://arxiv.org/abs/2602.02393"><img src="https://img.shields.io/badge/arXiv-2602.02393-b31b1b.svg" alt="arXiv"></a>
+  <a href="https://rq-wu.github.io/projects/infinite_world"><img src="https://img.shields.io/badge/Project-Page-blue.svg" alt="Project Page"></a>
+</p>
+<p align="center">
+  <strong>Ruiqi Wu</strong><sup>1,2,3*</sup>, <strong>Xuanhua He</strong><sup>4,2*</sup>, <strong>Meng Cheng</strong><sup>2*</sup>, <strong>Tianyu Yang</strong><sup>2</sup>, <strong>Yong Zhang</strong><sup>2‡</sup>, <strong>Chunle Guo</strong><sup>1,3†</sup>, <strong>Chongyi Li</strong><sup>1,3</sup>, <strong>Ming-Ming Cheng</strong><sup>1,3</sup>
+</p>
+<p align="center">
+  <sup>1</sup>Nankai University &nbsp; <sup>2</sup>Meituan &nbsp; <sup>3</sup>NKIARI &nbsp; <sup>4</sup>HKUST
+</p>
+<p align="center">
+  <sup>*</sup>Equal Contribution &nbsp; <sup>†</sup>Corresponding Author &nbsp; <sup>‡</sup>Project Leader
+</p>
+---
+## Highlights
+**Infinite-World** is a robust interactive world model with:
+- **Real-World Training** — Trained on real-world videos without requiring perfect pose annotations or synthetic data
+- **1000+ Frame Memory** — Maintains coherent visual memory over 1000+ frames via Hierarchical Pose-free Memory Compressor (HPMC)
+- **Robust Action Control** — Uncertainty-aware action labeling ensures accurate action-response learning from noisy trajectories
+<p align="center">
+  <img src="./assets/framework.png" alt="Infinite-World Framework" width="100%">
+</p>
+## Installation
+**Environment:** Python 3.10, CUDA 12.4 recommended.
+### 1. Create conda environment
+```bash
+conda create -n infworld python=3.10
+conda activate infworld
+```
+### 2. Install PyTorch with CUDA 12.4
+Install from the official PyTorch index (no local whl):
+```bash
+pip install torch==2.6.0 torchvision==0.21.0 --index-url https://download.pytorch.org/whl/cu124
+```
+### 3. Install Python dependencies
+```bash
+pip install -r requirements.txt
+```
+---
+## Checkpoint Configuration
+All model paths are configured in **`configs/infworld_config.yaml`**. Paths are relative to the project root unless absolute.
+### Download checkpoints
+Download from [Wan-AI/Wan2.1-T2V-1.3B](https://huggingface.co/Wan-AI/Wan2.1-T2V-1.3B) and place files under `checkpoints/`:
+| File / directory | Config key | Description |
+|------------------|------------|-------------|
+| `models/Wan2.1_VAE.pth` | `vae_cfg.vae_pth` | VAE weights |
+| `models/models_t5_umt5-xxl-enc-bf16.pth` | `text_encoder_cfg.checkpoint_path` | T5 text encoder |
+| `models/google/umt5-xxl` (folder) | `text_encoder_cfg.tokenizer_path` | T5 tokenizer |
+| `infinite_world_model.ckpt` | `checkpoint_path` | DiT model weights |
+- **DiT checkpoint:** Can be downloaded from [TBD]().
+---
+## Upload to Hugging Face (including checkpoints)
+To upload this repo to Hugging Face Hub (code + `checkpoints/`):
+1. **Login**
+   ```bash
+   pip install huggingface_hub
+   huggingface-cli login
+   ```
+   Use a token from [https://huggingface.co/settings/tokens](https://huggingface.co/settings/tokens) (need write permission).
+2. **Upload**
+   From the project root (`infinite-world/`):
+   ```bash
+   python scripts/upload_to_hf.py YOUR_USERNAME/infinite-world
+   ```
+   Or set the repo and run:
+   ```bash
+   export HF_REPO_ID=YOUR_USERNAME/infinite-world
+   python scripts/upload_to_hf.py
+   ```
+   The script uploads the whole directory (including `checkpoints/`) and skips `__pycache__`, `outputs`, `.git`, etc. Large checkpoint files are uploaded via the Hub API; the first run may take a while depending on size and network.
+3. **Create repo manually (optional)**
+   You can create the model repo first at [https://huggingface.co/new](https://huggingface.co/new) (type: **Model**), then run the script with that `repo_id`.
+---
+## Results
+### Quantitative Comparison
+| Model | Mot. Smo.↑ | Dyn. Deg.↑ | Aes. Qual.↑ | Img. Qual.↑ | Avg. Score↑ | Memory↓ | Fidelity↓ | Action↓ | ELO Rating↑ |
+|:------|:----------:|:----------:|:-----------:|:-----------:|:-----------:|:-------:|:---------:|:-------:|:-----------:|
+| Hunyuan-GameCraft | 0.9855 | 0.9896 | 0.5380 | 0.6010 | 0.7785 | 2.67 | 2.49 | 2.56 | 1311 |
+| Matrix-Game 2.0 | 0.9788 | **1.0000** | 0.5267 | **0.7215** | 0.8068 | 2.98 | 2.91 | 1.78 | 1432 |
+| Yume 1.5 | 0.9861 | 0.9896 | **0.5840** | <u>0.6969</u> | **0.8141** | <u>2.43</u> | <u>1.91</u> | 2.47 | 1495 |
+| HY-World-1.5 | **0.9905** | **1.0000** | 0.5280 | 0.6611 | 0.7949 | 2.59 | 2.78 | **1.50** | <u>1542</u> |
+| **Infinite-World** | <u>0.9876</u> | **1.0000** | <u>0.5440</u> | <u>0.7159</u> | <u>0.8119</u> | **1.92** | **1.67** | <u>1.54</u> | **1719** |
+## Citation
+If you find this work useful, please consider citing:
+```bibtex
+@article{wu2026infiniteworld,
+  title={Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory},
+  author={Wu, Ruiqi and He, Xuanhua and Cheng, Meng and Yang, Tianyu and Zhang, Yong and Kang, Zhuoliang and Cai, Xunliang and Wei, Xiaoming and Guo, Chunle and Li, Chongyi and Cheng, Ming-Ming},
+  journal={arXiv preprint arXiv:2602.02393},
+  year={2026}
+}
+```
+## License
+This project is released under the [MIT License](LICENSE).

requirements.txt ADDED Viewed

	@@ -0,0 +1,89 @@

+# Infinite World - Python dependencies (PyPI only)
+# Install PyTorch with CUDA first (see README), then: pip install -r requirements.txt
+flash_attn==2.7.4.post1
+absl-py==2.1.0
+accelerate==1.9.0
+addict==2.4.0
+annotated-types==0.7.0
+antlr4-python3-runtime==4.9.3
+av==12.0.0
+beautifulsoup4==4.12.3
+braceexpand==0.1.7
+certifi==2024.8.30
+charset-normalizer==3.3.2
+contourpy==1.3.0
+crc32c==2.7.1
+cycler==0.12.1
+decorator==4.4.2
+decord==0.6.0
+diffusers==0.24.0
+docopt==0.6.2
+einops==0.8.0
+ffmpeg-python==0.2.0
+filelock==3.16.1
+fonttools==4.54.1
+fsspec==2024.9.0
+ftfy==6.2.0
+future==1.0.0
+huggingface-hub==0.25.1
+idna==3.10
+imageio==2.34.1
+imageio-ffmpeg==0.4.9
+importlib_metadata==8.5.0
+Jinja2==3.1.4
+kiwisolver==1.4.7
+loguru==0.7.2
+Markdown==3.7
+markdown-it-py==3.0.0
+MarkupSafe==2.1.5
+matplotlib==3.9.2
+mdurl==0.1.2
+moviepy==1.0.3
+mpmath==1.3.0
+networkx==3.3
+ninja==1.11.1.1
+numpy==1.26.4
+omegaconf==2.3.0
+opencv-python==4.9.0.80
+packaging==24.1
+pillow==10.4.0
+ply==3.11
+prettytable==3.10.0
+proglog==0.1.10
+protobuf==3.20.1
+psutil==6.0.0
+py-cpuinfo==9.0.0
+pybind11==2.13.6
+pydantic==2.9.2
+pydantic_core==2.23.4
+Pygments==2.18.0
+pynvml==11.5.3
+pyparsing==3.1.4
+python-dateutil==2.9.0.post0
+pytz==2024.2
+PyYAML==6.0.2
+regex==2024.9.11
+requests==2.32.3
+rich==13.8.1
+safetensors==0.4.5
+sentencepiece==0.2.0
+six==1.16.0
+soupsieve==2.6
+sympy==1.13.1
+tensorboard==2.16.2
+tensorboard-data-server==0.7.2
+termcolor==2.4.0
+timm==1.0.9
+tokenizers==0.19.1
+tqdm==4.66.4
+transformers==4.41.0
+# triton: do not pin; it is installed with torch and must match your torch version
+typing_extensions==4.12.2
+urllib3==2.2.3
+wcwidth==0.2.13
+Werkzeug==3.0.4
+yapf==0.32.0
+zipp==3.20.2
+pytest==8.3.5
+pandas==2.2.3

scripts/infworld_inference.py ADDED Viewed

	@@ -0,0 +1,384 @@

+"""
+Infinite World - Action-Conditioned Video Generation Inference Script
+======================================================================
+A standalone inference script for generating long videos with action control.
+"""
+import sys
+import os
+import cv2
+import math
+import torch
+import random
+import json
+import datetime
+import importlib
+import numpy as np
+from PIL import Image
+from omegaconf import OmegaConf
+import torch.distributed as dist
+import torchvision.transforms as transforms
+import re
+# Add project root to path
+PROJECT_ROOT = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
+sys.path.insert(0, PROJECT_ROOT)
+from infworld.utils.prepare_dataloader import get_obj_from_str
+from infworld.utils.data_utils import get_first_clip_from_video, save_silent_video
+from infworld.utils.dataset_utils import is_vid, is_img
+# ============================================================================
+# Action Mapping Dictionaries
+# ============================================================================
+MOVE_ACTION_MAP = {
+    'no-op': 0,
+    'go forward': 1,
+    'go back': 2,
+    'go left': 3,
+    'go right': 4,
+    'go forward and go left': 5,
+    'go forward and go right': 6,
+    'go back and go left': 7,
+    'go back and go right': 8,
+    'uncertain': 9
+}
+VIEW_ACTION_MAP = {
+    'no-op': 0,
+    'turn up': 1,
+    'turn down': 2,
+    'turn left': 3,
+    'turn right': 4,
+    'turn up and turn left': 5,
+    'turn up and turn right': 6,
+    'turn down and turn left': 7,
+    'turn down and turn right': 8,
+    'uncertain': 9
+}
+# ============================================================================
+# Utility Functions
+# ============================================================================
+def extract_ckpt_step(path):
+    """Extract checkpoint step number from path."""
+    match = re.search(r'checkpoint-(\d+)\.ckpt', path)
+    return int(match.group(1)) if match else 0
+def resize_and_center_crop(image, target_size):
+    """Resize image and center crop to target size."""
+    orig_h, orig_w = image.shape[:2]
+    target_h, target_w = target_size
+    scale = max(target_h / orig_h, target_w / orig_w)
+    final_h = math.ceil(scale * orig_h)
+    final_w = math.ceil(scale * orig_w)
+    resized = cv2.resize(image, (final_w, final_h), interpolation=cv2.INTER_AREA)
+    tensor = torch.from_numpy(resized)[None, ...].permute(0, 3, 1, 2).contiguous()
+    cropped = transforms.functional.center_crop(tensor, target_size)
+    return cropped[:, :, None, :, :]  # [1, C, 1, H, W]
+def setup_seed(seed):
+    """Set random seeds for reproducibility."""
+    torch.manual_seed(seed)
+    torch.cuda.manual_seed_all(seed)
+    np.random.seed(seed)
+    random.seed(seed)
+    torch.backends.cudnn.deterministic = True
+def torch_gc():
+    """Clear GPU memory cache."""
+    torch.cuda.empty_cache()
+    torch.cuda.ipc_collect()
+def load_action_sequence(action_path):
+    """Load action sequence from JSON file."""
+    with open(action_path, 'r') as f:
+        actions = json.load(f)
+    move_indices = [MOVE_ACTION_MAP[a['move']] for a in actions]
+    view_indices = [VIEW_ACTION_MAP[a['view']] for a in actions]
+    return move_indices, view_indices
+def load_condition_image(image_path, bucket_config):
+    """Load and preprocess condition image."""
+    if is_vid(image_path):
+        frames = get_first_clip_from_video(image_path, clip_len=1)
+    elif is_img(image_path):
+        image = cv2.imread(image_path)
+        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
+        frames = [image]
+    else:
+        raise ValueError(f'Unsupported file format: {image_path}')
+    processed_frames = []
+    for frame in frames:
+        ratio = frame.shape[0] / frame.shape[1]
+        closest_bucket = sorted(bucket_config.keys(), key=lambda x: abs(float(x) - ratio))[0]
+        target_h, target_w = bucket_config[closest_bucket][0]
+        tensor = resize_and_center_crop(frame, (target_h, target_w))
+        tensor = (tensor / 255 - 0.5) * 2  # Normalize to [-1, 1]
+        processed_frames.append(tensor)
+    return torch.cat(processed_frames, dim=2)
+# ============================================================================
+# Distributed Setup (support single-GPU without torchrun to avoid port conflict)
+# ============================================================================
+def setup_distributed():
+    """Setup distributed or single-GPU mode."""
+    if 'RANK' in os.environ:
+        # Launched by torchrun or similar
+        rank = int(os.environ['RANK'])
+        world_size = int(os.environ.get('WORLD_SIZE', 1))
+        local_rank = int(os.environ.get('LOCAL_RANK', rank % torch.cuda.device_count()))
+        torch.cuda.set_device(local_rank)
+        dist.init_process_group(backend="nccl", timeout=datetime.timedelta(seconds=3600*24))
+        global_rank = dist.get_rank()
+        num_processes = dist.get_world_size()
+        return local_rank, global_rank, num_processes, True  # use_cp_init=True
+    else:
+        # Single process (no torchrun) - avoid port conflict, no dist init
+        local_rank = 0
+        global_rank = 0
+        num_processes = 1
+        torch.cuda.set_device(local_rank)
+        return local_rank, global_rank, num_processes, False  # use_cp_init=False
+local_rank, global_rank, num_processes, use_dist = setup_distributed()
+print(f"[InfWorld] local_rank: {local_rank} | global_rank: {global_rank} | world_size: {num_processes}")
+# Context parallel setup
+context_parallel_size = 1
+import infworld.context_parallel.context_parallel_util as cp_util
+if use_dist:
+    from infworld.context_parallel.context_parallel_util import init_context_parallel, get_dp_size, get_dp_rank
+    init_context_parallel(context_parallel_size=context_parallel_size, global_rank=global_rank, world_size=num_processes)
+    dp_rank = get_dp_rank()
+    dp_size = get_dp_size()
+else:
+    # Single process: set globals so get_dp_rank/get_dp_size work without dist
+    cp_util.dp_rank = 0
+    cp_util.dp_size = 1
+    cp_util.cp_rank = 0
+    cp_util.cp_size = 1
+    dp_rank = 0
+    dp_size = 1
+enable_context_parallel = (context_parallel_size > 1)
+# ============================================================================
+# Configuration
+# ============================================================================
+# Inference settings
+GLOBAL_SEED = 42
+setup_seed(GLOBAL_SEED + global_rank)
+TEXT_CFG_SCALE = 5.0
+NUM_SAMPLING_STEPS = 30
+SHIFT = 7  # PX256: 3, PX627: 7, PX960: 11
+NUM_CHUNKS = 13  # Number of video chunks to generate
+HIGH_QUALITY_SAVE = True
+# Paths - checkpoint_path is read from config (configs/infworld_config.yaml)
+# Model config - use standalone config
+CONFIG_PATH = os.path.join(PROJECT_ROOT, 'configs', 'infworld_config.yaml')
+PROMPTS_YAML = os.path.join(PROJECT_ROOT, 'prompts', 'demo.yaml')
+BUCKET_CONFIG_NAME = 'ASPECT_RATIO_627_F64'
+# Output directory
+OUTPUT_BASE = os.path.join(PROJECT_ROOT, 'outputs')
+# Negative prompt for generation quality
+NEGATIVE_PROMPT = "many cars, crowds, Vivid hues, overexposed, static, blurry details, subtitles, style, work, artwork, image, still, overall grayish, worst quality, low quality, JPEG compression artifacts, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn face, deformed, disfigured, deformed limbs, fused fingers, motionless image, cluttered background, three legs, crowded background, walking backwards."
+# ============================================================================
+# Main Inference Loop
+# ============================================================================
+def resolve_path(path, root=PROJECT_ROOT):
+    """Resolve path: if relative, join with project root."""
+    if path is None:
+        return path
+    path = str(path).strip()
+    if not os.path.isabs(path):
+        path = os.path.join(root, path)
+    return path
+def load_dit_state_dict(checkpoint_path):
+    """Load DiT state dict from .ckpt (torch) or .safetensors."""
+    checkpoint_path = resolve_path(checkpoint_path)
+    if checkpoint_path.endswith(".safetensors"):
+        from safetensors.torch import load_file
+        state_dict = load_file(checkpoint_path)
+    else:
+        state_dict = torch.load(checkpoint_path, map_location="cpu")
+    if "state_dict" in state_dict:
+        state_dict = state_dict["state_dict"]
+    return state_dict
+def main():
+    torch_gc()
+    config_path = CONFIG_PATH
+    args = OmegaConf.load(config_path)
+    checkpoint_path = resolve_path(args.get("checkpoint_path", "checkpoints/models/diffusion_pytorch_model.safetensors"))
+    ckpt_step = extract_ckpt_step(checkpoint_path)
+    # Create output directory
+    output_dir = os.path.join(OUTPUT_BASE, f"infworld-ckpt{ckpt_step}-step{NUM_SAMPLING_STEPS}-cfg{TEXT_CFG_SCALE}")
+    os.makedirs(output_dir, exist_ok=True)
+    print(f"[InfWorld] Loading checkpoint: {checkpoint_path}")
+    print(f"[InfWorld] Config: {config_path}")
+    print(f"[InfWorld] Output directory: {output_dir}")
+    # Resolve relative paths in config for models that load from disk
+    if hasattr(args, "vae_cfg") and "vae_pth" in args.vae_cfg:
+        args.vae_cfg.vae_pth = resolve_path(args.vae_cfg.vae_pth)
+    if hasattr(args, "text_encoder_cfg"):
+        if "checkpoint_path" in args.text_encoder_cfg:
+            args.text_encoder_cfg.checkpoint_path = resolve_path(args.text_encoder_cfg.checkpoint_path)
+        if "tokenizer_path" in args.text_encoder_cfg:
+            args.text_encoder_cfg.tokenizer_path = resolve_path(args.text_encoder_cfg.tokenizer_path)
+    # Initialize models
+    print("[InfWorld] Loading VAE...")
+    vae = get_obj_from_str(args.vae_target)(**args.vae_cfg).to(local_rank)
+    print("[InfWorld] Loading Text Encoder...")
+    text_encoder = get_obj_from_str(args.text_encoder_target)(device=local_rank, **args.text_encoder_cfg)
+    text_encoder.t5.model.to(local_rank)
+    print("[InfWorld] Loading Scheduler...")
+    scheduler = get_obj_from_str(args.scheduler_target)(**args.val_scheduler_cfg)
+    scheduler.num_sampling_steps = NUM_SAMPLING_STEPS
+    scheduler.shift = SHIFT
+    print("[InfWorld] Loading DiT Model...")
+    dtype = getattr(torch, args.amp_dtype)
+    dit = get_obj_from_str(args.model_target)(
+        out_channels=vae.out_channels,
+        caption_channels=text_encoder.output_dim,
+        model_max_length=text_encoder.model_max_length,
+        enable_context_parallel=enable_context_parallel,
+        **args.model_cfg
+    ).to(dtype)
+    dit.eval()
+    # Load DiT checkpoint (from config)
+    state_dict = load_dit_state_dict(args.checkpoint_path)
+    # Remove position embeddings (will be recomputed)
+    state_dict.pop("pos_embed_temporal", None)
+    state_dict.pop("pos_embed", None)
+    missing, unexpected = dit.load_state_dict(state_dict, strict=False)
+    print(f"[InfWorld] Model loaded! Missing: {len(missing)}, Unexpected: {len(unexpected)}")
+    dit.to(local_rank)
+    # Load bucket config
+    from infworld.configs import bucket_config as bucket_config_module
+    bucket_config = getattr(bucket_config_module, BUCKET_CONFIG_NAME)
+    # Load prompts
+    prompts_path = os.path.abspath(PROMPTS_YAML)
+    target_prompts = OmegaConf.load(prompts_path).prompts
+    print(f"[InfWorld] Loaded {len(target_prompts)} prompts")
+    # Process each prompt
+    for task_idx, (prompt, image_path, action_path) in enumerate(target_prompts):
+        if task_idx % dp_size != dp_rank:
+            continue
+        if not os.path.exists(image_path):
+            print(f"[InfWorld] Skipping task {task_idx}: Image not found - {image_path}")
+            continue
+        if not os.path.exists(action_path):
+            print(f"[InfWorld] Skipping task {task_idx}: Action not found - {action_path}")
+            continue
+        print(f"[InfWorld] Task {task_idx}: {prompt[:50]}...")
+        # Load condition image
+        cond_video = load_condition_image(image_path, bucket_config).to(local_rank)
+        with torch.no_grad():
+            cond_latent = vae.encode(cond_video)
+        # Load action sequence
+        move_indices, view_indices = load_action_sequence(action_path)
+        # Initialize video buffer
+        video_buffer = cond_video.clone().cpu()
+        # Latent size for generation
+        latent_size = list(cond_latent.shape)
+        latent_size[2] = 21  # Output frames per chunk
+        latent_size = torch.Size(latent_size)
+        # Generate video chunks
+        for chunk_idx in range(NUM_CHUNKS):
+            print(f"[InfWorld] Generating chunk {chunk_idx + 1}/{NUM_CHUNKS}")
+            with torch.no_grad():
+                current_cond = video_buffer.to(local_rank)
+                current_latent = vae.encode(current_cond)
+            # Get action slice for current chunk
+            curr_start = video_buffer.shape[2] - 1
+            curr_end = curr_start + args.validation_data.num_frames
+            move = torch.tensor(move_indices[curr_start:curr_end], dtype=torch.long, device=local_rank)
+            view = torch.tensor(view_indices[curr_start:curr_end], dtype=torch.long, device=local_rank)
+            # Pad if needed
+            num_frames = args.validation_data.num_frames
+            if move.shape[0] < num_frames:
+                pad_len = num_frames - move.shape[0]
+                move = torch.cat([move, torch.zeros(pad_len, dtype=torch.long, device=local_rank)])
+                view = torch.cat([view, torch.zeros(pad_len, dtype=torch.long, device=local_rank)])
+            additional_args = {
+                "image_cond": current_latent,
+                "move": move.unsqueeze(0),
+                "view": view.unsqueeze(0),
+            }
+            torch_gc()
+            with torch.no_grad():
+                samples = scheduler.sample(
+                    model=dit,
+                    text_encoder=text_encoder,
+                    null_embedder=dit.y_embedder,
+                    z_size=latent_size,
+                    prompts=[prompt],
+                    guidance_scale=TEXT_CFG_SCALE,
+                    negative_prompts=[NEGATIVE_PROMPT],
+                    device=torch.device(local_rank),
+                    additional_args=additional_args,
+                )
+                decoded_chunk = vae.decode(samples).cpu()
+                video_buffer = torch.cat([video_buffer, decoded_chunk[:, :, 1:]], dim=2)
+                print(f"[InfWorld] Chunk {chunk_idx + 1} done. Total frames: {video_buffer.shape[2]}")
+                torch_gc()
+        # Save final video
+        video_name = f"{task_idx:04d}_{prompt[:30].replace(' ', '_')}"
+        save_path = os.path.join(output_dir, video_name)
+        quality = 10 if HIGH_QUALITY_SAVE else 5
+        save_silent_video(video_buffer.to(local_rank), save_path, fps=30, quality=quality)
+        print(f"[InfWorld] Saved: {save_path}.mp4")
+if __name__ == "__main__":
+    main()

scripts/upload_to_hf.py ADDED Viewed

	@@ -0,0 +1,86 @@

+#!/usr/bin/env python3
+"""
+Upload Infinite-World repo to Hugging Face Hub (including checkpoints).
+Prerequisites:
+  1. pip install huggingface_hub
+  2. huggingface-cli login   # or: from huggingface_hub import login; login()
+Usage:
+  cd infinite-world
+  python scripts/upload_to_hf.py [REPO_ID]
+  Examples:
+  python scripts/upload_to_hf.py
+  python scripts/upload_to_hf.py your-username/infinite-world
+"""
+import os
+import sys
+# Project root = parent of scripts/
+PROJECT_ROOT = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
+def main():
+    try:
+        from huggingface_hub import HfApi, create_repo, whoami
+    except ImportError:
+        print("Install: pip install huggingface_hub")
+        sys.exit(1)
+    repo_id = (
+        (sys.argv[1] if len(sys.argv) > 1 else None)
+        or os.environ.get("HF_REPO_ID")
+        or "MeiGen-AI/Infinite-World"
+    )
+    # Check login first (avoid 401 later)
+    try:
+        info = whoami()
+        print(f"[HF] Logged in as: {info.get('name', info.get('type', '?'))}")
+    except Exception as e:
+        print("[HF] Not logged in or token invalid (401).")
+        print("  Run: huggingface-cli login")
+        print("  Get a token with WRITE at: https://huggingface.co/settings/tokens")
+        print("  For org repo MeiGen-AI/Infinite-World, your account must have write access to the MeiGen-AI org.")
+        sys.exit(1)
+    api = HfApi()
+    repo_type = "model"
+    # Create repo if it doesn't exist (skip if 401; repo may already exist)
+    try:
+        create_repo(repo_id, repo_type=repo_type, exist_ok=True)
+        print(f"[HF] Repo ready: https://huggingface.co/{repo_id}")
+    except Exception as e:
+        err = str(e).lower()
+        if "401" in err or "unauthorized" in err:
+            print("[HF] No write permission for this repo. Fix: use a token with write access; for MeiGen-AI/Infinite-World, be a member of MeiGen-AI org or use the org token.")
+            sys.exit(1)
+        print(f"[HF] Create repo: {e}")
+        # Continue; repo might already exist
+    # Exclude cache/outputs, keep checkpoints and code
+    ignore_patterns = [
+        "__pycache__",
+        "*.pyc",
+        ".git",
+        "outputs",
+        ".cursor",
+        "*.egg-info",
+        ".eggs",
+    ]
+    print(f"[HF] Uploading from {PROJECT_ROOT} to {repo_id} ...")
+    api.upload_folder(
+        folder_path=PROJECT_ROOT,
+        repo_id=repo_id,
+        repo_type=repo_type,
+        ignore_patterns=ignore_patterns,
+    )
+    print(f"[HF] Done: https://huggingface.co/{repo_id}")
+if __name__ == "__main__":
+    main()

setup_project.py ADDED Viewed

	@@ -0,0 +1,140 @@

+"""
+Setup script to copy and adapt source files from hg-research-hub to infinite-world.
+This creates a standalone project without external dependencies.
+"""
+import os
+import re
+import shutil
+# Source and target directories
+SRC_BASE = '/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/wuruiqi/hg-research-hub/source'
+DST_BASE = '/mnt/dolphinfs/ssd_pool/docker/user/hadoop-videogen-hl/hadoop-camera3d/wuruiqi/infinite-world/infworld'
+# Files to copy and their destination subdirectories
+FILES_TO_COPY = {
+    # Models
+    'meigen/model_wanx_multi_action_v2v_convenc_locmem_slidewindow_temp_sample_mask_attn_real_checkpointing.py': 'models/dit_model.py',
+    'meigen/rectified_flow_wanx_t2v_action.py': 'models/scheduler.py',
+    'meigen/checkpoint.py': 'models/checkpoint.py',
+    'meigen/umt5.py': 'models/umt5.py',
+    'meigen/t5.py': 'models/t5.py',
+    # VAE
+    'vae/__init__.py': 'vae/__init__.py',
+    'vae/wan/vae.py': 'vae/vae.py',
+    # CLIP
+    'clip/clip.py': 'clip/clip.py',
+    'clip/tokenizers.py': 'clip/tokenizers.py',
+    'clip/xlm_roberta.py': 'clip/xlm_roberta.py',
+    # Context Parallel
+    'context_parallel/context_parallel_util.py': 'context_parallel/context_parallel_util.py',
+    # Utils
+    'dataset/utils.py': 'utils/data_utils.py',
+    'dataset/prepare_dataloader.py': 'utils/prepare_dataloader.py',
+    # OpenSora (for registry and dataset utils)
+    'opensora/utils/dataset_utils.py': 'utils/dataset_utils.py',
+    'opensora/registry.py': 'utils/registry.py',
+}
+# Import replacements (old pattern -> new pattern)
+IMPORT_REPLACEMENTS = [
+    # Models
+    (r'from source\.meigen\.checkpoint', 'from infworld.models.checkpoint'),
+    (r'from source\.meigen\.model_wanx_multi_action', 'from infworld.models.dit_model'),
+    (r'from source\.meigen\.rectified_flow_wanx_t2v_action', 'from infworld.models.scheduler'),
+    (r'from source\.meigen\.umt5', 'from infworld.models.umt5'),
+    (r'from source\.meigen\.t5', 'from infworld.models.t5'),
+    (r'from source\.meigen', 'from infworld.models'),
+    # Context Parallel
+    (r'from source\.context_parallel\.context_parallel_util', 'from infworld.context_parallel.context_parallel_util'),
+    (r'from source\.context_parallel import context_parallel_util', 'from infworld.context_parallel import context_parallel_util'),
+    # VAE
+    (r'from source\.vae\.wan\.vae', 'from infworld.vae.vae'),
+    (r'from source\.vae\.cogvideo\.autoencoder_kl_cogvideox', 'from infworld.vae.vae'),
+    (r'from source\.vae', 'from infworld.vae'),
+    (r'from source\.opensora\.registry import MODELS', '# Registry disabled for standalone'),
+    # CLIP
+    (r'from source\.clip\.clip', 'from infworld.clip.clip'),
+    (r'from source\.clip\.tokenizers', 'from infworld.clip.tokenizers'),
+    (r'from source\.clip\.xlm_roberta', 'from infworld.clip.xlm_roberta'),
+    (r'from source\.clip', 'from infworld.clip'),
+    # Dataset utils
+    (r'from source\.dataset\.utils', 'from infworld.utils.data_utils'),
+    (r'from source\.dataset\.prepare_dataloader', 'from infworld.utils.prepare_dataloader'),
+    (r'from source\.opensora\.utils\.dataset_utils', 'from infworld.utils.dataset_utils'),
+    (r'from source\.opensora\.registry', 'from infworld.utils.registry'),
+]
+def ensure_dir(path):
+    """Create directory if it doesn't exist."""
+    os.makedirs(os.path.dirname(path), exist_ok=True)
+def copy_and_transform(src_path, dst_path):
+    """Copy file and transform imports."""
+    print(f"Copying: {src_path} -> {dst_path}")
+    ensure_dir(dst_path)
+    with open(src_path, 'r', encoding='utf-8') as f:
+        content = f.read()
+    # Apply import replacements
+    for old_pattern, new_pattern in IMPORT_REPLACEMENTS:
+        content = re.sub(old_pattern, new_pattern, content)
+    with open(dst_path, 'w', encoding='utf-8') as f:
+        f.write(content)
+def create_init_files():
+    """Create __init__.py files for all packages."""
+    packages = ['infworld', 'infworld/models', 'infworld/vae', 'infworld/clip',
+                'infworld/context_parallel', 'infworld/utils', 'infworld/configs']
+    for pkg in packages:
+        init_path = os.path.join(DST_BASE, '..', pkg, '__init__.py')
+        init_path = os.path.normpath(init_path)
+        ensure_dir(init_path)
+        if not os.path.exists(init_path):
+            with open(init_path, 'w') as f:
+                f.write(f'# {pkg} package\n')
+            print(f"Created: {init_path}")
+def main():
+    print("=" * 60)
+    print("Setting up Infinite World standalone project")
+    print("=" * 60)
+    # Create package directories
+    create_init_files()
+    # Copy and transform files
+    for src_rel, dst_rel in FILES_TO_COPY.items():
+        src_path = os.path.join(SRC_BASE, src_rel)
+        dst_path = os.path.join(DST_BASE, dst_rel)
+        if os.path.exists(src_path):
+            copy_and_transform(src_path, dst_path)
+        else:
+            print(f"WARNING: Source file not found: {src_path}")
+    print("\n" + "=" * 60)
+    print("Setup complete!")
+    print("=" * 60)
+if __name__ == '__main__':
+    main()