FastVideo
/

Wan2.1-VSA-T2V-14B-720P-Diffusers

Model card Files Files and versions

PY007 commited on Jul 30, 2025

Commit

04af245

·

verified ·

1 Parent(s): b94c1f9

Update README.md

Files changed (1) hide show

README.md +31 -0

README.md CHANGED Viewed

@@ -26,6 +26,37 @@ license: apache-2.0
   - [1 Node/GPU debugging finetuning script](https://github.com/hao-ai-lab/FastVideo/blob/main/scripts/finetune/finetune_v1_VSA.sh)
   - [Slurm training example script](https://github.com/hao-ai-lab/FastVideo/blob/main/examples/training/finetune/Wan2.1-VSA/Wan-Syn-Data/T2V-14B-VSA.slurm)
   - [Inference script](https://github.com/hao-ai-lab/FastVideo/blob/main/scripts/inference/v1_inference_wan_VSA.sh)
 - Try it out on **FastVideo** — we support a wide range of GPUs from **H100** to **4090**
 - We use [FastVideo 720P Synthetic Wan dataset](https://huggingface.co/datasets/FastVideo/Wan-Syn_77x768x1280_250k) for training.

   - [1 Node/GPU debugging finetuning script](https://github.com/hao-ai-lab/FastVideo/blob/main/scripts/finetune/finetune_v1_VSA.sh)
   - [Slurm training example script](https://github.com/hao-ai-lab/FastVideo/blob/main/examples/training/finetune/Wan2.1-VSA/Wan-Syn-Data/T2V-14B-VSA.slurm)
   - [Inference script](https://github.com/hao-ai-lab/FastVideo/blob/main/scripts/inference/v1_inference_wan_VSA.sh)
+```python
+git clone https://github.com/hao-ai-lab/FastVideo
+pip install -e .
+cd csrc/attn
+git submodule update --init --recursive
+python setup_vsa.py install
+num_gpus=1
+export FASTVIDEO_ATTENTION_BACKEND=VIDEO_SPARSE_ATTN
+# change model path to local dir if you want to inference using your checkpoint
+export MODEL_BASE=Wan-AI/Wan2.1-T2V-1.3B-Diffusers
+# export MODEL_BASE=hunyuanvideo-community/HunyuanVideo
+fastvideo generate \
+    --model-path $MODEL_BASE \
+    --sp-size $num_gpus \
+    --tp-size 1 \
+    --num-gpus $num_gpus \
+    --height 448 \
+    --width 832 \
+    --num-frames 77 \
+    --num-inference-steps 50 \
+    --fps 16 \
+    --guidance-scale 6.0 \
+    --flow-shift 8.0 \
+    --VSA-sparsity 0.9 \
+    --prompt "A beautiful woman in a red dress walking down a street" \
+    --negative-prompt "Bright tones, overexposed, static, blurred details, subtitles, style, works, paintings, images, static, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn faces, deformed, disfigured, misshapen limbs, fused fingers, still picture, messy background, three legs, many people in the background, walking backwards" \
+    --seed 1024 \
+    --output-path outputs_video_1.3B_VSA/sparsity_0.9/
+```
 - Try it out on **FastVideo** — we support a wide range of GPUs from **H100** to **4090**
 - We use [FastVideo 720P Synthetic Wan dataset](https://huggingface.co/datasets/FastVideo/Wan-Syn_77x768x1280_250k) for training.