tencent
/

HunyuanVideo-1.5

HunyuanVideo-1.5

Model card Files Files and versions

KevinNg99 commited on Nov 23, 2025

Commit

3a7bd2c

·

1 Parent(s): f75dc22

update README

Files changed (2) hide show

README.md +3 -3
README_CN.md +3 -3

README.md CHANGED Viewed

@@ -228,11 +228,11 @@ OUTPUT_PATH=./outputs/output.mp4
 # Configuration
 N_INFERENCE_GPU=8 # Parallel inference GPU count
 CFG_DISTILLED=true # Inference with CFG distilled model, 2x speedup
-SPARSE_ATTN=false # Inference with sparse attention
 SAGE_ATTN=false # Inference with SageAttention
-MODEL_PATH=ckpts # Path to pretrained model
-REWRITE=true # Enable prompt rewriting
 OVERLAP_GROUP_OFFLOADING=true # Only valid when group offloading is enabled, significantly increases CPU memory usage but speeds up inference
 torchrun --nproc_per_node=$N_INFERENCE_GPU generate.py \
   --prompt "$PROMPT" \

 # Configuration
 N_INFERENCE_GPU=8 # Parallel inference GPU count
 CFG_DISTILLED=true # Inference with CFG distilled model, 2x speedup
+SPARSE_ATTN=false # Inference with sparse attention (only 720p models are equipped with sparse attention). Please ensure flex-block-attn is installed
 SAGE_ATTN=false # Inference with SageAttention
+REWRITE=true # Enable prompt rewriting. Please ensure rewrite vLLM server is deployed and configured.
 OVERLAP_GROUP_OFFLOADING=true # Only valid when group offloading is enabled, significantly increases CPU memory usage but speeds up inference
+MODEL_PATH=ckpts # Path to pretrained model
 torchrun --nproc_per_node=$N_INFERENCE_GPU generate.py \
   --prompt "$PROMPT" \

README_CN.md CHANGED Viewed

@@ -215,11 +215,11 @@ OUTPUT_PATH=./outputs/output.mp4
 # 配置
 N_INFERENCE_GPU=8 # 并行推理 GPU 数量
 CFG_DISTILLED=true # 使用 CFG 蒸馏模型进行推理，2倍加速
-SPARSE_ATTN=false # 使用稀疏注意力进行推理
 SAGE_ATTN=false # 使用 SageAttention 进行推理
-MODEL_PATH=ckpts # 预训练模型路径
-REWRITE=true # 启用提示词重写
 OVERLAP_GROUP_OFFLOADING=true # 仅在组卸载启用时有效，会显著增加 CPU 内存占用，但能够提速
 torchrun --nproc_per_node=$N_INFERENCE_GPU generate.py \
   --prompt "$PROMPT" \

 # 配置
 N_INFERENCE_GPU=8 # 并行推理 GPU 数量
 CFG_DISTILLED=true # 使用 CFG 蒸馏模型进行推理，2倍加速
+SPARSE_ATTN=false # 使用稀疏注意力进行推理（仅 720p 模型配备了稀疏注意力）。请确保 flex-block-attn 已安装
 SAGE_ATTN=false # 使用 SageAttention 进行推理
+REWRITE=true # 启用提示词重写。请确保 rewrite vLLM server 已部署和配置。
 OVERLAP_GROUP_OFFLOADING=true # 仅在组卸载启用时有效，会显著增加 CPU 内存占用，但能够提速
+MODEL_PATH=ckpts # 预训练模型路径
 torchrun --nproc_per_node=$N_INFERENCE_GPU generate.py \
   --prompt "$PROMPT" \