hf-internal-testing
/

tiny-random-hunyuanvideo

HunyuanVideoPipeline

Model card Files Files and versions

a-r-r-o-w commited on Dec 19, 2024

Commit

f7f5744

·

verified ·

1 Parent(s): c24448a

Update README.md

Files changed (1) hide show

README.md +101 -0

README.md CHANGED Viewed

@@ -6,6 +6,107 @@ library_name: diffusers
 <!-- Provide a quick summary of what the model is/does. -->
 ## Model Details

 <!-- Provide a quick summary of what the model is/does. -->
+Script for creating dummy random model:
+```python
+import torch
+from diffusers import HunyuanVideoTransformer3DModel, AutoencoderKLHunyuanVideo, FlowMatchEulerDiscreteScheduler, HunyuanVideoPipeline
+from transformers import LlamaModel, LlamaTokenizerFast, CLIPTextModel, CLIPTokenizer, LlamaConfig, CLIPTextConfig
+torch.manual_seed(0)
+transformer = HunyuanVideoTransformer3DModel(
+    in_channels=4,
+    out_channels=4,
+    num_attention_heads=2,
+    attention_head_dim=10,
+    num_layers=1,
+    num_single_layers=1,
+    num_refiner_layers=1,
+    patch_size=1,
+    patch_size_t=1,
+    guidance_embeds=True,
+    text_embed_dim=16,
+    pooled_projection_dim=8,
+    rope_axes_dim=(2, 4, 4),
+)
+torch.manual_seed(0)
+vae = AutoencoderKLHunyuanVideo(
+    in_channels=3,
+    out_channels=3,
+    latent_channels=4,
+    down_block_types=(
+        "HunyuanVideoDownBlock3D",
+        "HunyuanVideoDownBlock3D",
+        "HunyuanVideoDownBlock3D",
+        "HunyuanVideoDownBlock3D",
+    ),
+    up_block_types=(
+        "HunyuanVideoUpBlock3D",
+        "HunyuanVideoUpBlock3D",
+        "HunyuanVideoUpBlock3D",
+        "HunyuanVideoUpBlock3D",
+    ),
+    block_out_channels=(8, 8, 8, 8),
+    layers_per_block=1,
+    act_fn="silu",
+    norm_num_groups=4,
+    scaling_factor=0.476986,
+    spatial_compression_ratio=8,
+    temporal_compression_ratio=4,
+    mid_block_add_attention=True,
+)
+torch.manual_seed(0)
+scheduler = FlowMatchEulerDiscreteScheduler(shift=7.0)
+llama_text_encoder_config = LlamaConfig(
+    bos_token_id=0,
+    eos_token_id=2,
+    hidden_size=16,
+    intermediate_size=37,
+    layer_norm_eps=1e-05,
+    num_attention_heads=4,
+    num_hidden_layers=2,
+    pad_token_id=1,
+    vocab_size=1000,
+    hidden_act="gelu",
+    projection_dim=32,
+)
+clip_text_encoder_config = CLIPTextConfig(
+    bos_token_id=0,
+    eos_token_id=2,
+    hidden_size=8,
+    intermediate_size=37,
+    layer_norm_eps=1e-05,
+    num_attention_heads=4,
+    num_hidden_layers=2,
+    pad_token_id=1,
+    vocab_size=1000,
+    hidden_act="gelu",
+    projection_dim=32,
+)
+text_encoder = LlamaModel(llama_text_encoder_config)
+tokenizer = LlamaTokenizerFast.from_pretrained("hf-internal-testing/tiny-random-LlamaForCausalLM")
+torch.manual_seed(0)
+text_encoder_2 = CLIPTextModel(clip_text_encoder_config)
+tokenizer_2 = CLIPTokenizer.from_pretrained("hf-internal-testing/tiny-random-clip")
+pipe = HunyuanVideoPipeline(
+    transformer=transformer,
+    text_encoder=text_encoder,
+    tokenizer=tokenizer,
+    text_encoder_2=text_encoder_2,
+    tokenizer_2=tokenizer_2,
+    vae=vae,
+    scheduler=scheduler,
+)
+pipe.push_to_hub("hf-internal-testing/tiny-random-hunyuanvideo")
+```
 ## Model Details