Upload sfp4 sparse09 ours-p checkpoint-750 transformer

Files changed (3) hide show

README.md ADDED Viewed

+# sfp4_v4_sparse09_hpo_on_ours_p_init2050 checkpoint-750
+This upload contains the consolidated WanTransformer3DModel transformer weights
+from:
+`checkpoints/sfp4_v4_sparse09_hpo_on_ours_p_init2050_1n_interactive/checkpoint-750`
+Contents:
+- `transformer/config.json`
+- `transformer/diffusion_pytorch_model.safetensors`
+Training run:
+- run name: `sfp4_v4_sparse09_hpo_on_ours_p_init2050_1n_interactive`
+- source init: `sfp4_v4_sparse06_hpo_on_ours_p_1n_interactive_v2 checkpoint-2050`
+- attention backend: `SPARSE_FP4_OURS_P_ATTN`
+- high precision output for backward: enabled
+- VSA sparsity: `0.9`
+This package does not include the distributed optimizer/training-state
+checkpoint. Use the original `distributed_checkpoint/` directory if exact
+training resume state is required.

transformer/config.json ADDED Viewed

+{
+    "_class_name": "WanTransformer3DModel",
+    "added_kv_proj_dim": null,
+    "attention_head_dim": 128,
+    "cross_attn_norm": true,
+    "eps": 1e-06,
+    "ffn_dim": 8960,
+    "freq_dim": 256,
+    "image_dim": null,
+    "in_channels": 16,
+    "num_attention_heads": 12,
+    "num_layers": 30,
+    "out_channels": 16,
+    "patch_size": [
+        1,
+        2,
+        2
+    ],
+    "qk_norm": "rms_norm_across_heads",
+    "rope_max_seq_len": 1024,
+    "text_dim": 4096
+}

transformer/diffusion_pytorch_model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:18b2922bb6e0480753e63da2488b6dd1f68cd23e6e2257e4007295d3a2ea5e0a
+size 5676070784