Upload batch 1/7 (10 files)

Files changed (10) hide show

audio_vae/config.json ADDED Viewed

+{
+  "_class_name": "AutoencoderKLLTX2Audio",
+  "_diffusers_version": "0.37.0.dev0",
+  "attn_resolutions": null,
+  "base_channels": 128,
+  "causality_axis": "height",
+  "ch_mult": [
+    1,
+    2,
+    4
+  ],
+  "double_z": true,
+  "dropout": 0.0,
+  "in_channels": 2,
+  "is_causal": true,
+  "latent_channels": 8,
+  "mel_bins": 64,
+  "mel_hop_length": 160,
+  "mid_block_add_attention": false,
+  "norm_type": "pixel",
+  "num_res_blocks": 2,
+  "output_channels": 2,
+  "resolution": 256,
+  "sample_rate": 16000
+}

connectors/config.json ADDED Viewed

+{
+  "_class_name": "LTX2TextConnectors",
+  "_diffusers_version": "0.37.0.dev0",
+  "audio_connector_attention_head_dim": 128,
+  "audio_connector_num_attention_heads": 30,
+  "audio_connector_num_layers": 2,
+  "audio_connector_num_learnable_registers": 128,
+  "caption_channels": 3840,
+  "causal_temporal_positioning": false,
+  "connector_rope_base_seq_len": 4096,
+  "rope_double_precision": true,
+  "rope_theta": 10000.0,
+  "rope_type": "split",
+  "text_proj_in_factor": 49,
+  "video_connector_attention_head_dim": 128,
+  "video_connector_num_attention_heads": 30,
+  "video_connector_num_layers": 2,
+  "video_connector_num_learnable_registers": 128
+}

latent_upsampler/config.json ADDED Viewed

+{
+  "_class_name": "LTX2LatentUpsamplerModel",
+  "_diffusers_version": "0.37.0.dev0",
+  "dims": 3,
+  "in_channels": 128,
+  "mid_channels": 1024,
+  "num_blocks_per_stage": 4,
+  "rational_spatial_scale": 2.0,
+  "spatial_upsample": true,
+  "temporal_upsample": false
+}

model_index.json ADDED Viewed

+{
+  "_class_name": "LTX2Pipeline",
+  "_diffusers_version": "0.37.0.dev0",
+  "audio_vae": [
+    "diffusers",
+    "AutoencoderKLLTX2Audio"
+  ],
+  "connectors": [
+    "ltx2",
+    "LTX2TextConnectors"
+  ],
+  "scheduler": [
+    "diffusers",
+    "FlowMatchEulerDiscreteScheduler"
+  ],
+  "text_encoder": [
+    "transformers",
+    "Gemma3ForConditionalGeneration"
+  ],
+  "tokenizer": [
+    "transformers",
+    "GemmaTokenizerFast"
+  ],
+  "transformer": [
+    "diffusers",
+    "LTX2VideoTransformer3DModel"
+  ],
+  "vae": [
+    "diffusers",
+    "AutoencoderKLLTX2Video"
+  ],
+  "vocoder": [
+    "ltx2",
+    "LTX2Vocoder"
+  ]
+}

scheduler/scheduler_config.json ADDED Viewed

+{
+  "_class_name": "FlowMatchEulerDiscreteScheduler",
+  "_diffusers_version": "0.37.0.dev0",
+  "base_image_seq_len": 1024,
+  "base_shift": 0.95,
+  "invert_sigmas": false,
+  "max_image_seq_len": 4096,
+  "max_shift": 2.05,
+  "num_train_timesteps": 1000,
+  "shift": 1.0,
+  "shift_terminal": 0.1,
+  "stochastic_sampling": false,
+  "time_shift_type": "exponential",
+  "use_beta_sigmas": false,
+  "use_dynamic_shifting": true,
+  "use_exponential_sigmas": false,
+  "use_karras_sigmas": false
+}

text_encoder/generation_config.json ADDED Viewed

+{
+  "cache_implementation": "hybrid",
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.57.3"
+}

tokenizer/added_tokens.json ADDED Viewed

+{
+  "<image_soft_token>": 262144
+}

tokenizer/preprocessor_config.json ADDED Viewed

+{
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_pan_and_scan": null,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "Gemma3ImageProcessor",
+  "image_seq_length": 256,
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "pan_and_scan_max_num_crops": null,
+  "pan_and_scan_min_crop_size": null,
+  "pan_and_scan_min_ratio_to_activate": null,
+  "processor_class": "Gemma3Processor",
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 896,
+    "width": 896
+  }
+}

tokenizer/processor_config.json ADDED Viewed

+{
+  "image_seq_length": 256,
+  "processor_class": "Gemma3Processor"
+}

vocoder/config.json ADDED Viewed

+{
+  "_class_name": "LTX2Vocoder",
+  "_diffusers_version": "0.37.0.dev0",
+  "hidden_channels": 1024,
+  "in_channels": 128,
+  "leaky_relu_negative_slope": 0.1,
+  "out_channels": 2,
+  "output_sampling_rate": 24000,
+  "resnet_dilations": [
+    [
+      1,
+      3,
+      5
+    ],
+    [
+      1,
+      3,
+      5
+    ],
+    [
+      1,
+      3,
+      5
+    ]
+  ],
+  "resnet_kernel_sizes": [
+    3,
+    7,
+    11
+  ],
+  "upsample_factors": [
+    6,
+    5,
+    2,
+    2,
+    2
+  ],
+  "upsample_kernel_sizes": [
+    16,
+    15,
+    8,
+    4,
+    4
+  ]
+}