Upload LTXVideo2Pipeline

Files changed (11) hide show

audio_decoder/config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_class_name": "Decoder",
-  "_diffusers_version": "0.36.0",
   "attn_resolutions": [],
   "attn_type": "vanilla",
   "causality_axis": "height",

 {
   "_class_name": "Decoder",
+  "_diffusers_version": "0.37.0",
   "attn_resolutions": [],
   "attn_type": "vanilla",
   "causality_axis": "height",

audio_encoder/config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_class_name": "Encoder",
-  "_diffusers_version": "0.36.0",
   "attn_resolutions": [],
   "attn_type": "vanilla",
   "causality_axis": "height",

 {
   "_class_name": "Encoder",
+  "_diffusers_version": "0.37.0",
   "attn_resolutions": [],
   "attn_type": "vanilla",
   "causality_axis": "height",

audio_preprocessor/config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_class_name": "AudioPreprocessor",
-  "_diffusers_version": "0.36.0",
   "add_ambience": true,
   "add_reverb": true,
   "add_room": true,

 {
   "_class_name": "AudioPreprocessor",
+  "_diffusers_version": "0.37.0",
   "add_ambience": true,
   "add_reverb": true,
   "add_room": true,

model_index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_class_name": "LTXVideo2Pipeline",
-  "_diffusers_version": "0.36.0",
   "audio_decoder": [
     "ltx2.model.audio_vae.audio_vae",
     "Decoder"
@@ -17,6 +17,10 @@
     "ltx2.model.upsampler.model",
     "LatentUpsampler"
   ],
   "text_encoder": [
     "ltx2.model.text_encoder.gemma.model",
     "LTXTextEncoderModel"

 {
   "_class_name": "LTXVideo2Pipeline",
+  "_diffusers_version": "0.37.0",
   "audio_decoder": [
     "ltx2.model.audio_vae.audio_vae",
     "Decoder"
     "ltx2.model.upsampler.model",
     "LatentUpsampler"
   ],
+  "spatial_upsampler_1_5": [
+    null,
+    null
+  ],
   "text_encoder": [
     "ltx2.model.text_encoder.gemma.model",
     "LTXTextEncoderModel"

spatial_upsampler/config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_class_name": "LatentUpsampler",
-  "_diffusers_version": "0.36.0",
   "dims": 3,
   "in_channels": 128,
   "mid_channels": 1024,

 {
   "_class_name": "LatentUpsampler",
+  "_diffusers_version": "0.37.0",
   "dims": 3,
   "in_channels": 128,
   "mid_channels": 1024,

text_encoder/config.json CHANGED Viewed

@@ -101,7 +101,7 @@
     "use_cache": true,
     "vocab_size": 262208
   },
-  "transformers_version": "4.57.3",
   "vision_config": {
     "attention_dropout": 0.0,
     "dtype": "bfloat16",

     "use_cache": true,
     "vocab_size": 262208
   },
+  "transformers_version": "4.57.6",
   "vision_config": {
     "attention_dropout": 0.0,
     "dtype": "bfloat16",

text_encoder/generation_config.json CHANGED Viewed

@@ -8,5 +8,5 @@
   ],
   "max_length": 1024,
   "pad_token_id": 0,
-  "transformers_version": "4.57.3"
 }

   ],
   "max_length": 1024,
   "pad_token_id": 0,
+  "transformers_version": "4.57.6"
 }

transformer/config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_class_name": "LTXModel",
-  "_diffusers_version": "0.36.0",
   "attention_head_dim": 128,
   "attention_type": "default",
   "audio_attention_head_dim": 64,

 {
   "_class_name": "LTXModel",
+  "_diffusers_version": "0.37.0",
   "attention_head_dim": 128,
   "attention_type": "default",
   "audio_attention_head_dim": 64,

video_decoder/config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_class_name": "Decoder",
-  "_diffusers_version": "0.36.0",
   "causal": false,
   "convolution_dimensions": 3,
   "decode_noise_scale": 0.025,

 {
   "_class_name": "Decoder",
+  "_diffusers_version": "0.37.0",
   "causal": false,
   "convolution_dimensions": 3,
   "decode_noise_scale": 0.025,

video_encoder/config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_class_name": "Encoder",
-  "_diffusers_version": "0.36.0",
   "convolution_dimensions": 3,
   "encoder_blocks": [
     [

 {
   "_class_name": "Encoder",
+  "_diffusers_version": "0.37.0",
   "convolution_dimensions": 3,
   "encoder_blocks": [
     [

vocoder/config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_class_name": "Vocoder",
-  "_diffusers_version": "0.36.0",
   "output_sample_rate": 24000,
   "resblock": "1",
   "resblock_dilation_sizes": [

 {
   "_class_name": "Vocoder",
+  "_diffusers_version": "0.37.0",
   "output_sample_rate": 24000,
   "resblock": "1",
   "resblock_dilation_sizes": [