TestingOneStage

Running on Zero

App Files Files Community

dagloop5 commited on 2 days ago

Commit

4f31ee8

verified ·

1 Parent(s): 884d0d1

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -57

app.py CHANGED Viewed

@@ -217,7 +217,7 @@ class LTX23DistilledA2VPipeline:
         # Stage 1: Generate sigmas using LTX2Scheduler with user-specified steps
         empty_latent = torch.empty(VideoLatentShape.from_pixel_shape(
-            VideoPixelShape(batch=1, frames=num_frames, width=width // 2, height=height // 2, fps=frame_rate)
         ).to_torch_shape())
         stage_1_sigmas = (
             LTX2Scheduler()
@@ -246,25 +246,12 @@ class LTX23DistilledA2VPipeline:
                 ),
             )
-        def stage2_denoising_loop(sigmas: torch.Tensor, video_state, audio_state, stepper: DiffusionStepProtocol):
-            return euler_denoising_loop(
-                sigmas=sigmas,
-                video_state=video_state,
-                audio_state=audio_state,
-                stepper=stepper,
-                denoise_fn=simple_denoising_func(
-                    video_context=v_context_p,
-                    audio_context=a_context_p,
-                    transformer=transformer,  # noqa: F821
-                ),
-            )
         # ── Stage 1: Half resolution ──
         stage_1_output_shape = VideoPixelShape(
             batch=1,
             frames=num_frames,
-            width=width // 2,
-            height=height // 2,
             fps=frame_rate,
         )
         stage_1_conditionings = combined_image_conditionings(
@@ -294,42 +281,6 @@ class LTX23DistilledA2VPipeline:
         torch.cuda.synchronize()
         # cleanup_memory()
-        # ── Upscaling ──
-        upscaled_video_latent = upsample_video(
-            latent=video_state.latent[:1],
-            video_encoder=video_encoder,
-            upsampler=self.model_ledger.spatial_upsampler(),
-        )
-        # ── Stage 2: Full resolution ──
-        stage_2_sigmas = torch.tensor(STAGE_2_DISTILLED_SIGMA_VALUES, device=self.device)
-        stage_2_output_shape = VideoPixelShape(batch=1, frames=num_frames, width=width, height=height, fps=frame_rate)
-        stage_2_conditionings = combined_image_conditionings(
-            images=images,
-            height=stage_2_output_shape.height,
-            width=stage_2_output_shape.width,
-            video_encoder=video_encoder,
-            dtype=dtype,
-            device=self.device,
-        )
-        video_state, audio_state = denoise_audio_video(
-            output_shape=stage_2_output_shape,
-            conditionings=stage_2_conditionings,
-            noiser=noiser,
-            sigmas=stage_2_sigmas,
-            stepper=stepper,
-            denoising_loop_fn=stage2_denoising_loop,
-            components=self.pipeline_components,
-            dtype=dtype,
-            device=self.device,
-            noise_scale=stage_2_sigmas[0],
-            initial_video_latent=upscaled_video_latent,
-            initial_audio_latent=audio_state.latent,
-        )
-        torch.cuda.synchronize()
-        # cleanup_memory()
         # ── Decode both video and audio ──
         decoded_video = vae_decode_video(
             video_state.latent,
@@ -346,7 +297,7 @@ class LTX23DistilledA2VPipeline:
         return decoded_video, decoded_audio_output
 # Model repos
-LTX_MODEL_REPO = "SulphurAI/Sulphur-2-base"
 GEMMA_REPO ="Lightricks/gemma-3-12b-it-qat-q4_0-unquantized"
 # Download model checkpoints
@@ -367,10 +318,11 @@ weights_dir = Path("weights")
 weights_dir.mkdir(exist_ok=True)
 checkpoint_path = hf_hub_download(
     repo_id=LTX_MODEL_REPO,
-    filename="sulphur_distil_bf16.safetensors",
     local_dir=str(weights_dir),
     local_dir_use_symlinks=False,
 )
 spatial_upsampler_path = hf_hub_download(repo_id="Lightricks/LTX-2.3", filename="ltx-2.3-spatial-upscaler-x2-1.1.safetensors")
 gemma_root = snapshot_download(repo_id=GEMMA_REPO)
@@ -607,7 +559,6 @@ _orig_video_decoder_factory = ledger.video_decoder
 _orig_audio_encoder_factory = ledger.audio_encoder
 _orig_audio_decoder_factory = ledger.audio_decoder
 _orig_vocoder_factory = ledger.vocoder
-_orig_spatial_upsampler_factory = ledger.spatial_upsampler
 _orig_text_encoder_factory = ledger.text_encoder
 _orig_gemma_embeddings_factory = ledger.gemma_embeddings_processor
@@ -618,7 +569,6 @@ _video_decoder = _orig_video_decoder_factory()
 _audio_encoder = _orig_audio_encoder_factory()
 _audio_decoder = _orig_audio_decoder_factory()
 _vocoder = _orig_vocoder_factory()
-_spatial_upsampler = _orig_spatial_upsampler_factory()
 _text_encoder = _orig_text_encoder_factory()
 _embeddings_processor = _orig_gemma_embeddings_factory()
@@ -630,7 +580,6 @@ ledger.video_decoder = lambda: _video_decoder
 ledger.audio_encoder = lambda: _audio_encoder
 ledger.audio_decoder = lambda: _audio_decoder
 ledger.vocoder = lambda: _vocoder
-ledger.spatial_upsampler = lambda: _spatial_upsampler
 ledger.text_encoder = lambda: _text_encoder
 ledger.gemma_embeddings_processor = lambda: _embeddings_processor

         # Stage 1: Generate sigmas using LTX2Scheduler with user-specified steps
         empty_latent = torch.empty(VideoLatentShape.from_pixel_shape(
+            VideoPixelShape(batch=1, frames=num_frames, width=width, height=height, fps=frame_rate)
         ).to_torch_shape())
         stage_1_sigmas = (
             LTX2Scheduler()
                 ),
             )
         # ── Stage 1: Half resolution ──
         stage_1_output_shape = VideoPixelShape(
             batch=1,
             frames=num_frames,
+            width=width,
+            height=height,
             fps=frame_rate,
         )
         stage_1_conditionings = combined_image_conditionings(
         torch.cuda.synchronize()
         # cleanup_memory()
         # ── Decode both video and audio ──
         decoded_video = vae_decode_video(
             video_state.latent,
         return decoded_video, decoded_audio_output
 # Model repos
+LTX_MODEL_REPO = "TenStrip/LTX2.3-10Eros"
 GEMMA_REPO ="Lightricks/gemma-3-12b-it-qat-q4_0-unquantized"
 # Download model checkpoints
 weights_dir.mkdir(exist_ok=True)
 checkpoint_path = hf_hub_download(
     repo_id=LTX_MODEL_REPO,
+    filename="10Eros_v1.2_bf16.safetensors",
     local_dir=str(weights_dir),
     local_dir_use_symlinks=False,
 )
 spatial_upsampler_path = hf_hub_download(repo_id="Lightricks/LTX-2.3", filename="ltx-2.3-spatial-upscaler-x2-1.1.safetensors")
 gemma_root = snapshot_download(repo_id=GEMMA_REPO)
 _orig_audio_encoder_factory = ledger.audio_encoder
 _orig_audio_decoder_factory = ledger.audio_decoder
 _orig_vocoder_factory = ledger.vocoder
 _orig_text_encoder_factory = ledger.text_encoder
 _orig_gemma_embeddings_factory = ledger.gemma_embeddings_processor
 _audio_encoder = _orig_audio_encoder_factory()
 _audio_decoder = _orig_audio_decoder_factory()
 _vocoder = _orig_vocoder_factory()
 _text_encoder = _orig_text_encoder_factory()
 _embeddings_processor = _orig_gemma_embeddings_factory()
 ledger.audio_encoder = lambda: _audio_encoder
 ledger.audio_decoder = lambda: _audio_decoder
 ledger.vocoder = lambda: _vocoder
 ledger.text_encoder = lambda: _text_encoder
 ledger.gemma_embeddings_processor = lambda: _embeddings_processor