JasonXF
/

SynthUrbanSAT-Output

Model card Files Files and versions

xet

Community

JasonXF commited on Apr 15

Commit

4069eda

verified ·

1 Parent(s): 78fe081

Upload folder using huggingface_hub

Browse files

Files changed (1) hide show

output/_smoke_test_1gpu/train.log +160 -0

output/_smoke_test_1gpu/train.log ADDED Viewed

	@@ -0,0 +1,160 @@

+Run dir : output/_smoke_test_1gpu
+Log file: output/_smoke_test_1gpu/train.log
+GPU: NVIDIA RTX PRO 6000 Blackwell Workstation Edition | VRAM: 95.0 GiB | PyTorch: 2.10.0+cu128
+Final Configuration:
+  Paths:
+    transformer_path             weights/flux2_dev_fp8mixed.safetensors
+    vae_path                     weights/flux2-vae.safetensors
+    controlnet_path              weights/FLUX.2-dev-Fun-Controlnet-Union-2602.safetensors
+    dataset_dir                  dataset
+    color_map_path               configs/color_map.json
+    output_dir                   output/_smoke_test_1gpu
+    text_encoder_path            weights/mistral_3_small_flux2_fp8.safetensors
+    precomputed_embeddings       output/text_embeddings_global.pt
+  Model:
+    image_size                   1024
+    num_classes                  6
+    control_in_dim               3072
+    fusion_dim                   768
+    num_fusion_blocks            3
+    num_heads                    12
+    num_fourier_bands            32
+    boundary_threshold           0.1
+  Training:
+    num_epochs                   1
+    batch_size                   4
+    learning_rate                0.0003
+    weight_decay                 0.01
+    max_grad_norm                1.0
+    grad_accum_steps             4
+    guidance_scale               3.5
+    num_workers                  0
+  Text Encoder:
+    text_seq_len                 512
+    text_dim                     15360
+  Logging:
+    log_interval                 1
+    save_every_n_epochs          5
+    val_every_n_epochs           1
+  WandB:
+    wandb_entity
+    wandb_project                _smoke_test_1gpu
+  Resume:
+    resume_from                  (not set)
+[MEM @ pre-flight] RAM: 25.5/188.2 GiB (13.6%)  |  VRAM: 0.0/95.0 GiB (0.0%)
+============================================================
+  [1/8] Text Embeddings
+============================================================
+  Loading cached embedding from output/text_embeddings_global.pt
+  Loaded global text embedding from output/text_embeddings_global.pt (shape: torch.Size([512, 15360]))
+============================================================
+  [2/8] Loading VAE
+============================================================
+  Done (4.3s), VRAM: 0.16 GiB
+[MEM @ after VAE] RAM: 25.9/188.2 GiB (13.8%)  |  VRAM: 0.2/95.0 GiB (0.2%)
+============================================================
+  [3/8] Loading Transformer
+============================================================
+  Dequantizing FP8 transformer weights...
+  Dequantized 128 FP8 tensors
+  Converting ComfyUI → diffusers keys...
+  Converted: 331 diffusers keys
+  Loading ControlNet weights...
+  ControlNet: 76 keys
+  Creating Flux2ControlTransformer2DModel (control_in_dim=3072)...
+  Skipped 2 control_img_in keys (dim mismatch):
+    control_img_in.bias [6144]
+    control_img_in.weight [6144, 260]
+  Missing: 2, Unexpected: 0
+  Initialized control_img_in.weight [6144, 3072] on cuda
+  Initialized control_img_in.bias [6144] on cuda
+  FP8 compression: 203 frozen Linears, 67.9 → 37.9 GiB (saved 30.0 GiB)
+  Done (30.8s), VRAM: 37.87 GiB
+  Gradient checkpointing: enabled
+  Backbone FROZEN: all transformer params set requires_grad=False
+  Gradients will still propagate to HDC²A via control_context autograd
+[MEM @ after Transformer] RAM: 27.0/188.2 GiB (14.3%)  |  VRAM: 37.9/95.0 GiB (39.9%)
+============================================================
+  [4/8] Creating HDC²A Adapter
+============================================================
+HDC²A: 52.4M params
+Control: 0.0M params
+Total trainable: 52.4M params
+============================================================
+  [4.5/8] Applying LoRA to ControlNet Control Blocks
+============================================================
+  LoRA rank=32, alpha=32.0, dropout=0
+  LoRA control_transformer_blocks.0.attn.to_q [6144→6144]
+  LoRA control_transformer_blocks.0.attn.to_k [6144→6144]
+  LoRA control_transformer_blocks.0.attn.to_v [6144→6144]
+  LoRA control_transformer_blocks.0.attn.add_q_proj [6144→6144]
+  LoRA control_transformer_blocks.0.attn.add_k_proj [6144→6144]
+  LoRA control_transformer_blocks.0.attn.add_v_proj [6144→6144]
+  LoRA control_transformer_blocks.0.attn.to_out.0 [6144→6144]
+  LoRA control_transformer_blocks.1.attn.to_q [6144→6144]
+  LoRA control_transformer_blocks.1.attn.to_k [6144→6144]
+  LoRA control_transformer_blocks.1.attn.to_v [6144→6144]
+  LoRA control_transformer_blocks.1.attn.add_q_proj [6144→6144]
+  LoRA control_transformer_blocks.1.attn.add_k_proj [6144→6144]
+  LoRA control_transformer_blocks.1.attn.add_v_proj [6144→6144]
+  LoRA control_transformer_blocks.1.attn.to_out.0 [6144→6144]
+  LoRA control_transformer_blocks.2.attn.to_q [6144→6144]
+  LoRA control_transformer_blocks.2.attn.to_k [6144→6144]
+  LoRA control_transformer_blocks.2.attn.to_v [6144→6144]
+  LoRA control_transformer_blocks.2.attn.add_q_proj [6144→6144]
+  LoRA control_transformer_blocks.2.attn.add_k_proj [6144→6144]
+  LoRA control_transformer_blocks.2.attn.add_v_proj [6144→6144]
+  LoRA control_transformer_blocks.2.attn.to_out.0 [6144→6144]
+  LoRA control_transformer_blocks.3.attn.to_q [6144→6144]
+  LoRA control_transformer_blocks.3.attn.to_k [6144→6144]
+  LoRA control_transformer_blocks.3.attn.to_v [6144→6144]
+  LoRA control_transformer_blocks.3.attn.to_out.0 [6144→6144]
+  LoRA modules injected: 25
+  LoRA trainable params: 9.83M
+Parameter Statistics:
+  HDC²A Adapter:         total=52.4M  trainable=52.4M
+  ControlNet (frozen):   total=4143.4M  LoRA trainable=9.83M
+  Flux2 backbone:        total=0.0M  trainable=0.0M ✓
+  ──────────────────────────────────────────────────
+  Total trainable:       HDC²A 52.4M + LoRA 9.83M = 62.19M
+============================================================
+  [5/8] Building Optimizer
+============================================================
+  AdamW: adapter_lr=3.00e-04, backbone_lr=0.00e+00
+    param_group 'adapter': 112 tensors, lr=3.00e-04
+  Scheduler: 400 warmup steps → cosine over ~25 steps
+  [6/8] Resume: skipped (no checkpoint specified)
+============================================================
+  [7/8] Forward Sanity Check
+============================================================
+  [test 1/4] Forward pass (eval mode)...
+    Output shape: torch.Size([1, 4096, 128])
+    Output stats: mean=0.0427, std=0.5156
+    VRAM peak (forward): 68.44 GiB
+  [test 2/4] Loss computation (train mode)...
+    Loss value: 1.437658
+  [test 3/4] Backward pass...
+    Backward completed. VRAM peak (backward): 49.17 GiB
+  [test 4/4] Gradient flow check...
+    HDC²A:   112/112 params have non-zero grad
+    Control: 25/50 params have non-zero grad
+    Top grad norms (HDC²A):
+      semantic_encoder.conv_stem.6.weight: 0.005524
+      depth_encoder.conv_stem.6.weight: 0.004883
+      W_s.weight: 0.004456
+      W_d.weight: 0.004181
+      fusion_blocks.0.ffn_sem.2.weight: 0.003784
+  Test result: PASSED
+[MEM @ after test] RAM: 27.5/188.2 GiB (14.6%)  |  VRAM: 38.0/95.0 GiB (40.0%)
+*** --test passed: all models loaded, forward test OK. Exiting. ***