Upload folder using huggingface_hub

4069eda verified about 2 months ago

7.21 kB

	Run dir : output/_smoke_test_1gpu
	Log file: output/_smoke_test_1gpu/train.log
	GPU: NVIDIA RTX PRO 6000 Blackwell Workstation Edition \| VRAM: 95.0 GiB \| PyTorch: 2.10.0+cu128

	Final Configuration:
	Paths:
	transformer_path weights/flux2_dev_fp8mixed.safetensors
	vae_path weights/flux2-vae.safetensors
	controlnet_path weights/FLUX.2-dev-Fun-Controlnet-Union-2602.safetensors
	dataset_dir dataset
	color_map_path configs/color_map.json
	output_dir output/_smoke_test_1gpu
	text_encoder_path weights/mistral_3_small_flux2_fp8.safetensors
	precomputed_embeddings output/text_embeddings_global.pt
	Model:
	image_size 1024
	num_classes 6
	control_in_dim 3072
	fusion_dim 768
	num_fusion_blocks 3
	num_heads 12
	num_fourier_bands 32
	boundary_threshold 0.1
	Training:
	num_epochs 1
	batch_size 4
	learning_rate 0.0003
	weight_decay 0.01
	max_grad_norm 1.0
	grad_accum_steps 4
	guidance_scale 3.5
	num_workers 0
	Text Encoder:
	text_seq_len 512
	text_dim 15360
	Logging:
	log_interval 1
	save_every_n_epochs 5
	val_every_n_epochs 1
	WandB:
	wandb_entity
	wandb_project _smoke_test_1gpu
	Resume:
	resume_from (not set)
	[MEM @ pre-flight] RAM: 25.5/188.2 GiB (13.6%) \| VRAM: 0.0/95.0 GiB (0.0%)

	============================================================
	[1/8] Text Embeddings
	============================================================
	Loading cached embedding from output/text_embeddings_global.pt
	Loaded global text embedding from output/text_embeddings_global.pt (shape: torch.Size([512, 15360]))

	============================================================
	[2/8] Loading VAE
	============================================================
	Done (4.3s), VRAM: 0.16 GiB
	[MEM @ after VAE] RAM: 25.9/188.2 GiB (13.8%) \| VRAM: 0.2/95.0 GiB (0.2%)

	============================================================
	[3/8] Loading Transformer
	============================================================
	Dequantizing FP8 transformer weights...
	Dequantized 128 FP8 tensors
	Converting ComfyUI → diffusers keys...
	Converted: 331 diffusers keys
	Loading ControlNet weights...
	ControlNet: 76 keys
	Creating Flux2ControlTransformer2DModel (control_in_dim=3072)...
	Skipped 2 control_img_in keys (dim mismatch):
	control_img_in.bias [6144]
	control_img_in.weight [6144, 260]
	Missing: 2, Unexpected: 0
	Initialized control_img_in.weight [6144, 3072] on cuda
	Initialized control_img_in.bias [6144] on cuda
	FP8 compression: 203 frozen Linears, 67.9 → 37.9 GiB (saved 30.0 GiB)
	Done (30.8s), VRAM: 37.87 GiB
	Gradient checkpointing: enabled
	Backbone FROZEN: all transformer params set requires_grad=False
	Gradients will still propagate to HDC²A via control_context autograd
	[MEM @ after Transformer] RAM: 27.0/188.2 GiB (14.3%) \| VRAM: 37.9/95.0 GiB (39.9%)

	============================================================
	[4/8] Creating HDC²A Adapter
	============================================================
	HDC²A: 52.4M params
	Control: 0.0M params
	Total trainable: 52.4M params

	============================================================
	[4.5/8] Applying LoRA to ControlNet Control Blocks
	============================================================
	LoRA rank=32, alpha=32.0, dropout=0
	LoRA control_transformer_blocks.0.attn.to_q [6144→6144]
	LoRA control_transformer_blocks.0.attn.to_k [6144→6144]
	LoRA control_transformer_blocks.0.attn.to_v [6144→6144]
	LoRA control_transformer_blocks.0.attn.add_q_proj [6144→6144]
	LoRA control_transformer_blocks.0.attn.add_k_proj [6144→6144]
	LoRA control_transformer_blocks.0.attn.add_v_proj [6144→6144]
	LoRA control_transformer_blocks.0.attn.to_out.0 [6144→6144]
	LoRA control_transformer_blocks.1.attn.to_q [6144→6144]
	LoRA control_transformer_blocks.1.attn.to_k [6144→6144]
	LoRA control_transformer_blocks.1.attn.to_v [6144→6144]
	LoRA control_transformer_blocks.1.attn.add_q_proj [6144→6144]
	LoRA control_transformer_blocks.1.attn.add_k_proj [6144→6144]
	LoRA control_transformer_blocks.1.attn.add_v_proj [6144→6144]
	LoRA control_transformer_blocks.1.attn.to_out.0 [6144→6144]
	LoRA control_transformer_blocks.2.attn.to_q [6144→6144]
	LoRA control_transformer_blocks.2.attn.to_k [6144→6144]
	LoRA control_transformer_blocks.2.attn.to_v [6144→6144]
	LoRA control_transformer_blocks.2.attn.add_q_proj [6144→6144]
	LoRA control_transformer_blocks.2.attn.add_k_proj [6144→6144]
	LoRA control_transformer_blocks.2.attn.add_v_proj [6144→6144]
	LoRA control_transformer_blocks.2.attn.to_out.0 [6144→6144]
	LoRA control_transformer_blocks.3.attn.to_q [6144→6144]
	LoRA control_transformer_blocks.3.attn.to_k [6144→6144]
	LoRA control_transformer_blocks.3.attn.to_v [6144→6144]
	LoRA control_transformer_blocks.3.attn.to_out.0 [6144→6144]

	LoRA modules injected: 25
	LoRA trainable params: 9.83M

	Parameter Statistics:
	HDC²A Adapter: total=52.4M trainable=52.4M
	ControlNet (frozen): total=4143.4M LoRA trainable=9.83M
	Flux2 backbone: total=0.0M trainable=0.0M ✓
	──────────────────────────────────────────────────
	Total trainable: HDC²A 52.4M + LoRA 9.83M = 62.19M

	============================================================
	[5/8] Building Optimizer
	============================================================
	AdamW: adapter_lr=3.00e-04, backbone_lr=0.00e+00
	param_group 'adapter': 112 tensors, lr=3.00e-04
	Scheduler: 400 warmup steps → cosine over ~25 steps
	[6/8] Resume: skipped (no checkpoint specified)

	============================================================
	[7/8] Forward Sanity Check
	============================================================
	[test 1/4] Forward pass (eval mode)...
	Output shape: torch.Size([1, 4096, 128])
	Output stats: mean=0.0427, std=0.5156
	VRAM peak (forward): 68.44 GiB
	[test 2/4] Loss computation (train mode)...
	Loss value: 1.437658
	[test 3/4] Backward pass...
	Backward completed. VRAM peak (backward): 49.17 GiB
	[test 4/4] Gradient flow check...
	HDC²A: 112/112 params have non-zero grad
	Control: 25/50 params have non-zero grad
	Top grad norms (HDC²A):
	semantic_encoder.conv_stem.6.weight: 0.005524
	depth_encoder.conv_stem.6.weight: 0.004883
	W_s.weight: 0.004456
	W_d.weight: 0.004181
	fusion_blocks.0.ffn_sem.2.weight: 0.003784
	Test result: PASSED
	[MEM @ after test] RAM: 27.5/188.2 GiB (14.6%) \| VRAM: 38.0/95.0 GiB (40.0%)

	* --test passed: all models loaded, forward test OK. Exiting. *