Lexa-B
/

LexaLCM_Pre3

Lexa-B commited on Jul 25, 2025

Commit

796fed0

verified ·

1 Parent(s): e7632bb

Upload config.json

Files changed (1) hide show

CurriculumStages/0_228M/config.json ADDED Viewed

+{
+  "AdaLN_Timestep_Embed_Dim": 256,
+  "adafactor_rel_step": true,
+  "adafactor_warmup_init": true,
+  "architectures": [
+    "LexaLCM"
+  ],
+  "batch_size": 16,
+  "bf16": true,
+  "cfg_scale": 0.0,
+  "clip_threshold": 1.0,
+  "contextualizer": 1,
+  "custom_multi_gpu": true,
+  "d_ff": 8192,
+  "d_latent": 1024,
+  "d_model": 2048,
+  "denoiser": 0,
+  "denoiser_iterations_inference": 40,
+  "denoiser_iterations_pretrain": 100,
+  "dropout_context": 0.1,
+  "dropout_denoiser": 0.15,
+  "dropout_latent": 0.1,
+  "eval_every": 0,
+  "gpus": {
+    "contextualizer": 1,
+    "custom_multi_gpu": true,
+    "denoiser": 0,
+    "other": 1
+  },
+  "grad_norm_log_every": 20,
+  "input_dim": 1024,
+  "learning_rate": "None",
+  "max_grad_norm": "None",
+  "max_seq_len": 64,
+  "max_steps": 250000,
+  "model_type": "lexa_lcm_pre3",
+  "n_heads": 32,
+  "num_context_layers": 5,
+  "num_denoiser_layers": 15,
+  "num_denoising_steps": 100,
+  "num_workers": 20,
+  "optimizer": "adafactor",
+  "other": 1,
+  "output_dir": "./outputs",
+  "resume_from": "None",
+  "save_every": 5000,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "warmup_steps": 500,
+  "weight_decay": 0.01
+}