{
  "project": "MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation",
  "paper": "Accepted to IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026)",
  "models": {
    "dit-unified-flux-vae-256": {
      "description": "MMFace-DiT Diffusion paradigm model for 256x256 resolution using unified flux VAE. Contains checkpoint-440700.",
      "resolution": 256,
      "paradigm": "Diffusion"
    },
    "dit-unified-flux-vae-256-rfm": {
      "description": "MMFace-DiT Rectified Flow Matching (RFM) paradigm model for 256x256 resolution using unified flux VAE. Contains checkpoint-283517.",
      "resolution": 256,
      "paradigm": "Flow (RFM)"
    },
    "dit-unified-flux-vae-512-rfm": {
      "description": "MMFace-DiT Rectified Flow Matching (RFM) paradigm model for 512x512 resolution using unified flux VAE. Contains checkpoint-44070.",
      "resolution": 512,
      "paradigm": "Flow (RFM)"
    },
    "stable-diffusion-2-1-base": {
      "description": "Stable Diffusion 2.1 base model files, including feature_extractor, scheduler, text_encoder, tokenizer, and vae components."
    },
    "VAE": {
      "description": "Standalone VAE model files, including config.json and diffusion_pytorch_model.safetensors weights."
    }
  }
}