wizcodes12
/

image_to_cartoonify

conditional_diffusion

Model card Files Files and versions

xet

Community

wizcodes12 commited on Jul 6, 2025

Commit

e7747da

verified ·

1 Parent(s): a4b52d8

Create config.json

Browse files

Files changed (1) hide show

config.json +162 -0

config.json ADDED Viewed

	@@ -0,0 +1,162 @@

+{
+  "model_type": "conditional_diffusion",
+  "architecture": "OptimizedConditionedUNet",
+  "task": "image-generation",
+  "framework": "pytorch",
+  "version": "1.0",
+  "model_config": {
+    "in_channels": 3,
+    "out_channels": 3,
+    "attr_dim": 18,
+    "base_channels": 64,
+    "time_embed_dim": 224,
+    "num_layers": 4,
+    "attention_layers": [],
+    "dropout": 0.05,
+    "activation": "silu",
+    "normalization": "group_norm"
+  },
+  "training_config": {
+    "num_epochs": 110,
+    "batch_size": 16,
+    "learning_rate": 2e-4,
+    "optimizer": "adamw",
+    "weight_decay": 0.01,
+    "gradient_accumulation_steps": 2,
+    "max_grad_norm": 1.0,
+    "mixed_precision": "fp16",
+    "warmup_steps": 200,
+    "lr_scheduler": "cosine_annealing_warm_restarts",
+    "T_0": 20,
+    "eta_min": 1e-6
+  },
+  "diffusion_config": {
+    "num_train_timesteps": 1000,
+    "num_inference_steps": 50,
+    "beta_start": 0.00085,
+    "beta_end": 0.012,
+    "beta_schedule": "scaled_linear",
+    "prediction_type": "epsilon",
+    "scheduler_type": "ddpm",
+    "clip_sample": false,
+    "clip_sample_range": 1.0
+  },
+  "data_config": {
+    "image_size": 256,
+    "num_channels": 3,
+    "dataset": "cartoonset10k",
+    "validation_split": 0.15,
+    "augmentation": {
+      "horizontal_flip": 0.3,
+      "color_jitter": {
+        "brightness": 0.1,
+        "contrast": 0.1,
+        "saturation": 0.1
+      },
+      "rotation": 5,
+      "normalization": {
+        "mean": [0.5, 0.5, 0.5],
+        "std": [0.5, 0.5, 0.5]
+      }
+    }
+  },
+  "feature_config": {
+    "extractor": "mediapipe",
+    "num_attributes": 18,
+    "attribute_names": [
+      "eye_angle",
+      "eye_lashes",
+      "eye_lid",
+      "chin_length",
+      "eyebrow_weight",
+      "eyebrow_shape",
+      "eyebrow_thickness",
+      "face_shape",
+      "facial_hair",
+      "hair",
+      "eye_color",
+      "face_color",
+      "hair_color",
+      "glasses",
+      "glasses_color",
+      "eye_slant",
+      "eyebrow_width",
+      "eye_eyebrow_distance"
+    ],
+    "attribute_ranges": {
+      "eye_angle": [0, 2],
+      "eye_lashes": [0, 1],
+      "eye_lid": [0, 1],
+      "chin_length": [0, 2],
+      "eyebrow_weight": [0, 1],
+      "eyebrow_shape": [0, 13],
+      "eyebrow_thickness": [0, 3],
+      "face_shape": [0, 6],
+      "facial_hair": [0, 14],
+      "hair": [0, 110],
+      "eye_color": [0, 4],
+      "face_color": [0, 10],
+      "hair_color": [0, 9],
+      "glasses": [0, 11],
+      "glasses_color": [0, 6],
+      "eye_slant": [0, 2],
+      "eyebrow_width": [0, 2],
+      "eye_eyebrow_distance": [0, 2]
+    },
+    "normalization": "min_max_01"
+  },
+  "performance_config": {
+    "inference_time_gpu": "2-3 seconds",
+    "inference_time_cpu": "15-30 seconds",
+    "memory_usage_gpu": "4GB",
+    "memory_usage_cpu": "2GB",
+    "recommended_batch_size_gpu": 8,
+    "recommended_batch_size_cpu": 1
+  },
+  "metrics": {
+    "final_training_loss": 0.0234,
+    "best_validation_loss": 0.0251,
+    "training_samples": 8500,
+    "validation_samples": 1500,
+    "total_parameters": "~50M",
+    "training_time": "~10 hours",
+    "hardware": "NVIDIA T4 GPU"
+  },
+  "requirements": {
+    "python": ">=3.8",
+    "torch": ">=1.13.0",
+    "torchvision": ">=0.14.0",
+    "diffusers": ">=0.21.0",
+    "mediapipe": ">=0.10.9",
+    "opencv-python": ">=4.5.0",
+    "numpy": ">=1.21.0",
+    "pillow": ">=8.0.0",
+    "accelerate": ">=0.20.0"
+  },
+  "tags": [
+    "diffusion",
+    "cartoon",
+    "face-generation",
+    "style-transfer",
+    "conditional-generation",
+    "selfie-to-cartoon",
+    "pytorch",
+    "computer-vision",
+    "image-generation",
+    "facial-attributes"
+  ],
+  "license": "mit",
+  "language": "en",
+  "library_name": "diffusers",
+  "pipeline_tag": "image-generation"
+}