haiphamcse
/

MVA_GenAI

Model card Files Files and versions

Metrics Training metrics Community

haiphamcse commited on 18 days ago

Commit

f729117

·

verified ·

1 Parent(s): 549b0f9

Upload folder using huggingface_hub

Files changed (2) hide show

train_unet.py +23 -1
unet_cifar.yaml +1 -1

train_unet.py CHANGED Viewed

@@ -83,6 +83,13 @@ def parse_args() -> argparse.Namespace:
         help="YAML with UNet + CFM hyperparameters (default: unet_config.yaml next to this script)",
     )
     return p.parse_args()
@@ -257,13 +264,28 @@ def main() -> None:
         [
             v2.ToTensor(),
             v2.ToDtype(torch.float32, scale=True),
-            v2.Resize((64,64)),
             v2.Normalize(mean=[0.0, 0.0, 0.0], std=[1.0, 1.0, 1.0]),
         ]
     )
     train_dataset = load_training_dataset(args, transforms)
     print(f"Dataset: {args.dataset}, size={len(train_dataset)}")
     dummy_dataloader = DataLoader(
         train_dataset,
         batch_size=args.batch_size,

         help="YAML with UNet + CFM hyperparameters (default: unet_config.yaml next to this script)",
     )
+    p.add_argument(
+        "--data-percent",
+        type=int,
+        default=100,
+        choices=[10, 20, 30, 60, 80, 100],
+        help="Use only this percentage of the (possibly filtered) training dataset.",
+    )
     return p.parse_args()
         [
             v2.ToTensor(),
             v2.ToDtype(torch.float32, scale=True),
+            v2.Resize((32,32)),
             v2.Normalize(mean=[0.0, 0.0, 0.0], std=[1.0, 1.0, 1.0]),
         ]
     )
     train_dataset = load_training_dataset(args, transforms)
     print(f"Dataset: {args.dataset}, size={len(train_dataset)}")
+    orig_len = len(train_dataset)
+    if args.data_percent < 100:
+        new_len = max(1, int(orig_len * args.data_percent / 100.0))
+        g = torch.Generator()
+        g.manual_seed(args.seed)
+        perm = torch.randperm(orig_len, generator=g)
+        indices = perm[:new_len].tolist()
+        torch.save(perm[:new_len], os.path.join(args.save_dir, "indices.pt"))
+        train_dataset = Subset(train_dataset, indices)
+        print(f"Subsampled dataset: {args.data_percent}% -> {len(train_dataset)} samples")
+    else:
+        print(f"Using full dataset: {orig_len} samples")
     dummy_dataloader = DataLoader(
         train_dataset,
         batch_size=args.batch_size,

unet_cifar.yaml CHANGED Viewed

@@ -11,7 +11,7 @@ weight_decay: 0.0
 # NeuralODE visualization / sampling
 save_ep: 30
 inference_steps: 100
-vis_batch_size: 4
 # UNet (torchcfm UNetModelWrapper)
 num_res_blocks: 2

 # NeuralODE visualization / sampling
 save_ep: 30
 inference_steps: 100
+vis_batch_size: 8
 # UNet (torchcfm UNetModelWrapper)
 num_res_blocks: 2