File size: 5,491 Bytes

b230236

import os
import argparse
import pytorch_lightning as pl
from braceexpand import braceexpand
from torch.utils.data import DataLoader
from datasets.webdataset import MultiWebDataset

from cldm.logger import ImageLogger
from cldm.model import create_model, load_state_dict
from torch.utils.data import ConcatDataset
from cldm.hack import disable_verbosity, enable_sliced_attention
from omegaconf import OmegaConf
import torch

from datasets.base import BaseDataset

class BaseLogic(BaseDataset):
    def __init__(self, area_ratio, obj_thr):
        self.area_ratio = area_ratio
        self.obj_thr = obj_thr

print("Number of GPUs available: ", torch.cuda.device_count())
print("Current device: ", torch.cuda.current_device())
print("Device name: ", torch.cuda.get_device_name(0))

def get_args_parser():
    parser = argparse.ArgumentParser('PICS Training Script', add_help=False)

    parser.add_argument('--resume_path', required=None, type=str)
    parser.add_argument('--root_dir', required=True, type=str)
    parser.add_argument('--batch_size', default=1, type=int)
    parser.add_argument('--limit_train_batches', default=1, type=float)
    parser.add_argument('--logger_freq', default=1000, type=int)
    parser.add_argument('--learning_rate', default=1e-5, type=float)
    parser.add_argument('--is_joint', action='store_true', help="Joint/Seprate training")
    parser.add_argument("--dataset_name", type=str, default='lvis', help="Dataset name")

    return parser

def main(args):
    save_memory = False
    disable_verbosity()
    if save_memory:
        enable_sliced_attention()
    
    sd_locked = False
    only_mid_control = False
    accumulate_grad_batches = 1
    obj_thr = {'obj_thr': 2}

    model = create_model('./configs/pics.yaml').cpu()
    if args.resume_path and os.path.exists(args.resume_path):
        print(f"Loading checkpoint from: {args.resume_path}")
        checkpoint = load_state_dict(args.resume_path, location='cpu')
        model.load_state_dict(checkpoint, strict=False)
    else:
        print("No checkpoint found or provided. Training from scratch...")

    model.learning_rate = args.learning_rate
    model.sd_locked = sd_locked
    model.only_mid_control = only_mid_control

    DConf = OmegaConf.load('./configs/datasets.yaml')

    if args.is_joint:
        # weights = {'LVIS': 30, 'VITONHD': 60, 'Objects365': 1, 'Cityscapes': 180, 'MapillaryVistas': 180,'BDD100K': 180}
        weights = {'LVIS': 3, 'VITONHD': 6, 'Objects365': 1, 'Cityscapes': 18, 'MapillaryVistas': 18, 'BDD100K': 18}
    else:
        if args.dataset_name == 'lvis':
            weights = {'LVIS': 1, 'VITONHD': 0, 'Objects365': 0, 'Cityscapes': 0, 'MapillaryVistas': 0, 'BDD100K': 0}
        elif args.dataset_name == 'vitonhd':
            weights = {'LVIS': 0, 'VITONHD': 1, 'Objects365': 0, 'Cityscapes': 0, 'MapillaryVistas': 0, 'BDD100K': 0}
        elif args.dataset_name == 'object365':
            weights = {'LVIS': 0, 'VITONHD': 0, 'Objects365': 1, 'Cityscapes': 0, 'MapillaryVistas': 0, 'BDD100K': 0}
        elif args.dataset_name == 'cityscapes':
            weights = {'LVIS': 0, 'VITONHD': 0, 'Objects365': 0, 'Cityscapes': 1, 'MapillaryVistas': 0, 'BDD100K': 0}
        elif args.dataset_name == 'mapillaryvistas':
            weights = {'LVIS': 0, 'VITONHD': 0, 'Objects365': 0, 'Cityscapes': 0, 'MapillaryVistas': 1, 'BDD100K': 0}
        elif args.dataset_name == 'bdd100k':
            weights = {'LVIS': 0, 'VITONHD': 0, 'Objects365': 0, 'Cityscapes': 0, 'MapillaryVistas': 0, 'BDD100K': 1}
        else:
            raise ValueError(f"Unsupported dataset name: {args.dataset_name}")
        
    all_urls = []
    dataset_shards = [
        ('LVIS', DConf.Train.LVIS.shards),
        ('VITONHD', DConf.Train.VITONHD.shards),
        ('Objects365', DConf.Train.Objects365.shards),
        ('Cityscapes', DConf.Train.Cityscapes.shards),
        ('MapillaryVistas', DConf.Train.MapillaryVistas.shards),
        ('BDD100K', DConf.Train.BDD100K.shards)
    ]

    for name, path in dataset_shards:
        expanded = list(braceexpand(path))
        all_urls.extend(expanded * weights.get(name, 1))
    
    import random
    random.shuffle(all_urls)

    logic_helper = BaseLogic(
        area_ratio=DConf.Defaults.area_ratio, 
        obj_thr=DConf.Defaults.obj_thr
    )

    dataset = MultiWebDataset(
        urls=all_urls,
        construct_collage_fn=logic_helper._construct_collage, 
        shuffle_size=10000,
        seed=42,
        decode_mode="pil",
    )

    dataloader = DataLoader(
        dataset, 
        num_workers=8, 
        batch_size=args.batch_size, 
    )
    
    logger = ImageLogger(batch_frequency=args.logger_freq, log_images_kwargs=obj_thr)

    checkpoint_callback = pl.callbacks.ModelCheckpoint(
        dirpath=os.path.join(args.root_dir, 'checkpoints'),
        filename='pics-{step:06d}', 
        every_n_train_steps=2000, 
        save_top_k=-1, 
    )

    trainer = pl.Trainer(
        default_root_dir=args.root_dir,
        limit_train_batches=args.limit_train_batches,
        accelerator="gpu",
        devices=1,
        precision=16,
        callbacks=[logger, checkpoint_callback],
        accumulate_grad_batches=accumulate_grad_batches,
        max_epochs=50,
        val_check_interval=2000,
    )
    trainer.fit(model, dataloader)


if __name__ == '__main__':
    parser = argparse.ArgumentParser('PICS Training', parents=[get_args_parser()])
    args = parser.parse_args()
    main(args)