MRaCL / CGFormer /train.py

Upload folder using huggingface_hub

ea1014e verified 10 months ago

11.8 kB

	import argparse
	import datetime
	import os
	import shutil
	import sys
	import time
	import warnings
	from functools import partial

	import cv2
	import torch
	import torch.cuda.amp as amp
	import torch.distributed as dist
	import torch.multiprocessing as mp #https://blog.csdn.net/hxxjxw/article/details/119839548
	import torch.nn as nn
	import torch.nn.parallel
	import torch.optim
	import torch.utils.data as data
	from loguru import logger # https://hanjunqiang.blog.csdn.net/article/details/124779625
	from torch.optim.lr_scheduler import MultiStepLR

	import utils.config as config
	import wandb
	from utils.dataset import RefDataset
	from engine.engine import train, validate
	from model import build_segmenter
	from utils.misc import (init_random_seed, set_random_seed, setup_logger,
	worker_init_fn, build_scheduler) #, collate_fn)

	warnings.filterwarnings("ignore")
	warnings.filterwarnings("ignore", category=UserWarning)
	cv2.setNumThreads(0)

	torch.cuda.empty_cache()

	import deepspeed
	from deepspeed.runtime.lr_schedules import WarmupLR


	def get_parser():
	parser = argparse.ArgumentParser(
	description='Pytorch Referring Expression Segmentation')
	parser.add_argument('--config',
	default='path to xxx.yaml',
	type=str,
	help='config file')
	parser.add_argument('--opts',
	default=None,
	nargs=argparse.REMAINDER,
	help='override some settings in the config.')
	parser.add_argument("--local_rank", type=int, default=0)
	parser = deepspeed.add_config_arguments(parser)
	args = parser.parse_args()
	assert args.config is not None
	cfg = config.load_cfg_from_cfg_file(args.config)
	if args.opts is not None:
	cfg = config.merge_cfg_from_list(cfg, args.opts)
	return cfg


	# @logger.catch
	# def main():
	# args = get_parser()
	# args.manual_seed = init_random_seed(args.manual_seed)
	# set_random_seed(args.manual_seed, deterministic=True)
	# args.ngpus_per_node = torch.cuda.device_count()
	# args.world_size = args.ngpus_per_node * args.world_size
	# #mp.spawn(main_worker, nprocs=args.ngpus_per_node, args=(args, ))

	def main(args):

	# local rank & global rank
	args.rank = int(os.environ["RANK"])
	args.world_size = int(os.environ['WORLD_SIZE'])
	args.gpu = int(os.environ['LOCAL_RANK'])
	args.output_dir = os.path.join(args.output_folder, args.exp_name)
	args.dist_url = f"tcp://{os.environ['MASTER_ADDR']}:{os.environ['MASTER_PORT']}"
	torch.cuda.set_device(args.gpu)

	# logger
	setup_logger(args.output_dir,
	distributed_rank=args.gpu,
	filename="train.log",
	mode="a")
	# dist init
	# dist.init_process_group(backend=args.dist_backend,
	# init_method=args.dist_url,
	# world_size=args.world_size,
	# rank=args.rank)
	deepspeed.init_distributed(init_method=args.dist_url, #args.dist_backend,
	world_size=args.world_size,
	rank=args.rank)
	print("dist init done")

	# wandb
	if args.rank == 0:
	wandb.init(job_type="training",
	mode="offline",
	config=args,
	project=args.exp_name,
	name=args.exp_name,
	tags=[args.dataset])
	dist.barrier()

	deepspeed_config = {
	"train_batch_size": args.batch_size,
	"gradient_accumulation_steps": 2,
	"fp16": {
	"enabled": True,
	"auto_cast": False,
	"loss_scale": 0,
	"initial_scale_power": 16,
	"loss_scale_window": 1000,
	"hysteresis": 2,
	"consecutive_hysteresis": False,
	"min_loss_scale": 1
	},
	"zero_optimization": {
	"stage": 3,
	"contiguous_gradients": True,
	"overlap_comm": True,
	"reduce_scatter": True,
	"reduce_bucket_size": 5e8,
	"allgather_bucket_size": 5e8,
	"offload_optimizer": {
	"device": "cpu"
	},
	"offload_param": {
	"device": "cpu"
	}
	},
	"optimizer": {
	"type": "AdamW",
	"params": {
	"lr": args.lr,
	"weight_decay": args.weight_decay,
	"betas": [
	0.9,
	0.999
	],
	"eps": 1e-8,
	"amsgrad": False
	}
	},
	}

	# build model
	model, param_list = build_segmenter(args)
	# logger.info(model)
	logger.info(args)

	# build optimizer & lr scheduler
	# optimizer = torch.optim.AdamW(param_list,
	# lr=args.lr,
	# weight_decay=args.weight_decay,
	# amsgrad=args.amsgrad
	# )

	# build dataset
	grad_acc_steps = deepspeed_config['gradient_accumulation_steps']
	args.batch_size = int(args.batch_size / args.ngpus_per_node / grad_acc_steps)
	args.batch_size_val = int(args.batch_size_val / args.ngpus_per_node)
	args.workers = int(
	(args.workers + args.ngpus_per_node - 1) / args.ngpus_per_node)
	train_data = RefDataset(lmdb_dir=args.train_lmdb,
	mask_dir=args.mask_root,
	dataset=args.dataset,
	split=args.train_split,
	mode='train',
	input_size=args.input_size,
	word_length=args.word_len,
	args=args)
	val_data = RefDataset(lmdb_dir=args.val_lmdb,
	mask_dir=args.mask_root,
	dataset=args.dataset,
	split=args.val_split,
	mode='val',
	input_size=args.input_size,
	word_length=args.word_len,
	args=args)

	# build dataloader
	init_fn = partial(worker_init_fn,
	num_workers=args.workers,
	rank=args.rank,
	seed=args.manual_seed)
	train_sampler = data.distributed.DistributedSampler(train_data,
	shuffle=True)
	val_sampler = data.distributed.DistributedSampler(val_data, shuffle=False)

	train_loader = data.DataLoader(train_data,
	batch_size=args.batch_size,
	shuffle=False,
	num_workers=args.workers,
	pin_memory=True,
	worker_init_fn=init_fn,
	sampler=train_sampler,
	#collate_fn=collate_fn,
	drop_last=True)
	val_loader = data.DataLoader(val_data,
	batch_size=args.batch_size_val,
	shuffle=False,
	num_workers=args.workers_val,
	pin_memory=True,
	sampler=val_sampler,
	drop_last=False,
	#collate_fn=collate_fn,
	)

	#scheduler = WarmupLR(optimizer)
	scaler = None # amp.GradScaler()
	# torch.optim.lr_scheduler.LambdaLR(optimizer, lambda x: (1 - x / (len(train_loader) * args.epochs)) ** 0.9)
	scheduler = partial(torch.optim.lr_scheduler.LambdaLR,
	lr_lambda=lambda x: (1 - x / (len(train_data)/args.batch_size * args.epochs)) ** 0.9) #len(train_loader)
	model, optimizer, _, scheduler = deepspeed.initialize(model=model,
	config_params=deepspeed_config,
	model_parameters=param_list,
	lr_scheduler=scheduler,
	dist_init_required=True)

	best_IoU = 0.0
	# resume
	if args.resume:
	# if os.path.isfile(args.resume):
	# logger.info("=> loading checkpoint '{}'".format(args.resume))
	# checkpoint = torch.load(
	# args.resume, map_location=lambda storage, loc: storage.cuda())
	# args.start_epoch = checkpoint['epoch']
	# best_IoU = checkpoint["best_iou"]
	# checkpoint['model_state_dict'].pop('decoder.tokens.weight')
	# optimizer.load_state_dict(checkpoint['optimizer'])
	# scheduler.load_state_dict(checkpoint['scheduler'])
	# logger.info("=> loaded checkpoint '{}' (epoch {})".format(
	# args.resume, checkpoint['epoch']))
	if os.path.isfile(args.resume):
	logger.info("=> loading checkpoint '{}'".format(args.resume, args.ckpt_id))
	_, client_sd = model.load_checkpoint(args.resume)
	else:
	raise ValueError(
	"=> resume failed! no checkpoint found at '{}'. Please check args.resume again!"
	.format(args.resume))

	# start training
	start_time = time.time()
	for epoch in range(args.start_epoch, args.epochs):
	epoch_log = epoch + 1

	# shuffle loader
	train_sampler.set_epoch(epoch_log)

	# train
	train(train_loader, model, optimizer, scheduler, scaler, epoch_log, args)

	# evaluation
	iou, prec_dict = validate(val_loader, model, epoch_log, args)
	# save model
	# if dist.get_rank() == 0:
	# lastname = os.path.join(args.output_dir, "last_model.pth")
	# torch.save(
	# {
	# 'epoch': epoch_log,
	# 'cur_iou': iou,
	# 'best_iou': best_IoU,
	# 'prec': prec_dict,
	# 'model_state_dict': model.module.state_dict(),
	# 'optimizer': optimizer.state_dict(),
	# 'scheduler': scheduler.state_dict()
	# }, lastname)
	# if iou >= best_IoU and epoch_log<50:
	# best_IoU = iou
	# bestname = os.path.join(args.output_dir, "best_model.pth")
	# shutil.copyfile(lastname, bestname)

	if dist.get_rank()==0:
	found_best_epoch = [(iou>=best_IoU and epoch_log<50)]
	else:
	found_best_epoch = [False]
	dist.broadcast_object_list(found_best_epoch, src=0, device=model.device)

	model.save_checkpoint(args.output_dir, "last_model")
	if found_best_epoch[0]:
	model.save_checkpoint(args.output_dir, "best_model")

	torch.cuda.empty_cache()

	time.sleep(2)
	if dist.get_rank() == 0:
	wandb.finish()

	logger.info("* Best IoU={} * ".format(best_IoU))
	total_time = time.time() - start_time
	total_time_str = str(datetime.timedelta(seconds=int(total_time)))
	logger.info('* Training time {} *'.format(total_time_str))


	if __name__ == '__main__':
	args = get_parser()
	args.manual_seed = init_random_seed(args.manual_seed)
	set_random_seed(args.manual_seed, deterministic=True)
	args.ngpus_per_node = torch.cuda.device_count()
	args.world_size = args.ngpus_per_node * args.world_size
	#mp.spawn(main_worker, nprocs=args.ngpus_per_node, args=(args, ))
	main(args)
	sys.exit(0)