Spaces:

AGLO-AI
/

raster2seq

Runtime error

raster2seq / main_ddp.py

anas

Initial deployment of Raster2Seq floor plan vectorization API

fadb92b about 1 month ago

27.6 kB

	import argparse
	import copy
	import datetime
	import json
	import os
	import random
	import time
	from pathlib import Path

	import numpy as np
	import torch
	import torch.distributed as dist
	from torch.nn import functional as F
	from torch.nn.parallel import DistributedDataParallel as DDP
	from torch.utils.data import DataLoader
	from torch.utils.data.distributed import DistributedSampler

	import util.misc as utils
	import wandb
	from datasets import build_dataset
	from engine import evaluate, train_one_epoch
	from models import build_model


	def get_args_parser():
	parser = argparse.ArgumentParser("Raster2Seq training script", add_help=False)
	parser.add_argument("--lr", default=2e-4, type=float)
	parser.add_argument("--lr_backbone_names", default=["backbone.0"], type=str, nargs="+")
	parser.add_argument("--lr_backbone", default=2e-5, type=float)
	parser.add_argument("--lr_linear_proj_names", default=["sampling_offsets"], type=str, nargs="+")
	parser.add_argument("--lr_linear_proj_mult", default=0.1, type=float)
	parser.add_argument("--batch_size", default=10, type=int)
	parser.add_argument("--weight_decay", default=1e-4, type=float)
	parser.add_argument("--epochs", default=500, type=int)
	parser.add_argument("--lr_drop", default="400", type=str)
	parser.add_argument("--clip_max_norm", default=0.1, type=float, help="gradient clipping max norm")

	parser.add_argument("--sgd", action="store_true")

	parser.add_argument("--input_channels", default=1, type=int)
	parser.add_argument("--start_from_checkpoint", default="", help="resume from checkpoint")
	parser.add_argument("--image_norm", action="store_true")
	parser.add_argument("--debug", action="store_true")
	parser.add_argument("--eval_every_epoch", type=int, default=20)
	parser.add_argument("--ckpt_every_epoch", type=int, default=20)
	parser.add_argument("--label_smoothing", type=float, default=0.0)
	parser.add_argument("--ignore_index", type=int, default=-1)
	parser.add_argument("--image_size", type=int, default=256)
	parser.add_argument("--ema4eval", action="store_true")
	parser.add_argument("--increase_cls_loss_coef", default=1.0, type=float)
	parser.add_argument("--increase_cls_loss_coef_epoch_ratio", default=-1, type=float)
	parser.add_argument("--use_anchor", action="store_true")
	parser.add_argument("--disable_wd_as_line", action="store_true")
	parser.add_argument("--wd_only", action="store_true")
	parser.add_argument("--converter_version", type=str, default="v1")
	parser.add_argument("--freeze_anchor", action="store_true")
	parser.add_argument("--inject_cls_embed", action="store_true")
	parser.add_argument(
	"--random_drop_rate", type=float, default=0.0, help="randomly drop some polygons during training"
	)

	# raster2seq
	parser.add_argument("--poly2seq", action="store_true")
	parser.add_argument("--seq_len", type=int, default=1024)
	parser.add_argument("--num_bins", type=int, default=64)
	parser.add_argument("--pre_decoder_pos_embed", action="store_true")
	parser.add_argument("--learnable_dec_pe", action="store_true")
	parser.add_argument("--dec_qkv_proj", action="store_true")
	parser.add_argument("--dec_attn_concat_src", action="store_true")
	parser.add_argument("--per_token_sem_loss", action="store_true")
	parser.add_argument("--add_cls_token", action="store_true")
	parser.add_argument("--jointly_train", action="store_true")

	# parser.add_argument('--use_room_attn_at_last_dec_layer', default=False, action='store_true', help="use room-wise attention in last decoder layer")

	# backbone
	parser.add_argument("--backbone", default="resnet50", type=str, help="Name of the convolutional backbone to use")
	parser.add_argument(
	"--dilation",
	action="store_true",
	help="If true, we replace stride with dilation in the last convolutional block (DC5)",
	)
	parser.add_argument(
	"--position_embedding",
	default="sine",
	type=str,
	choices=("sine", "learned"),
	help="Type of positional embedding to use on top of the image features",
	)
	parser.add_argument("--position_embedding_scale", default=2 * np.pi, type=float, help="position / size * scale")
	parser.add_argument("--num_feature_levels", default=4, type=int, help="number of feature levels")

	# Transformer
	parser.add_argument("--enc_layers", default=6, type=int, help="Number of encoding layers in the transformer")
	parser.add_argument("--dec_layers", default=6, type=int, help="Number of decoding layers in the transformer")
	parser.add_argument(
	"--dim_feedforward",
	default=1024,
	type=int,
	help="Intermediate size of the feedforward layers in the transformer blocks",
	)
	parser.add_argument(
	"--hidden_dim", default=256, type=int, help="Size of the embeddings (dimension of the transformer)"
	)
	parser.add_argument("--dropout", default=0.1, type=float, help="Dropout applied in the transformer")
	parser.add_argument(
	"--nheads", default=8, type=int, help="Number of attention heads inside the transformer's attentions"
	)
	parser.add_argument(
	"--num_queries",
	default=800,
	type=int,
	help="Number of query slots (num_polys * max. number of corner per poly)",
	)
	parser.add_argument("--num_polys", default=20, type=int, help="Number of maximum number of room polygons")
	parser.add_argument("--dec_n_points", default=4, type=int)
	parser.add_argument("--enc_n_points", default=4, type=int)
	parser.add_argument(
	"--query_pos_type",
	default="sine",
	type=str,
	choices=("static", "sine", "none"),
	help="Type of query pos in decoder - \
	1. static: same setting with DETR and Deformable-DETR, the query_pos is the same for all layers \
	2. sine: since embedding from reference points (so if references points update, query_pos also \
	3. none: remove query_pos",
	)
	parser.add_argument(
	"--with_poly_refine",
	default=True,
	action="store_true",
	help="iteratively refine reference points (i.e. positional part of polygon queries)",
	)
	parser.add_argument(
	"--masked_attn",
	default=False,
	action="store_true",
	help="if true, the query in one room will not be allowed to attend other room",
	)
	parser.add_argument(
	"--semantic_classes",
	default=-1,
	type=int,
	help="Number of classes for semantically-rich floorplan: \
	1. default -1 means non-semantic floorplan \
	2. 19 for Structured3D: 16 room types + 1 door + 1 window + 1 empty",
	)
	parser.add_argument(
	"--disable_poly_refine",
	action="store_true",
	help="iteratively refine reference points (i.e. positional part of polygon queries)",
	)

	# loss
	parser.add_argument(
	"--no_aux_loss",
	dest="aux_loss",
	action="store_true",
	help="Disables auxiliary decoding losses (loss at each layer)",
	)

	# matcher
	parser.add_argument("--set_cost_class", default=2, type=float, help="Class coefficient in the matching cost")
	parser.add_argument("--set_cost_coords", default=5, type=float, help="L1 coords coefficient in the matching cost")

	# loss coefficients
	parser.add_argument("--cls_loss_coef", default=2, type=float)
	parser.add_argument("--room_cls_loss_coef", default=0.2, type=float)
	parser.add_argument("--coords_loss_coef", default=5, type=float)
	parser.add_argument("--raster_loss_coef", default=0, type=float)

	# dataset parameters
	parser.add_argument("--dataset_name", default="stru3d")
	parser.add_argument("--dataset_root", default="data/stru3d", type=str)

	parser.add_argument("--output_dir", default="output", help="path where to save, empty for no saving")
	parser.add_argument("--device", default="cuda", help="device to use for training / testing")
	parser.add_argument("--seed", default=42, type=int)
	parser.add_argument("--resume", default="", help="resume from checkpoint")
	parser.add_argument("--start_epoch", default=0, type=int, metavar="N", help="start epoch")
	parser.add_argument("--num_workers", default=2, type=int)
	parser.add_argument("--job_name", default="train_stru3d", type=str)

	return parser


	def main(args):

	print("git:\n {}\n".format(utils.get_sha()))

	print(args)
	# Setup DDP:
	dist.init_process_group("nccl")
	rank = dist.get_rank()
	device = rank % torch.cuda.device_count()
	seed = args.seed * dist.get_world_size() + rank
	# fix the seed for reproducibility
	torch.manual_seed(seed)
	np.random.seed(seed)
	random.seed(seed)
	torch.cuda.set_device(device)
	print(f"Starting rank={rank}, seed={seed}, world_size={dist.get_world_size()}.")

	# setup wandb for logging
	if rank == 0:
	utils.setup_wandb()
	wandb.init(project="Raster2Seq", resume="allow", id=args.run_name, dir="./wandb")

	# build dataset and dataloader
	dataset_train = build_dataset(image_set="train", args=args)
	dataset_val = build_dataset(image_set="val", args=args)
	tokenizer = None
	if args.poly2seq:
	args.vocab_size = dataset_train.get_vocab_size()
	tokenizer = dataset_train.get_tokenizer()

	# overfit one sample
	if args.debug:
	dataset_val = torch.utils.data.Subset(copy.deepcopy(dataset_val), [0])
	dataset_train = copy.deepcopy(dataset_val)

	sampler_train = DistributedSampler(
	dataset_train, num_replicas=dist.get_world_size(), rank=rank, shuffle=True, seed=args.seed
	)
	sampler_val = DistributedSampler(
	dataset_val, num_replicas=dist.get_world_size(), rank=rank, shuffle=False, seed=args.seed
	)

	def trivial_batch_collator(batch):
	"""
	A batch collator that does nothing.
	"""
	if "target_seq" in batch[0]:
	# Concatenate tensors for each key in the batch
	delta_x1 = torch.stack([item["delta_x1"] for item in batch], dim=0)
	delta_x2 = torch.stack([item["delta_x2"] for item in batch], dim=0)
	delta_y1 = torch.stack([item["delta_y1"] for item in batch], dim=0)
	delta_y2 = torch.stack([item["delta_y2"] for item in batch], dim=0)
	seq11 = torch.stack([item["seq11"] for item in batch], dim=0)
	seq21 = torch.stack([item["seq21"] for item in batch], dim=0)
	seq12 = torch.stack([item["seq12"] for item in batch], dim=0)
	seq22 = torch.stack([item["seq22"] for item in batch], dim=0)
	target_seq = torch.stack([item["target_seq"] for item in batch], dim=0)
	token_labels = torch.stack([item["token_labels"] for item in batch], dim=0)
	mask = torch.stack([item["mask"] for item in batch], dim=0)
	target_polygon_labels = torch.stack([item["target_polygon_labels"] for item in batch], dim=0)
	# input_polygon_labels = torch.stack([item['input_polygon_labels'] for item in batch], dim=0)

	# Delete the keys from the batch
	for item in batch:
	del item["delta_x1"]
	del item["delta_x2"]
	del item["delta_y1"]
	del item["delta_y2"]
	del item["seq11"]
	del item["seq21"]
	del item["seq12"]
	del item["seq22"]
	del item["target_seq"]
	del item["token_labels"]
	del item["mask"]
	del item["target_polygon_labels"]
	# del item['input_polygon_labels']

	# Return the concatenated batch
	return batch, {
	"delta_x1": delta_x1,
	"delta_x2": delta_x2,
	"delta_y1": delta_y1,
	"delta_y2": delta_y2,
	"seq11": seq11,
	"seq21": seq21,
	"seq12": seq12,
	"seq22": seq22,
	"target_seq": target_seq,
	"token_labels": token_labels,
	"mask": mask,
	"target_polygon_labels": target_polygon_labels,
	# 'input_polygon_labels': input_polygon_labels,
	}

	return batch, None

	data_loader_train = DataLoader(
	dataset_train,
	args.batch_size,
	shuffle=False,
	sampler=sampler_train,
	num_workers=args.num_workers,
	collate_fn=trivial_batch_collator,
	pin_memory=True,
	drop_last=True,
	)
	data_loader_val = DataLoader(
	dataset_val,
	args.batch_size,
	shuffle=False,
	sampler=sampler_val,
	collate_fn=trivial_batch_collator,
	num_workers=args.num_workers,
	pin_memory=True,
	drop_last=False,
	)

	# build model
	model, criterion = build_model(args, tokenizer=tokenizer)
	ema = copy.deepcopy(model).to(device)
	utils.requires_grad(ema, False)
	model = DDP(model.to(device), device_ids=[rank], find_unused_parameters=True)

	n_parameters = sum(p.numel() for p in model.parameters() if p.requires_grad)
	print("number of params:", n_parameters)

	def match_name_keywords(n, name_keywords):
	out = False
	for b in name_keywords:
	if b in n:
	out = True
	break
	return out

	for n, p in model.named_parameters():
	print(n)

	if args.per_token_sem_loss and not args.jointly_train:
	# disable gradient for model, except new classifier
	for n, p in model.named_parameters():
	if "room_class_embed" in n:
	p.requires_grad = True
	else:
	p.requires_grad = False

	param_dicts = [
	{
	"params": [
	p
	for n, p in model.named_parameters()
	if not match_name_keywords(n, args.lr_backbone_names)
	and not match_name_keywords(n, args.lr_linear_proj_names)
	and p.requires_grad
	],
	"lr": args.lr,
	},
	{
	"params": [
	p
	for n, p in model.named_parameters()
	if match_name_keywords(n, args.lr_backbone_names) and p.requires_grad
	],
	"lr": args.lr_backbone,
	},
	{
	"params": [
	p
	for n, p in model.named_parameters()
	if match_name_keywords(n, args.lr_linear_proj_names) and p.requires_grad
	],
	"lr": args.lr * args.lr_linear_proj_mult,
	},
	]
	print(f"Rank {dist.get_rank()}: Model has {sum(p.numel() for p in model.parameters())} parameters")

	if args.sgd:
	optimizer = torch.optim.SGD(param_dicts, lr=args.lr, momentum=0.9, weight_decay=args.weight_decay)
	else:
	optimizer = torch.optim.AdamW(param_dicts, lr=args.lr, weight_decay=args.weight_decay)

	if args.lr_drop:
	lr_scheduler = torch.optim.lr_scheduler.MultiStepLR(optimizer, args.lr_drop)
	else:
	lr_scheduler = None

	output_dir = Path(args.output_dir)
	if args.resume and os.path.exists(args.resume):
	checkpoint = torch.load(args.resume, map_location="cpu")
	for key, value in checkpoint["model"].items():
	if key.startswith("module."):
	checkpoint[key[7:]] = checkpoint["model"][key]
	del checkpoint[key]
	missing_keys, unexpected_keys = model.module.load_state_dict(checkpoint["model"], strict=False)
	unexpected_keys = [k for k in unexpected_keys if not (k.endswith("total_params") or k.endswith("total_ops"))]
	if len(missing_keys) > 0:
	print("Missing Keys: {}".format(missing_keys))
	raise ValueError("Missing keys in state_dict")
	if len(unexpected_keys) > 0:
	print("Unexpected Keys: {}".format(unexpected_keys))
	if "optimizer" in checkpoint and "lr_scheduler" in checkpoint and "epoch" in checkpoint:
	p_groups = copy.deepcopy(optimizer.param_groups)
	optimizer.load_state_dict(checkpoint["optimizer"])
	for pg, pg_old in zip(optimizer.param_groups, p_groups):
	pg["lr"] = pg_old["lr"]
	if "initial_lr" in pg_old:
	pg["initial_lr"] = pg_old["initial_lr"]
	# print(optimizer.param_groups)
	if lr_scheduler is not None and checkpoint["lr_scheduler"] is not None:
	lr_scheduler.load_state_dict(checkpoint["lr_scheduler"])
	# todo: this is a hack for doing experiment that resume from checkpoint and also modify lr scheduler (e.g., decrease lr in advance).
	args.override_resumed_lr_drop = False
	if args.override_resumed_lr_drop:
	print(
	"Warning: (hack) args.override_resumed_lr_drop is set to True, so args.lr_drop would override lr_drop in resumed lr_scheduler."
	)
	lr_scheduler.step_size = args.lr_drop
	if lr_scheduler is not None:
	lr_scheduler.base_lrs = list(map(lambda group: group["initial_lr"], optimizer.param_groups))

	if lr_scheduler is not None:
	lr_scheduler.step(lr_scheduler.last_epoch)
	args.start_epoch = checkpoint["epoch"] + 1

	# # check the resumed model
	# test_stats = evaluate(
	# model, criterion, args.dataset_name, data_loader_val, device, poly2seq=args.poly2seq
	# )
	dist.barrier()

	if args.start_from_checkpoint:
	checkpoint = torch.load(args.start_from_checkpoint, map_location="cpu")["model"]
	for key, value in checkpoint.items():
	if key.startswith("class_embed"):
	if checkpoint[key].size(0) != model.module.num_classes:
	if "weight" in key:
	checkpoint[key] = torch.cat(
	[checkpoint[key], torch.zeros((1, checkpoint[key].size(1)), dtype=torch.float)], dim=0
	)
	else:
	checkpoint[key] = torch.cat([checkpoint[key], torch.zeros([1], dtype=torch.float)], dim=0)
	elif "token_embed" in key:
	if checkpoint[key].size(0) != model.module.transformer.decoder.token_embed.weight.size(0):
	checkpoint[key] = torch.cat(
	[checkpoint[key], torch.zeros((1, checkpoint[key].size(1)), dtype=torch.float)], dim=0
	)
	elif "pos_embed" in key and checkpoint[key].shape[1] != model.module.transformer.pos_embed.shape[1]:
	checkpoint[key] = model.module.transformer.pos_embed
	elif "attention_mask" in key and checkpoint[key].shape[0] != model.module.attention_mask.shape[0]:
	checkpoint[key] = model.module.attention_mask
	elif key.startswith("input_proj") and key.endswith("weight"):
	# only modify the conv layer
	lidx, sub_lidx = int(key.split(".")[1]), int(key.split(".")[2])
	if sub_lidx != 0:
	continue
	tgt_size = model.module.input_proj[lidx][0].weight.size(2)
	if tgt_size != checkpoint[key].size(2):
	checkpoint[key] = F.interpolate(
	checkpoint[key], size=(tgt_size, tgt_size), mode="bilinear", align_corners=False
	)
	elif "sampling_offsets" in key:
	diff_scale = model.module.transformer.encoder.layers[0].self_attn.sampling_offsets.weight.size(
	0
	) // checkpoint[key].size(0)
	if diff_scale > 1:
	if ".weight" in key:
	checkpoint[key] = checkpoint[key].repeat((diff_scale, 1))
	else:
	checkpoint[key] = checkpoint[key].repeat((diff_scale,))
	elif "attention_weights" in key:
	diff_scale = model.module.transformer.encoder.layers[0].self_attn.attention_weights.weight.size(
	0
	) // checkpoint[key].size(0)
	if diff_scale > 1:
	if ".weight" in key:
	checkpoint[key] = checkpoint[key].repeat((diff_scale, 1))
	else:
	checkpoint[key] = checkpoint[key].repeat((diff_scale,))

	missing_keys, unexpected_keys = model.module.load_state_dict(checkpoint, strict=False)
	unexpected_keys = [k for k in unexpected_keys if not (k.endswith("total_params") or k.endswith("total_ops"))]
	if len(missing_keys) > 0:
	print("Missing Keys: {}".format(missing_keys))
	if len(unexpected_keys) > 0:
	print("Unexpected Keys: {}".format(unexpected_keys))
	dist.barrier()

	# Prepare models for training:
	utils.update_ema(ema, model.module, decay=0) # Ensure EMA is initialized with synced weights
	ema.eval()

	print("Start training")
	start_time = time.time()
	for epoch in range(args.start_epoch, args.epochs):
	sampler_train.set_epoch(epoch)
	train_stats = train_one_epoch(
	model,
	criterion,
	data_loader_train,
	optimizer,
	device,
	epoch,
	args.clip_max_norm,
	args.poly2seq,
	ema_model=ema,
	drop_rate=args.random_drop_rate,
	)
	if lr_scheduler is not None:
	lr_scheduler.step()

	if epoch > int(args.increase_cls_loss_coef_epoch_ratio * args.epochs) and args.increase_cls_loss_coef > 1.0:
	criterion._update_ce_coeff(args.increase_cls_loss_coef * args.cls_loss_coef)

	if (epoch + 1) in args.lr_drop or (epoch + 1) % args.ckpt_every_epoch == 0 or (epoch + 1) == args.epochs:
	if rank == 0:
	checkpoint_paths = [output_dir / "checkpoint.pth"]
	# extra checkpoint before LR drop and every 20 epochs
	checkpoint_paths.append(output_dir / f"checkpoint{epoch:04}.pth")
	for checkpoint_path in checkpoint_paths:
	torch.save(
	{
	"model": model.module.state_dict(),
	"ema": ema.state_dict(),
	"optimizer": optimizer.state_dict(),
	"lr_scheduler": None if lr_scheduler is None else lr_scheduler.state_dict(),
	"epoch": epoch,
	"args": args,
	},
	checkpoint_path,
	)
	dist.barrier()

	log_stats = {**{f"train_{k}": v for k, v in train_stats.items()}, "epoch": epoch, "n_parameters": n_parameters}

	if rank == 0:
	wandb.log({"epoch": epoch})
	wandb.log({"lr_rate": train_stats["lr"]})

	train_log_dict = {
	"train/loss": train_stats["loss"],
	"train/loss_ce": train_stats["loss_ce"],
	"train/loss_coords": train_stats["loss_coords"],
	"train/loss_coords_unscaled": train_stats["loss_coords_unscaled"],
	"train/cardinality_error": train_stats["cardinality_error_unscaled"],
	}

	if args.semantic_classes > 0:
	# need to log additional metrics for semantically-rich floorplans
	train_log_dict["train/loss_ce_room"] = train_stats["loss_ce_room"]
	else:
	if "loss_raster" in train_stats:
	# only apply the rasterization loss for non-semantic floorplans
	train_log_dict["train/loss_raster"] = train_stats["loss_raster"]

	if rank == 0:
	wandb.log(train_log_dict)

	# eval every 20
	if (epoch + 1) % args.eval_every_epoch == 0:
	eval_model = model if not args.ema4eval else ema
	test_stats = evaluate(
	eval_model,
	criterion,
	args.dataset_name,
	data_loader_val,
	device,
	plot_density=True,
	output_dir=output_dir,
	epoch=epoch,
	poly2seq=args.poly2seq,
	add_cls_token=args.add_cls_token,
	per_token_sem_loss=args.per_token_sem_loss,
	wd_as_line=not args.disable_wd_as_line,
	)
	log_stats.update(**{f"test_{k}": v for k, v in test_stats.items()})

	val_log_dict = {
	"val/loss": test_stats["loss"],
	"val/loss_ce": test_stats["loss_ce"],
	"val/loss_coords": test_stats["loss_coords"],
	"val/loss_coords_unscaled": test_stats["loss_coords_unscaled"],
	"val/cardinality_error": test_stats["cardinality_error_unscaled"],
	"val_metrics/room_prec": test_stats["room_prec"],
	"val_metrics/room_rec": test_stats["room_rec"],
	"val_metrics/corner_prec": test_stats["corner_prec"],
	"val_metrics/corner_rec": test_stats["corner_rec"],
	"val_metrics/angles_prec": test_stats["angles_prec"],
	"val_metrics/angles_rec": test_stats["angles_rec"],
	}

	if args.semantic_classes > 0:
	# need to log additional metrics for semantically-rich floorplans
	val_log_dict["val/loss_ce_room"] = test_stats["loss_ce_room"]
	val_log_dict["val_metrics/room_sem_prec"] = test_stats["room_sem_prec"]
	val_log_dict["val_metrics/room_sem_rec"] = test_stats["room_sem_rec"]
	if "window_door_prec" in test_stats:
	val_log_dict["val_metrics/window_door_prec"] = test_stats["window_door_prec"]
	val_log_dict["val_metrics/window_door_rec"] = test_stats["window_door_rec"]

	else:
	if "loss_raster" in test_stats:
	# only apply the rasterization loss for non-semantic floorplans
	val_log_dict["val/loss_raster"] = test_stats["loss_raster"]

	if "room_iou" in test_stats:
	val_log_dict["val_metrics/room_iou"] = test_stats["room_iou"]

	if rank == 0:
	wandb.log(val_log_dict)

	if args.output_dir:
	with (output_dir / "log.txt").open("a") as f:
	f.write(json.dumps(log_stats) + "\n")

	total_time = time.time() - start_time
	total_time_str = str(datetime.timedelta(seconds=int(total_time)))
	print("Training time {}".format(total_time_str))

	dist.destroy_process_group()


	if __name__ == "__main__":
	parser = argparse.ArgumentParser("Raster2Seq training script", parents=[get_args_parser()])
	args = parser.parse_args()
	now = datetime.datetime.now()
	# run_id = now.strftime("%Y-%m-%d-%H-%M-%S")
	args.run_name = args.job_name # run_id+'_'+args.job_name
	args.output_dir = os.path.join(args.output_dir, args.run_name)

	args.lr_drop = [] if len(args.lr_drop) == 0 else [int(x) for x in args.lr_drop.split(",")]
	if args.debug:
	args.batch_size = 1
	if args.disable_poly_refine:
	args.with_poly_refine = False

	if args.output_dir:
	Path(args.output_dir).mkdir(parents=True, exist_ok=True)
	main(args)