Spaces:

NTUST-DDRC
/

VTON360

Paused

App Files Files Community

VTON360 / src /multiview_consist_edit /data /MVHumanNet_multi.py

weiyuyeh

fix logic bug

73f0182 8 months ago

raw

history blame contribute delete

17.6 kB

	import os, io, csv, math, random
	import numpy as np
	from PIL import Image,ImageDraw
	import json
	import torch
	import torchvision
	import torchvision.transforms as transforms
	from torch.utils.data.dataset import Dataset
	from transformers import CLIPProcessor
	import random
	from torchvision.transforms import functional as F
	import torch.distributed as dist
	import copy
	import cv2
	import pickle
	from .camera_utils import read_camera_mvhumannet

	def crop_and_resize(img, bbox, size):

	# 计算中心点和新的宽高
	center_x = (bbox[0] + bbox[2]) / 2
	center_y = (bbox[1] + bbox[3]) / 2
	new_height = bbox[3] - bbox[1]
	new_width = int(new_height * (2 / 3))

	# 计算新的边界框
	new_bbox = [
	int(center_x - new_width / 2),
	int(center_y - new_height / 2),
	int(center_x + new_width / 2),
	int(center_y + new_height / 2)
	]

	# 裁剪图像
	cropped_img = img.crop(new_bbox)

	# 调整大小
	resized_img = cropped_img.resize(size)

	return resized_img


	class MVHumanNet_Dataset(Dataset):
	def __init__(
	self, dataroot, sample_size=(512,384), is_train=True, mode='pair', clip_model_path='', multi_length=8, output_front=True,
	):
	im_names = []
	self.dataroot = os.path.join(dataroot, 'processed_mvhumannet')
	self.cloth_root = os.path.join(dataroot, 'cloth')
	self.data_ids = []
	self.data_frame_ids = []
	self.cloth_ids = []
	self.cloth_frame_ids = []
	if is_train:
	f = open(os.path.join(dataroot,'train_frame_ids.txt'))
	for line in f.readlines():
	line_info = line.strip().split()
	self.data_ids.append(line_info[0])
	self.data_frame_ids.append(line_info[1])
	f.close()
	else:
	f = open(os.path.join(dataroot, 'test_ids.txt'))
	for line in f.readlines():
	line_info = line.strip().split()
	self.data_ids.append(line_info[0])
	self.data_frame_ids.append(line_info[1])
	f.close()
	f2 = open(os.path.join(dataroot, 'test_cloth_ids.txt'))
	# f2 = open(os.path.join(dataroot, 'test_mvg_cloth_ids.txt'))
	for line in f2.readlines():
	line_info = line.strip().split()
	self.cloth_ids.append(line_info[0])
	self.cloth_frame_ids.append(line_info[1])
	f2.close()

	self.is_train = is_train
	self.sample_size = sample_size
	self.multi_length = multi_length
	self.clip_image_processor = CLIPProcessor.from_pretrained(clip_model_path,local_files_only=False)

	self.pixel_transforms = transforms.Compose([
	#transforms.Resize((1024,768), interpolation=0),
	#transforms.CenterCrop((int(1024 * 6/8), int(768 * 6/8))),
	transforms.Resize(self.sample_size, interpolation=0),
	# transforms.CenterCrop(self.sample_size),
	transforms.ToTensor(),
	transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5], inplace=True),
	])

	self.pixel_transforms_0 = transforms.Compose([
	transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5], inplace=True),
	])
	self.pixel_transforms_1 = transforms.Compose([
	# transforms.Resize((1024,768), interpolation=0),
	# transforms.CenterCrop((int(1024 * 6/8), int(768 * 6/8))),
	transforms.Resize(self.sample_size, interpolation=0),
	])

	self.ref_transforms_train = transforms.Compose([
	transforms.Resize(self.sample_size),
	# RandomScaleResize([1.0,1.1]),
	# transforms.CenterCrop(self.sample_size),
	transforms.RandomAffine(degrees=0, translate=(0.08,0.08),scale=(0.9,1.1)),
	transforms.ToTensor(),
	transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5], inplace=True),
	])
	self.ref_transforms_test = transforms.Compose([
	transforms.Resize(self.sample_size),
	transforms.ToTensor(),
	transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5], inplace=True),
	])
	self.output_front = output_front

	def __len__(self):
	if len(self.cloth_ids) >= 1:
	return len(self.data_ids)*len(self.cloth_ids)
	else:
	return len(self.data_ids)

	def __getitem__(self, idx):

	if len(self.cloth_ids) >=1:
	data_idx = idx // len(self.cloth_ids)
	cloth_idx = idx % len(self.cloth_ids)

	data_id = self.data_ids[data_idx]
	frame_id = self.data_frame_ids[data_idx]
	cloth_id = self.cloth_ids[cloth_idx]
	cloth_frame_id = self.cloth_frame_ids[cloth_idx]
	cloth_name_front = os.path.join(self.cloth_root, '%s_%s_front.jpg' % (cloth_id, cloth_frame_id)) # 实际是反的
	cloth_name_back = os.path.join(self.cloth_root, '%s_%s_back.jpg' % (cloth_id, cloth_frame_id))
	else:
	data_id = self.data_ids[idx]
	frame_id = self.data_frame_ids[idx]
	cloth_name_front = os.path.join(self.cloth_root, '%s_%s_front.jpg' % (data_id, frame_id)) # 实际是反的
	cloth_name_back = os.path.join(self.cloth_root, '%s_%s_back.jpg' % (data_id, frame_id))

	# cloth_name_front = os.path.join(self.cloth_root, '%s_%s_front.jpg' % ('100030', '0540'))
	# cloth_name_back = os.path.join(self.cloth_root, '%s_%s_back.jpg' % ('100030', '0540'))

	images_root = os.path.join(self.dataroot, data_id, 'agnostic', frame_id)
	images = sorted(os.listdir(images_root))

	if self.is_train:
	check_images = []
	for image in images:
	if 'CC32871A015' not in image:
	check_images.append(image)
	select_images = random.sample(check_images, self.multi_length)

	else:
	# front
	front_cameras = [
	'CC32871A005','CC32871A016','CC32871A017','CC32871A023','CC32871A027',
	'CC32871A030','CC32871A032','CC32871A033','CC32871A034','CC32871A035',
	'CC32871A038','CC32871A050','CC32871A051','CC32871A052','CC32871A059', 'CC32871A060'
	]
	back_cameras = [
	'CC32871A004','CC32871A010', 'CC32871A013', 'CC32871A022', 'CC32871A029',
	'CC32871A031','CC32871A037', 'CC32871A039', 'CC32871A040', 'CC32871A044',
	'CC32871A046','CC32871A048', 'CC32871A055', 'CC32871A057', 'CC32871A058', 'CC32871A041'
	]
	select_images = []
	for image in images:
	camera_id = image.split('_')[0]
	if camera_id in front_cameras and self.output_front:
	select_images.append(image)
	if camera_id in back_cameras and not self.output_front:
	select_images.append(image)
	select_images = sorted(select_images)
	# print(select_images)
	for i in range(len(select_images)):
	select_images[i] = os.path.join(data_id,'resized_img', frame_id, select_images[i])
	sample = self.load_images(select_images, data_id, cloth_name_front, cloth_name_back)
	return sample

	def load_images(self, select_images, data_id, cloth_name_front, cloth_name_back):

	pixel_values_list = []
	pixel_values_pose_list = []
	camera_parm_list = []
	pixel_values_agnostic_list = []
	image_name_list = []

	# load camera info
	intri_name = os.path.join(self.dataroot, data_id, 'camera_intrinsics.json')
	extri_name = os.path.join(self.dataroot, data_id, 'camera_extrinsics.json')
	camera_scale_fn = os.path.join(self.dataroot, data_id, 'camera_scale.pkl')
	camera_scale = pickle.load(open(camera_scale_fn, "rb"))
	cameras_gt = read_camera_mvhumannet(intri_name, extri_name, camera_scale)

	# load person data
	for img_name in select_images:
	camera_id = img_name.split('/')[-1].split('_')[0]

	# load data
	image_name_list.append(img_name)
	pixel_values = Image.open(os.path.join(self.dataroot, img_name))
	pixel_values_pose = Image.open(os.path.join(self.dataroot, img_name).replace('resized_img', 'normals').replace('.jpg','_normal.jpg'))
	pixel_values_agnostic = Image.open(os.path.join(self.dataroot, img_name).replace('resized_img', 'agnostic'))
	parm_matrix = cameras_gt[camera_id]['RT'] # extrinsic

	# crop pose
	annot_path = os.path.join(self.dataroot, img_name.replace('resized_img', 'annots').replace('.jpg','.json'))
	annot_info = json.load(open(annot_path))
	bbox = annot_info['annots'][0]['bbox']
	width = annot_info['width']
	if width == 4096 or width == 2448:
	for i in range(4):
	bbox[i] = bbox[i] // 2
	elif width == 2048:
	pass
	else:
	print('wrong annot size',img_path)
	pixel_values_pose = crop_and_resize(pixel_values_pose, bbox, size=self.sample_size)

	# camera parameter
	parm_matrix = torch.tensor(parm_matrix)
	camera_parm = parm_matrix[:3,:3].reshape(-1) # todo

	# transform
	pixel_values = self.pixel_transforms(pixel_values)
	pixel_values_pose = self.pixel_transforms(pixel_values_pose)
	pixel_values_agnostic = self.pixel_transforms(pixel_values_agnostic)

	pixel_values_list.append(pixel_values)
	pixel_values_pose_list.append(pixel_values_pose)
	camera_parm_list.append(camera_parm)
	pixel_values_agnostic_list.append(pixel_values_agnostic)

	pixel_values = torch.stack(pixel_values_list)
	pixel_values_pose = torch.stack(pixel_values_pose_list)
	camera_parm = torch.stack(camera_parm_list)
	pixel_values_agnostic = torch.stack(pixel_values_agnostic_list)

	pixel_values_cloth_front = Image.open(cloth_name_front)
	pixel_values_cloth_back = Image.open(cloth_name_back)

	# clip
	clip_ref_front = self.clip_image_processor(images=pixel_values_cloth_front, return_tensors="pt").pixel_values
	clip_ref_back = self.clip_image_processor(images=pixel_values_cloth_back, return_tensors="pt").pixel_values

	if self.is_train:
	pixel_values_cloth_front = self.ref_transforms_train(pixel_values_cloth_front)
	pixel_values_cloth_back = self.ref_transforms_train(pixel_values_cloth_back)
	else:
	pixel_values_cloth_front = self.ref_transforms_test(pixel_values_cloth_front)
	pixel_values_cloth_back = self.ref_transforms_test(pixel_values_cloth_back)

	drop_image_embeds = []
	for k in range(len(select_images)):
	if random.random() < 0.1:
	drop_image_embeds.append(torch.tensor(1))
	else:
	drop_image_embeds.append(torch.tensor(0))
	drop_image_embeds = torch.stack(drop_image_embeds)
	sample = dict(
	pixel_values=pixel_values,
	pixel_values_pose=pixel_values_pose,
	pixel_values_agnostic=pixel_values_agnostic,
	clip_ref_front=clip_ref_front,
	clip_ref_back=clip_ref_back,
	pixel_values_cloth_front=pixel_values_cloth_front,
	pixel_values_cloth_back=pixel_values_cloth_back,
	camera_parm=camera_parm,
	drop_image_embeds=drop_image_embeds,
	img_name=image_name_list,
	cloth_name=cloth_name_front,
	)

	return sample

	def collate_fn(data):

	pixel_values = torch.stack([example["pixel_values"] for example in data])
	pixel_values_pose = torch.stack([example["pixel_values_pose"] for example in data])
	pixel_values_agnostic = torch.stack([example["pixel_values_agnostic"] for example in data])
	clip_ref_front = torch.cat([example["clip_ref_front"] for example in data])
	clip_ref_back = torch.cat([example["clip_ref_back"] for example in data])
	pixel_values_cloth_front = torch.stack([example["pixel_values_cloth_front"] for example in data])
	pixel_values_cloth_back = torch.stack([example["pixel_values_cloth_back"] for example in data])
	camera_parm = torch.stack([example["camera_parm"] for example in data])
	drop_image_embeds = [example["drop_image_embeds"] for example in data]
	drop_image_embeds = torch.stack(drop_image_embeds)
	img_name = []
	cloth_name = []
	for example in data:
	img_name.extend(example['img_name'])
	cloth_name.append(example['cloth_name'])

	return {
	"pixel_values": pixel_values,
	"pixel_values_pose": pixel_values_pose,
	"pixel_values_agnostic": pixel_values_agnostic,
	"clip_ref_front": clip_ref_front,
	"clip_ref_back": clip_ref_back,
	"pixel_values_ref_front": pixel_values_cloth_front,
	"pixel_values_ref_back": pixel_values_cloth_back,
	"camera_parm": camera_parm,
	"drop_image_embeds": drop_image_embeds,
	"img_name": img_name,
	"cloth_name": cloth_name,
	}


	if __name__ == '__main__':
	seed = 20
	random.seed(seed)
	torch.manual_seed(seed)
	torch.cuda.manual_seed(seed)
	dataset = MVHumanNet_Dataset(dataroot="/GPUFS/sysu_gbli2_1/hzj/mvhumannet/",
	sample_size=(768,576),is_train=True,mode='pair',
	clip_model_path = "/GPUFS/sysu_gbli2_1/hzj/pretrained_models/clip-vit-base-patch32")

	# print(len(dataset))

	# for _ in range(500):

	# p = random.randint(0,len(dataset)-1)
	# p = dataset[p]

	test_dataloader = torch.utils.data.DataLoader(
	dataset,
	shuffle=False,
	collate_fn=collate_fn,
	batch_size=1,
	num_workers=2,
	)

	for _, batch in enumerate(test_dataloader):
	# print(batch['cloth_name'], batch['img_name'])
	p = {}
	print('111', batch['camera_parm'].shape)
	print('111', batch['drop_image_embeds'].shape)
	for key in batch.keys():
	p[key] = batch[key][0]
	# p = dataset[12]

	print(p['camera_parm'].shape)

	pixel_values = p['pixel_values'][0].permute(1,2,0).numpy()
	print(p['pixel_values'].shape)
	pixel_values = pixel_values / 2 + 0.5
	pixel_values *=255
	pixel_values = pixel_values.astype(np.uint8)
	pixel_values= Image.fromarray(pixel_values)
	pixel_values.save('pixel_values0.jpg')

	pixel_values_pose = p['pixel_values_pose'][0].permute(1,2,0).numpy()
	print(p['pixel_values_pose'].shape)
	pixel_values_pose = pixel_values_pose / 2 + 0.5
	pixel_values_pose *=255
	pixel_values_pose = pixel_values_pose.astype(np.uint8)
	pixel_values_pose= Image.fromarray(pixel_values_pose)
	pixel_values_pose.save('pixel_values_pose.jpg')

	pixel_values_agnostic = p['pixel_values_agnostic'][0].permute(1,2,0).numpy()
	print(p['pixel_values_agnostic'].shape)
	pixel_values_agnostic = pixel_values_agnostic / 2 + 0.5
	pixel_values_agnostic *=255
	pixel_values_agnostic = pixel_values_agnostic.astype(np.uint8)
	pixel_values_agnostic= Image.fromarray(pixel_values_agnostic)
	pixel_values_agnostic.save('pixel_values_agnostic.jpg')

	pixel_values = p['pixel_values'][2].permute(1,2,0).numpy()
	print(p['pixel_values'].shape)
	pixel_values = pixel_values / 2 + 0.5
	pixel_values *=255
	pixel_values = pixel_values.astype(np.uint8)
	pixel_values= Image.fromarray(pixel_values)
	pixel_values.save('pixel_values2.jpg')

	pixel_values_pose = p['pixel_values_pose'][2].permute(1,2,0).numpy()
	print(p['pixel_values_pose'].shape)
	pixel_values_pose = pixel_values_pose / 2 + 0.5
	pixel_values_pose *=255
	pixel_values_pose = pixel_values_pose.astype(np.uint8)
	pixel_values_pose= Image.fromarray(pixel_values_pose)
	pixel_values_pose.save('pixel_values_pose2.jpg')

	pixel_values_agnostic = p['pixel_values_agnostic'][2].permute(1,2,0).numpy()
	print(p['pixel_values_agnostic'].shape)
	pixel_values_agnostic = pixel_values_agnostic / 2 + 0.5
	pixel_values_agnostic *=255
	pixel_values_agnostic = pixel_values_agnostic.astype(np.uint8)
	pixel_values_agnostic= Image.fromarray(pixel_values_agnostic)
	pixel_values_agnostic.save('pixel_values_agnostic2.jpg')

	pixel_values_cloth_img = p['pixel_values_ref_front'].permute(1,2,0).numpy()
	print(p['pixel_values_ref_front'].shape)
	pixel_values_cloth_img = pixel_values_cloth_img / 2 + 0.5
	pixel_values_cloth_img *=255
	pixel_values_cloth_img = pixel_values_cloth_img.astype(np.uint8)
	pixel_values_cloth_img= Image.fromarray(pixel_values_cloth_img)
	pixel_values_cloth_img.save('pixel_values_cloth_front.jpg')

	pixel_values_cloth_img = p['pixel_values_ref_back'].permute(1,2,0).numpy()
	print(p['pixel_values_ref_back'].shape)
	pixel_values_cloth_img = pixel_values_cloth_img / 2 + 0.5
	pixel_values_cloth_img *=255
	pixel_values_cloth_img = pixel_values_cloth_img.astype(np.uint8)
	pixel_values_cloth_img= Image.fromarray(pixel_values_cloth_img)
	pixel_values_cloth_img.save('pixel_values_cloth_back.jpg')
	exit()