Spaces:

Honzus24
/

flexpert

Running on Zero

App Files Files Community

flexpert / Flexpert-Design /data_utils.py

Honzus24

initial commit

7968cb0 4 months ago

raw

history blame contribute delete

16.7 kB

	#From https://github.com/JoreyYan/zetadesign/blob/master/data/data.py
	import glob
	import json
	import numpy as np
	import gzip
	import re
	import multiprocessing
	import tqdm
	import shutil
	SENTINEL = 1
	import biotite.structure as struc
	import biotite.application.dssp as dssp
	import biotite.structure.io.pdb.file as file


	def parse_PDB_biounits(x, sse,ssedssp,atoms=['N', 'CA', 'C'], chain=None):
	'''
	input: x = PDB filename
	atoms = atoms to extract (optional)
	output: (length, atoms, coords=(x,y,z)), sequence
	'''

	alpha_1 = list("ARNDCQEGHILKMFPSTWYV-")
	states = len(alpha_1)
	alpha_3 = ['ALA', 'ARG', 'ASN', 'ASP', 'CYS', 'GLN', 'GLU', 'GLY', 'HIS', 'ILE',
	'LEU', 'LYS', 'MET', 'PHE', 'PRO', 'SER', 'THR', 'TRP', 'TYR', 'VAL', 'GAP']

	aa_1_N = {a: n for n, a in enumerate(alpha_1)}
	aa_3_N = {a: n for n, a in enumerate(alpha_3)}
	aa_N_1 = {n: a for n, a in enumerate(alpha_1)}
	aa_1_3 = {a: b for a, b in zip(alpha_1, alpha_3)}
	aa_3_1 = {b: a for a, b in zip(alpha_1, alpha_3)}

	def AA_to_N(x):
	# ["ARND"] -> [[0,1,2,3]]
	x = np.array(x);
	if x.ndim == 0: x = x[None]
	return [[aa_1_N.get(a, states - 1) for a in y] for y in x]

	def N_to_AA(x):
	# [[0,1,2,3]] -> ["ARND"]
	x = np.array(x);
	if x.ndim == 1: x = x[None]
	return ["".join([aa_N_1.get(a, "-") for a in y]) for y in x]

	xyz, seq, plddts, min_resn, max_resn = {}, {}, [], 1e6, -1e6

	pdbcontents = x.split('\n')[0]
	with open(pdbcontents) as f:
	pdbcontents = f.readlines()
	for line in pdbcontents:
	#line = line.decode("utf-8", "ignore").rstrip()

	if line[:6] == "HETATM" and line[17:17 + 3] == "MSE":
	line = line.replace("HETATM", "ATOM ")
	line = line.replace("MSE", "MET")

	if line[:4] == "ATOM":
	ch = line[21:22]
	if ch == chain or chain is None or ch==' ':
	atom = line[12:12 + 4].strip()
	resi = line[17:17 + 3]
	resn = line[22:22 + 5].strip()
	plddt=line[60:60 + 6].strip()



	x, y, z = [float(line[i:(i + 8)]) for i in [30, 38, 46]]

	if resn[-1].isalpha():
	resa, resn = resn[-1], int(resn[:-1]) - 1 # in same pos ,use last atoms
	else:
	resa, resn = "_", int(resn) - 1
	# resn = int(resn)
	if resn < min_resn:
	min_resn = resn
	if resn > max_resn:
	max_resn = resn



	if resn not in xyz:
	xyz[resn] = {}
	if resa not in xyz[resn]:
	xyz[resn][resa] = {}
	if resn not in seq:
	seq[resn] = {}

	if resa not in seq[resn]:
	seq[resn][resa] = resi

	if atom not in xyz[resn][resa]:
	xyz[resn][resa][atom] = np.array([x, y, z])



	# convert to numpy arrays, fill in missing values
	seq_, xyz_ ,sse_,ssedssp_= [], [], [], []
	dsspidx=0
	sseidx=0
	# try:
	# for resn in range(min_resn, max_resn + 1):
	# if resn in seq:
	# for k in sorted(seq[resn]):
	# seq_.append(aa_3_N.get(seq[resn][k], 20))
	# try:
	# if 'CA' in xyz[resn][k]:
	# sse_.append(sse[sseidx])
	# sseidx = sseidx + 1
	# else:
	# sse_.append('-')
	# except:
	# print('error sse')


	# else:
	# seq_.append(20)
	# sse_.append('-')

	# misschianatom = False
	# if resn in xyz:


	# for k in sorted(xyz[resn]):
	# for atom in atoms:
	# if atom in xyz[resn][k]:
	# xyz_.append(xyz[resn][k][atom]) #some will miss C and O ,but sse is normal,because sse just depend on CA
	# else:
	# xyz_.append(np.full(3, np.nan))
	# misschianatom=True
	# if misschianatom:
	# ssedssp_.append('-')
	# misschianatom = False
	# else:
	# try:
	# ssedssp_.append(ssedssp[dsspidx]) # if miss chain atom,xyz ,seq think is ok , but dssp miss this
	# dsspidx = dsspidx + 1
	# except:
	# print(dsspidx)


	# else:
	# for atom in atoms:
	# xyz_.append(np.full(3, np.nan))
	# ssedssp_.append('-')


	# return np.array(xyz_).reshape(-1, len(atoms), 3), N_to_AA(np.array(seq_)),np.array(sse_),np.array(ssedssp_)
	# except TypeError as e:
	# print(f"TypeError: {e}")
	# return 'no_chain', 'no_chain','no_chain'

	for resn in range(int(min_resn), int(max_resn + 1)):
	if resn in seq:
	for k in sorted(seq[resn]):
	seq_.append(aa_3_N.get(seq[resn][k], 20))
	try:
	if 'CA' in xyz[resn][k]:
	sse_.append(sse[sseidx])
	sseidx = sseidx + 1
	else:
	sse_.append('-')
	except:
	print('error sse')


	else:
	seq_.append(20)
	sse_.append('-')

	misschianatom = False
	if resn in xyz:


	for k in sorted(xyz[resn]):
	for atom in atoms:
	if atom in xyz[resn][k]:
	xyz_.append(xyz[resn][k][atom]) #some will miss C and O ,but sse is normal,because sse just depend on CA
	else:
	xyz_.append(np.full(3, np.nan))
	misschianatom=True
	if misschianatom:
	ssedssp_.append('-')
	misschianatom = False
	else:
	try:
	ssedssp_.append(ssedssp[dsspidx]) # if miss chain atom,xyz ,seq think is ok , but dssp miss this
	dsspidx = dsspidx + 1
	except:
	print(dsspidx)


	else:
	for atom in atoms:
	xyz_.append(np.full(3, np.nan))
	ssedssp_.append('-')


	return np.array(xyz_).reshape(-1, len(atoms), 3), N_to_AA(np.array(seq_)),np.array(sse_),np.array(ssedssp_)


	def parse_PDB(path_to_pdb,name, input_chain_list=None):
	"""
	make sure every time just input 1 line
	"""
	c = 0
	pdb_dict_list = []


	if input_chain_list:
	chain_alphabet = input_chain_list
	else:
	init_alphabet = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S',
	'T',
	'U', 'V', 'W', 'X', 'Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm',
	'n',
	'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
	extra_alphabet = [str(item) for item in list(np.arange(300))]
	chain_alphabet = init_alphabet + extra_alphabet

	biounit_names = [path_to_pdb]
	for biounit in biounit_names:
	my_dict = {}
	s = 0
	concat_seq = ''


	for letter in chain_alphabet:

	PDBFile = file.PDBFile.read(biounit)
	array_stack = PDBFile.get_structure(altloc="all")


	sse1 = struc.annotate_sse(array_stack[0], chain_id=letter).tolist()
	if len(sse1)==0:
	sse1 = struc.annotate_sse(array_stack[0], chain_id='').tolist()
	#ssedssp1 = dssp.DsspApp.annotate_sse(array_stack).tolist()
	ssedssp1 = [] #not annotating dssp for now


	xyz, seq, _, _= parse_PDB_biounits(biounit,sse1,ssedssp1,atoms=['N', 'CA', 'C','O'], chain=letter) #TODO: fix the float error
	#ssedssp = sse #faking it for now
	# if len(sse)!=len(seq[0]):
	# xxxx=len(seq[0])
	# print(name)
	#assert len(sse)==len(seq[0])
	#assert len(ssedssp) == len(seq[0])

	if type(xyz) != str:
	concat_seq += seq[0]
	my_dict['seq_chain_' + letter] = seq[0]

	coords_dict_chain = {}
	coords_dict_chain['N'] = xyz[:, 0, :].tolist()
	coords_dict_chain['CA'] = xyz[:, 1, :].tolist()
	coords_dict_chain['C'] = xyz[:, 2, :].tolist()
	coords_dict_chain['O'] = xyz[:, 3, :].tolist()
	my_dict['coords_chain_' + letter] = coords_dict_chain

	#sse=''.join(sse)
	#ssedssp=''.join(ssedssp)
	#my_dict['sse3' ] = sse
	#my_dict['sse8'] = ssedssp
	s += 1
	#fi = biounit.rfind("/")
	my_dict['name'] = name#biounit[(fi + 1):-4]
	my_dict['num_of_chains'] = s
	my_dict['seq'] = concat_seq
	if s <= len(chain_alphabet):
	pdb_dict_list.append(my_dict)
	c += 1
	return pdb_dict_list





	def parse_pdb_split_chain(pdbgzFile):

	with open(pdbgzFile) as f:


	lines = f.readlines()
	# pdbcontent = f.decode()


	pattern = re.compile('ATOM\s+\d+\s\w+\s[A-Z]{3,4}\s(\w)\s.+\n', re.MULTILINE)
	match = list(set(list(pattern.findall(lines[0]))))


	name=pdbgzFile.split('/')[-1]
	#for chain in match:
	# parse_PDB
	# match=[name[4]]
	# match=['A']
	pdb_data=parse_PDB(pdbgzFile,name,match)

	return pdb_data
	def parse_pdb_split_chain_af(pdbgzFile):
	with gzip.open(pdbgzFile, 'rb') as pdbF:
	try:
	pdbcontent = pdbF.read()
	except:
	print(pdbgzFile)

	pdbcontent = pdbcontent.decode()


	pattern = re.compile('ATOM\s+\d+\s\w+\s[A-Z]{3,4}\s(\w)\s.+\n', re.MULTILINE)
	match = list(set(list(pattern.findall(pdbcontent))))


	name=pdbgzFile.split('/')[-1].split('.')[0]
	#for chain in match:
	# parse_PDB
	# match=[name[4]]
	# match=[1]
	pdb_data=parse_PDB('/media/junyu/data/perotin/aftest080_1000/'+pdbgzFile.split('/')[-1].split('.')[0]+'.pdb',name,match)

	return pdb_data

	def parse_pdb_split_chain_af_3dcnn(pdbgzFile):
	with gzip.open(pdbgzFile, 'rb') as pdbF:
	try:
	pdbcontent = pdbF.read()
	except:
	print(pdbgzFile)

	pdbcontent = pdbcontent.decode()


	pattern = re.compile('ATOM\s+\d+\s\w+\s[A-Z]{3,4}\s(\w)\s.+\n', re.MULTILINE)
	match = list(set(list(pattern.findall(pdbcontent))))


	name=pdbgzFile.split('/')[-1].split('.')[0]
	namelist=[]
	for chain in match:
	namelist.append(name+'__'+chain)
	# match=[name[4]]
	# match=[1]



	return namelist
	def run_net(files_path,output_path):
	"""
	input is pdbgz's dir
	from pdb to jsonl
	"""
	list=glob.glob(files_path+'*.pdb')#[:3110]
	data=[]
	for i in tqdm.tqdm(list):
	data_chains=parse_pdb_split_chain(i)
	#for chian in data_chains:
	data.append(data_chains[0])

	print('we want to write now')
	with open(output_path, 'w') as f:
	for entry in data:
	f.write(json.dumps(entry) + '\n')

	f.close()
	print('finished')

	def run_netbyondif(filelist,output_path):
	with open(filelist) as f:

	lines = f.readlines()
	data=[]
	data_1=[]
	# data_2 = []
	# data_3 = []
	# data_4 = []
	# data_5 = []
	# data_6 = []
	# data_7 = []
	# data_8 = []
	# data_9 = []
	# data_10 = []
	nums_dict={1:0,2:0,3:0,4:0,5:0,6:0,7:0,8:0,9:0,10:0,}

	for i in tqdm.tqdm(lines):
	data_chains,match=parse_pdb_split_chain(i.split('"')[1])

	for chian in data_chains:
	for i in match:
	meanplddt = round(float(np.asarray(chian['plddts_chain_' + i]).mean()),2)
	data.append({'name':chian['name'],'lens':len(chian['seq']),'meanplddt':meanplddt})
	if int(meanplddt/10)==1:
	#data_1.append(chian)
	nums_dict[1]=nums_dict[1]+1
	elif int(meanplddt/10)==2:
	#data_2.append(chian)
	nums_dict[2] = nums_dict[2] + 1
	elif int(meanplddt / 10) == 3:
	#data_3.append(chian)
	nums_dict[3] = nums_dict[3] + 1
	elif int(meanplddt / 10) == 4:
	#data_4.append(chian)
	nums_dict[4] = nums_dict[4] + 1
	elif int(meanplddt / 10) == 5:
	#data_5.append(chian)
	nums_dict[5] = nums_dict[5] + 1
	elif int(meanplddt / 10) == 6:
	#data_6.append(chian)
	nums_dict[6] = nums_dict[6] + 1
	elif int(meanplddt / 10) == 7:
	#data_7.append(chian)
	nums_dict[7] = nums_dict[7] + 1
	elif int(meanplddt / 10) == 8:
	#data_8.append(chian)
	nums_dict[8] = nums_dict[8] + 1
	elif int(meanplddt / 10) == 9:
	#data_9.append(chian)
	nums_dict[9] = nums_dict[9] + 1
	elif int(meanplddt / 10) == 10:
	#data_10.append(chian)
	nums_dict[10] = nums_dict[10] + 1
	else:
	print(chian['name'])


	# data.append(chian)
	#
	f.close()
	output_pathindex=output_path+filelist.split('/')[-1].split('.')[0]+'_detail.jsonl'
	print('we want to write now')
	with open(output_pathindex, 'w') as f:
	for entry in data:
	f.write(json.dumps(entry) + '\n')

	f.close()
	#print(nums_dict)
	# count(output_pathindex)
	print('finished')
	def list_of_groups(list_info, per_list_len):
	'''
	:param list_info: 列表
	:param per_list_len: 每个小列表的长度
	:return:
	'''
	list_of_group = zip((iter(list_info),) per_list_len)
	end_list = [list(i) for i in list_of_group] # i is a tuple
	count = len(list_info) % per_list_len
	end_list.append(list_info[-count:]) if count !=0 else end_list
	return end_list

	def count(filelist):
	with open(filelist) as f:

	lines = f.readlines()
	plddts=[]

	for i in tqdm.tqdm(lines):
	pl=json.loads(i)['meanplddt']
	plddts.append(int(pl/10))

	for i in range(10):
	print('counts '+str(i),plddts.count(i))

	def run_net_aftest(files_path,output_path):
	"""
	input is pdbgz's dir
	"""
	with open(files_path) as f:
	lines = f.readlines()
	data=[]
	for i in tqdm.tqdm(lines):

	data_chains=parse_pdb_split_chain_af('/media/junyu/data/point_cloud/'+i.split('"')[1])
	for chian in data_chains:
	data.append(chian)

	# print('we want to write now')
	# with open(output_path, 'w') as f:
	# for entry in data:
	# f.write(json.dumps(entry) + '\n')
	#
	# f.close()
	# print('finished')

	output_pathindex = output_path + str(80) + 'bigthanclass_1000.text'
	print('we want to write now')
	with open(output_pathindex, 'w') as f:
	for entry in data:
	f.write(entry + '\n')


	f.close()

	# if __name__ == "__main__":
	# files_path='/media/junyu/data/perotin/chain_set/AFDATA/details/80bigthanclass_1000.jsonl' #'/home/junyu/下载/splits/'#
	# output_path='/media/junyu/data/perotin/chain_set/'



	# # run_net_aftest(files_path,output_path)

	# fakedata='//home/oem/pdb-tools/pdbtools/fixed/'
	# run_net(fakedata,output_path+'tim184.jsonl')



	#
	# f.close()
	# # print(nums_dict)
	# print('finished ' +str(i))


	# alllist=list_of_groups(lists,10000)

	# for i in range(len(alllist)):
	# thislist=alllist[i]
	# with open(output_path+'_'+str(i)+'.jsonl', 'w') as f:
	# for entry in thislist:
	# f.write(json.dumps(entry) + '\n')
	#
	# f.close()
	# # print(nums_dict)
	# print('finished ' +str(i))

	# _processes = []



	# q = multiprocessing.Queue()
	#
	# proc.start()
	# for eachlist in alllist:
	# _process = multiprocessing.Process(target=run_netbyondif, args=(eachlist,))
	# _process.start()


	# run_netbyondif(lists,output_path)