Spaces:

julse
/

maotao

Running

App Files Files Community

maotao / dataset.py

julse

Upload dataset.py

a8bd8e3 verified 3 months ago

raw

history blame contribute delete

111 kB

	#!/usr/bin/env python
	# -- coding: utf-8 --
	"""
	Title : tokenizer.py
	project : minimind_RiboUTR
	Created by: julse
	Created on: 2025/2/12 16:40
	des: TODO
	"""
	from typing import List

	import argparse
	import os

	import pickle
	import random
	import re
	import time
	from collections import defaultdict
	from itertools import chain
	from random import shuffle

	import math
	import numpy as np
	import pandas as pd
	import torch
	from torch.utils.data import Dataset, DataLoader
	import torch.nn.functional as F

	import transformers
	from copy import copy, deepcopy

	from model.codon_attr import Codon

	# for debug only
	os.chdir('../../')
	# print(__file__,os.getcwd())
	import sys

	from utils.ernie_rna.dictionary import Dictionary
	from utils.ernie_rna.position_prob_mask import calculate_mask_prob
	from transformers import DebertaTokenizerFast
	from model.codon_tables import CODON_TO_AA, AA_str, AA_TO_CODONS, reverse_dictionary, create_codon_mask

	# from utils.esm3.tokenizer import EsmSequenceTokenizer

	base_range_lst = [1]
	lamda_lst = [0.8]

	import torch
	from torch.utils.data import Dataset
	import numpy as np
	import pandas as pd



	class BaseDataset(Dataset):
	"""公共基类，包含共享属性和方法"""
	def __init__(
	self,
	tokenizer,
	region: int = 300,
	limit: int = -1,
	return_masked_tokens: bool = False,
	seed: int = 1,
	mask_prob: float = 0.15,
	leave_unmasked_prob: float = 0.1,
	random_token_prob: float = 0.1,
	freq_weighted_replacement: bool = False,
	two_dim_score: bool = False,
	two_dim_mask: int = -1,
	mask_whole_words: torch.Tensor = None,
	):
	# 参数校验
	assert 0.0 < mask_prob < 1.0
	assert 0.0 <= random_token_prob <= 1.0
	assert 0.0 <= leave_unmasked_prob <= 1.0
	assert random_token_prob + leave_unmasked_prob <= 1.0

	# 初始化公共属性
	self.tokenizer = tokenizer
	self.pad_idx = tokenizer.pad_index
	self.mask_idx = tokenizer.mask_index
	self.return_masked_tokens = return_masked_tokens
	self.seed = seed
	self.mask_prob = mask_prob
	self.leave_unmasked_prob = leave_unmasked_prob
	self.random_token_prob = random_token_prob
	self.two_dim_score = two_dim_score
	self.two_dim_mask = two_dim_mask
	self.mask_whole_words = mask_whole_words
	self.region = region
	self.limit = limit

	# 初始化权重（如果需要）
	if random_token_prob > 0.0:
	weights = np.array(tokenizer.count) if freq_weighted_replacement else np.ones(len(tokenizer))
	weights[: tokenizer.nspecial] = 0
	self.weights = weights / weights.sum()

	self.tokenizer.indices['T']=self.tokenizer.indices['U']
	self.amino_acid_to_codons = {}
	for aa, codons in AA_TO_CODONS.items():
	codons_num = []
	for codon in codons:
	codon_num = []
	for base in codon:
	codon_num.append(self.tokenizer.indices[base]) # 如果碱基不在映射中，使用4表示未知
	codons_num.append(codon_num)
	self.amino_acid_to_codons[self.tokenizer.indices[aa.lower()]] = codons_num


	# region === 公共方法 ===
	# @staticmethod
	# def prepare_input_for_ernierna(index, seq_len):
	# shorten_index = index[:seq_len + 2] # 截断到seq_len+2
	# one_d = torch.from_numpy(shorten_index).long().reshape(1, -1)
	# two_d = np.zeros((1, seq_len + 2, seq_len + 2))
	# two_d[0, :, :] = creatmat(shorten_index.astype(int), base_range=1, lamda=0.8)
	# # two_d[:, :, :] = creatmat(shorten_index.astype(int), base_range=1, lamda=0.8)
	# two_d = two_d.transpose(1, 2, 0)
	# two_d = torch.from_numpy(two_d).reshape(1, seq_len + 2, seq_len + 2, 1)
	# return one_d, two_d
	@staticmethod
	def translate(nucleotide_seq,repeate=3):
	amino_acid_list = []
	for i in range(0, len(nucleotide_seq), 3):
	codon = nucleotide_seq[i:i + 3]
	amino_acid_list.append(CODON_TO_AA.get(codon, '-')*repeate)
	amino_acid_seq = ''.join(amino_acid_list)
	return amino_acid_seq

	@staticmethod
	def prepare_input_for_ernierna(index, seq_len): # (1, 1205), 1205
	if index.ndim == 2:
	index = np.squeeze(index)
	shorten_index = index[:seq_len] # 截断到seq_len
	one_d = torch.from_numpy(shorten_index).long().reshape(1, -1)
	two_d = np.zeros((1, seq_len, seq_len))
	two_d[0, :, :] = creatmat(shorten_index.astype(int), base_range=1, lamda=0.8)
	# new_matrix = creatmat(item.numpy(), base_range, lamda) # [1205]
	two_d = two_d.transpose(1, 2, 0)
	two_d = torch.from_numpy(two_d).reshape(1, seq_len, seq_len, 1)
	return one_d, two_d
	def generate_inputs(self,x):
	region = self.region
	# utr5 = x["UTR5"] if 'UTR5' in x else UTR5
	# utr3 = x["UTR3"] if 'UTR3' in x else UTR3
	# cds = x["CDS"] if 'CDS' in x else CDS

	utr5 = x["UTR5"]
	utr3 = x["UTR3"]
	cds = x["CDS"]
	seq = utr5 + cds + utr3
	cds_start = len(utr5)
	cds_stop = len(utr5) + len(cds)

	# utr5 = seq[:cds_start]
	# cds = seq[cds_start:cds_stop]
	# utr3 = seq[cds_stop:]

	utr5_limit = 300 if region > 300 else region
	# seq = self.process_sequence(seq, cds_start, cds_stop, region, '_', '<', '>', 'N', utr5_limit)
	seq = self.process_sequence(seq, cds_start, cds_stop, region, '_', '<', '>', 'N', utr5_limit)
	return seq

	def process_sequence(self,seq, cds_start, cds_stop, region, pad_mark, bos, eos,link,utr5_limit):
	utr5 = seq[:cds_start]
	cds = seq[cds_start:cds_stop]
	utr3 = seq[cds_stop:]

	# utr5 = self.process_utr(utr5, region, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	# cds_h = self.process_utr(cds, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# cds_t = self.process_utr(cds, region, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	# utr3 = self.process_utr(utr3, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# seq = utr5 + cds_h + cds_t + utr3
	# seq = seq[:region2+1]+link3+seq[-region*2-1:]

	utr5 = self.process_utr(utr5, utr5_limit, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	cds_h = self.process_utr(cds, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	cds_t = self.process_utr(cds, region, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	utr3 = self.process_utr(utr3, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	seq = utr5 + cds_h + cds_t + utr3
	seq = seq[:utr5_limit+region+1]+link3+seq[-region2-1:]

	# c1 = seq[cds_start:]
	# c2 = seq[:cds_stop]
	#
	# utr5 = self.process_utr(utr5, utr5_limit, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	# cds_h = self.process_utr(c1, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# cds_t = self.process_utr(c2, region, 'pre', pad_mark=pad_mark, bos=bos, eos=eos) # 这样会导致CDS和UTR混在一起，后面不太好mask猜AA
	# utr3 = self.process_utr(utr3, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# seq = utr5 + cds_h + cds_t + utr3
	# seq = seq[:utr5_limit+region+1]+link3+seq[-region2-1:]

	# utr5 = self.process_utr(utr5, region, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	# utr3 = self.process_utr(utr3, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	#
	# pre_processed = self.process_utr(utr5, region, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	# behind_processed = self.process_utr(utr3, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# # seq = pre_processed + cds_part + behind_processed
	# # seq = seq[:region2+1]+link3+seq[-region*2-1:]
	if isinstance(seq,list):
	seq = np.array(seq)
	return seq



	@staticmethod
	def process_utr(utr, input_len, pad_method, pad_mark='_',bos='<',eos='>'):
	if len(utr) < input_len:
	if pad_method == 'pre':
	padded_utr = pad_mark * (input_len - len(utr)) + bos + utr
	elif pad_method == 'behind':
	padded_utr = utr+eos + pad_mark * (input_len - len(utr))
	else:
	if pad_method == 'pre':
	padded_utr = bos+utr[-input_len:]
	elif pad_method == 'behind':
	padded_utr = utr[:input_len]+eos
	return padded_utr
	# self.process_utr = process_utr
	# @staticmethod
	# def seqs_to_index(sequences, pad_idx=1, unk_idx=3):
	# '''
	# input:
	# sequences: list of string (difference length)
	#
	# return:
	# rna_index: numpy matrix, shape like: [len(sequences), max_seq_len+2]
	# rna_len_lst: list of length
	#
	#
	# examples:
	# rna_index, rna_len_lst = seq_to_index(sequences)
	# for i, (index, seq_len) in enumerate(zip(rna_index, rna_len_lst)):
	# one_d, two_d = prepare_input_for_ernierna(index, seq_len)
	# one_d = one_d.to(device)
	# two_d = two_d.to(device)
	#
	# output = my_model(one_d, two_d, layer_idx=layer_idx).cpu().detach().numpy()
	# '''
	#
	# rna_len_lst = [len(ss) for ss in sequences]
	# max_len = max(rna_len_lst)
	# # assert max_len <= 1022
	# seq_nums = len(rna_len_lst)
	# rna_index = np.ones((seq_nums, max_len + 2))
	# for i in range(seq_nums):
	# for j in range(rna_len_lst[i]): # 4，5，6，7 --->GATC
	# if sequences[i][j] in set("Aa"):
	# rna_index[i][j + 1] = 5
	# elif sequences[i][j] in set("Cc"):
	# rna_index[i][j + 1] = 7
	# elif sequences[i][j] in set("Gg"):
	# rna_index[i][j + 1] = 4
	# elif sequences[i][j] in set('TUtu'):
	# rna_index[i][j + 1] = 6
	# elif sequences[i][j] in set('_'):
	# rna_index[i][j + 1] = pad_idx
	# else:
	# rna_index[i][j + 1] = unk_idx
	# rna_index[i][rna_len_lst[i] + 1] = 2 # add 'eos' token
	# rna_index[:, 0] = 0 # add 'cls' token
	# return rna_index, rna_len_lst

	# @staticmethod
	# def seq_to_rnaindex(seq,pad_idx=1, unk_idx=3):
	# l = len(seq)
	# X = np.ones((1, l + 2))
	# for j in range(l):
	# if seq[j] in set('Aa'):
	# X[0, j + 1] = 5
	# elif seq[j] in set('UuTt'):
	# X[0, j + 1] = 6
	# elif seq[j] in set('Cc'):
	# X[0, j + 1] = 7
	# elif seq[j] in set('Gg'):
	# X[0, j + 1] = 4
	# elif seq[j] in set('_'):
	# X[0,j + 1] = pad_idx
	# else:
	# X[0,j + 1] = unk_idx
	#
	# X[0, l + 1] = 2
	# X[0, 0] = 0
	# return X
	@staticmethod
	def seq_to_rnaindex(seq,pad_idx=1, unk_idx=3):
	# rna_alphabet_list:str="""GAUC_""",

	# '<s>': 0, '<pad>': 1, '</s>': 2, '<unk>': 3,
	# 'G': 4, 'A': 5, 'U': 6, 'C': 7, 'N': 8, '<mask>': 9,
	# 'a': 10, 'y': 29, '*': 30, '-': 31, 'T': 6
	l = len(seq)
	X = np.ones((1, l))
	for j in range(l):
	if seq[j] in set('Aa'):
	X[0, j] = 5
	elif seq[j] in set('UuTt'):
	X[0, j] = 6
	elif seq[j] in set('Cc'):
	X[0, j] = 7
	elif seq[j] in set('Gg'):
	X[0, j] = 4
	elif seq[j] in set('_'):
	X[0,j] = pad_idx
	elif seq[j] in set('<'):
	X[0,j] = 0
	elif seq[j] in set('>'):
	X[0,j] = 2
	else:
	X[0,j] = unk_idx

	# X[0, l + 1] = 2
	# X[0, 0] = 0
	return X
	# def generate_mask(self, X,seq_len):
	# one_d, twod_d = self.prepare_input_for_ernierna(X, seq_len)
	# # return one_d, twod_data # [1,L+2],[1,L+2,L+2,1],[1,L,4]
	# '''generate src_data, tgt_data, twod_data '''
	# item = one_d.view(-1)
	#
	# assert (
	# self.mask_idx not in item
	# ), "Dataset contains mask_idx (={}), this is not expected!".format(
	# self.mask_idx,
	# )
	#
	# if self.mask_whole_words is not None: # todo: check when need
	# word_begins_mask = self.mask_whole_words.gather(0, item)
	# word_begins_idx = word_begins_mask.nonzero().view(-1)
	# sz = len(word_begins_idx)
	# words = np.split(word_begins_mask, word_begins_idx)[1:]
	# assert len(words) == sz
	# word_lens = list(map(len, words))
	#
	# sz = len(item)
	# # decide elements to mask
	# mask = np.full(sz, False)
	#
	# # 找出非 padding 的位置
	# non_pad_indices = np.where(
	# (item != self.tokenizer.pad_index) &
	# (item != self.tokenizer.unk_index)
	# )[0]
	# # 计算需要掩码的数量
	# num_non_pad = len(non_pad_indices)
	# num_mask = int(
	# self.mask_prob * num_non_pad + np.random.rand()
	# )
	#
	# # 在非 padding 的位置中随机选择要掩码的元素,根据position prob 进行mask
	# target_positions = [self.region + 1, self.region *3 + 4]
	# sigma = 90 # 控制概率衰减的速度，数值越小，衰减越快
	# probabilities = np.array([calculate_mask_prob(i, target_positions, sigma) for i in range(sz)])
	# non_pad_probabilities = probabilities[non_pad_indices]
	# non_pad_probabilities = non_pad_probabilities/non_pad_probabilities.sum()
	# if num_non_pad >= 1:
	# mask[non_pad_indices[np.random.choice(num_non_pad, num_mask, replace=False,p=non_pad_probabilities)]] = True
	# # twod_data
	# two_dim_matrix =torch.squeeze(twod_d, dim=-1).numpy()
	# # item_len = len(item.numpy())
	# # two_dim_matrix = np.zeros((len(base_range_lst) * len(lamda_lst), item_len, item_len)) # 只有0和-1
	# padding_dim = 0
	# for base_range in base_range_lst:
	# for lamda in lamda_lst:
	# new_matrix = creatmat(item.numpy(), base_range, lamda)
	# new_matrix[mask, :] = -1
	# new_matrix[:, mask] = -1
	# two_dim_matrix[padding_dim, :, :] = new_matrix
	# padding_dim += 1
	# # use -1 represent mask
	# # matrix[mask,:] = self.two_dim_mask
	# # matrix[:,mask] = self.two_dim_mask
	# # print(two_dim_matrix.shape)
	# twod_data = torch.from_numpy(two_dim_matrix)#.unsqueeze(-1) # [1, L+2, L+2, 1]
	#
	#
	# if self.mask_whole_words is not None:
	# mask = np.repeat(mask, word_lens)
	#
	# new_item = np.full(len(mask), self.pad_idx)
	# new_item[mask] = item[torch.from_numpy(mask.astype(np.uint8)) == 1]
	# tgt_data = torch.from_numpy(new_item)#.unsqueeze(0) # [L,1]
	#
	# # decide unmasking and random replacement
	# rand_or_unmask_prob = self.random_token_prob + self.leave_unmasked_prob
	# if rand_or_unmask_prob > 0.0:
	# rand_or_unmask = mask & (np.random.rand(sz) < rand_or_unmask_prob)
	# if self.random_token_prob == 0.0:
	# unmask = rand_or_unmask
	# rand_mask = None
	# elif self.leave_unmasked_prob == 0.0:
	# unmask = None
	# rand_mask = rand_or_unmask
	# else:
	# unmask_prob = self.leave_unmasked_prob / rand_or_unmask_prob
	# decision = np.random.rand(sz) < unmask_prob
	# unmask = rand_or_unmask & decision
	# rand_mask = rand_or_unmask & (~decision)
	# else:
	# unmask = rand_mask = None
	#
	# if unmask is not None:
	# mask = mask ^ unmask
	#
	# if self.mask_whole_words is not None:
	# mask = np.repeat(mask, word_lens)
	#
	# new_item = np.copy(item)
	# new_item[mask] = self.mask_idx
	# if rand_mask is not None:
	# num_rand = rand_mask.sum()
	# if num_rand > 0:
	# if self.mask_whole_words is not None:
	# rand_mask = np.repeat(rand_mask, word_lens)
	# num_rand = rand_mask.sum()
	# # 以概率突变
	# new_item[rand_mask] = np.random.choice(
	# len(self.tokenizer),
	# num_rand,
	# p=self.weights,
	# )
	# src_data = torch.from_numpy(new_item)#.unsqueeze(0)
	# loss_mask = torch.tensor(mask, dtype=torch.long)#.unsqueeze(0)
	#
	# return src_data,tgt_data,twod_data,loss_mask
	def generate_mask(self, X,seq_len,mask=None,input_mask=True):
	"""

	:param X: seuqnce in number index
	:param seq_len:
	:param mask: 1d mask array, if None, generate by dual center mask
	:param input_mask: true: use 2d mask
	:return:
	"""
	one_d, twod_d = self.prepare_input_for_ernierna(X, seq_len) # X: [1,1205]
	# return one_d, twod_data # [1,L+2],[1,L+2,L+2,1],[1,L,4]
	'''generate src_data, tgt_data, twod_data '''
	item = one_d.view(-1)

	assert (
	self.mask_idx not in item
	), "Dataset contains mask_idx (={}), this is not expected!".format(
	self.mask_idx,
	)

	if self.mask_whole_words is not None: # todo: check when need
	word_begins_mask = self.mask_whole_words.gather(0, item)
	word_begins_idx = word_begins_mask.nonzero().view(-1)
	sz = len(word_begins_idx)
	words = np.split(word_begins_mask, word_begins_idx)[1:]
	assert len(words) == sz
	word_lens = list(map(len, words))

	sz = len(item)
	# decide elements to mask
	if mask is None: # 1D mask
	mask = np.full(sz, False)

	# 找出非 padding 的位置
	non_pad_indices = np.where(
	(item != self.tokenizer.pad_index) &
	(item != self.tokenizer.unk_index)
	)[0] #

	# 计算需要掩码的数量
	num_non_pad = len(non_pad_indices)
	num_mask = int(
	self.mask_prob * num_non_pad + np.random.rand()
	)

	# 在非 padding 的位置中随机选择要掩码的元素,根据position prob 进行mask
	target_positions = [self.region + 1, self.region *3 + 4] # ATG seq[301:301+3], TGG seq[901:901+3]
	sigma = 90 # 控制概率衰减的速度，数值越小，衰减越快
	probabilities = np.array([calculate_mask_prob(i, target_positions, sigma) for i in range(sz)])
	non_pad_probabilities = probabilities[non_pad_indices]
	non_pad_probabilities = non_pad_probabilities/non_pad_probabilities.sum()
	if num_non_pad >= 1:
	mask[non_pad_indices[np.random.choice(num_non_pad, num_mask, replace=False,p=non_pad_probabilities)]] = True
	mask[target_positions[0]:target_positions[0]+3]=False # (301, 304) ATG
	mask[target_positions[1]-3:target_positions[1]]=False # (901, 904) TAA
	mask[target_positions[0]+300:target_positions[0]+303]=False # (601, 604) NNN

	# decide unmasking and random replacement
	rand_or_unmask_prob = self.random_token_prob + self.leave_unmasked_prob
	if rand_or_unmask_prob > 0.0:
	rand_or_unmask = mask & (np.random.rand(sz) < rand_or_unmask_prob)
	if self.random_token_prob == 0.0:
	unmask = rand_or_unmask
	rand_mask = None
	elif self.leave_unmasked_prob == 0.0:
	unmask = None
	rand_mask = rand_or_unmask
	else:
	unmask_prob = self.leave_unmasked_prob / rand_or_unmask_prob
	decision = np.random.rand(sz) < unmask_prob
	unmask = rand_or_unmask & decision
	rand_mask = rand_or_unmask & (~decision)
	else:
	unmask = rand_mask = None

	if unmask is not None:
	mask = mask ^ unmask
	# twod_data
	if input_mask:
	twod_data = self.get_twod_data(item,twod_d.detach(),mask) # mask = [1, 1205, 1205, 1]#
	else:
	twod_data = self.get_twod_data(item,twod_d.detach(),np.zeros_like(mask)) # mask = [1, 1205, 1205, 1]#

	if self.mask_whole_words is not None:
	mask = np.repeat(mask, word_lens)

	# new_item = np.full(len(mask), self.pad_idx)
	# new_item[mask] = item[torch.from_numpy(mask.astype(np.uint8)) == 1]
	# tgt_data = torch.from_numpy(new_item)#.unsqueeze(0) # [L,1]
	tgt_data = item#.unsqueeze(0) # [L,1]


	if self.mask_whole_words is not None:
	mask = np.repeat(mask, word_lens)

	new_item = np.copy(item)
	new_item[mask] = self.mask_idx
	# if rand_mask is not None:
	# num_rand = rand_mask.sum()
	# if num_rand > 0:
	# if self.mask_whole_words is not None:
	# rand_mask = np.repeat(rand_mask, word_lens)
	# num_rand = rand_mask.sum()
	# # 以概率突变
	# new_item[rand_mask] = np.random.choice(
	# 9,#len(self.tokenizer)
	# num_rand,
	# p=self.weights,
	# )
	src_data = torch.from_numpy(new_item)#.unsqueeze(0)
	# loss_mask = torch.tensor(mask, dtype=torch.long)#.unsqueeze(0)
	return src_data,tgt_data,twod_data,mask
	def get_twod_data(self,item,twod_d,mask):
	two_dim_matrix =torch.squeeze(twod_d, dim=-1).numpy()
	# item_len = len(item.numpy())
	# two_dim_matrix = np.zeros((len(base_range_lst) * len(lamda_lst), item_len, item_len)) # 只有0和-1
	padding_dim = 0
	for base_range in base_range_lst:
	for lamda in lamda_lst:
	new_matrix = creatmat(item.numpy(), base_range, lamda)
	new_matrix[mask==1, :] = -1
	new_matrix[:, mask==1] = -1
	two_dim_matrix[padding_dim, :, :] = new_matrix
	padding_dim += 1
	# use -1 represent mask
	# matrix[mask,:] = self.two_dim_mask
	# matrix[:,mask] = self.two_dim_mask
	# print(two_dim_matrix.shape)
	twod_data = torch.from_numpy(two_dim_matrix)#.unsqueeze(-1) # [1, L+2, L+2, 1]
	return twod_data
	@staticmethod
	def read_text_file(file_path):
	try:
	with open(file_path, 'r') as file:
	return [line.strip() for line in file]
	except FileNotFoundError:
	print(f"Error: File '{file_path}' not found.")
	return []

	@staticmethod
	def create_base_prob(target_protein,ith_nn_prob,rna_alphabet,tokenizer):
	mask_nn_logits = torch.full(size=(len(target_protein)*3,len(tokenizer)),fill_value=float("-inf"))
	for i,a in enumerate(target_protein):
	if a not in ith_nn_prob[0]: continue
	for j in range(3):
	for n in rna_alphabet:
	mask_nn_logits[i*3+j,tokenizer.index(n)] = ith_nn_prob[j][a][n]
	return mask_nn_logits
	@staticmethod
	def create_codon_mask(target_protein, backbone_cds, amino_acid_to_codons,
	tokenizer):
	# logits = torch.full()
	# batch_size, seq_length, vocab_size = logits.shape
	seq_length = len(backbone_cds)
	vocab_size = len(tokenizer)
	# mask = torch.full_like(logits, float("-inf"))
	mask = torch.full(size=(seq_length,vocab_size),fill_value=float("-inf"))
	for i, amino_acid in enumerate(target_protein):
	codon_start = i * 3 # 每个氨基酸对应 3 个碱基
	codon_end = codon_start + 3

	if codon_end > seq_length:
	continue # 超出序列长度，跳过

	possible_codons = amino_acid_to_codons.get(amino_acid.item(), [])
	# filter_codons = []
	for pos in range(codon_start, codon_end):
	base_pos = pos % 3 # 当前碱基在密码子中的位置（0, 1, 2）
	for codon in possible_codons:
	flag = True
	for j, nt in enumerate(backbone_cds[codon_start:codon_end]):
	nt = nt.item()
	if tokenizer.mask_index == nt: continue
	if codon[j] != nt:
	flag = False
	# filter_codons.append(codon)
	if flag:
	base_idx = codon[base_pos]
	mask[pos, base_idx] = 0
	# a = mask.numpy()
	return mask
	# endregion

	# region === 需要子类实现的方法 ===
	def load_data(self, path, **kwargs):
	raise NotImplementedError("Subclasses must implement load_data")

	def __getitem__(self, idx):
	raise NotImplementedError("Subclasses must implement __getitem__")
	# endregion

	class RNADataset(BaseDataset):
	"""处理RNA序列的Dataset"""
	def __init__(
	self,
	path,
	tokenizer,
	region: int = 300,
	limit: int = -1,
	return_masked_tokens: bool = False,
	seed: int = 1,
	mask_prob: float = 0.15,
	leave_unmasked_prob: float = 0.1,
	random_token_prob: float = 0.1,
	freq_weighted_replacement: bool = False,
	two_dim_score: bool = False,
	two_dim_mask: int = -1,
	mask_whole_words: torch.Tensor = None,
	):
	# 调用父类初始化
	super().__init__(
	tokenizer=tokenizer,
	region=region,
	limit=limit,
	return_masked_tokens=return_masked_tokens,
	seed=seed,
	mask_prob=mask_prob,
	leave_unmasked_prob=leave_unmasked_prob,
	random_token_prob=random_token_prob,
	freq_weighted_replacement=freq_weighted_replacement,
	two_dim_score=two_dim_score,
	two_dim_mask=two_dim_mask,
	mask_whole_words=mask_whole_words,
	)

	# 加载数据
	self.samples = self.load_data(path, region=self.region, limit=limit)

	def load_data(self, path, region=300, limit=-1):
	return self.read_fasta_file(path, region=region, limit=limit)

	@staticmethod
	def read_fasta_file(file_path, region=300, cds_min=100, limit=-1):
	'''
	input:
	file_path: str, fasta file path of input seqs

	return:
	seqs_dict: dict[str], dict of seqs

	{
	'ENST00000231420.11': { # 转录本的标识符
	'cds_start': 57, # CDS的起始位置（基于0的索引）
	'cds_stop': 1599, # CDS的终止位置（不包括该位置，基于0的索引）
	'full': 'AGTTAGAGCCCGGCCTCCAATCTGCTTCCATGGGGTTGGCTTTCTGAGTGGGAGAAATGACTCTAATCTGGAGACA...', # 完整的mRNA序列
	'start_context': '___GAAATGTCT', # CDS起始位置前的序列上下文, padding left _，essential
	'stop_context': 'AAGTAAGGG___' # CDS终止位置后的序列上下文, padding right _, essential
	}
	}

	'''
	# region = getattr(args, 'region', region)
	# limit = getattr(args, 'limit', limit)
	try:
	with open(file_path) as fa:
	seqs_dicts = []
	cds_start = 0
	cds_stop = 0
	count = 0
	seq_name = ''
	# for line in fa.read().splitlines():
	for line in fa:
	line = line.replace('\n', '')
	if line.startswith('>'):
	transcript_id, gene_id, cds_start, cds_stop = line[1:].split(
	' ') # # ENST00000332160.5 ENSG00000185432.12 24 756
	cds_start = int(cds_start)
	cds_stop = int(cds_stop)
	if cds_stop - cds_start < cds_min: continue
	seq_name = transcript_id
	# seqs_dict[seq_name] = {}
	# seqs_dict[seq_name]['cds_start'] = cds_start
	# seqs_dict[seq_name]['cds_stop'] = cds_stop

	else:
	expand_mRNA = '_' * region + line + '_' * region
	cds_start += region
	cds_stop += region
	# seqs_dict[seq_name]['full'] = line
	start_context = expand_mRNA[cds_start - region:cds_start + region]
	stop_context = expand_mRNA[cds_stop - region:cds_stop + region]
	seqs_dicts.append(
	{'_id': seq_name, 'start_context': start_context, 'stop_context': stop_context})
	count += 1
	if count > limit and limit != -1: break
	return seqs_dicts
	except FileNotFoundError:
	print(f"Error: File '{file_path}' not found.")
	return []
	def __len__(self):
	return len(self.samples)

	def __getitem__(self, idx): # to check
	'''
	GAUC 4567
	unk 3
	:param idx:
	:return:
	'''
	sample = self.samples[idx]
	seq = sample['start_context'] + 'NNN' + sample['stop_context']
	X = self.seq_to_rnaindex(seq, pad_idx=self.tokenizer.pad_index, unk_idx=self.tokenizer.unk_index)
	if '_' in sample['start_context']:
	X[:, sample['start_context'].count('_')] = self.tokenizer.bos_index
	if '_' in sample['stop_context']:
	X[:, -sample['stop_context'].count('_')-1] = self.tokenizer.eos_index

	'''generate src_data, tgt_data, twod_data '''
	src_data,tgt_data,twod_data,loss_mask = self.generate_mask(X,len(seq))
	return src_data,tgt_data,twod_data,loss_mask

	class RiboDataPipeline():
	"""
	处理预训练任务的Dataset，生成mRNA.fa,加载ribosome_density, ribo_counts, rna_counts,划分TR，VL，TS
	Loading from origin bw
	"""

	def __init__(
	self,
	path,
	ribo_experiment,rna_experiment,
	seq_only=False,
	region: int = 300,
	cds_min: int = -1, # -1,不检查cds 长度
	limit: int = -1,
	env : int = 0,
	norm = True
	):

	self.seq_only = seq_only
	self.cds_min = cds_min
	self.env = env
	# self.reference_transcript_dict = {'ENST00000303577.7': 'PCBP1', # IRES chr2
	# 'ENST00000309311.7': 'EEF2'} # cap dependent # chr19
	# self.reference_transcript_dict = {
	# 'ENST00000309311.7': 'EEF2'} # cap dependent # chr19
	self.reference_transcript_dict = {} # cap dependent # chr19
	# 加载数据
	self.samples = self.load_data(path, ribo_experiment=ribo_experiment,rna_experiment=rna_experiment,region=region, limit=limit,norm=norm)
	# self.ref_norm = np.mean([self.samples[key][4].sum() for key in self.reference_transcript_dict.keys()]) if self.reference_transcript_dict else 1 # RNA_counts

	def load_data(self, path, ribo_experiment=None,rna_experiment=None,region=300, limit=-1,norm=True):
	'''
	读取数据
	1. 根据ribo_experiment，从meta中查询species，avg_len,total counts 等
	2. 查询mRNA.fa文件是否存在
	不存在：
	查询mRNA.tsv是否存在
	不存在：
	genome.gtf 生成 mRNA.gtf文件 (只含有mRNA相关的行和列，scale the size of gtf)
	根据genome.fa 和mRNA.gtf 生成mRNA.fa文件 (包括start or stop codon positions)
	3. 读取track文件，生成ribosome_density, ribo_counts, rna_counts

	{'ENST00000303577.7': 'PCBP1', # IRES
	'ENST00000309311.7': 'EEF2'} # cap dependent

	:param path:
	:param reference_path:
	:param region:
	:param limit:
	:return: samples

	path = ./dataset/pretraining/
	'''
	"""1. input ribo_experiment, meta"""
	seq_only = self.seq_only
	cds_min = self.cds_min
	# print('load_data in Pipeline')

	reference_path = os.path.join(path,'reference')
	meta = self.read_meta_file(os.path.join(reference_path, 'experiment_meta.tsv'),ribo_experiment,rna_experiment,seq_only = seq_only) # todo
	totalNumReads_RNA, totalNumReads_RPF, readsLength_RNA,readsLength_RPF,species = meta

	fribo_track = os.path.join(path, 'track', f'{ribo_experiment}.bw')
	frna_track = os.path.join(path, 'track', f'{rna_experiment}.bw')
	if not seq_only:
	if os.access(fribo_track,os.F_OK) and os.access(frna_track,os.F_OK):
	print(f'load {ribo_experiment} and {rna_experiment} tracks')
	else:
	print(f'Error: {fribo_track} or {frna_track} not found.')
	return None

	"""2. check mRNA.fa, .pkl"""
	# # 读取 chromosomes reference
	# print('load_data in Pipeline',meta)
	mrna_fa_path = os.path.join(reference_path, species, f'mRNA.fa')
	if region != -1: mrna_fa_path = mrna_fa_path.replace('.fa', f'_{region}.fa')
	mrna_fa_path = mrna_fa_path.replace('.fa', f'.pkl')
	self.mrna_region_pkl_path = mrna_fa_path
	# sequence
	if seq_only and os.access(mrna_fa_path, os.F_OK):
	with open(mrna_fa_path, 'rb') as f:
	sample_dict = pickle.load(f)
	limited_sample_dict = {}
	for key in sample_dict.keys():
	# if limit != -1:
	# limited_sample_dict[key] = [[transcript_id]+list(sample_dict[key][transcript_id]) for transcript_id in list(sample_dict[key].keys())[:limit]]
	# else :limited_sample_dict[key] = [[transcript_id]+list(sample_dict[key][transcript_id]) for transcript_id in list(sample_dict[key].keys())]

	if limit != -1:
	limited_sample_dict[key] = sample_dict[:limit]
	else:
	limited_sample_dict[key] = sample_dict[key]

	return limited_sample_dict
	# gtf
	mrna_tsv_path = os.path.join(reference_path,species, 'mRNA.tsv')
	if not os.access(mrna_tsv_path, os.F_OK):
	genome_gtf_path = os.path.join(reference_path,species, 'genome.gtf')
	genome_fa_path = os.path.join(reference_path,species, 'genome.fa')
	mrna_tsv = self.generate_mRNA_tsv(genome_gtf_path,genome_fa_path,mrna_tsv_path)
	else:
	mrna_tsv = pd.read_table(mrna_tsv_path)#.iloc[:100] # 读取已经生成的mRNA.tsv文件

	# print('load_data in Pipeline',mrna_tsv.shape) # 1459048, 11
	"""3. read track files"""
	# if limit<10: # debug mode
	# debug_ids = 'ENST00000332831.5,ENST00000000233.10'.split(',')
	# mrna_tsv = mrna_tsv[mrna_tsv.transcript_id.isin(debug_ids)].reindex()
	# region = 6
	print(f'filter limit={limit},region={region}')
	print('load_data in Pipeline,before filter',mrna_tsv.shape) # 1459048, 11
	reference_transcript_ids = list(self.reference_transcript_dict.keys())
	keeping_transcript_ids = mrna_tsv[mrna_tsv['seqname'].isin(['chr10','chr15'])].transcript_id.unique().tolist()

	print('keeping transcript_ids',len(reference_transcript_ids+keeping_transcript_ids))
	# if args.debug:
	# region = 6
	# limit = 2000
	if limit!=-1:
	other_transcript_ids = mrna_tsv[~mrna_tsv['transcript_id'].isin(reference_transcript_ids+keeping_transcript_ids)].transcript_id.unique().tolist()
	shuffle(other_transcript_ids)
	shuffle(keeping_transcript_ids)

	mrna_tsv = mrna_tsv[mrna_tsv.transcript_id.isin(reference_transcript_ids+keeping_transcript_ids[:limit]+other_transcript_ids[:limit])]

	print('load_data in Pipeline, after filter',mrna_tsv.shape) # 1459048, 11

	if not seq_only:
	import pyBigWig
	ribo_bw,rna_bw = [pyBigWig.open(fribo_track), pyBigWig.open(frna_track)]
	print(f'meta of {ribo_experiment} and {rna_experiment} tracks loaded\n{ribo_bw.header()}\n{rna_bw.header()}')
	def iterfunc(x,bw):
	chrom, start, end = x['seqname'], x['start'], x['end']
	if chrom in bw.chroms():
	return np.array(bw.values(chrom, start - 1, end))
	else:
	return np.zeros(end - start)

	# if x['seqname'] in bw or x['end']<bw.chroms(x['seqname']):
	# np.array(bw.values(x['seqname'],x['start'] - 1,x['end']))
	# else:
	# print(f"{x['seqname']} not in bw:{x['seqname'] in ribo_bw}\n{x['end']}>={ribo_bw.chroms(x['seqname'])},{x['end']<ribo_bw.chroms(x['seqname'])}")
	# assert 'error in mapping counts'

	mrna_tsv['ribo_counts'] = mrna_tsv.apply( lambda x: iterfunc(x,ribo_bw), axis=1)
	mrna_tsv['rna_counts'] = mrna_tsv.apply(lambda x: iterfunc(x,rna_bw), axis=1)

	# mrna_tsv['ribo_counts'] = mrna_tsv.apply(lambda x: np.array(ribo_bw.values(x['seqname'],x['start'] - 1,x['end'])), axis=1)
	# mrna_tsv['rna_counts'] = mrna_tsv.apply(lambda x: np.array(rna_bw.values(x['seqname'],x['start'] - 1,x['end'])), axis=1)

	# 关闭文件
	ribo_bw.close()
	rna_bw.close()
	del ribo_bw,rna_bw


	"""split dataset todo"""
	if species == 'GRCh38.p14':
	mappingdict = {'chr10': 'VL', 'chr15': 'TS'}
	mrna_tsv['dataset'] = mrna_tsv['seqname'].apply(lambda x: mappingdict[x] if x in mappingdict else 'TR')
	else:mrna_tsv['dataset'] = 'TR'
	print(f'{int(mrna_tsv.transcript_id.nunique())} transcripts in mRNA.tsv')
	"""4. filter mRNA.tsv by transcript_id"""
	sample_dict = defaultdict(list)
	count = 0
	total_counts_info = [totalNumReads_RNA, totalNumReads_RPF, readsLength_RNA, readsLength_RPF]

	'''ref_norm'''
	ref_norm = None
	if not seq_only:
	ref_norm = []
	for transcript_id, data in mrna_tsv[mrna_tsv.transcript_id.isin(reference_transcript_ids)].groupby('transcript_id'):
	ans = self.merge_transcript_level(data,total_counts_info=total_counts_info,seq_only=seq_only,cds_min=cds_min,region=region) # missing ref_norm=ref_norm because calculate ref_norm
	if ans is None:continue
	(seq,
	cds_start, cds_stop,
	# CDS_region = seq[cds_start:cds_stop] <CCCGCCATGGGCNNNCGCTAACCAGCC>, region=6
	ribo_counts,
	rna_counts,
	ribosome_density,
	te, self.env, cds_len, mRNA_len,junction_counts) = ans
	ref_norm.append((sum(ribo_counts)/cds_len/readsLength_RPF,sum(rna_counts)/mRNA_len/readsLength_RNA))
	if len(ref_norm)==0 and norm:
	print(f'Error: no qualified reference transcript (housekeeping when norm=True)')
	return None
	ref_norm = np.mean(ref_norm,axis=0) if norm and len(ref_norm)>0 else None
	print('ref_norm',ref_norm,'sum(ribo_counts)/cds_len/readsLength_RPF,sum(rna_counts)/mRNA_len/readsLength_RNA)')
	'''generate by norm'''
	for transcript_id, data in mrna_tsv.groupby('transcript_id'):
	tag = data['dataset'].iloc[0]
	ans = self.merge_transcript_level(data,total_counts_info=total_counts_info,seq_only=seq_only,cds_min=cds_min,region=region,ref_norm=ref_norm)
	if ans is None:continue
	sample_dict[tag].append([transcript_id] + ans)
	count += 1
	if limit == count: break
	# datasplit = 'TR_VL_TS.tsv'
	# # ~/Data/RNAdesign/Raw_data/_0_reference/GRCh38.p14/mRNA/dataset_split $ head TR_VL_TS.tsv
	# # transcript_id dataset seqname gene_id
	self.samples = sample_dict
	if seq_only:
	mrna_fa_path = os.path.join(reference_path, species, f'mRNA.fa')
	if region !=-1:
	mrna_fa_path = mrna_fa_path.replace('.fa',f'_{region}.fa')
	if not (os.access(mrna_fa_path,os.F_OK) and os.path.getsize(mrna_fa_path)>0):
	print(f'generate {sum([len(a) for a in sample_dict.values()])} sequences to {mrna_fa_path} {os.path.abspath(mrna_fa_path)}')
	self.generate_mRNA_fa(mrna_fa_path,sample_dict,force_regenerate=True) # ,force_regenerate=True
	mrna_fa_path = mrna_fa_path.replace('.fa',f'.pkl')
	if not os.access(mrna_fa_path, os.F_OK):
	with open(mrna_fa_path, 'wb') as f:
	pickle.dump(sample_dict, f)
	self.mrna_region_pkl_path = mrna_fa_path
	return sample_dict # transcript_id 作为 groupby key
	def utr5_limit(self,args,x,region):
	utr5_limit = 300 if args.region>300 else args.region
	seq = list( x[region - utr5_limit:region + 1 + args.region] \
	+ 'NNN' + x[3 * region + 4 - args.region:3 * region + 4 + args.region+1])
	if seq[-1] not in {'_','>'}:seq[-1]='>'
	if seq[0] not in {'_','<'}:seq[0]='<'
	return seq
	def merge_transcript_level(self,data,total_counts_info=None,seq_only=False,cds_min=-1,region=300,ref_norm=None): # [1,1,1,1]
	# print(transcript_id)
	ans = self.qualified_samples(data, seq_only=seq_only, cds_min=cds_min)
	junction_counts = len(data[data['feature'] == 'CDS'])
	if ans is not None:
	seq, cds_start, cds_stop, ribo_counts, rna_counts, anno, metadict = ans
	cds_len = cds_stop - cds_start
	mRNA_len = len(seq)
	if region!=-1:
	utr5_limit = 300 if region > 300 else region
	seq = self.process_sequence(seq, cds_start, cds_stop, region, '_', '<', '>', 'N',utr5_limit)
	# anno = self.process_sequence(anno, cds_start, cds_stop, region, '_', '<', '>', 'N')
	if metadict is not None: # seq_only = False
	totalNumReads_RNA, totalNumReads_RPF, readsLength_RNA, readsLength_RPF = total_counts_info
	if metadict['ribo_recovery'] > 0.9 and metadict['rna_recovery'] > 0.9: # high quality samples for TE
	te = self.calculate_ribosome_density(metadict['ribo_avg_count'], metadict['rna_avg_count'],
	totalNumReads_RNA, totalNumReads_RPF,
	readsLength_RNA, readsLength_RPF)
	te = float(te)
	else:
	te = -1 # low quality samples for TE
	# pad_or_truncate_utr

	# seq = self.process_sequence(seq, cds_start, cds_stop, region, '_', '<', '>', 'N')
	anno = self.process_sequence(anno, cds_start, cds_stop, region, '_', '<', '>', 'N',utr5_limit)
	ribo_counts\
	= self.process_sequence(ribo_counts, cds_start, cds_stop, region, [-1], [-1], [-1], [-1],utr5_limit)
	rna_counts = self.process_sequence(rna_counts, cds_start, cds_stop, region, [-1], [-1], [-1], [-1],utr5_limit)

	if sum(ribo_counts[ribo_counts != -1]) <= 100 or sum(
	rna_counts[rna_counts != -1]) <= 100: # 这里有padding的-1，不应该放入计算中, 质量控制
	# print(f"No reads for {data['transcript_id'].iloc[0]}")
	return None

	'''
	normalized by total counts
	https://rcxqhxlmkf.feishu.cn/docx/MdEvd008poMIaexhX9Xc7EAEnth#share-SNGtdmaQ2oATE0xax1Nc6m3jnbp
	'''

	ribo_counts += 1 # max 1130
	rna_counts += 1 # max 3628
	ribosome_density = deepcopy(ribo_counts)
	ribosome_density[ribosome_density != 0] = self.calculate_ribosome_density(
	ribo_counts[ribo_counts != 0], rna_counts[rna_counts != 0], totalNumReads_RNA, totalNumReads_RPF,
	readsLength_RNA, readsLength_RPF) # 2.38
	if ref_norm is not None:
	ribo_counts, rna_counts = ribo_counts / (ref_norm[0] * readsLength_RPF), rna_counts / (
	ref_norm[1] * readsLength_RNA) # demo4
	# print([(max(a), min(a)) for a in [ribo_counts, rna_counts]])
	cds_start, cds_stop = anno.index('\|'), anno.rindex('\|', 1) + 4
	return [seq,
	cds_start, cds_stop,
	# CDS_region = seq[cds_start:cds_stop] <CCCGCCATGGGCNNNCGCTAACCAGCC>, region=6
	ribo_counts,
	rna_counts,
	ribosome_density,
	te, self.env,cds_len,mRNA_len,junction_counts]
	return [seq, cds_start, cds_stop,cds_len,mRNA_len,junction_counts]
	# def process_sequence(self,seq, cds_start, cds_stop, region, pad_mark, bos, eos,link,utr5_limit):
	# utr5 = seq[:cds_start]
	# cds = seq[cds_start:cds_stop]
	# utr3 = seq[cds_stop:]
	#
	# # utr5 = self.process_utr(utr5, region, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	# # cds_h = self.process_utr(cds, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# # cds_t = self.process_utr(cds, region, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	# # utr3 = self.process_utr(utr3, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# # seq = utr5 + cds_h + cds_t + utr3
	# # seq = seq[:region2+1]+link3+seq[-region*2-1:]
	#
	# utr5 = self.process_utr(utr5, utr5_limit, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	# cds_h = self.process_utr(cds, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# cds_t = self.process_utr(cds, region, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	# utr3 = self.process_utr(utr3, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# seq = utr5 + cds_h + cds_t + utr3
	# seq = seq[:utr5_limit+region+1]+link3+seq[-region2-1:]
	#
	# # c1 = seq[cds_start:]
	# # c2 = seq[:cds_stop]
	# #
	# # utr5 = self.process_utr(utr5, utr5_limit, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	# # cds_h = self.process_utr(c1, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# # cds_t = self.process_utr(c2, region, 'pre', pad_mark=pad_mark, bos=bos, eos=eos) # 这样会导致CDS和UTR混在一起，后面不太好mask猜AA
	# # utr3 = self.process_utr(utr3, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# # seq = utr5 + cds_h + cds_t + utr3
	# # seq = seq[:utr5_limit+region+1]+link3+seq[-region2-1:]
	#
	# # utr5 = self.process_utr(utr5, region, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	# # utr3 = self.process_utr(utr3, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# #
	# # pre_processed = self.process_utr(utr5, region, 'pre', pad_mark=pad_mark, bos=bos, eos=eos)
	# # behind_processed = self.process_utr(utr3, region, 'behind', pad_mark=pad_mark, bos=bos, eos=eos)
	# # # seq = pre_processed + cds_part + behind_processed
	# # # seq = seq[:region2+1]+link3+seq[-region*2-1:]
	# if isinstance(seq,list):
	# seq = np.array(seq)
	# return seq
	#
	#
	#
	# @staticmethod
	# def process_utr(utr, input_len, pad_method, pad_mark='_',bos='<',eos='>'):
	# if len(utr) < input_len:
	# if pad_method == 'pre':
	# padded_utr = pad_mark * (input_len - len(utr)) + bos + utr
	# elif pad_method == 'behind':
	# padded_utr = utr+eos + pad_mark * (input_len - len(utr))
	# else:
	# if pad_method == 'pre':
	# padded_utr = bos+utr[-input_len:]
	# elif pad_method == 'behind':
	# padded_utr = utr[:input_len]+eos
	# return padded_utr
	# # self.process_utr = process_utr

	def generate_mRNA_fa(self,mrna_fa_path,sample_dict,force_regenerate=False):
	'''for pretrain'''
	if force_regenerate:
	'''generate mRNA.fa'''
	print('generate mRNA.fa to',mrna_fa_path)
	with open(mrna_fa_path, 'w') as f:
	# for tag, data in self.samples.items():
	for tag, data in sample_dict.items():
	for transcript_id, seq, cds_start, cds_stop, cds_len,mRNA_len,*_ in data:
	# seq = seq[1:-1] if '<' ==seq[0] else seq
	f.write(f">{transcript_id}\|cds_start={cds_start}\|cds_stop={cds_stop}\|cds_len={cds_len}\|mRNA_len={mRNA_len}\|dataset={tag}\n{re.sub(r'[^ACGT]', 'N', seq.replace('U','T'))}\n")
	# print(f'>{transcript_id}\|{cds_start}\|{cds_stop}\|{tag}\n{seq}\n') # <CCCGCCATGGGCNNNAAGCGCTAACCA>
	# print(seq[cds_start:cds_stop])

	@staticmethod
	def qualified_samples(data,seq_only=False,cds_min=-1):
	"""
	过滤掉不合格的样本
	:param df_total_counts:
	:return:
	"""
	"""load elements"""
	strand = data['strand'].iloc[0]
	num_start = data[data.feature == 'start_codon'].shape[0]
	num_stop = data[data.feature == 'stop_codon'].shape[0]
	if num_start == 0 or num_stop == 0:
	# print(f"No start or stop codon for {data['transcript_id'].iloc[0]}")
	return None # 没有标记起始密码子或者终止密码子

	data = data[(data.feature!='start_codon') & (data.feature!='stop_codon')]
	seq = ''.join(list(chain(*data['seq'])))
	anno = ''.join(list(chain(*data['anno']))) # - or \| represent UTR or CDS

	if not seq_only:
	ribo_counts = list(chain(*data['ribo_counts']))
	rna_counts = list(chain(*data['rna_counts']))
	if sum(ribo_counts) == 0 or sum(rna_counts) == 0:
	# print(f"No reads for {data['transcript_id'].iloc[0]}")
	return None
	# ribosome_density = list(chain(*data['ribosome_density']))
	if strand == '-':
	from pyfaidx import complement
	seq = complement(seq[::-1])
	anno = anno[::-1]
	if not seq_only:
	ribo_counts = ribo_counts[::-1]
	rna_counts = rna_counts[::-1]
	# ribosome_density = ribosome_density[::-1]
	cds_start = anno.index('\|')
	cds_stop = anno.rindex('\|') + 4
	if cds_min!=-1:
	if cds_stop - cds_start < cds_min:
	# print(f"CDS length is less than {cds_min} for {data['transcript_id'].iloc[0]}")
	return None # CDS长度太短
	trible = anno.count('\|') % 3
	if trible != 0: return None

	if not seq_only:
	# CDS recovery, RNA-seq, Ribo-seq, CDS length,
	metadict = dict()
	counts = np.array([ribo_counts, rna_counts])
	t = counts[:, cds_start:cds_stop] > 0
	metadict['cds_len'] = cds_stop - cds_start
	metadict['ribo_recovery'], metadict['rna_recovery'] = t.sum(axis=1) / metadict['cds_len']
	metadict['ribo_avg_count'], metadict['rna_avg_count'] = counts.sum(axis=1) / metadict['cds_len']
	if seq_only:
	return seq, cds_start, cds_stop,None,None,anno,None
	# metadict['5utr_len'] = cds_start
	# metadict['3utr_len'] = len(anno) - cds_stop
	return seq,cds_start,cds_stop,ribo_counts,rna_counts,anno,metadict

	@staticmethod
	def generate_mRNA_tsv(genome_gtf_path,genome_fa_path,mrna_tsv_path):
	# returns GTF with essential columns such as "feature", "seqname", "start", "end"
	# alongside the names of any optional keys which appeared in the attribute column
	from gtfparse import read_gtf
	from pyfaidx import Fasta
	import polars as pl
	gtf = read_gtf(genome_gtf_path) # 先读这个文件，并简化这个文件，再读fasta，不然内存溢出
	# gtf format described in 'https://www.gencodegenes.org/pages/data_format.html'
	features_to_keep = 'CDS,UTR,start_codon,stop_codon,five_prime_utr,three_prime_utr'.split(',') # start_codon 在CDS中, stop_codon 在UTR中 # "five_prime_utr", "three_prime_utr" 部分版本是这个
	columns_to_keep = ['seqname','gene_id','transcript_id','protein_id','transcript_type','start', 'end', 'feature','strand']
	gtf = gtf.filter(pl.col("feature").is_in(features_to_keep))
	gtf = gtf.select(columns_to_keep)
	gtf = gtf.to_pandas()
	gtf = gtf.sort_values(by=['seqname', 'start','end'])
	# gtf.feature.unique() # ['UTR', 'start_codon', 'CDS', 'stop_codon'] # ['gene', 'transcript', 'exon', 'CDS', 'start_codon', 'stop_codon', 'UTR']
	genome_fa = Fasta(genome_fa_path)
	gtf['seq'] = gtf.apply(lambda x: genome_fa[x['seqname']][x['start']-1:x['end']].seq, axis=1)
	gtf['anno'] = gtf.apply(lambda x: '-'* (x['end'] - x['start']+1) if x['feature'] in ['UTR','five_prime_utr','three_prime_utr'] else '\|'*(x['end']-x['start']+1) , axis=1) # 所以start codon 和stop codon会被标记为｜
	gtf.to_csv(mrna_tsv_path,index=None,sep='\t') # # 比原来的文件缩小十倍，只保留了mRNA相关的内容,保留了mRNA序列，reverse和互补配对之前的序列
	del genome_fa

	print(f"generate mRNA.tsv file: {mrna_tsv_path}\n{gtf.shape}\t{gtf[['seq','anno']].head()}")
	return gtf
	@staticmethod
	def calculate_ribosome_density(numReads_RPF, numReads_RNA, totalNumReads_RNA, totalNumReads_RPF, readsLength_RNA,
	readsLength_RPF):
	'''
	计算ribosome_density
	:param numReads_RNA:
	:param totalNumReads_RNA:
	:param totalNumReads_RPF:
	:param readsLength_RNA:
	:param readsLength_RPF:
	:return:

	example:
	# 示例值
	numReads_RPF = 1000
	numReads_RNA = 2000
	totalNumReads_RNA = 5000000
	totalNumReads_RPF = 3000000
	readsLength_RNA = 150
	readsLength_RPF = 100

	result = calculate_ribosome_density(numReads_RPF, numReads_RNA, totalNumReads_RNA, totalNumReads_RPF,
	readsLength_RNA, readsLength_RPF)
	print("Ribosome Density:", result)
	'''
	# Riboseq数据在处理时只保留了20-40nt长度的 reads
	readsLength_RPF = np.where(readsLength_RPF > 40, 30, readsLength_RPF)
	ratio_numReads = numReads_RPF / numReads_RNA
	ratio_totalNumReads = totalNumReads_RNA / totalNumReads_RPF
	ratio_readsLength = readsLength_RNA / readsLength_RPF

	ribosome_density = np.log2(ratio_numReads * ratio_totalNumReads * ratio_readsLength + 1)
	ribosome_density = np.where(numReads_RNA==-1, -1, ribosome_density)
	return ribosome_density
	def read_meta_file(self, file_path, ribo_experiment, rna_experiment, seq_only=False):
	df = pd.read_table(file_path)
	if seq_only:
	if ribo_experiment:
	species = df[df['ribo_experiment'] == ribo_experiment]['Ref'].iloc[0]
	elif rna_experiment:
	species = df[df['rna_experiment'] == ribo_experiment]['Ref'].iloc[0]
	else:
	raise ValueError("ribo_experiment or rna_experiment should be provided")
	return None,None,None,None,species
	row = df[(df['ribo_experiment'] == ribo_experiment) & (df['rna_experiment'] == rna_experiment)].iloc[0]
	totalNumReads_RNA, totalNumReads_RPF, readsLength_RNA, readsLength_RPF,species = row['totalNumReads_RNA'], row['totalNumReads_RPF'], row['readsLength_RNA'], row['readsLength_RPF'],row['Ref']
	return totalNumReads_RNA, totalNumReads_RPF, readsLength_RNA,readsLength_RPF,species

	class RiboBwDataPipeline(RiboDataPipeline):
	def __init__(self,
	data_path,
	ribo_experiment,
	rna_experiment,
	seq_only=False,
	limit=-1,
	):
	super().__init__(data_path, ribo_experiment, rna_experiment, seq_only, limit)
	def load_data(self, path, ribo_experiment=None,rna_experiment=None,region=300, limit=-1,norm=True):
	'''
	读取数据
	1. 根据ribo_experiment，从meta中查询species，avg_len,total counts 等
	2. 查询mRNA.fa文件是否存在
	不存在：
	查询mRNA.tsv是否存在
	不存在：
	genome.gtf 生成 mRNA.gtf文件 (只含有mRNA相关的行和列，scale the size of gtf)
	根据genome.fa 和mRNA.gtf 生成mRNA.fa文件 (包括start or stop codon positions)
	3. 读取track文件，生成ribosome_density, ribo_counts, rna_counts

	{'ENST00000303577.7': 'PCBP1', # IRES
	'ENST00000309311.7': 'EEF2'} # cap dependent

	:param path:
	:param reference_path:
	:param region:
	:param limit:
	:return: samples

	path = ./dataset/pretraining/
	'''
	"""1. input ribo_experiment, meta"""
	seq_only = self.seq_only
	cds_min = self.cds_min
	# print('load_data in Pipeline')

	reference_path = os.path.join(path,'reference')
	meta = self.read_meta_file(os.path.join(reference_path, 'experiment_meta.tsv'),ribo_experiment,rna_experiment,seq_only = seq_only) # todo
	totalNumReads_RNA, totalNumReads_RPF, readsLength_RNA,readsLength_RPF,species = meta
	"""2. check mRNA.fa"""
	# # 读取 chromosomes reference
	# print('load_data in Pipeline',meta)
	mrna_fa_path = os.path.join(reference_path, species, f'mRNA.fa')
	if region != -1: mrna_fa_path = mrna_fa_path.replace('.fa', f'_{region}.fa')
	mrna_fa_path = mrna_fa_path.replace('.fa', f'.pkl')
	self.mrna_region_pkl_path = mrna_fa_path
	if seq_only and os.access(mrna_fa_path, os.F_OK):
	with open(mrna_fa_path, 'rb') as f:
	sample_dict = pickle.load(f)
	if limit!=-1:
	limited_sample_dict = {}
	for key in sample_dict.keys():
	limited_sample_dict[key] = {transcript_id:sample_dict[key][transcript_id] for transcript_id in list(sample_dict[key].keys())[:limit]}
	return limited_sample_dict
	mrna_tsv_path = os.path.join(reference_path,species, 'mRNA.tsv')
	if not os.access(mrna_tsv_path, os.F_OK):
	genome_gtf_path = os.path.join(reference_path,species, 'genome.gtf')
	genome_fa_path = os.path.join(reference_path,species, 'genome.fa')
	mrna_tsv = self.generate_mRNA_tsv(genome_gtf_path,genome_fa_path,mrna_tsv_path)
	else:
	mrna_tsv = pd.read_table(mrna_tsv_path)#.iloc[:100] # 读取已经生成的mRNA.tsv文件

	# print('load_data in Pipeline',mrna_tsv.shape) # 1459048, 11
	"""3. read track files"""
	# if limit<10: # debug mode
	# debug_ids = 'ENST00000332831.5,ENST00000000233.10'.split(',')
	# mrna_tsv = mrna_tsv[mrna_tsv.transcript_id.isin(debug_ids)].reindex()
	# region = 6
	print(f'filter limit={limit},region={region}')
	print('load_data in Pipeline,before filter',mrna_tsv.shape) # 1459048, 11
	reference_transcript_ids = list(self.reference_transcript_dict.keys())
	# if args.debug:
	# region = 6
	# limit = 2000
	if limit!=-1:
	mrna_tsv = mrna_tsv[mrna_tsv.transcript_id.isin(reference_transcript_ids+list(mrna_tsv.transcript_id.unique()[:limit]))]
	print('load_data in Pipeline, after filter',mrna_tsv.shape) # 1459048, 11

	if not seq_only:
	import pyBigWig
	fribo_track = os.path.join(path,'track', f'{ribo_experiment}.bw')
	frna_track = os.path.join(path,'track', f'{rna_experiment}.bw')
	if os.access(fribo_track,os.F_OK) and os.access(frna_track,os.F_OK):
	print(f'load {ribo_experiment} and {rna_experiment} tracks')
	else:
	print(f'Error: {fribo_track} or {frna_track} not found.')
	return None
	ribo_bw,rna_bw = [pyBigWig.open(fribo_track), pyBigWig.open(frna_track)]
	print(f'meta of {ribo_experiment} and {rna_experiment} tracks loaded\n{ribo_bw.header()}\n{rna_bw.header()}')
	def iterfunc(x,bw):
	chrom, start, end = x['seqname'], x['start'], x['end']
	if chrom in bw.chroms():
	return np.array(bw.values(chrom, start - 1, end))
	else:
	return np.zeros(end - start)

	# if x['seqname'] in bw or x['end']<bw.chroms(x['seqname']):
	# np.array(bw.values(x['seqname'],x['start'] - 1,x['end']))
	# else:
	# print(f"{x['seqname']} not in bw:{x['seqname'] in ribo_bw}\n{x['end']}>={ribo_bw.chroms(x['seqname'])},{x['end']<ribo_bw.chroms(x['seqname'])}")
	# assert 'error in mapping counts'

	mrna_tsv['ribo_counts'] = mrna_tsv.apply( lambda x: iterfunc(x,ribo_bw), axis=1)
	mrna_tsv['rna_counts'] = mrna_tsv.apply(lambda x: iterfunc(x,rna_bw), axis=1)

	# mrna_tsv['ribo_counts'] = mrna_tsv.apply(lambda x: np.array(ribo_bw.values(x['seqname'],x['start'] - 1,x['end'])), axis=1)
	# mrna_tsv['rna_counts'] = mrna_tsv.apply(lambda x: np.array(rna_bw.values(x['seqname'],x['start'] - 1,x['end'])), axis=1)

	# 关闭文件
	ribo_bw.close()
	rna_bw.close()
	del ribo_bw,rna_bw


	"""split dataset todo"""
	if species == 'GRCh38.p14':
	mappingdict = {'chr10': 'VL', 'chr15': 'TS'}
	mrna_tsv['dataset'] = mrna_tsv['seqname'].apply(lambda x: mappingdict[x] if x in mappingdict else 'TR')
	else:mrna_tsv['dataset'] = 'TR'
	print(f'{int(mrna_tsv.transcript_id.nunique())} transcripts in mRNA.tsv')
	"""4. filter mRNA.tsv by transcript_id"""
	sample_dict = defaultdict(list)
	count = 0
	total_counts_info = [totalNumReads_RNA, totalNumReads_RPF, readsLength_RNA, readsLength_RPF]

	'''ref_norm'''
	ref_norm = None
	if not seq_only:
	ref_norm = []
	for transcript_id, data in mrna_tsv[mrna_tsv.transcript_id.isin(reference_transcript_ids)].groupby('transcript_id'):
	ans = self.merge_transcript_level(data,total_counts_info=total_counts_info,seq_only=seq_only,cds_min=cds_min,region=region) # missing ref_norm=ref_norm because calculate ref_norm
	if ans is None:continue
	(seq,
	cds_start, cds_stop,
	# CDS_region = seq[cds_start:cds_stop] <CCCGCCATGGGCNNNCGCTAACCAGCC>, region=6
	ribo_counts,
	rna_counts,
	ribosome_density,
	te, self.env, cds_len, mRNA_len,junction_counts) = ans
	ref_norm.append((sum(ribo_counts)/cds_len/readsLength_RPF,sum(rna_counts)/mRNA_len/readsLength_RNA))
	if len(ref_norm)==0 and norm:
	print(f'Error: no qualified reference transcript (housekeeping when norm=True)')
	return None
	ref_norm = np.mean(ref_norm,axis=0) if norm and len(ref_norm)>0 else None
	print('ref_norm',ref_norm,'sum(ribo_counts)/cds_len/readsLength_RPF,sum(rna_counts)/mRNA_len/readsLength_RNA)')
	'''generate by norm'''
	for transcript_id, data in mrna_tsv.groupby('transcript_id'):
	tag = data['dataset'].iloc[0]
	ans = self.merge_transcript_level(data,total_counts_info=total_counts_info,seq_only=seq_only,cds_min=cds_min,region=region,ref_norm=ref_norm)
	if ans is None:continue
	sample_dict[tag].append([transcript_id] + ans)
	count += 1
	if limit == count: break
	# datasplit = 'TR_VL_TS.tsv'
	# # ~/Data/RNAdesign/Raw_data/_0_reference/GRCh38.p14/mRNA/dataset_split $ head TR_VL_TS.tsv
	# # transcript_id dataset seqname gene_id
	self.samples = sample_dict
	if seq_only:
	mrna_fa_path = os.path.join(reference_path, species, f'mRNA.fa')
	if region !=-1:
	mrna_fa_path = mrna_fa_path.replace('.fa',f'_{region}.fa')
	if not os.access(mrna_fa_path,os.F_OK) or os.path.getsize(mrna_fa_path)==0:
	print(f'generate {sum([len(a.keys()) for a in sample_dict.values()])} sequences to {mrna_fa_path} {os.path.abspath(mrna_fa_path)}')
	self.generate_mRNA_fa(mrna_fa_path,force_regenerate=True) # ,force_regenerate=True
	mrna_fa_path = mrna_fa_path.replace('.fa',f'.pkl')
	if not os.access(mrna_fa_path, os.F_OK) or os.path.getsize(mrna_fa_path)==0:
	with open(mrna_fa_path, 'wb') as f:
	pickle.dump(sample_dict, f)
	self.mrna_region_pkl_path = mrna_fa_path
	return sample_dict # transcript_id 作为 groupby key

	class RegionDataset(BaseDataset):
	"""DST"""
	def __init__(
	self,
	samples,
	tokenizer,
	args,
	region: int = 300,
	limit: int = -1,
	return_masked_tokens: bool = False,
	seed: int = 1,
	mask_prob: float = 0.15,
	leave_unmasked_prob: float = 0.1,
	random_token_prob: float = 0.1,
	freq_weighted_replacement: bool = False,
	two_dim_score: bool = False,
	two_dim_mask: int = -1,
	mask_whole_words: torch.Tensor = None,
	):
	# 调用父类初始化
	super().__init__(
	tokenizer=tokenizer,
	region=region,
	limit=limit,
	return_masked_tokens=return_masked_tokens,
	seed=seed,
	mask_prob=mask_prob,
	leave_unmasked_prob=leave_unmasked_prob,
	random_token_prob=random_token_prob,
	freq_weighted_replacement=freq_weighted_replacement,
	two_dim_score=two_dim_score,
	two_dim_mask=two_dim_mask,
	mask_whole_words=mask_whole_words,
	)

	# 加载数据
	self.args = args
	self.samples = samples
	if limit!=-1:
	self.samples = self.samples[:limit]
	self.teacher_tokenizer = DebertaTokenizerFast.from_pretrained("./src/mRNA2vec/tokenizer", use_fast=True)

	self.teacher_tokenizer.padding_side = "left"

	def __len__(self):
	return len(self.samples)

	def __getitem__(self, idx):
	_id, seq, cds_start, cds_stop,*_ = self.samples[idx]
	# if len( self.samples[idx]) == 7:
	# _id,seq, cds_start, cds_stop, cds_len, mRNA_len,junction_counts = self.samples[idx]
	# else:
	# _id,seq, cds_start, cds_stop, cds_len, mRNA_len = self.samples[idx]

	aa_seq = '-'+self.translate(re.sub(r'[^ACGT]', 'N', seq[1:-1].replace('U','T'))).lower()+'-'
	aa_idx = torch.tensor(np.array([self.tokenizer.indices.get(aa) for aa in aa_seq]),dtype=torch.long)

	# aa20 = torch.tensor(np.array([self.tokenizer.indices.get(aa.lower()) for aa in AA_str]),dtype=torch.long)
	# nt12 = torch.tensor(np.array([self.seq_to_rnaindex(nn) for aa in AA_str[:-1].upper() for nn in AA_TO_CODONS[aa]]),dtype=torch.long)
	# nt12 = defaultdict(list)
	# [nt12[self.tokenizer.indices.get(aa.lower())].append(self.seq_to_rnaindex(nn)[0]) for aa in AA_str[:-1].upper() for nn in AA_TO_CODONS[aa]]
	#
	# 准备1D和2D输入数据
	X = self.seq_to_rnaindex(seq, pad_idx=self.tokenizer.pad_index, unk_idx=self.tokenizer.unk_index)
	'''generate src_data, tgt_data, twod_data '''
	src_data, tgt_data, twod_data, loss_mask = self.generate_mask(X, len(seq))
	if "ernierna" in self.args.mlm_pretrained_model_path or 'teacher' in self.args.mlm_pretrained_model_path:
	teacher_input_ids = src_data
	elif "mrna2vec" in self.args.mlm_pretrained_model_path:
	teacher_encoder = self.teacher_tokenizer(seq[1:-1],
	padding='max_length',
	max_length=403,
	truncation=True,
	add_special_tokens=True,
	return_tensors="pt",
	)
	teacher_input_ids = teacher_encoder['input_ids'].squeeze(0)

	# src_data = torch.where(torch.from_numpy(loss_mask),aa_idx,src_data)
	return (src_data,teacher_input_ids, tgt_data, twod_data,aa_idx, loss_mask)

	@staticmethod
	def seq_to_rnaindex(seq,pad_idx=1, unk_idx=3):
	seq = seq.upper()
	if seq.count('<') > 1 or seq.count('/') > 0:
	seq = seq.replace('<PAD>', '_').replace('<BOS>', 'V').replace('<EOS>', '^').replace('/','NNN')
	l = len(seq)
	X = np.ones((1, l))

	for j in range(l):
	if seq[j] in set('Aa'):
	X[0, j] = 5
	elif seq[j] in set('UuTt'):
	X[0, j] = 6
	elif seq[j] in set('Cc'):
	X[0, j] = 7
	elif seq[j] in set('Gg'):
	X[0, j] = 4
	elif seq[j] in set('_'):
	X[0,j] = pad_idx
	elif seq[j] in set('<V'):
	X[0,j] = 0 # bos
	elif seq[j] in set('>^'):
	X[0,j] = 2 # eos
	else:
	X[0,j] = unk_idx # linker
	return X

	'''generate'''
	class BackBoneDataset(RegionDataset):
	'''for distillation using ribo dataset'''
	def __init__(
	self,
	samples,
	tokenizer,
	args,
	region: int = 300,
	limit: int = -1,
	return_masked_tokens: bool = False,
	seed: int = 1,
	mask_prob: float = 0.15,
	leave_unmasked_prob: float = 0.1,
	random_token_prob: float = 0.1,
	freq_weighted_replacement: bool = False,
	two_dim_score: bool = False,
	two_dim_mask: int = -1,
	mask_whole_words: torch.Tensor = None,
	input_mask = True,Kozak_GS6H_Stop3='GCCACC,GGGAGCCACCACCACCATCACCAC,TGATAATAG'
	):
	# 调用父类初始化
	super().__init__(
	samples=samples,
	tokenizer=tokenizer,
	args=args,
	region=region,
	limit=limit,
	return_masked_tokens=return_masked_tokens,
	seed=seed,
	mask_prob=mask_prob,
	leave_unmasked_prob=leave_unmasked_prob,
	random_token_prob=random_token_prob,
	freq_weighted_replacement=freq_weighted_replacement,
	two_dim_score=two_dim_score,
	two_dim_mask=two_dim_mask,
	mask_whole_words=mask_whole_words,
	)
	self.input_mask = input_mask
	self.Kozak_GS6H_Stop3 = Kozak_GS6H_Stop3.upper()

	def __getitem__(self, idx):
	# (_id,seq,cds_start, cds_stop,
	# ribo_counts,rna_counts,
	# ribosome_density,te,env,*_) = self.samples[idx] #cds_len,mRNA_len,junction_counts

	data = self.samples.iloc[idx]
	_id = data['_id']
	seq = data['sequence']
	seq = seq.replace('U','T') # for translate
	start,stop = self.region + 1, self.region * 3 + 4 # ATG seq[301:301+3], TGG seq[901:901+3]
	Kozak, GS6H, Stop3 = self.Kozak_GS6H_Stop3.split(',') if ',' in self.Kozak_GS6H_Stop3 else '','',''
	# Kozak,GS6H,Stop3 = 'GCCACC,GGGAGCCACCACCACCATCACCAC,TGATAATAG'.split(',')
	'''fix nt, not opt'''
	seq = seq[:start-len(Kozak)].replace('ATG','ATC') + Kozak + seq[start:stop-len(GS6H)-len(Stop3)] + GS6H+ Stop3 +seq[stop:]
	# Kozak = 'GCCACC' # GCCACCATGGCG
	# seq = seq[:start-6].replace('ATG','ATC') + Kozak + seq[start:stop-3] +'TAATAATAA'+seq[stop:-6] # https://www.nature.com/articles/s41467-024-48387-x#Fig1
	# seq = seq[:start-6].replace('ATG','ATC') + Kozak + seq[start:stop-3] + 'TGATAATAG' +seq[stop:-6] # # mus frequent:TGATAATAG;3 stop codon, GS6H
	# seq = seq[:start-6].replace('ATG','ATC') + Kozak + seq[start:stop-3] + 'TGATAATAG' +seq[stop+6:] # # mus frequent:TGATAATAG;3 stop codon, GS6H

	'''whole mask'''
	aa_seq = '-'+self.translate(re.sub(r'[^ACGTU]', 'N', seq[1:-1])).lower()+'-'
	aa_idx = torch.tensor(np.array([self.tokenizer.indices.get(aa) for aa in aa_seq]),dtype=torch.long)

	# 准备1D和2D输入数据
	# 对src,tgt,twod_data,loss_mask进行 mask 处理
	X = self.seq_to_rnaindex(seq, pad_idx=self.tokenizer.pad_index, unk_idx=self.tokenizer.unk_index)
	_,_,_,mask = self.generate_mask(X,len(seq)) # [1205] # (1, 1205)

	seq_length = len(seq)
	vocab_size = len(self.tokenizer)
	# mask = torch.full_like(logits, float("-inf"))
	masked_logits = torch.full(size=(seq_length,vocab_size),fill_value=float("-inf")) # [1205, 32]
	masked_logits[np.arange(X.shape[1]),X.reshape(-1)]=0 # target 的位置不mask

	'''CDS mask'''
	X_CDS,masked_logits_CDS = self.CDS_mask(seq, start, stop- len(GS6H) - len(Stop3)) # (603,),torch.Size([1, 603, 32])
	mask[start:stop- len(GS6H) - len(Stop3)] = X_CDS==self.tokenizer.mask_index
	special = self.seq_to_rnaindex('ACGT').reshape(-1)
	masked_logits[:start-len(Kozak),special]=0 # UTR5
	masked_logits[stop:,special]=0 # UTR3
	masked_logits[start:stop- len(GS6H) - len(Stop3)] = masked_logits_CDS

	for token in ['<s>', '<pad>', '</s>', '<unk>']:
	masked_logits[X.reshape(-1) == self.tokenizer.indices.get(token), :] = float("-inf")
	masked_logits[X.reshape(-1)==self.tokenizer.indices.get(token),self.tokenizer.indices.get(token)] = 0

	# masked_logits = masked_logits.unsqueeze(0)
	mask[start-len(Kozak):start+3] = False
	mask[stop-len(GS6H)-len(Stop3):stop] = False
	src_data, tgt_data, twod_data, loss_mask = self.generate_mask(X, len(seq),mask=mask,input_mask=self.input_mask)

	loss_mask = torch.tensor(mask, dtype=torch.bool)#.unsqueeze(0)
	src_data = torch.where(loss_mask,aa_idx,src_data)
	src_env = torch.tensor(self.args.env_id, dtype=torch.long)
	# test = torch.concat([torch.from_numpy(exp_one_d).float(),src_exp_data,loss_mask.unsqueeze(1).float(),src_exp_mask,tgt_exp_data],dim=1).detach().cpu().numpy()
	return (_id,src_data,tgt_data,twod_data,loss_mask,masked_logits,src_env) # tgt_exp_data,tgt_data 传送被mask的部分会更节约资源

	def CDS_mask(self,seq,start,stop):
	# target_positions = [self.region + 1,self.region *3 + 4] # ATG seq[301:301+3], TGG seq[901:901+3]
	# backbone_cds = re.sub(r'[^ACGT]', 'N', seq[target_positions[0]:target_positions[1]])
	backbone_cds = re.sub(r'[^ACGT]', 'N', seq[start:stop])
	# 目标氨基酸序列
	# target_protein = ['M', 'A', 'L']
	target_protein = self.translate(backbone_cds,repeate=1).upper()
	target_protein_idx = torch.tensor(np.array([self.tokenizer.indices.get(aa) for aa in target_protein.lower()]),dtype=torch.long)

	X = self.seq_to_rnaindex(backbone_cds, pad_idx=self.tokenizer.pad_index, unk_idx=self.tokenizer.unk_index).reshape(-1)
	num_rows, num_cols = len(target_protein),3
	cds_mask = np.zeros([num_rows, num_cols],dtype=int)

	# 计算要掩码的行数（20%）
	rows_to_mask = int(num_rows * self.mask_prob *2)
	# 随机选择要掩码的行
	masked_rows = random.sample(range(num_rows), rows_to_mask)
	# 为每个掩码行随机选择一列
	masked_cols = np.random.randint(0, num_cols, size=rows_to_mask)
	# 使用 NumPy 的向量化操作更新数据框
	cds_mask[masked_rows, masked_cols] = 1
	cds_mask = cds_mask.reshape(-1)
	X[cds_mask==1]=self.tokenizer.mask_index # mask

	# 假设的 logits 输出，形状为 (batch_size, seq_length, vocab_size)
	# 这里假设 batch_size=1，seq_length=9（即 3 个密码子），vocab_size=4（A, U, C, G）
	# logits = torch.zeros(len(backbone_cds), len(self.tokenizer))
	# 创建掩码
	# backbone_cds = 'AT_G_C_TC'
	# base_map = {0: 'A', 1: 'T', 2: 'C', 3: 'G'}
	# reverse_dictionary(base_map)
	masked_logits = self.create_codon_mask(target_protein_idx.numpy(), X, self.amino_acid_to_codons,self.tokenizer)
	# joint_mask = create_codon_mask(logits, target_protein,backbone_cds, AA_TO_CODONS)

	# 应用掩码
	# masked_logits = mask + logits

	return X,masked_logits


	class RiboDataset(RegionDataset):
	'''for distillation using ribo dataset'''
	def __init__(
	self,
	samples,
	tokenizer,
	args,
	region: int = 300,
	limit: int = -1,
	return_masked_tokens: bool = False,
	seed: int = 1,
	mask_prob: float = 0.15,
	leave_unmasked_prob: float = 0.1,
	random_token_prob: float = 0.1,
	freq_weighted_replacement: bool = False,
	two_dim_score: bool = False,
	two_dim_mask: int = -1,
	mask_whole_words: torch.Tensor = None,
	):
	# 调用父类初始化
	super().__init__(
	samples=samples,
	tokenizer=tokenizer,
	args=args,
	region=region,
	limit=limit,
	return_masked_tokens=return_masked_tokens,
	seed=seed,
	mask_prob=mask_prob,
	leave_unmasked_prob=leave_unmasked_prob,
	random_token_prob=random_token_prob,
	freq_weighted_replacement=freq_weighted_replacement,
	two_dim_score=two_dim_score,
	two_dim_mask=two_dim_mask,
	mask_whole_words=mask_whole_words,
	)

	def __getitem__(self, idx):
	# (_id,seq,cds_start, cds_stop,
	# ribo_counts,rna_counts,
	# ribosome_density,te,env,*_) = self.samples[idx] #cds_len,mRNA_len,junction_counts
	(_id,seq,cds_start, cds_stop,
	ribo_counts,rna_counts,
	ribosome_density,te,env,cds_len,mRNA_len,junction_counts) = self.samples[idx] #cds_len,mRNA_len,junction_counts
	aa_seq = '-'+self.translate(re.sub(r'[^ACGT]', 'N', seq[1:-1])).lower()+'-'
	aa_idx = torch.tensor(np.array([self.tokenizer.indices.get(aa) for aa in aa_seq]),dtype=torch.long)
	# 准备1D和2D输入数据

	# 对src,tgt,twod_data,loss_mask进行 mask 处理
	X = self.seq_to_rnaindex(seq, pad_idx=self.tokenizer.pad_index, unk_idx=self.tokenizer.unk_index)
	src_data,tgt_data,twod_data,mask = self.generate_mask(X,len(seq))
	loss_mask = torch.tensor(mask, dtype=torch.bool)#.unsqueeze(0)
	src_data = torch.where(loss_mask,aa_idx,src_data)

	window = 31
	exp_one_d = np.stack([ribo_counts,rna_counts,ribosome_density],axis=1)
	tgt_exp_data = torch.from_numpy(exp_one_d).float()
	tgt_exp_data = tgt_exp_data.permute(1,0)
	tgt_exp_data = F.avg_pool1d(tgt_exp_data,kernel_size=window,padding=window//2,stride=1)
	tgt_exp_data = tgt_exp_data.permute(1,0)
	tgt_exp_data[~loss_mask,:] = -1 # [1205, 3]

	src_exp_data = torch.from_numpy(exp_one_d).float()
	src_exp_mask = F.max_pool1d(loss_mask.unsqueeze(0).repeat(3,1).float(),kernel_size=window,padding=window//2,stride=1).permute(1,0) # 形状变为 (1, L).permute(1,0)
	src_exp_data = torch.where(src_exp_mask.bool(),torch.zeros_like(src_exp_mask),src_exp_data)

	# src_exp_data = torch.zeros_like(tgt_exp_data)
	# src_exp_data = [] # zero or ones are tried
	#src_exp_data = None TypeError: default_collate: batch must contain tensors, numpy arrays, numbers, dicts or lists; found <class 'NoneType'>
	src_data = torch.where(loss_mask,aa_idx,src_data)
	src_env = torch.tensor(env, dtype=torch.long)
	src_feature = np.array([cds_len,mRNA_len,junction_counts])
	src_feature = torch.from_numpy(src_feature).float() # .float() ==torch.float32
	src_feature = torch.log(src_feature+1) # 取对数
	tgt_te = torch.tensor(te, dtype=torch.float32)

	# test = torch.concat([torch.from_numpy(exp_one_d).float(),src_exp_data,loss_mask.unsqueeze(1).float(),src_exp_mask,tgt_exp_data],dim=1).detach().cpu().numpy()

	return src_data,src_exp_data,src_env,src_feature,tgt_data,tgt_exp_data,tgt_te,twod_data,loss_mask # tgt_exp_data,tgt_data 传送被mask的部分会更节约资源

	class DownstreamDataset(RegionDataset):
	def __init__(
	self,
	samples,
	tokenizer,
	args,
	region: int = 300,
	limit: int = -1,
	return_masked_tokens: bool = False,
	seed: int = 1,
	mask_prob: float = 0.15,
	leave_unmasked_prob: float = 0.1,
	random_token_prob: float = 0.1,
	freq_weighted_replacement: bool = False,
	two_dim_score: bool = False,
	two_dim_mask: int = -1,
	mask_whole_words: torch.Tensor = None,

	seq_len: int = 174,
	pad_method: str = "pre",
	column: str = "sequence",
	cds_len:str='cds_len',
	mRNA_len:str='mRNA_len',
	label: str = "IRES_Activity",
	):
	# 调用父类初始化
	super().__init__(
	samples=samples,
	tokenizer=tokenizer,
	args=args,
	region=region,
	limit=limit,
	return_masked_tokens=return_masked_tokens,
	seed=seed,
	mask_prob=mask_prob,
	leave_unmasked_prob=leave_unmasked_prob,
	random_token_prob=random_token_prob,
	freq_weighted_replacement=freq_weighted_replacement,
	two_dim_score=two_dim_score,
	two_dim_mask=two_dim_mask,
	mask_whole_words=mask_whole_words,
	)

	# 特有属性
	self.label = label
	self.column = column
	self.seq_len = seq_len
	self.cds_len = cds_len
	self.mRNA_len = mRNA_len
	self.pad_method = pad_method
	if limit!=-1:
	self.samples = self.samples.iloc[:limit]


	'''
	eGFP
	https://www.ncbi.nlm.nih.gov/nuccore/L29345.1
	>L29345.1 Aequorea victoria green-fluorescent protein (GFP) mRNA, complete cds\| 26..742
	TACACACGAATAAAAGATAACAAAGATGAGTAAAGGAGAAGAACTTTTCACTGGAGTTGTCCCAATTCTTGTTGAATTAGATGGCGATGTTAATGGGCAAAAATTCTCTGTCAGTGGAGAGGGTGAAGGTGATGCAACATACGGAAAACTTACCCTTAAATTTATTTGCACTACTGGGAAGCTACCTGTTCCATGGCCAACACTTGTCACTACTTTCTCTTATGGTGTTCAATGCTTTTCAAGATACCCAGATCATATGAAACAGCATGACTTTTTCAAGAGTGCCATGCCCGAAGGTTATGTACAGGAAAGAACTATATTTTACAAAGATGACGGGAACTACAAGACACGTGCTGAAGTCAAGTTTGAAGGTGATACCCTTGTTAATAGAATCGAGTTAAAAGGTATTGATTTTAAAGAAGATGGAAACATTCTTGGACACAAAATGGAATACAACTATAACTCACATAATGTATACATCATGGCAGACAAACCAAAGAATGGAATCAAAGTTAACTTCAAAATTAGACACAACATTAAAGATGGAAGCGTTCAATTAGCAGACCATTATCAACAAAATACTCCAATTGGCGATGGCCCTGTCCTTTTACCAGACAACCATTACCTGTCCACACAATCTGCCCTTTCCAAAGATCCCAACGAAAAGAGAGATCACATGATCCTTCTTGAGTTTGTAACAGCTGCTGGGATTACACATGGCATGGATGAACTATACAAATAAATGTCCAGACTTCCAATTGACACTAAAGTGTCCGAACAATTACTAAATTCTCAGGGTTCCTGGTTAAATTCAGGCTGAGACTTTATTTATATATTTATAGATTCATTAAAATTTTATGAATAATTTATTGATGTTATTAATAGGGGCTATTTTCTTATTAAATAGGCTACTGGAGTGTAT
	'''
	def __len__(self):
	return len(self.samples)
	def __getitem__(self, idx):
	data = self.samples.iloc[idx]
	seq = data[self.column]
	target = data[self.label]
	X = self.seq_to_rnaindex(seq, pad_idx=self.tokenizer.pad_index, unk_idx=self.tokenizer.unk_index)
	one_d, twod_d = self.prepare_input_for_ernierna(X, len(seq))
	one_d = one_d.view(-1)
	# 转换为PyTorch张量
	if not torch.is_tensor(one_d):
	src_data = torch.from_numpy(one_d) # 假设one_d是你想要的1D输入特征
	else:
	src_data = one_d
	if not torch.is_tensor(twod_d):
	twod_data = torch.from_numpy(twod_d.squeeze(dim=-1)) # 二维输入特征
	else:
	twod_data = twod_d.squeeze(dim=-1)


	src_env = torch.tensor(self.args.env_id, dtype=torch.long)

	cds_len = data[self.cds_len] if self.cds_len in data else 742-26+1
	mRNA_len = data[self.mRNA_len] if self.mRNA_len in data else 922
	# cds_len = 742-26+1
	# mRNA_len = 922
	junction_counts= 0
	src_feature = np.array([cds_len,mRNA_len,junction_counts])
	src_feature = torch.from_numpy(src_feature).float() # .float() ==torch.float32
	# src_feature = torch.log(src_feature+1) # 取对数

	# 获取回归任务的目标值
	target = torch.tensor(target, dtype=torch.float32) # 假设每个样本都有一个'target'字段表示其回归目标
	return src_data, twod_data,src_env, src_feature, target # 返回所有必要的输入和目标值


	class RegressionDataset(BaseDataset):
	"""处理回归任务的Dataset"""
	def __init__(
	self,
	path,
	tokenizer,
	args,
	region: int = 300,
	limit: int = -1,
	return_masked_tokens: bool = False,
	seed: int = 1,
	mask_prob: float = 0.15,
	leave_unmasked_prob: float = 0.1,
	random_token_prob: float = 0.1,
	freq_weighted_replacement: bool = False,
	two_dim_score: bool = False,
	two_dim_mask: int = -1,
	mask_whole_words: torch.Tensor = None,

	seq_len: int = 174,
	pad_method: str = "pre",
	column: str = "sequence",
	label: str = "IRES_Activity",
	returnid=None
	):
	# 调用父类初始化
	super().__init__(
	tokenizer=tokenizer,
	region=region,
	limit=limit,
	return_masked_tokens=return_masked_tokens,
	seed=seed,
	mask_prob=mask_prob,
	leave_unmasked_prob=leave_unmasked_prob,
	random_token_prob=random_token_prob,
	freq_weighted_replacement=freq_weighted_replacement,
	two_dim_score=two_dim_score,
	two_dim_mask=two_dim_mask,
	mask_whole_words=mask_whole_words,
	)

	# 特有属性
	self.label = label
	self.column = column
	self.seq_len = seq_len
	self.pad_method = pad_method
	self.args = args
	self.returnid = returnid
	# 加载数据
	self.samples = self.load_data(
	path,
	seq_len=seq_len,
	column=column,
	pad_method=pad_method
	)
	if limit!=-1:
	self.samples = self.samples.iloc[:limit]

	def load_data(self, path, **kwargs):

	return self.read_csv_file(
	path,
	seq_len=kwargs['seq_len'],
	column=kwargs['column'],
	pad_method=kwargs['pad_method']
	)

	def read_csv_file(self,file_path, **kwargs):
	# 保持原有CSV读取逻辑
	try:
	column = kwargs['column']
	data = pd.read_csv(file_path)
	if column not in data.columns:
	data[column] = data.apply(self.generate_inputs, axis=1) # 预处理数据
	return pad_or_truncate_utr(
	data,
	pad_method=kwargs['pad_method'],
	column=kwargs['column'],
	input_len=kwargs['seq_len']
	)
	except FileNotFoundError:
	print(f"Error: File '{file_path}' not found.")
	return []

	def __len__(self):
	return len(self.samples)

	def __getitem__(self,idx):
	data = self.samples.iloc[idx]
	seq = data[self.column]
	target = data[self.label]
	# X, data_seq = self.seq_to_rnaindex_and_onehot(seq)
	X = self.seq_to_rnaindex(seq, pad_idx=self.tokenizer.pad_index, unk_idx=self.tokenizer.unk_index)

	# 准备1D和2D输入数据
	one_d, twod_d = self.prepare_input_for_ernierna(X, len(seq))
	one_d = one_d.view(-1)
	# 转换为PyTorch张量
	if not torch.is_tensor(one_d):
	src_data = torch.from_numpy(one_d) # 假设one_d是你想要的1D输入特征
	else:
	src_data = one_d
	if not torch.is_tensor(twod_d):
	twod_data = torch.from_numpy(twod_d.squeeze(dim=-1)) # 二维输入特征
	else:
	twod_data = twod_d.squeeze(dim=-1)
	src_env = torch.tensor(self.args.env_id, dtype=torch.long)
	cds_len = 742-26+1
	mRNA_len = 922
	junction_counts= 0
	src_feature = np.array([cds_len,mRNA_len,junction_counts])
	src_feature = torch.from_numpy(src_feature).float() # .float() ==torch.float32
	src_feature = torch.log(src_feature+1) # 取对数

	# 获取回归任务的目标值
	target = torch.tensor(target, dtype=torch.float32) # 假设每个样本都有一个'target'字段表示其回归目标

	if self.returnid is None:return src_data, twod_data,src_env, src_feature, target # 返回所有必要的输入和目标值
	else: return data[self.returnid],src_data, twod_data,src_env, src_feature, target


	class MaotaoDataset(BaseDataset):
	"""处理回归任务的Dataset"""
	def __init__(
	self,
	path,
	tokenizer,
	args,
	region: int = 300,
	limit: int = -1,
	return_masked_tokens: bool = False,
	seed: int = 1,
	mask_prob: float = 0.15,
	leave_unmasked_prob: float = 0.1,
	random_token_prob: float = 0.1,
	freq_weighted_replacement: bool = False,
	two_dim_score: bool = False,
	two_dim_mask: int = -1,
	mask_whole_words: torch.Tensor = None,

	seq_len: int = 1200,
	column: str = 'off_start,off_end,full_len,type,_id,species,maotao_id,truncated_aa,cai_best_nn',
	label: str = "truncated_nn,cai_nature",

	codon_table_path: str='maotao_file/codon_table/codon_usage_{species}.csv',
	species_list:str="""mouse,Ec,Sac,Pic,Human""",
	type_list:str="""full,head,tail,boundary,middle""",
	# protein_alphabet_list:str="""_ACDEFGHIKLMNPQRSTVWY*""", # padding 被写死为1了 # # 10-31
	rna_alphabet_list:str="""GAUC""",# 用网络自带的编码
	returnid = None
	):
	# 调用父类初始化
	super().__init__(
	tokenizer=tokenizer,
	region=region,
	limit=limit,
	return_masked_tokens=return_masked_tokens,
	seed=seed,
	mask_prob=mask_prob,
	leave_unmasked_prob=leave_unmasked_prob,
	random_token_prob=random_token_prob,
	freq_weighted_replacement=freq_weighted_replacement,
	two_dim_score=two_dim_score,
	two_dim_mask=two_dim_mask,
	mask_whole_words=mask_whole_words,
	)

	# 特有属性
	self.species = {k:v for v,k in enumerate(species_list.split(','))}
	self.species.update({v:v for v,k in enumerate(species_list.split(','))})
	self.seq_types = {k:v for v,k in enumerate(type_list.split(','))}
	self.seq_types.update({v:v for v,k in enumerate(type_list.split(','))})
	# self.protein_alphabet = {k:v for v,k in enumerate(protein_alphabet_list)}
	self.rna_alphabet = {k:v+4 for v,k in enumerate(rna_alphabet_list)}
	self.label = label.split(',')
	self.column = column.split(',')
	self.seq_len = seq_len
	self.args = args
	# 加载数据
	self.samples = self.load_data(path)
	# 加载codontable
	self.codon_instance_rna = {self.species[species]: Codon(codon_table_path.format(species=species), rna=True) for species in
	species_list.split(',')}
	if limit!=-1:
	self.samples = self.samples.iloc[:limit]

	def load_data(self, path, **kwargs):
	if os.access(path.replace('.csv','_processed.pickle'), os.R_OK):
	df = pd.read_pickle(path.replace('.csv','_processed.pickle'))
	else:
	df = pd.read_csv(path)
	df['truncated_aa'] = df['truncated_aa'].apply(lambda x: re.sub(r'[^acdefghiklmnpqrstvwy*_]', '_', x.lower()))
	df['cai_best_nn'] = df['cai_best_nn'].apply(lambda x: x.upper().replace('T','U'))
	df['species'] = df['species'].apply(lambda x: self.species[x])
	df['type'] = df['type'].apply(lambda x: self.seq_types[x])
	df.to_csv(path.replace('.csv','_processed.csv'),index=False)
	with open(path.replace('.csv','_processed.pickle'), 'wb') as f:
	pickle.dump(df,f)
	return df

	def __len__(self):
	return len(self.samples)

	def __getitem__(self,idx):
	data = self.samples.iloc[idx]
	maotao_id = data['maotao_id']
	aa_index = np.array([self.tokenizer.index(x) for x in data['truncated_aa']])
	# input idx
	aa_idx = torch.from_numpy(aa_index).long()
	seq = data['cai_best_nn']

	'''prepare 1D and 2D input data'''
	# X, data_seq = self.seq_to_rnaindex_and_onehot(seq)
	X = self.seq_to_rnaindex(seq, pad_idx=self.tokenizer.pad_index, unk_idx=self.tokenizer.unk_index)
	# 准备1D和2D输入数据
	one_d, twod_d = self.prepare_input_for_ernierna(X, len(seq))
	one_d = one_d.view(-1)
	# 转换为PyTorch张量
	if not torch.is_tensor(one_d):
	src_data = torch.from_numpy(one_d) # 假设one_d是你想要的1D输入特征
	else:
	src_data = one_d
	if not torch.is_tensor(twod_d):
	twod_data = torch.from_numpy(twod_d.squeeze(dim=-1)) # 二维输入特征
	else:
	twod_data = twod_d.squeeze(dim=-1)

	continuous_features = np.array([data['off_start'],data['off_end'],data['full_len']])
	continuous_features = np.log(np.maximum(continuous_features+3,0)+1)
	continuous_features = torch.from_numpy(continuous_features).float() # .float() ==torch.float32
	# continuous_features = torch.log(torch.max(torch.tensor(continuous_features+3),torch.tensor(0))+1) # 取对数
	species_features = torch.tensor(data['species'],dtype=torch.long)
	truncated_features = torch.tensor(data['type'],dtype=torch.long)
	ith_nn_prob = self.codon_instance_rna[data['species']].frame_ith_aa_base_fraction
	nn_prob = self.create_base_prob(data['truncated_aa'],ith_nn_prob,self.rna_alphabet,self.tokenizer)
	'''output'''
	if 'truncated_nn' in data:
	target_nn = self.seq_to_rnaindex(data['truncated_nn'], pad_idx=self.tokenizer.pad_index, unk_idx=self.tokenizer.unk_index).reshape(-1)
	# 获取回归任务的目标值
	target = torch.tensor(data['cai_nature'], dtype=torch.float32) # 假设每个样本都有一个'target'字段表示其回归目标
	else:
	target_nn = self.seq_to_rnaindex(data['cai_best_nn'], pad_idx=self.tokenizer.pad_index, unk_idx=self.tokenizer.unk_index).reshape(-1)
	target = torch.tensor(0, dtype=torch.float32) # 假设每个样本都有一个'target'字段表示其回归目标
	target_nn = torch.from_numpy(target_nn).long()
	frames = [1, 2, 3]
	backbone_cds_list = self.modify_codon_by_frames(target_nn, frames=frames,
	masked_token=self.tokenizer.mask_index)
	# backbone_cds_list = self.modify_codon_by_frames(src_data, frames = frames,masked_token=self.tokenizer.mask_index)
	masked_logits_list = []
	for backbone_cds, frame in zip(backbone_cds_list, frames):
	masked_logits = self.create_codon_mask(aa_idx, backbone_cds, self.amino_acid_to_codons,
	self.tokenizer)
	masked_logits_list.append(masked_logits.unsqueeze(0))
	# 'UUCACCCAGGCCACGCGGAGUACGAUCGAGUGUACAGUGAA'
	# test = masked_logits.numpy()
	masked_logits_list = torch.cat(masked_logits_list, dim=0)

	return src_data, twod_data, aa_idx,continuous_features, species_features, truncated_features, target_nn, target,masked_logits_list[...,:10],nn_prob[...,:10], maotao_id
	# [(a.shape, a.dtype) for a in [src_data, twod_data, aa_idx,continuous_features, species_features, truncated_features, target_nn, target]]
	# Out[10]:
	# [(torch.Size([1200]), torch.int64),
	# (torch.Size([1, 1200, 1200]), torch.float64),
	# (torch.Size([400]), torch.int64),
	# (torch.Size([3]), torch.float32),
	# (torch.Size([]), torch.int64),
	# (torch.Size([]), torch.int64),
	# (torch.Size([1200]), torch.int64),
	# (torch.Size([]), torch.float32)]
	@staticmethod
	def modify_codon_by_frames(sequence, frames=[1, 2, 3], masked_token='_'):
	"""
	高级版本：支持自定义修改函数

	参数:
	sequence (str): 输入序列
	frame (int): 要修改的密码子位置 (1, 2, 3)
	modify_func (callable): 修改函数，接收原帧字符串，返回修改后的字符串

	返回:
	str: 修改后的重建序列
	"""
	# 清理序列
	# seq = sequence.upper().replace(' ', '').replace('\n', '')
	seq = sequence
	# seq = seq[:len(seq) - len(seq) % 3]
	# 使用切片提取帧
	frames_seq = [seq[0::3], seq[1::3], seq[2::3]]

	reconstructed_list = []
	# 应用修改函数
	for ith,frame in enumerate(frames_seq):
	if ith+1 in frames:
	tmp_seq = deepcopy(frames_seq)
	tmp_seq[ith] = [masked_token] * len(frames_seq[ith])
	# 重建序列
	# reconstructed = None
	if isinstance(seq,str):
	reconstructed = ''.join(
	tmp_seq[0][i] + tmp_seq[1][i] + tmp_seq[2][i]
	for i in range(len(tmp_seq[0]))
	)
	elif isinstance(seq,torch.Tensor):
	tmp_seq[ith] = torch.from_numpy(np.array(tmp_seq[ith]))
	reconstructed = torch.stack(tmp_seq, dim=1).reshape(-1)

	elif isinstance(seq,np.ndarray):
	tmp_seq[ith] = np.array(tmp_seq[ith])
	reconstructed = np.stack(tmp_seq, axis=1).reshape(-1)
	else:
	raise ValueError(type(seq))
	# reconstructed = torch.cat([tmp_seq[0][i],tmp_seq[1][i],tmp_seq[2][i]
	# for i in range(len(tmp_seq[0]))])
	# reconstructed = [tmp_seq[0][i] + tmp_seq[1][i] + tmp_seq[2][i]
	# for i in range(len(tmp_seq[0]))]
	reconstructed_list.append(deepcopy(reconstructed))

	return reconstructed_list

	def gaussian(x):
	return math.exp(-0.5(xx))
	def paired(x,y,lamda=0.8):
	if x == 5 and y == 6:
	return 2
	elif x == 4 and y == 7:
	return 3
	elif x == 4 and y == 6:
	return lamda
	elif x == 6 and y == 5:
	return 2
	elif x == 7 and y == 4:
	return 3
	elif x == 6 and y == 4:
	return lamda
	else:
	return 0

	def pad_or_truncate_utr(data, input_len, pad_method,column='utr',pad_mark='_'):
	def process_utr(utr):
	if len(utr) < input_len:
	if pad_method == 'pre':
	padded_utr = pad_mark * (input_len - len(utr)) + utr
	elif pad_method == 'behind':
	padded_utr = utr + pad_mark * (input_len - len(utr))
	else:
	padded_utr = utr[-input_len:]
	return padded_utr
	data[column] = data[column].apply(process_utr)
	return data
	# def do_createmat(data, base_range=30, lamda=0.8):
	# paird_map = np.array([[paired(i, j, lamda) for i in range(30)] for j in range(30)]) # token
	# data_index = np.arange(0, len(data))
	# # np.indices((2,2))
	# coefficient = np.zeros([len(data), len(data)])
	# # mat = np.zeros((len(data),len(data)))
	# score_mask = np.full((len(data), len(data)), True)
	# for add in range(base_range):
	# data_index_x = data_index - add
	# data_index_y = data_index + add
	# score_mask = ((data_index_x >= 0)[:, None] & (data_index_y < len(data))[None, :]) & score_mask
	# data_index_x, data_index_y = np.meshgrid(data_index_x.clip(0, len(data) - 1),
	# data_index_y.clip(0, len(data) - 1), indexing='ij')
	# score = paird_map[data[data_index_x], data[data_index_y]]
	# score_mask = score_mask & (score != 0)
	#
	# coefficient = coefficient + score * score_mask * gaussian(add)
	# if ~(score_mask.any()):
	# break
	# score_mask = coefficient > 0
	# for add in range(1, base_range):
	# data_index_x = data_index + add
	# data_index_y = data_index - add
	# score_mask = ((data_index_x < len(data))[:, None] & (data_index_y >= 0)[None, :]) & score_mask
	# data_index_x, data_index_y = np.meshgrid(data_index_x.clip(0, len(data) - 1),
	# data_index_y.clip(0, len(data) - 1), indexing='ij')
	# score = paird_map[data[data_index_x], data[data_index_y]]
	# score_mask = score_mask & (score != 0)
	# coefficient = coefficient + score * score_mask * gaussian(add)
	# if ~(score_mask.any()):
	# break
	# return coefficient
	def do_createmat(data, base_range=30, lamda=0.8):
	paird_map = np.array([[paired(i, j, lamda) for i in range(30)] for j in range(30)]) # token
	data_index = np.arange(0, len(data))
	# np.indices((2,2))
	coefficient = np.zeros([len(data), len(data)])
	# mat = np.zeros((len(data),len(data)))
	score_mask = np.full((len(data), len(data)), True)
	for add in [0,300]:
	data_index_x = data_index - add
	data_index_y = data_index + add
	score_mask = ((data_index_x >= 0)[:, None] & (data_index_y < len(data))[None, :]) & score_mask
	data_index_x, data_index_y = np.meshgrid(data_index_x.clip(0, len(data) - 1),
	data_index_y.clip(0, len(data) - 1), indexing='ij')
	score = paird_map[data[data_index_x], data[data_index_y]]
	score_mask = score_mask & (score != 0)

	coefficient = coefficient + score * score_mask * gaussian(add)
	if ~(score_mask.any()):
	break
	return coefficient

	def creatmat(data, base_range=30, lamda=0.8):
	return do_createmat(data, base_range=base_range, lamda=lamda)
	# if len(data.shape)==1:return do_createmat(data,base_range=base_range,lamda =lamda)
	# else:
	# coefficient = np.zeros((data.shape[0],data.shape[1],data.shape[1]))
	# for i in range(data.shape[0]):
	# coefficient[i,:,:] = do_createmat(data[i:i+1,:], base_range=base_range, lamda=lamda)
	# return coefficient

	import argparse





	if __name__ == '__main__':
	print('start generating')
	# # 获取 pretraining 和 dataset 的 args
	# from model.tools import get_dataset_args, get_pretraining_args
	# pretraining_parser = get_pretraining_args()
	# dataset_parser = get_dataset_args()
	#
	# # 合并 args
	# parser = argparse.ArgumentParser(parents=[pretraining_parser, dataset_parser], add_help=False,conflict_handler='resolve')
	# # dataset_parser = get_dataset_args()
	# ## 合并 args
	# # parser = argparse.ArgumentParser(parents=[ dataset_parser], add_help=False,
	# # conflict_handler='resolve')
	#
	# args = parser.parse_args()
	# args.batch_size = 5
	#
	# args.ffasta = '/public/home/jiang_jiuhong/Data/RNAdesign/Raw_data/_0_reference/GRCh38.p14/mRNA/full.fa'
	# # ans = RNADataset.read_fasta_file(args.ffasta)
	#
	# args.device = 'cpu'
	# vocab_path = args.arg_overrides['data'] + '/dict.txt'
	# tokenizer = Dictionary.load(vocab_path)
	# tokenizer.mask_index = tokenizer.add_symbol('<mask>')
	# # train_ds = RNADataset(args.ffasta,max_length=args.region * 2,tokenizer=tokenizer)
	# # train_loader = DataLoader(
	# # train_ds,
	# # batch_size=args.batch_size,
	# # pin_memory=True,
	# # drop_last=False,
	# # shuffle=False,
	# # num_workers=args.num_workers,
	# # sampler=None
	# # )
	# #
	# # for step, (src_data,tgt_data,twod_data,loss_mask) in enumerate(train_loader):
	# # print(step, [a.shape for a in [src_data, tgt_data, twod_data,
	# # loss_mask]]) # [torch.Size([1, 1203]), torch.Size([1, 1203]), torch.Size([1, 1203, 1203, 1])]
	# # a = [a.numpy()[0] for a in [src_data, tgt_data, twod_data,
	# # loss_mask]]
	#
	#
	# # train_ds = RegressionDataset(args.downstream_data_path+'/IRES_linear/TS.csv', tokenizer, seq_len=args.seq_len, column=args.column, label=args.label,
	# # pad_method=args.pad_method)
	# # train_loader = DataLoader(
	# # train_ds,
	# # batch_size=args.batch_size,
	# # pin_memory=True,
	# # drop_last=False,
	# # shuffle=False,
	# # )
	# # for step, data in enumerate(train_loader):
	# # print(step, [a.shape for a in data]) # [torch.Size([1, 1203]), torch.Size([1, 1203]), torch.Size([1, 1203, 1203, 1])]
	#
	# '''RiboDataPipeline'''
	# ribo_experiment, rna_experiment = 'SRX5164421','SRX5164417' #TAIR10#
	# ribo_experiment, rna_experiment = 'SRX12763793','SRX12763783' # human
	# ribo_experiment, rna_experiment = 'SRX9444526','SRX9444530' # mouse
	# print(os.path.abspath(args.exp_pretrain_data_path))
	# # RDP = RiboDataPipeline(args.exp_pretrain_data_path,ribo_experiment, rna_experiment, seq_only=True, region=-1,limit=-1,cds_min=100) # generate mRNA.fa
	# # RDP = RiboDataPipeline(args.exp_pretrain_data_path,ribo_experiment, rna_experiment, seq_only=True, region=300,limit=-1,cds_min=100) # generate mRNA_region.fa
	# # RDP = RiboDataPipeline(args.exp_pretrain_data_path, ribo_experiment, rna_experiment, seq_only=False, region=6,limit=300,cds_min=100) # loading ribosome counts data
	# # TR,VL,TS = RDP.samples['TR'],RDP.samples['VL'],RDP.samples['TS']
	# # with open('./dataset/experiment/nature/reference/GRCh38.p14/mRNA_300.pkl','wb') as f:
	# # pickle.dump((TR,VL,TS),f)
	# #
	# # RDP = RiboDataPipeline(args.exp_pretrain_data_path,ribo_experiment, rna_experiment, seq_only=True, region=300,limit=300,cds_min=100,norm=True) # generate mRNA_region.fa
	# # # TR,VL,TS = RDP.samples['TR'],RDP.samples['VL'],RDP.samples['TS']
	# # with open('./dataset/experiment/nature/reference/GRCh38.p14/mRNA_300.pkl','wb') as f:
	# # pickle.dump(RDP.samples,f)
	#
	#
	# '''why 300'''
	# # region = 1000
	# # RDP = RiboDataPipeline(args.exp_pretrain_data_path,ribo_experiment, rna_experiment, seq_only=False, region=1000,limit=-1,cds_min=100,norm=False) # generate mRNA_region.fa
	# # RDP = RiboDataPipeline(args.exp_pretrain_data_path,ribo_experiment, rna_experiment, seq_only=True, region=2000,limit=-1,cds_min=100,norm=False) # generate mRNA_region.fa
	# # RDP = RiboDataPipeline(args.exp_pretrain_data_path,ribo_experiment, rna_experiment, seq_only=True, region=2000,limit=-1,cds_min=100,norm=False) # generate mRNA_region.fa
	# # RDP = RiboDataPipeline(args.exp_pretrain_data_path,ribo_experiment, rna_experiment, seq_only=True, region=-1,limit=-1,cds_min=100,norm=False) # generate mRNA_region.fa
	# # # TR,VL,TS = RDP.samples['TR'],RDP.samples['VL'],RDP.samples['TS']
	# # ftrack = f'./dataset/experiment/nature/track_{ribo_experiment}_{rna_experiment}_{region}_counts_not_norm.pkl'
	# # ref_norm = [690.98991075,2214.2488917]
	# # # ref_norm = [1,1]
	# #
	# # with open(ftrack,'wb') as f:
	# # data = RDP.samples
	# # TS = deepcopy(data['TR'])
	# # df = pd.DataFrame(TS).T
	# # df.columns = 'seq,cds_start,cds_stop,ribo_counts,rna_counts,ribosome_density,te,env,cds_len,mRNA_len'.split(',')
	# # df['RPF_counts'] = df['ribo_counts'].apply(lambda x: sum(x[1001:3004]))
	# # df['RNA_counts'] = df['rna_counts'].apply(lambda x: sum(x[1001:3004]))
	# #
	# # df = df[df['RPF_counts']>100]
	# # df = df[df['RNA_counts']>100]
	# # df = df[df['cds_len']>2000]
	# # df = df[df['te']!=-1]
	# # RPF = np.array(df['ribo_counts'].tolist())*ref_norm[0]
	# # RNA = np.array(df['rna_counts'].tolist())*ref_norm[1]
	# # density = np.array(df['ribosome_density'].tolist())
	# # pickle.dump((RPF,RNA,density),f)
	#
	# # fname = 'track_SRX12763793_SRX12763783_1000.pkl'
	# # with open(os.path.join(WDIR, fname), 'rb') as f:
	# # data = pickle.load(f)
	#
	#
	# # train_ds = RiboDataset(TR, tokenizer)
	# # train_loader = DataLoader(
	# # train_ds,
	# # batch_size=args.batch_size,
	# # pin_memory=True,
	# # drop_last=False,
	# # shuffle=False,
	# # )
	# # for step, data in enumerate(train_loader):
	# # print(step, [a.shape for a in data]) # [torch.Size([1, 1203]), torch.Size([1, 1203]), torch.Size([1, 1203, 1203, 1])]
	#
	#
	# '''submit task to get a lot of pretraining data'''
	# ribo_experiment, rna_experiment = 'SRX5164421','SRX5164417' #TAIR10#
	# ribo_experiment, rna_experiment = 'SRX12763793','SRX12763783' # human
	# # RDP = RiboDataPipeline(args.exp_pretrain_data_path,ribo_experiment, rna_experiment, seq_only=True, region=-1,limit=-1,cds_min=100) # generate mRNA.fa
	# # RDP = RiboDataPipeline(args.exp_pretrain_data_path,ribo_experiment, rna_experiment, seq_only=True, region=300,limit=-1,cds_min=100) # generate mRNA_region.fa
	# RDP = RiboDataPipeline(args.exp_pretrain_data_path,ribo_experiment, rna_experiment, seq_only=True, region=1998,limit=-1,cds_min=100) # generate mRNA_region.fa
	# # RDP = RiboDataPipeline(args.exp_pretrain_data_path, ribo_experiment, rna_experiment, seq_only=False, region=6,limit=300,cds_min=100) # loading ribosome counts data
	# # TR,VL,TS = RDP.samples['TR'],RDP.samples['VL'],RDP.samples['TS']