Added models and code

39a7504 9 months ago

9.3 kB

	import torch
	import math


	class InputEmbeddings(torch.nn.Module):
	def __init__(self, d_model, vocab_size):
	super().__init__()
	self.d_model = d_model
	self.vocab_size = vocab_size
	self.embeddingss = torch.nn.Embedding(vocab_size, d_model)

	def forward(self, x):
	return self.embeddingss(x) * math.sqrt(self.d_model)


	class PositionalEncoding(torch.nn.Module):
	def __init__(self, d_model, seq_len, dropout):
	super().__init__()
	self.d_model = d_model
	self.seq_len = seq_len
	self.dropout = torch.nn.Dropout(dropout)
	pe = torch.zeros(self.seq_len, self.d_model)

	for i in range(self.seq_len):
	for j in range(self.d_model):
	denom = torch.pow(torch.tensor(10000.0), (2 * j) / self.d_model)
	num = torch.tensor(float(i))
	if j % 2 == 0:
	pe[i, j] = torch.sin(num / denom)
	else:
	pe[i, j] = torch.cos(num / denom)

	pe = pe.unsqueeze(0)
	print(pe.shape)
	self.register_buffer("pe", pe)

	def forward(self, x):
	x = x + (self.pe[:, : x.shape[1], :]).requires_grad_(False)
	return self.dropout(x)


	class LayerNormm(torch.nn.Module):
	def __init__(self, features):
	super().__init__()
	self.layer_norm = torch.nn.LayerNorm(features, eps=1e-5)

	def forward(self, x):
	return self.layer_norm(x)


	class FeedForward(torch.nn.Module):
	def __init__(self, d_model, dff, dropout):
	super().__init__()
	self.linear_1 = torch.nn.Linear(d_model, dff)
	self.dropout = torch.nn.Dropout(dropout)
	self.linear_2 = torch.nn.Linear(dff, d_model)
	self.activation = torch.nn.ReLU()

	def forward(self, x):
	x = self.linear_1(x)
	x = self.activation(x)
	x = self.dropout(x)
	x = self.linear_2(x)
	return x


	class MHA(torch.nn.Module):
	def __init__(self, d_model, number_of_heads, dropout):
	super().__init__()

	self.dropout = torch.nn.Dropout(dropout)
	self.d_model = d_model
	self.noh = number_of_heads

	self.dk = self.d_model // self.noh

	self.wq = torch.nn.Linear(d_model, d_model)
	self.wk = torch.nn.Linear(d_model, d_model)
	self.wv = torch.nn.Linear(d_model, d_model)
	self.wo = torch.nn.Linear(d_model, d_model)

	@staticmethod
	def calculate_self_attention(qprime, kprime, vprime, mask, dropout):
	dk = qprime.shape[-1]
	attention_scores = (qprime @ kprime.transpose(-2, -1)) / math.sqrt(dk)

	if mask is not None:
	attention_scores.masked_fill_(mask == 0, -1e9)

	attention_scores = attention_scores.softmax(dim=-1)
	# why last dim ?
	if dropout is not None:
	attention_scores = dropout(attention_scores)

	return (attention_scores @ vprime), attention_scores

	def forward(self, q, k, v, mask):
	qprime = self.wq(q)
	# (batch,seq_length,dmodel)
	kprime = self.wk(k)
	# (batch,seq_length,dmodel)
	vprime = self.wv(v)
	# (batch,seq_length,dmodel)

	qprime = qprime.view(qprime.shape[0], qprime.shape[1], self.noh, self.dk)
	# (batch,seq_length,dmodel) =>(batch,seq_length,noh,dk)
	qprime = qprime.transpose(1, 2)
	# (batch,seq_length,noh,dk) => (batch,noh,seq_length,dk)

	kprime = kprime.view(kprime.shape[0], kprime.shape[1], self.noh, self.dk)
	kprime = kprime.transpose(1, 2)

	vprime = vprime.view(vprime.shape[0], vprime.shape[1], self.noh, self.dk)
	vprime = vprime.transpose(1, 2)

	x, attention_scores = MHA.calculate_self_attention(
	qprime, kprime, vprime, mask, self.dropout
	)
	x = x.transpose(1, 2).contiguous().view(x.shape[0], -1, self.noh * self.dk)
	return self.wo(x)


	class SkipConnection(torch.nn.Module):
	def __init__(self, features, dropout):
	super().__init__()
	self.dropout = torch.nn.Dropout(dropout)
	self.layernorm = LayerNormm(features)

	def forward(self, x, sublayer):
	return x + self.dropout(sublayer(self.layernorm(x)))


	class EncoderBlock(torch.nn.Module):
	def __init__(self, features, mha_block, feedforward_block, dropout):
	super().__init__()
	self.attention_block = mha_block
	self.feedforward_block = feedforward_block
	self.skip_connections = torch.nn.ModuleList(
	[SkipConnection(features, dropout) for _ in range(2)]
	)
	self.dropout = torch.nn.Dropout(dropout)

	def forward(self, x, src_mask):
	x = self.skip_connections[0](
	x, lambda x: self.attention_block(x, x, x, src_mask)
	)
	x = self.skip_connections[1](x, self.feedforward_block)
	return x


	class Encoder(torch.nn.Module):
	def __init__(self, features: int, layers: torch.nn.ModuleList) -> None:
	super().__init__()
	self.layers = layers
	self.norm = LayerNormm(features)

	def forward(self, x, mask):
	for layer in self.layers:
	x = layer(x, mask)
	return self.norm(x)


	class DecoderBlock(torch.nn.Module):
	def __init__(self, features, mha_block, mha_block2, feedforward_block, dropout):
	super().__init__()
	self.attention_block = mha_block
	self.cross_attention_block = mha_block2
	self.feedforward_block = feedforward_block
	self.skip_connections = torch.nn.ModuleList(
	[SkipConnection(features, dropout) for _ in range(3)]
	)
	self.dropout = torch.nn.Dropout(dropout)

	def forward(self, x, enc_output, src_mask, tgt_mask):
	x = self.skip_connections[0](
	x, lambda x: self.attention_block(x, x, x, tgt_mask)
	)
	x = self.skip_connections[1](
	x, lambda x: self.cross_attention_block(x, enc_output, enc_output, src_mask)
	)
	x = self.skip_connections[2](x, self.feedforward_block)
	return x


	class Decoder(torch.nn.Module):

	def __init__(self, features: int, layers: torch.nn.ModuleList) -> None:
	super().__init__()
	self.layers = layers
	self.norm = LayerNormm(features)

	def forward(self, x, encoder_output, src_mask, tgt_mask):
	for layer in self.layers:
	x = layer(x, encoder_output, src_mask, tgt_mask)
	return self.norm(x)


	class ProjectionLayer(torch.nn.Module):

	def __init__(self, d_model, vocab_size) -> None:
	super().__init__()
	self.proj = torch.nn.Linear(d_model, vocab_size)

	def forward(self, x) -> None:
	return self.proj(x)


	class Transformer(torch.nn.Module):

	def __init__(
	self,
	encoder,
	decoder,
	src_pos_enc,
	tgt_pos_enc,
	src_emb,
	tgt_emb,
	projection_layer,
	) -> None:
	super().__init__()
	self.encoder = encoder
	self.decoder = decoder
	self.src_pos_enc = src_pos_enc
	self.tgt_pos_enc = tgt_pos_enc
	self.src_emb = src_emb
	self.tgt_emb = tgt_emb
	self.projection_layer = projection_layer

	def encode(self, src, src_mask):
	src = self.src_emb(src)
	src = self.src_pos_enc(src)
	x = self.encoder(src, src_mask)
	return x

	def decode(self, tgt, enc_output, src_mask, tgt_mask):
	tgt = self.tgt_emb(tgt)
	tgt = self.tgt_pos_enc(tgt)
	x = self.decoder(tgt, enc_output, src_mask, tgt_mask)
	return x

	def project(self, x):
	x = self.projection_layer(x)
	return x

	def build_transformer(
	src_vocab_size,
	tgt_vocab_size,
	src_seq_len,
	tgt_seq_len,
	nlayers=6,
	noh=8,
	d_model=512,
	dropout=0.1,
	dff=2048,
	):
	src_emb = InputEmbeddings(d_model, src_vocab_size)
	tgt_emb = InputEmbeddings(d_model, tgt_vocab_size)

	src_pos_enc = PositionalEncoding(d_model, src_seq_len, dropout)
	tgt_pos_enc = PositionalEncoding(d_model, tgt_seq_len, dropout)

	enc_blocks = []
	for i in range(0, nlayers):
	mha = MHA(d_model, noh, dropout)
	ff = FeedForward(d_model, dff, dropout)
	enc_block = EncoderBlock(d_model, mha, ff, dropout)
	enc_blocks.append(enc_block)

	encoder = Encoder(d_model, torch.nn.ModuleList(enc_blocks))

	dec_blocks = []
	for i in range(0, nlayers):
	mha = MHA(d_model, noh, dropout)
	mha2 = MHA(d_model, noh, dropout)
	ff = FeedForward(d_model, dff, dropout)
	dec_block = DecoderBlock(d_model, mha, mha2, ff, dropout)
	dec_blocks.append(dec_block)

	decoder = Decoder(d_model, torch.nn.ModuleList(dec_blocks))

	proj = ProjectionLayer(d_model, tgt_vocab_size)

	transformer = Transformer(
	encoder, decoder, src_pos_enc, tgt_pos_enc, src_emb, tgt_emb, proj
	)

	for p in transformer.parameters():
	if p.dim() > 1:
	torch.nn.init.xavier_uniform_(p)

	return transformer