update model

Browse files

- add second layer
- extend h from 64 to 128
- extend bs from 64 to 128
- reduce epochs from 20 to 10

Files changed (3) hide show

decoder.pt +2 -2
inference.py +5 -5
model.py +9 -9

decoder.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6574bd2e0f77d393da6412bd11886c176e551dce94f4383b3bf81a5e1a61d745
-size 180232

 version https://git-lfs.github.com/spec/v1
+oid sha256:40166a619da9600828596e066ead3b62fc19a20b5329133299611c1862b316a1
+size 1047944

inference.py CHANGED Viewed

@@ -8,14 +8,14 @@ import torch.nn.functional as F
 class DecoderGRU(nn.Module):
     def __init__(self, hidden_size, output_size):
         super(DecoderGRU, self).__init__()
-        self.proj = nn.Linear(hidden_size, hidden_size)
         self.embedding = nn.Embedding(output_size, hidden_size)
-        self.gru = nn.GRU(hidden_size, hidden_size, batch_first=True)
         self.out = nn.Linear(hidden_size, output_size)
     def forward(self, encoder_sample, target_tensor=None, max_length=16):
         batch_size = encoder_sample.size(0)
-        decoder_hidden = self.proj(encoder_sample).unsqueeze(0)
         if target_tensor is not None:
             decoder_input = target_tensor
             decoder_outputs, decoder_hidden = self.forward_step(decoder_input, decoder_hidden)
@@ -38,7 +38,7 @@ class DecoderGRU(nn.Module):
         output = self.out(output)
         return output, hidden
-dec = torch.load('decoder.pt').to('cpu')
 SOS_token = 1
 EOS_token = 2
@@ -46,7 +46,7 @@ katakana = list('゠ァアィイゥウェエォオカガキギクグケゲコゴ
 vocab = ['<pad>', '<sos>', '<eos>'] + katakana
 vocab_dict = {v: k for k, v in enumerate(vocab)}
-h=64
 max_len=40
 def detokenize(tokens):

 class DecoderGRU(nn.Module):
     def __init__(self, hidden_size, output_size):
         super(DecoderGRU, self).__init__()
+        self.proj = nn.Linear(hidden_size, 2 * hidden_size)
         self.embedding = nn.Embedding(output_size, hidden_size)
+        self.gru = nn.GRU(hidden_size, hidden_size, num_layers=2, batch_first=True)
         self.out = nn.Linear(hidden_size, output_size)
     def forward(self, encoder_sample, target_tensor=None, max_length=16):
         batch_size = encoder_sample.size(0)
+        decoder_hidden = self.proj(encoder_sample).view(batch_size, 2, -1).permute(1, 0, 2).contiguous()
         if target_tensor is not None:
             decoder_input = target_tensor
             decoder_outputs, decoder_hidden = self.forward_step(decoder_input, decoder_hidden)
         output = self.out(output)
         return output, hidden
+dec = torch.load('decoder.pt', map_location='cpu')
 SOS_token = 1
 EOS_token = 2
 vocab = ['<pad>', '<sos>', '<eos>'] + katakana
 vocab_dict = {v: k for k, v in enumerate(vocab)}
+h=128
 max_len=40
 def detokenize(tokens):

model.py CHANGED Viewed

@@ -19,11 +19,11 @@ vocab_dict = {v: k for k, v in enumerate(vocab)}
 texts = pd.read_csv('rolename.txt', header=None)[0].tolist()
 vocab_size=len(vocab)
-h=64
 max_len=40
-bs=64
 lr=1e-3
-epochs=20
 def tokenize(text):
     return [vocab_dict[ch] for ch in text]
@@ -54,9 +54,9 @@ class EncoderVAEBiGRU(nn.Module):
         super(EncoderVAEBiGRU, self).__init__()
         self.hidden_size = hidden_size
         self.embedding = nn.Embedding(input_size, hidden_size)
-        self.gru = nn.GRU(hidden_size, hidden_size, batch_first=True, bidirectional=True)
-        self.proj_mu = nn.Linear(2 * hidden_size, hidden_size)
-        self.proj_sigma = nn.Linear(2 * hidden_size, hidden_size)
         self.dropout = nn.Dropout(dropout_p)
         self.bn = BatchNormVAE(hidden_size)
@@ -78,14 +78,14 @@ class EncoderVAEBiGRU(nn.Module):
 class DecoderGRU(nn.Module):
     def __init__(self, hidden_size, output_size):
         super(DecoderGRU, self).__init__()
-        self.proj = nn.Linear(hidden_size, hidden_size)
         self.embedding = nn.Embedding(output_size, hidden_size)
-        self.gru = nn.GRU(hidden_size, hidden_size, batch_first=True)
         self.out = nn.Linear(hidden_size, output_size)
     def forward(self, encoder_sample, target_tensor=None, max_length=16):
         batch_size = encoder_sample.size(0)
-        decoder_hidden = self.proj(encoder_sample).unsqueeze(0)
         if target_tensor is not None:
             decoder_input = target_tensor
             decoder_outputs, decoder_hidden = self.forward_step(decoder_input, decoder_hidden)

 texts = pd.read_csv('rolename.txt', header=None)[0].tolist()
 vocab_size=len(vocab)
+h=128
 max_len=40
+bs=128
 lr=1e-3
+epochs=10
 def tokenize(text):
     return [vocab_dict[ch] for ch in text]
         super(EncoderVAEBiGRU, self).__init__()
         self.hidden_size = hidden_size
         self.embedding = nn.Embedding(input_size, hidden_size)
+        self.gru = nn.GRU(hidden_size, hidden_size, num_layers=2, batch_first=True, bidirectional=True)
+        self.proj_mu = nn.Linear(4 * hidden_size, hidden_size)
+        self.proj_sigma = nn.Linear(4 * hidden_size, hidden_size)
         self.dropout = nn.Dropout(dropout_p)
         self.bn = BatchNormVAE(hidden_size)
 class DecoderGRU(nn.Module):
     def __init__(self, hidden_size, output_size):
         super(DecoderGRU, self).__init__()
+        self.proj = nn.Linear(hidden_size, 2 * hidden_size)
         self.embedding = nn.Embedding(output_size, hidden_size)
+        self.gru = nn.GRU(hidden_size, hidden_size, num_layers=2, batch_first=True)
         self.out = nn.Linear(hidden_size, output_size)
     def forward(self, encoder_sample, target_tensor=None, max_length=16):
         batch_size = encoder_sample.size(0)
+        decoder_hidden = self.proj(encoder_sample).view(batch_size, 2, -1).permute(1, 0, 2).contiguous()
         if target_tensor is not None:
             decoder_input = target_tensor
             decoder_outputs, decoder_hidden = self.forward_step(decoder_input, decoder_hidden)