dkounadis
/

artificial-styletts2

@@ -56,37 +56,11 @@ class StochasticDurationPredictor(nn.Module):
     x = self.proj(x) * x_mask
     if not reverse:
-      flows = self.flows
-      assert w is not None
-      logdet_tot_q = 0
-      h_w = self.post_pre(w)
-      h_w = self.post_convs(h_w, x_mask)
-      h_w = self.post_proj(h_w) * x_mask
-      e_q = torch.randn(w.size(0), 2, w.size(2)).to(device=x.device, dtype=x.dtype) * x_mask
-      z_q = e_q
-      for flow in self.post_flows:
-        z_q, logdet_q = flow(z_q, x_mask, g=(x + h_w))
-        logdet_tot_q += logdet_q
-      z_u, z1 = torch.split(z_q, [1, 1], 1)
-      u = torch.sigmoid(z_u) * x_mask
-      z0 = (w - u) * x_mask
-      logdet_tot_q += torch.sum((F.logsigmoid(z_u) + F.logsigmoid(-z_u)) * x_mask, [1,2])
-      logq = torch.sum(-0.5 * (math.log(2*math.pi) + (e_q**2)) * x_mask, [1,2]) - logdet_tot_q
-      logdet_tot = 0
-      z0, logdet = self.log_flow(z0, x_mask)
-      logdet_tot += logdet
-      z = torch.cat([z0, z1], 1)
-      for flow in flows:
-        z, logdet = flow(z, x_mask, g=x, reverse=reverse)
-        logdet_tot = logdet_tot + logdet
-      nll = torch.sum(0.5 * (math.log(2*math.pi) + (z**2)) * x_mask, [1,2]) - logdet_tot
-      return nll + logq # [b]
     else:
       flows = list(reversed(self.flows))
       flows = flows[:-2] + [flows[-1]] # remove a useless vflow
-      z = torch.randn(x.size(0), 2, x.size(2)).to(device=x.device, dtype=x.dtype) * noise_scale
       for flow in flows:
         z = flow(z, x_mask, g=x, reverse=reverse)
       z0, z1 = torch.split(z, [1, 1], 1)
@@ -316,7 +290,7 @@ class SynthesizerTrn(nn.Module):
     m_p = torch.matmul(attn.squeeze(1), m_p.transpose(1, 2)).transpose(1, 2) # [b, t', t], [b, t, d] -> [b, d, t']
     logs_p = torch.matmul(attn.squeeze(1), logs_p.transpose(1, 2)).transpose(1, 2) # [b, t', t], [b, t, d] -> [b, d, t']
-    z_p = m_p + torch.randn_like(m_p) * torch.exp(logs_p) * noise_scale
     z = self.flow(z_p, y_mask, g=g, reverse=True)
     o = self.dec((z * y_mask)[:,:,:max_len], g=g)
     return o, attn, y_mask, (z, z_p, m_p, logs_p)

     x = self.proj(x) * x_mask
     if not reverse:
+      raise ValueError
     else:
       flows = list(reversed(self.flows))
       flows = flows[:-2] + [flows[-1]] # remove a useless vflow
+      z = torch.zeros(x.size(0), 2, x.size(2)).to(device=x.device, dtype=x.dtype) #* noise_scale
       for flow in flows:
         z = flow(z, x_mask, g=x, reverse=reverse)
       z0, z1 = torch.split(z, [1, 1], 1)
     m_p = torch.matmul(attn.squeeze(1), m_p.transpose(1, 2)).transpose(1, 2) # [b, t', t], [b, t, d] -> [b, d, t']
     logs_p = torch.matmul(attn.squeeze(1), logs_p.transpose(1, 2)).transpose(1, 2) # [b, t', t], [b, t, d] -> [b, d, t']
+    z_p = m_p + torch.zeros_like(m_p) * torch.exp(logs_p)#* noise_scale
     z = self.flow(z_p, y_mask, g=g, reverse=True)
     o = self.dec((z * y_mask)[:,:,:max_len], g=g)
     return o, attn, y_mask, (z, z_p, m_p, logs_p)

msinference.py CHANGED Viewed

@@ -468,7 +468,7 @@ def foreign(text=None,   # list of text
                 net_g.infer(
                     x_tst,
                     x_tst_lengths,
-                    noise_scale=0.667,
                     noise_scale_w=1, #0, #0.8,
                     length_scale=1.0 / speed)[0][0, 0].cpu().float().numpy()
             )

                 net_g.infer(
                     x_tst,
                     x_tst_lengths,
+                    noise_scale=0, #0.667,
                     noise_scale_w=1, #0, #0.8,
                     length_scale=1.0 / speed)[0][0, 0].cpu().float().numpy()
             )