MisoLabs
/

MisoTTS

@@ -75,9 +75,9 @@ Miso TTS 8B uses two transformer components:
 - A smaller decoder transformer that autoregressively predicts higher-order
   audio codebooks within each frame.
-The model follows Sesame's compute-amortized decoder design: codebook 0 is
 predicted from the backbone hidden state, while codebooks 1 through 31 are
-predicted by the audio decoder.
 ---

 - A smaller decoder transformer that autoregressively predicts higher-order
   audio codebooks within each frame.
+Codebook 0 is
 predicted from the backbone hidden state, while codebooks 1 through 31 are
+predicted by the audio decoder autoregressively in codebook depth.
 ---