AstraMindAI
/

xttsv2

Model card Files Files and versions

mlinmg commited on Oct 28, 2024

Commit

bda0723

·

verified ·

1 Parent(s): 2e771d9

Upload 2 files

Files changed (2) hide show

config.json +3 -0
xtts2_config.py +6 -1

config.json CHANGED Viewed

@@ -30,10 +30,12 @@
   "gpt_config": {
     "_attn_implementation_autoset": false,
     "_name_or_path": "",
     "add_cross_attention": false,
     "architectures": [
       "XttsGPT"
     ],
     "audio_config": {
       "mel_channels": 80,
       "output_sample_rate": 24000,
@@ -83,6 +85,7 @@
     "max_text_tokens": 402,
     "min_length": 0,
     "model_type": "xtts_gpt",
     "no_repeat_ngram_size": 0,
     "num_attention_heads": 16,
     "num_audio_tokens": 1026,

   "gpt_config": {
     "_attn_implementation_autoset": false,
     "_name_or_path": "",
+    "activation_function": "gelu",
     "add_cross_attention": false,
     "architectures": [
       "XttsGPT"
     ],
+    "attn_pdrop": 0.1,
     "audio_config": {
       "mel_channels": 80,
       "output_sample_rate": 24000,
     "max_text_tokens": 402,
     "min_length": 0,
     "model_type": "xtts_gpt",
+    "n_inner": 4098,
     "no_repeat_ngram_size": 0,
     "num_attention_heads": 16,
     "num_audio_tokens": 1026,

xtts2_config.py CHANGED Viewed

@@ -36,6 +36,7 @@ class XTTSGPTConfig(PretrainedConfig):
             self,
             # Model architecture
             hidden_size: int = 1024,  # gpt_n_model_channels in original
             num_hidden_layers: int = 30,  # gpt_layers in original
             num_attention_heads: int = 16,  # gpt_n_heads in original
@@ -82,6 +83,8 @@ class XTTSGPTConfig(PretrainedConfig):
                        "AutoConfig": "AstraMindAI/xtts2-gpt--gpt_config.XTTSGPTConfig",
                        "AutoModelForCausalLM": "AstraMindAI/xtts2-gpt--xtts2_gpt_modeling.XttsGPT",
                    },
             **kwargs
     ):
         super().__init__(**kwargs)
@@ -90,8 +93,10 @@ class XTTSGPTConfig(PretrainedConfig):
         self.audio_config = GPTAudioConfig(
             **audio_config if audio_config is not None else {}
         )
         self.hidden_size = hidden_size
         self.num_hidden_layers = num_hidden_layers
         self.num_attention_heads = num_attention_heads

             self,
             # Model architecture
             hidden_size: int = 1024,  # gpt_n_model_channels in original
+            n_inner: int = 4098,
             num_hidden_layers: int = 30,  # gpt_layers in original
             num_attention_heads: int = 16,  # gpt_n_heads in original
                        "AutoConfig": "AstraMindAI/xtts2-gpt--gpt_config.XTTSGPTConfig",
                        "AutoModelForCausalLM": "AstraMindAI/xtts2-gpt--xtts2_gpt_modeling.XttsGPT",
                    },
+            activation_function: str = "gelu",
+            attn_pdrop: float = 0.1,
             **kwargs
     ):
         super().__init__(**kwargs)
         self.audio_config = GPTAudioConfig(
             **audio_config if audio_config is not None else {}
         )
+        self.activation_function = activation_function
+        self.attn_pdrop = attn_pdrop
         self.hidden_size = hidden_size
+        self.n_inner = n_inner
         self.num_hidden_layers = num_hidden_layers
         self.num_attention_heads = num_attention_heads