AstraMindAI
/

xttsv2

xtts

custom_code

Model card Files Files and versions

xet

Community

mlinmg commited on Oct 28, 2024

Commit

2e771d9

verified ·

1 Parent(s): 2ebc88c

Upload 2 files

Browse files

Files changed (2) hide show

config.json +13 -9
xtts2_config.py +29 -18

config.json CHANGED Viewed

@@ -1,14 +1,7 @@
 {
-     "_name_or_path": "AstraMindAI/xtts2-gpt",
   "architectures": [
-    "XttsGPT"
   ],
-  "torch_dtype": "float32",
-  "auto_map": {
-    "AutoConfig": "AstraMindAI/xtts2-gpt--gpt_config.XTTSGPTConfig",
-    "AutoModelForCausalLM": "AstraMindAI/xtts2-gpt--xtts2_gpt_modeling.XttsGPT",
-    "AutoTokenizer": "AstraMindAI/xtts2-gpt--tokenizer.XTTSTokenizerFast"
-  },
   "audio_config": {
     "fmax": 8000,
     "fmin": 0,
@@ -21,6 +14,11 @@
     "sample_rate": 22050,
     "win_length": 1024
   },
   "cond_d_vector_in_each_upsampling_layer": true,
   "d_vector_dim": 512,
   "decoder_input_dim": 1024,
@@ -33,12 +31,18 @@
     "_attn_implementation_autoset": false,
     "_name_or_path": "",
     "add_cross_attention": false,
-    "architectures": null,
     "audio_config": {
       "mel_channels": 80,
       "output_sample_rate": 24000,
       "sample_rate": 22050
     },
     "bad_words_ids": null,
     "begin_suppress_tokens": null,
     "bos_token_id": null,

 {
   "architectures": [
+    "Xtts"
   ],
   "audio_config": {
     "fmax": 8000,
     "fmin": 0,
     "sample_rate": 22050,
     "win_length": 1024
   },
+  "auto_map": {
+    "AutoConfig": "AstraMindAI/xtts2--xtts2_config.XTTSConfig",
+    "AutoModelForCausalLM": "AstraMindAI/xtts2--xtts2_modeling.Xtts",
+    "AutoTokenizer": "AstraMindAI/xtts2--tokenizer.XTTSTokenizerFast"
+  },
   "cond_d_vector_in_each_upsampling_layer": true,
   "d_vector_dim": 512,
   "decoder_input_dim": 1024,
     "_attn_implementation_autoset": false,
     "_name_or_path": "",
     "add_cross_attention": false,
+    "architectures": [
+      "XttsGPT"
+    ],
     "audio_config": {
       "mel_channels": 80,
       "output_sample_rate": 24000,
       "sample_rate": 22050
     },
+    "auto_map": {
+      "AutoConfig": "AstraMindAI/xtts2-gpt--gpt_config.XTTSGPTConfig",
+      "AutoModelForCausalLM": "AstraMindAI/xtts2-gpt--xtts2_gpt_modeling.XttsGPT"
+    },
     "bad_words_ids": null,
     "begin_suppress_tokens": null,
     "bos_token_id": null,

xtts2_config.py CHANGED Viewed

@@ -13,6 +13,20 @@ class GPTAudioConfig:
     sample_rate: int = 22050
     output_sample_rate: int = 24000
 class XTTSGPTConfig(PretrainedConfig):
     """Configuration class for the GPT component of XTTS."""
@@ -63,11 +77,16 @@ class XTTSGPTConfig(PretrainedConfig):
             # Size settings for the decoder
             decoder_input_dim: int = 1024,
             **kwargs
     ):
         super().__init__(**kwargs)
         self.audio_config = GPTAudioConfig(
             **audio_config if audio_config is not None else {}
         )
@@ -116,20 +135,6 @@ class XTTSGPTConfig(PretrainedConfig):
         """Create a config from a dictionary."""
         return cls(**config_dict)
-@dataclass
-class XTTSAudioConfig:
-    """Configuration for audio processing parameters"""
-    sample_rate: int = 22050
-    output_sample_rate: int = 24000
-    mel_channels: int = 80
-    hop_length: int = 256
-    win_length: int = 1024
-    n_fft: int = 1024
-    fmin: int = 0
-    fmax: int = 8000
-    power: float = 1.0
-    mel_norms_file: Optional[str] = None
 class XTTSConfig(PretrainedConfig):
     """Configuration class for XTTS model components except GPT."""
@@ -161,11 +166,17 @@ class XTTSConfig(PretrainedConfig):
             # GPT configuration
             gpt_config: Optional[Dict] = None,
             **kwargs
     ):
         super().__init__(**kwargs)
         # Initialize audio config
         self.audio_config = XTTSAudioConfig(
             **audio_config if audio_config is not None else {}

     sample_rate: int = 22050
     output_sample_rate: int = 24000
+@dataclass
+class XTTSAudioConfig:
+    """Configuration for audio processing parameters"""
+    sample_rate: int = 22050
+    output_sample_rate: int = 24000
+    mel_channels: int = 80
+    hop_length: int = 256
+    win_length: int = 1024
+    n_fft: int = 1024
+    fmin: int = 0
+    fmax: int = 8000
+    power: float = 1.0
+    mel_norms_file: Optional[str] = None
 class XTTSGPTConfig(PretrainedConfig):
     """Configuration class for the GPT component of XTTS."""
             # Size settings for the decoder
             decoder_input_dim: int = 1024,
+            architectures=["XttsGPT"],
+            auto_map = {
+                       "AutoConfig": "AstraMindAI/xtts2-gpt--gpt_config.XTTSGPTConfig",
+                       "AutoModelForCausalLM": "AstraMindAI/xtts2-gpt--xtts2_gpt_modeling.XttsGPT",
+                   },
             **kwargs
     ):
         super().__init__(**kwargs)
+        self.architectures = architectures
+        self.auto_map = auto_map
         self.audio_config = GPTAudioConfig(
             **audio_config if audio_config is not None else {}
         )
         """Create a config from a dictionary."""
         return cls(**config_dict)
 class XTTSConfig(PretrainedConfig):
     """Configuration class for XTTS model components except GPT."""
             # GPT configuration
             gpt_config: Optional[Dict] = None,
+            architectures=["Xtts"],
+            auto_map = {
+                       "AutoConfig": "AstraMindAI/xtts2--xtts2_config.XTTSConfig",
+                       "AutoModelForCausalLM": "AstraMindAI/xtts2--xtts2_modeling.Xtts",
+                       "AutoTokenizer": "AstraMindAI/xtts2--tokenizer.XTTSTokenizerFast"
+                   },
             **kwargs
     ):
         super().__init__(**kwargs)
+        self.architectures = architectures
+        self.auto_map = auto_map
         # Initialize audio config
         self.audio_config = XTTSAudioConfig(
             **audio_config if audio_config is not None else {}