Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

.gitattributes +1 -0
GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/best_model.pth +3 -0
GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/best_model_1111040.pth +3 -0
GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/best_model_1249920.pth +3 -0
GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/best_model_1631840.pth +3 -0
GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/best_model_1666560.pth +3 -0
GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/best_model_1736000.pth +3 -0
GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/checkpoint_1730000.pth +3 -0
GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/config.json +215 -0
GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/events.out.tfevents.1736419242.d90d290394eb.1.0 +3 -0
GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/train_gpt_xtts.py +197 -0
GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/trainer_0_log.txt +3 -0
GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/trainer_0_log.txt filter=lfs diff=lfs merge=lfs -text

GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/best_model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ff160ff4136e27a514dec50d97d2123e02e9155cf90f66d9f94badca8fa55e2
+size 5648645125

GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/best_model_1111040.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c79be5d192061e2fef0d5b6bc35fc6147b448a8e9378fc68cef8875d4d096832
+size 5648645125

GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/best_model_1249920.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:454c7f761c14d970575621c1daca54ecf7e5ca6190c563dc0accc89fbaa465ca
+size 5648645125

GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/best_model_1631840.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e495d27884f790bbcf1d5ecd1e0e2b864a929cda8ee118d6e037b336bf2fee10
+size 5648645125

GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/best_model_1666560.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:900fd532b8796404c85ed249290f64fd22d072cb81115472f939aaf791e72f26
+size 5648645125

GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/best_model_1736000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ff160ff4136e27a514dec50d97d2123e02e9155cf90f66d9f94badca8fa55e2
+size 5648645125

GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/checkpoint_1730000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d90787ab7f398ef5425cc38a71f44b6e98105ca8c67f263284be8f11260c998
+size 5648645125

GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/config.json ADDED Viewed

	@@ -0,0 +1,215 @@

+{
+    "output_path": "xtts_hausa",
+    "logger_uri": null,
+    "run_name": "GPT_XTTS_HAUSA_FT",
+    "project_name": "XTTS_trainer",
+    "run_description": [
+        "\n        GPT XTTS training\n        "
+    ],
+    "print_step": 50,
+    "plot_step": 100,
+    "model_param_stats": false,
+    "wandb_entity": null,
+    "dashboard_logger": "tensorboard",
+    "save_on_interrupt": true,
+    "log_model_step": 100,
+    "save_step": 10000,
+    "save_n_checkpoints": 10,
+    "save_checkpoints": true,
+    "save_all_best": true,
+    "save_best_after": 0,
+    "target_loss": null,
+    "print_eval": false,
+    "test_delay_epochs": 0,
+    "run_eval": true,
+    "run_eval_steps": null,
+    "distributed_backend": "nccl",
+    "distributed_url": "tcp://localhost:54321",
+    "mixed_precision": true,
+    "precision": "bf16",
+    "epochs": 1000,
+    "batch_size": 1,
+    "eval_batch_size": 1,
+    "grad_clip": 0.0,
+    "scheduler_after_epoch": true,
+    "lr": 5e-06,
+    "optimizer": "AdamW",
+    "optimizer_params": {
+        "betas": [
+            0.9,
+            0.96
+        ],
+        "eps": 1e-08,
+        "weight_decay": 0.01
+    },
+    "lr_scheduler": "MultiStepLR",
+    "lr_scheduler_params": {
+        "milestones": [
+            900000,
+            2700000,
+            5400000
+        ],
+        "gamma": 0.5,
+        "last_epoch": -1
+    },
+    "use_grad_scaler": false,
+    "allow_tf32": false,
+    "cudnn_enable": true,
+    "cudnn_deterministic": false,
+    "cudnn_benchmark": false,
+    "training_seed": 54321,
+    "model": "xtts",
+    "num_loader_workers": 8,
+    "num_eval_loader_workers": 0,
+    "use_noise_augment": false,
+    "audio": {
+        "sample_rate": 22050,
+        "output_sample_rate": 24000,
+        "dvae_sample_rate": 22050
+    },
+    "use_phonemes": false,
+    "phonemizer": null,
+    "phoneme_language": null,
+    "compute_input_seq_cache": false,
+    "text_cleaner": null,
+    "enable_eos_bos_chars": false,
+    "test_sentences_file": "",
+    "phoneme_cache_path": null,
+    "characters": null,
+    "add_blank": false,
+    "batch_group_size": 0,
+    "loss_masking": null,
+    "min_audio_len": 1,
+    "max_audio_len": Infinity,
+    "min_text_len": 1,
+    "max_text_len": Infinity,
+    "compute_f0": false,
+    "compute_energy": false,
+    "compute_linear_spec": false,
+    "precompute_num_workers": 0,
+    "start_by_longest": false,
+    "shuffle": false,
+    "drop_last": false,
+    "datasets": [
+        {
+            "formatter": "",
+            "dataset_name": "",
+            "path": "",
+            "meta_file_train": "",
+            "ignored_speakers": null,
+            "language": "",
+            "phonemizer": "",
+            "meta_file_val": "",
+            "meta_file_attn_mask": ""
+        }
+    ],
+    "test_sentences": [
+        {
+            "text": "Umarnai don zaman tsarki.",
+            "speaker_wav": [
+                "/app/data/clips/JOS_005_008.wav"
+            ],
+            "language": "ha"
+        },
+        {
+            "text": "wanda kuma ya fa\u0257a mana \u0199aunar da kuke yi cikin Ruhu.",
+            "speaker_wav": [
+                "/app/data/clips/JOS_005_008.wav"
+            ],
+            "language": "ha"
+        },
+        {
+            "text": "Gama mun ji labarin bangaskiyarku a cikin Yesu Kiristi da kuma \u0199aunar da kuke yi saboda dukan tsarkaka.",
+            "speaker_wav": [
+                "/app/data/clips/JOS_005_008.wav"
+            ],
+            "language": "ha"
+        }
+    ],
+    "eval_split_max_size": null,
+    "eval_split_size": 0.01,
+    "use_speaker_weighted_sampler": false,
+    "speaker_weighted_sampler_alpha": 1.0,
+    "use_language_weighted_sampler": false,
+    "language_weighted_sampler_alpha": 1.0,
+    "use_length_weighted_sampler": false,
+    "length_weighted_sampler_alpha": 1.0,
+    "model_args": {
+        "gpt_batch_size": 1,
+        "enable_redaction": false,
+        "kv_cache": true,
+        "gpt_checkpoint": "",
+        "clvp_checkpoint": null,
+        "decoder_checkpoint": null,
+        "num_chars": 255,
+        "tokenizer_file": "xtts_hausa/XTTS_v2.0_original_model_files/vocab.json",
+        "gpt_max_audio_tokens": 605,
+        "gpt_max_text_tokens": 402,
+        "gpt_max_prompt_tokens": 70,
+        "gpt_layers": 30,
+        "gpt_n_model_channels": 1024,
+        "gpt_n_heads": 16,
+        "gpt_number_text_tokens": 8337,
+        "gpt_start_text_token": 261,
+        "gpt_stop_text_token": 0,
+        "gpt_num_audio_tokens": 1026,
+        "gpt_start_audio_token": 1024,
+        "gpt_stop_audio_token": 1025,
+        "gpt_code_stride_len": 1024,
+        "gpt_use_masking_gt_prompt_approach": true,
+        "gpt_use_perceiver_resampler": true,
+        "input_sample_rate": 22050,
+        "output_sample_rate": 24000,
+        "output_hop_length": 256,
+        "decoder_input_dim": 1024,
+        "d_vector_dim": 512,
+        "cond_d_vector_in_each_upsampling_layer": true,
+        "duration_const": 102400,
+        "min_conditioning_length": 11025,
+        "max_conditioning_length": 132300,
+        "gpt_loss_text_ce_weight": 0.01,
+        "gpt_loss_mel_ce_weight": 1.0,
+        "debug_loading_failures": true,
+        "max_wav_length": 264600,
+        "max_text_length": 300,
+        "mel_norm_file": "xtts_hausa/XTTS_v2.0_original_model_files/mel_stats.pth",
+        "dvae_checkpoint": "xtts_hausa/XTTS_v2.0_original_model_files/dvae.pth",
+        "xtts_checkpoint": "xtts_hausa/XTTS_v2.0_original_model_files/model.pth",
+        "vocoder": ""
+    },
+    "model_dir": null,
+    "languages": [
+        "en",
+        "es",
+        "fr",
+        "de",
+        "it",
+        "pt",
+        "pl",
+        "tr",
+        "ru",
+        "nl",
+        "cs",
+        "ar",
+        "zh-cn",
+        "hu",
+        "ko",
+        "ja",
+        "hi",
+        "ha"
+    ],
+    "temperature": 0.75,
+    "length_penalty": 1.0,
+    "repetition_penalty": 5.0,
+    "top_k": 50,
+    "top_p": 0.85,
+    "num_gpt_outputs": 1,
+    "gpt_cond_len": 30,
+    "gpt_cond_chunk_len": 4,
+    "max_ref_len": 30,
+    "sound_norm_refs": false,
+    "optimizer_wd_only_on_weights": true,
+    "weighted_loss_attrs": {},
+    "weighted_loss_multipliers": {},
+    "github_branch": "* main"
+}

GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/events.out.tfevents.1736419242.d90d290394eb.1.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29e901ccff7f95f8d78877553043d06607b7aaef93b3e6c543ea0a5aef82d37d
+size 36454819

GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/train_gpt_xtts.py ADDED Viewed

	@@ -0,0 +1,197 @@

+import os
+from trainer import Trainer, TrainerArgs
+from TTS.config.shared_configs import BaseDatasetConfig
+from TTS.tts.datasets import load_tts_samples
+from TTS.tts.layers.xtts.trainer.gpt_trainer import GPTArgs, GPTTrainer, GPTTrainerConfig, XttsAudioConfig
+from TTS.utils.manage import ModelManager
+from math import ceil
+# Logging parameters
+RUN_NAME = "GPT_XTTS_HAUSA_FT"
+PROJECT_NAME = "XTTS_trainer"
+DASHBOARD_LOGGER = "tensorboard"
+LOGGER_URI = None
+# Set here the path that the checkpoints will be saved.
+OUT_PATH = "xtts_hausa"
+# Training Parameters
+OPTIMIZER_WD_ONLY_ON_WEIGHTS = True  # for multi-gpu training please make it False
+START_WITH_EVAL = True  # if True it will star with evaluation
+BATCH_SIZE = 1  # set here the batch size
+GRAD_ACUMM_STEPS = ceil(252 / BATCH_SIZE)  # set here the grad accumulation steps
+# Note: we recommend that BATCH_SIZE * GRAD_ACUMM_STEPS need to be at least 252 for more efficient training. You can increase/decrease BATCH_SIZE but then set GRAD_ACUMM_STEPS accordingly.
+# Define here the dataset that you want to use for the fine-tuning on.
+config_dataset = BaseDatasetConfig(
+    formatter="coqui",
+    dataset_name="ft_dataset",
+    path="data/",
+    meta_file_train="manifest_train.csv",
+    meta_file_val="manifest_dev.csv",
+    language="ha",
+)
+# Add here the configs of the datasets
+DATASETS_CONFIG_LIST = [config_dataset]
+# Define the path where XTTS v2.0.1 files will be downloaded
+CHECKPOINTS_OUT_PATH = os.path.join(OUT_PATH, "XTTS_v2.0_original_model_files/")
+os.makedirs(CHECKPOINTS_OUT_PATH, exist_ok=True)
+# DVAE files
+DVAE_CHECKPOINT_LINK = "https://coqui.gateway.scarf.sh/hf-coqui/XTTS-v2/main/dvae.pth"
+MEL_NORM_LINK = "https://coqui.gateway.scarf.sh/hf-coqui/XTTS-v2/main/mel_stats.pth"
+# Set the path to the downloaded files
+DVAE_CHECKPOINT = os.path.join(CHECKPOINTS_OUT_PATH, os.path.basename(DVAE_CHECKPOINT_LINK))
+MEL_NORM_FILE = os.path.join(CHECKPOINTS_OUT_PATH, os.path.basename(MEL_NORM_LINK))
+# download DVAE files if needed
+if not os.path.isfile(DVAE_CHECKPOINT) or not os.path.isfile(MEL_NORM_FILE):
+    print(" > Downloading DVAE files!")
+    ModelManager._download_model_files([MEL_NORM_LINK, DVAE_CHECKPOINT_LINK], CHECKPOINTS_OUT_PATH, progress_bar=True)
+# Download XTTS v2.0 checkpoint if needed
+TOKENIZER_FILE_LINK = "https://coqui.gateway.scarf.sh/hf-coqui/XTTS-v2/main/vocab.json"
+XTTS_CHECKPOINT_LINK = "https://coqui.gateway.scarf.sh/hf-coqui/XTTS-v2/main/model.pth"
+XTTS_CONFIG_LINK = "https://coqui.gateway.scarf.sh/hf-coqui/XTTS-v2/main/config.json"
+# XTTS transfer learning parameters: You we need to provide the paths of XTTS model checkpoint that you want to do the fine tuning.
+TOKENIZER_FILE = os.path.join(CHECKPOINTS_OUT_PATH, os.path.basename(TOKENIZER_FILE_LINK))  # vocab.json file
+XTTS_CHECKPOINT = os.path.join(CHECKPOINTS_OUT_PATH, os.path.basename(XTTS_CHECKPOINT_LINK))  # model.pth file
+XTTS_CONFIG_FILE = os.path.join(CHECKPOINTS_OUT_PATH, os.path.basename(XTTS_CONFIG_LINK))  # config.json file
+# download XTTS v2.0 files if needed
+if not os.path.isfile(TOKENIZER_FILE):
+    print(" > Downloading XTTS v2.0 tokenizer!")
+    ModelManager._download_model_files(
+        [TOKENIZER_FILE_LINK], CHECKPOINTS_OUT_PATH, progress_bar=True
+    )
+if not os.path.isfile(XTTS_CHECKPOINT):
+    print(" > Downloading XTTS v2.0 checkpoint!")
+    ModelManager._download_model_files(
+        [XTTS_CHECKPOINT_LINK], CHECKPOINTS_OUT_PATH, progress_bar=True
+    )
+if not os.path.isfile(XTTS_CONFIG_FILE):
+    print(" > Downloading XTTS v2.0 config!")
+    ModelManager._download_model_files(
+        [XTTS_CONFIG_LINK], CHECKPOINTS_OUT_PATH, progress_bar=True
+    )
+# load training samples
+train_samples, eval_samples = load_tts_samples(
+    DATASETS_CONFIG_LIST,
+    eval_split=True,
+)
+print(f"Train samples: {len(train_samples)}")
+print(f"Eval samples: {len(eval_samples)}")
+# get the longest text audio file to use as speaker reference
+samples_len = [len(item["text"].split(" ")) for item in train_samples]
+longest_text_idx = samples_len.index(max(samples_len))
+SPEAKER_REFERENCE = [train_samples[longest_text_idx]["audio_file"]]  # speaker reference to be used in training test sentences
+LANGUAGE = config_dataset.language
+def main():
+    # init args and config
+    model_args = GPTArgs(
+        max_conditioning_length=132300,  # 6 secs
+        min_conditioning_length=11025,  # 0.5 secs
+        debug_loading_failures=True,
+        max_wav_length=12*22050,  # 12 secs
+        max_text_length=300,
+        mel_norm_file=MEL_NORM_FILE,
+        dvae_checkpoint=DVAE_CHECKPOINT,
+        xtts_checkpoint=XTTS_CHECKPOINT,  # checkpoint path of the model that you want to fine-tune
+        tokenizer_file=TOKENIZER_FILE,
+        gpt_num_audio_tokens=1026,
+        gpt_start_audio_token=1024,
+        gpt_stop_audio_token=1025,
+        gpt_use_masking_gt_prompt_approach=True,
+        gpt_use_perceiver_resampler=True,
+    )
+    # define audio config
+    audio_config = XttsAudioConfig(sample_rate=22050, dvae_sample_rate=22050, output_sample_rate=24000)
+    # training parameters config
+    config = GPTTrainerConfig()
+    config.load_json(XTTS_CONFIG_FILE)
+    config.mixed_precision = True
+    config.precision = "bf16"
+    config.epochs = 1000
+    config.output_path = OUT_PATH
+    config.model_args = model_args
+    config.run_name = RUN_NAME
+    config.project_name = PROJECT_NAME
+    config.run_description = """
+        GPT XTTS training
+        """,
+    config.dashboard_logger = DASHBOARD_LOGGER
+    config.logger_uri = LOGGER_URI
+    config.audio = audio_config
+    config.batch_size = BATCH_SIZE
+    config.eval_batch_size = BATCH_SIZE
+    config.num_loader_workers = 8
+    config.print_step = 50
+    config.plot_step = 100
+    config.log_model_step = 100
+    config.save_step = 10000
+    config.save_n_checkpoints = 10
+    config.save_checkpoints = True
+    config.save_all_best = True
+    config.save_best_after = 0
+    config.print_eval = False
+    # Optimizer values like tortoise, pytorch implementation with modifications to not apply WD to non-weight parameters.
+    config.optimizer = "AdamW"
+    config.optimizer_wd_only_on_weights = OPTIMIZER_WD_ONLY_ON_WEIGHTS
+    config.optimizer_params = {"betas": [0.9, 0.96], "eps": 1e-8, "weight_decay": 1e-2}
+    config.lr = 5e-06  # learning rate
+    config.lr_scheduler = "MultiStepLR"
+    config.lr_scheduler_params = {"milestones": [50000 * 18, 150000 * 18, 300000 * 18], "gamma": 0.5, "last_epoch": -1}
+    config.test_sentences=[
+            {
+                "text": "Umarnai don zaman tsarki.",
+                "speaker_wav": SPEAKER_REFERENCE,
+                "language": LANGUAGE,
+            },
+            {
+                "text": "wanda kuma ya faɗa mana ƙaunar da kuke yi cikin Ruhu.",
+                "speaker_wav": SPEAKER_REFERENCE,
+                "language": LANGUAGE,
+            },
+            {
+                "text": "Gama mun ji labarin bangaskiyarku a cikin Yesu Kiristi da kuma ƙaunar da kuke yi saboda dukan tsarkaka.",
+                "speaker_wav": SPEAKER_REFERENCE,
+                "language": LANGUAGE,
+            }
+        ]
+    # init the model from config
+    model = GPTTrainer.init_from_config(config)
+    # init the trainer and 🚀
+    trainer = Trainer(
+        TrainerArgs(
+            restore_path=None,  # xtts checkpoint is restored via xtts_checkpoint key so no need of restore it using Trainer restore_path parameter
+            skip_train_epoch=False,
+            start_with_eval=START_WITH_EVAL,
+            grad_accum_steps=GRAD_ACUMM_STEPS,
+        ),
+        config,
+        output_path=OUT_PATH,
+        model=model,
+        train_samples=train_samples,
+        eval_samples=eval_samples,
+    )
+    trainer.fit()
+if __name__ == "__main__":
+    main()

GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/trainer_0_log.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9eb0a311b631bf1a307122d04ad4c1d78c4fb76248ed21fcea3f37fc92ffeeda
+size 13083418

GPT_XTTS_HAUSA_FT-January-09-2025_10+40AM-8e59ec3/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff