kadirnar commited on Feb 4

Commit

5eebf2d

verified ·

1 Parent(s): 13fd25e

Upload checkpoints

Browse files

Files changed (19) hide show

echodit_finetuned/checkpoint-400/flow_model/config.yaml +73 -0
echodit_finetuned/checkpoint-400/flow_model/ema_model.bin +3 -0
echodit_finetuned/checkpoint-400/flow_model/pytorch_model.bin +3 -0
echodit_finetuned/checkpoint-400/flow_model/pytorch_model_ema.bin +3 -0
echodit_finetuned/checkpoint-400/optimizer.pt +3 -0
echodit_finetuned/checkpoint-400/rng_state_0.pth +3 -0
echodit_finetuned/checkpoint-400/rng_state_1.pth +3 -0
echodit_finetuned/checkpoint-400/rng_state_2.pth +3 -0
echodit_finetuned/checkpoint-400/rng_state_3.pth +3 -0
echodit_finetuned/checkpoint-400/rng_state_4.pth +3 -0
echodit_finetuned/checkpoint-400/rng_state_5.pth +3 -0
echodit_finetuned/checkpoint-400/rng_state_6.pth +3 -0
echodit_finetuned/checkpoint-400/rng_state_7.pth +3 -0
echodit_finetuned/checkpoint-400/scheduler.pt +3 -0
echodit_finetuned/checkpoint-400/trainer_state.json +314 -0
echodit_finetuned/final/flow_model/config.yaml +73 -0
echodit_finetuned/final/flow_model/ema_model.bin +3 -0
echodit_finetuned/final/flow_model/pytorch_model.bin +3 -0
echodit_finetuned/final/flow_model/pytorch_model_ema.bin +3 -0

echodit_finetuned/checkpoint-400/flow_model/config.yaml ADDED Viewed

	@@ -0,0 +1,73 @@

+TTS_dataset_local: ./finetune_data
+adaln_rank: 128
+batch_size: 16
+cfg_dropout: 0.1
+dacvae_latent_dim: 128
+dacvae_model: facebook/dacvae-watermarked
+dataloader_drop_last: true
+dataloader_num_workers: 4
+dataloader_pin_memory: true
+do_validation: false
+ema_decay: 0.9999
+ema_update_every: 10
+end_of_ai: 100285
+end_of_human: 100283
+end_of_speech: 100281
+end_of_text: 100279
+epochs: 100
+eval_steps: 500
+finetune_mode: full
+flow_sigma_min: 0.0001
+flow_velocity_weighted: false
+freeze_first_n_layers: 0
+freeze_speaker_encoder: true
+freeze_text_encoder: false
+gradient_accumulation_steps: 4
+gradient_checkpointing: true
+intermediate_size: 4096
+learning_rate: 1.0e-05
+logging_steps: 10
+lr_min_ratio: 0.1
+lr_scheduler_type: cosine
+max_grad_norm: 0.5
+mixed_precision: bf16
+model_size: 1024
+norm_eps: 1.0e-06
+num_heads: 16
+num_layers: 24
+number_processes: 8
+pad_token: 100286
+pretrained_checkpoint: /scratch/huggingface/emilia-yodas-dacvae_tokenized/checkpoints/echodit_1b/final/flow_model/pytorch_model.bin
+project_name: vyvo-echodit-finetune
+resume_from_checkpoint: null
+run_name: echodit-finetune-andrew
+save_folder: checkpoints/echodit_finetuned
+save_steps: 1000
+speaker_intermediate_size: 2048
+speaker_model_size: 512
+speaker_num_heads: 8
+speaker_num_layers: 4
+speaker_patch_size: 4
+start_of_ai: 100284
+start_of_human: 100282
+start_of_speech: 100280
+start_of_text: 100278
+text_intermediate_size: 3072
+text_model_size: 768
+text_num_heads: 12
+text_num_layers: 6
+text_vocab_size: 100287
+timestep_embed_size: 256
+tokeniser_length: 100277
+unfreeze_last_n_layers: 24
+use_ema: true
+use_flash_attention: true
+use_fsdp: false
+validation_cfg_scale: 2.5
+validation_ode_steps: 50
+validation_samples: 4
+validation_solver: heun
+validation_steps: 500
+warmup_ratio: 0.05
+warmup_steps: 500
+weight_decay: 0.01

echodit_finetuned/checkpoint-400/flow_model/ema_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0aa9e64c1635489ed6e0ea1b6af6a5290cd7a8066c28e7c0103053d488d9c087
+size 2855777547

echodit_finetuned/checkpoint-400/flow_model/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aac268b20e8ab41765c59138478a3b472e5047a91a393552e37ec943f365bc7e
+size 2928174600

echodit_finetuned/checkpoint-400/flow_model/pytorch_model_ema.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8744bf8629d842c1e8b0ddc7e92877a5289a9fa193fb15defce411d75c462403
+size 2855771883

echodit_finetuned/checkpoint-400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f3eb5db843f26c995c1a9c23ae247d0efb6011b0d4168d5dbef41c0211bc5fc
+size 5365560092

echodit_finetuned/checkpoint-400/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccc4361efca7928a41093bafd03808a06414df27e867b11e3c143637a21e3397
+size 16389

echodit_finetuned/checkpoint-400/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cb3b39fb9b516e701b3cadd7af82628d96076624a4124819ff69ed4542c07e7
+size 16389

echodit_finetuned/checkpoint-400/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79be7b437a5dbff8167ead07fce81738c149576339b6257a15504c24f12fa1b0
+size 16389

echodit_finetuned/checkpoint-400/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fc5801bef714d4f8330418056d8138f05b9434b09dbfacce531ee69bc1616de
+size 16389

echodit_finetuned/checkpoint-400/rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb709ce9638db60d967e2c7f5eb34b5f0f867a4aaeabe34a2c4f79fe7c7eae3a
+size 16389

echodit_finetuned/checkpoint-400/rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab41712355ce3c8adb44e543fe8cbd921ad289585b4961ecbb4ca96ac7cb0b72
+size 16389

echodit_finetuned/checkpoint-400/rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b4a2d54e47899c49948f737b6a1d2c46882cb02b43cd494bd29c58616884d44
+size 16389

echodit_finetuned/checkpoint-400/rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:319f7332a6384b8d779ea942b11f3ac530c01be9acd0181046e11fd67cdd5bd0
+size 16389

echodit_finetuned/checkpoint-400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a39f2b6581e41979c4ab06dc53a5045fe90458186744d73a43c93000caef346b
+size 1465

echodit_finetuned/checkpoint-400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,314 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 100.0,
+  "eval_steps": 500,
+  "global_step": 400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 2.533333333333333,
+      "grad_norm": 0.5185111165046692,
+      "learning_rate": 1.8e-07,
+      "loss": 0.5955,
+      "step": 10
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.5055148005485535,
+      "learning_rate": 3.8e-07,
+      "loss": 0.5933,
+      "step": 20
+    },
+    {
+      "epoch": 7.533333333333333,
+      "grad_norm": 0.45245474576950073,
+      "learning_rate": 5.800000000000001e-07,
+      "loss": 0.5906,
+      "step": 30
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.4057580530643463,
+      "learning_rate": 7.8e-07,
+      "loss": 0.5873,
+      "step": 40
+    },
+    {
+      "epoch": 12.533333333333333,
+      "grad_norm": 0.34415045380592346,
+      "learning_rate": 9.800000000000001e-07,
+      "loss": 0.5817,
+      "step": 50
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.2918901741504669,
+      "learning_rate": 1.1800000000000001e-06,
+      "loss": 0.5754,
+      "step": 60
+    },
+    {
+      "epoch": 17.533333333333335,
+      "grad_norm": 0.22454246878623962,
+      "learning_rate": 1.3800000000000001e-06,
+      "loss": 0.5739,
+      "step": 70
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.2028179168701172,
+      "learning_rate": 1.5800000000000001e-06,
+      "loss": 0.5675,
+      "step": 80
+    },
+    {
+      "epoch": 22.533333333333335,
+      "grad_norm": 0.15407922863960266,
+      "learning_rate": 1.7800000000000001e-06,
+      "loss": 0.5644,
+      "step": 90
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 0.15080758929252625,
+      "learning_rate": 1.98e-06,
+      "loss": 0.5607,
+      "step": 100
+    },
+    {
+      "epoch": 27.533333333333335,
+      "grad_norm": 0.14132018387317657,
+      "learning_rate": 2.1800000000000003e-06,
+      "loss": 0.5584,
+      "step": 110
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 0.1372448056936264,
+      "learning_rate": 2.38e-06,
+      "loss": 0.5542,
+      "step": 120
+    },
+    {
+      "epoch": 32.53333333333333,
+      "grad_norm": 0.1235460564494133,
+      "learning_rate": 2.5800000000000003e-06,
+      "loss": 0.5527,
+      "step": 130
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 0.12351451069116592,
+      "learning_rate": 2.7800000000000005e-06,
+      "loss": 0.5514,
+      "step": 140
+    },
+    {
+      "epoch": 37.53333333333333,
+      "grad_norm": 0.16762301325798035,
+      "learning_rate": 2.9800000000000003e-06,
+      "loss": 0.5515,
+      "step": 150
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.121138796210289,
+      "learning_rate": 3.1800000000000005e-06,
+      "loss": 0.5487,
+      "step": 160
+    },
+    {
+      "epoch": 42.53333333333333,
+      "grad_norm": 0.1075759157538414,
+      "learning_rate": 3.3800000000000007e-06,
+      "loss": 0.5434,
+      "step": 170
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 0.11517618596553802,
+      "learning_rate": 3.58e-06,
+      "loss": 0.5455,
+      "step": 180
+    },
+    {
+      "epoch": 47.53333333333333,
+      "grad_norm": 0.10481545329093933,
+      "learning_rate": 3.7800000000000002e-06,
+      "loss": 0.5446,
+      "step": 190
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 0.13033606112003326,
+      "learning_rate": 3.980000000000001e-06,
+      "loss": 0.5426,
+      "step": 200
+    },
+    {
+      "epoch": 52.53333333333333,
+      "grad_norm": 0.11076183617115021,
+      "learning_rate": 4.18e-06,
+      "loss": 0.5425,
+      "step": 210
+    },
+    {
+      "epoch": 55.0,
+      "grad_norm": 0.13085302710533142,
+      "learning_rate": 4.38e-06,
+      "loss": 0.5407,
+      "step": 220
+    },
+    {
+      "epoch": 57.53333333333333,
+      "grad_norm": 0.1101340726017952,
+      "learning_rate": 4.58e-06,
+      "loss": 0.5393,
+      "step": 230
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 0.11731196194887161,
+      "learning_rate": 4.78e-06,
+      "loss": 0.5373,
+      "step": 240
+    },
+    {
+      "epoch": 62.53333333333333,
+      "grad_norm": 0.11329876631498337,
+      "learning_rate": 4.980000000000001e-06,
+      "loss": 0.5353,
+      "step": 250
+    },
+    {
+      "epoch": 65.0,
+      "grad_norm": 0.12666642665863037,
+      "learning_rate": 5.18e-06,
+      "loss": 0.5365,
+      "step": 260
+    },
+    {
+      "epoch": 67.53333333333333,
+      "grad_norm": 0.12180330604314804,
+      "learning_rate": 5.380000000000001e-06,
+      "loss": 0.5353,
+      "step": 270
+    },
+    {
+      "epoch": 70.0,
+      "grad_norm": 0.11484792828559875,
+      "learning_rate": 5.580000000000001e-06,
+      "loss": 0.5309,
+      "step": 280
+    },
+    {
+      "epoch": 72.53333333333333,
+      "grad_norm": 0.10521823912858963,
+      "learning_rate": 5.78e-06,
+      "loss": 0.5336,
+      "step": 290
+    },
+    {
+      "epoch": 75.0,
+      "grad_norm": 0.12647727131843567,
+      "learning_rate": 5.98e-06,
+      "loss": 0.533,
+      "step": 300
+    },
+    {
+      "epoch": 77.53333333333333,
+      "grad_norm": 0.11960894614458084,
+      "learning_rate": 6.18e-06,
+      "loss": 0.5305,
+      "step": 310
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 0.14461685717105865,
+      "learning_rate": 6.380000000000001e-06,
+      "loss": 0.5297,
+      "step": 320
+    },
+    {
+      "epoch": 82.53333333333333,
+      "grad_norm": 0.11162838339805603,
+      "learning_rate": 6.5800000000000005e-06,
+      "loss": 0.5309,
+      "step": 330
+    },
+    {
+      "epoch": 85.0,
+      "grad_norm": 0.12640050053596497,
+      "learning_rate": 6.780000000000001e-06,
+      "loss": 0.5264,
+      "step": 340
+    },
+    {
+      "epoch": 87.53333333333333,
+      "grad_norm": 0.11897486448287964,
+      "learning_rate": 6.98e-06,
+      "loss": 0.5267,
+      "step": 350
+    },
+    {
+      "epoch": 90.0,
+      "grad_norm": 0.11157895624637604,
+      "learning_rate": 7.180000000000001e-06,
+      "loss": 0.5273,
+      "step": 360
+    },
+    {
+      "epoch": 92.53333333333333,
+      "grad_norm": 0.11413957178592682,
+      "learning_rate": 7.3800000000000005e-06,
+      "loss": 0.527,
+      "step": 370
+    },
+    {
+      "epoch": 95.0,
+      "grad_norm": 0.12203444540500641,
+      "learning_rate": 7.58e-06,
+      "loss": 0.5258,
+      "step": 380
+    },
+    {
+      "epoch": 97.53333333333333,
+      "grad_norm": 0.10855170339345932,
+      "learning_rate": 7.78e-06,
+      "loss": 0.5255,
+      "step": 390
+    },
+    {
+      "epoch": 100.0,
+      "grad_norm": 0.13235536217689514,
+      "learning_rate": 7.980000000000002e-06,
+      "loss": 0.5228,
+      "step": 400
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 400,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

echodit_finetuned/final/flow_model/config.yaml ADDED Viewed

	@@ -0,0 +1,73 @@

+TTS_dataset_local: ./finetune_data
+adaln_rank: 128
+batch_size: 16
+cfg_dropout: 0.1
+dacvae_latent_dim: 128
+dacvae_model: facebook/dacvae-watermarked
+dataloader_drop_last: true
+dataloader_num_workers: 4
+dataloader_pin_memory: true
+do_validation: false
+ema_decay: 0.9999
+ema_update_every: 10
+end_of_ai: 100285
+end_of_human: 100283
+end_of_speech: 100281
+end_of_text: 100279
+epochs: 100
+eval_steps: 500
+finetune_mode: full
+flow_sigma_min: 0.0001
+flow_velocity_weighted: false
+freeze_first_n_layers: 0
+freeze_speaker_encoder: true
+freeze_text_encoder: false
+gradient_accumulation_steps: 4
+gradient_checkpointing: true
+intermediate_size: 4096
+learning_rate: 1.0e-05
+logging_steps: 10
+lr_min_ratio: 0.1
+lr_scheduler_type: cosine
+max_grad_norm: 0.5
+mixed_precision: bf16
+model_size: 1024
+norm_eps: 1.0e-06
+num_heads: 16
+num_layers: 24
+number_processes: 8
+pad_token: 100286
+pretrained_checkpoint: /scratch/huggingface/emilia-yodas-dacvae_tokenized/checkpoints/echodit_1b/final/flow_model/pytorch_model.bin
+project_name: vyvo-echodit-finetune
+resume_from_checkpoint: null
+run_name: echodit-finetune-andrew
+save_folder: checkpoints/echodit_finetuned
+save_steps: 1000
+speaker_intermediate_size: 2048
+speaker_model_size: 512
+speaker_num_heads: 8
+speaker_num_layers: 4
+speaker_patch_size: 4
+start_of_ai: 100284
+start_of_human: 100282
+start_of_speech: 100280
+start_of_text: 100278
+text_intermediate_size: 3072
+text_model_size: 768
+text_num_heads: 12
+text_num_layers: 6
+text_vocab_size: 100287
+timestep_embed_size: 256
+tokeniser_length: 100277
+unfreeze_last_n_layers: 24
+use_ema: true
+use_flash_attention: true
+use_fsdp: false
+validation_cfg_scale: 2.5
+validation_ode_steps: 50
+validation_samples: 4
+validation_solver: heun
+validation_steps: 500
+warmup_ratio: 0.05
+warmup_steps: 500
+weight_decay: 0.01

echodit_finetuned/final/flow_model/ema_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0aa9e64c1635489ed6e0ea1b6af6a5290cd7a8066c28e7c0103053d488d9c087
+size 2855777547

echodit_finetuned/final/flow_model/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aac268b20e8ab41765c59138478a3b472e5047a91a393552e37ec943f365bc7e
+size 2928174600

echodit_finetuned/final/flow_model/pytorch_model_ema.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8744bf8629d842c1e8b0ddc7e92877a5289a9fa193fb15defce411d75c462403
+size 2855771883