Spaces:

mnhatdaous
/

learnable-speech

Sleeping

primepake commited on Jul 27

Commit

9980d76

1 Parent(s): e422499

update data preprocessinG

Files changed (3) hide show

README.md CHANGED Viewed

@@ -69,6 +69,21 @@ pip install -r requirements.txt
             --model "speech_tokenizer_v2_25hz"
    ```
 2. **Extracting DAC-VAE latent**
    ```bash
    cd dac-vae

             --model "speech_tokenizer_v2_25hz"
    ```
+   # or you can install via this repo, it will use filelist.txt to extract, each line in filelist.txt contains file audio path
+   # example files_test.txt
+   ```
+   cd speech/tools/S3Tokenizer
+   pip3 install .
+   # example cmd to run
+   torchrun --nproc_per_node=4 --nnodes=1 --rdzv_id=2024 --rdzv_backend="c10d" --rdzv_endpoint="localhost:0" `which s3tokenizer` --root_path /data/dataset/ \
+                --model speech_tokenizer_v2_25hz \
+                --device "cuda" \
+                --batch_size 64 \
+                --file_list /data/learnable-speech/speech/files_test.txt \
+                --skip_existing
+   ```
 2. **Extracting DAC-VAE latent**
    ```bash
    cd dac-vae

speech/config.yaml CHANGED Viewed

@@ -13,7 +13,7 @@ qwen_pretrain_path: ''
 token_frame_rate: 25
 token_mel_ratio: 2
 use_speaker_encoder: True
-speaker_encoder_path: '/data/checkpoint/llm/epoch_29_step_20001.pt'
 # stream related params
 chunk_size: 25 # streaming inference chunk size, in token
 num_decoding_left_chunks: -1 # streaming inference flow decoder left chunk size, <0 means use all left chunks
@@ -51,8 +51,8 @@ llm: !new:cosyvoice.llm.llm.Qwen2LM
 extract_reference_mel: !name:cosyvoice.dataset.processor.extract_reference_mel_from_speech
     feat_extractor: !ref <feat_extractor>
     min_length: 0.5
-    max_length: 12.0
-    num_crops: 3  # Multiple crops from same utterance
     training: True
     sample_rate: !ref <sample_rate>
@@ -221,7 +221,7 @@ train_conf:
     scheduler_conf:
         warmup_steps: 500
     max_epoch: 2000
-    grad_clip: 1
     accum_grad: 1
     log_interval: 5
     save_per_step: 2000

 token_frame_rate: 25
 token_mel_ratio: 2
 use_speaker_encoder: True
+speaker_encoder_path: ''
 # stream related params
 chunk_size: 25 # streaming inference chunk size, in token
 num_decoding_left_chunks: -1 # streaming inference flow decoder left chunk size, <0 means use all left chunks
 extract_reference_mel: !name:cosyvoice.dataset.processor.extract_reference_mel_from_speech
     feat_extractor: !ref <feat_extractor>
     min_length: 0.5
+    max_length: 4.0
+    num_crops: 1  # Multiple crops from same utterance
     training: True
     sample_rate: !ref <sample_rate>
     scheduler_conf:
         warmup_steps: 500
     max_epoch: 2000
+    grad_clip: 5
     accum_grad: 1
     log_interval: 5
     save_per_step: 2000

speech/files_test.txt ADDED Viewed

+/data/dataset/emilia/en/EN_B00007/EN_B00007_S01193/EN_B00007_S01193_W000000.wav
+/data/dataset/emilia/en/EN_B00007/EN_B00007_S01193/EN_B00007_S01193_W000001.wav
+/data/dataset/emilia/en/EN_B00007/EN_B00007_S08642/EN_B00007_S08642_W000003.wav
+/data/dataset/emilia/en/EN_B00007/EN_B00007_S08642/EN_B00007_S08642_W000046.wav
+/data/dataset/emilia/en/EN_B00007/EN_B00007_S08642/EN_B00007_S08642_W000000.wav