| { |
| "train": { |
| "segment_size": 16384 |
| }, |
| "data": { |
| "sampling_rate": 44100, |
| "filter_length": 2048, |
| "hop_length": 512, |
| "add_blank": true, |
| "n_speakers": 256, |
| "spk2id": { |
| "EN-US": 0, |
| "EN-BR": 1, |
| "EN_INDIA": 2, |
| "EN-AU": 3, |
| "EN-Default": 4 |
| } |
| }, |
| "model": { |
| "use_spk_conditioned_encoder": true, |
| "use_noise_scaled_mas": true, |
| "use_mel_posterior_encoder": false, |
| "use_duration_discriminator": true, |
| "inter_channels": 192, |
| "hidden_channels": 192, |
| "filter_channels": 768, |
| "n_heads": 2, |
| "n_layers": 6, |
| "n_layers_trans_flow": 3, |
| "kernel_size": 3, |
| "p_dropout": 0.1, |
| "resblock": "1", |
| "resblock_kernel_sizes": [ |
| 3, |
| 7, |
| 11 |
| ], |
| "resblock_dilation_sizes": [ |
| [ |
| 1, |
| 3, |
| 5 |
| ], |
| [ |
| 1, |
| 3, |
| 5 |
| ], |
| [ |
| 1, |
| 3, |
| 5 |
| ] |
| ], |
| "upsample_rates": [ |
| 8, |
| 8, |
| 2, |
| 2, |
| 2 |
| ], |
| "upsample_initial_channel": 512, |
| "upsample_kernel_sizes": [ |
| 16, |
| 16, |
| 8, |
| 2, |
| 2 |
| ], |
| "n_layers_q": 3, |
| "use_spectral_norm": false, |
| "gin_channels": 256 |
| }, |
| "symbols": [ |
| "_", |
| "\"", |
| "(", |
| ")", |
| "*", |
| "/", |
| ":", |
| "AA", |
| "E", |
| "EE", |
| "En", |
| "N", |
| "OO", |
| "Q", |
| "V", |
| "[", |
| "\\", |
| "]", |
| "^", |
| "a", |
| "a:", |
| "aa", |
| "ae", |
| "ah", |
| "ai", |
| "an", |
| "ang", |
| "ao", |
| "aw", |
| "ay", |
| "b", |
| "by", |
| "c", |
| "ch", |
| "d", |
| "dh", |
| "dy", |
| "e", |
| "e:", |
| "eh", |
| "ei", |
| "en", |
| "eng", |
| "er", |
| "ey", |
| "f", |
| "g", |
| "gy", |
| "h", |
| "hh", |
| "hy", |
| "i", |
| "i0", |
| "i:", |
| "ia", |
| "ian", |
| "iang", |
| "iao", |
| "ie", |
| "ih", |
| "in", |
| "ing", |
| "iong", |
| "ir", |
| "iu", |
| "iy", |
| "j", |
| "jh", |
| "k", |
| "ky", |
| "l", |
| "m", |
| "my", |
| "n", |
| "ng", |
| "ny", |
| "o", |
| "o:", |
| "ong", |
| "ou", |
| "ow", |
| "oy", |
| "p", |
| "py", |
| "q", |
| "r", |
| "ry", |
| "s", |
| "sh", |
| "t", |
| "th", |
| "ts", |
| "ty", |
| "u", |
| "u:", |
| "ua", |
| "uai", |
| "uan", |
| "uang", |
| "uh", |
| "ui", |
| "un", |
| "uo", |
| "uw", |
| "v", |
| "van", |
| "ve", |
| "vn", |
| "w", |
| "x", |
| "y", |
| "z", |
| "zh", |
| "zy", |
| "~", |
| "¡", |
| "¿", |
| "æ", |
| "ç", |
| "ð", |
| "ø", |
| "ŋ", |
| "œ", |
| "ɐ", |
| "ɑ", |
| "ɒ", |
| "ɔ", |
| "ɕ", |
| "ə", |
| "ɛ", |
| "ɜ", |
| "ɡ", |
| "ɣ", |
| "ɥ", |
| "ɦ", |
| "ɪ", |
| "ɫ", |
| "ɬ", |
| "ɭ", |
| "ɯ", |
| "ɲ", |
| "ɵ", |
| "ɸ", |
| "ɹ", |
| "ɾ", |
| "ʁ", |
| "ʃ", |
| "ʊ", |
| "ʌ", |
| "ʎ", |
| "ʏ", |
| "ʑ", |
| "ʒ", |
| "ʝ", |
| "ʲ", |
| "ˈ", |
| "ˌ", |
| "ː", |
| "̃", |
| "̩", |
| "β", |
| "θ", |
| "ᄀ", |
| "ᄁ", |
| "ᄂ", |
| "ᄃ", |
| "ᄄ", |
| "ᄅ", |
| "ᄆ", |
| "ᄇ", |
| "ᄈ", |
| "ᄉ", |
| "ᄊ", |
| "ᄋ", |
| "ᄌ", |
| "ᄍ", |
| "ᄎ", |
| "ᄏ", |
| "ᄐ", |
| "ᄑ", |
| "ᄒ", |
| "ᅡ", |
| "ᅢ", |
| "ᅣ", |
| "ᅤ", |
| "ᅥ", |
| "ᅦ", |
| "ᅧ", |
| "ᅨ", |
| "ᅩ", |
| "ᅪ", |
| "ᅫ", |
| "ᅬ", |
| "ᅭ", |
| "ᅮ", |
| "ᅯ", |
| "ᅰ", |
| "ᅱ", |
| "ᅲ", |
| "ᅳ", |
| "ᅴ", |
| "ᅵ", |
| "ᆨ", |
| "ᆫ", |
| "ᆮ", |
| "ᆯ", |
| "ᆷ", |
| "ᆸ", |
| "ᆼ", |
| "ㄸ", |
| "!", |
| "?", |
| "…", |
| ",", |
| ".", |
| "'", |
| "-", |
| "SP", |
| "UNK" |
| ], |
| "num_tones": 16, |
| "num_languages": 10 |
| } |