MicroCore-Studio-Engine-Kokoro-TTS

Sleeping

App Files Files Community

MicroCore-Labs commited on 6 days ago

Commit

0cba662

verified ·

1 Parent(s): eff3366

Upload app.py with huggingface_hub

Browse files

Files changed (1) hide show

app.py +9 -4

app.py CHANGED Viewed

@@ -22,9 +22,16 @@ pipelines['b'].g2p.lexicon.golds['kokoro'] = 'kˈQkəɹQ'
 def forward_gpu(ps, ref_s, speed):
     return models[True](ps, ref_s, speed)
 def generate_first(text, voice='af_heart', speed=1, use_gpu=CUDA_AVAILABLE):
     text = text if CHAR_LIMIT is None else text.strip()[:CHAR_LIMIT]
     pipeline = pipelines[voice[0]]
     pack = pipeline.load_voice(voice)
     use_gpu = use_gpu and CUDA_AVAILABLE
     for _, ps, _ in pipeline(text, voice, speed):
@@ -44,7 +51,6 @@ def generate_first(text, voice='af_heart', speed=1, use_gpu=CUDA_AVAILABLE):
         return (24000, audio.numpy()), ps
     return None, ''
-# Arena API
 def predict(text, voice='af_heart', speed=1):
     return generate_first(text, voice, speed, use_gpu=False)[0]
@@ -57,6 +63,7 @@ def tokenize_first(text, voice='af_heart'):
 def generate_all(text, voice='af_heart', speed=1, use_gpu=CUDA_AVAILABLE):
     text = text if CHAR_LIMIT is None else text.strip()[:CHAR_LIMIT]
     pipeline = pipelines[voice[0]]
     pack = pipeline.load_voice(voice)
     use_gpu = use_gpu and CUDA_AVAILABLE
     first = True
@@ -123,13 +130,11 @@ CHOICES = {
 '🇬🇧 🚹 Lewis': 'bm_lewis',
 '🇬🇧 🚹 Daniel': 'bm_daniel',
 }
-for v in CHOICES.values():
-    pipelines[v[0]].load_voice(v)
 TOKEN_NOTE = '''
 💡 Customize pronunciation with Markdown link syntax and /slashes/ like `[Kokoro](/kˈOkəɹO/)`
-💬 To adjust intonation, try punctuation `;:,.!?—…"()“”` or stress `ˈ` and `ˌ`
 ⬇️ Lower stress `[1 level](-1)` or `[2 levels](-2)`

 def forward_gpu(ps, ref_s, speed):
     return models[True](ps, ref_s, speed)
+_loaded_voices = set()
+def _ensure_voice(voice):
+    if voice not in _loaded_voices:
+        pipelines[voice[0]].load_voice(voice)
+        _loaded_voices.add(voice)
 def generate_first(text, voice='af_heart', speed=1, use_gpu=CUDA_AVAILABLE):
     text = text if CHAR_LIMIT is None else text.strip()[:CHAR_LIMIT]
     pipeline = pipelines[voice[0]]
+    _ensure_voice(voice)
     pack = pipeline.load_voice(voice)
     use_gpu = use_gpu and CUDA_AVAILABLE
     for _, ps, _ in pipeline(text, voice, speed):
         return (24000, audio.numpy()), ps
     return None, ''
 def predict(text, voice='af_heart', speed=1):
     return generate_first(text, voice, speed, use_gpu=False)[0]
 def generate_all(text, voice='af_heart', speed=1, use_gpu=CUDA_AVAILABLE):
     text = text if CHAR_LIMIT is None else text.strip()[:CHAR_LIMIT]
     pipeline = pipelines[voice[0]]
+    _ensure_voice(voice)
     pack = pipeline.load_voice(voice)
     use_gpu = use_gpu and CUDA_AVAILABLE
     first = True
 '🇬🇧 🚹 Lewis': 'bm_lewis',
 '🇬🇧 🚹 Daniel': 'bm_daniel',
 }
 TOKEN_NOTE = '''
 💡 Customize pronunciation with Markdown link syntax and /slashes/ like `[Kokoro](/kˈOkəɹO/)`
+💬 To adjust intonation, try punctuation `;:,.!?—…"()""` or stress `ˈ` and `ˌ`
 ⬇️ Lower stress `[1 level](-1)` or `[2 levels](-2)`