Spaces:

moonton
/

tts

Paused

App Files Files Community

pluviouse commited on Dec 9, 2024

Commit

dc3a626

verified ·

1 Parent(s): fdbb4ea

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -4

app.py CHANGED Viewed

@@ -25,6 +25,13 @@ JAPANESE = {
     "onnx_dir": "./ONNX_net/G_jp/"
 }
 models_tts = []
 models_info = [
     TRILINGUAL,
@@ -62,10 +69,13 @@ def get_text(text, hps, is_symbol):
         text_norm = intersperse(text_norm, 0)
     return LongTensor(text_norm)
-def tts_process(text, speaker, speed, model_data, is_symbol):
     model = model_data["model"]
     hps = model_data["hps"]
     speaker_id = model_data["speaker_ids"][speaker]
     stn_tst = get_text(text, hps, is_symbol)
     with no_grad():
         x_tst = stn_tst.unsqueeze(0)
@@ -110,16 +120,24 @@ def generate(model):
     speed = float(data.get("speed", 1.0))
     is_symbol = data.get("is_symbol", False)
     speaker_id = data.get("speaker_id")
     if not text:
         return jsonify({"error": "Missing parameter 'text'"}), 400
     model_data = get_model_data(model)
     if not model_data:
         return jsonify({"error": "Model not found"}), 404
     speaker_ids = { str(id): speaker for speaker, id in model_data["speaker_ids"].items() }
     if not speaker:
         if speaker_id is not None:
             speaker = speaker_ids.get(str(speaker_id), None)
@@ -132,7 +150,7 @@ def generate(model):
         return jsonify({"error": f"Speaker `{speaker}` not found"}), 404
     try:
-        audio, sampling_rate = tts_process(text, speaker, speed, model_data, is_symbol)
         temp_wav = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
         sf.write(temp_wav.name, audio, sampling_rate, format="wav")
         temp_wav.close()

     "onnx_dir": "./ONNX_net/G_jp/"
 }
+language_marks = {
+    "JA": "[JA]",
+    "ZH": "[ZH]",
+    "ENG": "[EN]",
+    "MIX": "",
+}
 models_tts = []
 models_info = [
     TRILINGUAL,
         text_norm = intersperse(text_norm, 0)
     return LongTensor(text_norm)
+def tts_process(text, speaker, speed, model_data, is_symbol, language = None):
     model = model_data["model"]
     hps = model_data["hps"]
     speaker_id = model_data["speaker_ids"][speaker]
+    if language is not None:
+        text = language_marks[language] + text + language_marks[language]
     stn_tst = get_text(text, hps, is_symbol)
     with no_grad():
         x_tst = stn_tst.unsqueeze(0)
     speed = float(data.get("speed", 1.0))
     is_symbol = data.get("is_symbol", False)
     speaker_id = data.get("speaker_id")
+    language = data.get("lang")
     if not text:
         return jsonify({"error": "Missing parameter 'text'"}), 400
     model_data = get_model_data(model)
     if not model_data:
         return jsonify({"error": "Model not found"}), 404
     speaker_ids = { str(id): speaker for speaker, id in model_data["speaker_ids"].items() }
+    if language is not None:
+        is_ja = model.lower() == "japanese"
+        if is_ja:
+            language = None
+        elif not is_ja and language_marks.get(language) is None:
+            return jsonify({ "error": "language not available", "language": language_marks.keys() })
     if not speaker:
         if speaker_id is not None:
             speaker = speaker_ids.get(str(speaker_id), None)
         return jsonify({"error": f"Speaker `{speaker}` not found"}), 404
     try:
+        audio, sampling_rate = tts_process(text, speaker, speed, model_data, is_symbol, language)
         temp_wav = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
         sf.write(temp_wav.name, audio, sampling_rate, format="wav")
         temp_wav.close()