VALL-E-X

Runtime error

App Files Files Community

Plachta commited on Aug 30, 2023

Commit

4d6f78c

1 Parent(s): d69c31f

Replaced Encodec with Vocos

Browse files

Files changed (1) hide show

app.py +11 -7

app.py CHANGED Viewed

@@ -44,8 +44,8 @@ text_tokenizer = PhonemeBpeTokenizer(tokenizer_path="./utils/g2p/bpe_69.json")
 text_collater = get_text_token_collater()
 device = torch.device("cpu")
-if torch.cuda.is_available():
-    device = torch.device("cuda", 0)
 # VALL-E-X model
 model = VALLE(
@@ -141,17 +141,18 @@ def make_npz_prompt(name, uploaded_audio, recorded_audio, transcript_content):
     if transcript_content == "":
         lang_pr, text_pr = transcribe_one(wav_pr, sr)
     else:
         lang_pr = langid.classify(str(transcript_content))[0]
         lang_token = lang2token[lang_pr]
         text_pr = f"{lang_token}{str(transcript_content)}{lang_token}"
     # tokenize audio
     encoded_frames = tokenize_audio(audio_tokenizer, (wav_pr, sr))
     audio_tokens = encoded_frames[0][0].transpose(2, 1).cpu().numpy()
     # tokenize text
-    lang_token = lang2token[lang_pr]
-    text_pr = lang_token + text_pr + lang_token
     phonemes, _ = text_tokenizer.tokenize(text=f"{text_pr}".strip())
     text_tokens, enroll_x_lens = text_collater(
         [
@@ -193,16 +194,20 @@ def infer_from_audio(text, language, accent, audio_prompt, record_audio_prompt,
     if transcript_content == "":
         lang_pr, text_pr = transcribe_one(wav_pr, sr)
     else:
         lang_pr = langid.classify(str(transcript_content))[0]
         lang_token = lang2token[lang_pr]
-        text_pr = f"{lang_token}{str(transcript_content)}{lang_token}"
     if language == 'auto-detect':
         lang_token = lang2token[langid.classify(text)[0]]
     else:
         lang_token = langdropdown2token[language]
     lang = token2lang[lang_token]
     text = lang_token + text + lang_token
     if lang_pr not in ['ja', 'zh', 'en']:
@@ -223,8 +228,6 @@ def infer_from_audio(text, language, accent, audio_prompt, record_audio_prompt,
     enroll_x_lens = None
     if text_pr:
-        lang_token = lang2token[lang_pr]
-        text_pr = lang_token + text_pr + lang_token
         text_prompts, _ = text_tokenizer.tokenize(text=f"{text_pr}".strip())
         text_prompts, enroll_x_lens = text_collater(
             [
@@ -266,6 +269,7 @@ def infer_from_prompt(text, language, accent, preset_prompt, prompt_file):
     else:
         lang_token = langdropdown2token[language]
     lang = token2lang[lang_token]
     text = lang_token + text + lang_token
     # load prompt

 text_collater = get_text_token_collater()
 device = torch.device("cpu")
+# if torch.cuda.is_available():
+#     device = torch.device("cuda", 0)
 # VALL-E-X model
 model = VALLE(
     if transcript_content == "":
         lang_pr, text_pr = transcribe_one(wav_pr, sr)
+        lang_token = lang2token[lang_pr]
+        text_pr = lang_token + text_pr + lang_token
     else:
         lang_pr = langid.classify(str(transcript_content))[0]
         lang_token = lang2token[lang_pr]
+        transcript_content = transcript_content.replace("\n", "")
         text_pr = f"{lang_token}{str(transcript_content)}{lang_token}"
     # tokenize audio
     encoded_frames = tokenize_audio(audio_tokenizer, (wav_pr, sr))
     audio_tokens = encoded_frames[0][0].transpose(2, 1).cpu().numpy()
     # tokenize text
     phonemes, _ = text_tokenizer.tokenize(text=f"{text_pr}".strip())
     text_tokens, enroll_x_lens = text_collater(
         [
     if transcript_content == "":
         lang_pr, text_pr = transcribe_one(wav_pr, sr)
+        lang_token = lang2token[lang_pr]
+        text_pr = lang_token + text_pr + lang_token
     else:
         lang_pr = langid.classify(str(transcript_content))[0]
+        text_pr = transcript_content.replace("\n", "")
         lang_token = lang2token[lang_pr]
+        text_pr = lang_token + text_pr + lang_token
     if language == 'auto-detect':
         lang_token = lang2token[langid.classify(text)[0]]
     else:
         lang_token = langdropdown2token[language]
     lang = token2lang[lang_token]
+    text = text.replace("\n", "")
     text = lang_token + text + lang_token
     if lang_pr not in ['ja', 'zh', 'en']:
     enroll_x_lens = None
     if text_pr:
         text_prompts, _ = text_tokenizer.tokenize(text=f"{text_pr}".strip())
         text_prompts, enroll_x_lens = text_collater(
             [
     else:
         lang_token = langdropdown2token[language]
     lang = token2lang[lang_token]
+    text = text.replace("\n", "")
     text = lang_token + text + lang_token
     # load prompt