Spaces:

nukopy
/

vallex-prototyping

Running on Zero

nukopy commited on Oct 29, 2025

Commit

ddbbe8e

1 Parent(s): ee9a749

fix: set base dir for hugging face

--- error message ---

Skipping set_num_interop_threads: Error: cannot set number of interop threads after parallel work has started or set_num_interop_threads called
Initializing PhonemeBpeTokenizer with tokenizer path: ./apps/audio_cloning/vallex/g2p/bpe_69.json
Traceback (most recent call last):
File "/home/user/app/app.py", line 3, in <module>
from apps.audio_cloning.main import main as audio_cloning
File "/home/user/app/apps/audio_cloning/main.py", line 7, in <module>
from .vallex.main import main as vallex
File "/home/user/app/apps/audio_cloning/vallex/main.py", line 113, in <module>
os.makedirs(OUTPUT_DIR_CHECKPOINTS, exist_ok=True)
File "/usr/local/lib/python3.10/os.py", line 215, in makedirs
makedirs(head, exist_ok=exist_ok)
File "/usr/local/lib/python3.10/os.py", line 215, in makedirs
makedirs(head, exist_ok=exist_ok)
File "/usr/local/lib/python3.10/os.py", line 225, in makedirs
mkdir(name, mode)
PermissionError: [Errno 13] Permission denied: '/app'

Files changed (2) hide show

apps/audio_cloning/vallex/g2p/__init__.py +5 -1
apps/audio_cloning/vallex/main.py +9 -11

apps/audio_cloning/vallex/g2p/__init__.py CHANGED Viewed

@@ -1,5 +1,7 @@
 """from https://github.com/keithito/tacotron"""
 # import utils.g2p.cleaners
 from tokenizers import Tokenizer
@@ -11,7 +13,9 @@ from .symbols import symbols
 _symbol_to_id = {s: i for i, s in enumerate(symbols)}
 _id_to_symbol = {i: s for i, s in enumerate(symbols)}
-TOKENIZER_PATH = "./apps/audio_cloning/vallex/g2p/bpe_1024.json"
 class PhonemeBpeTokenizer:

 """from https://github.com/keithito/tacotron"""
+import os
 # import utils.g2p.cleaners
 from tokenizers import Tokenizer
 _symbol_to_id = {s: i for i, s in enumerate(symbols)}
 _id_to_symbol = {i: s for i, s in enumerate(symbols)}
+BASE_DIR = os.getenv("HF_HOME", ".")
+TOKENIZER_PATH = os.path.join(BASE_DIR, "apps/audio_cloning/vallex/g2p/bpe_1024.json")
 class PhonemeBpeTokenizer:

apps/audio_cloning/vallex/main.py CHANGED Viewed

@@ -40,6 +40,10 @@ from .models.vallex import VALLE
 logger = logging.getLogger(__name__)
 # set languages
 langid.set_languages(["en", "zh", "ja"])
@@ -86,7 +90,7 @@ else:
 # set text tokenizer and collater
 logger.info("Setting text tokenizer and collater...")
-tokenizer_path = "./apps/audio_cloning/vallex/g2p/bpe_69.json"
 text_tokenizer = PhonemeBpeTokenizer(tokenizer_path=tokenizer_path)
 text_collater = get_text_token_collater()
@@ -100,11 +104,7 @@ if torch.cuda.is_available():
 logger.info("Device set to %s", device)
 # Download VALL-E-X model weights if not exists
-OUTPUT_DIR_CHECKPOINTS = "./models/checkpoints"
-if platform.system().lower() == "linux":
-    # docker（linux）環境では /app/models/checkpoints にする
-    OUTPUT_DIR_CHECKPOINTS = "/app/models/checkpoints"
 OUTPUT_FILENAME_CHECKPOINTS = "vallex-checkpoint.pt"
 OUTPUT_PATH_CHECKPOINTS = os.path.join(
     OUTPUT_DIR_CHECKPOINTS, OUTPUT_FILENAME_CHECKPOINTS
@@ -155,12 +155,10 @@ audio_tokenizer = AudioTokenizer(device)
 vocos = Vocos.from_pretrained("charactr/vocos-encodec-24khz").to(device)
 # initialize ASR model
-OUTPUT_DIR_WHISPER = "./models/whisper"
-if platform.system().lower() == "linux":
-    OUTPUT_DIR_WHISPER = "/app/models/whisper"
 if not os.path.exists(OUTPUT_DIR_WHISPER):
     os.makedirs(OUTPUT_DIR_WHISPER, exist_ok=True)
 try:
     logger.info("Loading Whisper model...")
     model_name = "tiny"
@@ -178,7 +176,7 @@ except Exception as e:
 # Initialize Voice Presets
 logger.info("Initializing Voice Presets...")
-PRESETS_DIR = "apps/audio_cloning/vallex/presets"
 preset_list = os.walk(PRESETS_DIR).__next__()[2]
 preset_list = [preset[:-4] for preset in preset_list if preset.endswith(".npz")]

 logger = logging.getLogger(__name__)
+# set base directory
+BASE_DIR = os.getenv("HF_HOME", ".")
+logger.info("Base directory: %s", BASE_DIR)
 # set languages
 langid.set_languages(["en", "zh", "ja"])
 # set text tokenizer and collater
 logger.info("Setting text tokenizer and collater...")
+tokenizer_path = os.path.join(BASE_DIR, "apps/audio_cloning/vallex/g2p/bpe_69.json")
 text_tokenizer = PhonemeBpeTokenizer(tokenizer_path=tokenizer_path)
 text_collater = get_text_token_collater()
 logger.info("Device set to %s", device)
 # Download VALL-E-X model weights if not exists
+OUTPUT_DIR_CHECKPOINTS = os.path.join(BASE_DIR, "models/checkpoints")
 OUTPUT_FILENAME_CHECKPOINTS = "vallex-checkpoint.pt"
 OUTPUT_PATH_CHECKPOINTS = os.path.join(
     OUTPUT_DIR_CHECKPOINTS, OUTPUT_FILENAME_CHECKPOINTS
 vocos = Vocos.from_pretrained("charactr/vocos-encodec-24khz").to(device)
 # initialize ASR model
+OUTPUT_DIR_WHISPER = os.path.join(BASE_DIR, "models/whisper")
 if not os.path.exists(OUTPUT_DIR_WHISPER):
     os.makedirs(OUTPUT_DIR_WHISPER, exist_ok=True)
 try:
     logger.info("Loading Whisper model...")
     model_name = "tiny"
 # Initialize Voice Presets
 logger.info("Initializing Voice Presets...")
+PRESETS_DIR = os.path.join(BASE_DIR, "apps/audio_cloning/vallex/presets")
 preset_list = os.walk(PRESETS_DIR).__next__()[2]
 preset_list = [preset[:-4] for preset in preset_list if preset.endswith(".npz")]