update voice sets

Browse files

Files changed (3) hide show

aux_lm_residual_projection.safetensors +2 -2
chute_config.yml +7 -6
miner.py +15 -15

aux_lm_residual_projection.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:228ee1401f2ce80378f007b6a5fef3f80f7350252d5ee0c1efa3f370692b0351
-size 76258956

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ef937d2f3d9390e0bfee2978a6805f3cd251326b1091355e1129250e11d020c
+size 76094690

chute_config.yml CHANGED Viewed

@@ -1,20 +1,21 @@
-# Image + node + Chute for Vocence deploy. Required in the HF repo at build time.
 Image:
   from_base: parachutes/python:3.12
   run_command:
-    - pip install torch torchaudio transformers accelerate huggingface_hub pyyaml soundfile librosa datasets peft llvmlite numba diffusers tqdm numpy scipy librosa ml-collections absl-py gradio av aiortc
   set_workdir: /app
 NodeSelector:
   gpu_count: 1
   min_vram_gb_per_gpu: 64
-  include: ["pro_6000"]
   exclude: []
 Chute:
-  tagline: Vocence TTS — Qwen3 PromptTTS (weights in repo)
-  readme: Qwen3 12Hz TTS snapshot + miner.py for Vocence
   shutdown_after_seconds: 86400
   concurrency: 1
   max_instances: 1

 Image:
   from_base: parachutes/python:3.12
   run_command:
+    - pip install torch torchaudio
+    - pip install transformers==4.51.3
+    - pip install accelerate huggingface_hub pyyaml soundfile librosa datasets peft llvmlite numba diffusers tqdm numpy scipy librosa ml-collections absl-py gradio av aiortc
   set_workdir: /app
 NodeSelector:
   gpu_count: 1
   min_vram_gb_per_gpu: 64
+  include:
+    - pro_6000
   exclude: []
 Chute:
+  tagline: Vocence TTS — QWEN3Vox (weights + miner.py in repo)
+  readme: Repo-root miner.py, config.json, weights, aux_lm_residual_projection.safetensors; optional voices/*.wav for discrete conditioning (VOCENCE_PREFER_DISCRETE_COEFF_DIR).
   shutdown_after_seconds: 86400
   concurrency: 1
   max_instances: 1

miner.py CHANGED Viewed

@@ -76,7 +76,7 @@ class QWEN3VoxDataset:
                 data["voice_prompts"] = user_provided_prompt
         else:
             try:
-                target_sr = 24000
                 wav_array = _load_audio_to_24k(
                     item[self.audio_column], target_sr=target_sr
                 )
@@ -157,7 +157,7 @@ def _apply_silence_with_crossfade(
 def _load_audio_to_24k(
     audio: Union[str, np.ndarray, torch.Tensor, Dict[str, Any]],
     *,
-    target_sr: int = 24000,
     augment_with_silence: bool = False,
 ) -> np.ndarray:
     if isinstance(audio, np.ndarray):
@@ -241,7 +241,7 @@ class QWEN3VoxCollator:
                 )
             speech_input_mask_list = speech_input_mask[0].tolist()
             wav_target = _load_audio_to_24k(
-                target_audio, target_sr=24000, augment_with_silence=True
             )
             target_latent_len = None
             try:
@@ -579,7 +579,7 @@ class QWEN3VoxDiffusionHeadConfig(PretrainedConfig):
         prediction_type="v_prediction",
         diffusion_type="ddpm",
         ddpm_num_steps=1000,
-        ddpm_num_inference_steps=20,
         ddpm_beta_schedule="cosine",
         ddpm_batch_mul=4,
         **kwargs,
@@ -2119,7 +2119,7 @@ class QWEN3VoxTokenizerProcessor(FeatureExtractionMixin):
     def __init__(
         self,
-        sampling_rate: int = 24000,
         normalize_audio: bool = True,
         target_dB_FS: float = -25,
         eps: float = 1e-06,
@@ -3920,7 +3920,7 @@ class QWEN3VoxASRProcessor:
         tokenizer=None,
         audio_processor=None,
         speech_tok_compress_ratio=320,
-        target_sample_rate=24000,
         normalize_audio=True,
         **kwargs,
     ):
@@ -3982,7 +3982,7 @@ class QWEN3VoxASRProcessor:
                 logger.warning(f"Could not load preprocessor_config.json: {e }")
                 logger.warning("Using default configuration")
         speech_tok_compress_ratio = config.get("speech_tok_compress_ratio", 3200)
-        target_sample_rate = config.get("target_sample_rate", 24000)
         normalize_audio = config.get("normalize_audio", True)
         language_model_pretrained_name = config.get(
             "language_model_pretrained_name", None
@@ -4377,7 +4377,7 @@ class QWEN3VoxProcessor:
         if "audio_processor" in config:
             audio_config = config["audio_processor"]
             audio_processor = QWEN3VoxTokenizerProcessor(
-                sampling_rate=audio_config.get("sampling_rate", 24000),
                 normalize_audio=audio_config.get("normalize_audio", True),
                 target_dB_FS=audio_config.get("target_dB_FS", -25),
                 eps=audio_config.get("eps", 1e-06),
@@ -4402,7 +4402,7 @@ class QWEN3VoxProcessor:
             "db_normalize": self.db_normalize,
             "audio_processor": {
                 "feature_extractor_type": "QWEN3VoxTokenizerProcessor",
-                "sampling_rate": getattr(self.audio_processor, "sampling_rate", 24000),
                 "normalize_audio": getattr(
                     self.audio_processor, "normalize_audio", True
                 ),
@@ -4899,7 +4899,7 @@ class QWEN3VoxStreamingProcessor:
         if "audio_processor" in config:
             audio_config = config["audio_processor"]
             audio_processor = QWEN3VoxTokenizerProcessor(
-                sampling_rate=audio_config.get("sampling_rate", 24000),
                 normalize_audio=audio_config.get("normalize_audio", True),
                 target_dB_FS=audio_config.get("target_dB_FS", -25),
                 eps=audio_config.get("eps", 1e-06),
@@ -4924,7 +4924,7 @@ class QWEN3VoxStreamingProcessor:
             "db_normalize": self.db_normalize,
             "audio_processor": {
                 "feature_extractor_type": "QWEN3VoxTokenizerProcessor",
-                "sampling_rate": getattr(self.audio_processor, "sampling_rate", 24000),
                 "normalize_audio": getattr(
                     self.audio_processor, "normalize_audio", True
                 ),
@@ -7932,7 +7932,7 @@ class QWEN3VoxASRForConditionalGeneration(QWEN3VoxASRPreTrainedModel, Generation
         if speech_tensors.ndim == 1:
             speech_tensors = speech_tensors.unsqueeze(0)
         batch_size, total_samples = speech_tensors.shape
-        sample_rate = 24000
         segment_samples = int(streaming_segment_duration * sample_rate)
         use_streaming = total_samples > segment_samples
         with torch.no_grad():
@@ -8975,7 +8975,7 @@ def convert_q3_nnscaler_checkpoint_to_hf(
         "db_normalize": True,
         "audio_processor": {
             "feature_extractor_type": "QWEN3VoxTokenizerProcessor",
-            "sampling_rate": 24000,
             "normalize_audio": True,
             "target_dB_FS": -25,
             "eps": 1e-06,
@@ -9835,7 +9835,7 @@ class Miner:
             torch.manual_seed(s)
             if torch.cuda.is_available():
                 torch.cuda.manual_seed_all(s)
-        self._cfg_scale = float(os.environ.get("VOCENCE_CFG_SCALE", "1.2"))
         self._disable_prefill = os.environ.get(
             "VOCENCE_DISABLE_PREFILL", ""
         ).lower() in ("1", "true", "yes")
@@ -9865,7 +9865,7 @@ class Miner:
         self._model.eval()
         self._model.set_ddpm_inference_steps(num_steps=20)
         self._sample_rate = int(
-            getattr(self._processor.audio_processor, "sampling_rate", 24000)
         )
     def _load_model_weights(

                 data["voice_prompts"] = user_provided_prompt
         else:
             try:
+                target_sr = 22050
                 wav_array = _load_audio_to_24k(
                     item[self.audio_column], target_sr=target_sr
                 )
 def _load_audio_to_24k(
     audio: Union[str, np.ndarray, torch.Tensor, Dict[str, Any]],
     *,
+    target_sr: int = 22050,
     augment_with_silence: bool = False,
 ) -> np.ndarray:
     if isinstance(audio, np.ndarray):
                 )
             speech_input_mask_list = speech_input_mask[0].tolist()
             wav_target = _load_audio_to_24k(
+                target_audio, target_sr=22050, augment_with_silence=True
             )
             target_latent_len = None
             try:
         prediction_type="v_prediction",
         diffusion_type="ddpm",
         ddpm_num_steps=1000,
+        ddpm_num_inference_steps=30,
         ddpm_beta_schedule="cosine",
         ddpm_batch_mul=4,
         **kwargs,
     def __init__(
         self,
+        sampling_rate: int = 22050,
         normalize_audio: bool = True,
         target_dB_FS: float = -25,
         eps: float = 1e-06,
         tokenizer=None,
         audio_processor=None,
         speech_tok_compress_ratio=320,
+        target_sample_rate=22050,
         normalize_audio=True,
         **kwargs,
     ):
                 logger.warning(f"Could not load preprocessor_config.json: {e }")
                 logger.warning("Using default configuration")
         speech_tok_compress_ratio = config.get("speech_tok_compress_ratio", 3200)
+        target_sample_rate = config.get("target_sample_rate", 22050)
         normalize_audio = config.get("normalize_audio", True)
         language_model_pretrained_name = config.get(
             "language_model_pretrained_name", None
         if "audio_processor" in config:
             audio_config = config["audio_processor"]
             audio_processor = QWEN3VoxTokenizerProcessor(
+                sampling_rate=audio_config.get("sampling_rate", 22050),
                 normalize_audio=audio_config.get("normalize_audio", True),
                 target_dB_FS=audio_config.get("target_dB_FS", -25),
                 eps=audio_config.get("eps", 1e-06),
             "db_normalize": self.db_normalize,
             "audio_processor": {
                 "feature_extractor_type": "QWEN3VoxTokenizerProcessor",
+                "sampling_rate": getattr(self.audio_processor, "sampling_rate", 22050),
                 "normalize_audio": getattr(
                     self.audio_processor, "normalize_audio", True
                 ),
         if "audio_processor" in config:
             audio_config = config["audio_processor"]
             audio_processor = QWEN3VoxTokenizerProcessor(
+                sampling_rate=audio_config.get("sampling_rate", 22050),
                 normalize_audio=audio_config.get("normalize_audio", True),
                 target_dB_FS=audio_config.get("target_dB_FS", -25),
                 eps=audio_config.get("eps", 1e-06),
             "db_normalize": self.db_normalize,
             "audio_processor": {
                 "feature_extractor_type": "QWEN3VoxTokenizerProcessor",
+                "sampling_rate": getattr(self.audio_processor, "sampling_rate", 22050),
                 "normalize_audio": getattr(
                     self.audio_processor, "normalize_audio", True
                 ),
         if speech_tensors.ndim == 1:
             speech_tensors = speech_tensors.unsqueeze(0)
         batch_size, total_samples = speech_tensors.shape
+        sample_rate = 22050
         segment_samples = int(streaming_segment_duration * sample_rate)
         use_streaming = total_samples > segment_samples
         with torch.no_grad():
         "db_normalize": True,
         "audio_processor": {
             "feature_extractor_type": "QWEN3VoxTokenizerProcessor",
+            "sampling_rate": 22050,
             "normalize_audio": True,
             "target_dB_FS": -25,
             "eps": 1e-06,
             torch.manual_seed(s)
             if torch.cuda.is_available():
                 torch.cuda.manual_seed_all(s)
+        self._cfg_scale = float(os.environ.get("VOCENCE_CFG_SCALE", "1.3"))
         self._disable_prefill = os.environ.get(
             "VOCENCE_DISABLE_PREFILL", ""
         ).lower() in ("1", "true", "yes")
         self._model.eval()
         self._model.set_ddpm_inference_steps(num_steps=20)
         self._sample_rate = int(
+            getattr(self._processor.audio_processor, "sampling_rate", 22050)
         )
     def _load_model_weights(