OpenMOSS-Team
/

MOSS-TTSD-v1.0

feature-extraction

Model card Files Files and versions

YWMditto commited on 12 days ago

Commit

3dedaec

·

1 Parent(s): a130021

update readme

Files changed (1) hide show

README.md +6 -12

README.md CHANGED Viewed

@@ -152,11 +152,10 @@ MOSS-TTSD uses a **continuation** workflow: provide reference audio for each spe
 import os
 from pathlib import Path
 import torch
-import soundfile as sf
 import torchaudio
 from transformers import AutoModel, AutoProcessor
-pretrained_model_name_or_path = "OpenMOSS-Team/MOSS-TTSD"
 audio_tokenizer_name_or_path = "OpenMOSS-Team/MOSS-Audio-Tokenizer"
 device = "cuda" if torch.cuda.is_available() else "cpu"
 dtype = torch.bfloat16 if device == "cuda" else torch.float32
@@ -189,10 +188,8 @@ text_to_generate = "[S1] Listen, let's talk business. China. I'm hearing things.
 # --- Load & resample audio ---
 target_sr = int(processor.model_config.sampling_rate)
-audio1, sr1 = sf.read(prompt_audio_speaker1, dtype="float32", always_2d=True)
-audio2, sr2 = sf.read(prompt_audio_speaker2, dtype="float32", always_2d=True)
-wav1 = torch.from_numpy(audio1).transpose(0, 1).contiguous()
-wav2 = torch.from_numpy(audio2).transpose(0, 1).contiguous()
 if wav1.shape[0] > 1:
     wav1 = wav1.mean(dim=0, keepdim=True)
@@ -244,13 +241,10 @@ with torch.no_grad():
         )
         for message in processor.decode(outputs):
-            for seg_idx, audio in enumerate(message.audio_codes_list):
-                sf.write(
-                    save_dir / f"{sample_idx}_{seg_idx}.wav",
-                    audio.detach().cpu().to(torch.float32).numpy(),
-                    int(processor.model_config.sampling_rate),
-                )
             sample_idx += 1
 ```

 import os
 from pathlib import Path
 import torch
 import torchaudio
 from transformers import AutoModel, AutoProcessor
+pretrained_model_name_or_path = "OpenMOSS-Team/MOSS-TTSD-v1.0"
 audio_tokenizer_name_or_path = "OpenMOSS-Team/MOSS-Audio-Tokenizer"
 device = "cuda" if torch.cuda.is_available() else "cpu"
 dtype = torch.bfloat16 if device == "cuda" else torch.float32
 # --- Load & resample audio ---
 target_sr = int(processor.model_config.sampling_rate)
+wav1, sr1 = torchaudio.load(prompt_audio_speaker1)
+wav2, sr2 = torchaudio.load(prompt_audio_speaker2)
 if wav1.shape[0] > 1:
     wav1 = wav1.mean(dim=0, keepdim=True)
         )
         for message in processor.decode(outputs):
+            audio = message.audio_codes_list[0]
+            out_path = save_dir / f"sample{sample_idx}.wav"
             sample_idx += 1
+            torchaudio.save(out_path, audio.unsqueeze(0), processor.model_config.sampling_rate)
 ```