Upload MOSS Audio Tokenizer v2

Files changed (6) hide show

.gitattributes CHANGED Viewed

@@ -46,4 +46,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.wav filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

 *.wasm filter=lfs diff=lfs merge=lfs -text
 *.wav filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text__pycache__/modeling_moss_audio_tokenizer.cpython-312.pyc filter=lfs diff=lfs merge=lfs -text

.gitignore CHANGED Viewed

@@ -1,2 +1,3 @@
 dev/*
 demo/demo_rec*.wav

 dev/*
 demo/demo_rec*.wav
+__pycache__

__pycache__/configuration_moss_audio_tokenizer.cpython-312.pyc ADDED Viewed

Binary file (10.1 kB). View file

__pycache__/modeling_moss_audio_tokenizer.cpython-312.pyc ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:67855dab364c1051dfb49491332e58e33b76db9151bf83a29af67b1cff8901aa
+size 131137

configuration_moss_audio_tokenizer.py CHANGED Viewed

@@ -32,7 +32,7 @@ class MossAudioTokenizerConfig(PreTrainedConfig):
     MossAudioTokenizer model according to the specified arguments, defining the model architecture.
     Instantiating a configuration with the defaults will yield a similar configuration to that of the
-    [VoiceAgentGroup/moss_audio_tokenizer](https://huggingface.co/VoiceAgentGroup/moss_audio_tokenizer) architecture.
     Configuration objects inherit from [`PreTrainedConfig`] and can be used to control the model outputs. Read the
     documentation from [`PreTrainedConfig`] for more information.

     MossAudioTokenizer model according to the specified arguments, defining the model architecture.
     Instantiating a configuration with the defaults will yield a similar configuration to that of the
+    [OpenMOSS-Team/MOSS-Audio-Tokenizer-v2](https://huggingface.co/OpenMOSS-Team/MOSS-Audio-Tokenizer-v2) architecture.
     Configuration objects inherit from [`PreTrainedConfig`] and can be used to control the model outputs. Read the
     documentation from [`PreTrainedConfig`] for more information.

modeling_moss_audio_tokenizer.py CHANGED Viewed

@@ -2472,7 +2472,7 @@ class MossAudioTokenizerModel(MossAudioTokenizerPreTrainedModel):
         >>> model = MossAudioTokenizerModel.from_pretrained("OpenMOSS-Team/MOSS-Audio-Tokenizer-v2/")
         >>> # Create dummy audio input
-        >>> audio = torch.randn(1, 1, 24000)  # 1 second of audio at 24kHz
         >>> outputs = model(input_values=audio)
         >>> audio_codes = outputs.audio_codes

         >>> model = MossAudioTokenizerModel.from_pretrained("OpenMOSS-Team/MOSS-Audio-Tokenizer-v2/")
         >>> # Create dummy audio input
+        >>> audio = torch.randn(1, 2, 48000)  # 1 second of audio at 48kHz stereo
         >>> outputs = model(input_values=audio)
         >>> audio_codes = outputs.audio_codes