OpenMOSS-Team
/

MOSS-Audio-Tokenizer

Feature Extraction

moss-audio-tokenizer

audio-tokenizer

moss-tts-family

MOSS Audio Tokenizer

speech-tokenizer

trust-remote-code

Model card Files Files and versions

Li-Ruixiao commited on Feb 4

Commit

f50b310

·

1 Parent(s): 8b576d1

Update README.md

Files changed (1) hide show

README.md +23 -12

README.md CHANGED Viewed

@@ -1,12 +1,27 @@
-# MossAudioTokenizer (remote code)
-MossAudioTokenizer is a neural audio codec model for audio tokenization and synthesis.
-This repository contains a lightweight “remote code” implementation that mirrors the current 🤗 Transformers
 `transformers.models.moss_audio_tokenizer` module. It is intended to be uploaded to a Hugging Face Hub model repository
 and loaded with `trust_remote_code=True` when needed.
-## Quickstart
 ```python
 import torch
@@ -20,7 +35,7 @@ enc = model.encode(audio, return_dict=True)
 dec = model.decode(enc.audio_codes, return_dict=True)
 ```
-## Streaming
 `MossAudioTokenizerModel.encode` and `MossAudioTokenizerModel.decode` support simple streaming via a `chunk_duration`
 argument.
@@ -28,7 +43,7 @@ argument.
 - `chunk_duration` is expressed in seconds.
 - It must be <= `MossAudioTokenizerConfig.causal_transformer_context_duration`.
 - `chunk_duration * MossAudioTokenizerConfig.sampling_rate` must be divisible by `MossAudioTokenizerConfig.downsample_rate`.
-- Current limitation: streaming chunking only supports `batch_size=1`.
 ```python
 import torch
@@ -45,12 +60,8 @@ dec = model.decode(enc.audio_codes, return_dict=True, chunk_duration=0.08)
 ## Repository layout
-Remote-code modules:
 - `configuration_moss_audio_tokenizer.py`
 - `modeling_moss_audio_tokenizer.py`
 - `__init__.py`
-Hub model files:
 - `config.json`
 - model weights

+---
+license: apache-2.0
+library_name: transformers
+tags:
+  - audio
+  - audio-tokenizer
+  - neural-codec
+  - moss-audio-tokenizer
+  - speech-tokenizer
+  - trust-remote-code
+---
+# MossAudioTokenizer
+MossAudioTokenizer is a neural audio codec model for audio tokenization and synthesis. It can encode audio waveforms
+into discrete tokens and decode tokens back into audio waveforms.
+This repository contains a lightweight remote-code implementation that mirrors the current 🤗 Transformers
 `transformers.models.moss_audio_tokenizer` module. It is intended to be uploaded to a Hugging Face Hub model repository
 and loaded with `trust_remote_code=True` when needed.
+## Usage
+### Quickstart
 ```python
 import torch
 dec = model.decode(enc.audio_codes, return_dict=True)
 ```
+### Streaming
 `MossAudioTokenizerModel.encode` and `MossAudioTokenizerModel.decode` support simple streaming via a `chunk_duration`
 argument.
 - `chunk_duration` is expressed in seconds.
 - It must be <= `MossAudioTokenizerConfig.causal_transformer_context_duration`.
 - `chunk_duration * MossAudioTokenizerConfig.sampling_rate` must be divisible by `MossAudioTokenizerConfig.downsample_rate`.
+- Streaming chunking only supports `batch_size=1`.
 ```python
 import torch
 ## Repository layout
 - `configuration_moss_audio_tokenizer.py`
 - `modeling_moss_audio_tokenizer.py`
 - `__init__.py`
 - `config.json`
 - model weights