--- library_name: transformers pipeline_tag: audio-to-audio tags: - signal-processing license: apache-2.0 ---

Dasheng Denoiser

Official PyTorch inference code for the Interspeech 2025 paper:
Efficient Speech Enhancement via Embeddings from Pre-trained Generative Audioencoders

# Installation and Usage ```bash uv pip install transformers torch torchaudio einops ``` ```python import torch import torchaudio from transformers import AutoModel model = AutoModel.from_pretrained("mispeech/dasheng-denoiser", trust_remote_code=True) model.eval() # Load audio file (only 16kHz supported!) audio, sr = torchaudio.load("path/to/audio.wav") with torch.no_grad(), torch.autocast(device_type='cuda'): enhanced = model(audio) torchaudio.save("enhanced_audio.wav", enhanced, sr) ``` # Acknowledgements We referred to [Dasheng](https://github.com/XiaoMi/Dasheng) and [Vocos](https://github.com/gemelo-ai/vocos) to implement this. # Citation ```bibtex @inproceedings{xingwei2025dashengdenoiser, title={Efficient Speech Enhancement via Embeddings from Pre-trained Generative Audioencoders}, author={Xingwei Sun, Heinrich Dinkel, Yadong Niu, Linzhang Wang, Junbo Zhang, Jian Luan}, booktitle={Interspeech 2025}, year={2025} } ```