Hugging Face for Audio

Team

company

huggingface

Huggingface

Activity Feed

AI & ML interests

None defined yet.

Recent Activity

bezzam new activity about 4 hours ago

hf-audio/open_asr_leaderboard:Model Weights License

bezzam new activity about 4 hours ago

hf-audio/open_asr_leaderboard:Standardization for hardware use for reported RTFx metrics

bezzam new activity about 4 hours ago

hf-audio/open_asr_leaderboard:Wav2Vec2 Word Error Rate is too high for librispeech-clean

View all activity

Papers

Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual and Long-Form Speech Recognition Evaluation

View all Papers

hf-audio 's collections 7

Open ASR Leaderboard Eval Configurations

Running

Open ASR Leaderboard configuration for Transformers 🤗 models

🎙

Normalize text and evaluate its quality with provided scripts
Running

Open ASR Leaderboard configuration for NVIDIA NeMo ASR models

🎙

Normalize text to a consistent, clean format
Running

Open ASR Leaderboard configuration for Boson's Higgs Audio v3

🎙

Normalize and clean text data for analysis
Running

Open ASR Leaderboard configuration for API models

🎙

Run model evaluation and get performance metrics

Automatic Speech Recognition 📝

A collection of ASR models supported in 🤗 Transformers

openai/whisper-large-v2

Automatic Speech Recognition • 2B • Updated Feb 29, 2024 • 101k • 1.8k
facebook/wav2vec2-base-960h

Automatic Speech Recognition • 94.4M • Updated Nov 14, 2022 • 1.32M • 398
facebook/wav2vec2-large-xlsr-53

Updated Mar 18, 2022 • 293k • 160
facebook/hubert-xlarge-ls960-ft

Automatic Speech Recognition • 1.0B • Updated Jun 27, 2023 • 13.4k • 16

Audio Classification 🔊

A collection of audio classification models supported in 🤗 Transformers

laion/clap-htsat-unfused

Feature Extraction • Updated Apr 24, 2023 • 461k • • 76
MIT/ast-finetuned-audioset-10-10-0.4593

Audio Classification • 86.6M • Updated Sep 6, 2023 • 487k • 359
facebook/mms-lid-126

Audio Classification • 1.0B • Updated Jun 13, 2023 • 19.6k • 34

Audio Codecs Embeddings 🎙️

A collection of codec and embedding models supported in 🤗 Transformers.

laion/clap-htsat-unfused

Feature Extraction • Updated Apr 24, 2023 • 461k • • 76
facebook/encodec_32khz

Feature Extraction • 59M • Updated Sep 4, 2023 • 40.9k • 18
descript/dac_44khz

Feature Extraction • 76.6M • Updated Oct 11, 2024 • 131k • • 11
descript/dac_24khz

Feature Extraction • 74.7M • Updated Jul 10, 2025 • 4.17k • • 3

Xcodec and Xcodec2

Transformer supported versions of X-Codec models: https://github.com/zhenye234/xcodec?tab=readme-ov-file#available-models

hf-audio/xcodec-hubert-general-balanced

Feature Extraction • 0.2B • Updated Oct 8, 2025 • 1.17k • 1
hf-audio/xcodec-wavlm-more-data

Feature Extraction • 0.2B • Updated Oct 8, 2025 • 2.09k • 1
hf-audio/xcodec-wavlm-mls

Feature Extraction • 0.2B • Updated Oct 8, 2025 • 1.25k
hf-audio/xcodec-hubert-general

Feature Extraction • 0.2B • Updated Oct 8, 2025 • 4.68k

Text to Speech 🗣️

A collection of TTS models supported in 🤗 Transformers.

suno/bark

Text-to-Speech • Updated Oct 4, 2023 • 17.3k • 1.53k
kakao-enterprise/vits-vctk

Text-to-Speech • 39.7M • Updated Sep 11, 2023 • 826 • 15
facebook/mms-tts

Text-to-Speech • Updated Jul 25, 2023 • 194
microsoft/speecht5_tts

Text-to-Speech • Updated Nov 8, 2023 • 94.1k • 835

Text to Music 🎧

A collection of music generation models supported in 🤗 Transformers and 🧨 Diffusers

cvssp/audioldm2

Updated Apr 16, 2024 • 23.9k • 69
cvssp/audioldm-s-full-v2

Updated Apr 16, 2024 • 2.09k • 21
harmonai/jmann-large-580k

Updated Jun 16, 2024 • 7 • 1
ucsd-reach/musicldm

Updated Sep 22, 2023 • 190 • 7

Open ASR Leaderboard Eval Configurations

Running

Open ASR Leaderboard configuration for Transformers 🤗 models

🎙

Normalize text and evaluate its quality with provided scripts
Running

Open ASR Leaderboard configuration for NVIDIA NeMo ASR models

🎙

Normalize text to a consistent, clean format
Running

Open ASR Leaderboard configuration for Boson's Higgs Audio v3

🎙

Normalize and clean text data for analysis
Running

Open ASR Leaderboard configuration for API models

🎙

Run model evaluation and get performance metrics

Xcodec and Xcodec2

Transformer supported versions of X-Codec models: https://github.com/zhenye234/xcodec?tab=readme-ov-file#available-models

hf-audio/xcodec-hubert-general-balanced

Feature Extraction • 0.2B • Updated Oct 8, 2025 • 1.17k • 1
hf-audio/xcodec-wavlm-more-data

Feature Extraction • 0.2B • Updated Oct 8, 2025 • 2.09k • 1
hf-audio/xcodec-wavlm-mls

Feature Extraction • 0.2B • Updated Oct 8, 2025 • 1.25k
hf-audio/xcodec-hubert-general

Feature Extraction • 0.2B • Updated Oct 8, 2025 • 4.68k

Automatic Speech Recognition 📝

A collection of ASR models supported in 🤗 Transformers

openai/whisper-large-v2

Automatic Speech Recognition • 2B • Updated Feb 29, 2024 • 101k • 1.8k
facebook/wav2vec2-base-960h

Automatic Speech Recognition • 94.4M • Updated Nov 14, 2022 • 1.32M • 398
facebook/wav2vec2-large-xlsr-53

Updated Mar 18, 2022 • 293k • 160
facebook/hubert-xlarge-ls960-ft

Automatic Speech Recognition • 1.0B • Updated Jun 27, 2023 • 13.4k • 16

Text to Speech 🗣️

A collection of TTS models supported in 🤗 Transformers.

suno/bark

Text-to-Speech • Updated Oct 4, 2023 • 17.3k • 1.53k
kakao-enterprise/vits-vctk

Text-to-Speech • 39.7M • Updated Sep 11, 2023 • 826 • 15
facebook/mms-tts

Text-to-Speech • Updated Jul 25, 2023 • 194
microsoft/speecht5_tts

Text-to-Speech • Updated Nov 8, 2023 • 94.1k • 835

Audio Classification 🔊

A collection of audio classification models supported in 🤗 Transformers

laion/clap-htsat-unfused

Feature Extraction • Updated Apr 24, 2023 • 461k • • 76
MIT/ast-finetuned-audioset-10-10-0.4593

Audio Classification • 86.6M • Updated Sep 6, 2023 • 487k • 359
facebook/mms-lid-126

Audio Classification • 1.0B • Updated Jun 13, 2023 • 19.6k • 34

Text to Music 🎧

A collection of music generation models supported in 🤗 Transformers and 🧨 Diffusers

cvssp/audioldm2

Updated Apr 16, 2024 • 23.9k • 69
cvssp/audioldm-s-full-v2

Updated Apr 16, 2024 • 2.09k • 21
harmonai/jmann-large-580k

Updated Jun 16, 2024 • 7 • 1
ucsd-reach/musicldm

Updated Sep 22, 2023 • 190 • 7

Audio Codecs Embeddings 🎙️

A collection of codec and embedding models supported in 🤗 Transformers.

laion/clap-htsat-unfused

Feature Extraction • Updated Apr 24, 2023 • 461k • • 76
facebook/encodec_32khz

Feature Extraction • 59M • Updated Sep 4, 2023 • 40.9k • 18
descript/dac_44khz

Feature Extraction • 76.6M • Updated Oct 11, 2024 • 131k • • 11
descript/dac_24khz

Feature Extraction • 74.7M • Updated Jul 10, 2025 • 4.17k • • 3

AI & ML interests

Recent Activity

Papers

Team members 6

hf-audio 's collections 7

Open ASR Leaderboard configuration for Transformers 🤗 models

Open ASR Leaderboard configuration for NVIDIA NeMo ASR models

Open ASR Leaderboard configuration for Boson's Higgs Audio v3

Open ASR Leaderboard configuration for API models

Open ASR Leaderboard configuration for Transformers 🤗 models

Open ASR Leaderboard configuration for NVIDIA NeMo ASR models

Open ASR Leaderboard configuration for Boson's Higgs Audio v3

Open ASR Leaderboard configuration for API models