niobures commited on Oct 23, 2025

Commit

0ec3bdf

verified ·

1 Parent(s): 3bcb5e7

PSELDNets (code, models, paper)

Browse files

Files changed (18) hide show

.gitattributes +1 -0
PSELDNets. Pre-trained Neural Networks on a Large-scale Synthetic Dataset for Sound Event Localization and Detection.pdf +3 -0
code/PSELDNets.zip +3 -0
code/checkpoints/audioset-training.zip +3 -0
code/checkpoints/synthetic-dataset-training.zip +3 -0
models/PSELDNets/.gitattributes +102 -0
models/PSELDNets/README.md +31 -0
models/PSELDNets/model/ACCDOA-HTSAT-0.566.ckpt +3 -0
models/PSELDNets/model/Cnn14_mAP%3D0.431.pth +3 -0
models/PSELDNets/model/EINV2-HTSAT-0.597.ckpt +3 -0
models/PSELDNets/model/EINV2-HTSAT-AGG1-0.514.ckpt +3 -0
models/PSELDNets/model/HTSAT-fullset-imagenet-768d-32000hz.ckpt +3 -0
models/PSELDNets/model/SEDDOA-HTSAT-AGG1-0.531.ckpt +3 -0
models/PSELDNets/model/mACCDOA-CNN14-Conformer-0.582.ckpt +3 -0
models/PSELDNets/model/mACCDOA-HTSAT-0.567.ckpt +3 -0
models/PSELDNets/model/mACCDOA-PaSST-0.562.ckpt +3 -0
models/PSELDNets/model/passt-l-kd-ap.47.ckpt +3 -0
models/PSELDNets/source.txt +1 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+PSELDNets.[[:space:]]Pre-trained[[:space:]]Neural[[:space:]]Networks[[:space:]]on[[:space:]]a[[:space:]]Large-scale[[:space:]]Synthetic[[:space:]]Dataset[[:space:]]for[[:space:]]Sound[[:space:]]Event[[:space:]]Localization[[:space:]]and[[:space:]]Detection.pdf filter=lfs diff=lfs merge=lfs -text

PSELDNets. Pre-trained Neural Networks on a Large-scale Synthetic Dataset for Sound Event Localization and Detection.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:780bcc78cf9ea10816b2880707733c66509f419fbbc4bf6ef74a8fa3afb2a1ab
+size 7962353

code/PSELDNets.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b982275726e2d50b0a9a312192338037c8bc8616a3532d3418c1e6810ae561d4
+size 4825510

code/checkpoints/audioset-training.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6d98ebeb4ef5c7e903b961e541b6a43212d9af25a5ee8957322f869af3ec1bb
+size 1998284114

code/checkpoints/synthetic-dataset-training.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dab868640298a4e9a34b88e35d775f84bb2a9b970e6cb243988428f15e789f84
+size 1998284276

models/PSELDNets/.gitattributes ADDED Viewed

	@@ -0,0 +1,102 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.lz4 filter=lfs diff=lfs merge=lfs -text
+*.mds filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+# Audio files - uncompressed
+*.pcm filter=lfs diff=lfs merge=lfs -text
+*.sam filter=lfs diff=lfs merge=lfs -text
+*.raw filter=lfs diff=lfs merge=lfs -text
+# Audio files - compressed
+*.aac filter=lfs diff=lfs merge=lfs -text
+*.flac filter=lfs diff=lfs merge=lfs -text
+*.mp3 filter=lfs diff=lfs merge=lfs -text
+*.ogg filter=lfs diff=lfs merge=lfs -text
+*.wav filter=lfs diff=lfs merge=lfs -text
+# Image files - uncompressed
+*.bmp filter=lfs diff=lfs merge=lfs -text
+*.gif filter=lfs diff=lfs merge=lfs -text
+*.png filter=lfs diff=lfs merge=lfs -text
+*.tiff filter=lfs diff=lfs merge=lfs -text
+# Image files - compressed
+*.jpg filter=lfs diff=lfs merge=lfs -text
+*.jpeg filter=lfs diff=lfs merge=lfs -text
+*.webp filter=lfs diff=lfs merge=lfs -text
+# Video files - compressed
+*.mp4 filter=lfs diff=lfs merge=lfs -text
+*.webm filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_1.z02 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_1.z03 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_1.z01 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_2.z08 filter=lfs diff=lfs merge=lfs -text
+dataset/train3500_ov3_2.z03 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_2.z07 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_2.z07 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_2.z03 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_2.z10 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_1.z08 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_2.z05 filter=lfs diff=lfs merge=lfs -text
+dataset/train3500_ov3_2.z02 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_1.z07 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_2.z05 filter=lfs diff=lfs merge=lfs -text
+dataset/test1800_ov1.z01 filter=lfs diff=lfs merge=lfs -text
+dataset/train3500_ov3_2.z01 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_2.z09 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_1.z05 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_1.z10 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_2.z08 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_1.z03 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_2.z01 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_1.z06 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_2.z04 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_2.z02 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_1.z02 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_2.z06 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_2.z04 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_1.z05 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_2.z02 filter=lfs diff=lfs merge=lfs -text
+dataset/train3500_ov3_1.z03 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_1.z01 filter=lfs diff=lfs merge=lfs -text
+dataset/train3500_ov3_1.z01 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_1.z04 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_2.z03 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_1.z04 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_1.z08 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_1.z07 filter=lfs diff=lfs merge=lfs -text
+dataset/train10000_ov2_1.z06 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_2.z06 filter=lfs diff=lfs merge=lfs -text
+dataset/train3500_ov3_1.z02 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_1.z09 filter=lfs diff=lfs merge=lfs -text
+dataset/train20000_ov1_2.z01 filter=lfs diff=lfs merge=lfs -text

models/PSELDNets/README.md ADDED Viewed

	@@ -0,0 +1,31 @@

+---
+pretty_name: DataSynthSELD
+size_categories:
+- 100B<n<1T
+task_categories:
+- audio-classification
+---
+# PSELDNets: Pre-trained Neural Networks on a Large-scale Synthetic Dataset for Sound Event Localization and Detection
+- [Paper](https://arxiv.org/abs/2411.06399)
+- [GitHub](https://github.com/Jinbo-Hu/PSELDNets)
+1. This repo contains 67,000 1-minute clips, amounting to approximately 1,117 hours for training, and 3,060 1-minute clips, amounting to roughly 51 hours for testing.
+2. The dataset features an ontology of 170 sound classes and is generated by convolving sound event clips from [FSD50K](https://zenodo.org/records/4060432) with simulated SRIRs (for training) or collected SRIRs from [TAU-SRIR DB](https://zenodo.org/records/6408611) (for testing).
+3. The datasets are generated by this [tools](https://github.com/Jinbo-Hu/SELD-Data-Generator).
+4. The pre-trained SELD checkpoints on the large-scale synthetic dataset are also publicly available.
+## New Updates
+- (2025-05-22) We release `EINV2-HTSAT-AGG1-0.514.ckpt` and `SEDDOA-HTSAT-AGG1-0.531.ckpt`. The corresponding method is described [here](https://github.com/Jinbo-Hu/PSELDNets/blob/main/AGG_LOSS.md).
+## Download
+- [Synthetic Datasets](https://huggingface.co/datasets/Jinbo-HU/PSELDNets/tree/main/dataset)
+- [Pre-trained checkpoints](https://huggingface.co/datasets/Jinbo-HU/PSELDNets/tree/main/model)
+## Citation
+Please cite our papers as below if you use the datasets, codes, and models of PSELDNets.
+[1] Jinbo Hu, Yin Cao, Ming Wu, Fang Kang, Feiran Yang, Wenwu Wang, Mark D. Plumbley, Jun Yang, "PSELDNets: Pre-trained Neural Networks on Large-scale Synthetic Datasets for Sound Event Localization and Detection" [arXiv:2411.06399](https://arxiv.org/abs/2411.06399), 2024. [URL](https://arxiv.org/abs/2411.06399)

models/PSELDNets/model/ACCDOA-HTSAT-0.566.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c54509137cff95361290cb5578c02cb28a0858bd862f3447da4e46fcb8a5178d
+size 121711961

models/PSELDNets/model/Cnn14_mAP%3D0.431.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dc499e40e9761ef5ea061ffc77697697f277f6a960894903df3ada000e34b31
+size 327428481

models/PSELDNets/model/EINV2-HTSAT-0.597.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3a62db1d672c2c499a207cc62920908c3aa0f563a473d7cea84861d0b663557
+size 234040898

models/PSELDNets/model/EINV2-HTSAT-AGG1-0.514.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b1cb776992e54933b7e1daefbbc6a535e694ccf3946e1d1d288278c7262e2bc
+size 234009780

models/PSELDNets/model/HTSAT-fullset-imagenet-768d-32000hz.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6700e6480188ae00b7e133fdd127abf636941cd5bba31077867cb85c92cd0549
+size 127072759

models/PSELDNets/model/SEDDOA-HTSAT-AGG1-0.531.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fe02816d1ce29581c89268518084f355acc6d29256ff1a531332d2db26ef8cf
+size 121878584

models/PSELDNets/model/mACCDOA-CNN14-Conformer-0.582.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c516aac7b88ad90c4bf4f86f3d5d892300ca51164da3b7a9dd68e458a60a768
+size 799827990

models/PSELDNets/model/mACCDOA-HTSAT-0.567.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:813083ac938c5974a6f36ceca29ea66c0382091db5df1d6d47ece9572d5ac71b
+size 140516864

models/PSELDNets/model/mACCDOA-PaSST-0.562.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3dcf9a2bc39fa055b899f5c62f3269bbb1db4ac75c21410a8ca294659541bcf
+size 209219358

models/PSELDNets/model/passt-l-kd-ap.47.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14ae3e192bf8e2df3c0960d67a031bac900fc35bee824decef1bf0f9549f4f9b
+size 202889066

models/PSELDNets/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/datasets/Jinbo-HU/PSELDNets