niobures commited on Oct 23, 2025

Commit

2351781

verified ·

1 Parent(s): 3281d86

DPTNet (code, models, paper)

Browse files

Files changed (37) hide show

.gitattributes +1 -0
DPTNet. A Dual-Path Transformer Architecture for Scene Text Detection.pdf +3 -0
code/DPTNet [ilyakava] +3.zip +3 -0
code/DPTNet.zip +3 -0
code/TargetSpeakerEnhance.zip +3 -0
code/dptnet_mindspore.zip +3 -0
models/DPTNet_Libri1Mix_enhsingle_16k/.gitattributes +8 -0
models/DPTNet_Libri1Mix_enhsingle_16k/README.md +86 -0
models/DPTNet_Libri1Mix_enhsingle_16k/pytorch_model.bin +3 -0
models/DPTNet_Libri1Mix_enhsingle_16k/source.txt +1 -0
models/DPTNet_WHAMR_enhsingle_16k/.gitattributes +27 -0
models/DPTNet_WHAMR_enhsingle_16k/README.md +82 -0
models/DPTNet_WHAMR_enhsingle_16k/pytorch_model.bin +3 -0
models/DPTNet_WHAMR_enhsingle_16k/source.txt +1 -0
models/DPTNet_jaCappella_VES_48k/.gitattributes +34 -0
models/DPTNet_jaCappella_VES_48k/README.md +80 -0
models/DPTNet_jaCappella_VES_48k/best_model.pth +3 -0
models/DPTNet_jaCappella_VES_48k/conf.yml +46 -0
models/DPTNet_jaCappella_VES_48k/source.txt +1 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/.gitattributes +27 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/README.md +253 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_stats_8k/train/feats_stats.npz +3 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/99epoch.pth +3 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/RESULTS.md +20 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/config.yaml +169 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/backward_time.png +0 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/forward_time.png +0 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/gpu_max_cached_mem_GB.png +0 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/iter_time.png +0 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/loss.png +0 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/optim0_lr0.png +0 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/optim_step_time.png +0 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/si_snr_loss.png +0 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/train_time.png +0 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/valid.loss.best.pth +3 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/meta.yaml +8 -0
models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/source.txt +1 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+DPTNet.[[:space:]]A[[:space:]]Dual-Path[[:space:]]Transformer[[:space:]]Architecture[[:space:]]for[[:space:]]Scene[[:space:]]Text[[:space:]]Detection.pdf filter=lfs diff=lfs merge=lfs -text

DPTNet. A Dual-Path Transformer Architecture for Scene Text Detection.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8419807e87010892c99f4def064fad96cb0bcfd25ec692c0d40426900e34921c
+size 1920411

code/DPTNet [ilyakava] +3.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e1a744916e8e5ba210a5768f0c218e031911b044b618ed129ac158dcc52ab0e
+size 74404

code/DPTNet.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d9e69327140cf7f62d3c6f2c41f4636ecf65d35524575c9c249dd3eb9a326ec
+size 51997

code/TargetSpeakerEnhance.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d51a6516e72917aca4a9d43a7df92c568b49b26e40bd28a0ef909e3ab8eb8139
+size 2300975

code/dptnet_mindspore.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe820cc93c5b217a14e9f516d4d156ff1334261ac1eb8b56d61fcb4214573b2c
+size 78533

models/DPTNet_Libri1Mix_enhsingle_16k/.gitattributes ADDED Viewed

	@@ -0,0 +1,8 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text

models/DPTNet_Libri1Mix_enhsingle_16k/README.md ADDED Viewed

	@@ -0,0 +1,86 @@

+---
+tags:
+- asteroid
+- audio
+- DPTNet
+- audio-to-audio
+datasets:
+- Libri1Mix
+- enh_single
+license: cc-by-sa-4.0
+---
+## Asteroid model `JorisCos/DPTNet_Libri1Mix_enhsignle_16k`
+Description:
+This model was trained by Joris Cosentino using the librimix recipe in [Asteroid](https://github.com/asteroid-team/asteroid).
+It was trained on the `enh_single` task of the Libri1Mix  dataset.
+Training config:
+```yml
+data:
+  n_src: 1
+  sample_rate: 16000
+  segment: 3
+  task: enh_single
+  train_dir: data/wav16k/min/train-360
+  valid_dir: data/wav16k/min/dev
+filterbank:
+  kernel_size: 16
+  n_filters: 64
+  stride: 8
+masknet:
+  bidirectional: true
+  chunk_size: 100
+  dropout: 0
+  ff_activation: relu
+  ff_hid: 256
+  hop_size: 50
+  in_chan: 64
+  mask_act: sigmoid
+  n_repeats: 2
+  n_src: 1
+  norm_type: gLN
+  out_chan: 64
+optim:
+  lr: 0.001
+  optimizer: adam
+  weight_decay: 1.0e-05
+scheduler:
+  d_model: 64
+  steps_per_epoch: 10000
+training:
+  batch_size: 4
+  early_stop: true
+  epochs: 200
+  gradient_clipping: 5
+  half_lr: true
+  num_workers: 4
+```
+Results:
+On Libri1Mix min test set :
+```yml
+si_sdr: 14.829670037349064
+si_sdr_imp: 11.379888731489366
+sdr: 15.395712644737149
+sdr_imp: 11.893049845524112
+sir: Infinity
+sir_imp: NaN
+sar: 15.395712644737149
+sar_imp: 11.893049845524112
+stoi: 0.9301948391058859
+stoi_imp: 0.13427501556534832
+```
+License notice:
+This work "DPTNet_Libri1Mix_enhsignle_16k" is a derivative of [LibriSpeech ASR corpus](http://www.openslr.org/12) by Vassil Panayotov,
+used under [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/); of The WSJ0 Hipster Ambient Mixtures
+dataset by [Whisper.ai](http://wham.whisper.ai/), used under [CC BY-NC 4.0](https://creativecommons.org/licenses/by-nc/4.0/) (Research only).
+"DPTNet_Libri1Mix_enhsignle_16k" is licensed under [Attribution-ShareAlike 3.0 Unported](https://creativecommons.org/licenses/by-sa/3.0/) by Joris Cosentino

models/DPTNet_Libri1Mix_enhsingle_16k/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f4f38dc0be2bcb479364b4b49fdc0c92d77fc3f1aa6049090cd3ea0db95019f
+size 11437018

models/DPTNet_Libri1Mix_enhsingle_16k/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/JorisCos/DPTNet_Libri1Mix_enhsingle_16k

models/DPTNet_WHAMR_enhsingle_16k/.gitattributes ADDED Viewed

	@@ -0,0 +1,27 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

models/DPTNet_WHAMR_enhsingle_16k/README.md ADDED Viewed

	@@ -0,0 +1,82 @@

+---
+tags:
+- asteroid
+- audio
+- DPTNet
+- audio-to-audio
+datasets:
+- Libri1Mix
+- enh_single
+license: cc-by-sa-4.0
+---
+## Asteroid model `cankeles/DPTNet_WHAMR_enhsignle_16k`
+Description:
+This model was trained by M. Can Keleş using the librimix recipe in [Asteroid](https://github.com/asteroid-team/asteroid).
+It was trained on the `enh_single` task of the Libri1Mix  dataset.
+Training config:
+```yml
+data:
+  mode: min
+  nondefault_nsrc: null
+  sample_rate: 16000
+  segment: 2.0
+  task: enh_single
+  train_dir: wav16k/min/tr/
+  valid_dir: wav16k/min/cv/
+filterbank:
+  kernel_size: 16
+  n_filters: 64
+  stride: 8
+main_args:
+  exp_dir: exp/tmp
+  help: null
+masknet:
+  bidirectional: true
+  chunk_size: 100
+  dropout: 0
+  ff_activation: relu
+  ff_hid: 256
+  hop_size: 50
+  in_chan: 64
+  mask_act: sigmoid
+  n_repeats: 2
+  n_src: 1
+  norm_type: gLN
+  out_chan: 64
+optim:
+  lr: 0.001
+  optimizer: adam
+  weight_decay: 1.0e-05
+positional arguments: {}
+scheduler:
+  d_model: 64
+  steps_per_epoch: 10000
+training:
+  batch_size: 4
+  early_stop: true
+  epochs: 60
+  gradient_clipping: 5
+  half_lr: true
+  num_workers: 4
+```
+Results:
+On custom min test set :
+```yml
+'sar': 12.853384266251018,
+ 'sar_imp': 8.950332361953906,
+ 'sdr': 12.853384266251018,
+ 'sdr_imp': 8.950332361953906,
+ 'si_sdr': 12.247012621312548,
+ 'si_sdr_imp': 8.429646186633407,
+ 'sir': inf,
+ 'sir_imp': nan,
+ 'stoi': 0.9022338865380519,
+ 'stoi_imp': 0.09735707619500522
+ ```

models/DPTNet_WHAMR_enhsingle_16k/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:950d7ec1c41e498f3300f9322a019c370509cb72b1f36826bfcf40d6af7c4101
+size 11434540

models/DPTNet_WHAMR_enhsingle_16k/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/cankeles/DPTNet_WHAMR_enhsingle_16k

models/DPTNet_jaCappella_VES_48k/.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

models/DPTNet_jaCappella_VES_48k/README.md ADDED Viewed

	@@ -0,0 +1,80 @@

+---
+license: cc-by-nc-4.0
+language:
+- ja
+tags:
+- music
+- speech
+- audio
+- audio-to-audio
+- a cappella
+- vocal ensemble
+datasets:
+- jaCappella
+metrics:
+- SI-SDR
+---
+# DPTNet trained with the jaCappella corpus for vocal ensemble separation
+This model was trained by Tomohiko Nakamura using [the codebase](https://github.com/TomohikoNakamura/asteroid_jaCappella)).
+It was trained on the vocal ensemble separation task of [the jaCappella dataset](https://tomohikonakamura.github.io/jaCappella_corpus/).
+[The paper](https://doi.org/10.1109/ICASSP49357.2023.10095569) was published in ICASSP 2023 ([arXiv](https://arxiv.org/abs/2211.16028)).
+# License
+See [the jaCappella dataset page](https://tomohikonakamura.github.io/jaCappella_corpus/).
+# Citation
+See [the jaCappella dataset page](https://tomohikonakamura.github.io/jaCappella_corpus/).
+# Configuration
+```yaml
+data:
+  num_workers: 12
+  sample_rate: 48000
+  samples_per_track: 13
+  seed: 42
+  seq_dur: 5.046
+  source_augmentations:
+  - gain
+  sources:
+  - vocal_percussion
+  - bass
+  - alto
+  - tenor
+  - soprano
+  - lead_vocal
+filterbank:
+  kernel_size: 32
+  n_filters: 64
+  stride: 16
+masknet:
+  bidirectional: true
+  chunk_size: 174
+  dropout: 0
+  ff_activation: relu
+  ff_hid: 256
+  hop_size: 128
+  in_chan: 64
+  mask_act: sigmoid
+  n_repeats: 8
+  n_src: 6
+  norm_type: gLN
+  out_chan: 64
+optim:
+  lr: 0.005
+  optimizer: adam
+  weight_decay: 1.0e-05
+training:
+  batch_size: 1
+  early_stop: true
+  epochs: 600
+  gradient_clipping: 5
+  half_lr: true
+  loss_func: pit_sisdr
+```
+# Results (SI-SDR [dB]) on vocal ensemble separation
+|     Method      |   Lead vocal   |    Soprano     |      Alto      |     Tenor      |      Bass      |Vocal percussion|
+|:---------------:|:--------------:|:--------------:|:--------------:|:--------------:|:--------------:|:--------------:|
+|     DPTNet      |       8.9      |       8.5      |      11.9      |      14.9      |      19.7      |      21.9      |

models/DPTNet_jaCappella_VES_48k/best_model.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d0738ae01145bdf074e8e3a2312f1a21ff2e0c96f2a4f42b1cd0d2c7f4780ac
+size 45639083

models/DPTNet_jaCappella_VES_48k/conf.yml ADDED Viewed

	@@ -0,0 +1,46 @@

+data:
+  num_workers: 12
+  sample_rate: 48000
+  samples_per_track: 13
+  seed: 42
+  seq_dur: 5.046
+  source_augmentations:
+  - gain
+  sources:
+  - vocal_percussion
+  - bass
+  - alto
+  - tenor
+  - soprano
+  - lead_vocal
+filterbank:
+  kernel_size: 32
+  n_filters: 64
+  stride: 16
+main_args:
+  help: null
+masknet:
+  bidirectional: true
+  chunk_size: 174
+  dropout: 0
+  ff_activation: relu
+  ff_hid: 256
+  hop_size: 128
+  in_chan: 64
+  mask_act: sigmoid
+  n_repeats: 8
+  n_src: 6
+  norm_type: gLN
+  out_chan: 64
+optim:
+  lr: 0.005
+  optimizer: adam
+  weight_decay: 1.0e-05
+positional arguments: {}
+training:
+  batch_size: 1
+  early_stop: true
+  epochs: 600
+  gradient_clipping: 5
+  half_lr: true
+  loss_func: pit_sisdr

models/DPTNet_jaCappella_VES_48k/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/jaCappella/DPTNet_jaCappella_VES_48k

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/.gitattributes ADDED Viewed

	@@ -0,0 +1,27 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/README.md ADDED Viewed

	@@ -0,0 +1,253 @@

+---
+tags:
+- espnet
+- audio
+- audio-to-audio
+language:
+datasets:
+- wsj0-2mix
+license: cc-by-4.0
+---
+## ESPnet2 ENH model
+### `espnet/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw`
+This model was trained by Wangyou Zhang using wsj0_2mix recipe in [espnet](https://github.com/espnet/espnet/).
+### Demo: How to use in ESPnet2
+```bash
+cd espnet
+pip install -e .
+cd egs2/wsj0_2mix/enh1
+./run.sh --skip_data_prep false --skip_train true --download_model espnet/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw
+```
+## ENH config
+<details><summary>expand</summary>
+```
+config: conf/tuning/train_enh_dptnet.yaml
+print_config: false
+log_level: INFO
+dry_run: false
+iterator_type: chunk
+output_dir: exp/enh_train_enh_dptnet_raw
+ngpu: 1
+seed: 0
+num_workers: 4
+num_att_plot: 3
+dist_backend: nccl
+dist_init_method: env://
+dist_world_size: 4
+dist_rank: 0
+local_rank: 0
+dist_master_addr: localhost
+dist_master_port: 53094
+dist_launcher: null
+multiprocessing_distributed: true
+unused_parameters: true
+sharded_ddp: false
+cudnn_enabled: true
+cudnn_benchmark: false
+cudnn_deterministic: true
+collect_stats: false
+write_collected_feats: false
+validate_train_iter: false
+max_epoch: 150
+patience: 10
+val_scheduler_criterion:
+- valid
+- loss
+early_stopping_criterion:
+- valid
+- loss
+- min
+best_model_criterion:
+-   - valid
+    - si_snr
+    - max
+-   - valid
+    - loss
+    - min
+keep_nbest_models: 1
+nbest_averaging_interval: 0
+grad_clip: 5
+grad_clip_type: 2.0
+grad_noise: false
+accum_grad: 1
+no_forward_run: false
+resume: true
+train_dtype: float32
+use_amp: false
+log_interval: null
+use_matplotlib: true
+use_tensorboard: true
+use_wandb: false
+wandb_project: null
+wandb_id: null
+wandb_entity: null
+wandb_name: null
+wandb_model_log_interval: -1
+detect_anomaly: false
+pretrain_path: null
+init_param: []
+ignore_init_mismatch: false
+freeze_param: []
+num_iters_per_epoch: null
+batch_size: 4
+valid_batch_size: null
+batch_bins: 1000000
+valid_batch_bins: null
+train_shape_file:
+- exp/enh_stats_8k/train/speech_mix_shape
+- exp/enh_stats_8k/train/speech_ref1_shape
+- exp/enh_stats_8k/train/speech_ref2_shape
+valid_shape_file:
+- exp/enh_stats_8k/valid/speech_mix_shape
+- exp/enh_stats_8k/valid/speech_ref1_shape
+- exp/enh_stats_8k/valid/speech_ref2_shape
+batch_type: folded
+valid_batch_type: null
+fold_length:
+- 80000
+- 80000
+- 80000
+sort_in_batch: descending
+sort_batch: descending
+multiple_iterator: false
+chunk_length: 20000
+chunk_shift_ratio: 0.5
+num_cache_chunks: 1024
+train_data_path_and_name_and_type:
+-   - dump/raw/tr_min_8k/wav.scp
+    - speech_mix
+    - sound
+-   - dump/raw/tr_min_8k/spk1.scp
+    - speech_ref1
+    - sound
+-   - dump/raw/tr_min_8k/spk2.scp
+    - speech_ref2
+    - sound
+valid_data_path_and_name_and_type:
+-   - dump/raw/cv_min_8k/wav.scp
+    - speech_mix
+    - sound
+-   - dump/raw/cv_min_8k/spk1.scp
+    - speech_ref1
+    - sound
+-   - dump/raw/cv_min_8k/spk2.scp
+    - speech_ref2
+    - sound
+allow_variable_data_keys: false
+max_cache_size: 0.0
+max_cache_fd: 32
+valid_max_cache_size: null
+optim: adam
+optim_conf:
+    lr: 0.0004
+    eps: 1.0e-08
+    weight_decay: 1.0e-05
+scheduler: warmupsteplr
+scheduler_conf:
+    warmup_steps: 4000
+    steps_per_epoch: 14273
+    step_size: 2
+    gamma: 0.98
+init: null
+model_conf:
+    stft_consistency: false
+    loss_type: mask_mse
+    mask_type: null
+criterions:
+-   name: si_snr
+    conf:
+        eps: 1.0e-07
+    wrapper: pit
+    wrapper_conf:
+        weight: 1.0
+        independent_perm: true
+use_preprocessor: false
+encoder: conv
+encoder_conf:
+    channel: 64
+    kernel_size: 2
+    stride: 1
+separator: dptnet
+separator_conf:
+    num_spk: 2
+    post_enc_relu: true
+    layer: 6
+    rnn_type: lstm
+    bidirectional: true
+    unit: 128
+    att_heads: 4
+    dropout: 0.0
+    activation: relu
+    norm_type: gLN
+    segment_size: 250
+    nonlinear: relu
+decoder: conv
+decoder_conf:
+    channel: 64
+    kernel_size: 2
+    stride: 1
+required:
+- output_dir
+version: 0.10.7a1
+distributed: true
+```
+</details>
+### Citing ESPnet
+```BibTex
+@inproceedings{watanabe2018espnet,
+  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Yalta and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
+  title={{ESPnet}: End-to-End Speech Processing Toolkit},
+  year={2018},
+  booktitle={Proceedings of Interspeech},
+  pages={2207--2211},
+  doi={10.21437/Interspeech.2018-1456},
+  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
+}
+@inproceedings{li2021espnetse,
+  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
+  author={Li, Chenda and Shi, Jing and Zhang, Wangyou and Subramanian, Aswin Shanmugam and Chang, Xuankai and Kamo, Naoyuki and Hira, Moto and Hayashi, Tomoki and Boeddeker, Christoph and Chen, Zhuo and Watanabe, Shinji},
+  booktitle={Proc. IEEE Spoken Language Technology Workshop (SLT)},
+  pages={785--792},
+  year={2021},
+}
+```
+or arXiv:
+```bibtex
+@misc{watanabe2018espnet,
+  title={ESPnet: End-to-End Speech Processing Toolkit},
+  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson Yalta and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
+  year={2018},
+  eprint={1804.00015},
+  archivePrefix={arXiv},
+  primaryClass={cs.CL}
+}
+@inproceedings{li2021espnetse,
+  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
+  author={Li, Chenda and Shi, Jing and Zhang, Wangyou and Subramanian, Aswin Shanmugam and Chang, Xuankai and Kamo, Naoyuki and Hira, Moto and Hayashi, Tomoki and Boeddeker, Christoph and Chen, Zhuo and Watanabe, Shinji},
+  year={2020},
+  eprint={2011.03706},
+  archivePrefix={arXiv},
+  primaryClass={eess.AS}
+}
+```

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_stats_8k/train/feats_stats.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d890c44023968991b362b31f39fcecc453f0d619071befb36205d610e8aabb8b
+size 778

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/99epoch.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34bbfa87de88766844af4c3d313e34ef99e15194e6f394df354ca5fb6564bb0c
+size 11274659

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/RESULTS.md ADDED Viewed

	@@ -0,0 +1,20 @@

+<!-- Generated by ./scripts/utils/show_enh_score.sh -->
+# RESULTS
+## Environments
+- date: `Tue Jun 21 20:50:00 CST 2022`
+- python version: `3.8.12 (default, Oct 12 2021, 13:49:34)  [GCC 7.5.0]`
+- espnet version: `espnet 0.10.7a1`
+- pytorch version: `pytorch 1.10.2+cu102`
+- Git hash: `9c24b3adddbde3402530080cb58ae08a6f4dd642`
+  - Commit date: `Wed Feb 23 14:49:15 2022 -0500`
+## enh_train_enh_dptnet_orig_raw
+config: conf/tuning/train_enh_dptnet.yaml
+|dataset|STOI|SAR|SDR|SIR|SI_SNR|
+|---|---|---|---|---|---|
+|enhanced_cv_min_8k|97.43|21.39|20.98|32.17|20.63|
+|enhanced_tt_min_8k|98.18|21.47|21.06|32.48|20.72|

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/config.yaml ADDED Viewed

	@@ -0,0 +1,169 @@

+config: conf/tuning/train_enh_dptnet.yaml
+print_config: false
+log_level: INFO
+dry_run: false
+iterator_type: chunk
+output_dir: exp/enh_train_enh_dptnet_raw
+ngpu: 1
+seed: 0
+num_workers: 4
+num_att_plot: 3
+dist_backend: nccl
+dist_init_method: env://
+dist_world_size: 4
+dist_rank: 0
+local_rank: 0
+dist_master_addr: localhost
+dist_master_port: 53094
+dist_launcher: null
+multiprocessing_distributed: true
+unused_parameters: true
+sharded_ddp: false
+cudnn_enabled: true
+cudnn_benchmark: false
+cudnn_deterministic: true
+collect_stats: false
+write_collected_feats: false
+validate_train_iter: false
+max_epoch: 150
+patience: 10
+val_scheduler_criterion:
+- valid
+- loss
+early_stopping_criterion:
+- valid
+- loss
+- min
+best_model_criterion:
+-   - valid
+    - si_snr
+    - max
+-   - valid
+    - loss
+    - min
+keep_nbest_models: 1
+nbest_averaging_interval: 0
+grad_clip: 5
+grad_clip_type: 2.0
+grad_noise: false
+accum_grad: 1
+no_forward_run: false
+resume: true
+train_dtype: float32
+use_amp: false
+log_interval: null
+use_matplotlib: true
+use_tensorboard: true
+use_wandb: false
+wandb_project: null
+wandb_id: null
+wandb_entity: null
+wandb_name: null
+wandb_model_log_interval: -1
+detect_anomaly: false
+pretrain_path: null
+init_param: []
+ignore_init_mismatch: false
+freeze_param: []
+num_iters_per_epoch: null
+batch_size: 4
+valid_batch_size: null
+batch_bins: 1000000
+valid_batch_bins: null
+train_shape_file:
+- exp/enh_stats_8k/train/speech_mix_shape
+- exp/enh_stats_8k/train/speech_ref1_shape
+- exp/enh_stats_8k/train/speech_ref2_shape
+valid_shape_file:
+- exp/enh_stats_8k/valid/speech_mix_shape
+- exp/enh_stats_8k/valid/speech_ref1_shape
+- exp/enh_stats_8k/valid/speech_ref2_shape
+batch_type: folded
+valid_batch_type: null
+fold_length:
+- 80000
+- 80000
+- 80000
+sort_in_batch: descending
+sort_batch: descending
+multiple_iterator: false
+chunk_length: 20000
+chunk_shift_ratio: 0.5
+num_cache_chunks: 1024
+train_data_path_and_name_and_type:
+-   - dump/raw/tr_min_8k/wav.scp
+    - speech_mix
+    - sound
+-   - dump/raw/tr_min_8k/spk1.scp
+    - speech_ref1
+    - sound
+-   - dump/raw/tr_min_8k/spk2.scp
+    - speech_ref2
+    - sound
+valid_data_path_and_name_and_type:
+-   - dump/raw/cv_min_8k/wav.scp
+    - speech_mix
+    - sound
+-   - dump/raw/cv_min_8k/spk1.scp
+    - speech_ref1
+    - sound
+-   - dump/raw/cv_min_8k/spk2.scp
+    - speech_ref2
+    - sound
+allow_variable_data_keys: false
+max_cache_size: 0.0
+max_cache_fd: 32
+valid_max_cache_size: null
+optim: adam
+optim_conf:
+    lr: 0.0004
+    eps: 1.0e-08
+    weight_decay: 1.0e-05
+scheduler: warmupsteplr
+scheduler_conf:
+    warmup_steps: 4000
+    steps_per_epoch: 14273
+    step_size: 2
+    gamma: 0.98
+init: null
+model_conf:
+    stft_consistency: false
+    loss_type: mask_mse
+    mask_type: null
+criterions:
+-   name: si_snr
+    conf:
+        eps: 1.0e-07
+    wrapper: pit
+    wrapper_conf:
+        weight: 1.0
+        independent_perm: true
+use_preprocessor: false
+encoder: conv
+encoder_conf:
+    channel: 64
+    kernel_size: 2
+    stride: 1
+separator: dptnet
+separator_conf:
+    num_spk: 2
+    post_enc_relu: true
+    layer: 6
+    rnn_type: lstm
+    bidirectional: true
+    unit: 128
+    att_heads: 4
+    dropout: 0.0
+    activation: relu
+    norm_type: gLN
+    segment_size: 250
+    nonlinear: relu
+decoder: conv
+decoder_conf:
+    channel: 64
+    kernel_size: 2
+    stride: 1
+required:
+- output_dir
+version: 0.10.7a1
+distributed: true

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/backward_time.png ADDED Viewed

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/forward_time.png ADDED Viewed

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/gpu_max_cached_mem_GB.png ADDED Viewed

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/iter_time.png ADDED Viewed

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/loss.png ADDED Viewed

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/optim0_lr0.png ADDED Viewed

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/optim_step_time.png ADDED Viewed

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/si_snr_loss.png ADDED Viewed

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/images/train_time.png ADDED Viewed

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/exp/enh_train_enh_dptnet_raw/valid.loss.best.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a799382546fa95a82961f2e0d7a35ccfc3c984d6c2ecbd294ff8cf198b0357fa
+size 11

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/meta.yaml ADDED Viewed

	@@ -0,0 +1,8 @@

+espnet: 0.10.7a1
+files:
+  model_file: exp/enh_train_enh_dptnet_raw/99epoch.pth
+python: "3.8.12 (default, Oct 12 2021, 13:49:34) \n[GCC 7.5.0]"
+timestamp: 1655818843.663898
+torch: 1.10.2+cu102
+yaml_files:
+  train_config: exp/enh_train_enh_dptnet_raw/config.yaml

models/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/espnet/Wangyou_Zhang_wsj0_2mix_enh_train_enh_dptnet_raw