swc2 commited on Jun 27, 2025

Commit

bcc11b4

verified ·

1 Parent(s): 5773b31

upload model

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

Conv-Tasnet/results/convtasnet_4-mix/1234/env.log +93 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/hyperparams.yaml +179 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/log.txt +0 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/CKPT.yaml +4 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/brain.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/counter.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/dataloader-TRAIN.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/decoder.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/encoder.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/lr_scheduler.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/masknet.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/optimizer.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/CKPT.yaml +4 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/brain.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/counter.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/dataloader-TRAIN.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/decoder.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/encoder.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/lr_scheduler.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/masknet.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/optimizer.ckpt +3 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/record_tr.csv +0 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/record_val.csv +0 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/save/test_data.csv +0 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/test.py +628 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/test_results.csv +1 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/train.py +628 -0
Conv-Tasnet/results/convtasnet_4-mix/1234/train_log.txt +242 -0
Sepformer/results/sepformer_4mix/1234/env.log +90 -0
Sepformer/results/sepformer_4mix/1234/hyperparams.yaml +198 -0
Sepformer/results/sepformer_4mix/1234/log.txt +762 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/CKPT.yaml +4 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/brain.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/counter.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/dataloader-TRAIN.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/decoder.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/encoder.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/masknet.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/optimizer.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/scaler.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/CKPT.yaml +4 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/brain.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/counter.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/dataloader-TRAIN.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/decoder.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/encoder.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/masknet.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/optimizer.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/scaler.ckpt +3 -0
Sepformer/results/sepformer_4mix/1234/save/record_tr.csv +0 -0

Conv-Tasnet/results/convtasnet_4-mix/1234/env.log ADDED Viewed

	@@ -0,0 +1,93 @@

+SpeechBrain system description
+==============================
+Python version:
+3.11.13 (main, Jun  5 2025, 13:12:00) [GCC 11.2.0]
+==============================
+Installed Python packages:
+black==24.3.0
+certifi==2025.6.15
+cffi==1.17.1
+cfgv==3.4.0
+charset-normalizer==3.4.2
+click==8.1.7
+distlib==0.3.9
+docstring_parser_fork==0.0.12
+filelock==3.18.0
+flake8==7.0.0
+fsspec==2025.5.1
+future==1.0.0
+hf-xet==1.1.5
+huggingface-hub==0.33.0
+HyperPyYAML==1.2.2
+identify==2.6.12
+idna==3.10
+iniconfig==2.1.0
+isort==5.13.2
+Jinja2==3.1.6
+joblib==1.5.1
+MarkupSafe==3.0.2
+mccabe==0.7.0
+mir_eval==0.6
+mpmath==1.3.0
+mypy_extensions==1.1.0
+networkx==3.5
+nodeenv==1.9.1
+numpy==2.3.1
+nvidia-cublas-cu12==12.6.4.1
+nvidia-cuda-cupti-cu12==12.6.80
+nvidia-cuda-nvrtc-cu12==12.6.77
+nvidia-cuda-runtime-cu12==12.6.77
+nvidia-cudnn-cu12==9.5.1.17
+nvidia-cufft-cu12==11.3.0.4
+nvidia-cufile-cu12==1.11.1.6
+nvidia-curand-cu12==10.3.7.77
+nvidia-cusolver-cu12==11.7.1.2
+nvidia-cusparse-cu12==12.5.4.2
+nvidia-cusparselt-cu12==0.6.3
+nvidia-nccl-cu12==2.26.2
+nvidia-nvjitlink-cu12==12.6.85
+nvidia-nvtx-cu12==12.6.77
+packaging==25.0
+pandas==2.3.0
+pathspec==0.12.1
+platformdirs==4.3.8
+pluggy==1.6.0
+pre_commit==4.2.0
+pycodestyle==2.11.0
+pycparser==2.22
+pydoclint==0.4.1
+pyflakes==3.2.0
+pyloudnorm==0.1.1
+pytest==7.4.0
+python-dateutil==2.9.0.post0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2024.11.6
+requests==2.32.4
+ruamel.yaml==0.18.14
+ruamel.yaml.clib==0.2.12
+safetensors==0.5.3
+scipy==1.16.0
+sentencepiece==0.2.0
+six==1.17.0
+soundfile==0.13.1
+sox==1.5.0
+-e git+ssh://git@github.com/speechbrain/speechbrain.git@c75ab5489431fd0a2a7d21160bc37677801cb506#egg=speechbrain
+sympy==1.14.0
+tokenizers==0.21.2
+torch==2.7.1
+torchaudio==2.7.1
+tqdm==4.67.1
+transformers==4.52.4
+triton==3.3.1
+typing_extensions==4.14.0
+tzdata==2025.2
+urllib3==2.5.0
+virtualenv==20.31.2
+yamllint==1.35.1
+==============================
+Git revision:
+c75ab5489
+==============================
+CUDA version:
+12.6

Conv-Tasnet/results/convtasnet_4-mix/1234/hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,179 @@

+# Generated 2025-06-26 from:
+# /work106/youzhenghai/project/speechbrain/myegs/FORHUAWEI_TASNET/separation/hparams/convtasnet_4mix.yaml
+# yamllint disable
+# ################################
+# Model: SepFormer for source separation
+# https://arxiv.org/abs/2010.13154
+# Dataset : WSJ0-2mix and WSJ0-3mix
+# ################################
+# Basic parameters
+# Seed needs to be set at top of yaml, before objects with parameters are made
+#
+seed: 1234
+__set_seed: !apply:speechbrain.utils.seed_everything [1234]
+# Data params
+# e.g. '/yourpath/wsj0-mix/2speakers'
+# end with 2speakers for wsj0-2mix or 3speakers for wsj0-3mix
+data_folder: /work105/youzhenghai/data/wsj0_2mix
+# the path for wsj0/si_tr_s/ folder -- only needed if dynamic mixing is used
+# e.g. /yourpath/wsj0-processed/si_tr_s/
+base_folder_dm: /yourpath/wsj0-processed/si_tr_s/
+experiment_name: convtasnet_4-mix
+output_folder: results/convtasnet_4-mix/1234
+train_log: results/convtasnet_4-mix/1234/train_log.txt
+save_folder: results/convtasnet_4-mix/1234/save
+train_data: results/convtasnet_4-mix/1234/save/record_tr.csv
+valid_data: results/convtasnet_4-mix/1234/save/record_val.csv
+test_data: results/convtasnet_4-mix/1234/save/test_data.csv
+skip_prep: false
+# Experiment params
+precision: fp32 # bf16, fp16 or fp32
+num_spks: 4 # set to 3 for wsj0-3mix
+noprogressbar: false
+save_audio: false # Save estimated sources on disk
+sample_rate: 16000
+####################### Training Parameters ####################################
+N_epochs: 200
+batch_size: 2
+lr: 0.00015
+clip_grad_norm: 5
+loss_upper_lim: 999999  # this is the upper limit for an acceptable loss
+# if True, the training sequences are cut to a specified length
+limit_training_signal_len: true
+# this is the length of sequences if we choose to limit
+# the signal length of training sequences
+training_signal_len: 64000000
+# Set it to True to dynamically create mixtures at training time
+dynamic_mixing: false
+# Parameters for data augmentation
+use_wavedrop: false
+use_speedperturb: true
+use_rand_shift: false
+min_shift: -8000
+max_shift: 8000
+# Speed perturbation
+speed_changes: &id001 [95, 100, 105]
+# Frequency drop: randomly drops a number of frequency bands to zero.
+speed_perturb: !new:speechbrain.augment.time_domain.SpeedPerturb
+  orig_freq: 16000
+  speeds: *id001
+drop_freq_low: 0  # Min frequency band dropout probability
+drop_freq_high: 1  # Max frequency band dropout probability
+drop_freq_count_low: 1  # Min number of frequency bands to drop
+drop_freq_count_high: 3  # Max number of frequency bands to drop
+drop_freq_width: 0.05  # Width of frequency bands to drop
+drop_freq: !new:speechbrain.augment.time_domain.DropFreq
+  drop_freq_low: 0
+  drop_freq_high: 1
+  drop_freq_count_low: 1
+  drop_freq_count_high: 3
+  drop_freq_width: 0.05
+# Time drop: randomly drops a number of temporal chunks.
+drop_chunk_count_low: 1  # Min number of audio chunks to drop
+drop_chunk_count_high: 5  # Max number of audio chunks to drop
+drop_chunk_length_low: 1000  # Min length of audio chunks to drop
+drop_chunk_length_high: 2000  # Max length of audio chunks to drop
+drop_chunk: !new:speechbrain.augment.time_domain.DropChunk
+  drop_length_low: 1000
+  drop_length_high: 2000
+  drop_count_low: 1
+  drop_count_high: 5
+# loss thresholding -- this thresholds the training loss
+threshold_byloss: true
+threshold: -30
+# Encoder parameters
+N_encoder_out: 256
+# out_channels: 256
+kernel_size: 32
+kernel_stride: 16
+# Dataloader options
+dataloader_opts:
+  batch_size: 2
+  num_workers: 3
+# Specifying the network
+Encoder: &id002 !new:speechbrain.lobes.models.dual_path.Encoder
+  kernel_size: 32
+  out_channels: 256
+# intra: !new:speechbrain.lobes.models.dual_path.SBRNNBlock
+#    num_layers: 1
+#    input_size: !ref <out_channels>
+#    hidden_channels: !ref <out_channels>
+#    dropout: 0
+#    bidirectional: True
+# inter: !new:speechbrain.lobes.models.dual_path.SBRNNBlock
+#    num_layers: 1
+#    input_size: !ref <out_channels>
+#    hidden_channels: !ref <out_channels>
+#    dropout: 0
+#    bidirectional: True
+MaskNet: &id004 !new:speechbrain.lobes.models.conv_tasnet.MaskNet
+  N: 256
+  B: 256
+  H: 512
+  P: 3
+  X: 6
+  R: 4
+  C: 4
+  norm_type: gLN
+  causal: true
+  mask_nonlinear: relu
+Decoder: &id003 !new:speechbrain.lobes.models.dual_path.Decoder
+  in_channels: 256
+  out_channels: 1
+  kernel_size: 32
+  stride: 16
+  bias: false
+optimizer: !name:torch.optim.Adam
+  lr: 0.00015
+  weight_decay: 0
+loss: !name:speechbrain.nnet.losses.get_si_snr_with_pitwrapper
+lr_scheduler: &id006 !new:speechbrain.nnet.schedulers.ReduceLROnPlateau
+  factor: 0.5
+  patience: 2
+  dont_halve_until_epoch: 85
+epoch_counter: &id005 !new:speechbrain.utils.epoch_loop.EpochCounter
+  limit: 200
+modules:
+  encoder: *id002
+  decoder: *id003
+  masknet: *id004
+checkpointer: !new:speechbrain.utils.checkpoints.Checkpointer
+  checkpoints_dir: results/convtasnet_4-mix/1234/save
+  recoverables:
+    encoder: *id002
+    decoder: *id003
+    masknet: *id004
+    counter: *id005
+    lr_scheduler: *id006
+train_logger: !new:speechbrain.utils.train_logger.FileTrainLogger
+  save_file: results/convtasnet_4-mix/1234/train_log.txt

Conv-Tasnet/results/convtasnet_4-mix/1234/log.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/CKPT.yaml ADDED Viewed

	@@ -0,0 +1,4 @@

+# yamllint disable
+end-of-epoch: true
+si-snr: 22.240427712364045
+unixtime: 1750961143.069555

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/brain.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33809a026a2c1febce7b03c8aafaee4ddfc851b2c70f180f8c06bf1017f4df5c
+size 46

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/counter.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ef6fdf32513aa7cd11f72beccf132b9224d33f271471fff402742887a171edf
+size 3

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/dataloader-TRAIN.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c344ba7044815dd03c3448028a43e5b9c16074cb5a6a19c7ae86165c149735f
+size 3

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/decoder.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b89e695d01ef7a5aeb76f5000f70959a078e4ea1cf97ae978a2a4dc2121c7f29
+size 34409

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/encoder.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5ef4fe38605072559dbf12b09643423c4649460c0f803f34f047e92f9358f39
+size 34473

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/lr_scheduler.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f02f6900fea06c469d975f48c9b3f4d40868d5fb6e6758baf76c4e68c4785dd1
+size 2251

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/masknet.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:100869f60d27f540b6d23e4a811cff04541c67e6ff4639776645069f841f0db5
+size 26926023

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+02-05-43+00/optimizer.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c05ce1c793e4f0bae4a6905774bbfc8360e4450103008c838ea195f4a146452c
+size 53964363

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/CKPT.yaml ADDED Viewed

	@@ -0,0 +1,4 @@

+# yamllint disable
+end-of-epoch: true
+si-snr: 22.256136728080673
+unixtime: 1750994220.6695538

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/brain.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33809a026a2c1febce7b03c8aafaee4ddfc851b2c70f180f8c06bf1017f4df5c
+size 46

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/counter.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27badc983df1780b60c2b3fa9d3a19a00e46aac798451f0febdca52920faaddf
+size 3

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/dataloader-TRAIN.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c344ba7044815dd03c3448028a43e5b9c16074cb5a6a19c7ae86165c149735f
+size 3

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/decoder.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ba5891c2436cdefe57f4ca4b87bfa8267f927948330ea482d9cd6fadcd14163
+size 34409

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/encoder.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:533c6dfe50d9c410e8c0e4907efaf95679ca2fe85f0ceab9aa0ede0c817d58d8
+size 34473

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/lr_scheduler.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8689d8fb8de14a5995a161e50181134543321bbd431f774ce20f507239669ce3
+size 3147

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/masknet.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3acd263841af684db0cf622b77e83a807e969390661e115b89a8139f8785aa64
+size 26926023

Conv-Tasnet/results/convtasnet_4-mix/1234/save/CKPT+2025-06-27+11-17-00+00/optimizer.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89593e2f633757a61883ef5aeb48a9e79ec4b09565d470c5571ee16edcb51c5c
+size 53964363

Conv-Tasnet/results/convtasnet_4-mix/1234/save/record_tr.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

Conv-Tasnet/results/convtasnet_4-mix/1234/save/record_val.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

Conv-Tasnet/results/convtasnet_4-mix/1234/save/test_data.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

Conv-Tasnet/results/convtasnet_4-mix/1234/test.py ADDED Viewed

	@@ -0,0 +1,628 @@

+#!/usr/bin/env/python3
+"""Recipe for training a neural speech separation system on the wsjmix
+dataset. The system employs an encoder, a decoder, and a masking network.
+To run this recipe, do the following:
+> python train.py hparams/sepformer.yaml
+> python train.py hparams/dualpath_rnn.yaml
+> python train.py hparams/convtasnet.yaml
+The experiment file is flexible enough to support different neural
+networks. By properly changing the parameter files, you can try
+different architectures. The script supports both wsj2mix and
+wsj3mix.
+# 4-mix 主要根据 num_spks 修改 train.py 和 config
+Authors
+ * Cem Subakan 2020
+ * Mirco Ravanelli 2020
+ * Samuele Cornell 2020
+ * Mirko Bronzi 2020
+ * Jianyuan Zhong 2020
+"""
+import csv
+import os
+import sys
+import numpy as np
+import torch
+import torch.nn.functional as F
+import torchaudio
+from hyperpyyaml import load_hyperpyyaml
+from tqdm import tqdm
+import speechbrain as sb
+import speechbrain.nnet.schedulers as schedulers
+from speechbrain.utils.distributed import run_on_main
+from speechbrain.utils.logger import get_logger
+# Define training procedure
+class Separation(sb.Brain):
+    def compute_forward(self, mix, targets, stage, noise=None):
+        """Forward computations from the mixture to the separated signals."""
+        # Unpack lists and put tensors in the right device
+        mix, mix_lens = mix
+        mix, mix_lens = mix.to(self.device), mix_lens.to(self.device)
+        # Convert targets to tensor
+        targets = torch.cat(
+            [targets[i][0].unsqueeze(-1) for i in range(self.hparams.num_spks)],
+            dim=-1,
+        ).to(self.device)
+        # Add speech distortions
+        if stage == sb.Stage.TRAIN:
+            with torch.no_grad():
+                if self.hparams.use_speedperturb:
+                    mix, targets = self.add_speed_perturb(targets, mix_lens)
+                    mix = targets.sum(-1)
+                if self.hparams.use_wavedrop:
+                    mix = self.hparams.drop_chunk(mix, mix_lens)
+                    mix = self.hparams.drop_freq(mix)
+                if self.hparams.limit_training_signal_len:
+                    mix, targets = self.cut_signals(mix, targets)
+        # Separation
+        mix_w = self.hparams.Encoder(mix)
+        est_mask = self.hparams.MaskNet(mix_w)
+        mix_w = torch.stack([mix_w] * self.hparams.num_spks)
+        sep_h = mix_w * est_mask
+        # Decoding
+        est_source = torch.cat(
+            [
+                self.hparams.Decoder(sep_h[i]).unsqueeze(-1)
+                for i in range(self.hparams.num_spks)
+            ],
+            dim=-1,
+        )
+        # T changed after conv1d in encoder, fix it here
+        T_origin = mix.size(1)
+        T_est = est_source.size(1)
+        if T_origin > T_est:
+            est_source = F.pad(est_source, (0, 0, 0, T_origin - T_est))
+        else:
+            est_source = est_source[:, :T_origin, :]
+        return est_source, targets
+    def compute_objectives(self, predictions, targets):
+        """Computes the sinr loss"""
+        return self.hparams.loss(targets, predictions)
+    def fit_batch(self, batch):
+        """Trains one batch"""
+        # Unpacking batch list
+        mixture = batch.mix_sig
+        targets = [batch.s1_sig, batch.s2_sig]
+        if self.hparams.num_spks == 3:
+            targets.append(batch.s3_sig)
+        if self.hparams.num_spks == 4:
+            targets.append(batch.s3_sig)
+            targets.append(batch.s4_sig)
+        with self.training_ctx:
+            predictions, targets = self.compute_forward(
+                mixture, targets, sb.Stage.TRAIN
+            )
+            loss = self.compute_objectives(predictions, targets)
+            # hard threshold the easy dataitems
+            if self.hparams.threshold_byloss:
+                th = self.hparams.threshold
+                loss = loss[loss > th]
+                if loss.nelement() > 0:
+                    loss = loss.mean()
+            else:
+                loss = loss.mean()
+        if loss.nelement() > 0 and loss < self.hparams.loss_upper_lim:
+            self.scaler.scale(loss).backward()
+            if self.hparams.clip_grad_norm >= 0:
+                self.scaler.unscale_(self.optimizer)
+                torch.nn.utils.clip_grad_norm_(
+                    self.modules.parameters(),
+                    self.hparams.clip_grad_norm,
+                )
+            self.scaler.step(self.optimizer)
+            self.scaler.update()
+        else:
+            self.nonfinite_count += 1
+            logger.info(
+                "infinite loss or empty loss! it happened {} times so far - skipping this batch".format(
+                    self.nonfinite_count
+                )
+            )
+            loss.data = torch.tensor(0.0).to(self.device)
+        self.optimizer.zero_grad()
+        return loss.detach().cpu()
+    def evaluate_batch(self, batch, stage):
+        """Computations needed for validation/test batches"""
+        snt_id = batch.id
+        mixture = batch.mix_sig
+        targets = [batch.s1_sig, batch.s2_sig]
+        if self.hparams.num_spks == 3:
+            targets.append(batch.s3_sig)
+        if self.hparams.num_spks == 4:
+            targets.append(batch.s3_sig)
+            targets.append(batch.s4_sig)
+        with torch.no_grad():
+            predictions, targets = self.compute_forward(mixture, targets, stage)
+            loss = self.compute_objectives(predictions, targets)
+        # Manage audio file saving
+        if stage == sb.Stage.TEST and self.hparams.save_audio:
+            if hasattr(self.hparams, "n_audio_to_save"):
+                if self.hparams.n_audio_to_save > 0:
+                    self.save_audio(snt_id[0], mixture, targets, predictions)
+                    self.hparams.n_audio_to_save += -1
+            else:
+                self.save_audio(snt_id[0], mixture, targets, predictions)
+        return loss.mean().detach()
+    def on_stage_end(self, stage, stage_loss, epoch):
+        """Gets called at the end of a epoch."""
+        # Compute/store important stats
+        stage_stats = {"si-snr": stage_loss}
+        if stage == sb.Stage.TRAIN:
+            self.train_stats = stage_stats
+        # Perform end-of-iteration things, like annealing, logging, etc.
+        if stage == sb.Stage.VALID:
+            # Learning rate annealing
+            if isinstance(
+                self.hparams.lr_scheduler, schedulers.ReduceLROnPlateau
+            ):
+                current_lr, next_lr = self.hparams.lr_scheduler(
+                    [self.optimizer], epoch, stage_loss
+                )
+                schedulers.update_learning_rate(self.optimizer, next_lr)
+            else:
+                # if we do not use the reducelronplateau, we do not change the lr
+                current_lr = self.hparams.optimizer.optim.param_groups[0]["lr"]
+            self.hparams.train_logger.log_stats(
+                stats_meta={"epoch": epoch, "lr": current_lr},
+                train_stats=self.train_stats,
+                valid_stats=stage_stats,
+            )
+            self.checkpointer.save_and_keep_only(
+                meta={"si-snr": stage_stats["si-snr"]}, min_keys=["si-snr"]
+            )
+        elif stage == sb.Stage.TEST:
+            self.hparams.train_logger.log_stats(
+                stats_meta={"Epoch loaded": self.hparams.epoch_counter.current},
+                test_stats=stage_stats,
+            )
+    def add_speed_perturb(self, targets, targ_lens):
+        """Adds speed perturbation and random_shift to the input signals"""
+        min_len = -1
+        recombine = False
+        if self.hparams.use_speedperturb or self.hparams.use_rand_shift:
+            # Performing speed change (independently on each source)
+            new_targets = []
+            recombine = True
+            for i in range(targets.shape[-1]):
+                new_target = self.hparams.speed_perturb(targets[:, :, i])
+                new_targets.append(new_target)
+                if i == 0:
+                    min_len = new_target.shape[-1]
+                else:
+                    if new_target.shape[-1] < min_len:
+                        min_len = new_target.shape[-1]
+            if self.hparams.use_rand_shift:
+                # Performing random_shift (independently on each source)
+                recombine = True
+                for i in range(targets.shape[-1]):
+                    rand_shift = torch.randint(
+                        self.hparams.min_shift, self.hparams.max_shift, (1,)
+                    )
+                    new_targets[i] = new_targets[i].to(self.device)
+                    new_targets[i] = torch.roll(
+                        new_targets[i], shifts=(rand_shift[0],), dims=1
+                    )
+            # Re-combination
+            if recombine:
+                if self.hparams.use_speedperturb:
+                    targets = torch.zeros(
+                        targets.shape[0],
+                        min_len,
+                        targets.shape[-1],
+                        device=targets.device,
+                        dtype=torch.float,
+                    )
+                for i, new_target in enumerate(new_targets):
+                    targets[:, :, i] = new_targets[i][:, 0:min_len]
+        mix = targets.sum(-1)
+        return mix, targets
+    def cut_signals(self, mixture, targets):
+        """This function selects a random segment of a given length within the mixture.
+        The corresponding targets are selected accordingly"""
+        randstart = torch.randint(
+            0,
+            1 + max(0, mixture.shape[1] - self.hparams.training_signal_len),
+            (1,),
+        ).item()
+        targets = targets[
+            :, randstart : randstart + self.hparams.training_signal_len, :
+        ]
+        mixture = mixture[
+            :, randstart : randstart + self.hparams.training_signal_len
+        ]
+        return mixture, targets
+    def reset_layer_recursively(self, layer):
+        """Reinitializes the parameters of the neural networks"""
+        if hasattr(layer, "reset_parameters"):
+            layer.reset_parameters()
+        for child_layer in layer.modules():
+            if layer != child_layer:
+                self.reset_layer_recursively(child_layer)
+    def save_results(self, test_data):
+        """This script computes the SDR and SI-SNR metrics and saves
+        them into a csv file"""
+        # This package is required for SDR computation
+        from mir_eval.separation import bss_eval_sources
+        # Create folders where to store audio
+        save_file = os.path.join(self.hparams.output_folder, "test_results.csv")
+        # Variable init
+        all_sdrs = []
+        all_sdrs_i = []
+        all_sisnrs = []
+        all_sisnrs_i = []
+        csv_columns = ["snt_id", "sdr", "sdr_i", "si-snr", "si-snr_i"]
+        test_loader = sb.dataio.dataloader.make_dataloader(
+            test_data, **self.hparams.dataloader_opts
+        )
+        with open(save_file, "w", newline="", encoding="utf-8") as results_csv:
+            writer = csv.DictWriter(results_csv, fieldnames=csv_columns)
+            writer.writeheader()
+            # Loop over all test sentence
+            with tqdm(test_loader, dynamic_ncols=True) as t:
+                for i, batch in enumerate(t):
+                    # Apply Separation
+                    mixture, mix_len = batch.mix_sig
+                    snt_id = batch.id
+                    targets = [batch.s1_sig, batch.s2_sig]
+                    if self.hparams.num_spks == 3:
+                        targets.append(batch.s3_sig)
+                    if self.hparams.num_spks == 4:
+                        targets.append(batch.s3_sig)
+                        targets.append(batch.s4_sig)
+                    with torch.no_grad():
+                        predictions, targets = self.compute_forward(
+                            batch.mix_sig, targets, sb.Stage.TEST
+                        )
+                    # Compute SI-SNR
+                    sisnr = self.compute_objectives(predictions, targets)
+                    # Compute SI-SNR improvement
+                    mixture_signal = torch.stack(
+                        [mixture] * self.hparams.num_spks, dim=-1
+                    )
+                    mixture_signal = mixture_signal.to(targets.device)
+                    sisnr_baseline = self.compute_objectives(
+                        mixture_signal, targets
+                    )
+                    sisnr_i = sisnr - sisnr_baseline
+                    # Compute SDR
+                    sdr, _, _, _ = bss_eval_sources(
+                        targets[0].t().cpu().numpy(),
+                        predictions[0].t().detach().cpu().numpy(),
+                    )
+                    sdr_baseline, _, _, _ = bss_eval_sources(
+                        targets[0].t().cpu().numpy(),
+                        mixture_signal[0].t().detach().cpu().numpy(),
+                    )
+                    sdr_i = sdr.mean() - sdr_baseline.mean()
+                    # Saving on a csv file
+                    row = {
+                        "snt_id": snt_id[0],
+                        "sdr": sdr.mean(),
+                        "sdr_i": sdr_i,
+                        "si-snr": -sisnr.item(),
+                        "si-snr_i": -sisnr_i.item(),
+                    }
+                    writer.writerow(row)
+                    # Metric Accumulation
+                    all_sdrs.append(sdr.mean())
+                    all_sdrs_i.append(sdr_i.mean())
+                    all_sisnrs.append(-sisnr.item())
+                    all_sisnrs_i.append(-sisnr_i.item())
+                row = {
+                    "snt_id": "avg",
+                    "sdr": np.array(all_sdrs).mean(),
+                    "sdr_i": np.array(all_sdrs_i).mean(),
+                    "si-snr": np.array(all_sisnrs).mean(),
+                    "si-snr_i": np.array(all_sisnrs_i).mean(),
+                }
+                writer.writerow(row)
+        logger.info("Mean SISNR is {}".format(np.array(all_sisnrs).mean()))
+        logger.info("Mean SISNRi is {}".format(np.array(all_sisnrs_i).mean()))
+        logger.info("Mean SDR is {}".format(np.array(all_sdrs).mean()))
+        logger.info("Mean SDRi is {}".format(np.array(all_sdrs_i).mean()))
+    def save_audio(self, snt_id, mixture, targets, predictions):
+        "saves the test audio (mixture, targets, and estimated sources) on disk"
+        # Create output folder
+        save_path = os.path.join(self.hparams.save_folder, "audio_results")
+        if not os.path.exists(save_path):
+            os.mkdir(save_path)
+        for ns in range(self.hparams.num_spks):
+            # Estimated source
+            signal = predictions[0, :, ns]
+            signal = signal / signal.abs().max()
+            save_file = os.path.join(
+                save_path, "item{}_source{}hat.wav".format(snt_id, ns + 1)
+            )
+            torchaudio.save(
+                save_file, signal.unsqueeze(0).cpu(), self.hparams.sample_rate
+            )
+            # Original source
+            signal = targets[0, :, ns]
+            signal = signal / signal.abs().max()
+            save_file = os.path.join(
+                save_path, "item{}_source{}.wav".format(snt_id, ns + 1)
+            )
+            torchaudio.save(
+                save_file, signal.unsqueeze(0).cpu(), self.hparams.sample_rate
+            )
+        # Mixture
+        signal = mixture[0][0, :]
+        signal = signal / signal.abs().max()
+        save_file = os.path.join(save_path, "item{}_mix.wav".format(snt_id))
+        torchaudio.save(
+            save_file, signal.unsqueeze(0).cpu(), self.hparams.sample_rate
+        )
+def dataio_prep(hparams):
+    """Creates data processing pipeline"""
+    # 1. Define datasets
+    train_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
+        csv_path=hparams["train_data"],
+        replacements={"data_root": hparams["data_folder"]},
+    )
+    valid_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
+        csv_path=hparams["valid_data"],
+        replacements={"data_root": hparams["data_folder"]},
+    )
+    test_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
+        csv_path=hparams["test_data"],
+        replacements={"data_root": hparams["data_folder"]},
+    )
+    datasets = [train_data, valid_data, test_data]
+    # 2. Provide audio pipelines
+    @sb.utils.data_pipeline.takes("mix_wav")
+    @sb.utils.data_pipeline.provides("mix_sig")
+    def audio_pipeline_mix(mix_wav):
+        mix_sig = sb.dataio.dataio.read_audio(mix_wav)
+        return mix_sig
+    @sb.utils.data_pipeline.takes("s1_wav")
+    @sb.utils.data_pipeline.provides("s1_sig")
+    def audio_pipeline_s1(s1_wav):
+        s1_sig = sb.dataio.dataio.read_audio(s1_wav)
+        return s1_sig
+    @sb.utils.data_pipeline.takes("s2_wav")
+    @sb.utils.data_pipeline.provides("s2_sig")
+    def audio_pipeline_s2(s2_wav):
+        s2_sig = sb.dataio.dataio.read_audio(s2_wav)
+        return s2_sig
+    # --- 如果说话人 >= 3，定义第 3 路 ---
+    if hparams["num_spks"] >= 3:
+        @sb.utils.data_pipeline.takes("s3_wav")
+        @sb.utils.data_pipeline.provides("s3_sig")
+        def audio_pipeline_s3(s3_wav):
+            return sb.dataio.dataio.read_audio(s3_wav)
+    # --- 如果说话人 == 4，定义第 4 路 ---
+    if hparams["num_spks"] == 4:
+        @sb.utils.data_pipeline.takes("s4_wav")
+        @sb.utils.data_pipeline.provides("s4_sig")
+        def audio_pipeline_s4(s4_wav):
+            return sb.dataio.dataio.read_audio(s4_wav)
+    sb.dataio.dataset.add_dynamic_item(datasets, audio_pipeline_mix)
+    sb.dataio.dataset.add_dynamic_item(datasets, audio_pipeline_s1)
+    sb.dataio.dataset.add_dynamic_item(datasets, audio_pipeline_s2)
+    if hparams["num_spks"] == 3:
+        sb.dataio.dataset.add_dynamic_item(datasets, audio_pipeline_s3)
+        sb.dataio.dataset.set_output_keys(
+            datasets, ["id", "mix_sig", "s1_sig", "s2_sig", "s3_sig"]
+        )
+    elif hparams["num_spks"] == 4 :
+        sb.dataio.dataset.add_dynamic_item(datasets, audio_pipeline_s3)
+        sb.dataio.dataset.add_dynamic_item(datasets, audio_pipeline_s4)
+        sb.dataio.dataset.set_output_keys(
+            datasets,
+            ["id", "mix_sig", "s1_sig", "s2_sig", "s3_sig", "s4_sig"],
+        )
+    else:
+        sb.dataio.dataset.set_output_keys(
+            datasets, ["id", "mix_sig", "s1_sig", "s2_sig"]
+        )
+    return train_data, valid_data, test_data
+if __name__ == "__main__":
+    # Load hyperparameters file with command-line overrides
+    hparams_file, run_opts, overrides = sb.parse_arguments(sys.argv[1:])
+    with open(hparams_file, encoding="utf-8") as fin:
+        hparams = load_hyperpyyaml(fin, overrides)
+    # Initialize ddp (useful only for multi-GPU DDP training)
+    sb.utils.distributed.ddp_init_group(run_opts)
+    # Logger info
+    logger = get_logger(__name__)
+    # Create experiment directory
+    sb.create_experiment_directory(
+        experiment_directory=hparams["output_folder"],
+        hyperparams_to_save=hparams_file,
+        overrides=overrides,
+    )
+    # Update precision to bf16 if the device is CPU and precision is fp16
+    if run_opts.get("device") == "cpu" and hparams.get("precision") == "fp16":
+        hparams["precision"] = "bf16"
+    # Check if wsj0_tr is set with dynamic mixing
+    if hparams["dynamic_mixing"] and not os.path.exists(
+        hparams["base_folder_dm"]
+    ):
+        raise ValueError(
+            "Please, specify a valid base_folder_dm folder when using dynamic mixing"
+        )
+    # Data preparation
+    from prepare_data import prepare_wsjmix  # noqa
+    # run_on_main(
+    #     prepare_wsjmix,
+    #     kwargs={
+    #         "datapath": hparams["data_folder"],
+    #         "savepath": hparams["save_folder"],
+    #         "n_spks": hparams["num_spks"],
+    #         "skip_prep": hparams["skip_prep"],
+    #         "fs": hparams["sample_rate"],
+    #     },
+    # )
+    # Create dataset objects
+    if hparams["dynamic_mixing"]:
+        from dynamic_mixing import dynamic_mix_data_prep
+        # if the base_folder for dm is not processed, preprocess them
+        if "processed" not in hparams["base_folder_dm"]:
+            # if the processed folder already exists we just use it otherwise we do the preprocessing
+            if not os.path.exists(
+                os.path.normpath(hparams["base_folder_dm"]) + "_processed"
+            ):
+                from preprocess_dynamic_mixing import resample_folder
+                print("Resampling the base folder")
+                run_on_main(
+                    resample_folder,
+                    kwargs={
+                        "input_folder": hparams["base_folder_dm"],
+                        "output_folder": os.path.normpath(
+                            hparams["base_folder_dm"]
+                        )
+                        + "_processed",
+                        "fs": hparams["sample_rate"],
+                        "regex": "**/*.wav",
+                    },
+                )
+                # adjust the base_folder_dm path
+                hparams["base_folder_dm"] = (
+                    os.path.normpath(hparams["base_folder_dm"]) + "_processed"
+                )
+            else:
+                print(
+                    "Using the existing processed folder on the same directory as base_folder_dm"
+                )
+                hparams["base_folder_dm"] = (
+                    os.path.normpath(hparams["base_folder_dm"]) + "_processed"
+                )
+        # Collecting the hparams for dynamic batching
+        dm_hparams = {
+            "train_data": hparams["train_data"],
+            "data_folder": hparams["data_folder"],
+            "base_folder_dm": hparams["base_folder_dm"],
+            "sample_rate": hparams["sample_rate"],
+            "num_spks": hparams["num_spks"],
+            "training_signal_len": hparams["training_signal_len"],
+            "dataloader_opts": hparams["dataloader_opts"],
+        }
+        train_data = dynamic_mix_data_prep(dm_hparams)
+        _, valid_data, test_data = dataio_prep(hparams)
+    else:
+        train_data, valid_data, test_data = dataio_prep(hparams)
+    # Load pretrained model if pretrained_separator is present in the yaml
+    if "pretrained_separator" in hparams:
+        run_on_main(hparams["pretrained_separator"].collect_files)
+        hparams["pretrained_separator"].load_collected()
+    # Brain class initialization
+    separator = Separation(
+        modules=hparams["modules"],
+        opt_class=hparams["optimizer"],
+        hparams=hparams,
+        run_opts=run_opts,
+        checkpointer=hparams["checkpointer"],
+    )
+    # re-initialize the parameters if we don't use a pretrained model
+    if "pretrained_separator" not in hparams:
+        for module in separator.modules.values():
+            separator.reset_layer_recursively(module)
+    # # Training
+    # separator.fit(
+    #     separator.hparams.epoch_counter,
+    #     train_data,
+    #     valid_data,
+    #     train_loader_kwargs=hparams["dataloader_opts"],
+    #     valid_loader_kwargs=hparams["dataloader_opts"],
+    # )
+    # Eval
+    separator.evaluate(test_data, min_key="si-snr")
+    separator.save_results(test_data)

Conv-Tasnet/results/convtasnet_4-mix/1234/test_results.csv ADDED Viewed

	@@ -0,0 +1 @@


1	+ snt_id,sdr,sdr_i,si-snr,si-snr_i

Conv-Tasnet/results/convtasnet_4-mix/1234/train.py ADDED Viewed

	@@ -0,0 +1,628 @@

+#!/usr/bin/env/python3
+"""Recipe for training a neural speech separation system on the wsjmix
+dataset. The system employs an encoder, a decoder, and a masking network.
+To run this recipe, do the following:
+> python train.py hparams/sepformer.yaml
+> python train.py hparams/dualpath_rnn.yaml
+> python train.py hparams/convtasnet.yaml
+The experiment file is flexible enough to support different neural
+networks. By properly changing the parameter files, you can try
+different architectures. The script supports both wsj2mix and
+wsj3mix.
+# 4-mix 主要根据 num_spks 修改 train.py 和 config
+Authors
+ * Cem Subakan 2020
+ * Mirco Ravanelli 2020
+ * Samuele Cornell 2020
+ * Mirko Bronzi 2020
+ * Jianyuan Zhong 2020
+"""
+import csv
+import os
+import sys
+import numpy as np
+import torch
+import torch.nn.functional as F
+import torchaudio
+from hyperpyyaml import load_hyperpyyaml
+from tqdm import tqdm
+import speechbrain as sb
+import speechbrain.nnet.schedulers as schedulers
+from speechbrain.utils.distributed import run_on_main
+from speechbrain.utils.logger import get_logger
+# Define training procedure
+class Separation(sb.Brain):
+    def compute_forward(self, mix, targets, stage, noise=None):
+        """Forward computations from the mixture to the separated signals."""
+        # Unpack lists and put tensors in the right device
+        mix, mix_lens = mix
+        mix, mix_lens = mix.to(self.device), mix_lens.to(self.device)
+        # Convert targets to tensor
+        targets = torch.cat(
+            [targets[i][0].unsqueeze(-1) for i in range(self.hparams.num_spks)],
+            dim=-1,
+        ).to(self.device)
+        # Add speech distortions
+        if stage == sb.Stage.TRAIN:
+            with torch.no_grad():
+                if self.hparams.use_speedperturb:
+                    mix, targets = self.add_speed_perturb(targets, mix_lens)
+                    mix = targets.sum(-1)
+                if self.hparams.use_wavedrop:
+                    mix = self.hparams.drop_chunk(mix, mix_lens)
+                    mix = self.hparams.drop_freq(mix)
+                if self.hparams.limit_training_signal_len:
+                    mix, targets = self.cut_signals(mix, targets)
+        # Separation
+        mix_w = self.hparams.Encoder(mix)
+        est_mask = self.hparams.MaskNet(mix_w)
+        mix_w = torch.stack([mix_w] * self.hparams.num_spks)
+        sep_h = mix_w * est_mask
+        # Decoding
+        est_source = torch.cat(
+            [
+                self.hparams.Decoder(sep_h[i]).unsqueeze(-1)
+                for i in range(self.hparams.num_spks)
+            ],
+            dim=-1,
+        )
+        # T changed after conv1d in encoder, fix it here
+        T_origin = mix.size(1)
+        T_est = est_source.size(1)
+        if T_origin > T_est:
+            est_source = F.pad(est_source, (0, 0, 0, T_origin - T_est))
+        else:
+            est_source = est_source[:, :T_origin, :]
+        return est_source, targets
+    def compute_objectives(self, predictions, targets):
+        """Computes the sinr loss"""
+        return self.hparams.loss(targets, predictions)
+    def fit_batch(self, batch):
+        """Trains one batch"""
+        # Unpacking batch list
+        mixture = batch.mix_sig
+        targets = [batch.s1_sig, batch.s2_sig]
+        if self.hparams.num_spks == 3:
+            targets.append(batch.s3_sig)
+        if self.hparams.num_spks == 4:
+            targets.append(batch.s3_sig)
+            targets.append(batch.s4_sig)
+        with self.training_ctx:
+            predictions, targets = self.compute_forward(
+                mixture, targets, sb.Stage.TRAIN
+            )
+            loss = self.compute_objectives(predictions, targets)
+            # hard threshold the easy dataitems
+            if self.hparams.threshold_byloss:
+                th = self.hparams.threshold
+                loss = loss[loss > th]
+                if loss.nelement() > 0:
+                    loss = loss.mean()
+            else:
+                loss = loss.mean()
+        if loss.nelement() > 0 and loss < self.hparams.loss_upper_lim:
+            self.scaler.scale(loss).backward()
+            if self.hparams.clip_grad_norm >= 0:
+                self.scaler.unscale_(self.optimizer)
+                torch.nn.utils.clip_grad_norm_(
+                    self.modules.parameters(),
+                    self.hparams.clip_grad_norm,
+                )
+            self.scaler.step(self.optimizer)
+            self.scaler.update()
+        else:
+            self.nonfinite_count += 1
+            logger.info(
+                "infinite loss or empty loss! it happened {} times so far - skipping this batch".format(
+                    self.nonfinite_count
+                )
+            )
+            loss.data = torch.tensor(0.0).to(self.device)
+        self.optimizer.zero_grad()
+        return loss.detach().cpu()
+    def evaluate_batch(self, batch, stage):
+        """Computations needed for validation/test batches"""
+        snt_id = batch.id
+        mixture = batch.mix_sig
+        targets = [batch.s1_sig, batch.s2_sig]
+        if self.hparams.num_spks == 3:
+            targets.append(batch.s3_sig)
+        if self.hparams.num_spks == 4:
+            targets.append(batch.s3_sig)
+            targets.append(batch.s4_sig)
+        with torch.no_grad():
+            predictions, targets = self.compute_forward(mixture, targets, stage)
+            loss = self.compute_objectives(predictions, targets)
+        # Manage audio file saving
+        if stage == sb.Stage.TEST and self.hparams.save_audio:
+            if hasattr(self.hparams, "n_audio_to_save"):
+                if self.hparams.n_audio_to_save > 0:
+                    self.save_audio(snt_id[0], mixture, targets, predictions)
+                    self.hparams.n_audio_to_save += -1
+            else:
+                self.save_audio(snt_id[0], mixture, targets, predictions)
+        return loss.mean().detach()
+    def on_stage_end(self, stage, stage_loss, epoch):
+        """Gets called at the end of a epoch."""
+        # Compute/store important stats
+        stage_stats = {"si-snr": stage_loss}
+        if stage == sb.Stage.TRAIN:
+            self.train_stats = stage_stats
+        # Perform end-of-iteration things, like annealing, logging, etc.
+        if stage == sb.Stage.VALID:
+            # Learning rate annealing
+            if isinstance(
+                self.hparams.lr_scheduler, schedulers.ReduceLROnPlateau
+            ):
+                current_lr, next_lr = self.hparams.lr_scheduler(
+                    [self.optimizer], epoch, stage_loss
+                )
+                schedulers.update_learning_rate(self.optimizer, next_lr)
+            else:
+                # if we do not use the reducelronplateau, we do not change the lr
+                current_lr = self.hparams.optimizer.optim.param_groups[0]["lr"]
+            self.hparams.train_logger.log_stats(
+                stats_meta={"epoch": epoch, "lr": current_lr},
+                train_stats=self.train_stats,
+                valid_stats=stage_stats,
+            )
+            self.checkpointer.save_and_keep_only(
+                meta={"si-snr": stage_stats["si-snr"]}, min_keys=["si-snr"]
+            )
+        elif stage == sb.Stage.TEST:
+            self.hparams.train_logger.log_stats(
+                stats_meta={"Epoch loaded": self.hparams.epoch_counter.current},
+                test_stats=stage_stats,
+            )
+    def add_speed_perturb(self, targets, targ_lens):
+        """Adds speed perturbation and random_shift to the input signals"""
+        min_len = -1
+        recombine = False
+        if self.hparams.use_speedperturb or self.hparams.use_rand_shift:
+            # Performing speed change (independently on each source)
+            new_targets = []
+            recombine = True
+            for i in range(targets.shape[-1]):
+                new_target = self.hparams.speed_perturb(targets[:, :, i])
+                new_targets.append(new_target)
+                if i == 0:
+                    min_len = new_target.shape[-1]
+                else:
+                    if new_target.shape[-1] < min_len:
+                        min_len = new_target.shape[-1]
+            if self.hparams.use_rand_shift:
+                # Performing random_shift (independently on each source)
+                recombine = True
+                for i in range(targets.shape[-1]):
+                    rand_shift = torch.randint(
+                        self.hparams.min_shift, self.hparams.max_shift, (1,)
+                    )
+                    new_targets[i] = new_targets[i].to(self.device)
+                    new_targets[i] = torch.roll(
+                        new_targets[i], shifts=(rand_shift[0],), dims=1
+                    )
+            # Re-combination
+            if recombine:
+                if self.hparams.use_speedperturb:
+                    targets = torch.zeros(
+                        targets.shape[0],
+                        min_len,
+                        targets.shape[-1],
+                        device=targets.device,
+                        dtype=torch.float,
+                    )
+                for i, new_target in enumerate(new_targets):
+                    targets[:, :, i] = new_targets[i][:, 0:min_len]
+        mix = targets.sum(-1)
+        return mix, targets
+    def cut_signals(self, mixture, targets):
+        """This function selects a random segment of a given length within the mixture.
+        The corresponding targets are selected accordingly"""
+        randstart = torch.randint(
+            0,
+            1 + max(0, mixture.shape[1] - self.hparams.training_signal_len),
+            (1,),
+        ).item()
+        targets = targets[
+            :, randstart : randstart + self.hparams.training_signal_len, :
+        ]
+        mixture = mixture[
+            :, randstart : randstart + self.hparams.training_signal_len
+        ]
+        return mixture, targets
+    def reset_layer_recursively(self, layer):
+        """Reinitializes the parameters of the neural networks"""
+        if hasattr(layer, "reset_parameters"):
+            layer.reset_parameters()
+        for child_layer in layer.modules():
+            if layer != child_layer:
+                self.reset_layer_recursively(child_layer)
+    def save_results(self, test_data):
+        """This script computes the SDR and SI-SNR metrics and saves
+        them into a csv file"""
+        # This package is required for SDR computation
+        from mir_eval.separation import bss_eval_sources
+        # Create folders where to store audio
+        save_file = os.path.join(self.hparams.output_folder, "test_results.csv")
+        # Variable init
+        all_sdrs = []
+        all_sdrs_i = []
+        all_sisnrs = []
+        all_sisnrs_i = []
+        csv_columns = ["snt_id", "sdr", "sdr_i", "si-snr", "si-snr_i"]
+        test_loader = sb.dataio.dataloader.make_dataloader(
+            test_data, **self.hparams.dataloader_opts
+        )
+        with open(save_file, "w", newline="", encoding="utf-8") as results_csv:
+            writer = csv.DictWriter(results_csv, fieldnames=csv_columns)
+            writer.writeheader()
+            # Loop over all test sentence
+            with tqdm(test_loader, dynamic_ncols=True) as t:
+                for i, batch in enumerate(t):
+                    # Apply Separation
+                    mixture, mix_len = batch.mix_sig
+                    snt_id = batch.id
+                    targets = [batch.s1_sig, batch.s2_sig]
+                    if self.hparams.num_spks == 3:
+                        targets.append(batch.s3_sig)
+                    if self.hparams.num_spks == 4:
+                        targets.append(batch.s3_sig)
+                        targets.append(batch.s4_sig)
+                    with torch.no_grad():
+                        predictions, targets = self.compute_forward(
+                            batch.mix_sig, targets, sb.Stage.TEST
+                        )
+                    # Compute SI-SNR
+                    sisnr = self.compute_objectives(predictions, targets)
+                    # Compute SI-SNR improvement
+                    mixture_signal = torch.stack(
+                        [mixture] * self.hparams.num_spks, dim=-1
+                    )
+                    mixture_signal = mixture_signal.to(targets.device)
+                    sisnr_baseline = self.compute_objectives(
+                        mixture_signal, targets
+                    )
+                    sisnr_i = sisnr - sisnr_baseline
+                    # Compute SDR
+                    sdr, _, _, _ = bss_eval_sources(
+                        targets[0].t().cpu().numpy(),
+                        predictions[0].t().detach().cpu().numpy(),
+                    )
+                    sdr_baseline, _, _, _ = bss_eval_sources(
+                        targets[0].t().cpu().numpy(),
+                        mixture_signal[0].t().detach().cpu().numpy(),
+                    )
+                    sdr_i = sdr.mean() - sdr_baseline.mean()
+                    # Saving on a csv file
+                    row = {
+                        "snt_id": snt_id[0],
+                        "sdr": sdr.mean(),
+                        "sdr_i": sdr_i,
+                        "si-snr": -sisnr.item(),
+                        "si-snr_i": -sisnr_i.item(),
+                    }
+                    writer.writerow(row)
+                    # Metric Accumulation
+                    all_sdrs.append(sdr.mean())
+                    all_sdrs_i.append(sdr_i.mean())
+                    all_sisnrs.append(-sisnr.item())
+                    all_sisnrs_i.append(-sisnr_i.item())
+                row = {
+                    "snt_id": "avg",
+                    "sdr": np.array(all_sdrs).mean(),
+                    "sdr_i": np.array(all_sdrs_i).mean(),
+                    "si-snr": np.array(all_sisnrs).mean(),
+                    "si-snr_i": np.array(all_sisnrs_i).mean(),
+                }
+                writer.writerow(row)
+        logger.info("Mean SISNR is {}".format(np.array(all_sisnrs).mean()))
+        logger.info("Mean SISNRi is {}".format(np.array(all_sisnrs_i).mean()))
+        logger.info("Mean SDR is {}".format(np.array(all_sdrs).mean()))
+        logger.info("Mean SDRi is {}".format(np.array(all_sdrs_i).mean()))
+    def save_audio(self, snt_id, mixture, targets, predictions):
+        "saves the test audio (mixture, targets, and estimated sources) on disk"
+        # Create output folder
+        save_path = os.path.join(self.hparams.save_folder, "audio_results")
+        if not os.path.exists(save_path):
+            os.mkdir(save_path)
+        for ns in range(self.hparams.num_spks):
+            # Estimated source
+            signal = predictions[0, :, ns]
+            signal = signal / signal.abs().max()
+            save_file = os.path.join(
+                save_path, "item{}_source{}hat.wav".format(snt_id, ns + 1)
+            )
+            torchaudio.save(
+                save_file, signal.unsqueeze(0).cpu(), self.hparams.sample_rate
+            )
+            # Original source
+            signal = targets[0, :, ns]
+            signal = signal / signal.abs().max()
+            save_file = os.path.join(
+                save_path, "item{}_source{}.wav".format(snt_id, ns + 1)
+            )
+            torchaudio.save(
+                save_file, signal.unsqueeze(0).cpu(), self.hparams.sample_rate
+            )
+        # Mixture
+        signal = mixture[0][0, :]
+        signal = signal / signal.abs().max()
+        save_file = os.path.join(save_path, "item{}_mix.wav".format(snt_id))
+        torchaudio.save(
+            save_file, signal.unsqueeze(0).cpu(), self.hparams.sample_rate
+        )
+def dataio_prep(hparams):
+    """Creates data processing pipeline"""
+    # 1. Define datasets
+    train_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
+        csv_path=hparams["train_data"],
+        replacements={"data_root": hparams["data_folder"]},
+    )
+    valid_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
+        csv_path=hparams["valid_data"],
+        replacements={"data_root": hparams["data_folder"]},
+    )
+    test_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
+        csv_path=hparams["test_data"],
+        replacements={"data_root": hparams["data_folder"]},
+    )
+    datasets = [train_data, valid_data, test_data]
+    # 2. Provide audio pipelines
+    @sb.utils.data_pipeline.takes("mix_wav")
+    @sb.utils.data_pipeline.provides("mix_sig")
+    def audio_pipeline_mix(mix_wav):
+        mix_sig = sb.dataio.dataio.read_audio(mix_wav)
+        return mix_sig
+    @sb.utils.data_pipeline.takes("s1_wav")
+    @sb.utils.data_pipeline.provides("s1_sig")
+    def audio_pipeline_s1(s1_wav):
+        s1_sig = sb.dataio.dataio.read_audio(s1_wav)
+        return s1_sig
+    @sb.utils.data_pipeline.takes("s2_wav")
+    @sb.utils.data_pipeline.provides("s2_sig")
+    def audio_pipeline_s2(s2_wav):
+        s2_sig = sb.dataio.dataio.read_audio(s2_wav)
+        return s2_sig
+    # --- 如果说话人 >= 3，定义第 3 路 ---
+    if hparams["num_spks"] >= 3:
+        @sb.utils.data_pipeline.takes("s3_wav")
+        @sb.utils.data_pipeline.provides("s3_sig")
+        def audio_pipeline_s3(s3_wav):
+            return sb.dataio.dataio.read_audio(s3_wav)
+    # --- 如果说话人 == 4，定义第 4 路 ---
+    if hparams["num_spks"] == 4:
+        @sb.utils.data_pipeline.takes("s4_wav")
+        @sb.utils.data_pipeline.provides("s4_sig")
+        def audio_pipeline_s4(s4_wav):
+            return sb.dataio.dataio.read_audio(s4_wav)
+    sb.dataio.dataset.add_dynamic_item(datasets, audio_pipeline_mix)
+    sb.dataio.dataset.add_dynamic_item(datasets, audio_pipeline_s1)
+    sb.dataio.dataset.add_dynamic_item(datasets, audio_pipeline_s2)
+    if hparams["num_spks"] == 3:
+        sb.dataio.dataset.add_dynamic_item(datasets, audio_pipeline_s3)
+        sb.dataio.dataset.set_output_keys(
+            datasets, ["id", "mix_sig", "s1_sig", "s2_sig", "s3_sig"]
+        )
+    elif hparams["num_spks"] == 4 :
+        sb.dataio.dataset.add_dynamic_item(datasets, audio_pipeline_s3)
+        sb.dataio.dataset.add_dynamic_item(datasets, audio_pipeline_s4)
+        sb.dataio.dataset.set_output_keys(
+            datasets,
+            ["id", "mix_sig", "s1_sig", "s2_sig", "s3_sig", "s4_sig"],
+        )
+    else:
+        sb.dataio.dataset.set_output_keys(
+            datasets, ["id", "mix_sig", "s1_sig", "s2_sig"]
+        )
+    return train_data, valid_data, test_data
+if __name__ == "__main__":
+    # Load hyperparameters file with command-line overrides
+    hparams_file, run_opts, overrides = sb.parse_arguments(sys.argv[1:])
+    with open(hparams_file, encoding="utf-8") as fin:
+        hparams = load_hyperpyyaml(fin, overrides)
+    # Initialize ddp (useful only for multi-GPU DDP training)
+    sb.utils.distributed.ddp_init_group(run_opts)
+    # Logger info
+    logger = get_logger(__name__)
+    # Create experiment directory
+    sb.create_experiment_directory(
+        experiment_directory=hparams["output_folder"],
+        hyperparams_to_save=hparams_file,
+        overrides=overrides,
+    )
+    # Update precision to bf16 if the device is CPU and precision is fp16
+    if run_opts.get("device") == "cpu" and hparams.get("precision") == "fp16":
+        hparams["precision"] = "bf16"
+    # Check if wsj0_tr is set with dynamic mixing
+    if hparams["dynamic_mixing"] and not os.path.exists(
+        hparams["base_folder_dm"]
+    ):
+        raise ValueError(
+            "Please, specify a valid base_folder_dm folder when using dynamic mixing"
+        )
+    # Data preparation
+    from prepare_data import prepare_wsjmix  # noqa
+    # run_on_main(
+    #     prepare_wsjmix,
+    #     kwargs={
+    #         "datapath": hparams["data_folder"],
+    #         "savepath": hparams["save_folder"],
+    #         "n_spks": hparams["num_spks"],
+    #         "skip_prep": hparams["skip_prep"],
+    #         "fs": hparams["sample_rate"],
+    #     },
+    # )
+    # Create dataset objects
+    if hparams["dynamic_mixing"]:
+        from dynamic_mixing import dynamic_mix_data_prep
+        # if the base_folder for dm is not processed, preprocess them
+        if "processed" not in hparams["base_folder_dm"]:
+            # if the processed folder already exists we just use it otherwise we do the preprocessing
+            if not os.path.exists(
+                os.path.normpath(hparams["base_folder_dm"]) + "_processed"
+            ):
+                from preprocess_dynamic_mixing import resample_folder
+                print("Resampling the base folder")
+                run_on_main(
+                    resample_folder,
+                    kwargs={
+                        "input_folder": hparams["base_folder_dm"],
+                        "output_folder": os.path.normpath(
+                            hparams["base_folder_dm"]
+                        )
+                        + "_processed",
+                        "fs": hparams["sample_rate"],
+                        "regex": "**/*.wav",
+                    },
+                )
+                # adjust the base_folder_dm path
+                hparams["base_folder_dm"] = (
+                    os.path.normpath(hparams["base_folder_dm"]) + "_processed"
+                )
+            else:
+                print(
+                    "Using the existing processed folder on the same directory as base_folder_dm"
+                )
+                hparams["base_folder_dm"] = (
+                    os.path.normpath(hparams["base_folder_dm"]) + "_processed"
+                )
+        # Collecting the hparams for dynamic batching
+        dm_hparams = {
+            "train_data": hparams["train_data"],
+            "data_folder": hparams["data_folder"],
+            "base_folder_dm": hparams["base_folder_dm"],
+            "sample_rate": hparams["sample_rate"],
+            "num_spks": hparams["num_spks"],
+            "training_signal_len": hparams["training_signal_len"],
+            "dataloader_opts": hparams["dataloader_opts"],
+        }
+        train_data = dynamic_mix_data_prep(dm_hparams)
+        _, valid_data, test_data = dataio_prep(hparams)
+    else:
+        train_data, valid_data, test_data = dataio_prep(hparams)
+    # Load pretrained model if pretrained_separator is present in the yaml
+    if "pretrained_separator" in hparams:
+        run_on_main(hparams["pretrained_separator"].collect_files)
+        hparams["pretrained_separator"].load_collected()
+    # Brain class initialization
+    separator = Separation(
+        modules=hparams["modules"],
+        opt_class=hparams["optimizer"],
+        hparams=hparams,
+        run_opts=run_opts,
+        checkpointer=hparams["checkpointer"],
+    )
+    # re-initialize the parameters if we don't use a pretrained model
+    if "pretrained_separator" not in hparams:
+        for module in separator.modules.values():
+            separator.reset_layer_recursively(module)
+    # Training
+    separator.fit(
+        separator.hparams.epoch_counter,
+        train_data,
+        valid_data,
+        train_loader_kwargs=hparams["dataloader_opts"],
+        valid_loader_kwargs=hparams["dataloader_opts"],
+    )
+    # Eval
+    separator.evaluate(test_data, min_key="si-snr")
+    separator.save_results(test_data)

Conv-Tasnet/results/convtasnet_4-mix/1234/train_log.txt ADDED Viewed

	@@ -0,0 +1,242 @@

+epoch: 1, lr: 1.50e-04 - train si-snr: 2.76 - valid si-snr: 12.09
+epoch: 2, lr: 1.50e-04 - train si-snr: 2.15 - valid si-snr: 11.84
+epoch: 3, lr: 1.50e-04 - train si-snr: 1.96 - valid si-snr: 11.70
+epoch: 4, lr: 1.50e-04 - train si-snr: 1.70 - valid si-snr: 11.63
+epoch: 5, lr: 1.50e-04 - train si-snr: 1.58 - valid si-snr: 11.57
+epoch: 6, lr: 1.50e-04 - train si-snr: 1.45 - valid si-snr: 11.55
+epoch: 7, lr: 1.50e-04 - train si-snr: 1.33 - valid si-snr: 11.45
+epoch: 8, lr: 1.50e-04 - train si-snr: 1.20 - valid si-snr: 11.33
+epoch: 9, lr: 1.50e-04 - train si-snr: 1.10 - valid si-snr: 11.35
+epoch: 10, lr: 1.50e-04 - train si-snr: 1.01 - valid si-snr: 11.30
+epoch: 11, lr: 1.50e-04 - train si-snr: 9.25e-01 - valid si-snr: 11.33
+epoch: 12, lr: 1.50e-04 - train si-snr: 7.83e-01 - valid si-snr: 11.16
+epoch: 13, lr: 1.50e-04 - train si-snr: 7.61e-01 - valid si-snr: 11.19
+epoch: 14, lr: 1.50e-04 - train si-snr: 6.87e-01 - valid si-snr: 11.13
+epoch: 15, lr: 1.50e-04 - train si-snr: 6.31e-01 - valid si-snr: 11.13
+epoch: 16, lr: 1.50e-04 - train si-snr: 5.54e-01 - valid si-snr: 11.10
+epoch: 17, lr: 1.50e-04 - train si-snr: 4.47e-01 - valid si-snr: 11.02
+epoch: 18, lr: 1.50e-04 - train si-snr: 4.65e-01 - valid si-snr: 11.04
+epoch: 19, lr: 1.50e-04 - train si-snr: 3.32e-01 - valid si-snr: 11.01
+epoch: 20, lr: 1.50e-04 - train si-snr: 3.27e-01 - valid si-snr: 10.95
+epoch: 21, lr: 1.50e-04 - train si-snr: 2.78e-01 - valid si-snr: 10.97
+epoch: 22, lr: 1.50e-04 - train si-snr: 2.18e-01 - valid si-snr: 10.88
+epoch: 23, lr: 1.50e-04 - train si-snr: 1.74e-01 - valid si-snr: 10.87
+epoch: 24, lr: 1.50e-04 - train si-snr: 1.03e-01 - valid si-snr: 10.95
+epoch: 25, lr: 1.50e-04 - train si-snr: 6.04e-02 - valid si-snr: 10.84
+epoch: 26, lr: 1.50e-04 - train si-snr: -2.94e-02 - valid si-snr: 10.79
+epoch: 27, lr: 1.50e-04 - train si-snr: -5.32e-02 - valid si-snr: 10.77
+epoch: 28, lr: 1.50e-04 - train si-snr: -5.68e-02 - valid si-snr: 10.74
+epoch: 29, lr: 1.50e-04 - train si-snr: -1.04e-01 - valid si-snr: 10.79
+epoch: 30, lr: 1.50e-04 - train si-snr: -1.57e-01 - valid si-snr: 10.73
+epoch: 31, lr: 1.50e-04 - train si-snr: -1.64e-01 - valid si-snr: 10.67
+epoch: 32, lr: 1.50e-04 - train si-snr: -2.11e-01 - valid si-snr: 10.71
+epoch: 33, lr: 1.50e-04 - train si-snr: -2.48e-01 - valid si-snr: 10.73
+epoch: 34, lr: 1.50e-04 - train si-snr: -2.79e-01 - valid si-snr: 10.69
+epoch: 35, lr: 1.50e-04 - train si-snr: -3.55e-01 - valid si-snr: 10.69
+epoch: 36, lr: 1.50e-04 - train si-snr: -3.32e-01 - valid si-snr: 10.64
+epoch: 37, lr: 1.50e-04 - train si-snr: -3.97e-01 - valid si-snr: 10.63
+epoch: 38, lr: 1.50e-04 - train si-snr: -4.11e-01 - valid si-snr: 10.71
+epoch: 39, lr: 1.50e-04 - train si-snr: -4.18e-01 - valid si-snr: 10.56
+epoch: 40, lr: 1.50e-04 - train si-snr: -4.74e-01 - valid si-snr: 10.55
+epoch: 41, lr: 1.50e-04 - train si-snr: -4.71e-01 - valid si-snr: 10.52
+epoch: 1, lr: 1.50e-04 - train si-snr: 6.31 - valid si-snr: 23.11
+epoch: 2, lr: 1.50e-04 - train si-snr: 4.85 - valid si-snr: 23.05
+epoch: 3, lr: 1.50e-04 - train si-snr: 4.79 - valid si-snr: 22.98
+epoch: 4, lr: 1.50e-04 - train si-snr: 4.56 - valid si-snr: 22.79
+epoch: 5, lr: 1.50e-04 - train si-snr: 4.28 - valid si-snr: 23.05
+epoch: 6, lr: 1.50e-04 - train si-snr: 4.27 - valid si-snr: 22.88
+epoch: 7, lr: 1.50e-04 - train si-snr: 4.11 - valid si-snr: 22.86
+epoch: 8, lr: 1.50e-04 - train si-snr: 4.11 - valid si-snr: 22.80
+epoch: 9, lr: 1.50e-04 - train si-snr: 3.96 - valid si-snr: 22.80
+epoch: 10, lr: 1.50e-04 - train si-snr: 3.91 - valid si-snr: 22.75
+epoch: 11, lr: 1.50e-04 - train si-snr: 3.76 - valid si-snr: 22.72
+epoch: 12, lr: 1.50e-04 - train si-snr: 3.82 - valid si-snr: 22.69
+epoch: 13, lr: 1.50e-04 - train si-snr: 3.71 - valid si-snr: 22.86
+epoch: 14, lr: 1.50e-04 - train si-snr: 3.64 - valid si-snr: 22.71
+epoch: 15, lr: 1.50e-04 - train si-snr: 3.59 - valid si-snr: 22.89
+epoch: 16, lr: 1.50e-04 - train si-snr: 3.39 - valid si-snr: 22.79
+epoch: 17, lr: 1.50e-04 - train si-snr: 3.30 - valid si-snr: 22.69
+epoch: 18, lr: 1.50e-04 - train si-snr: 3.29 - valid si-snr: 22.82
+epoch: 19, lr: 1.50e-04 - train si-snr: 3.32 - valid si-snr: 22.75
+epoch: 20, lr: 1.50e-04 - train si-snr: 3.14 - valid si-snr: 22.49
+epoch: 21, lr: 1.50e-04 - train si-snr: 3.11 - valid si-snr: 22.83
+epoch: 22, lr: 1.50e-04 - train si-snr: 3.12 - valid si-snr: 22.69
+epoch: 23, lr: 1.50e-04 - train si-snr: 2.93 - valid si-snr: 22.66
+epoch: 24, lr: 1.50e-04 - train si-snr: 2.96 - valid si-snr: 22.72
+epoch: 25, lr: 1.50e-04 - train si-snr: 2.96 - valid si-snr: 22.83
+epoch: 26, lr: 1.50e-04 - train si-snr: 2.88 - valid si-snr: 22.61
+epoch: 27, lr: 1.50e-04 - train si-snr: 2.86 - valid si-snr: 22.83
+epoch: 28, lr: 1.50e-04 - train si-snr: 2.80 - valid si-snr: 22.67
+epoch: 29, lr: 1.50e-04 - train si-snr: 2.73 - valid si-snr: 22.67
+epoch: 30, lr: 1.50e-04 - train si-snr: 2.65 - valid si-snr: 22.62
+epoch: 31, lr: 1.50e-04 - train si-snr: 2.62 - valid si-snr: 22.63
+epoch: 32, lr: 1.50e-04 - train si-snr: 2.61 - valid si-snr: 22.61
+epoch: 33, lr: 1.50e-04 - train si-snr: 2.44 - valid si-snr: 22.55
+epoch: 34, lr: 1.50e-04 - train si-snr: 2.50 - valid si-snr: 22.55
+epoch: 35, lr: 1.50e-04 - train si-snr: 2.47 - valid si-snr: 22.60
+epoch: 36, lr: 1.50e-04 - train si-snr: 2.44 - valid si-snr: 22.66
+epoch: 37, lr: 1.50e-04 - train si-snr: 2.24 - valid si-snr: 22.64
+epoch: 38, lr: 1.50e-04 - train si-snr: 2.28 - valid si-snr: 22.66
+epoch: 39, lr: 1.50e-04 - train si-snr: 2.15 - valid si-snr: 22.62
+epoch: 40, lr: 1.50e-04 - train si-snr: 2.19 - valid si-snr: 22.48
+epoch: 41, lr: 1.50e-04 - train si-snr: 2.26 - valid si-snr: 22.66
+epoch: 42, lr: 1.50e-04 - train si-snr: 2.09 - valid si-snr: 22.57
+epoch: 43, lr: 1.50e-04 - train si-snr: 2.15 - valid si-snr: 22.47
+epoch: 44, lr: 1.50e-04 - train si-snr: 2.00 - valid si-snr: 22.63
+epoch: 45, lr: 1.50e-04 - train si-snr: 2.13 - valid si-snr: 22.52
+epoch: 46, lr: 1.50e-04 - train si-snr: 2.00 - valid si-snr: 22.57
+epoch: 47, lr: 1.50e-04 - train si-snr: 1.90 - valid si-snr: 22.50
+epoch: 48, lr: 1.50e-04 - train si-snr: 1.89 - valid si-snr: 22.49
+epoch: 49, lr: 1.50e-04 - train si-snr: 1.94 - valid si-snr: 22.54
+epoch: 50, lr: 1.50e-04 - train si-snr: 1.89 - valid si-snr: 22.50
+epoch: 51, lr: 1.50e-04 - train si-snr: 1.85 - valid si-snr: 22.55
+epoch: 52, lr: 1.50e-04 - train si-snr: 1.66 - valid si-snr: 22.51
+epoch: 53, lr: 1.50e-04 - train si-snr: 1.65 - valid si-snr: 22.52
+epoch: 54, lr: 1.50e-04 - train si-snr: 1.77 - valid si-snr: 22.45
+epoch: 55, lr: 1.50e-04 - train si-snr: 1.62 - valid si-snr: 22.45
+epoch: 56, lr: 1.50e-04 - train si-snr: 1.52 - valid si-snr: 22.42
+epoch: 57, lr: 1.50e-04 - train si-snr: 1.53 - valid si-snr: 22.39
+epoch: 58, lr: 1.50e-04 - train si-snr: 1.52 - valid si-snr: 22.40
+epoch: 59, lr: 1.50e-04 - train si-snr: 1.55 - valid si-snr: 22.43
+epoch: 60, lr: 1.50e-04 - train si-snr: 1.64 - valid si-snr: 22.43
+epoch: 61, lr: 1.50e-04 - train si-snr: 1.42 - valid si-snr: 22.38
+epoch: 62, lr: 1.50e-04 - train si-snr: 1.50 - valid si-snr: 22.29
+epoch: 63, lr: 1.50e-04 - train si-snr: 1.34 - valid si-snr: 22.51
+epoch: 64, lr: 1.50e-04 - train si-snr: 1.25 - valid si-snr: 22.55
+epoch: 65, lr: 1.50e-04 - train si-snr: 1.43 - valid si-snr: 22.35
+epoch: 66, lr: 1.50e-04 - train si-snr: 1.33 - valid si-snr: 22.54
+epoch: 67, lr: 1.50e-04 - train si-snr: 1.35 - valid si-snr: 22.44
+epoch: 68, lr: 1.50e-04 - train si-snr: 1.35 - valid si-snr: 22.33
+epoch: 69, lr: 1.50e-04 - train si-snr: 1.13 - valid si-snr: 22.38
+epoch: 70, lr: 1.50e-04 - train si-snr: 1.18 - valid si-snr: 22.37
+epoch: 71, lr: 1.50e-04 - train si-snr: 1.04 - valid si-snr: 22.35
+epoch: 72, lr: 1.50e-04 - train si-snr: 1.24 - valid si-snr: 22.49
+epoch: 73, lr: 1.50e-04 - train si-snr: 1.25 - valid si-snr: 22.35
+epoch: 74, lr: 1.50e-04 - train si-snr: 1.07 - valid si-snr: 22.37
+epoch: 75, lr: 1.50e-04 - train si-snr: 1.04 - valid si-snr: 22.37
+epoch: 76, lr: 1.50e-04 - train si-snr: 1.11 - valid si-snr: 22.48
+epoch: 77, lr: 1.50e-04 - train si-snr: 1.03 - valid si-snr: 22.46
+epoch: 78, lr: 1.50e-04 - train si-snr: 9.65e-01 - valid si-snr: 22.31
+epoch: 79, lr: 1.50e-04 - train si-snr: 1.06 - valid si-snr: 22.34
+epoch: 80, lr: 1.50e-04 - train si-snr: 1.03 - valid si-snr: 22.32
+epoch: 81, lr: 1.50e-04 - train si-snr: 8.12e-01 - valid si-snr: 22.32
+epoch: 82, lr: 1.50e-04 - train si-snr: 8.76e-01 - valid si-snr: 22.33
+epoch: 83, lr: 1.50e-04 - train si-snr: 8.91e-01 - valid si-snr: 22.32
+epoch: 84, lr: 1.50e-04 - train si-snr: 9.11e-01 - valid si-snr: 22.34
+epoch: 85, lr: 1.50e-04 - train si-snr: 7.24e-01 - valid si-snr: 22.39
+epoch: 86, lr: 1.50e-04 - train si-snr: 7.65e-01 - valid si-snr: 22.34
+epoch: 87, lr: 1.50e-04 - train si-snr: 7.10e-01 - valid si-snr: 22.29
+epoch: 88, lr: 1.50e-04 - train si-snr: 7.65e-01 - valid si-snr: 22.42
+epoch: 89, lr: 1.50e-04 - train si-snr: 7.09e-01 - valid si-snr: 22.35
+epoch: 90, lr: 1.50e-04 - train si-snr: 8.13e-01 - valid si-snr: 22.38
+epoch: 91, lr: 7.50e-05 - train si-snr: 5.81e-01 - valid si-snr: 22.24
+epoch: 92, lr: 7.50e-05 - train si-snr: 3.71e-01 - valid si-snr: 22.33
+epoch: 93, lr: 7.50e-05 - train si-snr: 3.21e-01 - valid si-snr: 22.33
+epoch: 94, lr: 7.50e-05 - train si-snr: 3.48e-01 - valid si-snr: 22.29
+epoch: 95, lr: 3.75e-05 - train si-snr: 4.08e-01 - valid si-snr: 22.34
+epoch: 96, lr: 3.75e-05 - train si-snr: 2.29e-01 - valid si-snr: 22.33
+epoch: 97, lr: 3.75e-05 - train si-snr: 2.27e-01 - valid si-snr: 22.29
+epoch: 98, lr: 1.87e-05 - train si-snr: 1.28e-01 - valid si-snr: 22.27
+epoch: 99, lr: 1.87e-05 - train si-snr: 3.17e-02 - valid si-snr: 22.27
+epoch: 100, lr: 1.87e-05 - train si-snr: 6.84e-02 - valid si-snr: 22.24
+epoch: 101, lr: 1.87e-05 - train si-snr: 6.90e-02 - valid si-snr: 22.25
+epoch: 102, lr: 1.87e-05 - train si-snr: 1.53e-01 - valid si-snr: 22.28
+epoch: 103, lr: 1.87e-05 - train si-snr: 4.23e-02 - valid si-snr: 22.28
+epoch: 104, lr: 9.37e-06 - train si-snr: 7.48e-02 - valid si-snr: 22.24
+epoch: 105, lr: 9.37e-06 - train si-snr: 8.28e-02 - valid si-snr: 22.27
+epoch: 106, lr: 9.37e-06 - train si-snr: -1.19e-01 - valid si-snr: 22.26
+epoch: 107, lr: 9.37e-06 - train si-snr: 2.27e-02 - valid si-snr: 22.26
+epoch: 108, lr: 4.69e-06 - train si-snr: -9.19e-02 - valid si-snr: 22.24
+epoch: 109, lr: 4.69e-06 - train si-snr: -1.86e-02 - valid si-snr: 22.26
+epoch: 110, lr: 4.69e-06 - train si-snr: -1.29e-01 - valid si-snr: 22.26
+epoch: 111, lr: 2.34e-06 - train si-snr: -1.28e-01 - valid si-snr: 22.26
+epoch: 112, lr: 2.34e-06 - train si-snr: 1.96e-02 - valid si-snr: 22.26
+epoch: 113, lr: 2.34e-06 - train si-snr: -8.82e-02 - valid si-snr: 22.26
+epoch: 114, lr: 1.17e-06 - train si-snr: -2.95e-02 - valid si-snr: 22.25
+epoch: 115, lr: 1.17e-06 - train si-snr: 1.44e-02 - valid si-snr: 22.26
+epoch: 116, lr: 1.17e-06 - train si-snr: -2.01e-02 - valid si-snr: 22.25
+epoch: 117, lr: 5.86e-07 - train si-snr: -6.14e-02 - valid si-snr: 22.25
+epoch: 118, lr: 5.86e-07 - train si-snr: 1.49e-02 - valid si-snr: 22.25
+epoch: 119, lr: 5.86e-07 - train si-snr: -2.11e-02 - valid si-snr: 22.25
+epoch: 120, lr: 2.93e-07 - train si-snr: -8.56e-02 - valid si-snr: 22.25
+epoch: 121, lr: 2.93e-07 - train si-snr: 3.46e-02 - valid si-snr: 22.25
+epoch: 122, lr: 2.93e-07 - train si-snr: -4.48e-02 - valid si-snr: 22.26
+epoch: 123, lr: 1.46e-07 - train si-snr: -4.78e-02 - valid si-snr: 22.25
+epoch: 124, lr: 1.46e-07 - train si-snr: 4.87e-02 - valid si-snr: 22.26
+epoch: 125, lr: 1.46e-07 - train si-snr: -8.55e-02 - valid si-snr: 22.25
+epoch: 126, lr: 7.32e-08 - train si-snr: 4.56e-02 - valid si-snr: 22.25
+epoch: 127, lr: 7.32e-08 - train si-snr: -7.29e-02 - valid si-snr: 22.25
+epoch: 128, lr: 7.32e-08 - train si-snr: -4.80e-02 - valid si-snr: 22.26
+epoch: 129, lr: 3.66e-08 - train si-snr: -6.66e-02 - valid si-snr: 22.26
+epoch: 130, lr: 3.66e-08 - train si-snr: 6.62e-03 - valid si-snr: 22.26
+epoch: 131, lr: 3.66e-08 - train si-snr: -1.94e-02 - valid si-snr: 22.26
+epoch: 132, lr: 1.83e-08 - train si-snr: 1.16e-02 - valid si-snr: 22.26
+epoch: 133, lr: 1.83e-08 - train si-snr: -1.09e-01 - valid si-snr: 22.26
+epoch: 134, lr: 1.83e-08 - train si-snr: -1.16e-01 - valid si-snr: 22.26
+epoch: 135, lr: 1.00e-08 - train si-snr: 2.68e-02 - valid si-snr: 22.26
+epoch: 136, lr: 1.00e-08 - train si-snr: 3.10e-03 - valid si-snr: 22.26
+epoch: 137, lr: 1.00e-08 - train si-snr: -4.31e-02 - valid si-snr: 22.26
+epoch: 138, lr: 1.00e-08 - train si-snr: 7.30e-02 - valid si-snr: 22.26
+epoch: 139, lr: 1.00e-08 - train si-snr: -9.77e-02 - valid si-snr: 22.26
+epoch: 140, lr: 1.00e-08 - train si-snr: -1.41e-01 - valid si-snr: 22.26
+epoch: 141, lr: 1.00e-08 - train si-snr: -1.82e-02 - valid si-snr: 22.26
+epoch: 142, lr: 1.00e-08 - train si-snr: -5.03e-02 - valid si-snr: 22.26
+epoch: 143, lr: 1.00e-08 - train si-snr: -9.63e-02 - valid si-snr: 22.26
+epoch: 144, lr: 1.00e-08 - train si-snr: -1.29e-02 - valid si-snr: 22.26
+epoch: 145, lr: 1.00e-08 - train si-snr: -3.77e-02 - valid si-snr: 22.26
+epoch: 146, lr: 1.00e-08 - train si-snr: -1.36e-01 - valid si-snr: 22.26
+epoch: 147, lr: 1.00e-08 - train si-snr: -1.02e-01 - valid si-snr: 22.26
+epoch: 148, lr: 1.00e-08 - train si-snr: 1.05e-01 - valid si-snr: 22.26
+epoch: 149, lr: 1.00e-08 - train si-snr: -1.08e-01 - valid si-snr: 22.26
+epoch: 150, lr: 1.00e-08 - train si-snr: 1.28e-02 - valid si-snr: 22.26
+epoch: 151, lr: 1.00e-08 - train si-snr: -8.94e-02 - valid si-snr: 22.26
+epoch: 152, lr: 1.00e-08 - train si-snr: -9.64e-02 - valid si-snr: 22.26
+epoch: 153, lr: 1.00e-08 - train si-snr: -1.32e-01 - valid si-snr: 22.26
+epoch: 154, lr: 1.00e-08 - train si-snr: 2.86e-02 - valid si-snr: 22.26
+epoch: 155, lr: 1.00e-08 - train si-snr: -2.50e-02 - valid si-snr: 22.26
+epoch: 156, lr: 1.00e-08 - train si-snr: -1.44e-02 - valid si-snr: 22.26
+epoch: 157, lr: 1.00e-08 - train si-snr: 9.09e-02 - valid si-snr: 22.26
+epoch: 158, lr: 1.00e-08 - train si-snr: 6.12e-03 - valid si-snr: 22.26
+epoch: 159, lr: 1.00e-08 - train si-snr: -3.80e-02 - valid si-snr: 22.26
+epoch: 160, lr: 1.00e-08 - train si-snr: 4.51e-02 - valid si-snr: 22.26
+epoch: 161, lr: 1.00e-08 - train si-snr: -2.98e-02 - valid si-snr: 22.26
+epoch: 162, lr: 1.00e-08 - train si-snr: -2.20e-03 - valid si-snr: 22.26
+epoch: 163, lr: 1.00e-08 - train si-snr: -1.64e-01 - valid si-snr: 22.26
+epoch: 164, lr: 1.00e-08 - train si-snr: -3.20e-02 - valid si-snr: 22.26
+epoch: 165, lr: 1.00e-08 - train si-snr: 3.47e-03 - valid si-snr: 22.26
+epoch: 166, lr: 1.00e-08 - train si-snr: -8.60e-02 - valid si-snr: 22.26
+epoch: 167, lr: 1.00e-08 - train si-snr: 6.45e-03 - valid si-snr: 22.26
+epoch: 168, lr: 1.00e-08 - train si-snr: 1.17e-02 - valid si-snr: 22.26
+epoch: 169, lr: 1.00e-08 - train si-snr: -4.05e-02 - valid si-snr: 22.26
+epoch: 170, lr: 1.00e-08 - train si-snr: -1.26e-01 - valid si-snr: 22.26
+epoch: 171, lr: 1.00e-08 - train si-snr: -1.06e-01 - valid si-snr: 22.26
+epoch: 172, lr: 1.00e-08 - train si-snr: -1.26e-01 - valid si-snr: 22.26
+epoch: 173, lr: 1.00e-08 - train si-snr: -7.41e-02 - valid si-snr: 22.26
+epoch: 174, lr: 1.00e-08 - train si-snr: 1.57e-02 - valid si-snr: 22.26
+epoch: 175, lr: 1.00e-08 - train si-snr: -1.48e-02 - valid si-snr: 22.26
+epoch: 176, lr: 1.00e-08 - train si-snr: 6.87e-02 - valid si-snr: 22.26
+epoch: 177, lr: 1.00e-08 - train si-snr: -6.77e-02 - valid si-snr: 22.26
+epoch: 178, lr: 1.00e-08 - train si-snr: -1.75e-01 - valid si-snr: 22.26
+epoch: 179, lr: 1.00e-08 - train si-snr: -8.73e-02 - valid si-snr: 22.26
+epoch: 180, lr: 1.00e-08 - train si-snr: -7.13e-02 - valid si-snr: 22.26
+epoch: 181, lr: 1.00e-08 - train si-snr: -1.28e-01 - valid si-snr: 22.26
+epoch: 182, lr: 1.00e-08 - train si-snr: 2.53e-02 - valid si-snr: 22.26
+epoch: 183, lr: 1.00e-08 - train si-snr: 5.30e-02 - valid si-snr: 22.26
+epoch: 184, lr: 1.00e-08 - train si-snr: -6.50e-02 - valid si-snr: 22.26
+epoch: 185, lr: 1.00e-08 - train si-snr: -7.48e-02 - valid si-snr: 22.26
+epoch: 186, lr: 1.00e-08 - train si-snr: -6.33e-02 - valid si-snr: 22.26
+epoch: 187, lr: 1.00e-08 - train si-snr: -5.01e-02 - valid si-snr: 22.26
+epoch: 188, lr: 1.00e-08 - train si-snr: -2.82e-03 - valid si-snr: 22.26
+epoch: 189, lr: 1.00e-08 - train si-snr: -1.37e-01 - valid si-snr: 22.26
+epoch: 190, lr: 1.00e-08 - train si-snr: -3.86e-02 - valid si-snr: 22.26
+epoch: 191, lr: 1.00e-08 - train si-snr: -4.23e-02 - valid si-snr: 22.26
+epoch: 192, lr: 1.00e-08 - train si-snr: -7.80e-02 - valid si-snr: 22.26
+epoch: 193, lr: 1.00e-08 - train si-snr: -2.90e-02 - valid si-snr: 22.26
+epoch: 194, lr: 1.00e-08 - train si-snr: -1.21e-01 - valid si-snr: 22.26
+epoch: 195, lr: 1.00e-08 - train si-snr: 8.91e-03 - valid si-snr: 22.26
+epoch: 196, lr: 1.00e-08 - train si-snr: -5.28e-02 - valid si-snr: 22.26
+epoch: 197, lr: 1.00e-08 - train si-snr: 9.40e-02 - valid si-snr: 22.26
+epoch: 198, lr: 1.00e-08 - train si-snr: -4.55e-02 - valid si-snr: 22.26
+epoch: 199, lr: 1.00e-08 - train si-snr: -6.24e-02 - valid si-snr: 22.26
+epoch: 200, lr: 1.00e-08 - train si-snr: 5.69e-03 - valid si-snr: 22.26
+Epoch loaded: 104 - test si-snr: 20.22

Sepformer/results/sepformer_4mix/1234/env.log ADDED Viewed

	@@ -0,0 +1,90 @@

+SpeechBrain system description
+==============================
+Python version:
+3.11.13 (main, Jun  5 2025, 13:12:00) [GCC 11.2.0]
+==============================
+Installed Python packages:
+black==24.3.0
+certifi==2025.6.15
+cfgv==3.4.0
+charset-normalizer==3.4.2
+click==8.1.7
+distlib==0.3.9
+docstring_parser_fork==0.0.12
+filelock==3.18.0
+flake8==7.0.0
+fsspec==2025.5.1
+future==1.0.0
+hf-xet==1.1.5
+huggingface-hub==0.33.1
+HyperPyYAML==1.2.2
+identify==2.6.12
+idna==3.10
+iniconfig==2.1.0
+isort==5.13.2
+Jinja2==3.1.6
+joblib==1.5.1
+MarkupSafe==3.0.2
+mccabe==0.7.0
+mir_eval==0.6
+mpmath==1.3.0
+mypy_extensions==1.1.0
+networkx==3.5
+nodeenv==1.9.1
+numpy==2.3.1
+nvidia-cublas-cu12==12.6.4.1
+nvidia-cuda-cupti-cu12==12.6.80
+nvidia-cuda-nvrtc-cu12==12.6.77
+nvidia-cuda-runtime-cu12==12.6.77
+nvidia-cudnn-cu12==9.5.1.17
+nvidia-cufft-cu12==11.3.0.4
+nvidia-cufile-cu12==1.11.1.6
+nvidia-curand-cu12==10.3.7.77
+nvidia-cusolver-cu12==11.7.1.2
+nvidia-cusparse-cu12==12.5.4.2
+nvidia-cusparselt-cu12==0.6.3
+nvidia-nccl-cu12==2.26.2
+nvidia-nvjitlink-cu12==12.6.85
+nvidia-nvtx-cu12==12.6.77
+packaging==25.0
+pandas==2.3.0
+pathspec==0.12.1
+platformdirs==4.3.8
+pluggy==1.6.0
+pre_commit==4.2.0
+pycodestyle==2.11.0
+pydoclint==0.4.1
+pyflakes==3.2.0
+pygtrie==2.5.0
+pyloudnorm==0.1.1
+pytest==7.4.0
+python-dateutil==2.9.0.post0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2024.11.6
+requests==2.32.4
+ruamel.yaml==0.18.14
+ruamel.yaml.clib==0.2.12
+safetensors==0.5.3
+scipy==1.16.0
+sentencepiece==0.2.0
+six==1.17.0
+speechbrain==1.0.3
+sympy==1.14.0
+tokenizers==0.21.2
+torch==2.7.1
+torchaudio==2.7.1
+tqdm==4.67.1
+transformers==4.53.0
+triton==3.3.1
+typing_extensions==4.14.0
+tzdata==2025.2
+urllib3==2.5.0
+virtualenv==20.31.2
+yamllint==1.35.1
+==============================
+Git revision:
+476ac4f
+==============================
+CUDA version:
+12.6

Sepformer/results/sepformer_4mix/1234/hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,198 @@

+# Generated 2025-06-27 from:
+# /home/youzhenghai/github/Vocal-Separartion-Baseline/Sepformer/separation/hparams/sepformer_4mix.yaml
+# yamllint disable
+# ################################
+# Model: SepFormer for source separation
+# https://arxiv.org/abs/2010.13154
+# ################################
+#
+# Basic parameters
+# Seed needs to be set at top of yaml, before objects with parameters are made
+#
+seed: 1234
+__set_seed: !apply:speechbrain.utils.seed_everything [1234]
+# Data params
+# e.g. '/yourpath/Libri3Mix/train-clean-360/'
+# the data folder is needed even if dynamic mixing is applied
+data_folder: /data/
+# This is needed only if dynamic mixing is applied
+base_folder_dm: /yourpath/
+experiment_name: sepformer_4mix
+output_folder: results/sepformer_4mix/1234
+train_log: results/sepformer_4mix/1234/train_log.txt
+save_folder: results/sepformer_4mix/1234/save
+train_data: results/sepformer_4mix/1234/save/record_tr.csv
+valid_data: results/sepformer_4mix/1234/save/record_val.csv
+test_data: results/sepformer_4mix/1234/save/test_data.csv
+skip_prep: false
+ckpt_interval_minutes: 60
+# Experiment params
+precision: fp16 # bf16, fp16 or fp32 # Set it to True for mixed precision
+num_spks: 4
+noprogressbar: false
+save_audio: false # Save estimated sources on disk
+sample_rate: 16000
+####################### Training Parameters ####################################
+N_epochs: 200
+batch_size: 1
+lr: 0.00015
+clip_grad_norm: 5
+loss_upper_lim: 999999  # this is the upper limit for an acceptable loss
+# if True, the training sequences are cut to a specified length
+limit_training_signal_len: true
+# this is the length of sequences if we choose to limit
+# the signal length of training sequences
+training_signal_len: 64000000
+# Set it to True to dynamically create mixtures at training time
+dynamic_mixing: false
+use_wham_noise: false
+# Parameters for data augmentation
+use_wavedrop: false
+use_speedperturb: true
+use_rand_shift: false
+min_shift: -8000
+max_shift: 8000
+# Speed perturbation
+speed_changes: &id001 [95, 100, 105]
+# Frequency drop: randomly drops a number of frequency bands to zero.
+speed_perturb: !new:speechbrain.augment.time_domain.SpeedPerturb
+  orig_freq: 16000
+  speeds: *id001
+drop_freq_low: 0  # Min frequency band dropout probability
+drop_freq_high: 1  # Max frequency band dropout probability
+drop_freq_count_low: 1  # Min number of frequency bands to drop
+drop_freq_count_high: 3  # Max number of frequency bands to drop
+drop_freq_width: 0.05  # Width of frequency bands to drop
+drop_freq: !new:speechbrain.augment.time_domain.DropFreq
+  drop_freq_low: 0
+  drop_freq_high: 1
+  drop_freq_count_low: 1
+  drop_freq_count_high: 3
+  drop_freq_width: 0.05
+# Time drop: randomly drops a number of temporal chunks.
+drop_chunk_count_low: 1  # Min number of audio chunks to drop
+drop_chunk_count_high: 5  # Max number of audio chunks to drop
+drop_chunk_length_low: 1000  # Min length of audio chunks to drop
+drop_chunk_length_high: 2000  # Max length of audio chunks to drop
+drop_chunk: !new:speechbrain.augment.time_domain.DropChunk
+  drop_length_low: 1000
+  drop_length_high: 2000
+  drop_count_low: 1
+  drop_count_high: 5
+# loss thresholding -- this thresholds the training loss
+threshold_byloss: true
+threshold: -30
+# Encoder parameters
+N_encoder_out: 256
+out_channels: 256
+kernel_size: 32
+kernel_stride: 16
+d_ffn: 1024
+# Dataloader options
+dataloader_opts:
+  batch_size: 1
+  num_workers: 3
+# Specifying the network
+Encoder: &id004 !new:speechbrain.lobes.models.dual_path.Encoder
+  kernel_size: 32
+  out_channels: 256
+SBtfintra: &id002 !new:speechbrain.lobes.models.dual_path.SBTransformerBlock
+  num_layers: 8
+  d_model: 256
+  nhead: 8
+  d_ffn: 1024
+  dropout: 0
+  use_positional_encoding: true
+  norm_before: true
+SBtfinter: &id003 !new:speechbrain.lobes.models.dual_path.SBTransformerBlock
+  num_layers: 8
+  d_model: 256
+  nhead: 8
+  d_ffn: 1024
+  dropout: 0
+  use_positional_encoding: true
+  norm_before: true
+MaskNet: &id006 !new:speechbrain.lobes.models.dual_path.Dual_Path_Model
+  num_spks: 4
+  in_channels: 256
+  out_channels: 256
+  num_layers: 2
+  K: 250
+  intra_model: *id002
+  inter_model: *id003
+  norm: ln
+  linear_layer_after_inter_intra: false
+  skip_around_intra: true
+Decoder: &id005 !new:speechbrain.lobes.models.dual_path.Decoder
+  in_channels: 256
+  out_channels: 1
+  kernel_size: 32
+  stride: 16
+  bias: false
+optimizer: !name:torch.optim.Adam
+  lr: 0.00015
+  weight_decay: 0
+loss: !name:speechbrain.nnet.losses.get_si_snr_with_pitwrapper
+lr_scheduler: !new:speechbrain.nnet.schedulers.ReduceLROnPlateau
+  factor: 0.5
+  patience: 2
+  dont_halve_until_epoch: 5
+epoch_counter: &id007 !new:speechbrain.utils.epoch_loop.EpochCounter
+        # lr_scheduler: !ref <lr_scheduler>
+  limit: 200
+modules:
+  encoder: *id004
+  decoder: *id005
+  masknet: *id006
+checkpointer: !new:speechbrain.utils.checkpoints.Checkpointer
+  checkpoints_dir: results/sepformer_4mix/1234/save
+  recoverables:
+    encoder: *id004
+    decoder: *id005
+    masknet: *id006
+    counter: *id007
+train_logger: !new:speechbrain.utils.train_logger.FileTrainLogger
+  save_file: results/sepformer_4mix/1234/train_log.txt
+# # If you do not want to use the pretrained separator you can simply delete pretrained_separator field.
+# pretrained_separator: !new:speechbrain.utils.parameter_transfer.Pretrainer
+#     collect_in: !ref <save_folder>
+#     loadables:
+#         encoder: !ref <Encoder>
+#         decoder: !ref <Decoder>
+#         masknet: !ref <MaskNet>
+#     paths:
+#         encoder: speechbrain/sepformer-wsj03mix/encoder.ckpt
+#         decoder: speechbrain/sepformer-wsj03mix/decoder.ckpt
+#         masknet: speechbrain/sepformer-wsj03mix/masknet.ckpt

Sepformer/results/sepformer_4mix/1234/log.txt ADDED Viewed

	@@ -0,0 +1,762 @@

+2025-06-27 17:13:10,582 - speechbrain.utils.quirks - INFO - Applied quirks (see `speechbrain.utils.quirks`): [disable_jit_profiling, allow_tf32]
+2025-06-27 17:13:10,583 - speechbrain.utils.quirks - INFO - Excluded quirks specified by the `SB_DISABLE_QUIRKS` environment (comma-separated list): []
+2025-06-27 17:13:10,583 - speechbrain.core - INFO - Beginning experiment!
+2025-06-27 17:13:10,583 - speechbrain.core - INFO - Experiment folder: results/sepformer_4mix/1234
+2025-06-27 17:13:10,831 - speechbrain.utils.superpowers - DEBUG - black==24.3.0
+certifi==2025.6.15
+cfgv==3.4.0
+charset-normalizer==3.4.2
+click==8.1.7
+distlib==0.3.9
+docstring_parser_fork==0.0.12
+filelock==3.18.0
+flake8==7.0.0
+fsspec==2025.5.1
+future==1.0.0
+hf-xet==1.1.5
+huggingface-hub==0.33.0
+HyperPyYAML==1.2.2
+identify==2.6.12
+idna==3.10
+iniconfig==2.1.0
+isort==5.13.2
+Jinja2==3.1.6
+joblib==1.5.1
+MarkupSafe==3.0.2
+mccabe==0.7.0
+mir_eval==0.6
+mpmath==1.3.0
+mypy_extensions==1.1.0
+networkx==3.5
+nodeenv==1.9.1
+numpy==2.3.1
+nvidia-cublas-cu12==12.6.4.1
+nvidia-cuda-cupti-cu12==12.6.80
+nvidia-cuda-nvrtc-cu12==12.6.77
+nvidia-cuda-runtime-cu12==12.6.77
+nvidia-cudnn-cu12==9.5.1.17
+nvidia-cufft-cu12==11.3.0.4
+nvidia-cufile-cu12==1.11.1.6
+nvidia-curand-cu12==10.3.7.77
+nvidia-cusolver-cu12==11.7.1.2
+nvidia-cusparse-cu12==12.5.4.2
+nvidia-cusparselt-cu12==0.6.3
+nvidia-nccl-cu12==2.26.2
+nvidia-nvjitlink-cu12==12.6.85
+nvidia-nvtx-cu12==12.6.77
+packaging==25.0
+pandas==2.3.0
+pathspec==0.12.1
+platformdirs==4.3.8
+pluggy==1.6.0
+pre_commit==4.2.0
+pycodestyle==2.11.0
+pydoclint==0.4.1
+pyflakes==3.2.0
+Pygments==2.19.2
+pygtrie==2.5.0
+pyloudnorm==0.1.1
+pytest==7.4.0
+python-dateutil==2.9.0.post0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2024.11.6
+requests==2.32.4
+ruamel.yaml==0.18.14
+ruamel.yaml.clib==0.2.12
+safetensors==0.5.3
+scipy==1.16.0
+sentencepiece==0.2.0
+six==1.17.0
+speechbrain==1.0.3
+sympy==1.14.0
+tokenizers==0.21.2
+torch==2.7.1
+torchaudio==2.7.1
+tqdm==4.67.1
+transformers==4.52.4
+triton==3.3.1
+typing_extensions==4.14.0
+tzdata==2025.2
+urllib3==2.5.0
+virtualenv==20.31.2
+yamllint==1.35.1
+2025-06-27 17:13:10,836 - speechbrain.core - ERROR - Exception:
+Traceback (most recent call last):
+  File "/home/youzhenghai/github/Vocal-Separartion/Sepformer/separation/train.py", line 634, in <module>
+    train_data, valid_data, test_data = dataio_prep(hparams)
+                                        ^^^^^^^^^^^^^^^^^^^^
+  File "/home/youzhenghai/github/Vocal-Separartion/Sepformer/separation/train.py", line 446, in dataio_prep
+    train_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
+                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/speechbrain/dataio/dataset.py", line 417, in from_csv
+    data = load_data_csv(csv_path, replacements)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/speechbrain/dataio/dataio.py", line 138, in load_data_csv
+    with open(csv_path, newline="", encoding="utf-8") as csvfile:
+         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: 'results/sepformer_4mix/1234/save/record_tr.csv'
+2025-06-27 17:17:17,084 - speechbrain.utils.quirks - INFO - Applied quirks (see `speechbrain.utils.quirks`): [allow_tf32, disable_jit_profiling]
+2025-06-27 17:17:17,085 - speechbrain.utils.quirks - INFO - Excluded quirks specified by the `SB_DISABLE_QUIRKS` environment (comma-separated list): []
+2025-06-27 17:17:17,085 - speechbrain.core - INFO - Beginning experiment!
+2025-06-27 17:17:17,085 - speechbrain.core - INFO - Experiment folder: results/sepformer_4mix/1234
+2025-06-27 17:17:17,318 - speechbrain.utils.superpowers - DEBUG - black==24.3.0
+certifi==2025.6.15
+cfgv==3.4.0
+charset-normalizer==3.4.2
+click==8.1.7
+distlib==0.3.9
+docstring_parser_fork==0.0.12
+filelock==3.18.0
+flake8==7.0.0
+fsspec==2025.5.1
+future==1.0.0
+hf-xet==1.1.5
+huggingface-hub==0.33.0
+HyperPyYAML==1.2.2
+identify==2.6.12
+idna==3.10
+iniconfig==2.1.0
+isort==5.13.2
+Jinja2==3.1.6
+joblib==1.5.1
+MarkupSafe==3.0.2
+mccabe==0.7.0
+mir_eval==0.6
+mpmath==1.3.0
+mypy_extensions==1.1.0
+networkx==3.5
+nodeenv==1.9.1
+numpy==2.3.1
+nvidia-cublas-cu12==12.6.4.1
+nvidia-cuda-cupti-cu12==12.6.80
+nvidia-cuda-nvrtc-cu12==12.6.77
+nvidia-cuda-runtime-cu12==12.6.77
+nvidia-cudnn-cu12==9.5.1.17
+nvidia-cufft-cu12==11.3.0.4
+nvidia-cufile-cu12==1.11.1.6
+nvidia-curand-cu12==10.3.7.77
+nvidia-cusolver-cu12==11.7.1.2
+nvidia-cusparse-cu12==12.5.4.2
+nvidia-cusparselt-cu12==0.6.3
+nvidia-nccl-cu12==2.26.2
+nvidia-nvjitlink-cu12==12.6.85
+nvidia-nvtx-cu12==12.6.77
+packaging==25.0
+pandas==2.3.0
+pathspec==0.12.1
+platformdirs==4.3.8
+pluggy==1.6.0
+pre_commit==4.2.0
+pycodestyle==2.11.0
+pydoclint==0.4.1
+pyflakes==3.2.0
+Pygments==2.19.2
+pygtrie==2.5.0
+pyloudnorm==0.1.1
+pytest==7.4.0
+python-dateutil==2.9.0.post0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2024.11.6
+requests==2.32.4
+ruamel.yaml==0.18.14
+ruamel.yaml.clib==0.2.12
+safetensors==0.5.3
+scipy==1.16.0
+sentencepiece==0.2.0
+six==1.17.0
+speechbrain==1.0.3
+sympy==1.14.0
+tokenizers==0.21.2
+torch==2.7.1
+torchaudio==2.7.1
+tqdm==4.67.1
+transformers==4.52.4
+triton==3.3.1
+typing_extensions==4.14.0
+tzdata==2025.2
+urllib3==2.5.0
+virtualenv==20.31.2
+yamllint==1.35.1
+2025-06-27 17:17:17,325 - speechbrain.core - ERROR - Exception:
+Traceback (most recent call last):
+  File "/home/youzhenghai/github/Vocal-Separartion/Sepformer/separation/train.py", line 634, in <module>
+    train_data, valid_data, test_data = dataio_prep(hparams)
+                                        ^^^^^^^^^^^^^^^^^^^^
+  File "/home/youzhenghai/github/Vocal-Separartion/Sepformer/separation/train.py", line 446, in dataio_prep
+    train_data = sb.dataio.dataset.DynamicItemDataset.from_csv(
+                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/speechbrain/dataio/dataset.py", line 417, in from_csv
+    data = load_data_csv(csv_path, replacements)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/speechbrain/dataio/dataio.py", line 138, in load_data_csv
+    with open(csv_path, newline="", encoding="utf-8") as csvfile:
+         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+FileNotFoundError: [Errno 2] No such file or directory: 'results/sepformer_4mix/1234/save/record_tr.csv'
+2025-06-27 17:18:04,558 - speechbrain.utils.quirks - INFO - Applied quirks (see `speechbrain.utils.quirks`): [disable_jit_profiling, allow_tf32]
+2025-06-27 17:18:04,559 - speechbrain.utils.quirks - INFO - Excluded quirks specified by the `SB_DISABLE_QUIRKS` environment (comma-separated list): []
+2025-06-27 17:18:04,559 - speechbrain.core - INFO - Beginning experiment!
+2025-06-27 17:18:04,559 - speechbrain.core - INFO - Experiment folder: results/sepformer_4mix/1234
+2025-06-27 17:18:04,806 - speechbrain.utils.superpowers - DEBUG - black==24.3.0
+certifi==2025.6.15
+cfgv==3.4.0
+charset-normalizer==3.4.2
+click==8.1.7
+distlib==0.3.9
+docstring_parser_fork==0.0.12
+filelock==3.18.0
+flake8==7.0.0
+fsspec==2025.5.1
+future==1.0.0
+hf-xet==1.1.5
+huggingface-hub==0.33.0
+HyperPyYAML==1.2.2
+identify==2.6.12
+idna==3.10
+iniconfig==2.1.0
+isort==5.13.2
+Jinja2==3.1.6
+joblib==1.5.1
+MarkupSafe==3.0.2
+mccabe==0.7.0
+mir_eval==0.6
+mpmath==1.3.0
+mypy_extensions==1.1.0
+networkx==3.5
+nodeenv==1.9.1
+numpy==2.3.1
+nvidia-cublas-cu12==12.6.4.1
+nvidia-cuda-cupti-cu12==12.6.80
+nvidia-cuda-nvrtc-cu12==12.6.77
+nvidia-cuda-runtime-cu12==12.6.77
+nvidia-cudnn-cu12==9.5.1.17
+nvidia-cufft-cu12==11.3.0.4
+nvidia-cufile-cu12==1.11.1.6
+nvidia-curand-cu12==10.3.7.77
+nvidia-cusolver-cu12==11.7.1.2
+nvidia-cusparse-cu12==12.5.4.2
+nvidia-cusparselt-cu12==0.6.3
+nvidia-nccl-cu12==2.26.2
+nvidia-nvjitlink-cu12==12.6.85
+nvidia-nvtx-cu12==12.6.77
+packaging==25.0
+pandas==2.3.0
+pathspec==0.12.1
+platformdirs==4.3.8
+pluggy==1.6.0
+pre_commit==4.2.0
+pycodestyle==2.11.0
+pydoclint==0.4.1
+pyflakes==3.2.0
+Pygments==2.19.2
+pygtrie==2.5.0
+pyloudnorm==0.1.1
+pytest==7.4.0
+python-dateutil==2.9.0.post0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2024.11.6
+requests==2.32.4
+ruamel.yaml==0.18.14
+ruamel.yaml.clib==0.2.12
+safetensors==0.5.3
+scipy==1.16.0
+sentencepiece==0.2.0
+six==1.17.0
+speechbrain==1.0.3
+sympy==1.14.0
+tokenizers==0.21.2
+torch==2.7.1
+torchaudio==2.7.1
+tqdm==4.67.1
+transformers==4.52.4
+triton==3.3.1
+typing_extensions==4.14.0
+tzdata==2025.2
+urllib3==2.5.0
+virtualenv==20.31.2
+yamllint==1.35.1
+2025-06-27 17:18:05,007 - speechbrain.core - INFO - Info: precision arg from hparam file is used
+2025-06-27 17:18:05,008 - speechbrain.core - INFO - Info: noprogressbar arg from hparam file is used
+2025-06-27 17:18:05,008 - speechbrain.core - INFO - Info: ckpt_interval_minutes arg from hparam file is used
+2025-06-27 17:18:05,221 - speechbrain.core - INFO - Gradscaler enabled: `True`
+2025-06-27 17:18:05,221 - speechbrain.core - INFO - Using training precision: `--precision=fp16`
+2025-06-27 17:18:05,221 - speechbrain.core - INFO - Using evaluation precision: `--eval_precision=fp32`
+2025-06-27 17:18:05,222 - speechbrain.core - INFO - Separation Model Statistics:
+* Total Number of Trainable Parameters: 25.8M
+* Total Number of Parameters: 25.8M
+* Trainable Parameters represent 100.0000% of the total size.
+2025-06-27 17:18:06,855 - speechbrain.utils.checkpoints - INFO - Loading a checkpoint from results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00
+2025-06-27 17:18:07,209 - speechbrain.utils.epoch_loop - INFO - Going into epoch 163
+2025-06-27 17:18:10,757 - speechbrain.core - ERROR - Exception:
+Traceback (most recent call last):
+  File "/home/youzhenghai/github/Vocal-Separartion/Sepformer/separation/train.py", line 656, in <module>
+    separator.fit(
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/speechbrain/core.py", line 1575, in fit
+    self._fit_train(train_set=train_set, epoch=epoch, enable=enable)
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/speechbrain/core.py", line 1400, in _fit_train
+    loss = self.fit_batch(batch)
+           ^^^^^^^^^^^^^^^^^^^^^
+  File "/home/youzhenghai/github/Vocal-Separartion/Sepformer/separation/train.py", line 148, in fit_batch
+    self.scaler.scale(loss).backward()
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/torch/_tensor.py", line 648, in backward
+    torch.autograd.backward(
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/torch/autograd/__init__.py", line 353, in backward
+    _engine_run_backward(
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/torch/autograd/graph.py", line 824, in _engine_run_backward
+    return Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+KeyboardInterrupt
+2025-06-27 17:24:05,950 - speechbrain.utils.quirks - INFO - Applied quirks (see `speechbrain.utils.quirks`): [disable_jit_profiling, allow_tf32]
+2025-06-27 17:24:05,951 - speechbrain.utils.quirks - INFO - Excluded quirks specified by the `SB_DISABLE_QUIRKS` environment (comma-separated list): []
+2025-06-27 17:24:05,951 - speechbrain.core - INFO - Beginning experiment!
+2025-06-27 17:24:05,951 - speechbrain.core - INFO - Experiment folder: results/sepformer_4mix/1234
+2025-06-27 17:24:06,192 - speechbrain.utils.superpowers - DEBUG - black==24.3.0
+certifi==2025.6.15
+cfgv==3.4.0
+charset-normalizer==3.4.2
+click==8.1.7
+distlib==0.3.9
+docstring_parser_fork==0.0.12
+filelock==3.18.0
+flake8==7.0.0
+fsspec==2025.5.1
+future==1.0.0
+hf-xet==1.1.5
+huggingface-hub==0.33.0
+HyperPyYAML==1.2.2
+identify==2.6.12
+idna==3.10
+iniconfig==2.1.0
+isort==5.13.2
+Jinja2==3.1.6
+joblib==1.5.1
+MarkupSafe==3.0.2
+mccabe==0.7.0
+mir_eval==0.6
+mpmath==1.3.0
+mypy_extensions==1.1.0
+networkx==3.5
+nodeenv==1.9.1
+numpy==2.3.1
+nvidia-cublas-cu12==12.6.4.1
+nvidia-cuda-cupti-cu12==12.6.80
+nvidia-cuda-nvrtc-cu12==12.6.77
+nvidia-cuda-runtime-cu12==12.6.77
+nvidia-cudnn-cu12==9.5.1.17
+nvidia-cufft-cu12==11.3.0.4
+nvidia-cufile-cu12==1.11.1.6
+nvidia-curand-cu12==10.3.7.77
+nvidia-cusolver-cu12==11.7.1.2
+nvidia-cusparse-cu12==12.5.4.2
+nvidia-cusparselt-cu12==0.6.3
+nvidia-nccl-cu12==2.26.2
+nvidia-nvjitlink-cu12==12.6.85
+nvidia-nvtx-cu12==12.6.77
+packaging==25.0
+pandas==2.3.0
+pathspec==0.12.1
+platformdirs==4.3.8
+pluggy==1.6.0
+pre_commit==4.2.0
+pycodestyle==2.11.0
+pydoclint==0.4.1
+pyflakes==3.2.0
+Pygments==2.19.2
+pygtrie==2.5.0
+pyloudnorm==0.1.1
+pytest==7.4.0
+python-dateutil==2.9.0.post0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2024.11.6
+requests==2.32.4
+ruamel.yaml==0.18.14
+ruamel.yaml.clib==0.2.12
+safetensors==0.5.3
+scipy==1.16.0
+sentencepiece==0.2.0
+six==1.17.0
+speechbrain==1.0.3
+sympy==1.14.0
+tokenizers==0.21.2
+torch==2.7.1
+torchaudio==2.7.1
+tqdm==4.67.1
+transformers==4.52.4
+triton==3.3.1
+typing_extensions==4.14.0
+tzdata==2025.2
+urllib3==2.5.0
+virtualenv==20.31.2
+yamllint==1.35.1
+2025-06-27 17:24:06,389 - speechbrain.core - INFO - Info: precision arg from hparam file is used
+2025-06-27 17:24:06,390 - speechbrain.core - INFO - Info: noprogressbar arg from hparam file is used
+2025-06-27 17:24:06,390 - speechbrain.core - INFO - Info: ckpt_interval_minutes arg from hparam file is used
+2025-06-27 17:24:06,573 - speechbrain.core - INFO - Gradscaler enabled: `True`
+2025-06-27 17:24:06,573 - speechbrain.core - INFO - Using training precision: `--precision=fp16`
+2025-06-27 17:24:06,573 - speechbrain.core - INFO - Using evaluation precision: `--eval_precision=fp32`
+2025-06-27 17:24:06,574 - speechbrain.core - INFO - Separation Model Statistics:
+* Total Number of Trainable Parameters: 25.8M
+* Total Number of Parameters: 25.8M
+* Trainable Parameters represent 100.0000% of the total size.
+2025-06-27 17:24:08,245 - speechbrain.utils.checkpoints - INFO - Loading a checkpoint from results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00
+2025-06-27 17:24:08,608 - speechbrain.utils.epoch_loop - INFO - Going into epoch 163
+2025-06-27 17:24:11,017 - speechbrain.core - ERROR - Exception:
+Traceback (most recent call last):
+  File "/home/youzhenghai/github/Vocal-Separartion/Sepformer/separation/train.py", line 656, in <module>
+    separator.fit(
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/speechbrain/core.py", line 1575, in fit
+    self._fit_train(train_set=train_set, epoch=epoch, enable=enable)
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/speechbrain/core.py", line 1400, in _fit_train
+    loss = self.fit_batch(batch)
+           ^^^^^^^^^^^^^^^^^^^^^
+  File "/home/youzhenghai/github/Vocal-Separartion/Sepformer/separation/train.py", line 133, in fit_batch
+    predictions, targets = self.compute_forward(
+                           ^^^^^^^^^^^^^^^^^^^^^
+  File "/home/youzhenghai/github/Vocal-Separartion/Sepformer/separation/train.py", line 87, in compute_forward
+    est_mask = self.hparams.MaskNet(mix_w)
+               ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/speechbrain/lobes/models/dual_path.py", line 1067, in forward
+    x = self.dual_mdl[i](x)
+        ^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/speechbrain/lobes/models/dual_path.py", line 918, in forward
+    inter = self.inter_mdl(inter)
+            ^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/speechbrain/lobes/models/dual_path.py", line 638, in forward
+    return self.mdl(x + pos_enc)[0]
+           ^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1747, in _wrapped_call_impl
+    def _wrapped_call_impl(self, *args, **kwargs):
+KeyboardInterrupt
+2025-06-27 21:10:07,131 - speechbrain.utils.quirks - INFO - Applied quirks (see `speechbrain.utils.quirks`): [disable_jit_profiling, allow_tf32]
+2025-06-27 21:10:07,133 - speechbrain.utils.quirks - INFO - Excluded quirks specified by the `SB_DISABLE_QUIRKS` environment (comma-separated list): []
+2025-06-27 21:10:07,133 - speechbrain.core - INFO - Beginning experiment!
+2025-06-27 21:10:07,133 - speechbrain.core - INFO - Experiment folder: results/sepformer_4mix/1234
+2025-06-27 21:10:07,389 - speechbrain.utils.superpowers - DEBUG - black==24.3.0
+certifi==2025.6.15
+cfgv==3.4.0
+charset-normalizer==3.4.2
+click==8.1.7
+distlib==0.3.9
+docstring_parser_fork==0.0.12
+filelock==3.18.0
+flake8==7.0.0
+fsspec==2025.5.1
+future==1.0.0
+hf-xet==1.1.5
+huggingface-hub==0.33.1
+HyperPyYAML==1.2.2
+identify==2.6.12
+idna==3.10
+iniconfig==2.1.0
+isort==5.13.2
+Jinja2==3.1.6
+joblib==1.5.1
+MarkupSafe==3.0.2
+mccabe==0.7.0
+mir_eval==0.6
+mpmath==1.3.0
+mypy_extensions==1.1.0
+networkx==3.5
+nodeenv==1.9.1
+numpy==2.3.1
+nvidia-cublas-cu12==12.6.4.1
+nvidia-cuda-cupti-cu12==12.6.80
+nvidia-cuda-nvrtc-cu12==12.6.77
+nvidia-cuda-runtime-cu12==12.6.77
+nvidia-cudnn-cu12==9.5.1.17
+nvidia-cufft-cu12==11.3.0.4
+nvidia-cufile-cu12==1.11.1.6
+nvidia-curand-cu12==10.3.7.77
+nvidia-cusolver-cu12==11.7.1.2
+nvidia-cusparse-cu12==12.5.4.2
+nvidia-cusparselt-cu12==0.6.3
+nvidia-nccl-cu12==2.26.2
+nvidia-nvjitlink-cu12==12.6.85
+nvidia-nvtx-cu12==12.6.77
+packaging==25.0
+pandas==2.3.0
+pathspec==0.12.1
+platformdirs==4.3.8
+pluggy==1.6.0
+pre_commit==4.2.0
+pycodestyle==2.11.0
+pydoclint==0.4.1
+pyflakes==3.2.0
+pygtrie==2.5.0
+pyloudnorm==0.1.1
+pytest==7.4.0
+python-dateutil==2.9.0.post0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2024.11.6
+requests==2.32.4
+ruamel.yaml==0.18.14
+ruamel.yaml.clib==0.2.12
+safetensors==0.5.3
+scipy==1.16.0
+sentencepiece==0.2.0
+six==1.17.0
+speechbrain==1.0.3
+sympy==1.14.0
+tokenizers==0.21.2
+torch==2.7.1
+torchaudio==2.7.1
+tqdm==4.67.1
+transformers==4.53.0
+triton==3.3.1
+typing_extensions==4.14.0
+tzdata==2025.2
+urllib3==2.5.0
+virtualenv==20.31.2
+yamllint==1.35.1
+2025-06-27 21:10:07,393 - speechbrain.utils.superpowers - DEBUG - 476ac4f
+2025-06-27 21:10:07,996 - speechbrain.core - INFO - Info: precision arg from hparam file is used
+2025-06-27 21:10:07,997 - speechbrain.core - INFO - Info: noprogressbar arg from hparam file is used
+2025-06-27 21:10:07,997 - speechbrain.core - INFO - Info: ckpt_interval_minutes arg from hparam file is used
+2025-06-27 21:10:08,035 - speechbrain.core - INFO - Gradscaler enabled: `True`
+2025-06-27 21:10:08,035 - speechbrain.core - INFO - Using training precision: `--precision=fp16`
+2025-06-27 21:10:08,035 - speechbrain.core - INFO - Using evaluation precision: `--eval_precision=fp32`
+2025-06-27 21:10:08,036 - speechbrain.core - INFO - Separation Model Statistics:
+* Total Number of Trainable Parameters: 25.8M
+* Total Number of Parameters: 25.8M
+* Trainable Parameters represent 100.0000% of the total size.
+2025-06-27 21:10:09,782 - speechbrain.utils.checkpoints - INFO - Loading a checkpoint from results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00
+2025-06-27 21:10:10,160 - speechbrain.utils.epoch_loop - INFO - Going into epoch 163
+2025-06-27 21:10:17,953 - speechbrain.core - ERROR - Exception:
+Traceback (most recent call last):
+  File "/home/youzhenghai/github/Vocal-Separartion-Baseline/Sepformer/separation/train.py", line 656, in <module>
+    separator.fit(
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/speechbrain/core.py", line 1575, in fit
+    self._fit_train(train_set=train_set, epoch=epoch, enable=enable)
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/speechbrain/core.py", line 1400, in _fit_train
+    loss = self.fit_batch(batch)
+           ^^^^^^^^^^^^^^^^^^^^^
+  File "/home/youzhenghai/github/Vocal-Separartion-Baseline/Sepformer/separation/train.py", line 133, in fit_batch
+    predictions, targets = self.compute_forward(
+                           ^^^^^^^^^^^^^^^^^^^^^
+  File "/home/youzhenghai/github/Vocal-Separartion-Baseline/Sepformer/separation/train.py", line 87, in compute_forward
+    est_mask = self.hparams.MaskNet(mix_w)
+               ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/speechbrain/lobes/models/dual_path.py", line 1067, in forward
+    x = self.dual_mdl[i](x)
+        ^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/speechbrain/lobes/models/dual_path.py", line 918, in forward
+    inter = self.inter_mdl(inter)
+            ^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/speechbrain/lobes/models/dual_path.py", line 638, in forward
+    return self.mdl(x + pos_enc)[0]
+           ^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/speechbrain/lobes/models/transformer/Transformer.py", line 639, in forward
+    output, attention = enc_layer(
+                        ^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/speechbrain/lobes/models/transformer/Transformer.py", line 457, in forward
+    output, self_attn = self.self_att(
+                        ^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/speechbrain/nnet/attention.py", line 865, in forward
+    output, attention_weights = self.att(
+                                ^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1751, in _wrapped_call_impl
+    return self._call_impl(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/module.py", line 1762, in _call_impl
+    return forward_call(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/modules/activation.py", line 1373, in forward
+    attn_output, attn_output_weights = F.multi_head_attention_forward(
+                                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/functional.py", line 6230, in multi_head_attention_forward
+    q, k, v = _in_projection_packed(query, key, value, in_proj_weight, in_proj_bias)
+              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/torch/nn/functional.py", line 5648, in _in_projection_packed
+    return linear(q, w_q, b_q), linear(k, w_k, b_k), linear(v, w_v, b_v)
+           ^^^^^^^^^^^^^^^^^^^
+KeyboardInterrupt
+2025-06-27 21:10:50,985 - speechbrain.utils.quirks - INFO - Applied quirks (see `speechbrain.utils.quirks`): [disable_jit_profiling, allow_tf32]
+2025-06-27 21:10:50,986 - speechbrain.utils.quirks - INFO - Excluded quirks specified by the `SB_DISABLE_QUIRKS` environment (comma-separated list): []
+2025-06-27 21:10:50,986 - speechbrain.core - INFO - Beginning experiment!
+2025-06-27 21:10:50,986 - speechbrain.core - INFO - Experiment folder: results/sepformer_4mix/1234
+2025-06-27 21:10:51,243 - speechbrain.utils.superpowers - DEBUG - black==24.3.0
+certifi==2025.6.15
+cfgv==3.4.0
+charset-normalizer==3.4.2
+click==8.1.7
+distlib==0.3.9
+docstring_parser_fork==0.0.12
+filelock==3.18.0
+flake8==7.0.0
+fsspec==2025.5.1
+future==1.0.0
+hf-xet==1.1.5
+huggingface-hub==0.33.1
+HyperPyYAML==1.2.2
+identify==2.6.12
+idna==3.10
+iniconfig==2.1.0
+isort==5.13.2
+Jinja2==3.1.6
+joblib==1.5.1
+MarkupSafe==3.0.2
+mccabe==0.7.0
+mir_eval==0.6
+mpmath==1.3.0
+mypy_extensions==1.1.0
+networkx==3.5
+nodeenv==1.9.1
+numpy==2.3.1
+nvidia-cublas-cu12==12.6.4.1
+nvidia-cuda-cupti-cu12==12.6.80
+nvidia-cuda-nvrtc-cu12==12.6.77
+nvidia-cuda-runtime-cu12==12.6.77
+nvidia-cudnn-cu12==9.5.1.17
+nvidia-cufft-cu12==11.3.0.4
+nvidia-cufile-cu12==1.11.1.6
+nvidia-curand-cu12==10.3.7.77
+nvidia-cusolver-cu12==11.7.1.2
+nvidia-cusparse-cu12==12.5.4.2
+nvidia-cusparselt-cu12==0.6.3
+nvidia-nccl-cu12==2.26.2
+nvidia-nvjitlink-cu12==12.6.85
+nvidia-nvtx-cu12==12.6.77
+packaging==25.0
+pandas==2.3.0
+pathspec==0.12.1
+platformdirs==4.3.8
+pluggy==1.6.0
+pre_commit==4.2.0
+pycodestyle==2.11.0
+pydoclint==0.4.1
+pyflakes==3.2.0
+pygtrie==2.5.0
+pyloudnorm==0.1.1
+pytest==7.4.0
+python-dateutil==2.9.0.post0
+pytz==2025.2
+PyYAML==6.0.2
+regex==2024.11.6
+requests==2.32.4
+ruamel.yaml==0.18.14
+ruamel.yaml.clib==0.2.12
+safetensors==0.5.3
+scipy==1.16.0
+sentencepiece==0.2.0
+six==1.17.0
+speechbrain==1.0.3
+sympy==1.14.0
+tokenizers==0.21.2
+torch==2.7.1
+torchaudio==2.7.1
+tqdm==4.67.1
+transformers==4.53.0
+triton==3.3.1
+typing_extensions==4.14.0
+tzdata==2025.2
+urllib3==2.5.0
+virtualenv==20.31.2
+yamllint==1.35.1
+2025-06-27 21:10:51,249 - speechbrain.utils.superpowers - DEBUG - 476ac4f
+2025-06-27 21:10:51,876 - speechbrain.core - INFO - Info: precision arg from hparam file is used
+2025-06-27 21:10:51,876 - speechbrain.core - INFO - Info: noprogressbar arg from hparam file is used
+2025-06-27 21:10:51,876 - speechbrain.core - INFO - Info: ckpt_interval_minutes arg from hparam file is used
+2025-06-27 21:10:51,915 - speechbrain.core - INFO - Gradscaler enabled: `True`
+2025-06-27 21:10:51,915 - speechbrain.core - INFO - Using training precision: `--precision=fp16`
+2025-06-27 21:10:51,915 - speechbrain.core - INFO - Using evaluation precision: `--eval_precision=fp32`
+2025-06-27 21:10:51,917 - speechbrain.core - INFO - Separation Model Statistics:
+* Total Number of Trainable Parameters: 25.8M
+* Total Number of Parameters: 25.8M
+* Trainable Parameters represent 100.0000% of the total size.
+2025-06-27 21:10:52,857 - speechbrain.core - INFO - Test only mode, skipping training and validation stages.
+2025-06-27 21:10:52,859 - speechbrain.utils.checkpoints - INFO - Loading a checkpoint from results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00
+2025-06-27 21:11:31,648 - speechbrain.utils.train_logger - INFO - Epoch loaded: 48 - test si-snr: 20.60
+2025-06-27 21:12:49,750 - speechbrain.core - ERROR - Exception:
+Traceback (most recent call last):
+  File "/home/youzhenghai/github/Vocal-Separartion-Baseline/Sepformer/separation/train.py", line 666, in <module>
+    separator.save_results(test_data)
+  File "/home/youzhenghai/github/Vocal-Separartion-Baseline/Sepformer/separation/train.py", line 367, in save_results
+    sdr_baseline, _, _, _ = bss_eval_sources(
+                            ^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/mir_eval/separation.py", line 210, in bss_eval_sources
+    _bss_decomp_mtifilt(reference_sources,
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/mir_eval/separation.py", line 623, in _bss_decomp_mtifilt
+    e_interf = _project(reference_sources,
+               ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/mir_eval/separation.py", line 715, in _project
+    C = np.linalg.solve(G, D).reshape(flen, nsrc, order='F')
+        ^^^^^^^^^^^^^^^^^^^^^
+  File "/work/youzhenghai/anaconda3/envs/sb_sep/lib/python3.11/site-packages/numpy/linalg/_linalg.py", line 471, in solve
+    r = gufunc(a, b, signature=signature)
+        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+KeyboardInterrupt

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/CKPT.yaml ADDED Viewed

	@@ -0,0 +1,4 @@

+# yamllint disable
+end-of-epoch: true
+si-snr: 22.403992604029355
+unixtime: 1750946214.2858236

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/brain.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33809a026a2c1febce7b03c8aafaee4ddfc851b2c70f180f8c06bf1017f4df5c
+size 46

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/counter.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98010bd9270f9b100b6214a21754fd33bdc8d41b2bc9f9dd16ff54d3c34ffd71
+size 2

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/dataloader-TRAIN.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d253d7b7ace4e06589dd90003f047380ddfdcfb29007b4e815caf48ff09b498b
+size 4

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/decoder.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ab49185bb3560f75ce4c18769157375a051f6b3a36e0c35d027574ca9c29e42
+size 34409

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/encoder.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95ee4117e13cc2fb383208925edb71d86947024a9dd2be3da1ea25aca5ae8adf
+size 34473

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/masknet.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2c23ccb34b361feb8eeb630d4947815533cfb7dcfd54402e97edc82e032479b
+size 113629889

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/optimizer.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd09ff01fca43d3985535808946f8dcd75488e1da097ed30b148cb5c3b9114d5
+size 206898874

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-26+21-56-54+00/scaler.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:060762594d7f2f0162569b71f7b3ab95a021d06848d3088c63366abf8b98f80c
+size 1383

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/CKPT.yaml ADDED Viewed

	@@ -0,0 +1,4 @@

+# yamllint disable
+end-of-epoch: true
+si-snr: 22.415829142613383
+unixtime: 1750994609.9935129

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/brain.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33809a026a2c1febce7b03c8aafaee4ddfc851b2c70f180f8c06bf1017f4df5c
+size 46

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/counter.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79d6eaa2676189eb927f2e16a70091474078e2117c3fc607d35cdc6b591ef355
+size 3

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/dataloader-TRAIN.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d253d7b7ace4e06589dd90003f047380ddfdcfb29007b4e815caf48ff09b498b
+size 4

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/decoder.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96810d4644ba93e03d448330d0be5de5a3befc453f07b0c61f13aeca7464b2c5
+size 34409

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/encoder.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76f73bc7bdde7f931679475847d79af49d687d5eb52011f17d6a37024a222558
+size 34473

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/masknet.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30262fd31537e9349c1c1071bbd86c9a89e359ea11d5d50c48a05da03bc26e0e
+size 113629889

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/optimizer.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee4c807b50d7f9af8606acf172b2713c218ca53faf4aaa3e614e0c0a6fbac5bd
+size 206898874

Sepformer/results/sepformer_4mix/1234/save/CKPT+2025-06-27+11-23-29+00/scaler.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91cd3440b19e568449ff6d8fbb6df704d57d37fc7ad77f05146ac1de7310cded
+size 1383

Sepformer/results/sepformer_4mix/1234/save/record_tr.csv ADDED Viewed

The diff for this file is too large to render. See raw diff