niobures commited on Oct 22, 2025

Commit

658500d

verified ·

1 Parent(s): 0c64b11

ConvTasNet (code, models, paper)

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +2 -0
An empirical study of Conv-TasNet.pdf +3 -0
Conv-TasNet. Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation.pdf +3 -0
code/Conv-TasNet [jwr1995] +2 -1 original-model +74 -1 multichan +68 -1.zip +3 -0
code/Conv-TasNet [nobel861017] +16 -1 DEMO.zip +3 -0
code/Conv-TasNet [perottievan] +10.zip +3 -0
code/Conv-TasNet [yoshonabee] +8 -1.zip +3 -0
code/Conv-TasNet [zhenhaoge] +2.zip +3 -0
code/Conv-TasNet.zip +3 -0
code/Forked-Conv-TasNet [OfekCohen1] +8 -1.zip +3 -0
models/ConvTasNet-DAMP-Vocals/.gitattributes +16 -0
models/ConvTasNet-DAMP-Vocals/README.md +69 -0
models/ConvTasNet-DAMP-Vocals/metadata.json +1 -0
models/ConvTasNet-DAMP-Vocals/model.pt +3 -0
models/ConvTasNet-DAMP-Vocals/source.txt +1 -0
models/ConvTasNet-IF-Itera-SepNoisy8k-FT/.gitattributes +35 -0
models/ConvTasNet-IF-Itera-SepNoisy8k-FT/ConvTasNet-IF-Itera-SepNoisy8k-FT.pth +3 -0
models/ConvTasNet-IF-Itera-SepNoisy8k-FT/README.md +75 -0
models/ConvTasNet-IF-Itera-SepNoisy8k-FT/source.txt +1 -0
models/ConvTasNet-ONNX (broken)/conv_tasnet.onnx +3 -0
models/ConvTasNet-ONNX (broken)/conv_tasnet.py +393 -0
models/ConvTasNet-ONNX (broken)/source.txt +5 -0
models/ConvTasNet-ONNX/conv_tasnet.onnx +3 -0
models/ConvTasNet-ONNX/source.txt +2 -0
models/ConvTasNet_DAMP-VSEP_enhboth/.gitattributes +16 -0
models/ConvTasNet_DAMP-VSEP_enhboth/README.md +73 -0
models/ConvTasNet_DAMP-VSEP_enhboth/pytorch_model.bin +3 -0
models/ConvTasNet_DAMP-VSEP_enhboth/source.txt +1 -0
models/ConvTasNet_DAMPVSEP_EnglishNonEnglish_baseline/.gitattributes +27 -0
models/ConvTasNet_DAMPVSEP_EnglishNonEnglish_baseline/README.md +106 -0
models/ConvTasNet_DAMPVSEP_EnglishNonEnglish_baseline/pytorch_model.bin +3 -0
models/ConvTasNet_DAMPVSEP_EnglishNonEnglish_baseline/source.txt +1 -0
models/ConvTasNet_Libri1Mix_enhsignle_16k/.gitattributes +17 -0
models/ConvTasNet_Libri1Mix_enhsignle_16k/metadata.json +1 -0
models/ConvTasNet_Libri1Mix_enhsignle_16k/model.pt +3 -0
models/ConvTasNet_Libri1Mix_enhsignle_16k/source.txt +1 -0
models/ConvTasNet_Libri1Mix_enhsingle_8k/.gitattributes +16 -0
models/ConvTasNet_Libri1Mix_enhsingle_8k/README.md +73 -0
models/ConvTasNet_Libri1Mix_enhsingle_8k/pytorch_model.bin +3 -0
models/ConvTasNet_Libri1Mix_enhsingle_8k/source.txt +1 -0
models/ConvTasNet_Libri2Mix_SepClean/.gitattributes +34 -0
models/ConvTasNet_Libri2Mix_SepClean/README.md +25 -0
models/ConvTasNet_Libri2Mix_SepClean/model.bin +3 -0
models/ConvTasNet_Libri2Mix_SepClean/source.txt +1 -0
models/ConvTasNet_Libri2Mix_sepclean_16k/.gitattributes +9 -0
models/ConvTasNet_Libri2Mix_sepclean_16k/README.md +74 -0
models/ConvTasNet_Libri2Mix_sepclean_16k/pytorch_model.bin +3 -0
models/ConvTasNet_Libri2Mix_sepclean_16k/source.txt +1 -0
models/ConvTasNet_Libri2Mix_sepclean_8k/.gitattributes +9 -0
models/ConvTasNet_Libri2Mix_sepclean_8k/README.md +75 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+An[[:space:]]empirical[[:space:]]study[[:space:]]of[[:space:]]Conv-TasNet.pdf filter=lfs diff=lfs merge=lfs -text
+Conv-TasNet.[[:space:]]Surpassing[[:space:]]Ideal[[:space:]]Time-Frequency[[:space:]]Magnitude[[:space:]]Masking[[:space:]]for[[:space:]]Speech[[:space:]]Separation.pdf filter=lfs diff=lfs merge=lfs -text

An empirical study of Conv-TasNet.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2eaf57ff260e0e5f6b7c91ce84666dcdbda886639df6f759c85b5a4dbb6cfa99
+size 2052626

Conv-TasNet. Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27983424312ccfe350faa0cafbeff880a5b7ac165ecc74114b8f370eed20e9ce
+size 1121503

code/Conv-TasNet [jwr1995] +2 -1 original-model +74 -1 multichan +68 -1.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60f7e7dcf59d3c2c4a2e18bba2241b9e993690baf5f38c8e02121b38d0db8ad3
+size 2722654

code/Conv-TasNet [nobel861017] +16 -1 DEMO.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c602cf74f1f83271458f77e4d080aab50b7ff565fa7cf36e622751084e39413e
+size 119439140

code/Conv-TasNet [perottievan] +10.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05e9da2c9ae3f630622f6f92a34bf0f7a55e4046813d3f81e75cf7f711b82df0
+size 2635035

code/Conv-TasNet [yoshonabee] +8 -1.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e940a912feffdb915a3159598abec64eda6ba9163040822654d4d902534315f
+size 2574608

code/Conv-TasNet [zhenhaoge] +2.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f79df4cd604fb52a6d9293daedbb7a6128d15a467891b85cd29a081b44a74ee
+size 2683582

code/Conv-TasNet.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e81ade8475daa75010b757bbe075b3621c35fee4aa3bf29fa3cfb45473df038f
+size 2620033

code/Forked-Conv-TasNet [OfekCohen1] +8 -1.zip ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:347cd40cccd86f013501f1197f8505f75247fdbf2a2443aff8621ae6cf4ed31f
+size 2439577

models/ConvTasNet-DAMP-Vocals/.gitattributes ADDED Viewed

	@@ -0,0 +1,16 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text

models/ConvTasNet-DAMP-Vocals/README.md ADDED Viewed

	@@ -0,0 +1,69 @@

+---
+tags:
+- audacity
+inference: false
+sample_rate: 8000
+---
+This is an Audacity wrapper for the model, forked from the repository `groadabike/ConvTasNet_DAMP-VSEP_enhboth`,
+This model was trained using the Asteroid library: https://github.com/asteroid-team/asteroid.
+The following info was copied directly from `groadabike/ConvTasNet_DAMP-VSEP_enhboth`:
+### Description:
+This model was trained by Gerardo Roa Dabike using Asteroid. It was trained on the enh_both task of the DAMP-VSEP dataset.
+### Training config:
+```yaml
+data:
+    channels: 1
+    n_src: 2
+    root_path: data
+    sample_rate: 16000
+    samples_per_track: 10
+    segment: 3.0
+    task: enh_both
+filterbank:
+    kernel_size: 20
+    n_filters: 256
+    stride: 10
+main_args:
+    exp_dir: exp/train_convtasnet
+    help: None
+masknet:
+    bn_chan: 256
+    conv_kernel_size: 3
+    hid_chan: 512
+    mask_act: relu
+    n_blocks: 8
+    n_repeats: 4
+    n_src: 2
+    norm_type: gLN
+    skip_chan: 256
+optim:
+    lr: 0.0003
+    optimizer: adam
+    weight_decay: 0.0
+positional arguments:
+training:
+   batch_size: 12
+    early_stop: True
+    epochs: 50
+    half_lr: True
+    num_workers: 12
+```
+### Results:
+```yaml
+si_sdr: 14.018196157142519
+si_sdr_imp: 14.017103133809577
+sdr: 14.498517291333885
+sdr_imp: 14.463389151567865
+sir: 24.149634529133372
+sir_imp: 24.11450638936735
+sar: 15.338597389045935
+sar_imp: -137.30634122401517
+stoi: 0.7639416744417206
+stoi_imp: 0.1843383526963759
+```
+### License notice:
+This work "ConvTasNet_DAMP-VSEP_enhboth" is a derivative of DAMP-VSEP: Smule Digital Archive of Mobile Performances - Vocal Separation (Version 1.0.1) by Smule, Inc, used under Smule's Research Data License Agreement (Research only). "ConvTasNet_DAMP-VSEP_enhboth" is licensed under Attribution-ShareAlike 3.0 Unported by Gerardo Roa Dabike.

models/ConvTasNet-DAMP-Vocals/metadata.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"sample_rate": 8000, "domain_tags": ["music"], "tags": ["vocals separation"], "effect_type": "waveform-to-waveform", "multichannel": false, "labels": ["source-0", "source-1"], "short_description": "Use me for separating vocals from music!", "long_description": "Instant karaoke! A vocals separation model, trained on the DAMP dataset. Forked from groadabike/ConvTasNet_DAMP-VSEP_enhboth. Trained using Asteroid."}

models/ConvTasNet-DAMP-Vocals/model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2304be278f6d81ca09b27fc8d68359fa66fb7d2d46b65a8da38fb854fceb2648
+size 52373994

models/ConvTasNet-DAMP-Vocals/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/hugggof/ConvTasNet-DAMP-Vocals

models/ConvTasNet-IF-Itera-SepNoisy8k-FT/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

models/ConvTasNet-IF-Itera-SepNoisy8k-FT/ConvTasNet-IF-Itera-SepNoisy8k-FT.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62d4bd9e929d95b7b407778c03b29b8dc6fee87d826ab4bea18aba5f9ac406bd
+size 20273170

models/ConvTasNet-IF-Itera-SepNoisy8k-FT/README.md ADDED Viewed

	@@ -0,0 +1,75 @@

+---
+license: mit
+language:
+- id
+- en
+library_name: pytorch
+tags:
+- audio-source-separation
+- speech-separation
+- convtasnet
+- asteroid
+- itera
+datasets:
+- librimix
+- custom-indonesian-noisy-speech
+metrics:
+- si-sdr
+base_model: JorisCos/ConvTasNet_Libri2Mix_sepnoisy_8k
+pipeline_tag: audio-to-audio
+---
+## Fine-tuned model: [FransXav/ConvTasNet-IF-Itera-SepNoisy8k-FT](https://huggingface.co/FransXav/ConvTasNet-IF-Itera-SepNoisy8k-FT)
+Model ini adalah versi *fine-tuned* dari [`JorisCos/ConvTasNet_Libri2Mix_sepnoisy_8k`](https://huggingface.co/JorisCos/ConvTasNet_Libri2Mix_sepnoisy_8k).
+### Description:
+Model ini di-*fine-tuning* oleh peneliti dari **Teknik Informatika, Institut Teknologi Sumatera (ITERA)**. Proses *fine-tuning* menggunakan skrip yang tersedia di [repositori GitHub proyek](https://github.com/fransiskus-121140010/itera-informatics-convtasnet-ft). Model dilatih pada dataset *custom* yang terdiri dari campuran audio vokal berbahasa Indonesia dengan beragam *noise*.
+### Fine-tuning config:
+```yaml
+# Konfigurasi yang digunakan selama fine-tuning
+data:
+  root: "data/processed/"
+  sample_rate: 8000
+  segment_seconds: 4
+  num_workers: 4
+training:
+  project_name: "itera-speech-separation-ft"
+  model_name: "ConvTasNet-ITERA-FT" # Nama yang digunakan selama training
+  epochs: 50
+  batch_size: 8
+  learning_rate: 0.0005
+  gradient_clip_val: 0.5
+  precision: "16-mixed"
+  early_stopping_patience: 5
+model:
+  freeze_encoder_decoder: false
+remix:
+  dynamic: true
+  snr_low: 0.0
+  snr_high: 10.0
+```
+## Results
+Evaluasi pada test set internal kami menunjukkan hasil sebagai berikut:
+```yaml
+si_sdr:
+    baseline_score: -30.2842
+    fine_tuned_score: -24.9016
+    improvement: +5.3826
+```
+### License Notice
+This work, "[NAMA_USERNAME_ANDA]/itera-informatics-convtasnet-ft", is a derivative of [`JorisCos/ConvTasNet_Libri2Mix_sepnoisy_8k`](https://huggingface.co/JorisCos/ConvTasNet_Libri2Mix_sepnoisy_8k). The original work is a derivative of:
+> * [LibriSpeech ASR corpus](https://www.openslr.org/12) by Vassil Panayotov, used under [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/);
+> * The WSJ0 Hipster Ambient Mixtures dataset by [Whisper.ai](https://whisper.ai/), used under [CC BY-NC 4.0](https://creativecommons.org/licenses/by-nc/4.0/).
+>
+> The original work is licensed under [Attribution-ShareAlike 3.0 Unported](https://creativecommons.org/licenses/by-sa/3.0/) by Joris Cosentino.
+This derivative work is licensed under the **[MIT License](https://opensource.org/licenses/MIT)** by the project authors at Institut Teknologi Sumatera.

models/ConvTasNet-IF-Itera-SepNoisy8k-FT/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/FransXav/ConvTasNet-IF-Itera-SepNoisy8k-FT

models/ConvTasNet-ONNX (broken)/conv_tasnet.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a48dec63f5c8691482d8cd5560fa1ba7b3d449fff378fa8085fc66012186a6c
+size 35618928

models/ConvTasNet-ONNX (broken)/conv_tasnet.py ADDED Viewed

	@@ -0,0 +1,393 @@

+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from signal_processors.conv_tasnet.utils import overlap_and_add
+EPS = 1e-8
+class ConvTasNet(nn.Module):
+    def __init__(self, N, L, B, H, P, X, R, C, norm_type="gLN", causal=False,
+                 mask_nonlinear='relu'):
+        """
+        Args:
+            N: Number of filters in autoencoder
+            L: Length of the filters (in samples)
+            B: Number of channels in bottleneck 1 × 1-conv block
+            H: Number of channels in convolutional blocks
+            P: Kernel size in convolutional blocks
+            X: Number of convolutional blocks in each repeat
+            R: Number of repeats
+            C: Number of speakers
+            norm_type: BN, gLN, cLN
+            causal: causal or non-causal
+            mask_nonlinear: use which non-linear function to generate mask
+        """
+        super(ConvTasNet, self).__init__()
+        # Hyper-parameter
+        self.N, self.L, self.B, self.H, self.P, self.X, self.R, self.C = N, L, B, H, P, X, R, C
+        self.norm_type = norm_type
+        self.causal = causal
+        self.mask_nonlinear = mask_nonlinear
+        # Components
+        self.encoder = Encoder(L, N)
+        self.separator = TemporalConvNet(N, B, H, P, X, R, C, norm_type, causal, mask_nonlinear)
+        self.decoder = Decoder(N, L)
+        # init
+        for p in self.parameters():
+            if p.dim() > 1:
+                nn.init.xavier_normal_(p)
+    def forward(self, mixture):
+        """
+        Args:
+            mixture: [M, T], M is batch size, T is #samples
+        Returns:
+            est_source: [M, C, T]
+        """
+        mixture_w = self.encoder(mixture)
+        est_mask = self.separator(mixture_w)
+        est_source = self.decoder(mixture_w, est_mask)
+        # T changed after conv1d in encoder, fix it here
+        # T_origin = mixture.size(-1)
+        # T_conv = est_source.size(-1)
+        T_origin = torch.tensor(88200)
+        T_conv = torch.tensor(88200)
+        est_source = F.pad(est_source, (0, T_origin - T_conv))
+        return est_source
+    @classmethod
+    def load_model(cls, path):
+        # Load to CPU
+        package = torch.load(path, map_location=lambda storage, loc: storage)
+        model = cls.load_model_from_package(package)
+        return model
+    @classmethod
+    def load_model_from_package(cls, package):
+        model = cls(package['N'], package['L'], package['B'], package['H'],
+                    package['P'], package['X'], package['R'], package['C'],
+                    norm_type=package['norm_type'], causal=package['causal'],
+                    mask_nonlinear=package['mask_nonlinear'])
+        model.load_state_dict(package['state_dict'])
+        return model
+    @staticmethod
+    def serialize(model, optimizer, epoch, tr_loss=None, cv_loss=None):
+        package = {
+            # hyper-parameter
+            'N': model.N, 'L': model.L, 'B': model.B, 'H': model.H,
+            'P': model.P, 'X': model.X, 'R': model.R, 'C': model.C,
+            'norm_type': model.norm_type, 'causal': model.causal,
+            'mask_nonlinear': model.mask_nonlinear,
+            # state
+            'state_dict': model.state_dict(),
+            'optim_dict': optimizer.state_dict(),
+            'epoch': epoch
+        }
+        if tr_loss is not None:
+            package['tr_loss'] = tr_loss
+            package['cv_loss'] = cv_loss
+        return package
+class Encoder(nn.Module):
+    """Estimation of the nonnegative mixture weight by a 1-D conv layer.
+    """
+    def __init__(self, L, N):
+        super(Encoder, self).__init__()
+        # Hyper-parameter
+        self.L, self.N = L, N
+        # Components
+        # 50% overlap
+        self.conv1d_U = nn.Conv1d(1, N, kernel_size=L, stride=L // 2, bias=False)
+    def forward(self, mixture):
+        """
+        Args:
+            mixture: [M, T], M is batch size, T is #samples
+        Returns:
+            mixture_w: [M, N, K], where K = (T-L)/(L/2)+1 = 2T/L-1
+        """
+        mixture = torch.unsqueeze(mixture, 1)  # [M, 1, T]
+        mixture_w = F.relu(self.conv1d_U(mixture))  # [M, N, K]
+        return mixture_w
+class Decoder(nn.Module):
+    def __init__(self, N, L):
+        super(Decoder, self).__init__()
+        # Hyper-parameter
+        self.N, self.L = N, L
+        # Components
+        self.basis_signals = nn.Linear(N, L, bias=False)
+    def forward(self, mixture_w, est_mask):
+        """
+        Args:
+            mixture_w: [M, N, K]
+            est_mask: [M, C, N, K]
+        Returns:
+            est_source: [M, C, T]
+        """
+        # D = W * M
+        source_w = torch.unsqueeze(mixture_w, 1) * est_mask  # [M, C, N, K]
+        source_w = torch.transpose(source_w, 2, 3)  # [M, C, K, N]
+        # S = DV
+        est_source = self.basis_signals(source_w)  # [M, C, K, L]
+        est_source = overlap_and_add(est_source, self.L // 2)  # M x C x T
+        return est_source
+class TemporalConvNet(nn.Module):
+    def __init__(self, N, B, H, P, X, R, C, norm_type="gLN", causal=False,
+                 mask_nonlinear='relu'):
+        """
+        Args:
+            N: Number of filters in autoencoder
+            B: Number of channels in bottleneck 1 × 1-conv block
+            H: Number of channels in convolutional blocks
+            P: Kernel size in convolutional blocks
+            X: Number of convolutional blocks in each repeat
+            R: Number of repeats
+            C: Number of speakers
+            norm_type: BN, gLN, cLN
+            causal: causal or non-causal
+            mask_nonlinear: use which non-linear function to generate mask
+        """
+        super(TemporalConvNet, self).__init__()
+        # Hyper-parameter
+        self.C = C
+        self.mask_nonlinear = mask_nonlinear
+        # Components
+        # [M, N, K] -> [M, N, K]
+        layer_norm = ChannelwiseLayerNorm(N)
+        # [M, N, K] -> [M, B, K]
+        bottleneck_conv1x1 = nn.Conv1d(N, B, 1, bias=False)
+        # [M, B, K] -> [M, B, K]
+        repeats = []
+        for r in range(R):
+            blocks = []
+            for x in range(X):
+                dilation = 2 ** x
+                padding = (P - 1) * dilation if causal else (P - 1) * dilation // 2
+                blocks += [TemporalBlock(B, H, P, stride=1,
+                                         padding=padding,
+                                         dilation=dilation,
+                                         norm_type=norm_type,
+                                         causal=causal)]
+            repeats += [nn.Sequential(*blocks)]
+        temporal_conv_net = nn.Sequential(*repeats)
+        # [M, B, K] -> [M, C*N, K]
+        mask_conv1x1 = nn.Conv1d(B, C * N, 1, bias=False)
+        # Put together
+        self.network = nn.Sequential(layer_norm,
+                                     bottleneck_conv1x1,
+                                     temporal_conv_net,
+                                     mask_conv1x1)
+    def forward(self, mixture_w):
+        """
+        Keep this API same with TasNet
+        Args:
+            mixture_w: [M, N, K], M is batch size
+        returns:
+            est_mask: [M, C, N, K]
+        """
+        M, N, K = mixture_w.size()
+        score = self.network(mixture_w)  # [M, N, K] -> [M, C*N, K]
+        score = score.view(M, self.C, N, K)  # [M, C*N, K] -> [M, C, N, K]
+        if self.mask_nonlinear == 'softmax':
+            est_mask = F.softmax(score, dim=1)
+        elif self.mask_nonlinear == 'relu':
+            est_mask = F.relu(score)
+        else:
+            raise ValueError("Unsupported mask non-linear function")
+        return est_mask
+class TemporalBlock(nn.Module):
+    def __init__(self, in_channels, out_channels, kernel_size,
+                 stride, padding, dilation, norm_type="gLN", causal=False):
+        super(TemporalBlock, self).__init__()
+        # [M, B, K] -> [M, H, K]
+        conv1x1 = nn.Conv1d(in_channels, out_channels, 1, bias=False)
+        prelu = nn.PReLU()
+        norm = chose_norm(norm_type, out_channels)
+        # [M, H, K] -> [M, B, K]
+        dsconv = DepthwiseSeparableConv(out_channels, in_channels, kernel_size,
+                                        stride, padding, dilation, norm_type,
+                                        causal)
+        # Put together
+        self.net = nn.Sequential(conv1x1, prelu, norm, dsconv)
+    def forward(self, x):
+        """
+        Args:
+            x: [M, B, K]
+        Returns:
+            [M, B, K]
+        """
+        residual = x
+        out = self.net(x)
+        # TODO: when P = 3 here works fine, but when P = 2 maybe need to pad?
+        return out + residual  # look like w/o F.relu is better than w/ F.relu
+        # return F.relu(out + residual)
+class DepthwiseSeparableConv(nn.Module):
+    def __init__(self, in_channels, out_channels, kernel_size,
+                 stride, padding, dilation, norm_type="gLN", causal=False):
+        super(DepthwiseSeparableConv, self).__init__()
+        # Use `groups` option to implement depthwise convolution
+        # [M, H, K] -> [M, H, K]
+        depthwise_conv = nn.Conv1d(in_channels, in_channels, kernel_size,
+                                   stride=stride, padding=padding,
+                                   dilation=dilation, groups=in_channels,
+                                   bias=False)
+        if causal:
+            chomp = Chomp1d(padding)
+        prelu = nn.PReLU()
+        norm = chose_norm(norm_type, in_channels)
+        # [M, H, K] -> [M, B, K]
+        pointwise_conv = nn.Conv1d(in_channels, out_channels, 1, bias=False)
+        # Put together
+        if causal:
+            self.net = nn.Sequential(depthwise_conv, chomp, prelu, norm,
+                                     pointwise_conv)
+        else:
+            self.net = nn.Sequential(depthwise_conv, prelu, norm,
+                                     pointwise_conv)
+    def forward(self, x):
+        """
+        Args:
+            x: [M, H, K]
+        Returns:
+            result: [M, B, K]
+        """
+        return self.net(x)
+class Chomp1d(nn.Module):
+    """To ensure the output length is the same as the input.
+    """
+    def __init__(self, chomp_size):
+        super(Chomp1d, self).__init__()
+        self.chomp_size = chomp_size
+    def forward(self, x):
+        """
+        Args:
+            x: [M, H, Kpad]
+        Returns:
+            [M, H, K]
+        """
+        return x[:, :, :-self.chomp_size].contiguous()
+def chose_norm(norm_type, channel_size):
+    """The input of normlization will be (M, C, K), where M is batch size,
+       C is channel size and K is sequence length.
+    """
+    if norm_type == "gLN":
+        return GlobalLayerNorm(channel_size)
+    elif norm_type == "cLN":
+        return ChannelwiseLayerNorm(channel_size)
+    else:  # norm_type == "BN":
+        # Given input (M, C, K), nn.BatchNorm1d(C) will accumulate statics
+        # along M and K, so this BN usage is right.
+        return nn.BatchNorm1d(channel_size)
+# TODO: Use nn.LayerNorm to impl cLN to speed up
+class ChannelwiseLayerNorm(nn.Module):
+    """Channel-wise Layer Normalization (cLN)"""
+    def __init__(self, channel_size):
+        super(ChannelwiseLayerNorm, self).__init__()
+        self.gamma = nn.Parameter(torch.Tensor(1, channel_size, 1))  # [1, N, 1]
+        self.beta = nn.Parameter(torch.Tensor(1, channel_size, 1))  # [1, N, 1]
+        self.reset_parameters()
+    def reset_parameters(self):
+        self.gamma.data.fill_(1)
+        self.beta.data.zero_()
+    def forward(self, y):
+        """
+        Args:
+            y: [M, N, K], M is batch size, N is channel size, K is length
+        Returns:
+            cLN_y: [M, N, K]
+        """
+        mean = torch.mean(y, dim=1, keepdim=True)  # [M, 1, K]
+        # var = torch.var(y, dim=1, keepdim=True, unbiased=False)  # [M, 1, K]
+        var = (torch.pow(y - mean, 2)).mean(dim=1, keepdim=True)
+        cLN_y = self.gamma * (y - mean) / torch.pow(var + EPS, 0.5) + self.beta
+        return cLN_y
+class GlobalLayerNorm(nn.Module):
+    """Global Layer Normalization (gLN)"""
+    def __init__(self, channel_size):
+        super(GlobalLayerNorm, self).__init__()
+        self.gamma = nn.Parameter(torch.Tensor(1, channel_size, 1))  # [1, N, 1]
+        self.beta = nn.Parameter(torch.Tensor(1, channel_size, 1))  # [1, N, 1]
+        self.reset_parameters()
+    def reset_parameters(self):
+        self.gamma.data.fill_(1)
+        self.beta.data.zero_()
+    def forward(self, y):
+        """
+        Args:
+            y: [M, N, K], M is batch size, N is channel size, K is length
+        Returns:
+            gLN_y: [M, N, K]
+        """
+        # TODO: in torch 1.0, torch.mean() support dim list
+        mean = y.mean(dim=1, keepdim=True).mean(dim=2, keepdim=True)  # [M, 1, 1]
+        var = (torch.pow(y - mean, 2)).mean(dim=1, keepdim=True).mean(dim=2, keepdim=True)
+        gLN_y = self.gamma * (y - mean) / torch.pow(var + EPS, 0.5) + self.beta
+        return gLN_y
+if __name__ == "__main__":
+    torch.manual_seed(123)
+    M, N, L, T = 2, 3, 4, 12
+    K = 2 * T // L - 1
+    B, H, P, X, R, C, norm_type, causal = 2, 3, 3, 3, 2, 2, "gLN", False
+    mixture = torch.randint(3, (M, T))
+    # test Encoder
+    encoder = Encoder(L, N)
+    encoder.conv1d_U.weight.data = torch.randint(2, encoder.conv1d_U.weight.size())
+    mixture_w = encoder(mixture)
+    print('mixture', mixture)
+    print('U', encoder.conv1d_U.weight)
+    print('mixture_w', mixture_w)
+    print('mixture_w size', mixture_w.size())
+    # test TemporalConvNet
+    separator = TemporalConvNet(N, B, H, P, X, R, C, norm_type=norm_type, causal=causal)
+    est_mask = separator(mixture_w)
+    print('est_mask', est_mask)
+    # test Decoder
+    decoder = Decoder(N, L)
+    est_mask = torch.randint(2, (B, K, C, N))
+    est_source = decoder(mixture_w, est_mask)
+    print('est_source', est_source)
+    # test Conv-TasNet
+    conv_tasnet = ConvTasNet(N, L, B, H, P, X, R, C, norm_type=norm_type)
+    est_source = conv_tasnet(mixture)
+    print('est_source', est_source)
+    print('est_source size', est_source.size())

models/ConvTasNet-ONNX (broken)/source.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+https://github.com/onnx/onnx/issues/3067
+https://github.com/pytorch/pytorch/issues/46898
+https://github.com/pytorch/pytorch/issues/47182
+https://drive.google.com/file/d/1we2YpPVWVlIPNTXT6N92x_lH6fTRTd4r/view?usp=sharing
+https://drive.google.com/file/d/1-UEej2yIXsvZWmN-VYdHHwSeIrxrS4BQ/view?usp=sharing

models/ConvTasNet-ONNX/conv_tasnet.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:781e8fcef71fdf3589fcc44ae44601f21d51d5d85381cfdf77d435a8e6720745
+size 35449169

models/ConvTasNet-ONNX/source.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ https://github.com/PINTO0309/onnx2tf/issues/447
2	+ https://drive.google.com/file/d/189UHTs9OvDiNBc6BiZDG5zde2zSyTe6E/view

models/ConvTasNet_DAMP-VSEP_enhboth/.gitattributes ADDED Viewed

	@@ -0,0 +1,16 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text

models/ConvTasNet_DAMP-VSEP_enhboth/README.md ADDED Viewed

	@@ -0,0 +1,73 @@

+---
+tags:
+- asteroid
+- audio
+- ConvTasNet
+- audio-to-audio
+datasets:
+- DAMP-VSEP
+license: cc-by-sa-4.0
+---
+## Asteroid model `groadabike/ConvTasNet_DAMP-VSEP_enhboth`
+Imported from [Zenodo](https://zenodo.org/record/3994193)
+### Description:
+This model was trained by Gerardo Roa Dabike using Asteroid. It was trained on the enh_both task of the DAMP-VSEP dataset.
+### Training config:
+```yaml
+data:
+    channels: 1
+    n_src: 2
+    root_path: data
+    sample_rate: 16000
+    samples_per_track: 10
+    segment: 3.0
+    task: enh_both
+filterbank:
+    kernel_size: 20
+    n_filters: 256
+    stride: 10
+main_args:
+    exp_dir: exp/train_convtasnet
+    help: None
+masknet:
+    bn_chan: 256
+    conv_kernel_size: 3
+    hid_chan: 512
+    mask_act: relu
+    n_blocks: 8
+    n_repeats: 4
+    n_src: 2
+    norm_type: gLN
+    skip_chan: 256
+optim:
+    lr: 0.0003
+    optimizer: adam
+    weight_decay: 0.0
+positional arguments:
+training:
+   batch_size: 12
+    early_stop: True
+    epochs: 50
+    half_lr: True
+    num_workers: 12
+```
+### Results:
+```yaml
+si_sdr: 14.018196157142519
+si_sdr_imp: 14.017103133809577
+sdr: 14.498517291333885
+sdr_imp: 14.463389151567865
+sir: 24.149634529133372
+sir_imp: 24.11450638936735
+sar: 15.338597389045935
+sar_imp: -137.30634122401517
+stoi: 0.7639416744417206
+stoi_imp: 0.1843383526963759
+```
+### License notice:
+This work "ConvTasNet_DAMP-VSEP_enhboth" is a derivative of DAMP-VSEP: Smule Digital Archive of Mobile Performances - Vocal Separation (Version 1.0.1) by Smule, Inc, used under Smule's Research Data License Agreement (Research only). "ConvTasNet_DAMP-VSEP_enhboth" is licensed under Attribution-ShareAlike 3.0 Unported by Gerardo Roa Dabike.

models/ConvTasNet_DAMP-VSEP_enhboth/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8519e8658572f0d3a5e07002849337cb0ff07dcf3b3a641244e0905ceb0adc44
+size 51990656

models/ConvTasNet_DAMP-VSEP_enhboth/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/groadabike/ConvTasNet_DAMP-VSEP_enhboth

models/ConvTasNet_DAMPVSEP_EnglishNonEnglish_baseline/.gitattributes ADDED Viewed

	@@ -0,0 +1,27 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

models/ConvTasNet_DAMPVSEP_EnglishNonEnglish_baseline/README.md ADDED Viewed

	@@ -0,0 +1,106 @@

+---
+tags:
+- asteroid
+- audio
+- ConvTasNet
+- audio-to-audio
+datasets:
+- DAMP-VSEP
+- Singing/Accompaniment Separation
+license: cc-by-sa-4.0
+---
+## Description:
+This model was trained by Gerardo Roa using the dampvsep recipe in Asteroid.
+It was trained on the `singing/accompaniment` task of the `DAMP-VSEP` dataset.
+## Training config:
+```yaml
+data:
+  channels: 1
+  emb_model: 'no'
+  metadata_path: metadata
+  mixture: remix
+  root_path: /fastdata/acp13gr/DAMP/DAMP-VSEP
+  sample_rate: 16000
+  train_set: english_nonenglish
+filterbank:
+  kernel_size: 20
+  n_filters: 256
+  stride: 10
+main_args:
+  exp_dir: exp/train_convtasnet_remix-no-0.0-english_nonenglish-0.0005-jade
+  help: null
+masknet:
+  bn_chan: 256
+  conv_kernel_size: 3
+  hid_chan: 512
+  mask_act: relu
+  n_blocks: 10
+  n_repeats: 4
+  n_src: 2
+  norm_type: gLN
+  skip_chan: 256
+optim:
+  lr: 0.0005
+  optimizer: adam
+  weight_decay: 0.0
+positional arguments: {}
+training:
+  batch_size: 7
+  early_stop: true
+  epochs: 50
+  half_lr: true
+  loss_alpha: 0.0
+  num_workers: 10
+```
+## Results:
+```yaml
+"si_sdr": 15.111802516750586,
+"si_sdr_imp": 15.178209807687663,
+"si_sdr_s0": 12.160261214703553,
+"si_sdr_s0_imp": 17.434593619085675,
+"si_sdr_s1": 18.063343818797623,
+"si_sdr_s1_imp": 12.92182599628965,
+"sdr": 15.959722569460281,
+"sdr_imp": 14.927002467087567,
+"sdr_s0": 13.270412028426595,
+"sdr_s0_imp": 16.45867572657551,
+"sdr_s1": 18.64903311049397,
+"sdr_s1_imp": 13.39532920759962,
+"sir": 23.935932341084754,
+"sir_imp": 22.903212238712012,
+"sir_s0": 22.30777879911744,
+"sir_s0_imp": 25.49604249726635,
+"sir_s1": 25.56408588305207,
+"sir_s1_imp": 20.310381980157665,
+"sar": 17.174899162445882,
+"sar_imp": -134.47377304178818,
+"sar_s0": 14.268071153965913,
+"sar_s0_imp": -137.38060105026818,
+"sar_s1": 20.081727170925856,
+"sar_s1_imp": -131.56694503330817,
+"stoi": 0.7746496376326059,
+"stoi_imp": 0.19613735629114643,
+"stoi_s0": 0.6611376621212413,
+"stoi_s0_imp": 0.21162695175464794,
+"stoi_s1": 0.8881616131439705,
+"stoi_s1_imp": 0.1806477608276449
+```
+## License notice:
+** This is important, please fill it, if you need help, you can ask on Asteroid's slack.**
+This work "ConvTasNet_DAMPVSEP_EnglishNonEnglish_baseline"
+is a derivative of [DAMP-VSEP corpus](https://zenodo.org/record/3553059) by
+[Smule, Inc](https://www.smule.com/),
+used under [Restricted License](https://zenodo.org/record/3553059)(Research only).
+"ConvTasNet_DAMPVSEP_EnglishNonEnglish_baseline"
+is licensed under [Attribution-ShareAlike 3.0 Unported](https://creativecommons.org/licenses/by-sa/3.0/)
+by Gerardo Roa.

models/ConvTasNet_DAMPVSEP_EnglishNonEnglish_baseline/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f77ed26005b8cc6d9b6ca4f313e252b4b80b17378a0097c47eb60811708b75b0
+size 64766287

models/ConvTasNet_DAMPVSEP_EnglishNonEnglish_baseline/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/groadabike/ConvTasNet_DAMPVSEP_EnglishNonEnglish_baseline

models/ConvTasNet_Libri1Mix_enhsignle_16k/.gitattributes ADDED Viewed

	@@ -0,0 +1,17 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

models/ConvTasNet_Libri1Mix_enhsignle_16k/metadata.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"sample_rate": 16000, "domain_tags": ["speech"], "short_description": "Use me for speech enhancement! Works with 1 speaker.", "long_description": "This model was trained by Joris Cosentino using the librimix recipe in Asteroid. It was trained on the enh_single task of the Libri1Mix dataset.", "tags": ["speech enhancement", "speech"], "labels": ["enhanced"], "effect_type": "waveform-to-waveform", "multichannel": false}

models/ConvTasNet_Libri1Mix_enhsignle_16k/model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee430a56e84cf617044cd986d56a26800b96278d618ffc738b6e81f8eff6a88d
+size 20500235

models/ConvTasNet_Libri1Mix_enhsignle_16k/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/hugggof/ConvTasNet_Libri1Mix_enhsignle_16k

models/ConvTasNet_Libri1Mix_enhsingle_8k/.gitattributes ADDED Viewed

	@@ -0,0 +1,16 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text

models/ConvTasNet_Libri1Mix_enhsingle_8k/README.md ADDED Viewed

	@@ -0,0 +1,73 @@

+---
+tags:
+- asteroid
+- audio
+- ConvTasNet
+datasets:
+- LibriMix
+- enh_single
+license: cc-by-sa-4.0
+---
+## Asteroid model
+Imported from this Zenodo [model page](https://zenodo.org/record/3970768).
+## Description:
+This model was trained by  Brij Mohan using the Librimix/ConvTasNet recipe in Asteroid.
+It was trained on the `enh_single` task of the Libri3Mix dataset.
+## Training config:
+```yaml
+data:
+    n_src: 1
+    sample_rate: 8000
+    segment: 3
+    task: enh_single
+    train_dir: data/wav8k/min/train-360
+    valid_dir: data/wav8k/min/dev
+filterbank:
+    kernel_size: 16
+    n_filters: 512
+    stride: 8
+masknet:
+    bn_chan: 128
+    hid_chan: 512
+    mask_act: relu
+    n_blocks: 8
+    n_repeats: 3
+    n_src: 1
+    skip_chan: 128
+optim:
+    lr: 0.001
+    optimizer: adam
+    weight_decay: 0.0
+training:
+    batch_size: 24
+    early_stop: True
+    epochs: 200
+    half_lr: True
+```
+## Results:
+```yaml
+si_sdr: 14.783675142685572
+si_sdr_imp: 11.464625198953202
+sdr: 15.497505907983102
+sdr_imp: 12.07230150154914
+sar: 15.497505907983102
+sar_imp: 12.07230150154914
+stoi: 0.9270030254700518
+stoi_imp: 0.1320547197597893
+```
+## License notice:
+This work "ConvTasNet_Libri1Mix_enhsingle_8k"
+is a derivative of [LibriSpeech ASR corpus](http://www.openslr.org/12) by
+[Vassil Panayotov](https://github.com/vdp),
+used under [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/).
+"ConvTasNet_Libri1Mix_enhsingle_8k"
+is licensed under [Attribution-ShareAlike 3.0 Unported](https://creativecommons.org/licenses/by-sa/3.0/)
+by Manuel Pariente.

models/ConvTasNet_Libri1Mix_enhsingle_8k/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c82d07cfb842778c26eeed222b313fcd9ae2776ce038a26f22dba0b700e597c
+size 20063674

models/ConvTasNet_Libri1Mix_enhsingle_8k/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/mpariente/ConvTasNet_Libri1Mix_enhsingle_8k

models/ConvTasNet_Libri2Mix_SepClean/.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

models/ConvTasNet_Libri2Mix_SepClean/README.md ADDED Viewed

	@@ -0,0 +1,25 @@

+---
+license: gpl
+language:
+- en
+library_name: asteroid
+tags:
+- speech separation
+- audio processing
+---
+# Model Card for model.bin
+<!-- Provide a quick summary of what the model is/does. [Optional] -->
+This model was trained by Dhruv Saini using the libri2mix sep_clean dataset.
+# Model Details
+It is a ConvTasNet model for 2 speakers' speech separation.
+## Model Description
+<!-- Provide a longer summary of what this model is/does. -->
+This model was trained by Dhruv Saini using the libri2mix  sep_clean dataset.
+- **Developed by:** Dhruv Saini

models/ConvTasNet_Libri2Mix_SepClean/model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6e58d1cec93826da50c883f0c31edc1f95557f0312cd6448ef110049e12bed6
+size 20410329

models/ConvTasNet_Libri2Mix_SepClean/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/Dhruv73/ConvTasNet_Libri2Mix_SepClean

models/ConvTasNet_Libri2Mix_sepclean_16k/.gitattributes ADDED Viewed

	@@ -0,0 +1,9 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+pytorch_model.bin filter=lfs diff=lfs merge=lfs -text

models/ConvTasNet_Libri2Mix_sepclean_16k/README.md ADDED Viewed

	@@ -0,0 +1,74 @@

+---
+tags:
+- asteroid
+- audio
+- ConvTasNet
+- audio-to-audio
+datasets:
+- Libri2Mix
+- sep_clean
+license: cc-by-sa-4.0
+---
+## Asteroid model `JorisCos/ConvTasNet_Libri2Mix_sepclean_16k`
+Description:
+This model was trained by Joris Cosentino using the librimix recipe in [Asteroid](https://github.com/asteroid-team/asteroid).
+It was trained on the `sep_clean` task of the Libri2Mix dataset.
+Training config:
+```yaml
+data:
+    n_src: 2
+    sample_rate: 16000
+    segment: 3
+    task: sep_clean
+    train_dir: data/wav16k/min/train-360
+    valid_dir: data/wav16k/min/dev
+filterbank:
+    kernel_size: 32
+    n_filters: 512
+    stride: 16
+masknet:
+    bn_chan: 128
+    hid_chan: 512
+    mask_act: relu
+    n_blocks: 8
+    n_repeats: 3
+    skip_chan: 128
+optim:
+    lr: 0.001
+    optimizer: adam
+    weight_decay: 0.0
+training:
+    batch_size: 6
+    early_stop: true
+    epochs: 200
+    half_lr: true
+    num_workers: 4
+```
+Results :
+On Libri2Mix min test set :
+```yaml
+si_sdr: 15.243671356901526
+si_sdr_imp: 15.243034178473609
+sdr: 15.668108919568112
+sdr_imp: 15.578229918028036
+sir: 25.295100756629957
+sir_imp: 25.205219921301754
+sar: 16.307682590197313
+sar_imp: -51.64989963759405
+stoi: 0.9394951175291422
+stoi_imp: 0.22640192740016568
+```
+License notice:
+This work "ConvTasNet_Libri2Mix_sepclean_16k"
+is a derivative of [LibriSpeech ASR corpus](http://www.openslr.org/12) by Vassil Panayotov,
+used under [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/). "ConvTasNet_Libri2Mix_sepclean_16k"
+is licensed under [Attribution-ShareAlike 3.0 Unported](https://creativecommons.org/licenses/by-sa/3.0/) by Cosentino Joris.

models/ConvTasNet_Libri2Mix_sepclean_16k/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d97f012f7b2f22bb79cb0d0983a7ba27a52c1796ee3f63cbf25b4d28630adce
+size 20394640

models/ConvTasNet_Libri2Mix_sepclean_16k/source.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ https://huggingface.co/JorisCos/ConvTasNet_Libri2Mix_sepclean_16k

models/ConvTasNet_Libri2Mix_sepclean_8k/.gitattributes ADDED Viewed

	@@ -0,0 +1,9 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+pytorch_model.bin filter=lfs diff=lfs merge=lfs -text

models/ConvTasNet_Libri2Mix_sepclean_8k/README.md ADDED Viewed

	@@ -0,0 +1,75 @@

+---
+tags:
+- asteroid
+- audio
+- ConvTasNet
+- audio-to-audio
+datasets:
+- Libri2Mix
+- sep_clean
+license: cc-by-sa-4.0
+---
+## Asteroid model `JorisCos/ConvTasNet_Libri2Mix_sepclean_8k`
+Imported from [Zenodo](https://zenodo.org/record/3873572#.X9M69cLjJH4)
+Description:
+This model was trained by Joris Cosentino using the librimix recipe in [Asteroid](https://github.com/asteroid-team/asteroid).
+It was trained on the `sep_clean` task of the Libri2Mix dataset.
+Training config:
+```yaml
+data:
+    n_src: 2
+    sample_rate: 8000
+    segment: 3
+    task: sep_clean
+    train_dir: data/wav8k/min/train-360
+    valid_dir: data/wav8k/min/dev
+filterbank:
+    kernel_size: 16
+    n_filters: 512
+    stride: 8
+masknet:
+    bn_chan: 128
+    hid_chan: 512
+    mask_act: relu
+    n_blocks: 8
+    n_repeats: 3
+    skip_chan: 128
+optim:
+    lr: 0.001
+    optimizer: adam
+    weight_decay: 0.0
+training:
+    batch_size: 24
+    early_stop: True
+    epochs: 200
+    half_lr: True
+    num_workers: 2
+```
+Results :
+On Libri2Mix min test set :
+```yaml
+si_sdr: 14.764543634468069
+si_sdr_imp: 14.764029375607246
+sdr: 15.29337970745095
+sdr_imp: 15.114146605113111
+sir: 24.092904661115366
+sir_imp: 23.913669683141528
+sar: 16.06055906916849
+sar_imp: -51.980784441287454
+stoi: 0.9311142440593033
+stoi_imp: 0.21817376142710482
+```
+License notice:
+This work "ConvTasNet_Libri2Mix_sepclean_8k"
+is a derivative of [LibriSpeech ASR corpus](http://www.openslr.org/12) by Vassil Panayotov,
+used under [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/). "ConvTasNet_Libri2Mix_sepclean_8k"
+is licensed under [Attribution-ShareAlike 3.0 Unported](https://creativecommons.org/licenses/by-sa/3.0/) by Cosentino Joris.