Upload 8 files

Browse files

Files changed (8) hide show

mossformer2/.gitattributes +32 -0
mossformer2/README.md +117 -0
mossformer2/configuration.json +10 -0
mossformer2/description/matrix1.png +0 -0
mossformer2/description/matrix2.png +0 -0
mossformer2/examples/mix_speech.wav +0 -0
mossformer2/examples/mix_speech1.wav +0 -0
pytorch_model.pt +3 -0

mossformer2/.gitattributes ADDED Viewed

	@@ -0,0 +1,32 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*.tfevents* filter=lfs diff=lfs merge=lfs -text
+*.db* filter=lfs diff=lfs merge=lfs -text
+*.ark* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*data* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.meta filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.index filter=lfs diff=lfs merge=lfs -text

mossformer2/README.md ADDED Viewed

	@@ -0,0 +1,117 @@

+---
+tasks:
+- speech-separation
+widgets:
+- task: speech-separation
+  inputs:
+  - type: audio
+    name: input
+    title: 麦克风录制的音频
+    displayProps:
+      sampleRate: 8000
+    validator:
+      max_size: 10M
+  output:
+    displayProps:
+      audio:
+        sampleRate: 8000
+  examples:
+  - name: 1
+    title: 示例1
+    inputs:
+    - name: input
+      data: git://examples/mix_speech1.wav
+  - name: 2
+    title: 示例2
+    inputs:
+    - name: input
+      data: git://examples/mix_speech.wav
+  inferencespec:
+    cpu: 1
+    memory: 1000
+    gpu: 0
+    gpu_memory: 3000
+model_type:
+- mossformer
+domain:
+- audio
+frameworks:
+- pytorch
+model-backbone:
+- mossformer2
+customized-quickstart: True
+finetune-support: True
+license: Apache License 2.0
+tags:
+- Alibaba
+- Audio
+- Speech Separation
+- 语音分离
+---
+# MossFormer2语音分离模型介绍
+本次发布为上一代单声道语音分离算法MossFormer的升级版。并在单声道语音分离任务上比MossFormer取得显著的性能提升。MossFormer模型主要采用了基于自注意力的MossFormer模块，倾向于强调较长范围、粗粒度的依赖关系，在有效建模较细粒度的循环模式方面存在不足。在MossFormer2模型中，我们引入了一种新颖的混合模型，通过将一个循环模块集成到MossFormer框架中，从而具备了同时建模较长范围、粗粒度依赖关系和较细粒度循环模式的能力。为了减轻非并行循环神经网络（RNN）的局限性，我们提出了一种基于前馈顺序记忆网络（FSMN）的非RNN循环模块。该循环模块包含一个基于扩张（dilated）机制的FSMN块，不仅通过扩张机制增强感受野，同时通过密集连接（Dense Connection）提高信息流动性。另外，我们还使用门控卷积单元（GCU）来设计循环模块，以便在降低嵌入维度和提高模型效率的同时，促进相关背景信息的门控控制。该循环模块依靠线性投影（Linear Projection）和卷积来实现对整个序列的无缝并行处理。MossFormer2模型在WSJ0-2/3mix、Libri2Mix和WHAM!/WHAMR!基准测试中表现出色，超越了MossFormer和其他最先进的方法。
+## 模型的使用方式
+模型pipeline 输入为个8000Hz采样率的单声道wav文件，内容是两个人混杂在一起的说话声，输出结果是分离开的两个单声道音频。
+### 环境准备
+* 本模型支持Linux，Windows和MacOS平台。
+* 本模型使用了三方库SoundFile进行wav文件处理，**在Linux系统上用户需要手动安装SoundFile的底层依赖库libsndfile**，在Windows和MacOS上会自动安装不需要用户操作。详细信息可参考[SoundFile官网](https://github.com/bastibe/python-soundfile#installation)。以Ubuntu系统为例，用户需要执行如下命令:
+```shell
+sudo apt-get update
+sudo apt-get install libsndfile1
+```
+### 代码范例
+```python
+import numpy
+import soundfile as sf
+from modelscope.pipelines import pipeline
+from modelscope.utils.constant import Tasks
+# input可以是url也可以是本地文件路径
+input = 'https://modelscope.cn/api/v1/models/damo/speech_mossformer2_separation_temporal_8k/repo?Revision=master&FilePath=examples/mix_speech1.wav'
+separation = pipeline(
+   Tasks.speech_separation,
+   model='damo/speech_mossformer2_separation_temporal_8k')
+result = separation(input)
+for i, signal in enumerate(result['output_pcm_list']):
+    save_file = f'output_spk{i}.wav'
+    sf.write(save_file, numpy.frombuffer(signal, dtype=numpy.int16), 8000)
+```
+### 模型局限性
+本模型训练虽然尽量涵盖各类噪声和混响场景，我们也加入一定的电话通道数据，但由于训练数据有限，无法完全覆盖所有噪声、混响场景和电话场景，因而无法保障对各种混合数据上的分离效果！
+## 训练数据介绍
+本模型训练时使用了包括WSJ0-2Mix和 Libri2Mix的干净语音混合数据，以及WHAMR、DNS Challenge 2020带噪声及混响数据。
+## 数据评估及结果
+MossFormer2模型与其它SOTA模型在公开数据集WSJ0-2mix/3mix、Libri2Mix和 WHAM！/WHAMR！上的对比结果如下，注意：该对比结果使用的是MossFormer2模型在相应的数据集上训练后的参考测试结果，并非本次发布模型的测试结果。
+<div align=center>
+<div>表1. 模型在公开数据集WSJ0-2mix/3mix、Libri2Mix上的对比结果</div>
+<img width="640" src="description/matrix1.png"/>
+</div>
+<div align=center>
+<div>表2. 模型在公开数据集WHAM！/WHAMR！上的对比结果</div>
+<img width="640" src="description/matrix2.png"/>
+</div>
+### 指标说明：
+* SI-SNR (Scale Invariant Signal-to-Noise Ratio) 尺度不变的信噪比，是在普通信噪比基础上通过正则化消减信号变化导致的影响，是针对宽带噪声失真的语音增强算法的常规衡量方法。SI-SNRi (SI-SNR improvement) 是衡量对比原始混合语音，SI-SNR在分离后语音上的提升量。
+### 相关论文以及引用信息
+Zhao, Shengkui and Ma, Bin et al, “MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation”, submitting to ICASSP 2024.

mossformer2/configuration.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "framework": "pytorch",
+    "task": "speech-separation",
+    "model": {
+        "type": "speech_mossformer2_separation_temporal_8k"
+    },
+    "pipeline": {
+        "type": "speech_mossformer2_separation_temporal_8k"
+    }
+}

mossformer2/description/matrix1.png ADDED Viewed

mossformer2/description/matrix2.png ADDED Viewed

mossformer2/examples/mix_speech.wav ADDED Viewed

Binary file (141 kB). View file

mossformer2/examples/mix_speech1.wav ADDED Viewed

Binary file (40.8 kB). View file

pytorch_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f238ff0ae1409eff9f6caf76502576976bd45188cd73eba19124688bc442b19
+size 223483621