MickeyLLG commited on Feb 3

Commit

b1dd7f9

verified ·

1 Parent(s): de2ca89

Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

.gitattributes +7 -0
kit/model/campplus/avg_model.pt +3 -0
kit/model/campplus_cn_common.bin +3 -0
kit/model/speech_campplus_five_lre_16k/.gitattributes +34 -0
kit/model/speech_campplus_five_lre_16k/README.md +118 -0
kit/model/speech_campplus_five_lre_16k/campplus_five_lang_16k.pt +3 -0
kit/model/speech_campplus_five_lre_16k/classifier_five_lang_16k.pt +3 -0
kit/model/speech_campplus_five_lre_16k/configuration.json +18 -0
kit/model/speech_campplus_five_lre_16k/examples/example_lre_cant_16k.wav +3 -0
kit/model/speech_campplus_five_lre_16k/examples/example_lre_engl_16k.wav +3 -0
kit/model/speech_campplus_five_lre_16k/examples/example_lre_japan_16k.wav +3 -0
kit/model/speech_campplus_five_lre_16k/examples/example_lre_korean_16k.wav +3 -0
kit/model/speech_campplus_five_lre_16k/examples/example_lre_mand_16k.wav +3 -0
kit/model/speech_campplus_five_lre_16k/images/ding.png +3 -0
kit/model/speech_campplus_five_lre_16k/images/structure.png +3 -0
kit/model/wavlm_large_finetune.pth +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,10 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+kit/model/speech_campplus_five_lre_16k/examples/example_lre_cant_16k.wav filter=lfs diff=lfs merge=lfs -text
+kit/model/speech_campplus_five_lre_16k/examples/example_lre_engl_16k.wav filter=lfs diff=lfs merge=lfs -text
+kit/model/speech_campplus_five_lre_16k/examples/example_lre_japan_16k.wav filter=lfs diff=lfs merge=lfs -text
+kit/model/speech_campplus_five_lre_16k/examples/example_lre_korean_16k.wav filter=lfs diff=lfs merge=lfs -text
+kit/model/speech_campplus_five_lre_16k/examples/example_lre_mand_16k.wav filter=lfs diff=lfs merge=lfs -text
+kit/model/speech_campplus_five_lre_16k/images/ding.png filter=lfs diff=lfs merge=lfs -text
+kit/model/speech_campplus_five_lre_16k/images/structure.png filter=lfs diff=lfs merge=lfs -text

kit/model/campplus/avg_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07abeeb5150441995b51ea65c9ccc8feed78b33040012f1d2fad29a0e4f5b8d7
+size 66210861

kit/model/campplus_cn_common.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3388cf5fd3493c9ac9c69851d8e7a8badcfb4f3dc631020c4961371646d5ada8
+size 28036335

kit/model/speech_campplus_five_lre_16k/.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*.tfevents* filter=lfs diff=lfs merge=lfs -text
+*.db* filter=lfs diff=lfs merge=lfs -text
+*.ark* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*data* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.meta filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.index filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text

kit/model/speech_campplus_five_lre_16k/README.md ADDED Viewed

	@@ -0,0 +1,118 @@

+---
+tasks:
+- speech-language-recognition
+model_type:
+- CAM++
+domain:
+- audio
+frameworks:
+- pytorch
+backbone:
+- CAM++
+license: Apache License 2.0
+language:
+- cn
+tags:
+- speech language recognition
+- CAM++
+- 中英文语种识别
+widgets:
+  - task: speech-language-recognition
+    model_revision: v1.0.1
+    inputs:
+      - type: audio
+        name: input
+        title: 音频
+    examples:
+      - name: 1
+        title: 示例1
+        inputs:
+          - name: input
+            data: git://examples/example_lre_mand_16k.wav
+      - name: 2
+        title: 示例2
+        inputs:
+          - name: input
+            data: git://examples/example_lre_engl_16k.wav
+      - name: 3
+        title: 示例3
+        inputs:
+          - name: input
+            data: git://examples/example_lre_japan_16k.wav
+      - name: 4
+        title: 示例3
+        inputs:
+          - name: input
+            data: git://examples/example_lre_cant_16k.wav
+      - name: 5
+        title: 示例3
+        inputs:
+          - name: input
+            data: git://examples/example_lre_korean_16k.wav
+    inferencespec:
+      cpu: 8 #CPU数量
+      memory: 1024
+---
+# CAM++识别模型
+CAM++模型是基于密集连接时延神经网络的识别模型。相比于一些主流模型，比如ResNet34和ECAPA-TDNN，CAM++具有更准确的识别性能和更快的推理速度。该模型可以用于语种识别、说话人确认等多项任务。
+## 模型简述
+CAM++模型结构如下图所示，整个模型包含两部分，残差卷积网络作为前端，时延神经网络结构作为主干。前端模块是2维卷积结构，用于提取更加局部和精细的时频特征。主干模块采用密集型连接，复用层级特征，提高计算效率。同时每一层中嵌入了一个轻量级的上下文相关的掩蔽(Context-aware Mask)模块，该模块通过多粒度的pooling操作提取不同尺度的上下文信息，生成的mask可以去除掉特征中的无关噪声，并保留关键的信息。
+<div align=center>
+<img src="images/structure.png" width="400" />
+</div>
+更详细的信息见
+- 论文：[CAM++: A Fast and Efficient Network for Speaker Verification Using Context-Aware Masking](https://arxiv.org/abs/2303.00332)
+- github项目地址：[3D-Speaker](https://github.com/alibaba-damo-academy/3D-Speaker)
+## 模型效果评估
+在集外10s长的各语种识别准确率91%。
+# 如何快速体验模型效果
+## 在Notebook中体验
+对于有开发需求的使用者，特别推荐您使用Notebook进行离线处理。先登录ModelScope账号，点击模型页面右上角的“在Notebook中打开”按钮出现对话框，首次使用会提示您关联阿里云账号，按提示操作即可。关联账号后可进入选择启动实例界面，选择计算资源，建立实例，待实例创建完成后进入开发环境，输入api调用实例。
+``` python
+from modelscope.pipelines import pipeline
+lre_pipeline = pipeline(
+    task='speech-language-recognition',
+    model='damo/speech_campplus_five_lre_16k',
+    model_revision='v1.0.1'
+)
+example_wav = 'https://modelscope.cn/api/v1/models/damo/speech_eres2net_base_mej_lre_16k_common/repo?Revision=master&FilePath=examples/example_lre_mand_16k.wav'
+# 识别语种
+result = lre_pipeline(example_wav)
+print(result)
+```
+## 训练和测试自己的CAM++语种模型
+本项目已在[3D-Speaker](https://github.com/alibaba-damo-academy/3D-Speaker)开源了训练、测试和推理代码，使用者可按下面方式下载安装使用：
+``` sh
+git clone https://github.com/alibaba-damo-academy/3D-Speaker.git && cd 3D-Speaker
+conda create -n 3D-Speaker python=3.8
+conda activate 3D-Speaker
+pip install -r requirements.txt
+```
+运行CAM++语种识别样例
+``` sh
+cd egs/3dspeaker/lid
+# 需要在run.sh中提前配置训练使用的GPU信息，默认是4卡
+bash run.sh
+```
+# 相关论文以及引用信息
+如果你觉得这个该模型有所帮助，请引用下面的相关的论文
+```BibTeX
+@article{cam++,
+  title={CAM++: A Fast and Efficient Network for Speaker Verification Using Context-Aware Masking},
+  author={Hui Wang and Siqi Zheng and Yafeng Chen and Luyao Cheng and Qian Chen},
+  journal={arXiv preprint arXiv:2303.00332},
+}
+```
+# 3D-Speaker 开发者社区钉钉群
+<div align=left>
+<img src="images/ding.png" width="260" />
+</div>

kit/model/speech_campplus_five_lre_16k/campplus_five_lang_16k.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c344f0b70f9e50bd714289e15362e22435aa90c3cd2206403ff3a427f999928d
+size 29396463

kit/model/speech_campplus_five_lre_16k/classifier_five_lang_16k.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:372b1048131cb5f978cafa391e8c4d4eaa992c174eaebbaecf972d1c4cd81388
+size 11367

kit/model/speech_campplus_five_lre_16k/configuration.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "framework": "pytorch",
+    "task": "speech-language-recognition",
+    "model": {
+        "type": "cam++-lre",
+        "model_config": {
+            "sample_rate": 16000,
+            "fbank_dim": 80,
+            "emb_size": 512,
+            "languages": ["Cantonese", "English",  "Japan", "Korean", "Chinese"]
+        },
+        "pretrained_encoder": "campplus_five_lang_16k.pt",
+        "pretrained_backend": "classifier_five_lang_16k.pt"
+    },
+    "pipeline": {
+        "type": "speech-language-recognition"
+    }
+}

kit/model/speech_campplus_five_lre_16k/examples/example_lre_cant_16k.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04eb5d70e16cc77d6a16978ab3d4cfd3f748b61e06e6130f727506527d247ce2
+size 319566

kit/model/speech_campplus_five_lre_16k/examples/example_lre_engl_16k.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15739b935e4c9e8b1385aaa02380f95f7b320356e8d0457c9b0097e45c170454
+size 320020

kit/model/speech_campplus_five_lre_16k/examples/example_lre_japan_16k.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:775e503a90119cd98622db5f5742926010a3bdae14e1d792694ecc21d1f732c2
+size 319566

kit/model/speech_campplus_five_lre_16k/examples/example_lre_korean_16k.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58a1658279911a938b50488c3781fcacc81f6ab34c4f315fb76a1178130539ef
+size 319566

kit/model/speech_campplus_five_lre_16k/examples/example_lre_mand_16k.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d5427748c6c7b36eb27cdf76b68998453e2d814ab30d1c137151d834a31c71e
+size 319566

kit/model/speech_campplus_five_lre_16k/images/ding.png ADDED Viewed

Git LFS Details

SHA256: c3fb9a020e923548b2e165df624b5cb2a1cb8d2001a18168f7af6925b3402c55
Pointer size: 131 Bytes
Size of remote file: 469 kB

kit/model/speech_campplus_five_lre_16k/images/structure.png ADDED Viewed

Git LFS Details

SHA256: 1ff916275cbfe40e1e5584ef66f81b776ef992e9997d8658328394d023dba1b8
Pointer size: 131 Bytes
Size of remote file: 286 kB

kit/model/wavlm_large_finetune.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51f07e3b94d9e0262a6a675ef5a087be3dd09e8c62e9d886827f44f82fe7f94b
+size 1301926579