Update README.md
Browse files
README.md
CHANGED
|
@@ -8,6 +8,10 @@ license: apache-2.0
|
|
| 8 |
</h1>
|
| 9 |
</div>
|
| 10 |
|
|
|
|
|
|
|
|
|
|
|
|
|
| 11 |
星辰超多方言语音识别大模型v1.0,由30w小时无标注多方言语音数据进行训练,打破单一模型只能识别特定单一方言的困境,可支持理解粤语、上海话、四川话、温州话等30多种方言
|
| 12 |
|
| 13 |
|
|
@@ -65,7 +69,7 @@ utt:X0000000001_100849618_S00006 feat:/data/raw_nnaudio.test.1.ark:2984296665 fe
|
|
| 65 |
|
| 66 |
## 字典准备
|
| 67 |
|
| 68 |
-
* 微调阶段,需要准备fairseq格式的 `dict.${label}.txt
|
| 69 |
```
|
| 70 |
是 2
|
| 71 |
好 3
|
|
@@ -91,7 +95,8 @@ utt:X0000000001_100849618_S00006 feat:/data/raw_nnaudio.test.1.ark:2984296665 fe
|
|
| 91 |
$ ln -s /path/to/dev/data.list /path/to/train/dev.tsv
|
| 92 |
```
|
| 93 |
* 进入data2vec_dialect路径,修改`path.sh`文件中`/path/to/fairseq`为fairseq安装路径
|
| 94 |
-
* 将`run_scripts/run_d2v_finetune.sh`中`/path/to/fairseq`和`/path/to/data2vec_dialect
|
|
|
|
| 95 |
* 执行
|
| 96 |
```shell script
|
| 97 |
$ bash run_scripts/run_d2v_finetune.sh
|
|
@@ -131,12 +136,12 @@ utt:X0000000001_100849618_S00006 feat:/data/raw_nnaudio.test.1.ark:2984296665 fe
|
|
| 131 |
* Babel为NIST(美国国家标准与技术研究院)举办的低资源粤语电话识别任务数据集,我们使用其提供的训练集与测试集统计CER
|
| 132 |
* KeSpeech为中文多方言测试集,我们使用1396小时训练集作为有监督数据进行训练,选择提供的Test测试集统计CER
|
| 133 |
|
| 134 |
-
|
|
| 135 |
| ----------| -------- | ------- | ---- | ---- |
|
| 136 |
-
|
|
| 137 |
-
|
|
| 138 |
|
| 139 |
-
*WenetSpeech中的结果为分别使用 `train_s/train_m
|
| 140 |
|
| 141 |
# 声明与协议
|
| 142 |
## 声明
|
|
|
|
| 8 |
</h1>
|
| 9 |
</div>
|
| 10 |
|
| 11 |
+
<p align="center">
|
| 12 |
+
🦉 <a href="https://github.com/Tele-AI/TeleSpeech-ASR" target="_blank">github</a>️
|
| 13 |
+
</p>
|
| 14 |
+
|
| 15 |
星辰超多方言语音识别大模型v1.0,由30w小时无标注多方言语音数据进行训练,打破单一模型只能识别特定单一方言的困境,可支持理解粤语、上海话、四川话、温州话等30多种方言
|
| 16 |
|
| 17 |
|
|
|
|
| 69 |
|
| 70 |
## 字典准备
|
| 71 |
|
| 72 |
+
* 微调阶段,需要准备fairseq格式的 `dict.${label}.txt`,`${label}`为建模单元类型,如ltr, bpe等。以`dict.ltr.txt`为例:
|
| 73 |
```
|
| 74 |
是 2
|
| 75 |
好 3
|
|
|
|
| 95 |
$ ln -s /path/to/dev/data.list /path/to/train/dev.tsv
|
| 96 |
```
|
| 97 |
* 进入data2vec_dialect路径,修改`path.sh`文件中`/path/to/fairseq`为fairseq安装路径
|
| 98 |
+
* 将`run_scripts/run_d2v_finetune.sh`中`/path/to/fairseq`和`/path/to/data2vec_dialect`路径替换
|
| 99 |
+
* 修改`task.data`为`.tsv`保存路径,如`task.data=/data/wenetspeech/train`
|
| 100 |
* 执行
|
| 101 |
```shell script
|
| 102 |
$ bash run_scripts/run_d2v_finetune.sh
|
|
|
|
| 136 |
* Babel为NIST(美国国家标准与技术研究院)举办的低资源粤语电话识别任务数据集,我们使用其提供的训练集与测试集统计CER
|
| 137 |
* KeSpeech为中文多方言测试集,我们使用1396小时训练集作为有监督数据进行训练,选择提供的Test测试集统计CER
|
| 138 |
|
| 139 |
+
| 模型版本 | Aishell-1 | WenetSpeech*| Babel | KeSpeech |
|
| 140 |
| ----------| -------- | ------- | ---- | ---- |
|
| 141 |
+
| pretrain_base | 4.7 | 18.3 / 16.4 | 22.1 | 10.9 |
|
| 142 |
+
| pretrain_large | 4.0 | 14.3 / 13.0 | 19.1 | 8.1 |
|
| 143 |
|
| 144 |
+
*WenetSpeech中的结果为分别使用 `train_s/train_m`训练后,在Test_Meeting上的CER
|
| 145 |
|
| 146 |
# 声明与协议
|
| 147 |
## 声明
|