Tele-AI
/

TeleSpeech-ASR1.0

Model card Files Files and versions

xet

Community

TTTdas commited on May 23, 2024

Commit

e8adfc5

verified ·

1 Parent(s): a1aa275

Update README.md

Browse files

Files changed (1) hide show

README.md +11 -6

README.md CHANGED Viewed

@@ -8,6 +8,10 @@ license: apache-2.0
 </h1>
 </div>
 星辰超多方言语音识别大模型v1.0，由30w小时无标注多方言语音数据进行训练，打破单一模型只能识别特定单一方言的困境，可支持理解粤语、上海话、四川话、温州话等30多种方言
@@ -65,7 +69,7 @@ utt:X0000000001_100849618_S00006	feat:/data/raw_nnaudio.test.1.ark:2984296665	fe
 ## 字典准备
-* 微调阶段，需要准备fairseq格式的 `dict.${label}.txt`，例如
 ```
 是 2
 好 3
@@ -91,7 +95,8 @@ utt:X0000000001_100849618_S00006	feat:/data/raw_nnaudio.test.1.ark:2984296665	fe
     $ ln -s /path/to/dev/data.list /path/to/train/dev.tsv
     ```
 * 进入data2vec_dialect路径，修改`path.sh`文件中`/path/to/fairseq`为fairseq安装路径
-* 将`run_scripts/run_d2v_finetune.sh`中`/path/to/fairseq`和`/path/to/data2vec_dialect`路径替换；修改`task.data`为`.tsv`保存路径，如`task.data=/data/wenetspeech/train`
 * 执行
     ```shell script
     $ bash run_scripts/run_d2v_finetune.sh
@@ -131,12 +136,12 @@ utt:X0000000001_100849618_S00006	feat:/data/raw_nnaudio.test.1.ark:2984296665	fe
 * Babel为NIST（美国国家标准与技术研究院）举办的低资源粤语电话识别任务数据集，我们使用其提供的训练集与测试集统计CER
 * KeSpeech为中文多方言测试集，我们使用1396小时训练集作为有监督数据进行训练，选择提供的Test测试集统计CER
-|           | Aishell-1 | WenetSpeech*| Babel | KeSpeech |
 | ----------| -------- | ------- | ---- | ---- |
-| base_300k | 4.7  | 18.3 / 16.4 | 22.1  | 10.9 |
-| large_300k | 4.0 | 14.3 / 13.0 | 19.1  | 8.1 |
-*WenetSpeech中的结果为分别使用 `train_s/train_m`，在Test_Meeting上的CER
 # 声明与协议
 ## 声明

 </h1>
 </div>
+<p align="center">
+🦉 <a href="https://github.com/Tele-AI/TeleSpeech-ASR" target="_blank">github</a>️
+</p>
 星辰超多方言语音识别大模型v1.0，由30w小时无标注多方言语音数据进行训练，打破单一模型只能识别特定单一方言的困境，可支持理解粤语、上海话、四川话、温州话等30多种方言
 ## 字典准备
+* 微调阶段，需要准备fairseq格式的 `dict.${label}.txt`，`${label}`为建模单元类型，如ltr, bpe等。以`dict.ltr.txt`为例：
 ```
 是 2
 好 3
     $ ln -s /path/to/dev/data.list /path/to/train/dev.tsv
     ```
 * 进入data2vec_dialect路径，修改`path.sh`文件中`/path/to/fairseq`为fairseq安装路径
+* 将`run_scripts/run_d2v_finetune.sh`中`/path/to/fairseq`和`/path/to/data2vec_dialect`路径替换
+* 修改`task.data`为`.tsv`保存路径，如`task.data=/data/wenetspeech/train`
 * 执行
     ```shell script
     $ bash run_scripts/run_d2v_finetune.sh
 * Babel为NIST（美国国家标准与技术研究院）举办的低资源粤语电话识别任务数据集，我们使用其提供的训练集与测试集统计CER
 * KeSpeech为中文多方言测试集，我们使用1396小时训练集作为有监督数据进行训练，选择提供的Test测试集统计CER
+|  模型版本         | Aishell-1 | WenetSpeech*| Babel | KeSpeech |
 | ----------| -------- | ------- | ---- | ---- |
+| pretrain_base | 4.7  | 18.3 / 16.4 | 22.1  | 10.9 |
+| pretrain_large | 4.0 | 14.3 / 13.0 | 19.1  | 8.1 |
+*WenetSpeech中的结果为分别使用 `train_s/train_m`训练后，在Test_Meeting上的CER
 # 声明与协议
 ## 声明