Update README.md
Browse files
README.md
CHANGED
|
@@ -9,7 +9,7 @@ license: apache-2.0
|
|
| 9 |
</div>
|
| 10 |
|
| 11 |
<p align="center">
|
| 12 |
-
🦉 <a href="https://github.com/Tele-AI/TeleSpeech-ASR" target="_blank">github</a>️ • 🐾 <a href="https://gitee.com/Tele-AI/TeleSpeech-ASR" target="_blank">gitee</a>️
|
| 13 |
</p>
|
| 14 |
|
| 15 |
星辰超多方言语音识别大模型v1.0,由30万小时无标注多方言语音数据进行预训练,并利用内部30种有标注数据进行微调,打破单一模型只能识别特定单一方言的困境,可支持理解粤语、上海话、四川话、温州话等30种方言
|
|
@@ -28,14 +28,12 @@ license: apache-2.0
|
|
| 28 |
|
| 29 |
|
| 30 |
# 环境配置
|
| 31 |
-
|
| 32 |
* PyTorch version >= 1.13.0
|
| 33 |
* Python version >= 3.8
|
| 34 |
* 数据准备、程序训练需要使用kaldi,请确保已正确安装:https://github.com/kaldi-asr/kaldi
|
| 35 |
* 若已有提好的特征,程序运行时可以使用wenet开源框架中kaldi_io.py实现的方法替换kaldiio.load_mat,从而无需安装kaldi
|
| 36 |
|
| 37 |
-
## 微调
|
| 38 |
-
|
| 39 |
<a id="fairseq安装"></a>
|
| 40 |
* 安装fairseq及其依赖
|
| 41 |
```shell script
|
|
@@ -44,19 +42,14 @@ $ cd fairseq
|
|
| 44 |
$ pip install --editable ./
|
| 45 |
```
|
| 46 |
|
| 47 |
-
* 安装
|
| 48 |
```shell script
|
| 49 |
-
$ pip install
|
| 50 |
```
|
| 51 |
|
| 52 |
-
|
| 53 |
-
|
| 54 |
-
* 确保fairseq已正确[安装](#fairseq安装)
|
| 55 |
-
|
| 56 |
-
* 安装表征训练任务运行所需依赖
|
| 57 |
```shell script
|
| 58 |
-
$
|
| 59 |
-
$ pip install -r requirements.txt
|
| 60 |
```
|
| 61 |
|
| 62 |
# 数据准备
|
|
|
|
| 9 |
</div>
|
| 10 |
|
| 11 |
<p align="center">
|
| 12 |
+
🦉 <a href="https://github.com/Tele-AI/TeleSpeech-ASR" target="_blank">github</a>️ • 🐾 <a href="https://gitee.com/Tele-AI/TeleSpeech-ASR" target="_blank">gitee</a>️ • 🤖 <a href="https://www.modelscope.cn/models/TeleAI/TeleSpeech-ASR1.0/summary" target="_blank">ModelScope</a>
|
| 13 |
</p>
|
| 14 |
|
| 15 |
星辰超多方言语音识别大模型v1.0,由30万小时无标注多方言语音数据进行预训练,并利用内部30种有标注数据进行微调,打破单一模型只能识别特定单一方言的困境,可支持理解粤语、上海话、四川话、温州话等30种方言
|
|
|
|
| 28 |
|
| 29 |
|
| 30 |
# 环境配置
|
| 31 |
+
|
| 32 |
* PyTorch version >= 1.13.0
|
| 33 |
* Python version >= 3.8
|
| 34 |
* 数据准备、程序训练需要使用kaldi,请确保已正确安装:https://github.com/kaldi-asr/kaldi
|
| 35 |
* 若已有提好的特征,程序运行时可以使用wenet开源框架中kaldi_io.py实现的方法替换kaldiio.load_mat,从而无需安装kaldi
|
| 36 |
|
|
|
|
|
|
|
| 37 |
<a id="fairseq安装"></a>
|
| 38 |
* 安装fairseq及其依赖
|
| 39 |
```shell script
|
|
|
|
| 42 |
$ pip install --editable ./
|
| 43 |
```
|
| 44 |
|
| 45 |
+
* 安装fairseq额外依赖以及wenet表征训练任务运行所需依赖
|
| 46 |
```shell script
|
| 47 |
+
$ pip install -r requirements.txt
|
| 48 |
```
|
| 49 |
|
| 50 |
+
* 若只需要fairseq进行微调、解码,可以不安装完整的requirements.txt,只需保证kaldiio, timm, editdistance, soundfile已正确安装
|
|
|
|
|
|
|
|
|
|
|
|
|
| 51 |
```shell script
|
| 52 |
+
$ pip install kaldiio timm editdistance soundfile
|
|
|
|
| 53 |
```
|
| 54 |
|
| 55 |
# 数据准备
|