Update README.md
Browse files
README.md
CHANGED
|
@@ -40,11 +40,11 @@ model = AutoModel.from_pretrained("chengzl18/thucbert-mm")
|
|
| 40 |
|
| 41 |
## 训练效果
|
| 42 |
|
| 43 |
-
|
| 44 |
|
| 45 |
在随机语料上进行验证,THUCBERT训练完成时的perplexity为2.20,显著低于bert-base-chinese的2.78。(需要注意perplexity也与词表有关,此对比仅供参考)
|
| 46 |
|
| 47 |
-
|
| 48 |
|
| 49 |
字表示(采用embedding层的最近邻)如下:
|
| 50 |
|
|
@@ -68,7 +68,7 @@ bert-base-chinese
|
|
| 68 |
寻: 尋 觅 找 覓 讨 搜 询 尝 谋 选
|
| 69 |
```
|
| 70 |
|
| 71 |
-
|
| 72 |
|
| 73 |
MASK预测效果如下:
|
| 74 |
|
|
@@ -92,7 +92,7 @@ bert-base-chinese
|
|
| 92 |
凡事都有两面性,我们要[MASK][MASK]地看待。: 观 性 确 等 平 容 慎 面 理 心
|
| 93 |
```
|
| 94 |
|
| 95 |
-
|
| 96 |
|
| 97 |
在我们已进行的测试中,THUCBERT在各种文本分类任务上与[哈工大的BERT模型](https://huggingface.co/hfl/chinese-bert-wwm-ext)效果相当,在中文分词([DeepTHULAC](https://github.com/thunlp/DeepTHULAC)基于THUCBERT-cm开发而成)、命名实体识别和语法改错任务上有明显的性能提升。
|
| 98 |
|
|
|
|
| 40 |
|
| 41 |
## 训练效果
|
| 42 |
|
| 43 |
+
#### PPL
|
| 44 |
|
| 45 |
在随机语料上进行验证,THUCBERT训练完成时的perplexity为2.20,显著低于bert-base-chinese的2.78。(需要注意perplexity也与词表有关,此对比仅供参考)
|
| 46 |
|
| 47 |
+
#### 字表示
|
| 48 |
|
| 49 |
字表示(采用embedding层的最近邻)如下:
|
| 50 |
|
|
|
|
| 68 |
寻: 尋 觅 找 覓 讨 搜 询 尝 谋 选
|
| 69 |
```
|
| 70 |
|
| 71 |
+
#### 掩码预测
|
| 72 |
|
| 73 |
MASK预测效果如下:
|
| 74 |
|
|
|
|
| 92 |
凡事都有两面性,我们要[MASK][MASK]地看待。: 观 性 确 等 平 容 慎 面 理 心
|
| 93 |
```
|
| 94 |
|
| 95 |
+
#### 下游任务
|
| 96 |
|
| 97 |
在我们已进行的测试中,THUCBERT在各种文本分类任务上与[哈工大的BERT模型](https://huggingface.co/hfl/chinese-bert-wwm-ext)效果相当,在中文分词([DeepTHULAC](https://github.com/thunlp/DeepTHULAC)基于THUCBERT-cm开发而成)、命名实体识别和语法改错任务上有明显的性能提升。
|
| 98 |
|