SkyWork
commited on
Commit
·
326f068
1
Parent(s):
ad7d40d
Update README.md
Browse files
README.md
CHANGED
|
@@ -1,3 +1,49 @@
|
|
| 1 |
-
|
| 2 |
-
|
| 3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
# SkyTextJunior
|
| 2 |
+
|
| 3 |
+
SkyTextJunior是由奇点智源发布的中文GPT3预训练模型,参数量30亿左右,可以进行聊天、问答、中英互译等不同的[任务](https://openapi.singularity-ai.com/index.html#/examplesIndex)。
|
| 4 |
+
|
| 5 |
+
|
| 6 |
+
## 项目亮点
|
| 7 |
+
|
| 8 |
+
1. 技术优势一 :30多道流程的数据清洗
|
| 9 |
+
|
| 10 |
+
随着NLP技术的发展,预训练大模型逐渐成为了人工智能的核心技术之一。预训练大模型通常需要海量的文本来进行训练,网络文本自然成为了最重要的语料来源。而训练语料的质量无疑直接影响着模型的效果。为了训练出能力出众的模型,奇点智源在数据清洗时使用了30多道的清洗流程。精益求精的细节处理,铸造了卓越的模型效果。
|
| 11 |
+
|
| 12 |
+
2. 技术优势二:针对中文优化创新的中文编码方式
|
| 13 |
+
|
| 14 |
+
曾经在预训练大模型领域,一直是被英文社区主导着,而中文预训练大模型的重要性不言而喻。不同于英文的拼音文字,中文预训练大模型的中文输入方式显然应该有所不同。奇点智源针对中文的特点,优化创新使用了独特的中文编码方式,更加符合中文的语言习惯,重新构建出更利于模型理解的中文字典。
|
| 15 |
+
|
| 16 |
+
|
| 17 |
+
|
| 18 |
+
# 奇点新闻
|
| 19 |
+
|
| 20 |
+
- [2022.12.15] [昆仑天工AIGC发布会](https://live.vhall.com/v3/lives/subscribe/697547540)
|
| 21 |
+
|
| 22 |
+
|
| 23 |
+
|
| 24 |
+
## 依赖
|
| 25 |
+
|
| 26 |
+
```
|
| 27 |
+
推荐
|
| 28 |
+
transformers>=4.16.0
|
| 29 |
+
```
|
| 30 |
+
|
| 31 |
+
## 模型使用
|
| 32 |
+
|
| 33 |
+
```python
|
| 34 |
+
# -*- coding: utf-8 -*-
|
| 35 |
+
from transformers import GPT2LMHeadModel
|
| 36 |
+
from transformers import AutoTokenizer
|
| 37 |
+
from transformers import TextGenerationPipeline
|
| 38 |
+
|
| 39 |
+
model = GPT2LMHeadModel.from_pretrained("SkyWork/SkyTextJunior")
|
| 40 |
+
tokenizer = AutoTokenizer.from_pretrained("SkyWork/SkyTextJunior", trust_remote_code=True)
|
| 41 |
+
text_generator = TextGenerationPipeline(model, tokenizer, device=0)
|
| 42 |
+
input_str = "今天是个好天气"
|
| 43 |
+
max_new_tokens = 20
|
| 44 |
+
print(text_generator(input_str, max_new_tokens=max_new_tokens, do_sample=True))
|
| 45 |
+
```
|
| 46 |
+
|
| 47 |
+
# 版权许可
|
| 48 |
+
|
| 49 |
+
[MIT License]
|