Update README.md
Browse files
README.md
CHANGED
|
@@ -1,3 +1,55 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: apache-2.0
|
| 3 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: apache-2.0
|
| 3 |
+
---
|
| 4 |
+
鹏城·盘古α介绍
|
| 5 |
+
|
| 6 |
+
中文|English
|
| 7 |
+
|
| 8 |
+
「鹏城·盘古α」由以鹏城实验室为首的技术团队联合攻关,首次基于“鹏城云脑Ⅱ”和国产MindSpore框架的自动混合并行模式实现在2048卡算力集群上的大规模分布式训练,训练出业界首个2000亿参数以中文为核心的预训练生成语言模型。鹏城·盘古α预训练模型支持丰富的场景应用,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出,具备很强的小样本学习能力。
|
| 9 |
+
[技术报告]
|
| 10 |
+
[模型在线推理]
|
| 11 |
+
[模型下载] [盘古small版]
|
| 12 |
+
[模型压缩]
|
| 13 |
+
[模型应用]
|
| 14 |
+
[鹏城·盘古增强版]
|
| 15 |
+
[pangu_on_transformers]
|
| 16 |
+
[GPU推理、Finetune]
|
| 17 |
+
[小样本学习]
|
| 18 |
+
[megatron中文预训练模型]
|
| 19 |
+
[语料数据收集及处理]
|
| 20 |
+
[评测数据集下载]
|
| 21 |
+
[serving展示视频下载]
|
| 22 |
+
[FAQ]
|
| 23 |
+
[MindSpore官网]
|
| 24 |
+
[加入微信交流群]
|
| 25 |
+
[鹏城大模型开发者组织]
|
| 26 |
+
[许可证]
|
| 27 |
+
|
| 28 |
+
要点
|
| 29 |
+
|
| 30 |
+
业界首个2000亿参数中文自回归语言模型「鹏城·盘古α」
|
| 31 |
+
代码、模型逐步全开源
|
| 32 |
+
首创顺序自回归预训练语言模型ALM
|
| 33 |
+
MindSpore超大规模自动并行技术
|
| 34 |
+
模型基于国产全栈式软硬件协同生态(MindSpore+CANN+昇腾910+ModelArts)
|
| 35 |
+
数据集
|
| 36 |
+
|
| 37 |
+
海量语料是预训练模型研究的基础,联合团队从开源开放数据集、common crawl网页数据、电子书等收集了近80TB原始数据。
|
| 38 |
+
|
| 39 |
+
|
| 40 |
+
|
| 41 |
+
搭建了面向大型语料库预处理的分布式集群,通过数据清洗过滤、去重、质量评估等处理流程,构建了一个约1.1TB的高质量中文语料数据集,经统计Token数量约为250B规模。通过对不同的开源数据集独立进行处理,完全清除了跟下游任务相关的标签信息,以保证源数据的无偏性。
|
| 42 |
+
|
| 43 |
+
模型结构
|
| 44 |
+
|
| 45 |
+
|
| 46 |
+
|
| 47 |
+
query层堆叠在transformer层之上。query层的基本结构与transformer层相似,只是引入了一个额外的Query layer,来预测生成下一个query Q的位置。
|
| 48 |
+
|
| 49 |
+
MindSpore超大规模自动并行
|
| 50 |
+
|
| 51 |
+
大集群下高效训练千亿至万亿参数模型,用户需要综合考虑参数量、计算量、计算类型、集群带宽拓扑和样本数量等才能设计出性能较优的并行切分策略,模型编码除了考虑算法以外,还需要编写大量并行切分和通信代码。
|
| 52 |
+
|
| 53 |
+
|
| 54 |
+
|
| 55 |
+
MindSpore是业界首个支持全自动并行的框架,MindSpore多维度自动并行,通过数据并行、算子级模型并行、Pipeline模型并行、优化器模型并行、异构并行、重计算、高效内存复用,及拓扑感知调度,实现整体迭代时间最小(计算时间+通信时间)。编程接口高效易用,实现了算法逻辑和并行逻辑解耦,串行代码自动分布式并行。
|