Tele-AI
/

telechat-7B

Text Generation

Model card Files Files and versions

liuxz0801 commited on Jan 8, 2024

Commit

fa7a697

·

1 Parent(s): 9c662a9

update readme

Files changed (1) hide show

README.md +24 -0

README.md CHANGED Viewed

@@ -1,3 +1,27 @@
 ---
 license: apache-2.0
 ---

 ---
 license: apache-2.0
 ---
+# 模型介绍
+### TeleChat星辰语义大模型
+- TeleChat星辰语义大模型是由中电信人工智能科技有限公司（北京）研发训练的大语言模型，采用1.5万亿 Tokens中英文高质量语料进行训练。
+- 本次开源了对话模型**TeleChat-7B-bot**，以及其`huggingface`格式的权重文件。此外，我们还开源了7B模型的int8和int4量化版本。
+### 模型结构
+我们采用标准的 `Decoder-only` 结构设计了 **TeleChat** 模型，并在模型维度做了如下的一些改进：
+- **位置编码**：我们使用 [Rotary Embedding](https://arxiv.org/pdf/2104.09864.pdf) 的位置编码方法，该方法将相对位置信息依赖集成到 self-attention 中，并且具有较好的位置外推性。Rotary Embedding还可以较好地与Flash-Attention v2 配合使用，将模型的训练速度提升约20%。
+- **激活函数**：我们使用 [SwiGLU](https://arxiv.org/pdf/2002.05202.pdf) 激活函数来替代GELU激活函数 , 为了减少计算量，将`ffn_hidden_size`设置为小于原始SwiGLU中的4倍隐藏层大小。
+- **层标准化**: 基于 [RMSNorm](https://arxiv.org/abs/1910.07467) 的 Pre-Normalization。
+|     | layer_num | hidden_size | ffn_hidden_size | head_num | 是否使用embed-layernorm |
+|-----| --------- | ----------- | --------------- | -------- | ----------------------- |
+| 7B  | 30        | 4096        | 12288           | 32       | 否
+---
+我们开源的TeleChat模型：
+- 支持deepspeed微调，开源了基于deepspeed的训练代码，支持Zero并行显存优化，同时集成了FlashAttention2
+- 多轮能力支持。开源了多轮数据构建方式，针对多轮模型训练集成了针对多轮的mask loss训练方式，更好的聚焦多轮答案，提升问答效果。
+- 外推能力提升。开源了8K训练版本模型，采用 NTK-aware + LogN 外推方式，可以外推到32K。
+- 具备较好的长文生成能力。在工作总结、工作计划、PPT大纲、申论、招标书、邮件、方案、周报、JD写作等长文写作任务重具有较好的表现。