ViperEk
/

KHAOSZ

ViperEk commited on Jan 23, 2025

Commit

78ce20c

1 Parent(s): 96c9eeb

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -1,3 +1,13 @@
 ## KHAOSZ
 这是一个支持中文和英文双语言的Transfomer模型，包含模型设置和训练流程， 通过加载`params/config.json` 中的设定的参数完成训练， 使用`train.py`解析命令行参数，包括数据集根目录、训练轮数、批处理大小、保存检查点的间隔轮数以及检查点保存目录。
@@ -115,4 +125,4 @@ while True:
 模型采用权重绑定， embedding层的权重和最后线性层的权重是共享的（比较小的模型都采用这种方式节省参数大小， 因为不采用权重绑定， embedding层假设有14000单词， 将会占用 14000 * 1024 = 143,200,000 参数 ， 也就是 0.14b 参数， 因为词表会占用太多的参数， 所以采用权重绑定是小模型的通用方法）
-另外， 模型参数比较小， 生成速度快， 但是由于训练数据只使用了7gb 的中文数据集， 所以存在生成文段比较混乱的情况， 作为个聊天机器比较适合， 但是对于没有训练过的知识点，会存在胡言乱语的问题

+---
+license: apache-2.0
+datasets:
+- BelleGroup/train_3.5M_CN
+- wangrui6/Zhihu-KOL
+language:
+- zh
+---
 ## KHAOSZ
 这是一个支持中文和英文双语言的Transfomer模型，包含模型设置和训练流程， 通过加载`params/config.json` 中的设定的参数完成训练， 使用`train.py`解析命令行参数，包括数据集根目录、训练轮数、批处理大小、保存检查点的间隔轮数以及检查点保存目录。
 模型采用权重绑定， embedding层的权重和最后线性层的权重是共享的（比较小的模型都采用这种方式节省参数大小， 因为不采用权重绑定， embedding层假设有14000单词， 将会占用 14000 * 1024 = 143,200,000 参数 ， 也就是 0.14b 参数， 因为词表会占用太多的参数， 所以采用权重绑定是小模型的通用方法）
+另外， 模型参数比较小， 生成速度快， 但是由于训练数据只使用了7gb 的中文数据集， 所以存在生成文段比较混乱的情况， 作为个聊天机器比较适合， 但是对于没有训练过的知识点，会存在胡言乱语的问题