Safetensors
Chinese
ViperEk commited on
Commit
f5c7b44
·
1 Parent(s): 78ce20c

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -0
README.md CHANGED
@@ -12,6 +12,8 @@ language:
12
 
13
  这是一个支持中文和英文双语言的Transfomer模型,包含模型设置和训练流程, 通过加载`params/config.json` 中的设定的参数完成训练, 使用`train.py`解析命令行参数,包括数据集根目录、训练轮数、批处理大小、保存检查点的间隔轮数以及检查点保存目录。
14
 
 
 
15
  - **设备选择**:当前代码默认使用CUDA进行训练
16
  - **性能优化**:代码中设置了`dtype=torch.bfloat16`来启用混合精度训练,这有助于提高训练速度和降低显存消耗,但需确保硬件支持此特性。
17
  - **语言支持**:该模型目前仅仅在中文数据集上训练, 因此通过英文对话可能出现问题, 但是训练tokenzier 的时候加入了英文文段, 也可以解码英文token
 
12
 
13
  这是一个支持中文和英文双语言的Transfomer模型,包含模型设置和训练流程, 通过加载`params/config.json` 中的设定的参数完成训练, 使用`train.py`解析命令行参数,包括数据集根目录、训练轮数、批处理大小、保存检查点的间隔轮数以及检查点保存目录。
14
 
15
+ 代码部分在:https://github.com/ViperEkura/KHAOSZ/tree/main
16
+
17
  - **设备选择**:当前代码默认使用CUDA进行训练
18
  - **性能优化**:代码中设置了`dtype=torch.bfloat16`来启用混合精度训练,这有助于提高训练速度和降低显存消耗,但需确保硬件支持此特性。
19
  - **语言支持**:该模型目前仅仅在中文数据集上训练, 因此通过英文对话可能出现问题, 但是训练tokenzier 的时候加入了英文文段, 也可以解码英文token