Update README.md
Browse files
README.md
CHANGED
|
@@ -1,3 +1,27 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: mit
|
| 3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: mit
|
| 3 |
+
datasets:
|
| 4 |
+
- a686d380/h-corpus-2023
|
| 5 |
+
language:
|
| 6 |
+
- zh
|
| 7 |
+
base_model:
|
| 8 |
+
- Qwen/Qwen2.5-7B
|
| 9 |
+
---
|
| 10 |
+
|
| 11 |
+
## 使用了Megatron CPT训练的轻小说大模型
|
| 12 |
+
使用了Pai Megatron + 32K Sequence Length + FP8 + H100 集群训练
|
| 13 |
+
|
| 14 |
+
轻小说数据在7G左右,这个版本是CPT版本,没有SFT,请不要期待指令跟随。
|
| 15 |
+
|
| 16 |
+
轻小说数据来源包括 https://github.com/ixinzhi/lightnovel-2023
|
| 17 |
+
清洗脚本晚些可能公开
|
| 18 |
+
|
| 19 |
+
7B模型整体效果感觉马马虎虎,已经训练好32B的模型,32B版本逻辑性非常好。
|
| 20 |
+
|
| 21 |
+
如果模型载入有问题的话,请用qwen2.5原本的tokenizer、vocab等等覆盖一下,我只有权重的megatron转换出来的。
|
| 22 |
+
|
| 23 |
+
模型的翻译腔是预期效果?
|
| 24 |
+
|
| 25 |
+
|
| 26 |
+
|
| 27 |
+

|