rinne1998 commited on
Commit
9709168
·
verified ·
1 Parent(s): 4ee083d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +20 -7
README.md CHANGED
@@ -9,23 +9,36 @@ pinned: false
9
 
10
  Orion - 针对轻小说场景训练、优化的翻译模型
11
 
12
- ## 已完成
13
  * 收集轻小说语料:70000+本日文轻小说档案,16000+本中文翻译档案
14
  * 日版-翻译档配对:3000+对
15
  * 日-中翻译对:9,800,000对
16
  * 训练数据合成:9,000,000+行,约7,150,000,000+字符
17
 
18
- ## 正在进行
19
  * HunYuan MT1.5-1.8B 模型微调(SFT阶段)
20
  * HunYuan MT1.5-7B 模型微调(SFT阶段)
21
 
22
- ## 即将进行
23
- * HunYuan MT1.5-1.8B 模型对齐(DPO/GRPO阶段)
24
- * HunYuan MT1.5-7B 模型对齐(DPO/GRPO阶段)
25
 
26
- ## 后续计划
27
  * Qwen3 1.7B/4B/8B/14B系列 微调
28
  * Seed-X系列 微调
29
 
30
 
31
- 训练数据持续更新、优化中……
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9
 
10
  Orion - 针对轻小说场景训练、优化的翻译模型
11
 
12
+ ### 已完成
13
  * 收集轻小说语料:70000+本日文轻小说档案,16000+本中文翻译档案
14
  * 日版-翻译档配对:3000+对
15
  * 日-中翻译对:9,800,000对
16
  * 训练数据合成:9,000,000+行,约7,150,000,000+字符
17
 
18
+ ### 正在进行
19
  * HunYuan MT1.5-1.8B 模型微调(SFT阶段)
20
  * HunYuan MT1.5-7B 模型微调(SFT阶段)
21
 
22
+ ### 即将进行
23
+ * HunYuan MT1.5-1.8B 模型偏好对齐(DPO/GRPO阶段)
24
+ * HunYuan MT1.5-7B 模型偏好对齐(DPO/GRPO阶段)
25
 
26
+ ### 后续计划
27
  * Qwen3 1.7B/4B/8B/14B系列 微调
28
  * Seed-X系列 微调
29
 
30
 
31
+ 训练数据持续更新、优化中……
32
+
33
+ ========================================
34
+ #### Timeline
35
+ * 2025-02 开坑
36
+ * 2025-04~2025-08 90000+本轻小说文档库构建完成 (https://epub.moe)
37
+ * 2025-09~2025-12 轻小说文档数据清洗、配对完成
38
+ * 2026-01~现在 训练数据准备完成,模型训练中
39
+
40
+
41
+ 预计2026年1月中旬完成第一批模型训练,届时将上传模型权重,同时开放训练数据(原始平行语句数据、模型训练用数据)、训练命令以及过程信息。
42
+
43
+ 相关交流学习/建议:```QQ Group 107#746#955#1```
44
+