File size: 1,786 Bytes
c0a0811
 
 
 
 
 
 
 
 
4ee083d
 
4181e64
 
 
9709168
4ee083d
 
 
 
18239dc
44fb68d
4181e64
 
e492ffb
 
4181e64
9709168
e492ffb
d4d3878
6ab3fec
4181e64
9709168
e15630f
 
d4d3878
9709168
4ee083d
 
9709168
 
 
 
 
18239dc
 
9709168
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
---
title: README
emoji: 📚
colorFrom: indigo
colorTo: blue
sdk: static
pinned: false
---

Orion - 针对轻小说场景训练、优化的翻译模型

**20260124更新:[Orion-HYMT1.5-1.8B-SFT-v2601](https://huggingface.co/3tic/Orion-HYMT1.5-1.8B-SFT-v2601) 训练完成,轻量且效果较好,推荐使用此模型!**


### 已完成
* 收集轻小说语料:70000+本日文轻小说档案,16000+本中文翻译档案
* 日版-翻译档配对:3000+对
* 日-中翻译对:9,800,000对
* 训练数据合成:9,000,000+行,约7,150,000,000+字符
* NER模型:[Orion-NER-110M-v1](https://huggingface.co/3tic/Orion-NER-110M-v1)已上传权重和训练数据
* [HunYuan MT1.5-7B](https://huggingface.co/3tic/Orion-HYMT1.5-7B-SFT-v2601) 模型微调(SFT阶段)
* [Orion-Qwen3-1.7B-SFT-v2601](https://huggingface.co/3tic/Orion-Qwen3-1.7B-SFT-v2601) 模型微调(SFT阶段)
* [HunYuan MT1.5-1.8B](https://huggingface.co/3tic/Orion-HYMT1.5-1.8B-SFT-v2601) 模型微调(SFT阶段)
* [Orion-Qwen3-4B-SFT-v2601](https://huggingface.co/3tic/Orion-Qwen3-4B-SFT-v2601) 模型微调(SFT阶段)


### 正在进行
* Qwen3 1.7B 大规模继续预训练(CPT)
* 构建高质量偏好对齐数据集
* 训练轻小说领域的翻译质量评估模型(LightComet)
 
### 即将进行
* HunYuan MT1.5-1.8B 模型偏好对齐
* Qwen3 1.7B 模型偏好对齐
  
### 后续计划


训练数据持续更新、优化中……

========================================
#### Timeline
* 2025-02 开坑
* 2025-04~2025-08 90000+本轻小说文档库构建完成
* 2025-09~2025-12 轻小说文档数据清洗、配对完成,NER模型[Orion-NER-110M-v1](https://huggingface.co/3tic/Orion-NER-110M-v1)训练完成
* 2026-01~现在 训练数据准备完成,模型训练中