Spaces:

3tic
/

README

Running

File size: 1,786 Bytes

---
title: README
emoji: 📚
colorFrom: indigo
colorTo: blue
sdk: static
pinned: false
---

Orion - 针对轻小说场景训练、优化的翻译模型

**20260124更新：[Orion-HYMT1.5-1.8B-SFT-v2601](https://huggingface.co/3tic/Orion-HYMT1.5-1.8B-SFT-v2601) 训练完成，轻量且效果较好，推荐使用此模型！**


### 已完成
* 收集轻小说语料：70000+本日文轻小说档案，16000+本中文翻译档案
* 日版-翻译档配对：3000+对
* 日-中翻译对：9,800,000对
* 训练数据合成：9,000,000+行，约7,150,000,000+字符
* NER模型：[Orion-NER-110M-v1](https://huggingface.co/3tic/Orion-NER-110M-v1)已上传权重和训练数据
* [HunYuan MT1.5-7B](https://huggingface.co/3tic/Orion-HYMT1.5-7B-SFT-v2601) 模型微调（SFT阶段）
* [Orion-Qwen3-1.7B-SFT-v2601](https://huggingface.co/3tic/Orion-Qwen3-1.7B-SFT-v2601) 模型微调（SFT阶段）
* [HunYuan MT1.5-1.8B](https://huggingface.co/3tic/Orion-HYMT1.5-1.8B-SFT-v2601) 模型微调（SFT阶段）
* [Orion-Qwen3-4B-SFT-v2601](https://huggingface.co/3tic/Orion-Qwen3-4B-SFT-v2601) 模型微调（SFT阶段）


### 正在进行
* Qwen3 1.7B 大规模继续预训练（CPT）
* 构建高质量偏好对齐数据集
* 训练轻小说领域的翻译质量评估模型（LightComet）
 
### 即将进行
* HunYuan MT1.5-1.8B 模型偏好对齐
* Qwen3 1.7B 模型偏好对齐
  
### 后续计划


训练数据持续更新、优化中……

========================================
#### Timeline
* 2025-02 开坑
* 2025-04~2025-08 90000+本轻小说文档库构建完成
* 2025-09~2025-12 轻小说文档数据清洗、配对完成，NER模型[Orion-NER-110M-v1](https://huggingface.co/3tic/Orion-NER-110M-v1)训练完成
* 2026-01~现在 训练数据准备完成，模型训练中