Spaces:

3tic
/

README

Running

App Files Files Community

README / README.md

rinne1998

Update README.md

e15630f verified 13 days ago

preview code

raw

history blame contribute delete

1.79 kB

	---
	title: README
	emoji: 📚
	colorFrom: indigo
	colorTo: blue
	sdk: static
	pinned: false
	---

	Orion - 针对轻小说场景训练、优化的翻译模型

	20260124更新：[Orion-HYMT1.5-1.8B-SFT-v2601](https://huggingface.co/3tic/Orion-HYMT1.5-1.8B-SFT-v2601) 训练完成，轻量且效果较好，推荐使用此模型！


	### 已完成
	* 收集轻小说语料：70000+本日文轻小说档案，16000+本中文翻译档案
	* 日版-翻译档配对：3000+对
	* 日-中翻译对：9,800,000对
	* 训练数据合成：9,000,000+行，约7,150,000,000+字符
	* NER模型：[Orion-NER-110M-v1](https://huggingface.co/3tic/Orion-NER-110M-v1)已上传权重和训练数据
	* [HunYuan MT1.5-7B](https://huggingface.co/3tic/Orion-HYMT1.5-7B-SFT-v2601) 模型微调（SFT阶段）
	* [Orion-Qwen3-1.7B-SFT-v2601](https://huggingface.co/3tic/Orion-Qwen3-1.7B-SFT-v2601) 模型微调（SFT阶段）
	* [HunYuan MT1.5-1.8B](https://huggingface.co/3tic/Orion-HYMT1.5-1.8B-SFT-v2601) 模型微调（SFT阶段）
	* [Orion-Qwen3-4B-SFT-v2601](https://huggingface.co/3tic/Orion-Qwen3-4B-SFT-v2601) 模型微调（SFT阶段）


	### 正在进行
	* Qwen3 1.7B 大规模继续预训练（CPT）
	* 构建高质量偏好对齐数据集
	* 训练轻小说领域的翻译质量评估模型（LightComet）

	### 即将进行
	* HunYuan MT1.5-1.8B 模型偏好对齐
	* Qwen3 1.7B 模型偏好对齐

	### 后续计划


	训练数据持续更新、优化中……

	========================================
	#### Timeline
	* 2025-02 开坑
	* 2025-04~2025-08 90000+本轻小说文档库构建完成
	* 2025-09~2025-12 轻小说文档数据清洗、配对完成，NER模型[Orion-NER-110M-v1](https://huggingface.co/3tic/Orion-NER-110M-v1)训练完成
	* 2026-01~现在训练数据准备完成，模型训练中