--- title: README emoji: 📚 colorFrom: indigo colorTo: blue sdk: static pinned: false --- Orion - 针对轻小说场景训练、优化的翻译模型 **20260124更新:[Orion-HYMT1.5-1.8B-SFT-v2601](https://huggingface.co/3tic/Orion-HYMT1.5-1.8B-SFT-v2601) 训练完成,轻量且效果较好,推荐使用此模型!** ### 已完成 * 收集轻小说语料:70000+本日文轻小说档案,16000+本中文翻译档案 * 日版-翻译档配对:3000+对 * 日-中翻译对:9,800,000对 * 训练数据合成:9,000,000+行,约7,150,000,000+字符 * NER模型:[Orion-NER-110M-v1](https://huggingface.co/3tic/Orion-NER-110M-v1)已上传权重和训练数据 * [HunYuan MT1.5-7B](https://huggingface.co/3tic/Orion-HYMT1.5-7B-SFT-v2601) 模型微调(SFT阶段) * [Orion-Qwen3-1.7B-SFT-v2601](https://huggingface.co/3tic/Orion-Qwen3-1.7B-SFT-v2601) 模型微调(SFT阶段) * [HunYuan MT1.5-1.8B](https://huggingface.co/3tic/Orion-HYMT1.5-1.8B-SFT-v2601) 模型微调(SFT阶段) * [Orion-Qwen3-4B-SFT-v2601](https://huggingface.co/3tic/Orion-Qwen3-4B-SFT-v2601) 模型微调(SFT阶段) ### 正在进行 * Qwen3 1.7B 大规模继续预训练(CPT) * 构建高质量偏好对齐数据集 * 训练轻小说领域的翻译质量评估模型(LightComet) ### 即将进行 * HunYuan MT1.5-1.8B 模型偏好对齐 * Qwen3 1.7B 模型偏好对齐 ### 后续计划 训练数据持续更新、优化中…… ======================================== #### Timeline * 2025-02 开坑 * 2025-04~2025-08 90000+本轻小说文档库构建完成 * 2025-09~2025-12 轻小说文档数据清洗、配对完成,NER模型[Orion-NER-110M-v1](https://huggingface.co/3tic/Orion-NER-110M-v1)训练完成 * 2026-01~现在 训练数据准备完成,模型训练中