jslin09
/

KuiXing

+---
+license: apache-2.0
+datasets:
+- HuggingFaceFW/fineweb-2
+language:
+- en
+- zh
+base_model:
+- jslin09/KuiXing
+---
+# KuiXing(魁星)-1.15B — 繁中 / 英 MoE 大型語言模型訓練框架
+**KuiXing(魁星)-1.15B** 是一個從零開始訓練的 ~1.15B 參數稀疏 Mixture-of-Experts (MoE) 語言模型，支援繁體中文、簡體中文與英文，最大 context window 為 **1M tokens**（訓練 128K + YaRN 外推 ×8）。詞彙量擴充至 **56K**，對中文字符與多語言符號有更完整的覆蓋。
+> **平台**：NVIDIA CUDA · Apple Silicon (MPS) · CPU — 三平台自動偵測，無需修改任何程式碼。
+---
+## 目錄
+- [模型架構](#模型架構)
+- [環境安裝](#環境安裝)
+- [快速開始](#快速開始)
+- [資料集設定](#資料集設定)
+- [訓練模式](#訓練模式)
+- [CLI 完整參數](#cli-完整參數)
+- [發布存檔格式](#發布存檔格式)
+- [專案結構](#專案結構)
+- [常見問題](#常見問題)
+- [授權](#授權)
+---
+## 模型架構
+| 項目 | 數值 |
+|------|------|
+| 總參數量 | ~1.15B |
+| 激活參數量（推理時）| ~460M |
+| 隱藏層總數 | 24 |
+| 其中 Dense 層 | 16（每 3 層中的前 2 層）|
+| 其中 MoE 層 | 8（每 3 層中的第 3 層）|
+| 隱藏維度 | 2048 |
+| Attention 機制 | GQA — Q heads: 16 / KV heads: 4 |
+| Head 維度 | 128 |
+| Dense FFN 中間維度 | 5632（SwiGLU）|
+| MoE 專家數 | 16（top-2 稀疏激活）|
+| 每個 Expert 中間維度 | 2048 |
+| 位置編碼 | YaRN RoPE（θ=500000, factor=8）|
+| 訓練 context 長度 | 128K tokens |
+| 推理 context 長度 | 最大 **1M tokens**（YaRN 外推）|
+| 注意力策略 | 偶數層：全注意力；奇數層：Sliding Window (4096)|
+| Normalization | RMSNorm（ε=1e-5，float32 計算）|
+| 詞彙量 | 56,000（SentencePiece BPE）|
+| MoE 輔助損失 | Load Balancing Loss + Router Z-Loss |
+---
+## 環境安裝
+### NVIDIA CUDA（推薦）
+```bash
+# PyTorch with CUDA 12.1
+pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
+pip install transformers datasets sentencepiece tensorboard accelerate safetensors
+```
+### Apple Silicon（macOS 12.3+）
+```bash
+# PyTorch with MPS（BF16 需 PyTorch >= 2.3）
+pip install torch torchvision torchaudio
+pip install transformers datasets sentencepiece tensorboard accelerate safetensors
+```
+> **注意**：macOS 上的 OpenMP 衝突問題已由程式自動處理，不需要手動設定環境變數。
+### 最低 Python 版本
+Python **3.10+**（使用了 walrus operator `:=`）
+---
+## 快速開始
+### 步驟 0：確認平台偵測
+```bash
+python train_llm.py --mode info
+```
+輸出範例（Apple M2 Pro）：
+```json
+{
+  "device": "mps",
+  "device_name": "Apple M2 Pro",
+  "use_bf16": true,
+  "recommended_batch": 1,
+  "fused_adamw": false,
+  "dataloader_workers": 0
+}
+```
+### 步驟 1：訓練分詞器（首次執行，只需一次）
+```bash
+python train_llm.py --mode tokenizer --data_dir ./data
+```
+從 FineWeb2 下載約 500 萬行語料訓練 SentencePiece BPE 分詞器（56K 詞彙，中英文及多語言 character coverage 99.95%）。
+### 步驟 2：訓練模型
+```bash
+# 最簡單：使用預設 FineWeb2，所有超參數自動偵測
+python train_llm.py --mode train --model_name kuixing-1.15b
+# 使用自訂資料集設定
+python train_llm.py --mode train \
+    --dataset_config dataset_config.json \
+    --mix_strategy weighted \
+    --model_name kuixing-1.15b
+```
+### 步驟 3：推論測試
+```bash
+python train_llm.py --mode demo
+```
+---
+## 資料集設定
+支援三種方式指定訓練資料，可任意混合多個來源。
+### 方式 1：JSON 設定檔（最彈性）
+```bash
+python train_llm.py --mode train --dataset_config dataset_config.json
+```
+參見 [`dataset_config.json`](dataset_config.json) 範例（FineWeb2 + Wikipedia 混合）。
+`dataset_config_local.json` 示範本地 JSONL 檔案的用法。
+**DatasetSource 完整欄位：**
+| 欄位 | 型別 | 預設 | 說明 |
+|------|------|------|------|
+| `source` | str | `"huggingface"` | `huggingface` / `local_files` / `local_dir` |
+| `path` | str | — | HF dataset id 或本地路徑（多檔用逗號分隔）|
+| `name` | str | `""` | HF subset name，如 `"20231101.zh"` |
+| `split` | str | `"train"` | HF split |
+| `text_field` | str | `"text"` | 要讀取的欄位名稱 |
+| `filter_field` | str | `""` | 過濾欄位（空=不過濾）|
+| `filter_values` | list | `[]` | 允許通過的值清單 |
+| `streaming` | bool | `true` | 串流載入（省記憶體）|
+| `shuffle` | bool | `true` | 是否打亂 |
+| `buffer_size` | int | `10000` | shuffle 緩衝大小 |
+| `min_length` | int | `50` | 最短文字長度（字元）|
+| `max_samples` | int | `0` | 最多取用樣本數（0=不限）|
+| `weight` | float | `1.0` | weighted 混合時的取樣比例 |
+| `file_format` | str | `"txt"` | 本地格式：`txt` / `jsonl` / `csv` |
+| `glob_pattern` | str | `"**/*.txt"` | local_dir 模式的 glob |
+| `csv_delimiter` | str | `","` | CSV 分隔符 |
+| `seed` | int | `42` | 隨機種子 |
+| `label` | str | _(path basename)_ | 日誌顯示標籤 |
+### 方式 2：CLI 快速指定
+```bash
+# HuggingFace 資料集
+python train_llm.py --mode train \
+    --dataset_path "wikimedia/wikipedia" \
+    --dataset_name "20231101.zh" \
+    --text_field "text"
+# 本地 JSONL 檔案
+python train_llm.py --mode train \
+    --dataset_path "/data/corpus.jsonl" \
+    --source_type local_files \
+    --file_format jsonl \
+    --text_field "content"
+# 本地目錄（掃描所有 .txt）
+python train_llm.py --mode train \
+    --dataset_path "/data/articles/" \
+    --source_type local_dir \
+    --file_format txt
+```
+### 方式 3：預設 FineWeb2（無需額外設定）
+```bash
+# 預設語言：簡體中文 + 繁體中文 + 英文
+python train_llm.py --mode train
+# 自訂語言過濾
+python train_llm.py --mode train --langs "zho_Hans,eng_Latn"
+```
+### 多來源混合策略
+```bash
+# sequential（預設）：依序消耗每個來源
+python train_llm.py --mode train --dataset_config dataset_config.json
+# weighted：依 weight 比例同時交錯取樣（推薦多語料混訓）
+python train_llm.py --mode train \
+    --dataset_config dataset_config.json \
+    --mix_strategy weighted
+```
+---
+## 訓練模式
+### 從頭訓練（Pretrain）
+```bash
+python train_llm.py --mode train \
+    --model_name kuixing-1.15b \
+    --max_steps 1000000 \
+    --seq_len 4096 \
+    --lr 2e-4
+```
+### 接續訓練（Continue）
+**從 Trainer Checkpoint 接續**（訓練中斷後繼續，保留優化器狀態與步驟）：
+```bash
+python train_llm.py --mode train \
+    --train_mode continue \
+    --resume_from_checkpoint ./checkpoints/checkpoint-50000 \
+    --max_steps 1000000
+```
+**從 Release Export 接續**（換資料集繼續預訓練，步驟重設）：
+```bash
+python train_llm.py --mode train \
+    --train_mode continue \
+    --resume_from_checkpoint ./checkpoints/release/kuixing-1.15b-20250101_120000/model \
+    --dataset_path "wikimedia/wikipedia" \
+    --dataset_name "20231101.zh" \
+    --lr 1e-4 \
+    --max_steps 200000
+```
+### 重新發布存檔
+對已完成訓練的 checkpoint 重新打包（不需重新訓練）：
+```bash
+python train_llm.py --mode export \
+    --output_dir ./checkpoints \
+    --tokenizer_model ./data/spm_tokenizer.model \
+    --model_name kuixing-1.15b
+```
+---
+## CLI 完整參數
+```
+--mode              train | tokenizer | demo | info | export
+--model_name        發布名稱前綴（預設: kuixing-1.15b）
+--data_dir          分詞器語料目錄（預設: ./data）
+--output_dir        訓練輸出目錄（預設: ./checkpoints）
+--tokenizer_model   SPM 模型路徑（預設: ./data/spm_tokenizer.model）
+訓練模式：
+--train_mode        pretrain（預設）| continue
+--resume_from_checkpoint  接續訓練的 checkpoint 路徑
+資料集（三選一）：
+--dataset_config    JSON 設定檔路徑（最高優先）
+--dataset_path      單一資料集路徑（HF id 或本地路徑）
+--dataset_name      HF subset name
+--dataset_split     HF split（預設: train）
+--text_field        文字欄位名稱（預設: text）
+--filter_field      過濾欄位名稱
+--filter_values     過濾值，逗號分隔
+--source_type       huggingface | local_files | local_dir
+--file_format       txt | jsonl | csv
+--langs             FineWeb2 語言清單，逗號分隔（預設行為）
+--mix_strategy      sequential（預設）| weighted
+--no_streaming      停用串流，完整下載後載入
+超參數：
+--batch_size        per-device batch size（-1=自動）
+--grad_accum        gradient accumulation steps（-1=自動）
+--lr                學習率（預設: 2e-4）
+--max_steps         總訓練步數（串流資料集用；預設 1,000,000）
+                    與 --num_epochs 同時指定時 epoch 模式優先
+--num_epochs        訓練 epoch 數（有限資料集用；-1=停用，改用 --max_steps）
+                    適合本地資料集或固定大小的 HuggingFace 資料集
+--seq_len           訓練序列長度（預設: 4096）
+--warmup_steps      warmup 步數（預設: 4000）
+Checkpoint 儲存（--save_steps 與 --save_total_limit 搭配使用）：
+--save_steps        每幾步儲存一個 checkpoint（預設: 5000）
+--save_total_limit  最多同時保留幾份 checkpoint（預設: 3）
+                      0 = 無限制，保留所有 checkpoint
+                      例: --save_steps 2000 --save_total_limit 10
+精度：
+--bf16              BF16：-1=自動，0=關，1=開
+--fp16              FP16：-1=自動，0=關，1=開
+Loss 記錄：
+--loss_log_file     Training loss CSV 路徑
+                      空字串 = 自動使用 {output_dir}/training_loss.csv
+                      接續訓練時自動 append，不覆蓋已有記錄
+其他：
+--no_grad_ckpt      停用 gradient checkpointing
+--workers           DataLoader workers（-1=自動）
+```
+---
+## Training Loss 記錄與繪圖
+### CSV 格式
+訓練過程中自動產生 `{output_dir}/training_loss.csv`（或 `--loss_log_file` 指定路徑）：
+```
+step,epoch,loss,learning_rate,grad_norm,samples_seen,elapsed_sec
+100,0.0,8.312451,0.0002,1.2341,3200,45.2
+200,0.0,7.891234,0.00019,1.1892,6400,89.7
+...
+1000000,0.0,2.341200,2e-05,0.8123,3200000,18420.0
+1000000,0.0,END,,,,18421.1
+```
+- **接續訓練**：自動 append，`END` 行標記每段訓練結束，可區分多次訓練
+- **即時 flush**：每個 log step 寫入後立即 flush，中斷也不丟失記錄
+### 繪圖工具 `plot_loss.py`
+```bash
+# 基本使用（讀取預設 CSV，輸出 PNG）
+python plot_loss.py
+# 指定路徑與輸出
+python plot_loss.py \
+    --csv ./checkpoints/training_loss.csv \
+    --out ./loss_curve.png
+# 印出訓練摘要統計（最終 loss、最低點、收斂步數）
+python plot_loss.py --summary
+# 比較 pretrain + continue 兩段訓練
+python plot_loss.py \
+    --csv ./run1/training_loss.csv ./run2/training_loss.csv \
+    --labels "Pretrain" "Continue (Wikipedia)" \
+    --out compare.png
+# 以訓練時間為 X 軸，顯示互動視窗
+python plot_loss.py --x_axis elapsed_sec --show
+# 過濾初期 spike，調整平滑視窗
+python plot_loss.py --max_loss 10.0 --smooth 100
+```
+圖表包含三個面板：
+| 面板 | 內容 |
+|------|------|
+| Loss 曲線 | 原始 loss（半透明）+ 滾動平均平滑，自動標記最低點 |
+| Learning Rate | Cosine decay + warmup 排程曲線 |
+| Gradient Norm | L2 norm 趨勢（反映訓練穩定性）|
+---
+## 發布存檔格式
+訓練完成後自動產生（也可用 `--mode export` 手動觸發）：
+```
+checkpoints/release/{model_name}-{timestamp}/
+├── model/
+│   ├── model.safetensors      # 模型權重（SafeTensors，推薦）
+│   ├── pytorch_model.bin      # 模型權重（PyTorch bin，相容備用）
+│   ├── config.json            # 架構與超參數設定
+│   └── generation_config.json # 預設生成參數
+├── tokenizer/
+│   ├── spm_tokenizer.model    # SentencePiece 模型
+│   ├── spm_tokenizer.vocab    # 詞彙表（piece + BPE score）
+│   ├── tokenizer_config.json  # HuggingFace tokenizer 設定
+│   └── special_tokens_map.json
+├── model_card.md              # HuggingFace Hub 模型說明卡
+├── manifest.json              # 所有檔案 SHA-256 + 大小清單
+└── release_info.json          # 訓練環境、超參數完整快照
+```
+---
+## 建議硬體配置
+| 硬體 | batch | grad_accum | seq_len | 精度 |
+|------|-------|------------|---------|------|
+| A100 80G | 4 | 8 | 4096 | BF16 |
+| A100 40G | 2 | 16 | 4096 | BF16 |
+| RTX 4090 24G | 1 | 32 | 2048 | BF16 |
+| RTX 3090 24G | 1 | 32 | 2048 | FP16 |
+| M3 Max 128G | 2 | 16 | 4096 | BF16 |
+| M2 Ultra 192G | 2 | 16 | 4096 | BF16 |
+| M2 Max 96G | 1 | 32 | 2048 | BF16 |
+| M1/M2 16-24G | 1 | 32 | 1024 | FP32 |
+> **1M context 推理**需搭配 Flash Attention 2（CUDA A100/H100）或足夠的 Apple Silicon Unified Memory。訓練時 `seq_len=4096` 即可；長上下文外推由 YaRN 在推理時自動完成。
+---
+## 專案結構
+```
+.
+├── train_llm.py                 # 主程式（分詞器 / 訓練 / 推論 / 存檔）
+├── plot_loss.py                 # Training loss 曲線繪圖工具
+├── dataset_config.json          # 多來源混合範例（FineWeb2 + Wikipedia）
+├── dataset_config_local.json    # 本地 JSONL 資料集範例
+├── requirements.txt             # Python 套件需求
+├── README.md                    # 本文件
+├── CHANGELOG.md                 # 版本變更記錄
+├── LICENSE                      # Apache 2.0 授權
+└── .gitignore                   # Git 排除規則
+```
+---
+## 常見問題
+**Q: macOS 出現 `OMP: Error #15: Initializing libomp.dylib` 然後 abort？**
+A: 這是 macOS 上 PyTorch、sentencepiece 等套件各自靜態連結不同版本 libomp 所導致的衝突。本程式已在啟動時自動設定 `KMP_DUPLICATE_LIB_OK=TRUE` 等環境變數，理論上不會出現此問題。若仍發生，請確認您使用的是 `python train_llm.py` 而非直接 import 本模組。
+**Q: MPS 上訓練比 CPU 還慢？**
+A: 部分運算（如 MoE router 的 scatter/gather）在 MPS 上會 fallback 至 CPU，導致額外的資料搬移開銷。可嘗試減小 `--seq_len` 或 `--batch_size` 以提高 Metal GPU 利用率。
+**Q: 1M context 真的能用嗎？**
+A: 訓練時固定使用 `--seq_len 4096`（或自訂），推理時 YaRN 外推讓模型能處理更長序列。實際最大長度受限於可用記憶體：80GB A100 約可推理 128K–512K tokens（使用 Flash Attention + KV cache 量化）。
+**Q: `safetensors` 套件未安裝時怎麼辦？**
+A: 程式會自動偵測。若未安裝，則跳過 SafeTensors 格式，仍輸出 `pytorch_model.bin`。建議安裝：`pip install safetensors`。
+**Q: 如何只訓練分詞器而不訓練模型？**
+A: `python train_llm.py --mode tokenizer --data_dir ./data`
+---
+## 授權
+本專案採用 **Apache License 2.0**。詳見 [LICENSE](LICENSE)。
+訓練資料 FineWeb2 由 HuggingFace 提供，請遵守其[資料集授權](https://huggingface.co/datasets/HuggingFaceFW/fineweb-2)。