🪨 Marble SLM
Collection
2 items • Updated
Marble-3B 是以 ibm-granite/granite-3.1-3b-a800m-base(IBM Granite 3.1 3B-A800M MoE)為基底,針對繁體中文與中華民國台灣語境完成持續預訓練(CPT)之 MoE 基底模型,作為 Marble-3B-Instruct 等下游模型的繁中底座。
⚠️ 規格重點: 本模型為 3B Mixture-of-Experts(MoE)基底模型、純文本單模態、僅做 CPT、未做指令微調,需自行 SFT 後才有對話能力。
IBM Granite 3.1 系列引入 MoE 架構(3B 總參數、800M 活化參數),在推論成本與能力之間提供有趣的折衷點。Marble-3B 把繁中與台灣語境語料注入 Granite 3.1 3B-A800M,使下游任務能在 MoE 架構下取得繁中底層能力,兼顧推論效率與多領域覆蓋。
核心特點 (Key Features)
@misc{marble_3b,
title = {Marble-3B: A Traditional Chinese Continued-Pretrained Granite 3B-A800M MoE Model for Taiwan},
author = {Huang, Liang Hsun},
year = {2025},
howpublished = {\url{https://huggingface.co/lianghsun/Marble-3B}}
}