LongCat-Flash Technical Report
Paper
•
2509.01322
•
Published
•
7
我们的模型叫 福尔摩斯(Holmes)
训练相关代码(github) https://github.com/Eric-is-good/pretrain-LLM-from-scratch
训练相关报告(知乎) https://www.zhihu.com/column/c_1834334189455011840
福尔摩斯采用的理念可以用他的一句话概括:“人脑就像一间小阁楼,杂物堆得越多,越难找到有用的东西。”他认为只应保留那些与侦探工作有关的知识,而其他不相关的信息会占用他的“心智空间”。因此,他选择忽略了“地球绕太阳转”这类科学常识。
福尔摩斯为了自己的演绎法推理能力,甚至舍弃了地球绕着太阳转的常识。 我们也希望制作一个专注数学和推理能力的小模型,大胆舍弃其他一切可以舍弃的。
模型特点:我们的模型是原生思维链模型,将思维链内化到模型本身,即在预训练过程中教会模型思维链式思考方式。