修正版 DeepSeek-R1 671B 模型文件 (适用于微调)
项目简介
本项目提供了一个针对 DeepSeek-R1 671B 大语言模型的 modeling_deepseek.py 文件的修正版本。
官方 Hugging Face Transformers 库中提供的原始 modeling_deepseek.py 文件在进行模型微调 (Fine-tuning) 时,可能存在一些已知或未知的问题。
这个修改后的版本旨在解决这些在微调过程中可能遇到的障碍,使得研究人员和开发者能够更顺畅、更稳定地对 DeepSeek-R1 671B 模型进行微调。