Hanrui / syxin /idea.md
Lekr0's picture
Add files using upload-large-folder tool
7c50656 verified
现在关于target model的hidden state注入
dflash的做法是,抽5层的feature过一下fc然后concat到mask token对应的hidden state前面
但是如果我们的draft是用lora的原始模型
我们不用这样注入
我们可以直接把target model的hidden state直接层对层拉过来
我是把加了lora后的模型作为draft model用的
它本质上还是一个speculative decode
我的想法的核心是,因为这个draft model足够大,也和target model足够像,把他转为和dflash一样每次用mask直接生成16个token,可能能得到很长的accept len,以此获得加速
而dflash能work的核心是,它在生成阶段是使用的部分target model的hidden state,注入到mask token的hidden state前面
我们也用相同的做法
带lora的模型,lora只负责让它能并行解码16个mask token,但是前面的上下文信息,依然用原始model跑出来的,通过注入放进draft的时候
而且由于模型结构的一致,我们可以直接层对层注入进去