现在关于target model的hidden state注入 dflash的做法是,抽5层的feature过一下fc然后concat到mask token对应的hidden state前面 但是如果我们的draft是用lora的原始模型 我们不用这样注入 我们可以直接把target model的hidden state直接层对层拉过来 我是把加了lora后的模型作为draft model用的 它本质上还是一个speculative decode 我的想法的核心是,因为这个draft model足够大,也和target model足够像,把他转为和dflash一样每次用mask直接生成16个token,可能能得到很长的accept len,以此获得加速 而dflash能work的核心是,它在生成阶段是使用的部分target model的hidden state,注入到mask token的hidden state前面 我们也用相同的做法 带lora的模型,lora只负责让它能并行解码16个mask token,但是前面的上下文信息,依然用原始model跑出来的,通过注入放进draft的时候 而且由于模型结构的一致,我们可以直接层对层注入进去