现在关于target model的hidden state注入

dflash的做法是，抽5层的feature过一下fc然后concat到mask token对应的hidden state前面

但是如果我们的draft是用lora的原始模型

我们不用这样注入

我们可以直接把target model的hidden state直接层对层拉过来

我是把加了lora后的模型作为draft model用的

它本质上还是一个speculative decode

我的想法的核心是，因为这个draft model足够大，也和target model足够像，把他转为和dflash一样每次用mask直接生成16个token，可能能得到很长的accept len，以此获得加速

而dflash能work的核心是，它在生成阶段是使用的部分target model的hidden state，注入到mask token的hidden state前面

我们也用相同的做法

带lora的模型，lora只负责让它能并行解码16个mask token，但是前面的上下文信息，依然用原始model跑出来的，通过注入放进draft的时候

而且由于模型结构的一致，我们可以直接层对层注入进去