FasterDFlash
/

Hanrui

Model card Files Files and versions

Hanrui / syxin /idea.md

Lekr0's picture

Add files using upload-large-folder tool

7c50656 verified about 1 month ago

|

history blame contribute delete

1.03 kB

	现在关于target model的hidden state注入

	dflash的做法是，抽5层的feature过一下fc然后concat到mask token对应的hidden state前面

	但是如果我们的draft是用lora的原始模型

	我们不用这样注入

	我们可以直接把target model的hidden state直接层对层拉过来

	我是把加了lora后的模型作为draft model用的

	它本质上还是一个speculative decode

	我的想法的核心是，因为这个draft model足够大，也和target model足够像，把他转为和dflash一样每次用mask直接生成16个token，可能能得到很长的accept len，以此获得加速

	而dflash能work的核心是，它在生成阶段是使用的部分target model的hidden state，注入到mask token的hidden state前面

	我们也用相同的做法

	带lora的模型，lora只负责让它能并行解码16个mask token，但是前面的上下文信息，依然用原始model跑出来的，通过注入放进draft的时候

	而且由于模型结构的一致，我们可以直接层对层注入进去