Fix: Respect is_causal=False config in forward to enable bidirectional attention
is_causal=False
楼主发现该问题后,我也进行了测试,在CMTEB的任务上简单做了测试,结果如下:
其中
gte_Qwen2-1_5B-original: 代表是官方推理代码
gte_Qwen2-1_5B-bi:手动将modeling_qwen.py中Line 649改为is_causal: bool = False
可以发现明显双向注意力机制效果更好,希望官方check完毕后抓紧合并。
备注:本结果本人使用了其他的prompt,所以不用在意和CMTEB榜单效果不一致,只需要看相对大小即可
· Sign up or log in to comment