jinaai
/

xlm-roberta-flash-implementation

@@ -404,6 +404,7 @@ class XLMRobertaPreTrainedModel(PreTrainedModel):
     config_class = XLMRobertaFlashConfig
     base_model_prefix = "roberta"
     supports_gradient_checkpointing = True
     def _set_gradient_checkpointing(self, module, value=False):
         if isinstance(module, XLMRobertaEncoder):

     config_class = XLMRobertaFlashConfig
     base_model_prefix = "roberta"
     supports_gradient_checkpointing = True
+    _supports_param_buffer_assignment = False
     def _set_gradient_checkpointing(self, module, value=False):
         if isinstance(module, XLMRobertaEncoder):