dicta-il
/

neodictabert

Model card Files Files and versions

Shaltiel commited on Sep 8, 2025

Commit

1ce3552

·

verified ·

1 Parent(s): 0415065

Update modeling_neobert.py

Files changed (1) hide show

modeling_neobert.py +2 -2

modeling_neobert.py CHANGED Viewed

@@ -206,7 +206,7 @@ class EncoderBlock(nn.Module):
         self.ffn = SwiGLU(config.hidden_size, intermediate_size, config.hidden_size, bias=False)
         # Layer norms
-        rms_norm_cls = nn.RMSNorm if config._attn_implementation != 'onnx_eager' else NeoBERTEagerRMSNorm
         self.attention_norm = rms_norm_cls(config.hidden_size, config.norm_eps)
         self.ffn_norm = rms_norm_cls(config.hidden_size, config.norm_eps)
@@ -315,7 +315,7 @@ class NeoBERT(NeoBERTPreTrainedModel):
         for _ in range(config.num_hidden_layers):
             self.transformer_encoder.append(EncoderBlock(config))
-        rms_norm_cls = nn.RMSNorm if config._attn_implementation != 'onnx_eager' else NeoBERTEagerRMSNorm
         self.layer_norm = rms_norm_cls(config.hidden_size, config.norm_eps)
         # Initialize weights and apply final processing

         self.ffn = SwiGLU(config.hidden_size, intermediate_size, config.hidden_size, bias=False)
         # Layer norms
+        rms_norm_cls = nn.RMSNorm if config._attn_implementation != 'onnx_eager' and hasattr(nn, 'RMSNorm') else NeoBERTEagerRMSNorm
         self.attention_norm = rms_norm_cls(config.hidden_size, config.norm_eps)
         self.ffn_norm = rms_norm_cls(config.hidden_size, config.norm_eps)
         for _ in range(config.num_hidden_layers):
             self.transformer_encoder.append(EncoderBlock(config))
+        rms_norm_cls = nn.RMSNorm if config._attn_implementation != 'onnx_eager' and hasattr(nn, 'RMSNorm') else NeoBERTEagerRMSNorm
         self.layer_norm = rms_norm_cls(config.hidden_size, config.norm_eps)
         # Initialize weights and apply final processing