robinfaro
/

time-GPT-1B-6BT

model_hub_mixin

pytorch_model_hub_mixin

Model card Files Files and versions

robinfaro commited on Apr 9, 2025

Commit

45c846c

·

verified ·

1 Parent(s): 8311a4f

Upload moe.py

Files changed (1) hide show

moe.py +2 -1

moe.py CHANGED Viewed

@@ -86,13 +86,14 @@ class MaskedMoE(MoE):
     def forward(self, inputs: torch.Tensor, mask: torch.Tensor):
         inputs_squashed = inputs.view(-1, inputs.shape[-1])
         router_logits = self.router(inputs_squashed)
         mask = torch.cat(
             (mask, torch.ones((mask.shape[0], 1), device=mask.device)),
             dim=1
         )
-        mask = mask.repeat_interleave(self._sequence_length, dim=0)
         router_logits = router_logits*mask
         # note that selected experts will be the same for all orders:

     def forward(self, inputs: torch.Tensor, mask: torch.Tensor):
+        seq_len = inputs.shape[1]
         inputs_squashed = inputs.view(-1, inputs.shape[-1])
         router_logits = self.router(inputs_squashed)
         mask = torch.cat(
             (mask, torch.ones((mask.shape[0], 1), device=mask.device)),
             dim=1
         )
+        mask = mask.repeat_interleave(seq_len, dim=0)
         router_logits = router_logits*mask
         # note that selected experts will be the same for all orders: