yfyeung
/

CLSP

@@ -102,6 +102,7 @@ class CLAP(nn.Module):
         )
         # text branch
         self.text_encoder = text_encoder = RobertaModel(
             RobertaConfig.from_pretrained("roberta-base")
         )
@@ -252,8 +253,16 @@ class CLAP(nn.Module):
             audio_encoder_out = F.normalize(audio_encoder_out, dim=-1)
         if text is not None:
             assert text["input_ids"].ndim == 2, text["input_ids"].shape
             text_encoder_out = self.forward_text_encoder(
                 text, freeze_encoder=freeze_text_encoder
             )

         )
         # text branch
+        self.text_tokenizer = RobertaTokenizer.from_pretrained("roberta-base")
         self.text_encoder = text_encoder = RobertaModel(
             RobertaConfig.from_pretrained("roberta-base")
         )
             audio_encoder_out = F.normalize(audio_encoder_out, dim=-1)
         if text is not None:
+            text = self.text_tokenizer(
+                text,
+                padding=True,
+                truncation=True,
+                return_tensors="pt",
+            )
+            text = {
+                k: v.to(device=next(self.parameters()).device) for k, v in text.items()
+            }
             assert text["input_ids"].ndim == 2, text["input_ids"].shape
             text_encoder_out = self.forward_text_encoder(
                 text, freeze_encoder=freeze_text_encoder
             )