Load model during to_device call for eager loading

Move model loading to to_device() since __init__ patching doesn't work
due to timing (CrossEncoder instance is created before this module
is loaded from HuggingFace). to_device() is called during CrossEncoder
initialization, making this effectively eager loading.

Files changed (1) hide show

modeling_zeranker.py +12 -0

modeling_zeranker.py CHANGED Viewed

@@ -234,6 +234,18 @@ def to_device(self: _CE, new_device: torch.device) -> None:
     logger.info(f"Changing device from {global_device} to {new_device}")
     global_device = new_device
 _CE.__init__ = __init__
 _CE.predict = predict

     logger.info(f"Changing device from {global_device} to {new_device}")
     global_device = new_device
+    # Load the model now since __init__ patching doesn't work due to timing
+    # (CrossEncoder instance is created before this module is loaded)
+    if not hasattr(self, "inner_model"):
+        logger.info("Loading model during device setup (eager loading)")
+        self.inner_tokenizer, self.inner_model = load_model(global_device)
+        self.inner_model.eval()
+        self.inner_model.gradient_checkpointing_disable()
+        self.inner_yes_token_id = self.inner_tokenizer.encode(
+            "Yes", add_special_tokens=False
+        )[0]
+        logger.info(f"Model loaded successfully. Yes token ID: {self.inner_yes_token_id}")
 _CE.__init__ = __init__
 _CE.predict = predict